본문 바로가기
XR/Contents

[Dataset] 해외 미디어 기업의 데이터셋 공개

by 여기는 정글 2024. 4. 8.

안녕하세요. 정글러입니다.

 

오늘은 해외 방송사에서 공개한 데이터셋에 대해 알아보겠습니다.

KCA의 2월 15일 '디지털트랜스포메이션 시대, 영상.미디어 데이터 구축 및 활용 방안' 연구 보고서를 참고했습니다.

 

1. BBC

BBC는 2022년 5월, AI 제작 및 지능형 영화 촬영 연구자를 위한 오픈 소스 데이터셋을 공개했어요.

https://www.bbc.co.uk/rd/blog/2022-05-artificial-intelligence-machine-learning-cinematography-editing-framing

 

A new dataset to improve TV production using artificial intelligence and machine learning

A TV shoot designed to be edited by a machine learning program or artificial intelligence. Our open-source dataset is for AI production and intelligent cinematography researchers.

www.bbc.co.uk

장편 프레이밍과 편집에 활용하기 위해 전체 장면을 한 번에 녹화할 수 있도록

초고해상도 광각 카메라 4대로 촬영한 오디오, 비디오가 포함되었어요.

이는 사용자와 알고리즘이 편집에서 다양한 시점을 선택하여 편집할 수 있습니다.

그러나 이 데이터셋은 대학, 학술기관, 비상업적 연구를 위한 공공 기관 연구원만 사용하도록 허용했습니다.

 

2. Youtube

동영상 클립의 1000개 클래스에 대한 세그먼트 라벨이 포함된 Youtube-8M segment Dataset입니다.

https://research.google.com/youtube8m/

 

YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research

237KHuman-verified Segment Labels 1000Classes 5.0Avg. Segments / Video

research.google.com

해당 데이터셋은 수백만 개의 유튜브 영상과 3800개 이상의 시각적 개체의 다양한 어휘에서

고품질 기계 생성 주석으로 구성된 대규모 레이블이 지정된 동영상 데이터셋입니다.

이 데이터셋은 시간적 위치 파악을 위한 모델을 훈련할 수 있도록 설계되어서

비전 및 비디어 내용과 맥락을 이해하는 AI 개발에 활용될 수 있습니다.

 

이는 대규모 비디오 이해, 표현 학습, 노이즈 데이터 모델링, 전이 학습 및 비디오에 대한

도메인 적응 접근 방식에 대한 연구에 활용될 것으로 기대한다고 합니다.

 

3. Meta

메타는 초상권을 획득한 5,567명의 개인의 비대면 비디오클립 영상이 포함된 AI학습용 데이터셋을 공개했습니다.

https://ai.meta.com/datasets/casual-conversations-v2-dataset/

 

Casual Conversations v2 Dataset

Overview Casual Conversations v2 is composed of over 5,567 participants (26,467 videos) and intended mainly to be used for assessing the performance of already trained models in computer vision and audio applications for the purposes permitted in our data

ai.meta.com

v2는 피부색이나 성별, 언어 등에 따라 차별하지 않도록 하는 공정한 AI개발에 사용될 목적이라고 합니다.

이는 시각기반 객체인식 및 언어인식을 위한 AI개발에 사용될 가능성이 높습니다.

나이, 성별, 겉보기 피부색 범주는 컴퓨터 비전 작업을 지원하고 언어/방언, 음성 음색은 오디오/음성 연구에 사용이 가능합니다.

 

 

다음엔 국내 데이터셋으로 찾아뵙겠습니다.

감사합니다.