ИИ GPT-4 просмотрел 4 миллиона часов видео на YouTube

В последнее время компании, занимающиеся разработкой искусственного интеллекта, сталкиваются с серьезной проблемой — получением высококачественных обучающих данных. По данным The Wall Street Journal, многие ИИ-компании упираются в стену при решении этого вопроса.

Недавно The New York Times подробно рассказала о том, как некоторые компании пытаются справиться с дефицитом качественных данных для обучения своих ИИ-моделей. Примечательно, что используемые ими методы зачастую находятся в правовой «серой зоне» в отношении авторского права на ИИ.

Так, издание сообщает, что OpenAI, остро нуждаясь в обучающих данных, разработала собственную модель распознавания речи Whisper. Она использовала Whisper для транскрибирования более миллиона часов видео с YouTube, чтобы потом применить эти данные для тренировки своей последней языковой модели GPT-4.

Руководство OpenAI понимало, что такие действия могут быть юридически сомнительными, но сочло их добросовестным использованием. Президент компании Грег Брокман лично участвовал в сборе видео для этих целей.

Представитель OpenAI Линдси Хелд заявила The Verge, что компания использует «уникальные» наборы данных для каждой своей модели, чтобы помочь им «понять мир» и сохранить глобальную конкурентоспособность в исследованиях. По ее словам, OpenAI применяет множество источников, включая общедоступные данные и закрытые партнерские данные, а также рассматривает возможность создания синтетических данных.

Ранее, в 2021 году, OpenAI исчерпала запасы полезных данных и стала рассматривать вариант транскрибирования видео, подкастов и аудиокниг с YouTube, после того как использовала другие доступные ресурсы, такие как компьютерный код с GitHub, базы данных шахматных партий и учебные материалы с Quizlet.

В ответ представитель Google Мэтт Брайант сообщил The Verge, что компания «видела неподтверждённые сообщения» о действиях OpenAI, и подчеркнул, что как файлы robots.txt, так и Условия использования YouTube запрещают несанкционированный сбор или загрузку контента. Глава YouTube Нил Мохан также заявил, что не допустит использования платформы для обучения ИИ-моделей генерации видео, таких как Sora от OpenAI. По словам Брайанта, Google предпринимает «технические и юридические меры» для предотвращения несанкционированного использования контента, когда есть правовые или технические основания для этого.

Очевидно, что стремление ИИ-компаний получить качественные данные для обучения своих моделей нередко приводит их к действиям, находящимся в правовой «серой зоне». Этот вопрос требует дальнейшего изучения и регулирования, чтобы обеспечить баланс между инновациями в области ИИ и защитой авторских прав.

ИИ GPT-4 просмотрел 4 миллиона часов видео на YouTube

Янник Синнер защитил титул чемпиона Уимблдона

Знаковый жилищный законопроект вступил в силу в США вопреки протестам Трампа

Иран объявил о закрытии Ормузского пролива

Линда Носкова завоевала первый титул Большого шлема на Уимблдоне

Коли дитині потрібен інфекціоніст

Рекомендуем прочитать