著作権は二の次 生成AI開発レースが招いたデータ争奪戦

有料記事NYTから読み解く世界

Cade Metz, Cecilia Kang, Sheera Frenkel, Stuart A. Thompson, Nico Grant/The New York Times 抄訳=城俊雄/朝日新聞GLOBE編集部
[PR]

How Tech Giants Cut Corners to Harvest Data for A.I.

 2021年の後半、対話型AI(人工知能)の「チャットGPT」を手がける米オープンAI社は、ある供給問題に直面していた。

 最新のAIシステムの開発を進める中で、インターネット上にある信頼できそうな英語のテキストデータは、すべて取り込んでしまっていた。しかし、チャットGPTの次世代モデルのために、さらなる学習用データ[data to train]が必要だった。それも膨大な量が。

 そこで同社の研究者たちは、YouTube動画の音声の文字起こし[transcribe the audio]をする音声認識ツール「ウィスパー」を開発した。精度向上に向けてAIに学ばせるための、新しい会話データを手に入れられるようになったのだ。

 社員の間ではその当時、こうしたやり方はYouTubeの利用規定違反の恐れがある、という議論があったことを、事情を知る関係者3人が明らかにした。グーグルが所有するYouTubeは、投稿された動画をYouTubeとは無関係の用途で利用することを禁じているからだ。

 オープンAIの社内チームは最終的に、100万時間超のYouTube動画の音声を文字起こしした、と関係者は証言する。オープンAIのグレッグ・ブロックマン社長もそのチームに加わっており、自ら動画の収集を手伝った、と関係者2人は明かす。文字起こしされたデータは、世界最強のAIモデルのひとつと広く認められており、チャットGPTの最新モデルの基盤システムであるGPT-4に入力されたという。

手順を省略・方針を無視・脱法行為も検討

 AI分野での首位争いは、技術の進化に必要とされるデジタルデータの、なりふり構わぬ争奪戦と化している。ニューヨーク・タイムズの取材により、オープンAIやグーグル、メタなどの巨大IT企業は、そうしたデータを得るために、正規の手順や手続き省略したり、会社の方針を無視したり、脱法行為を検討したりしていたことが明らかになった。

YouTubeの動画音声を文字起こししてAI開発に使ったのは、オープンAI社だけではない、とNYTは報じています。グーグル自身もAIの学習データに使っていた、オープンAIのやっていることも知っていたのにとめなかった、と関係者は証言しています。

 フェイスブックとインスタグ…

この記事は有料記事です。残り5574文字有料会員になると続きをお読みいただけます。

【締め切り迫る】有料記事読み放題!スタンダードコースが今なら2カ月間月額100円!詳しくはこちら

朝デジで読むNYタイムズ

朝デジで読むNYタイムズ

ニューヨーク・タイムズ紙の調査報道や解説記事について、同紙と提携する朝日新聞が厳選して翻訳した記事をお届けします。[もっと見る]