【ITBEAR科技资讯】4月7日消息,近日,有关AI公司在收集训练数据方面所面临的挑战引发了广泛关注。据《华尔街日报》本周早些时候的报道,AI企业正努力应对高质量训练数据收集的难题。而今日,《纽约时报》深入探讨了这些企业为解决此问题所采取的策略,其中一些做法牵涉到AI版权法的模糊地带。
据报道,为了获取训练数据,领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该公司利用这一模型转录了超过100万小时的YouTube视频,以便训练其最新的大型语言模型GPT-4。OpenAI在2021年就已经耗尽了可用的数据资源,并在探讨利用YouTube视频、播客和有声读物等资源的可行性后,决定采用这种方法。此外,OpenAI还整合了包括Github的计算机代码、国际象棋走棋数据以及来自Quizlet的学习资料等多种数据源。
据ITBEAR科技资讯了解,尽管OpenAI意识到这种做法在法律上存在争议,但他们认为这属于合理使用范围。《泰晤士报》披露,OpenAI的总裁Greg Brockman甚至亲自参与了视频的收集工作。OpenAI的发言人Lindsay Held向媒体表示,公司为每个模型都策划了独特的数据集,旨在帮助其更好地了解世界,并维持其在全球研究领域的竞争力。Held还提到,公司使用了众多数据来源,并正在考虑生成自家的合成数据。
然而,这一做法并未得到所有相关方的认可。谷歌发言人Matt Bryant指出,他们注意到了有关OpenAI活动的报告,并重申其robots.txt文件和服务条款都明确禁止未经授权的YouTube内容抓取或下载。YouTube首席执行官Neal Mohan也在近日的采访中表示,尽管没有直接证据表明OpenAI使用YouTube视频来训练其AI模型,但此类行为确实违反了YouTube的服务条款。
同样面临数据可用性限制的还有meta公司。在《泰晤士报》披露的录音中,meta的AI团队为了追赶OpenAI,讨论了未经许可使用版权作品的可能性。该团队在考虑了互联网上几乎所有可用的英语书籍、散文、诗歌和新闻文章后,提出了诸如支付图书许可费,甚至收购大型出版商等解决方案。
_堪培拉服务器,本溪云电脑