曝英伟达违规抓取数据训练AI模型!包括YouTube视频,官方回应了
编译 | 黄心如编辑 | 李水青
智东西8月7日消息,外媒404 Media发布的报告表明,英伟达自2024年3月开始从YouTube和Netflix等热门网站和平台上尽可能地抓取数据来训练其AI产品,在报告中,一位英伟达发言人邮件回应404 Media,申明其公司行为是合法的。
报告指出,英伟达未经许可抓取的内容包括电影和游戏镜头,这些行为可能让使用其AI产品和工具的客户面临侵权的风险。尽管面临外界的质疑和担忧,英伟达近期仍坚称其数据抓取行为“完全符合版权法的文字和精神”。
一、被曝违规采集数据,英伟达回应:行为合法
与其他AI工具开发商一样,英伟达需要可以用于训练的数据供其文本、视频和音频生成器“学习”如何创建内容。而数据抓取通常是指在没有获得创作者许可的情况下,将现有的视频、文本和音频输入到训练模型中的做法。
这项技术意味着他们可以未经YouTube和Netflix(以及在这些平台上拥有媒体账号的公司)同意就获取其受版权保护的资料。
美国和欧盟的监管机构仍在评估数据抓取行为是否违反版权法相应法规。404 Media的报告强调了科技公司在生成AI技术方面对于版权法的松懈态度,以及这些选择可能对娱乐和游戏等行业造成的影响。
该媒体在披露出的内部消息中,发现了一些公司员工对于这种做法的担忧。尽管存在这些担忧,但英伟达告诉404 Media,其抓取指令“完全符合版权法的文字和精神……这种合理使用的保护措施允许我们将作品用于革新性的目的,比如模型训练。”
游戏开发商及其母公司是版权持有人,而YouTube是该行业的重要平台,他们的作品被使用,但他们对此没有任何话语权。英伟达是一家经常利用这些工作室游戏和大型平台来推广其服务和产品的公司,这样的无授权数据抓取行为无疑是一种严重的背叛行径。
二、英伟达内部流程曝光,高层预先设法规避负面
一名接受媒体采访的员工声称,他们和其他人被告知要抓取完整的视频,以帮助训练这家科技公司的AI模型,而游戏视频尤为受到工程师们的青睐。获取上述的视频素材用于数据库的创建,其中就涉及了与英伟达的GeForceNow云服务合作。
在一次使用Slack进行的对话中,高级研究分析师吉姆·范(Jim Fan)指出了该项云服务有着可以用于捕获和存储视频的流媒体功能。他提到,所有这些“高质量的游戏视频”都是“非常有用”的数据。
“我们将与GeForceNow云服务和相关工程团队密切合作,设置实时游戏数据捕获、扩展渠道并对其进行处理以进行训练。”他解释说。
然而,据称,员工提出的担忧遇到了项目经理的保证,即抓取数据是一项“行政决策”,不必担心。至于“公开的法律问题”(例如违反YouTube的服务条款)将在未来得到解决。
在404 Media的报道中,AI研究人员之间的内部文件和Slack对话显示了英伟达积极避免负面新闻的努力。研究副总裁Ming-Yu Liu强调我们将使用所有可下载的数据进行实验,鉴于我们不会发表任何内容,所以不会有“负面情绪”。
Ming-Yu Liu写道:“我们在这里进行的活动不会在任何层面对外公开”。他和其他员工还一起开发了自己的YouTube数据抓取工具和一个API账号来帮助完成这一工作。
结语:英伟达AI引争议, 实为AI发展与法律博弈
在监管机构定义生成AI领域中侵犯版权的明确边界之前,英伟达和其他公司可能会继续在法律灰色地带运作。正如麻省理工学院的Robert Mahari告诉404的那样,证明数据抓取违规“在技术上是非常困难的”。
他建议道:“就激励措施而言,公司最佳的政策是不要告诉人们你训练了什么,只要保守秘密,要证明任何事情都会非常困难。”
来源:Game Developer,404 Media