一群作者对 Anthropic 提出诉讼,指控该公司使用盗版书籍训练其 AI 模型。根据《路透社》报导,这项集体诉讼於周一在加州法院提出,声称 Anthropic「透过盗用数十万本受版权保护的书籍,建立了一个价值数十亿美元的企业」。
The Pile 数据集引发争议
诉讼中,作者们表示 Anthropic 使用了一个名为「The Pile」的庞大开源数据集来训练其 Claude AI 聊天机器人系列。这个数据集中包含称为 Books3 的部分,是一个包含 Stephen King、Michael Pollan 等数千名作者作品的大规模盗版电子书库。本月初,Anthropic 向《Vox》证实确实使用了 The Pile 来训练 Claude。
作者要求停止使用受版权保护的内容
诉讼指出:「显然 Anthropic 下载并复制了 The Pile 和 Books3,明知这些数据集包含了大量来自 Bibiliotik 等盗版网站的受版权保护内容。」作者们希望法院确认其集体诉讼的地位,并要求 Anthropic 支付拟议的损害赔偿,同时禁止该公司在未来使用受版权保护的材料。
涉案作者及相关调查
提起诉讼的作者包括《We Were Never Here》的作者 Andrea Bartz、《The Good Nurse》的作者 Charles Graeber,以及《The Feather Thief》的作者 Kirk Wallace Johnson。虽然诉讼承认 Books3 已从 The Pile 的「最官方」版本中移除,但原始版本据称仍可在网上其他地方找到。最近的一项调查还发现,Anthropic 和 Apple 等公司在训练其 AI 模型时,使用了 The Pile 中数千个抓取自 YouTube 影片字幕的内容。
AI 训练资料引发的法律纠纷
去年,前阿肯色州州长 Mike Huckabee 和其他作者也对 Meta、Microsoft 和 EleutherAI(The Pile 的幕後非营利组织)提出类似诉讼,指控他们的作品被盗用於训练 AI 模型。George R.R. Martin、Jodi Picoult、Michael Chabon 等多位作者也因类似原因起诉了 OpenAI。
相关文章
- No-Code Programming 时代经已降临
- Anthropic 发布 Claude 3.5 Sonnet