生成式人工智能(Generative AI)的爆发式发展,正深刻重塑内容生产、知识服务与商业创新的底层逻辑。然而,技术的狂飙突进与法律规则的滞后之间,始终存在一道亟待弥合的鸿沟——生成式人工智能平台(下称“AIGC平台”)模型训练过程中对数据与版权作品的使用的合规问题。OpenAI在2024年初向英国政府提交的一份文件中称,“从法律上讲,版权法并不禁止人工智能学习”“如果无法获得版权作品,我们的工具将无法运作”,这可能会阻碍人工智能技术的发展。1显然,版权作品是AIGC平台得以运作的基石,但是OpenAI用于模型训练的他人版权作品可能并未获得权利人的授权。那么,AIGC平台对于他人版权作品的使用到底是否需要获得授权?版权“合理使用”能否成为AIGC平台的避风港?这一问题不仅关乎技术迭代的合法性边界,更触及技术创新与权益保护的深层价值平衡。
生成式人工智能通常包括四个阶段:数据输入、数据训练、内容输出、内容使用。本文旨在探讨AIGC平台的数据输入及数据训练阶段的版权使用合规性问题,从AIGC平台能否主张版权“合理使用”从而有效抗辩版权人的权利主张的角度,基于现有立法及案例实践,从比较视野,围绕中国、欧盟、美国三地的立法及司法实践,进行梳理、分析,并提出观点,以供探讨。
一、立法层面:三地立法原则与机制迥异
1. 中国:禁止侵权原则,未建立合理使用机制
中国对于AIGC平台使用他人作品用于训练的合规要求有较为笼统的规定:《生成式人工智能服务管理暂行办法》(下称“《办法》”)第七条规定,生成式人工智能训练数据涉及个人信息的,应当取得个人同意或经过法定豁免;涉及知识产权的,并未明确规定必须事先取得版权方的授权,仅是明确“不得侵害他人依法享有的知识产权”。然而,这一要求应当如何理解?根据版权使用规则,除非符合法定强制许可情形或合理使用情形,否则,未经授权使用他人作品均构成侵权。然而,对于AIGC平台,使用他人作品进行训练已经不可避免,但从效率及成本的角度来看,若强制要求AIGC平台就其所用于训练的他人作品内容全部获取授权——并不现实、也并不经济,甚至与行业的迅速发展存在冲突。这也意味着,除非模型训练对于版权作品的使用能满足“合理使用例外”,否则,目前国内多数AIGC平台都可能存在版权侵权风险。
当然,《办法》也强调建立健全“事后响应机制”,要求服务提供者应健全投诉、举报机制,设置便捷的投诉、举报入口,公布处理流程和反馈时限,及时受理、处理公众投诉举报并反馈处理结果。但是,对于在训练阶段使用他人作品的AIGC平台而言,一旦将他人作品投入训练,后果已经不可逆,“警告+移除”机制根本无法改变AIGC平台已经使用他人作品、将作品用于训练的事实,“警告+移除”机制客观上并不能起到停止侵权的效果。
2. 欧盟:透明度优先原则,及OPT-OUT机制
欧盟2019年通过的《数字单一市场版权指令》(Directive on Copyright in the Digital Single Market, Directive (EU) 2019/790,下称“DSM指令”)2是欧盟近20年来最重要的版权法改革,旨在协调数字环境下的版权规则,平衡创作者、平台与用户的利益。根据DSM指令第三条、第四条等规定,文本与数据挖掘(Text and Data Mining,简称“TDM”)可以适用版权“合理使用例外”,但需要区分为科学研究和商业性使用:(1)对于科学研究,明确非营利研究机构可未经授权复制作品进行TDM,且合同条款不得限制此例外;(2)对商业性使用,允许商业主体进行TDM,但权利人可通过适当方式保留权利(如通过发布线上公开声明禁止爬取),即“opt-out”机制。
2024年8月生效的欧盟《人工智能法案》(Artificial Intelligence And Amending Regulations (EU)2024/1689)3,在版权透明度方案提出了与DSM指令类似的、但更高的要求,其主要原则包括:(1)要求部署生成式AI的开发者必须披露训练数据中使用的受版权保护的摘要,包括文本、图像、音频;(2)明确需要保障版权人的自由退出权(opt-out),允许版权方通过技术手段(如Robots.txt协议)声明禁止其作品被用于训练模型。
总体来看,欧盟并不禁止AIGC平台使用受版权保护的内容用于模型训练,但要求披露版权材料的使用情况,以使内容创作者能决定是否寻求补偿或者选择opt-out,这说明欧盟采取的是“透明度优先”而非“强制授权”的路径。因此,从欧盟的现有AI立法来看,并未构建AIGC平台进行模型训练使用他人版权作品的合理使用规则。
3. 美国:是否适用“合理使用例外”依个案认定
美国版权立法层面并无针对AIGC平台模型训练使用版权作品予以明确规定,但美国版权局通过的系列文件中透露的执法思路可用于参考。
2024年4月9日,在美国众议员议员亚当 · 希夫(Adam Schiff)向众议院提交的一项议案Generative AI Copyright Disclosure Act4(《生成式人工智能版权披露法案》)中,要求AIGC平台披露在训练AI模型时对于版权作品的使用情况,包括提交训练数据清单至版权登记处、建立公开数据库供创作者查询作品是否被使用等,并提出对执行的AIGC平台适用罚款。5
2025年1月29日,美国版权局正式发布“Copyright and Artificial Intelligence Part 2: Copyrightability” 6(《版权和人工智能第二部分:可版权性》,下称“《可版权性报告》”);此后,并于2025年5月发布“Copyright and Artificial Intelligence Part 3: Generative AI Training(pre-publication version)”7(《版权和人工智能第三部分:生成式AI训练(预发布版本)》,下称“《生成式AI训练报告》”)。《可版权性报告》提出,美国当前的版权法足以解决训练数据合法性问题,现阶段无需设立专门针对AIGC平台的新规则8。《生成式AI训练报告》进一步列出认定合理使用时需要考虑的下述四项要素,并表明虽然第一和第四个因素在分析中会占相当大的比重,但强调AI训练数据的使用合法性需通过个案分析合理使用原则确定9:
要素一 审查被控侵权使用是否具有衍生目的或差异特性,着重审查两大核心要素:转换性(transformativeness)与商业性。部分司法实践还会审查被告是否通过合法途径获取作品;
要素二 作品本质,要求确认某些作品相较于其他作品更接近版权保护的核心范畴;
要素三 使用数量与重要性,需审酌被使用部分相对于版权作品整体的数量及实质性......是否与复制目的形成合理关联;
要素四 使用产生的影响,使用行为对版权作品潜在市场或价值所产生的影响。
其中,美国版权局特别提及:使用目的,若训练数据用于商业竞争(如开发与原始数据直接竞争的产品)则合理使用抗辩较难成立10;以及,市场替代效应,若AI模型AIGC平台可能替代原数据授权市场,则会损害版权方利益11。
美国对于AIGC平台的版权使用规则并无专门立法,总体上还需要根据当前的版权法,由法院在个案中认定。
二、司法层面:三地法院呈现不同的裁判态度
全球司法实践对AIGC平台模型训练版权“合理使用”的认定呈现显著分歧,折射出技术逻辑与法律规则之间存在不同的理解。我们以近年三地法院的相关案例举例。
1. 中国:奥特曼案
在奥特曼系列形象合法授权方诉某AIGC平台的案件判决中12,杭州互联网法院的一审判决呈现针对AIGC训练素材合理使用的开放性态度。该案中,被诉AIGC平台调用第三方开源模型代码、向用户提供Checkpoint基础模型和LoRA模型,支持图生图、模型在线训练等功能。奥特曼LoRA模型由用户上传奥特曼图片,选择平台基础模型,调整参数进行训练后生成。该案原告认为,被诉AIGC平台未经许可使用用户上传的奥特曼图片作为训练素材且形成的奥特曼LoRA模型与奥特曼形象实质性相似构成著作权侵权。
尽管该案中被诉AIGC平台被法院认定为构成著作权侵权,但是,一审法院杭州互联网法院在该案的判决说理部分针对AIGC平台数据训练使用版权作品合法性的分析,呈现出较为前沿的态度:法院将AIGC平台的运行划分为大模型的输入、数据训练,大模型的内容输出、内容使用四个阶段。法院表示“生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、模式、趋势,便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众”,因此,法院认为“在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。”
判定是否构成合理使用的时,法院认为应考虑到以下几个要素:(1)数据使用目的,在数据训练阶段对受版权保护之作品的使用,目的是通过海量数据分析提升模型创作能力还是直接“再现作品的独创性表达”(如复制、传播);(2)数据使用方式,训练过程是否会产生实质性替代原作品市场价值的效果;(3)数据使用人的行为带来影响来看,是否可能对原作品正常使用或对权利人利益造成不合理损害。
值得注意的是,二审法院杭州市中级人民法院在判决中对于AIGC平台“合理使用例外”的构建似乎又提供了进一步的支持。法院认为,从客观实践性角度分析,若要求AIGC平台服务提供者对用户输入的每份数据逐一审查,既缺乏技术可行性,也与法律对“网络服务提供者”的定位不符,并进一步强调,过度苛责审查义务将加重开发负担,阻碍生成式AIGC技术发展;从而提出服务提供者的注意义务应与其身份和技术能力相匹配,重点在于采取合理技术措施防范侵权(如事后响应机制),而非事前全面监控。
通过这个案例,我们可以大胆地预判,对于AIGC训练数据及对于版权作品的合理使用,中国的司法实践可能倾向于采纳更为开放的态度,在未来,“合理使用”抗辩或许能够一定程度上为AIGC平台使用版权作品用于训练提供合理路径。
2. 欧盟:Kneschke诉LAION案
欧盟成员国的现有司法案例似乎与欧盟立法层面的态度一致。德国汉堡地区法院在2024年9月27日就摄影师Robert Kneschke诉非营利性协会LAION e.V.案13(案件编号:310 O 227/23,下称“Kneschke诉LAION案”)作出裁定。14该案原告Robert Kneschke是一位德国摄影师,其摄影作品被收录于bigstock.com,且带有附注说明未经许可不得复制。然而,后续他发现未经其同意,该摄影作品出现在“LAION 5B”数据集中,遂起诉到法院,要求LAION从数据集中删除其作品。
LAION是非营利性质组织,就其使用版权作品用于AIGC平台训练数据是否构成版权法下的“合理使用”,法院考虑到:数据集免费向公众开放,未直接参与商业模型开发,且未向合作企业优先提供研究成果,最终认定LAION的行为符合德国《版权法》(UrhG)第60d条规定的“科学研究目的例外”,LAION复制图片、进行数据使用的行为构成“合理使用”,并未构成侵权。
然而,值得注意的是,该案存在一定的特殊性,该案中LAION为非营利组织,其使用目的具有非商业性目的,所以更加容易匹配“合理使用例外”。那么,如果被诉AIGC平台并非是非营利机构、而是商业机构呢?依据欧盟现有立法,如版权方未事先声明禁止AIGC平台使用其版权作品用于数据训练,则AIGC平台可以使用,但并不免除AIGC平台需要向版权方支付授权费用的责任。
3. 美国:汤森路透案
2020年,Thomson Reuters(Westlaw数据库的运营者)起诉法律科技公司Ross Intelligence,指控其未经授权使用Westlaw数据库中的法律批注(对司法判决的原创性总结)训练AI法律研究工具。Ross Intelligence曾向Thomson Reuters申请使用Westlaw的数据,在被拒后,Ross Intelligence转而通过与第三方LegalEase达成协议,获取LegalEase基于Westlaw内容编写的批量内容训练数据。
美国特拉华州地区法院于2025年2月11日就该案做出简易判决15。该案中,被告方的抗辩中争议最大的即为合理使用抗辩,也是本案法官在判决中着墨最多的部分。法院在认定Ross Intelligence在AI模型训练过程中使用是否构成合理使用时,考虑了以下因素:1)使用行为的性质和目的,包括其是否具有商业性质或非营利教育目的;2)受版权保护作品的特性;3)被使用部分的数量及其相对于整个版权作品的实质性程度;4)使用行为对版权作品现有价值或潜在市场的影响。法官指出,其中第一项和第四项要素在分析中占据最重要的权重,就以上四个因素,法官表明:
(1)Ross Intelligence使用Thomson Reuters的摘要作为AI数据来创建一个与Westlaw竞争的法律研究工具,并未进行转化性使用;
(2)Thomson Reuters享有权益的Westlaw材料创造性超出版权有效性所需的最低要求,但是仍不如小说或其他艺术原创作品具有创造性,但其创造性有限;
(3)被控侵权摘要数量仅占Westlaw摘要总量的极小比例,且实际系向终端用户输出内容并非使用权利人的独创性表达,而是就判例观点进行说明;
(4)第四项要素是最重要的元素,法院认为Ross Intelligence负有举证责任证明其开发的市场替代品并不会影响Westlaw竞争,且并无法通过公共利益豁免,然而Ross Intelligence并未完成举证责任。
综上,虽然法院针对第二项因素、第三项因素的分析并不利于Thomason Reuters,但法院认为由于第一项和第四项要素占最重要的权重,因此,最终法院仍然认为Ross Intelligence的合理使用抗辩不成立。可见,美国法院更倾向于从严解释,本案中,AIGC平台使用用途仍然将法律摘要转为数据库,其使用并未赋予版权作品新的目的或价值,使用数据者的行为并不具有“转化性”,从而认定Ross intelligence构成侵权。
三、如何构建AIGC模型训练版权合理使用规则
AIGC平台的版权“合理使用”问题争议,本质上是技术创新与法律权益保护的博弈。值得注意的是,数据的训练与内容生成,可能并非一一对应的关系。正如杭州互联网法院在奥特曼判决中的陈述,数据训练的使用行为“聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众”。因此,并非使用了版权作品用于AIGC模型训练就等同于行使了版权法下版权人的专有权利。
AIGC平台训练过程中对于版权作品的使用,可能行使了作品“复制”行为,但不应机械理解该等复制行为,用于训练目的的复制,并非是为了复制而复制,复制仅为方法、手段,目的是通过海量复制的内容学习、提取、抽象、总结相应的规则、结构、模式、趋势,便于后续转换性创作新作品。因此,我们倾向于认为, AIGC平台模型训练过程中的“复制”并不能等同于版权法项下的“复制”。
综观中国、欧盟与美国的司法实践,这些判决在说理部分的“挣扎”均清晰表明:各国立法与司法正竭力在版权保护与技术创新间构建动态平衡。但是,无论是中国的事后预警机制、欧盟的透明度原则+opt out机制,还是美国个案中法官呈现的态度,均尚未明确对AIGC平台在模型训练过程中任意使用版权作品开放先例。我们认为,构建AIGC平台模型训练的版权“合理使用例外”,是维系版权保护与技术创新平衡的关键支点。但是,“合理使用例外”不应被滥用,而应当有所制约。
结合相关立法及司法实践,我们尝试提出如下“合理使用例外”,以供探讨。所谓“例外”,即AIGC平台模型训练阶段使用他人版权作品无需获得版权方的授权,但该等使用必须能够满足“合理使用例外”的法定要求,例如:
1. 将合理使用例外严控于数据输入及训练阶段。AIGC平台的训练与生成行为并无直接因果关系,输入与输出之间并非一一对应,AIGC平台向训练模型中“投喂”的版权作品经过模型的“咀嚼”“消化”“吸收”最后生成的内容很可能已经“脱胎换骨”,不会构成对于版权方的侵害。因此,仅对于数据输入、数据训练阶段开放豁免、适用“合理使用例外”并不会损害版权方的合法利益,但是对于内容生成及生成内容使用端则应严格把控。
2. 应当允许版权方享有opt-out权利。允许版权方通过发布声明、采取技术保护措施等方式禁止其版权作品被AIGC平台用于模型训练。在版权方作出声明或采取措施的情形下,则不适用合理使用例外,AIGC平台不得使用。
3. 建立绝对禁止适用“合理使用”例外的负面清单。立法层面可以结合不同的版权作品类型建立负面清单,例如,高度涉及个人隐私和商业秘密的作品,通过不当方式窃取的作品,版权方声明禁止使用的作品,内容平台方声明禁止爬虫的作品,处于一定“窗口期”热度的作品等。
4. 除非满足禁止情形,默认适用合理使用例外。即,除非满足前述负面清单,否则,原则上应允许数据训练过程中使用他人版权作品,进行以训练、学习为目的“复制”行为。
5. 严格限制数据输入及训练的方式和目的。应当要求以转化性使用作为前提,即通过训练对于版权作品的结构特征分析提取规律,用于后续转化性创作新作品(是否形成新的作品则需要在内容生成维度判断);
6. 禁止可能产生替代竞争效应的使用行为。若AIGC平台使用他人版权作品进行训练而形成的AIGC模型将会对版权方的作品形成实质替代效应,如开发与版权内容形成直接竞争的产品,例如,使用他人版权作品进行数据库类AIGC模型的训练,则“合理使用例外”不应予以使用。
四、总结与展望
如前所述,AIGC平台的数据使用行为包括输入与输出两部分,在数据输入环节,AIGC平台训练使用的数据作为“非表达性使用”(即分析机构特征,而非复制作品),即模型通过对作品的结构特征分析提取规律,而非直接复制或传播独创性表达。只要AIGC平台的“内容输出、内容使用”阶段没有生成或使用与原作品实质相似的内容,不构成对他人版权的侵犯,在满足“合理使用例外”规则的前提下,应“豁免”AIGC平台提供者的版权授权义务,以促进AIGC平台模型训练的发展、激发资源的充分利用、以及技术的发展。
同时,只要AIGC平台使用他人版权作品的模型训练并未实质性“替代或侵害”原版权人的权益、市场竞争力,我们应该勇于允许“让子弹先飞一会”,允许各种资源、商业模式充分竞争。现阶段司法层面应充分考虑企业的实际数据溯源能力、以及合规成本,取积极包容的态度,不应对AIGC平台服务提供者提出过高的注意义务。
综上,AIGC平台模型训练数据的“合理使用例外”路径,需在技术创新、版权保护与公共利益间实现动态平衡。未来,随着合成数据、区块链溯源等技术的普及,数据的来源及管理可能更为便捷,这一议题或将迎来新的解法,我们也会持续予以关注。
[1] 郑友德 | 美国众议员提出强制披露使用版权内容的《生成式人工智能版权披露法案》。详见:https://mp.weixin.qq.com/s/ljEEM03NDYT5-t5yLWdxWw
[2] Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (Text with EEA relevance.) https://eur-lex.europa.eu/eli/dir/2019/790/oj/eng
[3] Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act). OJ L, 12.7.2024, 84/144, ELI: http://data.europa.eu/eli/reg/2024/1689/ojhttps://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689
[4] https://www.congress.gov/bill/118th-congress/house-bill/7913/text
[5] 详见《生成式人工智能版权披露法案》第二节。
[6] 链接:https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf
[7] 链接:https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf
[8] 根据《可版权性报告》摘要(EXECUTIVE SUMMARY)部分,美国版权局认为:“ 版权适格性与人工智能相关问题可依照现行法律规定解决,无需通过立法修订予以特别规范。”。(Questions of copyright ability and AI can be resolved pursuant to existing law, without the need for legislative change)
[9] 详见《生成式AI训练报告》第四章合理使用第E部分权衡因素部分,美国版权局认为:“应由法院“根据版权的目的”来综合权衡各项法定因素,没有机械的计算方法或简单的公式。每个因素对权衡的影响程度以及影响方向取决于具体案件的事实和情况。”(It is for the courts to weigh the statutory factors together “in light of the purposes of copyright,”415 with no mechanical computation or easy formula. How much each factor adds to the balance, and in which direction, will depend on the facts and circumstances of the particular case.)
[10] 详见《生成式AI训练报告》第四章合理使用第A部分。
[11] 详见《生成式AI训练报告》第四章合理使用第D部分。
[12] 一审:杭州互联网法院(2024)浙0192民初1587号;二审:杭州市中级人民法院(2024)浙01民终10332号。
[13] Regional Court of Hamburg – Kneschke vs. LAION e.V.,LG-Hamburg-310-O-227-23,作者:Dr. Ursula Feindor-Schmidt, LL.M., 链接:https://www.lausen.com/en/lg-hamburg-kneschke-v-laion-e-v/
[14] 中国知识产权保护网:《德国法院:非商业性人工智能训练数据符合版权侵权的科学研究例外》,2024年10月18日,链接:http://ipr.mofcom.gov.cn/article/gjxw/gbhj/om/dg/202410/1988637.html
[15] Case 1:20-cv-00613-SB Document 770 Filed 02/11/25 Page 16 of 23 PageID #:211687, https://www.courtlistener.com/docket/17131648/thomson-reuters-enterprise-centre-gmbh-v-ross-intelligence-inc/?page=5
声 明
《君合法律评论》所刊登的文章仅代表作者本人观点,不得视为君合律师事务所或其律师出具的正式法律意见或建议。如需转载或引用该等文章的任何内容,请注明出处。未经本所书面同意,不得转载或使用该等文章中包含的任何图片或影像。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。