天元律师事务所

一、问题的提出

过去几年，Chatgpt、Sora等产品引发了生成式人工智能普及的新革命，为人工智能行业带来了春风。但随着生成式人工智能的广泛应用，其带来的法律问题却越发复杂，相关案件与纠纷层出不穷。例如，2024年1月，《纽约时报》向曼哈顿联邦法院提起诉讼，指控OpenAI和微软公司未经许可使用该报数百万篇文章训练AI系统。2024年2月，广州互联网法院宣判“奥特曼”侵权案件，判决认定被告提供的AI服务侵犯“奥特曼”版权方著作权，因未尽到法律规定的注意义务，需要承担停止侵权、赔偿损失的法律责任。当前，AI数据训练是否具有合法性是生成式人工智能发展所必须面对的核心的法律问题。如不能妥善解决，AI技术研发将处于不确定状态，可能引发开发者、投资者对行业发展的担忧。对此，我们需要从解释论、立法论等多个路径讨论这一法律难题，寻找能实现各方利益平衡的解决方案。

二、训练数据的来源及主要风险

当前技术条件下，不论大模型的算法设计多么精妙，数据训练质量对AI性能都具有决定性影响，例如Chatgpt是通过千亿级别的数据训练，最终实现涌现并通过图灵测试，庞大的训练数据是人工智能模型生成理想结果的基础及基本前提。

根据《生成式人工智能服务安全基本要求》载明，人工智能的训练数据主要来源于开源语料、自采语料、商业语料、使用者输入信息语料。前述训练数据的语料根据其来源、内容有不同的法律风险：对于开源语料，虽然其数据集公开可用，但可能包含受版权、商标、专利或其他知识产权法律保护的元素，该语料无法保证知识产权清洁性；对于商业语料，是开发者与数据提供商签订协议后获得的内容，但这部分内容通常难以追根溯源，确保每项内容都有准确授权；对于自采语料，是开发者利用爬虫技术获取的网络信息，其爬取的内容受相关网络平台政策的影响，若出于商业产品开发使用目的，则依然可能存在不正当竞争的风险；对于用户输入信息语料，则需要特别关注个人信息及隐私风险，稍有不慎可能引起舆论风波。

综上所述，AI训练数据环节不仅面临版权侵权风险，也涉及个人信息以及隐私权、不正当竞争等法律风险。但其他权益可沿用现有法律，无需特别进行规制，数据训练真正的法律争议依然集中在版权方面。这是因为，传统的“授权使用”制度在AI数据训练场景下已经失灵，数据训练行为与人类阅读作品的“思考、吸收、再创作的行为”非常相似，本身无法落入《著作权法》项下的专有权利。更何况，模型训练如采取许可模式，其将存在作品版权状态不明、权利人不明确、权利人过于分散、许可成本过高等诸多问题，开发者取得训练数据授权过程将非常漫长、复杂，不具有基本的操作性、可行性，实际上是固守权利人利益而牺牲了新技术的发展前景。因此，鉴于上述问题的存在，事先授权模式在数据训练领域并不总是可行的，为了解决这些问题，可能需要回归版权法基本原理，探索其他合规途径。

三、数据训练的法律性质

当前，《著作权法》对AI数据训练的性质并无明确规定，对数据训练的规定主要是以行政规范及标准为主，如《生成式人工智能服务管理暂行办法》第七条规定开发者“应使用具有合法来源的数据和基础模型，涉及知识产权的，不得侵害他人依法享有的知识产权。”《生成式人工智能服务安全基本要求》在5.2语料内容安全要求中明确“语料用于训练前，应对语料中的主要知识产权侵权风险进行识别”。考虑到该等行政规范及标准法律层级较低，无法成为行业实践的直接依据，对于数据训练法律性质的讨论，还需回归到《著作权法》项下。从当前模型训练阶段的原理来看，AI训练对作品的使用主要涉及到输入阶段及输出阶段，需要根据其不同阶段的行为特征去讨论其法律性质。

1.输入阶段

AI模型的训练需要对语料进行复制，以便在训练环境中对数据进行处理和学习。这种复制可能直接构成对作品复制权的侵害。具体可以体现为以下几方面：第一，在数据获取的阶段，开发者需要构建一个包含大量样本的数据集，无论是开源语料、自采语料、商业语料，这些样本通常会被复制到训练环境中，以便模型可以访问和学习，这种复制行为完全符合著作权法中对于复制的内容和方式的规定，存在侵犯复制权的风险。第二，在构建训练集后，该等数据要进行数据处理、模型学习、模型评估和优化。在这些过程中，训练集会在不同的介质中创建副本、进行有形的存储，即便转化成了信息文本，依然可以通过机器对其中的作品进行读取。现有技术很难实现直接在线的数据分析和处理。这种情况下，将文本长期保存到计算机硬件上成为必然选择。而这种将其作品以某种形式停留在硬盘、内存或者云服务中的行为属于典型的复制行为。

2.输出阶段

模型输出阶段是否构成对著作权的侵权，目前理论界还没有达成较为明确的结论。在广州互联网法院审理的“奥特曼”案件中，法院认为被告所生成的图片部分或完全复制了奥特曼作品这一美术形象的独创性表达，并在多个关键特征与作品具有极高的相似度，构成实质性相似，侵犯了原告的复制权及改编权。

但我们倾向于认为，改编权是指改编既有作品形成新作品的行为，对Stable Diffusion等文生图的扩散模型而言，其原理是通过对既有图像内容的分析学习，获得其在思想层面的艺术风格、感觉、灵感等作为参数，之后将用户输入的提示词转换为新的美术作品。这一过程并不直接复制原作品，也没有保留了作品最关键、本质的表达特征，明显难以落入改编权的控制范围。而对Chatgpt等大语言模型，其原理则是在统计学自回归原理下，学习海量作品中文字之间排列组合的概率和规律，对于作品仅仅是进行统计学意义上文字组合概率的学习，不是为了使用和展示作品中的表达性内容，也不应属于版权法意义上的作品改编行为。

四、数据训练是否可以构成合理使用

如前述分析，在数据训练过程中，存在法律风险的主要为输入阶段，可能侵犯相关作品的复制权。而在输出阶段，目前从技术层面人工智能并不构成对作品的改编，并不存在明显的侵权情形。因此，在我国《著作权法》框架下，解决数据训练的合法性问题，最为可行的途径应是合理使用。

目前，我国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。《著作权法》第24条规定：“在下列情况下使用作品，可以不经著作权人许可，不向其支付报酬，但应当指明作者姓名或者名称、作品名称，并且不得影响该作品的正常使用，也不得不合理地损害著作权人的合法权益：（一）为个人学习、研究或者欣赏，使用他人已经发表的作品；……（六）为学校课堂教学或者科学研究，翻译、改编、汇编、播放或者少量复制已经发表的作品，供教学或者科研人员使用，但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。《著作权法实施条例》第21条规定：“依照著作权法有关规定，使用可以不经著作权人许可的已经发表的作品的，不得影响该作品的正常使用，也不得不合理地损害著作权人的合法利益”。依据前述法律规定，合理使用的判断需要符合著作权法列举合理使用具体场景和事由之一，同时满足实施条例所规定的三步检验标准（即作品已发表、不影响作品正常使用、没有不合理损害著作权人利益），实施条例的原则性规定借鉴美国版权法合理使用模式，具有很强的解释弹性和空间。

如果采用《生成式人工智能服务管理暂行办法》第三条提出的“鼓励”“包容审慎”的态度，AI数据训练行为应符合合理使用情形，具体分析如下：

第一，在使用行为性质和目的方面，数据训练符合转换性使用的要求。转换性使用源自美国版权法，指的是对原有作品的使用不仅是简单的复制或者再现，而是在原有作品的基础上增加了新的表达、意义，创造出具有新的价值和功能的作品。我国《著作权法》并未明确规定，但司法实践中已有不少案例适用了“转换性使用”。例如上海知识产权法院审理的《80后的独立宣言》电影使用含有“葫芦娃”、“黑猫警长”卡通形象的海报的案件中，法院即认为被告的行为符合转换性使用，应予以免责。

故如前述分析，数据训练的核心是通过大量数据的输入和算法的迭代优化，使机器学习模型能够捕捉数据中的模式和规律，提高模型的性能和准确性。这种行为不是为了直接复制或替代原作品的市场地位，并非针对原作品的表达特征进行使用，使用的并不是原作品中的智力成果。其本质是机器的过程性使用，不应属于《著作权法》的控制范围。而AI模型在输出阶段，其生成物属于通过学习后生成新的图像或其他类型的创作内容，其内容创造了新的市场和需求，具有明显的转换性因素。因此，从性质和目的上看，数据训练的使用行为更倾向于合理使用，而非侵权行为。

第二，被使用作品的性质方面，数据训练中所使用的作品通常是作为输入数据的一部分，用于训练机器学习模型，这些作品在训练过程中被转化为模型的参数和特征，而非作为独立的作品存在。因此，被使用作品的性质在数据训练中发生了改变，其原有的文学、艺术或实用价值被转化为技术进步的基础，这符合合理使用的要求。

第三，就被使用部分的数量和质量方面。在数据训练中，通常会使用大量多样化的数据样本，以确保模型的泛化能力和准确性。这意味着单一作品在整个数据集中所占的比例非常小，且经过训练后，原作品的表现形式和质量不会得到保留或传播。因此，从数量和质量的角度来看，数据训练的使用方式不太可能对原作品的市场价值产生负面影响，属于合理使用范畴。

第四，在使用对作品潜在市场或价值的影响方面，训练阶段的复制并不产生外界可获取的复制件，没有对外提供，即没有剥夺原作品所享有的竞争性市场利益或份额。在输出阶段，大部分情况下，人工智能训练时输入的作品与其输出的结果是不构成实质性相似的。这意味着人工智能的输出结果不会与权利人的作品直接展开市场竞争，不会影响权利人作品的市场。而且人工智能通过数据训练所获得的知识和技能，可以广泛应用于各个领域，如自动驾驶、医疗诊断、语音识别等，这些应用往往创造了新的市场和价值。与此同时，数据训练并不会替代或损害原作品的市场，因为AI系统的性能提升并不依赖于原作品的市场表现。因此，从对作品潜在市场或价值的影响来看，数据训练的使用行为不会对原作品构成侵权威胁，可以被视为合理使用。

综上所述，如果持包容审慎的态度，我们倾向于进行数据训练的使用行为，从使用目的、市场影响、使用数量和质量、使用方式等方面来看，均符合中国著作权法项下合理使用的标准。因此就我国当下的实际情况来看，我们建议应以促进人工智能产业创新为价值导向，利用司法政策，将人工智能研发过程中对作品的“非作品性利用行为”，解释为合理使用行为，建立更为明确的合理使用标准。

五、进行训练数据的合规建议

虽然我们认为目前人工智能的数据训练符合合理使用的条件，但该等主张在司法实践中依然欠缺足够的法律依据，还需立法者出台相应的法律法规予以明确。在当下的行业实践中，面对潜在的知识产权侵权法律风险，AI开发者应当增强风控意识，做好相应的合规管理。根据我们的服务经验，我们就企业数据训练合规提出如下应对建议：

1.根据语料数据进行分级管理

当前数据训练中使用各种开源语料、自采语料、商业语料、使用者输入信息语料，相关语料中无所不包，即可能有公共领域的书籍、文章和文档，开源软件项目的代码和文档，网络论坛、博客和社交媒体的公开帖子，新闻报道、百科全书和公开的研究报告等。不同内容本身的法律风险等级不同，开发者应事先针对不同来源、不同内容的语料进行风险分级，并针对其来源进行分级管理。例如实践中个人生物识别信息、通信记录和内容等个人敏感信息本身存在较大的法律风险及舆论风险，如需使用该等语料，应以授权同意为基本原则。在获取、使用这类数据时，应对数据的原始权利主体、授权链条、授权范围等内容进行严格地审查。

2.使用开源语料应注意其开源协议要求

当前的数据训练过程中，开源语料为主要的数据来源。例如在Chatgpt训练过程中，来源于开源的token占比达60%。因此在使用开源语料之前，应具有该语料来源的开源许可协议或相关授权文件，关注其授权条款。某些开源语料中设置了特别的使用条件，例如不允许商业性使用，或者用户超过一定数量后应取得特别授权等，对此应事先评估是否满足使用条件，避免不必要的潜在风险。

此外，开源语料容易存在数据来源不明、权利人不明确等情况，在使用开源语料进行训练之前，应进行相应的数据识别及清洗，确保不存在有明显侵权风险的作品。

3.通过第三方供应商采购数据应谨慎

由于数据训练所需要的数据量非常庞大，为了实现更好的训练结果，很多企业选择向数据供应商采购训练数据。我们建议，在采购过程中，开发者应通过协议等方式要求供应商保证训练数据的知识产权，确保训练数据不侵害任何第三方的民事权益及知识产权，确保其取得的授权权利的真实、完整、准确。如果相关数据可能涉及个人信息（尤其是个人敏感信息），应当在传输前由该第三方进行脱敏处理且做到无法还原。

4.限制训练数据的使用范围

由于训练数据使用过程中可能存在相应的法律风险，我们建议企业对训练数据的使用进行严格控制，可以将其纳入商业秘密进行管理。例如限制训练数据的接触情况、与员工保密协议、确定训练数据保密规则，将数据的适用范围限制在内部使用。除数据训练场景外，企业应不再将训练数据转授权或者对外公开、许可或转让，以降低可能的侵权风险。

相关领域: 知识产权