专业团队

天元汇聚各领域精英律师,拥有200余名合伙人,800余名律师及专业人员,凭借深厚的执业经验和项目经验,为客户提供全方位、跨区域、综合性、一站式的法律服务和最佳商业解决方案。

专业领域

天元凭借30年法律实践经验和不断创新的执业能力,业务覆盖中国律师主要执业领域和新兴领域,并在诸多领域保持中国顶尖律师水准和跨团队综合服务能力,近年来连续承办了诸多开创先河的交易和极具行业影响力的项目和案件。

洞察资讯

天元律师紧跟行业发展趋势,聚焦法律热点话题,凭借独到视角和市场洞察力,帮助客户了解法律最新变化,用专业的观察、分析与见解助力客户做出更为明智的商业选择与决策。

关于天元

作为国内具有长远历史和深厚文化的领先律所,天元始终以法律服务为根本,不断探索和创新,30年来与中国经济同向前行,在中国15个经济活跃城市设立办公室,在业内享有盛誉。

AI法律评论丨社区认为Llama 3.1是假开源&AI合成数据“近亲繁殖”导致大模型崩溃
日期:2024年08月02日

1、最强4050亿开源模型Llama 3.1上线,社区认为是假开源

7月24日报道,美国科技巨头Meta今晨推出迄今为止性能最强大的开源大模型——Llama 3.1 405B(4050亿参数),同时发布了全新升级的Llama 3.1 70B和8B模型版本。

Llama 3.1 405B支持上下文长度为128K Tokens,在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练,这也是Meta有史以来第一个以这种规模进行训练的Llama模型。研究人员基于超150个基准测试集的评测结果显示,Llama 3.1 405B可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等业界头部模型相比较。

Meta创始人、首席执行官马克·扎克伯格(Mark Zuckerberg)称Llama 3.1为“最先进的”模型,他认为Meta正在建造的Llama模型是世界上最先进的,且表示Meta已经在开发Llama 4,甚至扎克伯格还亲自写了篇长文《Open Source AI Is the Path Forward》,发出了“开源引领AI行业、新时代”的声音。(来源:钛媒体)

 

评论:当前各媒体都在宣传Meta的Llama 3.1为最强开源模型,但社区内有不少质疑的声音,表明Llama 3.1根本不是开源,最多就是免费使用,并不是行业内大家取得共识的“开源”。此前,荷兰拉德堡德大学的人工智能研究学者Andreas Liesenfeld和计算语言学家Mark Dingemanse也发现,虽然“开源”一词被广泛使用,但许多模型最多只是“开放权重”,关于系统构建的其他大多数方面都隐藏了起来。比如,Meta的Llama以及 Google DeepMind的Gemma虽然自称开源或开放,但实际上只是开放权重,外部研究人员可以访问和使用预训练模型,但无法检查或定制模型,也不知道模型如何针对特定任务进行微调。

此次,LLaMA 3公开了模型权重,用户可使用预训练和指令微调后的模型权重,此外Meta还提供部分基础代码,用于模型的预训练和指令微调,但并未提供完整的训练代码,LLaMA 3的训练数据也并未公开。从严格意义上确实不属于“开源”。但无论Llama 3.1是否是真正开源,它确实让AI向开源迈进一大步,让更多的从业者可以据此进行创新,这对AI技术的进步是个好现象。只是这些争议也提示我们,大语言模型开源和传统软件开源并不相同,开源软件只需要公开全部源代码,而大语言模型像一个“黑箱”,需要完整开源训练数据集、训练过程和源代码才能让用户真正自由使用。在AI时代,确实需要严肃对待模型开源定义,更好地对行业进行引导。

 

2、AI合成数据“近亲繁殖”导致大模型崩溃

使用AI生成的数据训练去训练新的AI模型将导致“模型崩溃”,表现为生成内容的质量逐代下降,最终导致输出无意义的信息。近期,牛津、剑桥等机构发布《Al models collapse when trained on recursively generated data》的论文,该论文研究发现,合成数据的使用类似于近亲繁殖,会导致数据质量低下,建议更多使用人类数据以避免这种情况。研究强调,AI生成数据并非完全不可取,为防止AI模型退化,一定要对数据进行严格过滤,比如在每一代模型的训练数据中,保持10%或20%的原始数据;使用多样化数据,如人类产生的数据;或者研究更鲁棒的训练算法。(来源:新智元)

 

评论:这篇论文对行业来说并不是一个好消息,一直以来合成数据都被视为AI训练数据匮乏的可能解决方案,但是其依然无法有效地取代真实数据,该论文的研究正好切实地证明了这一点。如果直接使用合成数据进行训练,将因“近亲繁殖”导致模型崩溃。因此,基础大模型在预训练阶段仍以真实数据为主导(合成数据占比预估约5%-10%),合成数据作为有针对性提供高质量语料类型的补充,可以进一步提升模型性能,此外在对齐阶段可以大规模的使用合成数据,比如英伟达的Nemotron-4模型在对齐阶段使用的合成数据占比达98%。对此有兴趣的读者可以进一步参阅阿里研究院的文章《合成数据:模型能力跃迁的必经之路》。

 

3、微软推出基于AI的Bing生成搜索功能

近日,Bing在技术博客里宣布向小部分人群开放全新AI生成搜索功能。Bing的新搜索体验将A1生成的答案放在搜索结果页面的中心位置,并将传统的搜索结果推到旁边。这种新布局为用户搜索的查询提供AI生成的摘要,涵盖了问题的各个方面,旨在更有效地满足用户的搜索意图。该功能目前仅针对一小部分查询推出,但用户可以期待看到AI生成的摘要、相关视频、图表和音乐等信息,为单个查询提供更全面的信息虽然微软表示早期数据表明AI生成的答案不会影响网站点击量,但这种新布局可能会对搜索流量产生一定的影响,需要进一步观察和评估。(来源:新智元)

 

评论:我们在本栏目中多次讨论过AI搜索可能存在的著作权侵权及不正当竞争的问题。特别是在不正当竞争领域内,现在很多AI搜索引擎没有设置网页链接,用户通过AI搜索页面就可以获得想要的信息,不会再点击搜索来源,这种产品设置可能会实质性地替代原有服务,违反《反不正当竞争法》的第二条规定。而微软此次推出的Bing生成搜索功能特别关注了该等法律风险,在功能设置上既突出了用户关注的问题,也同时展示了相关搜索结果。虽然该等功能设置不能完全免除争议,但至少很大程度上降低了微软该产品的不正当竞争风险,不会第一时间成为其他竞争者的维权对象。该等产品功能设置也提示AI行业的相关开发者,在进行产品设计时不应只考虑“一家独大”,而应该从更高价值层面完善“产品生态”,让其他利益相关方可以从AI技术发展中分一杯羹。

 

4、AI初创公司陷“偷取”全网平台用户视频争议

Runway在6月发布了Gen-3视频生成模型,效果震撼整个视频生成领域。随后7月Runway又被曝出正在进行新一轮融资,估值40亿美元,预计融资4.5亿美元。

这家毫无疑问地视频生成赛道头部创业公司,刚刚被曝出一份内部文件。一个简单的Excel表格,详细地罗列着Runway动员全公司上下在互联网上收集的高质量视频资源,累积条目数万条。其中YouTube上的视频占据了一大部分,光是「推荐油管频道」就有3968个。还有14个在线影视资源网站(就是常见的那种盗版网站)。油管母公司Google,是Runway上一轮融资的投资方,但显然收集YouTube视频数据的工作由Runway独立完成。除了油管以外,它还收集了迪斯尼、Netflix、索尼等超级版权公司的视频内容。

爆料媒体用Gen-3测试了相关prompt,非常匹配表格里的数据,细节到直接去生成油管主播各自风格的视频,且相关prompt仅在Gen-3上能生成匹配的效果,Gen-2不行。(来源:Founder Park)

 

评论:这份文件的泄露对于Runway来说无疑是致命打击,可以预见的是近期内迪斯尼、Netflix、索尼等公司将密集地对Runway发起诉讼,相关诉讼将给Runway带来经营压力和费用压力。不过这个新闻也从侧面进一步强调了训练数据的重要性,即使对于行业内领先的AI公司依然需要不断的获取数据进行训练以提升其最新的模型质量。所以大家会发现AI行业内对数据需求出现两种解决方案,第一是以OpenAI为首的行业巨头公司,通过与时代杂志、美联社、《金融时报》等版权方达成合作建立版权壁垒,第二是其他AI初创公司,通过第三方采购或抓取方式获取授权来源不明的大量训练数据。特别是在当前的司法环境下,AI模型属于黑盒,权利人很难举证哪些内容被AI开发者未经许可的使用。对很多AI开发者来说,与其费时费力地与权利人逐一取得授权,不如直接通过灰色渠道先用了再说。我们不清楚Runway只是行业里面一个特殊的个例,还是普遍现象。如果是普遍现象,那么只能说明,AI行业的合规治理可能还有很长的路要走。

 

相关领域
高科技与人工智能