AI大模型训练数据版权问题凸显 优质训练数据库价值有望重估

①知情人士称,美国社交媒体平台Reddit已同谷歌达成协议,将其内容用于训练后者的人工智能模型。②人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费,这意味着AI大模型向数据提供方的知识产权付费或将成为行业趋势。

  知情人士称,美国社交媒体平台Reddit已同谷歌达成协议,将其内容用于训练后者的人工智能模型。据悉,协议价值约为每年6000万美元。Reddit已公开提交美国IPO文件,摩根士丹利、高盛、摩根大通及美国银行为牵头行。

  近期,新闻出版巨头施普林格出版集团(AxelSpringer)与ChatGPT开发机构OpenAI签署协议,成为全球第一家与OpenAI合作将新闻业与人工智能技术进行更深入整合的出版机构。银河证券指出,OpenAI与AxelSpringer签订的协议表明,人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费,这意味着AI大模型向数据提供方的知识产权付费或将成为行业趋势。当前AI政策密集出台,高质量数据集和训练数据版权问题得到重视,未来优质训练数据库的价值将得到凸显。出版行业公司大多拥有丰富的电子化的图文资源,这可以作为国内外大模型训练的重要数据集。出版行业公司在版权和IP上的资源优势有望助力其作为海内外AI大模型研发的重点助力。

  据财联社主题库显示,相关上市公司中:

  中信出版已尝试与作者和大模型公司合作语言训练,开发智能阅读应用产品。例如,公司旗下的知识服务平台与百度联合发布了“中信书院AI阅读助手”插件。

  掌阅科技在文学和阅读领域的版权储备业内领先,这些中文语料可以用于网文行业垂类模型训练。公司与字节目前主要在数字阅读的版权、内容生产、广告商业化等多方面开展了深度合作。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部