来源:光华所检索分析咨询部 发布时间:2025-03-21 13:51 点击量:155
【前 言】
2024年7月,世界知识产权组织WIPO发布了《生成式人工智能专利态势报告》(以下简称:WIPO报告),报告分析了从2014年至2023年底的十年间,全球生成式人工智能(GenAI)相关专利情况,并给出了权威的结论。《WIPO报告》显示,在这10年间,全球GenAI相关专利申请有5.4万件,其中中国的专利申请量以3.8万件占据首位,远远超过美国、韩国、日本和印度等国。由于 GenAI 技术呈现井喷式发展,相应的专利申请量也呈现指数式上升,仅2023年公布的 GenAI 相关专利就超过了全部总数的1/4。相应地,GenAI技术淘汰速度也非常快,可以想见过去10年的专利技术,越是新的技术越是具有参考借鉴价值。
本文将沿袭《WIPO报告》的专利分析思路,聚焦ChatGPT发布后,即2023年1月以后公开的GenAI几个最主要的大模型相关专利数据进行分析,为感兴趣的客户提供参考。
关注的大模型有:
1. 生成对抗网络Generative adversarial networks (GAN)
2. 变分自编码器 Variational autoencoders (VAE)
3. 基于解码器的大型语言模型 decoder-based large language models (decoder-based LLM)
4. 自回归模型 Autoregressive models(AM)
5. 扩散模型 Diffusion models(DM)
《WIPO报告》显示,在其调研的过去10年间的 GenAI 大模型专利中,大多数专利属于GANs。
2014年至2023年间,GANs大模型的专利家族有9700个,仅2023年就有2400个专利家族公布。VAEs和LLMs的专利家族数量分列第二和第三位,2014年至2023年间分别拥有约1800和1300个新专利家族。
在专利增长方面,GANs专利在过去十年中增长最为强劲。然而,最近这一速度有所放缓。相比之下,扩散模型(DMs)和 LLMs 在过去三年中显示出更高的增长率,扩散模型的专利家族数量从2020年的18个增加到2023年的441个,LLMs的专利家族从2020年53个增加到了2023年881个。显然ChatGPT 等现代聊天机器人引发的 GenAI 热潮增加了人们对 DMs和LLMs大模型的研发投入。
一、GenAI 大模型的前世今生
2022年11月,OpenAI 推出了聊天生成预训练转换器(ChatGPT),并且迅速爆火。该产品以强大的文字处理和人机交互功能迅速风靡全球。以ChatGPT 等大语言模型为标志的生成式AI 的成功,带来了新的范式革命和广阔的商业前景,资本市场持续高涨的热情也足以彰显它的价值。当然,ChatGPT等大语言模型也不是横空出世的,以下我们简单了解一下生成式AI的前世今生。
“GenAI+大模型”是一个结合了生成式人工智能(Generative AI)和大型语言模型(Large Language Model, LLM)的先进概念。生成式人工智能(Generative AI,简称 GenAI)是一类能够生成新内容(如文本、图像、音频等)的人工智能技术。它通过学习和理解大量数据来模拟人类的创造力。大型语言模型(Large Language Model)是自然语言处理领域中的一种深度学习模型,具有数以亿计的参数,能够理解和生成自然语言文本。这些模型通常通过大规模语料库的训练来提高性能。
生成式AI技术于2010年代初开始出现,当时的变分自动编码器(VAE)成为第一个广泛用于生成逼真图像和语音的深度学习模型。自动编码器的工作原理是将未标记的数据编码为压缩表示,然后将数据解码回其原始形式。普通自动编码器可应用于多种用途,包括重建损坏或模糊的图像。变分自动编码器不仅增强了重建数据的关键能力,而且还可以输出原始数据的变化形式。
这种生成新数据的能力引发了一系列新技术的快速发展,从生成式对抗网络(GAN)到扩散模型,这些技术能够生成更加逼真的虚构图像。因此,变分自动编码器为当今的生成式AI奠定了基础。变分自动编码器基于编码器和解码器块构建而成,这种架构也是当今大语言模型(LLM)的基础。具体来说,编码器将数据集压缩为密集表示形式,在抽象空间中将相似的数据点排列得更紧密。解码器从这个抽象空间中进行采样以创建新内容,同时保留数据集的最重要特征。
Transformer将“编码器-解码器”架构与文本处理机制相结合,于是形成了基于解码器的大型语言模型(decoder-based LLMs)。编码器将原始文本转换为“嵌入”表示。解码器将这些嵌入与模型之前的输出相结合,并连续预测句子中的每个单词。通过填空猜谜游戏,编码器可以了解单词与句子之间的关系,而无需任何人标记词性。Transformer甚至可以在未制定特定任务的情况下进行预训练。学习这些强大的表示之后,就可以使用更少的数据来增强模型的专业化水平,以便执行给定的任务。Transformer因其全面多样的功能而被称为基础模型。基础模型在理论上可以应用于许多领域,因而提供了加速和扩大生成式AI采用的机会。例如,大规模参数的LLM可以改变整个组织中的信息生成和共享方式。参数是在训练时使用的变量,有助于推断新内容。只需对LLM进行适当调整,以适应语义搜索、分类、预测、摘要生成和翻译等任即可。基础模型的采用得到了一系列主流的新兴AI工程最佳实践的支持,从模型开发到快速工程,这些通用实践和方法大幅简化了整个企业和生态系统的协作。基础模型需要大量的计算、存储和网络资源,会消耗大量的能源。只有经过持续不断的实验和迭代才有可能取得成功。
自回归模型(AM)是一种概率模型,通过对给定序列中在先观测的每个条件概率进行建模,来描述观测序列的概率分布。换句话说,自回归模型通过考虑先前的值来预测序列中的下一个值。在GenAI的背景下,自回归模型通常用于生成新的数据样本。自回归模型适用于语言生成、图像合成和其他生成任务。自回归模型在应用于自然语言处理任务(例如,大多数现代LLM,如GPT-3或GPT-4是自回归的)和图像生成任务(如PixelCNN)时特别成功。因此可以认为 AM 大模型是和LLM大模型配合使用的。
扩散模型的灵感来自扩散的概念,扩散在物理学中用于模拟一组粒子在两个不同物理区域中的运动。用于图像生成的扩散模型涉及一个神经网络,用于预测和去除给定噪声图像中的噪声。生成过程相当于首先对图像应用随机噪声(随机像素),然后迭代使用神经网络去除噪声。随着噪声的逐渐消除,一个新颖而有意义的图像被构建出来,由额外的机器学习机制控制,如图4所示。近年来,扩散模型取得了长足的进步,现在对于文本到图像的生成非常成功,例如稳定扩散(Rombach等人,2021)和DALL-E模型家族(OpenAI 2021)。
生成对抗网络(GAN)是Goodfellow等人于2014年提出的一种用于任务生成的深度学习模型。GAN由两部分组成,生成器(Generator)和判别器(Discriminator)。生成器是一个生成输出图像的神经网络,判别器一个评估生成器生成的图像真实度的神经网络。生成过程是这两部分之间的竞争。生成器改进其输出以误导判别器,判别器试图提高其区分真实图像和生成图像的能力,以避免被生成器误导。因此,生成器将最大限度地提高其生成逼真图像的能力。如今,GAN用于许多涉及图像的任务,如生成和增强照片级真实感图像。
二、ChatGPT发布后GenAI大模型的发展
为了更好地了解最新的 GenAI+大模型 的技术发展情况,基于《WIPO报告》的专利分析思路,聚焦 ChatGPT 发布后,即2023年1月以后全球公开的 GenAI 几个最主要的大模型相关专利数据,了解这方面全球最新的研究成果。本文中所研究的专利是根据专利摘要、权利要求或标题中的信息,可以明确属于哪个大模型的 GanAI 相关专利,这和《WIPO报告》的专利筛选规则一致。但是由于所用数据库的不同造成了检索式略有不同,因此检索命中数量也略有不同,但是没有本质变化,不会影响分析结论。
图1 2014-2023年GenAI大模型相关专利公开时间趋势
从图 1 各大模型公开趋势图可以清晰的得知 GAN 在近10年增长最为迅猛,但是2022年后增长有所放缓;与之相反,2022年后 LLM 和 DM 专利公开量一改过去零星的申请量,其全球申请量呈现了迅速攀升的态势。可见在OpenAI公司推出ChatGPT的同时,即在2022年,GAN,LLM,DM 的专利申请趋势已经发生了异动,研发热点已经顺应市场应用的需求发生了转向。GhatGPT 并非横空出世的,而是顺势而为,在众多研发实体推出的解决方案中脱颖而出,从而引领了之后的研发方向。
另外 VAE 相关专利的公开量则在近10年呈现缓慢的增长态势,AM 相关专利则一直只有零星的申请量。可见 VAE和AM两个大模型和当今最热的 GenAI 应用场景并不特别相关。
GAN,LLM,DM 这3种大模型的技术发展和应用受到 ChatGPT 带来的 AI 技术转向的深刻影响。我们非常有必要进一步研究ChatGPT发布后(2023年1月1日~2024年6月30日)各大模型的公开量(见图 2)。
图2 ChatGPT发布后各大模型的公开量
图2给出了各大模型在ChatGPT发布后(2023年1月1日~2024年6月30日)的全球相关专利的公开量。虽然 GAN 相关专利的公开量的增长有所放缓,但是 GAN 相关专利公开量仍然是 LLM 相关专利的两倍。受 GhatGPT 的发布影响非常少的大模型 VAE 和 AM 在这段时间的申请量非常少,尤其是 AM 近10年来专利申请量一直都非常少,可以预见在未来没有新的技术方向涌现的情况下,AM 大模型将依然并不是最主要的模型。
当然,这里必须指出,根据专利标题、摘要以及权利要求等信息,将5种不同的大模型的相关专利分配在不同组的方法也是有缺陷的,所有GenAI专利家族中有很大一部分不适合任何特定的大模型。许多GenAI专利的标题、摘要以及权利要求不包含特定的大模型关键字,而是专注于描述专利的应用,并且在专利说明书里面只对使用的GenAI过程进行了一般性描述。这使得我们很难将一些专利映射到五个核心GenAI模型,同时这5种不同的大模型在技术解决方案上也有一些重叠。
因此以上分析方法可能带来一些信息失真,我们非常有必要进一步结合应用领域、大模型训练/处理的数据类型、以及知名GenAI技术研发主体进行深入分析,以获得更加有意义的参考信息。敬请期待!