摘要:当前全球正处于新一波科技之中,新质生产力的形成对生产、生活、交易、治理具有颠覆性影响。以Sora为代表的大模型将逐渐成为新质生产力重要的一部分。本研究通过案例分析法,以Sora大模型为例,分析了Sora的技术特性、应用场景,以及其在影视制作、科研、制造业、教育、养老服务、电商等行业的具体应用,探究生成式人工智能技术(AIGC)对新生产、新生活、新交易、新治理的影响。面对AIGC技术的发展,在治理层面,需深度融合数据驱动与第一性原理的方法,优化技术应用框架,实现数字孪生与大模型的有机整合;在政策层面,应加速科技成果产业化,构建数据联盟,推动AI技术与传统产业的融合;在技术层面,应关注芯片、生物医药、航天航空等其他技术的发展,促进技术的整体进步。
综观全球,新一波的科技正推动区域竞争重新聚焦于产业发展。各经济体相继启动“再工业化”策略。发达国家先后瞄准5G、人工智能、合成生物技术、高端装备制造、新型材料、新能源及智能驾驶等前沿行业,抢占未来产业竞争制高点。习总多次提出要加快形成新质生产力:“发展新质生产力是推动高质量发展的内在要求和重要着力点,必须继续做好创新这篇大文章,推动新质生产力加快发展。”“发展新质生产力不是要忽视、放弃传统产业……有选择地推动新产业、新模式、新动能发展,用新技术改造提升传统产业。”可以说,新质生产力将会对我们目前的生产生活交易治理产生颠覆性的影响。
2024年春节期间,OpenAI最新发布的Sora大模型在国内外科技圈引起了热潮。根据谷歌趋势2024年2月16日至2024年3月8日的搜索热度数据,“Sora”一词在中国的搜索热度在全球是最高的。这一现象不仅反映了我们对于前沿技术的极高敏感度,也证明了在意识层面,我们并未落后于科技的快速发展。在这场隐形的大变革中,同时抓住先发优势和后发优势,对我们来讲,要有和国际最前沿“同步对齐”的紧迫性。关于Sora等大模型,我们思索的是,面向已知的未知领域、未知的未知领域,必须满腔热情地拥抱这一次的人工智能开发与应用浪潮,“以满腔热忱对待一切新生事物”。
Sora从大型语言模型(LLM)中汲取灵感,使用视觉patches替代文本tokens,从而在大规模的视觉数据训练中获得更好的通用能力。并且Sora是一个扩散自注意力模型(diffusion transformer),这使得它在语言建模、计算机视觉和图像生成等多个领域都表现出显著的扩展特性。另外Sora利用DALL-E 3的字幕生成(re-captioning)技术,训练高度描述性的字幕模型和使用生成式预训练Transformer模型(Generative Pre-Trained Transformer,简称GPT)将用户提示转换为更详细的字幕来理解语言。Sora还在大规模训练后,涌现模拟物理世界中的人、动物和环境的能力,验证了模型在一定规模后可以理解物理世界的一些规律。
只要输入一段文本描述,Sora可输出最长一分钟、最高1080p的视频,其中不仅融入了丰富的角色、动作类型及背景细节,更在语言理解、内容连贯性、视频时长、清晰度以及空间时间的处理上,显著超越了其他同类产品。此外,Sora还能“延伸”现有视频片段,巧妙填补信息缺失、更换视频的风格与元素,赋予创作者前所未有的自由度与灵活性,开启了视频创作的新。
Sora的发布,无疑是技术领域的一大进步。虽然在短期内,它的价值可能被过度高估,但从长远来看,其深远的意义和潜在的价值却往往被低估。正如古语所言,“无用之用,方为大用”,这引发了一个值得深思的问题:我们可能还没有准备好迎接这一技术。
以Sora为代表的生成式人工智能技术,是基础设施和生产工具,同时也是交易标的,更是游戏规则。对于各个行业来说,运用好新工具,在产业转型升级的当下,更可赋能现有优势产业,催生一批新经济和新场景。
Sora是新工科、新理科和新文科的结合。技术打开了工业的天花板,想象力将成为我们未来的瓶颈。人机结合,人机互动,能熟练运用Sora等大模型工具开展生产的企业,将有机会成为新赛道的领军人、某个领域的新兴独角兽企业。
影视制作领域是受Sora影响最大的垂直领域之一。传统的制作流程往往需要投入大量的摄影器材、提前准备场地和布景。然而,随着Sora的介入,创作者可以方便地完成文本到视频、图像到视频、替换元素、擦除、绿屏等操作。比如,奥斯卡获奖影片《瞬息全宇宙》,部分内容使用了Runway旗下产品RunwayML进行制作。除了人工智能生产内容(AI-Generated Content,简称AIGC)的显性影响,人工智能支撑内容生成(AI-Supported Generated Content,简称AISGC)也在工具中发挥隐性影响。许多影视制作软件本身使用方式没有变化,但是其某些功能的底层技术已经切换到了人工智能技术。因此,传统的影视基地亟需探索新的发展模式,为转型做足准备。
智能化科研(AI4R)也将催生范式变革,融合创新成为新常态。科技创新发展正从过往倚重重大科学装置,迈向“重大科学装置&AI+科创”双引擎的时代。在这一过程中,试验过程中产生的大量数据成为了数据驱动的人工智能与科技创新的关键基石,Sora通过分析这些数据,学习现实世界的规则、挖掘关键规律,储备了人类未知的“隐知识”。到目前为止,AlphaFold 2已预测了超过100万个物种的2.14亿个蛋白质三维结构,几乎涵盖了地球上所有已知的蛋白质。人工智能(Artificial Intelligence,简称AI)运用“隐知识”在科研过程中发挥了机器猜想的作用,在没有现实交互约束条件下,短时间内完成了大量精准的预测,还能以图像、视频、虚拟现实等多种方式呈现科研成果,从而加速科技创新的步伐。
在生产环节中,企业追求低成本、高效率,缩短时间和降低错误率已成为共识。这需要精确的逻辑流程和严格的操作控制,以符合严苛的制造标准。Sora等大模型技术表现的高度随机性,在一定程度上,与工业生产中对精度和稳定性的高要求似乎形成了对立。然而,正是这种高随机性,为某些生产环节的创新提供了可能性,尤其是在研发、测试等容错空间相对较大的环节。同时,AI的应用也简化了制造流程设计和控制程序的编写工作,节约了大量的人力资源。随着技术的不断发展和优化,预计未来大模型将在更多工业生产环节发挥关键作用,推动制造业的全面升级和转型。
Sora的出现无疑为各行各业带来了深远的影响。这款先进的AI工具不仅推动了生产效率的提升,也为满足个性化需求提供了前所未有的可能性。在Sora的帮助下,定制化生产的成本大幅降低,为生产者和消费者提供了一个整体便利、相对便宜、更为丰富的定制平台。
在休闲娱乐领域,Sora使得栩栩如生的视频制作变得触手可及。借助AI可以让普通人制作影视的门槛大大降低,有微博网友利用AIGC工具自制《流浪地球3》预告片,得到导演郭帆的亲自回复。这不仅使人类更容易共情,也为创造一个更加沉浸式的娱乐世界提供了接口。正如电影在20世纪初给娱乐方式带来的革新一样,特别是“转译”小说、动画、游戏中不存在于真实世界的人、事物,Sora等大模型的“想象力”将使更多的创意和奇思妙想得以快速呈现。
教育工作者利用Sora生成定制化视频,可以为教育提供更丰富、更生动和更有针对性的教学资源。截至2024年3月1日,一个名为“Stellar Sagas”的视频账号专注于通过人工智能技术生成历史故事短视频,该账号发布的视频数量仅47条,观看数量就已达到了1.8亿次。这一超高的观看率反映了视觉内容在历史故事呈现上表现得富有吸引力,更能为观看者带来深度的情感共鸣。AI在历史事件的重现、科学现象的模拟以及文学作品的视觉化等方面都能提供更加直观和沉浸式的学习体验,极大地提高了学习的效率、趣味性和互动性。
Sora等大模型帮助老年人生成定制化的视频内容,提供了更加个性化和多样化的娱乐、学习体验。“相册回忆”是手机中的一项热门功能,未来借助Sora等大模型可以将老年人过去的照片转换为更生动的视频。并且有相当数量的老年人难以通过文字说明学习新兴电子产品的使用方法,企业可以在Helplook等平台上借助AI快速完成一份生动的说明书,这些讲解、动画、视频说明书可以帮助老年人更容易学习使用产品。无论是回忆往昔或是学习新技能、娱乐消遣,Sora都能够帮助老年人享受到更加丰富多彩的生活,从而提高他们的生活质量。
我们正站在商业模式和交易模式变革的前夜。Sora等大模型的出现,不仅将重塑交易平台和交易模式,更将重新定义商业行为、行业效率和企业竞争力。它预示着资源的重新配置和部分产业定价权与定义权的重构。随着技术的不断进步,许多企业和个体将不得不重新思考他们在行业中的地位和角色,甚至是让渡部分“主权”。
在大模型的推动下,交易平台不再仅仅是商品和服务交换的场所,而是变成了智能化、高度定制化的服务提供者。利用大模型的高效数据处理和个性化输出能力,交易平台能够为每位用户提供更加精准和个性化的服务。阿里推出的“绘蛙”能够帮助商户快速地从文字生成商品展示图片与数字模特,并且用户也可以“试穿”商品,未来Sora等大模型提供的视频生成能力能为商户和用户提供生动的服务,从而大大提升交易效率和用户满意度。
随着AI技术的应用,交易模式也在发生着深刻的变化。传统的线易流程正在逐渐被更加灵活、动态的交易模式所取代。这些新模式能够实时响应市场变化,更加精准地匹配供需双方,降低交易成本,缩短交易周期。此外,大模型还可以为央行数字货币赋能,比如,基于AI技术的智能合约、自动化交易系统等,为行业带来了更多的可能性,也为数字人民币跨境结算提供了利器。
大模型能够帮助企业更有效地配置资源,利用人工智能技术“快反应”“高并发”的特性,减少生产时间,提升产量空间。这不仅改变了企业内部的运作方式,也重塑了企业之间的合作模式和竞争格局,更重要的是,大模型的应用使得部分产业的定价权和定义权开始向技术驱动型企业倾斜。美国SaaS概念龙头赛富时在2023年7月中的公告中宣布,公司旗下一系列产品将平均涨价9%。赛富时特意强调了生成式AI的存在,并且上一回涨价已经是7年前了。这也迫使传统企业必须适应这一变化,以免在激烈的市场竞争中落后。
Sora等大模型的出现,尤其是人工智能生成内容(AIGC)的能力大幅提升,使得我们面临着前所未有的挑战。面对大肆泛滥的逼真假信息,面对快速传播的有害假视频,还要面对这些生成内容所带来的知识产权侵权事件,都是对职能部门的重要考验。同时,伴随行业颠覆性的发展,市场上将涌现更多的弱组织、强关联的“自由职业”。个人不但摆脱“人的依赖关系”,也将摆脱“物的依赖关系”。“自由人联合体”成为现实,用工共享、零工市场、弹性就业等,对当下的监管提出新挑战。
人工智能企业需要在提升大模型能力的同时,开发与之匹配的人工智能对齐技术,确保生成的内容符合伦理和法律标准,不被用于制造和传播有害信息。其中,OpenAI、谷歌、Meta、百度等机构已在人工智能对齐中做了不同的探索。比如,2023年7月6日,OpenAI宣布正在组建一个由其联合创始人兼首席科学家参与领导的新团队,致力于开发能够引导和控制超智能人工智能(Superintelligent AI)的系统,并且他们将新训练的InstructGPT作为GPT-3的继承者,使得模型输出更符合人类的预期。
为AIGC内容制定明确的标准和规范极为关键,特别是检测、检验与认证(TIC)在AIGC的行业标准确立的过程中亟待技术更新。利用数字水印技术可以在不影响图像视觉效果情况下,对合成内容追根溯源。利用“AI+安全技术”,通过使用检测定位模型识别和对抗同样由AI生成和篡改的内容,从而有效检测并鉴别虚假信息。另外,还可以利用技术侦测已训练模型的缺陷,如哥伦比亚大学开发的DeepXplore软件,通过诱导错误揭示神经网络缺陷,以便企业在应用的中间层加入消除缺陷的代码。
在大模型的训练中使用了大量公开或非公开的数据集,其中有相当数量版权保护内容,为了保护原创内容不被未经授权使用,亟需立法,保护知识产权。第一,将生成式人工智能纳入国家文化事业发展规划、数字出版产业发展规划。第二为该领域提供专门的数字出版技术规范,以便整体规划调控。此外,对待技术创新,宜相对“宽、松、软”;反之,对待商务模式创新,应该相对“窄、紧、硬”。
就现状而言,Sora等大模型似乎在某种程度上“理解”了一些物理规律,但这种“理解”可能更多地仅停留在高级的“模仿”阶段。它能够相对准确地预测相邻图像块出现的概率,构建出一个结构良好、相对合理的画面,但似乎无法深刻理解多个实体在世界中的相互作用,更不用说从全局的角度去构建世界了。将基于统计概率的数据驱动方法与基于第一性原理的方法深度融合,将具有较高确定性的数字孪生技术与具有较高不确定性的大模型进行有机整合,是未来的发展方向。在这一框架下,数字孪生的世界中嵌入微分几何,这样可以较为精确描述物理世界的知识,负责绘制出宏观的粗略框架,而大模型根据规则生成实体和个体行为,负责填补更为细致的内容。这种结合方式将使得大模型可以更加实时、准确模拟城市和区域的状态,为循证决策提供了新路径。以往,是循着过去和当下的“证据”,做经验性决策。有了Sora这一工具后,可以对未来进行更逼真的多情景的仿真模拟,循着将来的“证据”去做决策,从而使决策者可以更直观地感受城市和区域的运行状况,有利于决策者及时作出精准的判断和实施有效的措施。
有人说,当所有人把目光聚焦于Sora等AIGC领域的时候,或许真正的赢家是英伟达(Nvidia)等芯片企业。人工智能发展的四个支柱包括数据、算法、算力和应用,因此我们在关注AI所展现的神奇能力的同时更不能忽视其他领域的发展,如,高端芯片、生物医药、航空航天、绿色能源等关键领域,以及脑科学、脑机接口、虚拟现实、数字孪生等元宇宙入术。这些技术的发展不仅自身具有性的意义,同时也能够与Sora等大模型相互促进,加快整个科技领域的进步。其次,以实施《上海市推动人工智能大模型创新发展若干措施(2023—2025年)》为契机,积极建立质量高、数量多、形式广的数据联盟,完成用生产创造数据、用数据增强AI、用AI赋能生产的闭环。总之,以AI为基石,可以催生出增量型的新质生产力,也可以有存量型的新质生产力,关键是及时将科技创新成果推向产业化应用,使之迸发新的“质态”,摆脱传统路径依赖,整体提升价值链。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。