中国生成式AI大会十问十答 | 加速“技术+应用”融合让产品落地更有价值

重构世界，奔赴未来。

日前，2024中国生成式AI大会在北京隆重举办，万兴科技受邀出席大会，集团副总裁朱伟亮相大模型专场论坛，现场发表《音视频多媒体大模型市场洞察与落地实践》主题演讲，并宣布万兴天幕音视频多媒体大模型将于4月28日正式公测。

目前，万兴天幕音视频多媒体大模型文生视频能力已实现不同风格、丰富场景及主体的连贯性，一键生成时长支持60秒+。同时，万兴“天幕”还具备视频生视频、文生音乐、视频配乐、文生音效、文生图、图生图等原子能力。

万兴“天幕”从何而来，具有哪些差异化特点？大模型2.0时代下，如何从国内“百模混战”之中脱颖而出？此次大会，朱总接受媒体访问，就媒体关注的热点问题进行了现场解答，快速Mark一下吧！

1、大模型2.0时代有哪些阶段性的差异特点？

大体上来说，有以下三个特点：

1.0时代的大模型更多还是以文字、语言和图片为核心，2.0时代则是视频大时代，视频大模型越来越重要，并将得到长足发展；
随着视频大模型、基础大模型的崛起，我们的垂直大模型，特别是聚焦视频创作场景的音视频多媒体大模型，也将会在今年迎来长足发展；
今年视频类应用有望迎来爆发式增长，也就是说，AI视频大模型的落地应用会越来越多、越来越快。

2、万兴从什么时候开始布局视频大模型赛道？

万兴从2003年成立就一直在做视频编辑这件事情，当时我们给出的定位的叫「简约而不简单」，就是说，我们希望让普通用户通过使用软件工具，很方便地完成繁琐的视频制作工作。

所以，早在2015年，我们就已经着手组建技术团队开始做智能算法，做了很多探索，也收获了一些落地成果，比如：智能调色、防抖、降噪等，这些都是「简约而不简单」的体现，也是最初智能操作的体现。

再到2022年，随着生成式AI的爆火，我们快速进行了AI技术迭代，并于同年年底推出万兴爱画。紧接着，我们开始组建大模型团队。经过2023年一年的打磨时间，我们在2024年1月30日正式发布万兴天幕音视频多媒体大模型，并将大模型原子能力集成到自有产品矩阵中，开放给用户使用。

3、为什么叫“天幕”？

二十多年来，我们一直在做视频创意这件事，最后所产出的视频一定是要通过屏幕去播放、去呈现给大众的。而如今，随着生成式AI的到来，屏幕上所呈现出来的内容将无限宽广，所以我们把它叫做「以“天”为“幕”，世界都是你创意的舞台」。

还有“天幕”的logo，也是源于上世纪人们观看电影的场景：晒谷坪上放一个大幕布，后面一台电影机，满目星空之下，一群人端着小板凳，坐在坪上望向幕布，充满欢声笑语……置身于这样一个巨大的宇宙星空下看世界，给人一种非常心旷神怡的感觉，并且很容易能够激发人们的无限想象空间。所以，我们叫它“天幕”。

4、面向大模型2.0时代，“天幕”是否会有新的技术路线？

我们会根据实际需要，选择合适的技术路线。

目前，万兴“天幕”还是聚焦数字创意垂类创作场景，基于15亿创作者及100亿本土化高质量音视频数据沉淀，以音视频生成式AI技术为基础，具有多媒”、垂直解决方案以及本土化数据三大特点，全链条赋能全球创作者，让大模型应用落地更有针对性、更具实效。

5、生成视频类大模型未来的竞争壁垒将会在什么地方？

首先，生成视频类的大模型，可以分成两类或者分成两个层级：

第一个层级是做基础模型，比如Sora这种。基础模型就像行业分析，要大力出奇迹，这是很重要的一个竞争点，包括大算力、大数据，以及大量的优秀算法人才等。

第二个层级是做垂类模型。它是通过一些基础数据的训练以后，在这个基础上，再做一些微调精调的训练。这当中，数据就非常关键了。

其次，我们再来看看行业和应用驱动。基础模型方面，需要有非常庞大数据量的训练和适宜修改。而垂类模型，如果想要从大模型时代脱颖而出的话，还是要坚持「应用为王」——通过一个爆款应用，快速实现爆发式增长。

6、Sora为国内大模型生态的发展带来了哪些影响？

从最早的「文生文字」到「文生图片」，到现在「文生视频」出来以后，其实视频是人类信息交互信息密度最高的一种方式，在现在这个大家都在用视频做交互的时代，通过「文生视频」能够很快地产出视频，这对于信息的传递能够产生很大程度的提效。因而，Sora它对整个行业的影响必然是巨大的、积极的。

从具体表现上来看，相对于通用类的视频，我们认为，短视频行业所受到的影响可能会更快和更直接，这也是万兴目前视频创意业务重点在发力的一个方向，主要体现在降本增效方面。

7、国内大模型目前属于一个怎样的发展阶段？

不管是文本模型、图像模型还是视频模型，国内真正的原创大模型其实还不算多，甚至可以说很少。特别是视频大模型，包括我们在做的万兴“天幕”，也还没有到L0最基础的模型级别。

因而，从模型基础的级别来讲，国内与Sora的距离还比较远，需要投入更多的资源，去快速进行技术迭代。

8、万兴天幕相较于Sora有哪些差异化的特点？

万兴天幕相较于Sora有哪些差异化的特点？

目前，万兴“天幕”的模型能力和Sora确实还存在一定差距，尤其是文生视频效果这块，Sora作为行业标杆，是我们正在努力看齐的目标。

同时，相较于Sora这类基础模型，万兴天幕更多是偏向于细分的垂类行业，需要聚焦到每一个具体的用户场景，去帮助用户解决实际问题，给用户带来价值。文生视频、文生3D视频是万兴天幕偏向于通用一点的能力；但像AI歌手、数字人播报等能力，就是在具体细分场景中的落地体现，属于纯应用，比如：万兴播爆就是重点解决「跨境电商出海口播视频制作」的问题。

我们希望万兴的每一款产品，都是「技术+应用」的结合，能够解决某个细分领域的具体问题，让产品用户真正获得价值。

9、国内大模型如何用最快的时间去追赶差异？

Sora发布后，更多为我们呈现出的是一个「世界模型」的概念，这为国内做视频模型的我们提供了一条很好的指引路径，主要有三个方面：

一是做大模型算法开发方面，其框架等各方面都开源了，或者说有公开了，让大家能看得到、窥探得到，但是里面很多的细节需要我们去做深入研究，才能补齐差距。
二是在数据方面，特别是围绕我们中国本土的一些数据，目前其实在全球来看都还不算太多。我们也看了Sora很多的一些视频，其实在对于含中国元素和对中文的理解上，相对来说比英文的会稍微弱点，因此大数据中文量的数据是我们的一个机会，甚至是我们“弯道超车”的机会。
三是算力方面，对于视频来说，需要几亿甚至几十亿数量级的训练，如果要实现快速迭代的话，算力本土化也会是我们很重要的一个因素。

也就是说，如果我们能够在现有的框架下面，快速去用自己的科研力量补齐差距；同时，在本土数据和全球数据的双向加持下，再将我们的算力本土化，或将会对整个国内大模型研发的快速发展会有很好的帮助。

10、万兴天幕的视频训练量在行业里有哪些优势？

一方面，我们在视频创意领域已经深耕二十余年，本身就已经具备了丰富的数据积累，这是我们训练视频大模型的基础。

另一方面，我们通过战略合作，共建天幕开放生态，来不断扩充本土化数据库。再基于自身做视频理解、内容理解的算法能力积累，我们打造了一个视频内容理解到文字生成生产管理平台「数据生产管理平台1.0」。

也就是说，我们拥有丰富的数据积累，拥有数据加工处理能力，还组建了一个近100人的驻场数据标注人工团队。基于这三点，「数据」相对是我们的一个优势。

中国生成式AI大会十问十答 | 加速“技术+应用”融合 让产品落地更有价值

中国生成式AI大会十问十答 | 加速“技术+应用”融合让产品落地更有价值