×

3dai合成主播

3dai合成主播(全球首个“AI合成主播”上岗,为什么我们会感到恐慌)

lsrchb lsrchb 发表于2022-09-19 11:49:40 浏览181 评论0

抢沙发发表评论

本文目录

全球首个“AI合成主播”上岗,为什么我们会感到恐慌

首例Al合成了一个男主播,还会有一个女主播问世,甚至生产更多的机器人播音员。人工智能的出现,将来真的会有机器人替代人类的某种工作岗,这也是时代发展的需要,担忧恐惧或扼制,都挡不住这种新事物的发展。因为是工作环境的需要,机器人身上的许多优点是人类难以做到的。就Al合成主播而言,它是一个不变的坐姿,用嘴巴模仿人类的优质播音,有人的表情,人的手势,并且永远是年轻,是很有质量的播音员。人与这种机器人相比有很多弱点,人要发给工资,有作息时间表,有衰老的时候等等。有机器人的出现,主播这个行业,就成了人类的冷门职业。然而,男主播的四肢还沒有动起来,倘若动起来,那实在让人恐怖又好奇的。

人工智能2018年发展如何

刚过去的2017年,被称作人工智能发展的“应用元年”。这一年,不管是AlphaGO战胜人类围棋世界冠军、无人超市的营业、还是自动驾驶汽车的“上路”行驶,一一见证着人工智能的足迹。相信2018年,人工智能对国内各行各业扮演重要的角色。
芯片产业一直是国外企业垄断着核心技术(如英伟达、AMD,谷歌等),而人工智能的核心在于人工智能芯片,人工智能芯片强调的是深度学习,深度学习对于计算速度的要求是非常恐怖的。在我们国内人工智能芯片很多都是初创公司主导,让我们来看看2018年人工智能芯片在国内不同场景上的独特优势。
1.寒武纪

寒武纪团队是中国第一个专门从事计算机科学技术综合性研究的国立学术机构。寒武纪是全球第一个成功流片并拥有成熟产品的人工智能公司,其于2016年发布了世界首款商用深度学习专用处理器——寒武纪1A。2018年是否会出来更先进的商用处理器值得我们期待。

2.深鉴科技

深鉴科技是一家专注深度学习处理器解决方案的人工智能的科技公司,致力于深度学习处理器与编译器原创技术的研发。其于2017年10月公布的人工智能芯片计划,并透露其自主研发的人工智能芯片“听涛”、“观海”将在2018年第三季度推出。

3.比特大陆

比特大陆是业内成立较早的芯片创立公司。其在2017年11月,发布了全球首款张量加速计算芯片BM1680,以及板卡SC1/SC1+、智能视频分析服务器SS1等产品。除此之外,比特大陆将于2018年发布第2代人工智能芯片BM1682,计算能力将大幅提升。

人工智能已经是业界公认的引领未来发展方向的战略技术。而对于人工智能芯片产业来说,在国家政策和资本技术的多重刺激下,人工智能芯片的未来不可估量。

AI合成主播的出现会影响播音主持专业这条路吗

会有一定的影响,但可能不是我们想象的方式。未来虚拟主播一定会在内容市场上占有一席之地,它不会取代人类主播,但可以拥有一个全新的市场。

24小时待命

虚拟主播可以24小时不间断的生产,但是没有哪个电视台的当家台柱能24小时带妆候命,在发生突发事件时,模拟真人的虚拟主播可以在第一时间发布内容,等真人主播就位之后,再进行深入报道。

突破创作瓶颈

无论是idol、网红还是主持人,对主播的颜值、表达能力、表现能力都有一系列要求。说的好听点,主播是整个制作团队的门面,说的难听点,主播也是整个制作团队的瓶颈。虚拟主播出现后,制作团队可以打造一个虚拟IP,人设根据运营需要进行定义。只要市场愿意接受、制作团队吃的消,初音未来可以在全球200个城市同时开演唱会,每天接1000个广告,但是一个真人idol一定做不到,因为分身无术。

永远不老

大雄一直都是四年级学生的模样,他永远都可以和静香手拉着手,走在夕阳下。只要内容制作团队愿意,那么在虚拟主播的的演艺生涯中就可以一直保持着年轻的状态,他可以更加风格百变,更加精致完美,并永葆青春。

虚拟主播目前的状态的确比较像人工智障,但也就像火枪刚出来时被嘲讽为“烧火棍”一样,技术、产品、内容、运营方式都需要时间打磨。但一旦达到了某个奇点,将会以超出人们想象的速度进行发展,直到你对它望尘莫及。

AI主播出现了,怎样获得新技术抢市场分到一杯羹

AI主播在最初阶段是类似苹果Siri智能语音系统,发展到现在已经融合了人工智能和虚拟现实诸多前沿技术。

目前AI主播比较成熟和大规模应用的应该是央视和搜狗联合打造的“AI合成主播”,央视很多频道已经可以看到其节目了。

我相信谁能进一步训练AI,并开发相应模拟系统,让AI主播更接近真人谁就能主导市场。


1 我们需要改变固有思维,对AI技术发展保持一定宽容

现在的AI主播已经不是前几年傻瓜式的语音复刻,而是具有一定学习能力和弱智能,在这一点上,我们需要改变固有思维。

虽然说目前AI主播在各个方面能力尚不足,很多人体验AI主播也只是图一时新鲜,看一会儿可能就觉得没意思,毕竟缺乏真实的感情交流和互动,特别是直播的时候,AI主播目前还无法跟真人主播一样顺畅交流。

哪怕是目前已经开始大规模应用的央视“AI合成主播”,很多人看过之后还是觉得效果一般,还是显得生硬和机械。

但是我要告诉你,此次“AI合成主播”的技术已经非常先进了,其综合运用了语音、唇形、表情合成以及深度学习等技术,并经过大量训练才最终面世。

假设你不去看新闻画面,只是单纯听“AI合成主播”的声音,会不会感觉其实并没有那么不真实;我们再回头看看一年之前AI能力跟现在比较是不是差距挺大。

要知道人类的整个语言系统(语音、表情及行为)本身可不简单,对这种极具挑战的高难度技术研发,希望大家保持一个平常心,并对技术发展有一定忍耐和宽容,相信总有一天技术会进步到让你我都吃惊。

2 当体验者无法分辨主播是真人还是AI时,市场将会被快速抢占

可能很多人知道2018年5月,Google I/O 开发者大会展示的谷歌智能语音助手 Google Assistant,其自主帮助主人顺利预定到美发服务的情景,让很多人惊叹谷歌技术的先进。

殊不知,我们央视“AI合成主播”在模拟真人方面,相关技术综合应用能力在全球都应该属于拔尖,它是很多技术的综合运用而不只是智能语音,所以在模拟真人方面,“AI合成主播”比谷歌的Google Assistant还要先进。

相信随着技术进一步发展,在不久的将来(也许只需要3-5年),我们就难以分辨主播是机器还是真人。到那时AI主播可以24小时*7天,无数个分身全年无休的工作,满足人们的需求,相信那时市场将可被快速抢占。

感谢阅读,欢迎在评论区留言与我交流!

世界第一个“AI合成主播”在新华社上岗,你怎么看

11月7日,第五届世界互联网大会在浙江乌镇拉开帷幕。新华社一张前所未有的海报吸引了很多人的注意。

这次新华社的神秘人物,既不是什么国际政要,也不是什么企业名流,而TA——新华社和搜狗联合开发的“AI合成主播”。第二天也即11月8日便是中国记者节,不知道过节的记者们看到来“抢饭碗”的AI主播,心里会作何感想?

新华社:全球首个AI主播

“大家好,我是今天的新闻主播……”在博览会1号展馆的搜狗公司展位,与真人主播真假难辨的“AI虚拟主播”,正进行着当日新闻。

这是如何做到的?现场工作人员介绍,由一位真人主播面对镜头录制1个小时的新闻,再通过“搜狗分身”技术,对真人主播的视频和语音数据进行特征提取,再通过语音合成、唇形合成以及深度学习等技术,“AI虚拟主播”便具备了和真人主播一样的能力。在此基础上,只需要提供文字,“AI虚拟主播”就能准确无误地像真人主播一样播出新闻。

在建社87周年之际,新华社联合搜狗发布的全球首个合成新闻主播——“AI合成主播”,运用最新人工智能技术,“克隆”出与真人主播拥有同样能力的“分身”。这不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

此次“AI合成主播”亮相,可以让网民感受到新华社“新员工”的业务能力,不仅中文“AI合成主播”实力“上岗”,同时还有以“联接中外、沟通世界”为使命的英文“AI合成主播”。

从主播“真人”到“分身”,“AI合成主播”可谓是经历了“九九八十一关”,有了多项人工智能前沿技术的“加持”,才走到了今天。从发布的这一刻起,“AI合成主播”正式成为新华社报道队伍中一员,TA将同其他主播一起,为我们带来权威、及时、准确的中英文新闻资讯。

与“真人”主播不同的是,“AI合成主播”竟然开了“外挂”!“真人”主播一天工作8小时,但“分身”能够不知疲倦地工作24小时!只要小编们将文本输入系统,TA们就能随时工作,并且一直工作下去……

无论是在日常报道中提升电视新闻的制作效率,降低制作成本,还是在突发报道中快速生成新闻视频,提高报道时效和质量,“AI合成主播”在不同的新闻场景运用中都拥有着不可限量的未来。

据介绍,“搜狗分身”技术可以让机器以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。

搜狗公司CEO王小川表示,AI合成主播的诞生,将为媒体生产端带来无限想象空间,是智能时代大幅提升新闻生产、传播效率、新闻价值的有效手段。

据搜狗方面介绍,未来“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容,显著提高社会生产和服务效率。

日本:Kizuna AI到Yomiko

虽然标榜全球首个合成新闻主播,但我们也要看到,去年十一月日本一个被玩家爱称为“人工智障爱酱”的虚拟主播便在Youtube上开始流传开来。这个名叫“Kizuna AI”的3D萌妹是个神经粗线条,偶尔又有些腹黑的人物。在视频镜头里,她时而恶意卖萌地说一些不着边际的话,时而颜艺丰富地自我吐槽,一下子就吸引了众多宅男的目光。

在这之后,日本放送协会(NHK)宣布将从今年4月开始在节目中使用人工智能(AI)主播Yomiko。通过CG技术制作的“主播”将在工作日晚间11时10分播出的“NEWS CHECK 11”节目中登场,每周一次约5分钟的新闻。“新闻主播Yomiko”将模拟真人主播的声音记者写成的新闻稿件。  

技术人员事先请NHK旗下的主播阅读大量新闻稿件并录音,然后将这些语音数据分解为10万个音素。此外,还让Yomiko事先记住日本全国的地名、专有名词、口音等。  

回到Kizuna AI身上,我们把片假名翻译成汉字,Kizuna的名字叫做“绊爱”,叫她作小爱似乎是为了暗合AI这个新的技术潮流。小爱在影片中对自己“人工智能”的身份有十足的认知。而她背后的运营团队甚至还组织过一次人工智能之间的对话,让小爱和苹果旗下的Siri对话。结果似乎是小爱完胜,把只会死板应答的Siri打得体无完肤。(和SIRI的会话,大家可以去youtube或B站观看)

技术:在变革中演进

小爱超人一等的表现让粉丝们不禁猜测,这个虚拟人物背后的支持引擎究竟是怎样强势的人工智能?有人甚至猜测,她背后的支持软件是日本文部科学省秘密研制的强人工智能,用虚拟偶像的面目出现在大众面前只是为了伪装和调试她的性能。这个推测显然是受到了去年10月份日本人工智能演员Rinna的启发。日本微软出品的这一款女演员机器人就是为了提高人工智能在各种情况下的表现能力。毕竟体验各种人生的最佳职业,莫过于演员了。

但熟悉现在人工智能技术发展潮流的人都会意识到,说小爱这个虚拟偶像是强人工智能显然还并不合适。以现在的技术进展来看,要像她这样能够对游戏画面也做出实时的正确反馈几乎是不可能的。用人工合成的说话声音,也没有办法达到像她一般流畅自然的水平。你只消看看别家合成出来的唱歌声音是多不自然就会对这个判断持支持的态度。

与其说是人工智能做出的实时反馈,倒不如说小爱其实背后有一个真实的演员在借助她的面具做表演。没错,把一个真人通过动态捕捉技术、人脸识别和人物建模技术结合起来,变成一个可爱的虚拟人物,在今天的技术条件下并不是什么天方夜谭。

首先是动作捕捉技术。这种技术最早被用于上个世纪的物理研究,专门用来分析物体的移动特性。后来,检测人体关节移动的设备被应用到了体育训练当中。随着体育界大量应用动作捕捉技术,影视动画和游戏行业也加入了这个行列。在探访大片制作现场的时候,如果你看到有人穿着一件镶嵌着无数白点的黑衣服在做奇怪的动作,就一定是在给动态捕捉拍摄底板。通过把人体关节动作在计算机中重新解析和配上肌肉,动画人物就能做出和演员一模一样的动作了。今年Adobe大会上动作抠图的展示也正是这个原理。

尽管动态捕捉技术相当省事,但它也有自己的破绽。最经常会出现的两个问题是翻关节和穿模。所谓翻关节就是在人物的运动中,关节处出现了有悖常理的翻着,比如俗语所说的“胳膊肘往外拐”。出现这种问题很有可能是计算机在识别关节位点时出现了误读,把不是关节的点认作关节了。而穿模问题的发生则和演员与动画人物的身材拉伸失调有关系。如果让一个瘦演员演胖人物,那动画胖子的手就会常年穿透自己的肚子出现在奇怪的地方。

小爱身上就经常发生这两个问题,关节反转不说,有时候还会在手放在胸口时穿透胸部,伸到里面去。其实这两个问题都是可以通过人工调试消除的,否则动态捕捉的真实性就没有价值了。可惜小爱在Youtube上的视频需要做到每日一更,主创人员对有的失误就只能听之任之了。

面部捕捉技术其实也并不令我们陌生。无论是习惯看国外直播平台还是国内直播平台的观众,都会在2015年开始发现有些房间的主播界面是一只可爱的动物。或猫或狗或浣熊的动物脑袋伴随着主播节奏在摇头晃脑、做出奇特的表情。完成这一创举的是一款叫做Facerig的应用,经常看游戏直播的读者想必都听说过这个名号。

应用于电影制作的人脸识别技术并不是什么新鲜事物,早在《阿凡达》和《猩球崛起》的时代,好莱坞就已经拥有成熟的人脸识别套路了。人脸识别其实和动作捕捉在原理上没有太多的区别,只是人脸肌肉的移动精密度更高,更难以捕捉细节而已。

十年前的人脸识别仍然需要在演员脸上贴上反光纸或者点上荧光染料,无论如何总还是会有点影响表演。而且当时的人脸识别需要很复杂的标定流程,只要一台摄像机的位置稍有变化,整个现场就需要全部重新标定。

随着对人脸识别的算法进步,这个问题至少在短距离上已经解决了。软件通过摄像头捕捉到的面部表情被简化成80多个位点,在卡通人物的脸上移动相应的位点就能模拟出人做的表情。当然这样的模拟不可能做到十全十美,有时候多少还是会有点变形。但只要神似,人们在快乐之间也就不会去深究什么了。虚拟偶像小爱在打游戏受到惊吓、感到惊喜时的丰富表情经常有一定的时滞,几乎已经可以确定是类似技术的产物了。

人物建模就更不是什么难题,事实上这往往是现实人物构建虚拟人物的第一步。小爱让人觉得可爱本就是题中应有之义。有了这样的人物形象,即使小爱并非真正的人工智能而只是一个把配音演员二次元化的动画人物,又有什么关系呢?

所以我们看到现在的新华社虚拟主播,其所应用的技术在很早之前就已经开始研究,只是在目前的情况下借助技术和算法的突破,采用真实人脸模式,让虚拟人物更加鲜活有生命,而不再只是一个语言和表情都很僵硬的机器存在。随着人工智能数据的积累、技术的发展,真的能让支持节目的主播真假难辨也说不定。

未来已来,我们一起期待。

程序员未来真的会因为人工智能而失业吗

感谢邀请。

个人认为程序员未来不会因为人工智能而失业,但是我觉得未来程序员可能会出现多级分化,最顶尖的程序员是这个世界科技的推动者,并不断改变着这个世界,最低层的程序员是最有压力的,在现在计算机专业的学生同样存在就业问题,但是问题不在程序员这个职业本身,而在于人。中国互联网发展推动了程序员的就业,而且这种发展还有几十年,趋势我们是可以看得到,未来一定需要更多的程序员来设计,优化,构造我们这个世界,并让生活变得更加美好。所以,对于一个程序员一定要学会与时俱进,顺势而为还是很重要,学会了一门语言,更要不断去拓展这门语言的未来,并结合自己的职业发展方向做出调整。

人工智能时代,如何保护时事新闻

现在人工智能对于新闻报道的贡献非常大。几乎每个报社和新闻机构都有人工智能机器人的入住并协助工作。

在新闻报道中人工智能可以承担如下的角色。

第1个是智能。根据汇总到的信息,通过机器的计算,得出一些人类无法得出的结论,这样可以抢占新闻报道的先机。

这个计算过程人工智能的效率会远远超过人类员工的效率,人工智能可以依靠它超级快速的计算能力和巨量信息的搜索能力得出人类员工无法快速得出的结果。

而时效性是新闻报道的生命。抢占了先机就等于抢得了一切。

第2个是新闻。现在人工智新闻报道主持人已经发展到可以以假乱真的模仿某个主持人了。

可以设想一个场景。某一个时刻,突然有一条震撼性的消息进来了,而这时候负责报道的主持人正在睡觉,那如果有人工智能主持人的话,就可以立即发出这条报道。

这样实时新闻的推送效率就会大大的提高。同时也会大大降低人类主持人的工作量。

第3个语义识别和评论管理。

现在很多新闻机构都有在线网站。有时候会收到用户的一些信息,当这些信息数量达到一定数量级的时候,人类员工处理起来会非常麻烦。人工智能机器程序,可以靠语义识别来对这些信息进行筛选。对相当重要的信息可以交由人类员工来特别处理。

评论管理可以用机器人去回复用户的一些评论。有点像聊天机器人的功能。对于海量的评论,尤其是一些知识化的评论,可以给出一些相对官方的回答。

第4个是模板化新闻的生成。

这类新闻在日常的我们看到的新闻中占很大的比重,这种行为是指新闻内容的本地化,比如说同样的一条新闻,在中国,在日本,在美国,在英国,表现的形式和内容肯定不一样,可能需要进行一定版面的调整以及语言习惯的调整。

诸如此类,人工智能在新闻报道领域,会发挥越来越重要的作用。

这里是丁哥开讲,欢迎留言关注点赞,谢谢。


搜狗与新华社新媒体中心联合发布全球首个站立式AI合成主播,你怎么看

在过去的2018年,人工智能成为了最火热的技术之一,AI技术不断发展,让越来越多的人开始担心,未来自己的工作会不会被机器人所代替,这种担忧看似很遥远,但是对于一些职业,变革已经悄然来临……

新华社联合搜狗公司开发的AI主播再次升级,新闻主播已经开始和人工智能竞争了。

就在昨天,新华社同搜狗公司召开了战略合作签署仪式,双方共同推动媒体行业的创新发展,在仪式上,双方共同发布了全新的站立式AI主播——“新小浩”和全球首个AI女主播——“新小萌”。

升级后的AI主播仍以新华社主播邱浩为原型,之前发布的AI主播只能保持坐姿,表情相对僵硬,神态与内容结合不够贴切。而本次升级之后,“新小浩”不仅可以坐着,更能站起来,加入更多的肢体动作,带着各种手势及姿态,声情并茂的新闻,看起来更加真实,更加智能。

本次升级也实现了技术上的重大突破,在声音模型、图像模型方面,成果显著,并且对“搜狗分身”技术有了巨大的提升与完善。

针对文字与声音的转换,以及对声音的模拟,都是基于声音模型完成的,本次升级采用了领先的波形建模技术生成音频,通过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。

与听起来更为自然的语音相同,使用原始波形意味着其能够为任意类型的音频建模。经过这一技术合成的声音,更富有情感,表现力得到极大提升。

图像方面,本次升级在肢体动作方面下足了功夫,使用了海量手势数据,为其肢体动作模型进行学习,实现了“新小浩”丰富的肢体动作,并且根据主播原型邱浩的行为习惯进行数据分析,归纳手部动作的习惯,让动作和内容相结合,不再“尬舞”。

关键点标记顺序

除了肢体动作,在唇部动作方面,也对唇形合成模型进行优化,对于唇部动作的关键点标记有了新的方案,唇部共计标注20个关键点,外唇12个,内唇8个,提高了动作捕获的准确性。经过一系列优化,AI主播的声音和口型配合将更加自然,更加流畅。

除了站立式AI主播,本次的另一个亮点是首个AI女主播,基于AI男主播的开发经验,AI合成女主播“新小萌”的定制周期大幅度缩短,效果和稳定性极大提升,AI女主播将于今年的全国两会报道上正式亮相,加入新闻报道队伍。此外合成AI女主播标志着“搜狗分身”技术的更加成熟,为更广泛的“复制”奠定了基础。

截止目前,AI主播已发稿3400余条,累计时长达10000多分钟,参与了如第五届世界互联网大会、首届进博会、2019春运、农历猪年春节等重要报道,不久的将来可实现量产。

将视野放宽,其实虚拟人物生成技术可应用领域较为广泛,AI主播只是其中最初级的尝试。在技术成熟,并且可以实现低成本复制之后,将应用于娱乐、医疗、健康、教育、法律、金融等多个领域,通过提供个性化的行业解决方案。

人工智能的发展,正在让我们的生活变得更加美好,但是与此同时,又会让多少人失去工作?和人工智能比起来,我们该如何凸显核心竞争力,这一问题值得深思。