文|周鑫雨在线美工
制图|况泽宇
拍摄|周鑫雨 邓咏仪
编辑|苏建勋
2024 年 9 月 19 日开幕的阿里云云栖大会上,近 300 家涵盖算力、模型、应用的 AI 企业,和近 1000 种 AI 产品,构成了一幅全行业的活地图。
多模态和具身智能,两个今年最热的 AI 风口,在云栖占据绝对的 C 位——
云栖大会"人工智能 + "馆。
走进汇聚了近 60 家模型企业的"人工智能 + "馆,能明显感受到,如果不加点音视频相关的多模态能力,光拼参数的大模型已经不够看了。
而具身智能,是"前沿应用馆"最" City "的存在。一进场馆,就能看到 20 多家机器人企业,携着或仿真人、或仿狗子的产品,给你来上一段取货、翻跟头、猛踹不倒的炫技表演。
不过,无论是多模态,还是具身智能,再高大上和先锋的科技,能在云栖引起围观的,只有"接地气"。
这届云栖,参观者中第一次出现了"义乌老板团"。面对同声传译、数字人主播和可一键生成商品图的应用,他们替用户提出了最为现实的问题:能帮我赚多少钱?
当红大模型独角兽月之暗面的展台,大概是"班味"最浓的一个。不少白领、IT 都聚了过来,激辩字节的"豆包"和月暗的" Kimi ",哪个办公更好使。
在最具未来感的具身智能展台,被暴力踹踢而不倒的"小强"——逐际动力的双足机器人,引得不少路人围观。这款用于展示机器"小脑"研究成果的机器人,目前还待在实验室里,供力学研究。
逐际动力双足机器人。
这也挡不住观众对此发出灵魂一问:
"推不倒,到底有啥用?"
多模态,模型的标配
通义千问:没有不想落地短视频的多模态应用
一进模型扎堆的"人工智能 + "体验馆,很难不被"通义大模型"展区的 AI 太极写真生成体验区吸引。
通义 AI 太极写真。
体验者只要比划对应的姿势,在镜头中与简笔画合上——几十秒后,一张太极写真就出炉了。
美工当然,图生图的 AI 写真功能,只是阿里云模态版图中的一小块。作为东道主,阿里不仅发布了最新的视频生成模型,还搬来了文生图、图生视频、图 + 音频生视频的多模态全家桶。
全民舞王。
比如,在通义千问 App 内,阿里上线了 10 秒左右的短视频生成应用"全民舞王"。
用户只需上传人或宠物的照片,以及一段说话音频,就能在 1-2 分钟内生成舞蹈视频、对嘴唱歌视频,或者动态表情包。目前,这还是个免费的功能。
人像动态视频生成技术 EMO(Emote Portrait Alive)。
"全民舞王"的背后,是阿里巴巴智能计算研究所在 2024 年 2 月发布的人像动态视频生成技术 EMO(Emote Portrait Alive)。仅需一张肖像照和一段音频,EMO 就能让人物按照音频内容张嘴唱歌、说话。
据现场工作人员介绍,自 2024 年 4 月 25 日上线以来,"全民舞王"的使用人数已经突破了 10w+。多数用户的使用方式是
"这太适合 I 人做短视频了吧!"有参观者感叹。
"没有不想落地短视频的多模态应用!"
智谱:视频拍到哪,作业讲到哪
让家长纷纷驻足的展台中,一定有智谱。
2024 年 8 月 29 日,智谱将"类 GPT-4o "的视频通话功能,搬上了自己的 C 端应用"智谱清言"。
这款融合了视频理解、语音对话能力的功能,就好比 AI 突然有了五感。用户可以用智谱清言学穿搭、识别物品,也可以把它当成赛博闺蜜。
当然,更适合中国人"活到老学到老"体质的玩法,就是 AI 教师。
对着作业打开摄像头,手机镜头拍到哪,智谱清言就能解答到哪。并且,智谱清言的讲解,质量甚至和真人教师有的一拼,不仅循循善诱在线美工,还有问答互动。
比如讲解"鸡兔同笼",智谱清言不会直接给出答案,而是先引导孩子列出二元一次方程组。
智谱清言视频通话功能。
孩子再也不怕难题,家长也解放了双手。
生数 Vidu:给我一张剧照,我还你一段新海诚
同样是"清华系"出身的生数科技,展出了自研的视频生成模型 Vidu。2024 年 4 月发布时,Vidu 因为性能优秀,还一度出圈,被称作"中国版 Sora "。
但即便是 OpenAI 的 Sora 本尊,也很难解决视频的前后一致性问题。不难发现,大多 AI 视频中,每一帧的脸都不一样。
为了解决一致性难题,生数的解决办法是,给 Vidu 找个"模特"。
2024 年 9 月 11 日生数科技发布的"主体参照"(Subject Consistency)功能,让 Vidu 根据给出的参考图,确定视频主体的形象和风格。
"主体参照"(Subject Consistency)功能。
现场,作者上传了一张新海诚电影《铃芽户缔》的女主角"铃芽"的剧照,Vidu 就根据铃芽的形象,生成了一段秋日公园视频。
VAST Tripo:3D 生成也有 Scaling Law
"我们有全球最大的 3D 数据库。"
这是我们在展区唯一听到过的带有"最"字的判断。这句话,来自 3D 生成领域的明星企业 VAST。
国内不少人可能会觉得 VAST 面生,原因在于,这家由前 MiniMax 和商汤成员创立的公司,第一天就做了出海的生意。
据工作人员介绍,VAST 在海外主打面向游戏、XR 开发者的 C 端应用,在国内则主打 B 端应用,"并且我们在海外商业化不错"。
不少圈内人对 VAST 的 3D 生成模型 Tripo 的评价是:高性能,操作友好。根据输入的文字或者图片,Tripo 仅 8 秒就能生成 3D 原型图,并且支持市面上所有的 3D 原型编辑软件,还能直接 3D 打印。
Tripo 现场 3D 打印。
Tripo 文字生成 3D 素材。
当下,3D 生成模型的训练,也沿用堆参数的暴力美学 Scaling Law。2024 年初,VAST 发布的 Tripo 1.0,参数就达到了数十亿,在训练数据稀缺的 3D 模型中是相当庞大的存在。
提高参数,相应的也要增加模型的训练数据。
工作人员透露,在获取稀缺的高质量 3D 数据过程中,团队花了不少时间在"犄角旮旯"中获取数据。而在训练过程中,模型也用了不少 AI 合成 3D 数据。
就在 2024 年 9 月 19 日,VAST 还发布了生成质量更好的 Tripo 2.0,实现 10 秒⽣成形状⼏何、10 秒⽣成纹理及 PBR(一种模拟光与材质相互作用的渲染技术)。
音疯:AI 玩音乐照样疯
2024 年 7 月,网红秦新宇因整容失败发布的名为《还我妈生鼻》的魔性歌曲,突然冲上了微博热搜。
而这首歌的谱曲者,不是秦新宇,也不是专业音乐团队,而是一个上线不到两月的 AI 音乐生成平台"音疯"。
音疯 AI 音乐体验区。
音疯展台。
这款由昆仑万维推出的音乐制作平台,特点在:长。工作人员表示,音乐生成的难点在于保持前后一致性,一旦歌曲超过 1 分钟,前后的曲风很难保持一致。
因此,音疯的卖点在于,将 AI 音乐生成的时长拉到了 4 分钟,并且能够相对保持前后风格的一致性。用户只需要输入歌词,并且在曲库和人声库中选择喜欢的风格,就能生成一段歌曲。
当然,工作人员告诉作者,目前音疯使用最高频的场景,也是短视频:)。
HiDream.ai:为电商量身定制的 AI 生图
HiDream.ai(智象未来)的展台,驻足了一批批的义务商家。
这家由前京东探索研究院副院长梅涛成立的 AIGC 公司,基因里就带着"电商"两个字。虽然同样是图片生成,HiDream.ai 的 AIGC 创作平台"秩象"在线美工,就像集布景、拍摄、后期于一身的商品图工作室。
HiDream.ai 的 AIGC 创作平台"秩象"。
比如,商家只要输入商品图,就能灵活切换背景、模特。在为服装生成模特图的过程中,商家甚至能够选择模特姿势、性别、肤色、人种。
月之暗面:视频功能,Kimi 怀胎中
人工智能 + 馆人气最旺的展馆,在线美工有 Kimi 的一席之地。
在一众把图片、音频、视频、3D 等模态玩出花的模型中,仍然主打文本、表格和代码任务的 Kimi 就稍显朴素。
当然,这并不影响 Kimi 展台的人气——或者准确来说,是"班味"。
现场不乏有上班族,直接向工作人员询问文字转 excel、文件生成报表、文书撰写的方法。甚至还有企业 IT,直接来咨询 Kimi API 如何接入钉钉、企微和飞书。
Kimi 展台。
不过,这款打工神器,也免不了朝着更多模态迭代。工作人员对作者透露,Kimi 的视频功能,已经在路上!
机器人炸场,虚拟人扎堆
银河通用:松弛感拉满的机器人售货员
擅长"抓"的银河通用机器人 Galbot G1,这次走进了未来的无人商超。
消费者在平板上下单后,Galbot G1 机器人就会前往货架,准确拿取下单的商品。
Galbot G1。
不过,这位机器人售货员的取货速度,有些太慢了——从下单到接到冰红茶,差不多用了 1 分钟。想要进商超,机器人还是得先戒掉这绝佳松弛感。
当然,无人售货只是银河通用展示的其中一个场景。目前,Galbot G1 已经能够精准抓取矿泉水、雨伞等随机放置的物品,还能够熟练开柜门、抽屉和晾衣服。
工作人员表示,2024 年 Q4,就有希望看到机器人进入真实的商业场景。
清宝:仿真机器人,上流水线搬砖
和披着人皮的机器厂友做同事,马上就要成为现实了。
在清宝机器人的展台,几名不断变换 pose 的仿真机器人构成了门面——然而,由于眼珠转动过于灵活,但表情麻木,这几名机器人还是产生了一些恐怖谷效应。
清宝机器人。
而这几名仿真机器人的作用,既不是陪伴,也不是做智能导游、机器人主播之类的"文职",而是直接进工厂!
目前,由于流水线 SOP(标准操作流程)比较固定单一,且整机机器人成本较高,投入真实流水线使用的机器人,大多是单一的机械臂。
据工作人员介绍,目前签单的整机人形机器人,在流水线上主要做的是质检和零件分配,客户给出的理由也很别致:"想让产线有点温度"。
当然,对于客户而言,机器人带来的温暖,还得在降本增效上。工作人员对作者表示,机器人一年可以节省 20% 左右的人工成本。
酷开:云电视,抓住 AI 稻草
"这几年电视行业太难了!"云电视厂商酷开的员工,上来就倒了满满的苦水。随着电视机大盘被移动智能产品挤压,云电视厂商的日子也不好过。
不过,2024 年以来,酷开算是守得云开见月明—— AI 是他们抓住的稻草。
酷开在云电视上线的 AI OS,支持语音搜索电视剧、电影,以及网络咨询,还能向 Chatbot 等智能助手一样,给用户推荐片单。
比如用语音输入"陈道明演皇帝的电视剧是什么?"酷开立刻显示了搜索结果:《庆余年 1、2》《楚汉传奇》《康熙王朝》。
酷云云电视 AIOS。
值得一提的是,搜索结果显示的演员照片、电视剧剧照,全都是由 AI 在后台生成的。酷开工作人员告诉作者,这是为了能够精准贴合用户的搜索需求,"比如你的偶像是鹿晗,你想看他的剧,肯定也想看到搜索结果全都是他的照片。"
不仅如此,酷开也能根据用户的个人喜好,用 AI 生成片单推荐视频。
上线 AI OS 一个月,酷开就吃到了 AI 带来的甜头。工作人员表示,内嵌大模型能力后,使用语音交互功能的用户数量和时长有了明显的提升;与此同时,技术成本的增加还能控制在 10% 以内。
阿里云视频团队:一键给《甄嬛传》配英文字幕
一部成熟的电视剧,就应该学会自己给自己配多语言字幕。
这个美好的愿景,已经被阿里云视频团队实现了。
阿里云视频团队的视频字幕翻译功能。
以往给电视剧配外语字幕,是个大工程。你需要先把台词转录成中文字幕,再翻译成外语。与此同时,配字幕还免不了用剪辑工具。
如今,基于通义实验室自研的算法,用户已经可以实现"端到端"翻译甄嬛传:不需要给字幕,直接扔视频文件,就能自动配英文字幕。
猎聘"多面 · doris ":未来,AI 给你发 offer
第一批数字人面试官,已经上岗了。
猎聘旗下的 AI 产品"多面 · doris ",就是一位在 24 小时内,面试 400 多人的 AI 面试官。
目前,猎聘 AI 面试有设定问题、智能问答等多种模式。比如在智能问答环节,AI 首先会基于简历,分析出应聘者的潜在风险点,比如"频繁跳槽""任职时间不长",后续的面试,也大概率会围绕这些问题展开。
猎聘 AI 面试产品"多面 · doris "。
不过,不少面试者反馈,由于缺乏即时交互,以及难以从 AI 面试官的扑克脸中获得反馈,和 AI 面试反而更紧张了。
最后,工作人员贴心提醒,数字人面试官比较适合一面、二面等人才的初筛环节。如果企业想要聘请高端人才,还是由人出马更显诚意!
Motiff 妙多:设计师救星,一句话也能生成 UI 了
目前国内最懂 UI 设计的大模型,源自一个叫做 Motiff 妙多 A 的团队。
至少需要一周的 UI 设计,现在被简化成了输入一段话。
用户只需文字输入所需的界面类型、组成部分,以及定制化的描述,20 秒左右,就能生成两版 UI 设计稿。
Motiff AI 生成 UI。
与此同时,基于自研的 UI 大模型对布局的理解能力,原有 Cmd+V、Cmd+C 的重复动作,被 Motiff 简化成了一步到位的下拉动作。
狼人杀不尽,AI 吹又生
除了机器人和数字人,前沿应用馆最容易找到的,应该就是 AI 狼人杀。
游戏公司巨人网络,就将 AI 狼人杀,作为投放在抖音、B 站上的季节性用户活动。
这些 AI NPC 的"攻击性"还挺高,玩家发言一旦有逻辑漏洞,就会被"群起而攻之"。
巨人网络 AI 狼人杀。
这些 24 小时无休、永远在线的 AI NPC,将巨人季节性活动的用户时长,增加了 10 倍多。
在 2018 年上线的剧本杀 App "百变大侦探",近一个月也基于通义千问上线了 AI 剧本杀。
更进一步,玩家可以直接用语音和 AI NPC 进行对话。不过,对话的轮次有限制,想要增加对话次数,玩家只能氪金——这也是目前不少 AI 剧本杀的主要商业模式。
"百变大侦探" AI 剧本杀。
当然,在游戏前加了" AI "两字,并非全是好事。
工作人员告诉作者,接入大模型后,技术成本就提升了不少。与此同时,团队选择剧本也更为谨慎:太复杂的本,AI 不理解;太简单的本,用户不愿玩。
只能说,AI 在进步,人也得跟着进步。
欢迎交流!在线美工
特别声明:以上内容(如有图片或视频亦包括在内)来源于网络,不代表本网站立场。本网站仅提供信息存储服务。如因作品内容、版权和其他问题需要同我们联系的,请联系我们及时处理。联系方式:451255985@qq.com,进行删除。