北京时间2月16日,OpenAI 、Google、Meta、Stability 几家公司都在近乎同一时间节点发布文生视频模型成果,Sora 在这场角逐中破圈而出,打响文生视频大模型行业 2024 年的第一炮
3月13日,人形机器人领域的明星企业 Figure AI 公司发布了一段视频,展示搭载了 openAI 大模型的机器人 Figure 01 递苹果、沥水架、收拾餐具等对话交互场景。机器人还可以一边收拾好桌面垃圾,一边告诉与其互动的人类为什么给你拿的是苹果。
2024年1月,Figure 01 通过看视频学会了冲咖啡,2月学会了搬箱子,如今搭载了openAI大模型则实现了更强大的物品识别能力和对话能力。
今年,我们迎来的不再只是GPT-5,而是更多类似 Sora、 Figure 01 这样接入了AI大模型的成熟产品。人们对通用AI带来的改变更加期待,但与此同时:经过过去一年大模型经历的爆发期,AI领域的发展有了新方向,各行各业使用AI开拓相应需求的应用有了新的思路。着陆Touch Base盘点了一些案例,从适老化、无障碍、公平性等领域来看看AI这一年是否真正带来了改变。
AI的发展并非一蹴而就,康养行业作为银发经济的重要板块,一直是人工智能最先开始开发应用的落地场景。
目前已有的案例有:智能汤匙,通过AI算法减少手部抖动,让阿兹海默症患病的人能自主进食;智能药盒,提醒老年慢性病患者定期服药;可穿戴设备,如衣服传感器、鞋子传感器,通过数据采集与定位,来及时跟踪老年人的身体和出行情况。
那么,通用大模型时代的到来,康养产业想要力推的AI适老化能否有新的突破?
一位用户告诉着陆TouchBase,之前给父亲买了一款华为手表用来监测血压,自己教过他好几次都不太会用,父亲不好意思每次打电话问,就一直没佩戴过。这正是AI在适老化层面亟待解决的难题——如何打破老年人在使用AI产品时存在认知壁垒。
去年,华为发布了鸿蒙4(HarmonyOS 4),除了常规体验更新,还加入了大模型元素 —— 盘古大模型3.0,赋能全新“小艺”助手,实现更智能的人机交互,华为小艺也成为首个具有 AI 大模型能力的终端智慧助手。
通过大模型强大的语义理解和生成能力,当老人遇上问题时,像华为小艺这样的语音助手可以直接给出解决步骤,解决老年人的情绪负担,可以随时随地提问,这在某些特定的程度上让AI适老化的道路更加清晰。
不过华为手表只是有了搭载大模型的“AI助手”,还不算严格意义上的AI手表,目前国内外也还没有太成熟的产品,但谷歌似乎早早瞄准了这一赛道,团队正在组建开发更垂直的“个人健康大语言模型”,据称将在今年发布的新一代 Pixel Watch 上内置基于 Gemini 改造的个人健康大模型。至于是否能有惊喜突破,或许还要等到今年的 Google I/O 开发者大会上才有答案。
早期AI健康管理设备,主要技术聚焦在物联网和大数据等层面。大模型的接入,让机器的深度学习能力有了质的飞跃,有了更高的环境感知能力和决策能力,真正具备“智能”的性能,有效推进了AI健康管理领域发展。
同样通过大模型获得发展的还有百度2023年推出3.0版本的AI用药说明书。
借助文心大模型和数字人技术,用户都能够和数字人药剂师实时交互,有效解决了纸质版说明书看不清、看不懂以及字太小的痛点。此外,3.0版本的AI用药说明书新增用药提醒功能,用户都能够设置用药时间和提醒方式。
早期AI的学习能力和对环境的感知能力非常单一,但基于多模态识别和大模型的进展,老年群体与智能机器的交互方式发生质变,打破数字鸿沟成为可能。
目前,政府和公共部门一直是智能助老产品的主要用户,过去一年里,优必选科技和恭和家园联手,除了在数字化、智慧化上精进,在适老化上探索更完善的智慧养老解决方案。
这一养老社区引入了大量功能各异的AI机器人,如清洁机器人、送餐机器人、智能代步机器人,它们在社区内各司其职,让无障碍出行服务落到实处。
此外,在长者的居住空间里,智能声控系统、陪伴机器人也让智慧养老的环境更具温度。
此前,功能稍微复杂的人形机器人都会被视作黑科技,属于小众范畴的话题,而无论是需求侧还是供给侧,都没有充足的条件支撑发展,而如今,随着AI技术创新、场景落地和商业化,拥有具身智能的人形机器人实现量产,成为可能。
机构养老如果能刺激更多智慧养老机器人的出现,那么依靠机器人居家养老的畅想蓝图,未尝不是未来生活的草稿。 Figure 01的出现,再次引发了大家对依靠机器人居家养老的讨论,事实上去年斯坦福的家政机器人Aloha就在网络上爆火。 据官网片展示,Aloha能拉窗帘、拧瓶盖、倒垃圾、洗衣服,看起来“无所不能”。
但次日,研发人员却发布了它的“翻车视频”,Aloha倒红酒打翻酒杯,炒菜却把锅烧黑,倒菜找不到盘子,而且这一切还需要半遥控状态。这并不妨碍大家对家政机器人的期待值攀升。
随着通用AI大模型的发展,人形机器人的成本大幅度降低,同时,机器人“脑力”的大福提升,也助推了机器人“行动力”的发展。人形机器人领域始终难以突破的技术难题 —— 精细化操作,比如面对柔软的布料,如何完成叠衣服、叠被子,正在不断被攻克。
Mobile ALOHA仅通过两指夹具,便完成了洗衣、做饭等高难度动作,让家务机器人有了更加具象的想象空间。
让机器人照顾人类的晚年,承担起繁重家务的场景,尽管仍需时日,但绝非空想。
一个人接收与发送信息,无非就是耳听、眼看、嘴说、手打字等,来自各渠道信息形态(如视觉、听觉、触觉)可以视为一种模态。在AI语境中,残障人士的沟通系统可视为某个模态输入或者输出的堵塞。如果AI能够从一个模态迅速转变成另一个模态,比如将视觉信息迅速转换成听觉信息,就能帮助残障人群把“障碍”绕过去。
这一年,大模型和生成式AI技术赋予了更自然的语言和更顺畅的交互,对无障碍建设工作来说是一个很大的助力。
Be My Eyes 是丹麦的一家初创企业,旗下同名APP平台通过召集全世界的人工志愿者来协助视障用户完成日常生活琐事,但并非所有的视障用户都会愿意跟陌生人共享个人隐私信息和生活场景,除了隐私安全还涉及到视障群体的自尊心问题,这也导致了这一应用推进遇到了瓶颈。
去年接入GPT-4后,Be My Eyes就率先推出一项“虚拟志愿者”(Be My AI)功能,客户反响迅速提升。
来自美国的盲人女孩 Lucy Edwards 分享自己使用Be My Eye的场景:阅读时尚杂志目录、将中文翻译成英文、搜索网上食谱、阅读餐厅菜单等等。此外,Edwards还展示了将Be My AI用作私人教练和伦敦地铁导游的潜力。
Edwards表示,AI可以赋予视障人群更大的自主性和私密度,避免了和陌生人沟通带来的尴尬和隐私问题。
国内类似的平台则更看重应用场景精准化,如基于MOSS大模型而开发的“听见世界”APP,就有根据导航、环境描述、寻找物品等应用场景而设计的向导模式、朋友模式和管家模式。开发团队结合实地测试,模拟视障者真实体验,细节更为精致,能够更好地充当视障人士的智能管家。
AI 技术普及的数十年来,手语识别转文字一直有较大的技术空白,听障行业存在诸多待攻克的难点 —— 如何在较小空间中准确跟踪手指关节动作、识别其方向和运动轨迹,如何来处理手语特有的语法顺序和省略表达、手语动作间的相似及包含关系等问题。
vivo研发技术团队整合 AI 等实现了手语到文本再到语音的流畅互译,在2023年3月正式推出“手语翻译官”功能。目前,已能识别1200个手语词汇,准确率80%以上,相当于汉语四级水平。而手语合成部分,已经覆盖了国家通用词典8000以上的词汇,能轻松实现文字到手语的顺畅翻译。
以前大多数信息无障碍的改造,都停留在功能层面的“补全”,停留在“实用”,比如上述的两项,最大的目的是减少有障群体使用数字产品的不便利性。当AI技术更多和文娱世界结合,也为残障群体提供了更多的精神支持。
OrginOS 4团队为视障用户所带来了一项功能——vivo读谱。传统的盲谱不仅曲库有限,还会因为手的反复触摸而逐渐磨损,难以经常使用。vivo读谱能够最终靠AI技术将钢琴曲转变成五线谱,然后按照音符、节拍、小节来朗读曲谱,实时陪伴视障用户自助练琴,探索音乐世界。
Chandrika来自印度,是一家名为Karya公司的数据工作者。在Karya应用程序上,她通过母语卡纳达语朗读文本,就赚到每小时5美元的工资,这个数据几乎是印度最低工资的20倍。
Karya是一家成立于2012年的丹麦初创企业,通过雇佣数据工作者工作,然后以市场价向大型科技公司和学术界、政府等机构客户出售数据。创始人Manu Chopra的愿景是通过数据工作来帮助印度农民摆脱贫困,据了解,目前Karya公司已向印度3万名农村居民支付了6500万卢比(近80万美元)。
不过,曾有先例肯尼亚企业Sama公司却被曝出压榨员工。一位工作者表示,每天高强度的数据训练工作让他睡不着,且因为阅读大量不堪内容而频繁出现幻觉,但他每小时获得的薪酬还不到2美元。在被BBC问及低工资问题时,Sama公司创始人还辩称,支付更高工资会破坏当地经济。
因此,这类数据公司是不是真的能秉持初心,以及其商业模式的可持续性还有待探究。
印度的贫穷问题并不只是钱的问题,《贫穷的本质:我们为什么摆脱不了贫困》一书中曾揭露的印度贫穷问题的本质,其中重要的一项是 —— 贫困群体缺乏正确的信息和教育,因此没办法做出最有利的决策。例如,他们不了解基本的卫生和营养知识,不知道怎么有效地为孩子接种疫苗,不清楚教育资源的重要性以及如何获取这些资源等等。
针对印度10亿人口正在使用的5种语言(马拉地语、泰卢固语、印地语、孟加拉语和马拉雅拉姆语),Karya公司正在建立一个关于能够用印度方言回答农民关于医疗保健、农业、卫生、银行和职业发展等问题的聊天机器人,被称之为“消除贫困的ChatGPT”。
2023年5月,微软也曾推出能够给大家提供从文本和语音多语言翻译的Jugalbandi聊天机器人。
Jugalbandi主要服务对象是农民,特别是不会说印度流行语言,又希望了解或获得申请奖学金之类公共服务的农民。它的运作原理是利用当地研究实验室AI4Bharat开发的大语言模型解析查询,发现有关信息,然后用母语生成当地农民容易理解的答案。
当然,印度贫困问题根源复杂,因素众多,想通过应用软件来消除贫困不切实际,但AI从贫困群体需求出发,也让人工智能在应用场景上有更具公益性的开端。
回望这一年,以GPT-4模型为代表的大模型技术,让AI拥有了深度学习能力,摆脱了“有多少智能就要多少人工”的魔咒; 而多模态的识别生成技术,让人机交互方式多元化,帮助老年群体、残障群体更好地使用人工智能。
我们从去年的变化中窥见未来生活的草稿,如今站在技术拐点,除了期待,还有很多关于问题尚未解决,很多技术和应用都还在起跑线,但能够正常的看到一个新的趋势:AI正在改变着商业向善的尺度。
爱范儿: OpenAI 机器人炸裂登场! ChatGPT 终于有身体了,能说会看还能做家务。
InStride Health的多学科护理团队包括精神科医生、治疗师和暴露指导师,他们与每名儿童配对,利用短信和支持视频与聊天的移动应用程序等日常工具提供实时支持。