当前位置:首页 > 知识 > 实测豆包手机助手:AI 操作手机的时代来了?

实测豆包手机助手:AI 操作手机的时代来了?



字节正和多家手机厂商谈合作。实测手机手机

文丨贺乾明

“对比一下京东、豆包的时代美团外卖、助手盘锦市某某化品运营部淘宝上的操作肯德基香辣鸡腿堡哪个更便宜,选价格最低的实测手机手机下单,送到三里屯 SOHO A 座的豆包的时代地址,下单的助手时候备注 ‘放前台’,下单后把订单截图微信上发给小明,操作告诉他外卖点完了。实测手机手机”

整个过程,豆包的时代只有付款阶段需要人工介入,助手其他操作全部由 AI 在后台自动完成。操作



12 月 1 日,实测手机手机字节发布豆包手机助手预览版。豆包的时代这是助手一个面向手机厂商的系统级服务,它将豆包大模型深度融入操作系统,让用户只需动嘴(或动一下手指),就能指挥手机去执行那些原本需要点击几十次屏幕的繁琐操作。

我们第一时间拿到了豆包与中兴合作开发的搭载豆包手机助手的手机,挑选数十个日常场景,测试了其能力。

作为预览版,它还有一些不足,但确实提供了与市面量产手机截然不同的交互体验,相对流畅地实现了不少手机厂商曾在发布会上描绘过、却难以落地的设想。

豆包手机助手的主力研发团队,是盘锦市某某化品运营部字节负责 AI 硬件的 Ocean,它隶属于字节 AI 产品大部门 Flow,主要成员来自字节多年来先后收购的一些硬件产品团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年加入字节的手机、硬件从业者。

这款豆包与中兴合作的手机已在豆包手机助手官网及中兴商城上架,售价 3499 元。我们了解到,这款手机只是豆包手机助手的 “打样”。字节正和多家手机厂商谈合作。

跨平台比价点外卖、搜小红书做攻略,像人一样操作手机

豆包手机助手最大的突破,在于它是一个 Agent(智能体)。它不仅提供信息,还能跨应用执行复杂操作。

它有系统级的操作权限,能够识别手机屏幕上的 UI 元素,配合豆包大模型的能力,可以理解用户需求,然后模拟点击、滑动和输入等动作,像人一样去操作手机中的应用。

外卖大战中,淘宝、美团和京东投入千亿元资金补贴。它们的侧重点不同,同一门店、同一餐品的价格在不同平台会有差异。如果想极致地薅羊毛,每次点外卖都要打开三个应用、搜索,挨个对比价格。

这个活可以交给豆包手机助手干,告诉它 “帮我看看京东秒送、美团外卖、淘宝闪购上的肯德基吮指原味鸡哪个更便宜。”

它会在后台自动打开美团外卖,搜索肯德基,找到商家,进去搜索吮指原味鸡,找到后记录价格信息。



然后它切到京东,点击秒送页面,搜索 “肯德基 吮指原味鸡”,直接收集在搜索结果页面显示出来的价格信息;最后跳转至淘宝,点击闪购页面搜索商品,获取信息。



在这个过程中,你同样可以拿着手机刷抖音、回微信或者做其他事情。最后,豆包手机助手会发送一个简报,列出几个平台上肯德基吮指原味鸡的价格和结论:两块装的吮指原味鸡,京东秒送的到手价 14 元最低。



找到最便宜的外卖平台后,你可以让豆包手机助手帮忙下单。等到最后付款的时候,它会让你手动操作。



如果你信得过它,也可以让豆包手机助手一次性完成比价、写备注下单的流程。

类似的,你可以让它 “去小红书上多搜索几篇北京到大同的旅游攻略,根据这些内容,整理出一个周五晚上出发、周日晚上返回的方案”,然后让它在微信上发给朋友,问问意见。

它会像人刷小红书那样,去搜索北京到大同的周末旅游攻略,挑点赞高的帖子看,先左右滑动看图片,然后再上滑看文字信息。



然后它会把小红书上收集到的信息,整理成一个大概的方案,打开微信发送给你指定的朋友。



或者让豆包定时执行任务:“7 点的时候看一下微博热搜,截个图存到备忘录里”。到时间之后,它会在后台打开微博,找到微博热搜页面,把它截图,然后打开手机备忘录,上传到里面。同样,你也可以让它每天定时去滴滴里面领优惠券。



现在的豆包手机助手,不是每次都能完美执行任务。不过我们发现豆包手机助手有比较强的 “纠错机制”,能让任务执行下去。

比如我们让它点完外卖,把订单截图发给朋友。在这个任务中,它点完外卖,就被弹窗困住了。刚开始,它尝试关掉弹窗,结果进入另一个页面,退出时又触发另一个弹窗。它没有直接报错,或者提示让我们接管,而是反复尝试 50 秒,最终找到了查看订单页面。



专属按键和语音随时唤起,提取屏幕信息回答问题

这款搭载豆包手机助手的设备,在机身左侧配备了一颗独立的、专属的物理按键。

不论你是刷抖音、回微信,还是手机处于锁屏状态,按下这个按钮,豆包手机助手会以 “叠加层(Overlay)” 的形式出现——它是一个半屏卡片或悬浮气泡,不打断当前正在进行的 app 进程。

豆包手机助手有 “屏幕感知” 能力。你在微信上与朋友聊天,看到朋友发来一句 “这周末又得加班,好烦啊”,不知道怎么回复,可以让豆包安慰朋友。

按下侧边键,豆包会自动读取当前的聊天记录上下文,据此自动生成回复内容——你不需要复制粘贴,点击确认后,它会直接发过去。



它不只能提供言语上的安慰,还能上手帮朋友处理工作。比如朋友发来语音,配上了一张图片。

按下按钮,你可以让豆包手机助手看朋友说了什么,帮他解决问题。它把语音转成文字,提炼出需求:“朋友的老板让把图片中的鞋子颜色改成蓝色的”。

接着它自动执行操作:先尝试用微信自带的图片编辑功能改色,发现不行,便把图片保存下来,打开豆包 app,发送图片请求改色,最后把改好的图片存下来,通过微信回给朋友。



物理按键也能让你迅速唤出豆包的不同形态。按两下,可以调出豆包语音通话,让它给你讲冷笑话或陪聊;或者调出视频通话功能,让它帮忙看面前的植物是什么,是否需要浇水。

在设置中,你可以将 “按两下” 定义为调出豆包相机,拍一张凌乱的工位照片,让它给出整理建议。它会分析图片中有哪些东西,规划出方案。



你刷手机看到有价值的信息,可以按这个特定的实体按键与音量加键,把它存下来,供豆包处理任务的时候参考。这是豆包手机助手全局记忆功能的一部分。

除了手动记忆,你也可以授权让豆包获取特定 app 中的收藏内容,自动记忆喜好,以便后续提供个性化的回应。比如它记住你常用的地址后,点外卖时就不会经常让你确认地址了。

当然,你也可以用语音唤出豆包手机助手,完成以上提到的所有任务。

语音交互在一些场景下更方便。比如你开车的时候,朋友发来消息问 “到哪了”,你可以喊豆包帮你回复:路上有点堵,要晚 10 分钟才能到,让他稍微等一会儿。它会自动打开微信,把你说的话转成文字发送给朋友。



能力还需提升,但新的可能已经出现

豆包手机助手展现出的跨应用操作(Agent)等能力,在各大手机厂商的发布会 PPT 上屡见不鲜,但在实际量产的手机中,能够落地并执行如此复杂链路的产品依然罕见。

最典型的例子是苹果,他们 2024 年 6 月就全面介绍了系统级的大模型 AI 能力 Apple Intelligence,到现在还没有完全兑现。

大模型的技术还在迅速发展,资源、算法和数据壁垒越来越高,仅靠手机厂商组建团队自研,已经越来越难跟上节奏。

手机行业开始接受新的模式:与外部实力强劲的模型供应商合作。11 月初,有市场消息称,苹果打算每年花 10 亿美元购买 Google 的 Gemini 模型服务,用来强化 Siri 助手。在此之前,三星等手机公司也选择与 Gemini 深入合作。

豆包手机助手与中兴等厂商的合作,也是这一新模式的体现:模型公司提供能力领先的模型,手机厂商提供载体,共同为用户提供交互更便捷、能力更强的 AI 手机体验。

客观来说,豆包手机助手还有提升空间。比如它打开各个外卖平台比较肯德基吮指原味鸡的价格,一共耗时 1 分 56 秒,比我们手动操作慢了将近一分钟。毕竟它执行每一步动作,都要先理解屏幕信息。

它依靠读取屏幕信息、模拟人操作手机的逻辑来工作,目前还不能合理地解决长尾需求。比如我刷抖音时,想让它等到每个视频播放完后、帮我上滑看下一个。它执行上滑的动作没有问题,但无法识别出视频什么时候播放完。

它解决问题的范围,也受限于底层大模型的能力。比如它不能在你用手机下象棋或斗地主的时候当军师,实际水平还比不上新手。

我们让它对比三家外卖平台的肯德基价格时,如果不指定 “淘宝闪购”,它有时会在淘宝里搜索 “肯德基 吮指原味鸡”,最后给一个代下单商品的价格。

底层模型能力的持续迭代能解决一部分问题。字节还在吸引第三方开发者将服务和应用集成到豆包手机助手。这能让豆包手机助手获得应用级别的底层权限,解决剩下的多数问题。这必然是一个充满挑战的过程,说服应用开发者开放权限普遍困难,说服大型互联网公司则更难。

一种新可能被摆了出来:用手机处理复杂的跨应用任务时,人可以不用紧盯屏幕、一步步上手操作。就像扫地机器人一样,它扫得没有人干净,也没有人快,但它有希望解放人的时间。

题图来源:晚点

(责任编辑:综合)

推荐文章
  • 澳大利亚邦迪滩枪击事件已致12人死亡

    澳大利亚邦迪滩枪击事件已致12人死亡   当地时间14日,澳大利亚新南威尔士州警察局长表示,已有12人死于当天邦迪滩的枪击事件。总台记者 殷翔宇) ...[详细]
  • 这双鞋连穿一个月,我超爱!

    这双鞋连穿一个月,我超爱! 晚上好啊。这段时间一直有小伙伴让我写写鞋子,来了!不知道你们有没有发现,有双鞋子最近刷屏了,哪哪都能看到。喏,就是这双麂皮鞋▼我已经抢先穿上了!前不久去欧洲旅游带了几双鞋,就属这双利用率最高,在好几个 ...[详细]
  • 午评:创业板指半日跌超1% AI应用方向逆势大涨

    午评:创业板指半日跌超1% AI应用方向逆势大涨   来源:财联社  财联社11月22日电,市场临近午盘小幅跳水,三大指数均跌1%左右。高位人气股继续走强,粤桂股份10连板,日出东方、渤海化学等涨停。沪深两市半日成交额9491亿,较上个交易日缩量43 ...[详细]
  • 运动风越来越流行,放松穿更时髦!

    运动风越来越流行,放松穿更时髦! 充满不确定性的生活,笼罩着寒冷与萧瑟的冬日,更加渴望衣着能带来安抚的氛围。潮流趋势也越发向“舒适主义”靠拢,就像运动风成为越来越多人的日常选择,何尝不是因为从中得到了治愈与安慰?更何况无论是都市通勤, ...[详细]
  • 寻找隐形冠军丨VLOG:方寸背后 大有玄机

    寻找隐形冠军丨VLOG:方寸背后 大有玄机   天津海河畔矗立着一座巧夺天工的钟表——世纪钟,不仅见证了天津的发展与变迁,也是天津吸引游客、市民打卡的热门地标性建筑。它的设计单位天津海鸥表业集团有限公司,前身是始建于1955年的“天津手表厂”。 ...[详细]
  • 适合秋天穿的“印花裙”,这才是氛围感的神,轻松拿捏成熟美

    适合秋天穿的“印花裙”,这才是氛围感的神,轻松拿捏成熟美 俗话说,女人的衣柜里面总是缺少一条裙子,对于爱美爱精致的女人而言,即使是秋天,也更加偏爱裙子而不是裤子,在追求氛围感的时尚界,印花裙绝对是氛围感之王,今天就来分享印花裙的挑选和搭配技巧,让你走在大街上 ...[详细]
  • “长大衣”正流行,尤其这3种颜色,好看又高级!

    “长大衣”正流行,尤其这3种颜色,好看又高级! #秋日生活打卡季#冬季的萧瑟和寒冷虽然让人望而却步,但只要想到裹上那件质地柔滑,长到小腿的羊绒大衣,面对出门这件事,好像突然又有了新的盼望。女人有时候就是这么容易的,就被满足了。当然,这要归功于那件长 ...[详细]
  • 这才是中年女人该有的穿搭,保暖藏肉显气质,照着穿气质翻倍

    这才是中年女人该有的穿搭,保暖藏肉显气质,照着穿气质翻倍 中年女人如何在保持温暖的同时,还能穿得优雅大方,不显臃肿,气质翻倍?别担心,我已经为你们准备了一系列既保暖又藏肉的穿搭秘籍,保证让你们在这个秋冬季节里,既美丽又不“冻”人,接下来就让我们继续看看吧。第 ...[详细]
  • 蔬菜发芽后还能吃吗?

    蔬菜发芽后还能吃吗? 家里的蔬菜放久了,难免有些会冒出嫩芽——土豆抽芽、洋葱长绿芽、红薯鼓芽点、大蒜冒蒜苗......面对这些发芽的蔬菜,很多人都会纠结:扔了可惜,吃了又怕中毒。其实不同蔬菜发芽后的安全性差异很大,下面就针 ...[详细]
  • 贵妇人们都爱的披风单品,提升造型质感,40岁也能魅力无限

    贵妇人们都爱的披风单品,提升造型质感,40岁也能魅力无限 女人一旦到了40岁,在穿衣打扮时不仅需要考虑好看,同时对质感也有了更高的要求,而如果想要营造出贵妇一般端庄大气的形象,那么一定少不了披肩,经典款式的披肩即使穿上十年也不会过时,今天就来给大家分享一些挑 ...[详细]