发布日期:2024-11-04 08:15 点击次数:87
AI 摆脱碳基生物双手自慰 白虎,致使能让你的手机我方玩我方!
你没听错 —— 这其实即是迁徙任务自动化。
在 AI 速即发展下,这渐渐成为一个新兴的热点商榷范围。
迁徙任务自动化欺诈 AI 精确捕捉并明白东谈主类意图,进而在迁徙确立(手机、平板电脑、车机末端)上高效践诺各种化任务,为那些因贯通局限、躯壳要求放弃或身处额外情境下的用户提供前所未有的方便与支柱。
匡助视障东谈主群用户完成导航、阅读或网上购物
援救老年东谈主使用手机,越过数字鸿沟
匡助车主在驾驶过程中完成发送短信或退换车内环境
替用户完成日常活命中无边存在的类似性任务
……
姆妈再也不嫌类似确立多个日期事项会心烦了。
最近,来自西安交通大学智能收集与收集安全栽培部要点实验室 (MOE KLINNS Lab)的蔡忠闽阐述、宋云鹏副阐述团队(团队主要商榷标的为智能东谈主机交互、羼杂增强智能、电力系统智能化等),基于团队最新 AI 商榷恶果,更始性提议了基于视觉的迁徙确立任务自动化决策 VisionTasker。
这项商榷不仅为昔时用户提供了更智能的迁徙确立使用体验,也展现出了对额外需求群体的暖和与赋能。
基于视觉的迁徙确立任务自动化决策团队提议了 VisionTasker,一个聚拢基于视觉的 UI 一语气和 LLM 任务筹划的两阶段框架,用于徐徐杀青迁徙任务自动化。
该决策有用摈斥了暗意 UI 对视图档次结构的依赖,提高了对不同应用界面的顺应性。
值得严防的是,欺诈 VisionTasker 无需无数数据西宾大模子。
VisionTasker 从用户以当然说话提议任务需求驱动责任,Agent 驱动一语气并践诺指示。
具体杀青如下:
1、用户界面一语气
VisionTasker 通过视觉的方法作念 UI 一语气来明白妥协释用户界面。
最初 Agent 识别并分析用户界面上的元素及布局,如按钮、文本框、翰墨标签等。
然后,将这些识别到的视觉信息迂曲成当然说话容颜,用于解释界面内容。
2、任务筹划与践诺
接下来自慰 白虎,Agent 欺诈大说话模子导航,凭证用户的指示和界面容颜信息作念任务筹划。
将用户任务拆解为可践诺的要领,如点击或滑动操作,以自动鼓吹任务的完成。
3、抓续迭代以上过程
每一步完成后,Agent 齐会凭证最新界面和历史动作更新其对话和任务筹划,确保每一步的决策齐是基于现时高下文的。
这是个迭代的过程,将抓续进行直到判断任务完成或达到预设的放弃。
用户不仅能从交互中摆脱双手,还不错通过可见请示监控任务进程,并随时中断任务,保抓对通盘这个词过程的适度。
最初是识别界面中的小部件和文本,检测按钮、文本框等元素过头位置。
关于莫得文本标签的按钮,欺诈 CLIP 模子基于视觉有计划来预计其可能功能。
随后,系统凭证 UI 布局的视觉信息进行区块差异,将界面分割成多个具有不同功能的区块,并对每个区块生成当然说话容颜。
这个过程还包括文本与小部件的匹配,确保正确一语气每个元素的功能。
最终,通盘这些信息被滚动为当然说话容颜,为大说话模子提供明晰、语义丰富的界面信息,使其疏漏有用地进行任务筹划和自动化操作。
实验评估实验评估部分,该表情提供了对三种 UI 一语气的比拟分析,分别是:
GPT-4V
VH(视图层级)
VisionTasker 方法
△ 三种 UI 一语气方法的比拟分析
对比知道,VisionTasker 在多个维度上比其他方法有权贵上风。
此外,在惩办跨说话应用时也弘扬出了细密的泛化才能。
△ 实验 1 中使用到的常见 UI 布局
葬送的芙莉莲 动漫标明 VisionTasker 的以视觉为基础的 UI 一语气方法在一语气妥协释 UI 方面具有廓清上风,尤其是在靠近各种化和复杂的用户界面时尤为廓清。
△ 跨四个数据集的单步瞻望准确性
著述还进行了单步瞻望实验,凭证现时的任务现象和用户界面,瞻望接下来应该践诺的动作或操作。
收尾知道,VisionTasker 在所迥殊据集上的平均准确率达到了 67%,比基线方法提高了 15% 以上。
信得过天下任务:VisionTasker vs 东谈主类
实验过程中,商榷东谈主员有计划了 147 个信得过的多要领任务来测试 VisionTasker 的弘扬,这些任务涵盖了国内常用的 42 个应用步调。
与此同期,团队还确立了东谈主类对比测试,由 12 名东谈主类评估者手动践诺这些任务,然后 VisionTasker 的收尾进行比拟。
收尾知道,VisionTasker 在大多数任务中能达到与东谈主类相等的完成率,况兼在某些不老练的任务中弘扬优于东谈主类。
△ 践诺任务自动化实验的收尾“Ours-qwen”是指使用开源 Qwen 杀青 VisionTasker 框架,”Ours”暗意使用文心一言算作 LLM
团队还评估了 VisionTasker 在不同要求下的弘扬,包括使用不同的大说话模子(LLM)和编程演示(PBD)机制。
VisionTasker 在大多数直不雅任务中达到了与东谈主类相等的完成率,在老练任务中略低于东谈主类但在不老练任务中优于东谈主类。
△VisionTasker 徐徐完成任务的展示
论断算作一个基于视觉和大模子的迁徙任务自动化框架,VisionTasker 克服了现阶段迁徙任务自动化对视图层级结构的依赖。
通过一系列对比实验,阐述其在用户界面弘扬上高出了传统的编程演示和视图层级结构方法。
它在 4 个不同的数据集上齐展示了高效的 UI 暗意才能,弘扬出更凡俗的应用性;并在 Android 手机上的 147 个信得过天下任务中,非常是在复杂任务的惩办上,弘扬了出高出东谈主类的任务完成才能。
此外,通过集成编程演示(PBD)机制,VisionTasker 在职务自动化方面有权贵的性能擢升。
当今,该责任已以考究论文的形态发表于 2024 年 10 月 13-16 日在好意思国匹兹堡举行的东谈主机交互顶级会议 UIST(The ACM Symposium on User Interface Software and Technology)。
UIST 是东谈主机交互范围专注于东谈主机界面软件和技巧更始的 CCF A 类顶级学术会议。
原文贯串:https://dl.acm.org/ doi / 10.1145/3654777.3676386
表情贯串:https://github.com/ AkimotoAyako / VisionTasker
本文来自微信公众号:量子位(ID:QbitAI),作家:关注前沿科技
告白声明:文内含有的对外跳转贯串(包括不限于超贯串、二维码、口令等形态),用于传递更多信息,勤俭甄选时刻自慰 白虎,收尾仅供参考,IT之家通盘著述均包含本声明。