文欢网

微软开放Fara-7B小型代理模型,能在本机端自动操作网页

微软发布开放权重模型Fara-7B,这是一款计算机使用(Computer Use)代理模型,主打以约70亿参数规模就能在个人设备上自动操作真实网页。官方表示,此Fara-7B模型为......

微软开放Fara-7B小型代理模型,能在本机端自动操作网页

微软发布开放权重模型Fara-7B,这是一款计算机使用(Computer Use)代理模型,主打以约70亿参数规模就能在个人设备上自动操作真实网页。官方表示,此Fara-7B模型为研究性质,建议在沙箱环境中实验,避免涉及高度敏感数据或高风险域名。

Fara-7B被设计成计算机使用代理,会直接读取浏览器窗口截屏,推论下一步应该把鼠标移到哪里点击、何时卷动页面、在哪个字段输入文本,其不依赖无障碍树(Accessibility Tree)等额外结构化资讯,而是尽量模拟一般用户的实际操作方式。微软预期,开发者可用Fara-7B协助填写线上表单、搜索与整理资讯、比价购物、订票或管理云计算服务账号,但前提是有人类监看与复核,不是完全放手交给代理。

在模型设计上,Fara-7B以多模态基础模型Qwen2.5-VL-7B为底,支持长内容输入,再通过监督式微调,让模型学会在观察画面、思考下一步与下达行动的流程中完成任务。每一步推理时,Fara-7B会综合适户指令、过去行动历史与最近三张浏览器截屏,先产生内部思考,再输出一次工具调用,对应浏览器自动化框架Playwright的鼠标与键盘动作,或web_search、visit_url等浏览宏。

微软以WebVoyager、Online-Mind2Web、DeepShop以及新提出的WebTailBench等基准,与其他计算机使用代理与大型模型代理比较。官方数据显示,在WebVoyager与WebTailBench上,Fara-7B的任务成功率不仅优于同样基于Qwen2.5-VL-7B的UI-TARS-1.5-7B,也具备与OpenAI计算机使用预览版等系统竞争的水准。由于Fara-7B平均完成任务所需步数较少,也就代表较少的运算,在成本更能取得优势。

Fara-7B在执行任务时,只处理浏览器截屏、用户任务指示与代理自身的动作历史,不额外访问网站内部结构数据,强调只收集完成任务所需的最小资讯,而所有代理行为会完整记录,方便事后审核与回溯。

训练数据也加入安全相关案例与应该拒绝的任务,并以WebTailBench-Refusals测试显示模型对红队场景具有明显拒绝能力。微软同时在训练过程中强调关键场景,例如输入个人信息或进行付款等不可逆操作时,代理必须停下来向用户确认,将最终决定权留给人类。

目前Fara-7B已集成进Magentic-UI研究原型,开发者可在受控界面中观察代理如何一步步操作网页,也能通过Microsoft Foundry、Hugging Face或VS Code的AI Toolkit下载模型,实际测试本机计算机使用代理。

本网通过AI自动登载内容,本文转载自MSN,【提供者:十轮网科技资讯 | 作者:佚名】,仅代表原作者个人观点。本站旨在传播优质文章,无商业用途。如不想在本站展示可联系删除。

阅读前请先查看【免责声明】本文来自网络或用户投稿,本站仅供信息存储,若本文侵犯了原著者的合法权益,可联系我们进行处理。 转载请注明出处:https://www.ynwhw.com/news/32903.html

分享:
扫描分享到社交APP
上一篇
下一篇

联系我们

关注我们