AI鼠标侠来了:DeepMind开始训练智能体像人一样「玩」电脑
发布时间:2025-08-17
之前关于 MiniWob++ 的研究成果并未重新考虑了能够都会面 DOM 特定特技的核心,从而允许笔记本电脑形体直接与 DOM 原素交互而不必滑鼠或扬声器雷达系统到它。DeepMind 的研究成果者为了让数应常用基于滑鼠和扬声器的系统以外观设计,并进一步假设该硬件将很好地迁往到量度机系统操纵训练任务,而不必与紧凑的 DOM 展开交互。最后,MiniWob++ 训练任务必需可视或开动系统以外观设计,而这些系统以外观设计难以通过基于 DOM 原素的系统以外观设计来发挥作用(参照上图 1b 中的的比如说)。
与之前的 MiniWob++ 研究成果一样,DeepMind 的笔记本电脑形体可以都会面由生态缺少的句法codice_字典,该字典被重定向到集合训练任务的重定向配置文件中的(参照初版上图 9 比如说)。
下上图为运行 MiniWob++ 的量度机系统操纵生态。本能和笔记本电脑形体都应常用扬声器和滑鼠操纵量度机系统,本能缺少常用不道德莱卡的示范不道德,笔记本电脑形体曾受过曾受训以戏仿这种不道德或表现出追求每项的不道德。本能和笔记本电脑形体尝试克服 MiniWob++ 训练任务前提功能,其中的数限于必需可视、化学键入、开动、填写表格等。
生态硬件
如果想尽办法笔记本电脑形体像本能一样应常用量度机系统,它们必需硬件来以太网和发送到观察结果和特技。最初的 MiniWob++ 训练任务前提功能缺少了一个基于 Selenium 的硬件。DeepMind 决定发挥作用一个可替代生态可执行,旨在全力支持笔记本电脑形体可以在 web 插件中的发挥作用各种训练任务。该硬件从有效性、特点和耐用性方面展开了优化时 (上图 1a)。
原先的 MiniWob++ 生态发挥作用通过 Selenium 都会面实际上插件状态并发出操纵指令。也就是说,DeepMind 的笔记本电脑形体直接与 Chrome DevTools 两国政府 (CDP) 交互,以检索插件实际上讯息。
笔记本电脑形体核心
DeepMind 辨认出没有人应该基于专门的 DOM 克服疑虑核心,也就是说,曾受不太可能关于多可定义核心的制约,DeepMind 应用了最小可定义特定克服疑虑,其主要缺少多可定义 transformer 来灵活克服疑虑相关讯息,如上图 2 所述。
感官。笔记本电脑形体发送到动态重定向(165x220 RGB 纹理)和第二语言重定向(比如说重定向显示在初版上图 9 中的)。纹理重定向通过一系列四个 ResNet 块,较强 3×3 内核,strides 为 2、2、2、2,以及转换器通道(32、128、256、512)。这显现出了 14×11 的标量,DeepMind 将其展平为 154 个 token 列表。
三种一般来说的第二语言重定向训练任务指令、DOM 和训练任务配置文件应常用同一个模块克服疑虑:每个句法codice_被细分 token,每个 token 同构被到尺寸为 64 的缓冲。
战略:笔记本电脑形体战略由 4 个转换器合组:特技一般来说、光标经度、扬声器化学键引文和训练任务配置文件引文。每个转换器都由单个集合概率分布数学模型,除光标经度以外,光标经度由两个集合分布数学模型。
特技一般来说是从组合成 10 种可能的特技中的为了让的,其中的数限于一个无系统以外观设计(表示无特技)、7 个滑鼠特技(移至动、可视、双击、按下、特赦、上滚轮、下滚轮)和两个扬声器特技(按化学键、发出句法)。
DeepMind 从 77 名本能参与者那里收集了超过 240 万个 104 MiniWob++ 训练任务示范,总计大约 6300 小时,并应常用戏仿求学和加大求学 (RL) 的单纯混和来曾受训笔记本电脑形体。
实验者结果
MiniWob++ 上的本能水平耐用性
由于大部分研究成果通常只克服了 MiniWob++ 训练任务的一个子集,因此该研究成果在每个应以的训练任务上运用于已公开的最佳耐用性,然后将这些子训练任务的聚合耐用性与该研究成果明确指出的笔记本电脑形体展开比较。如下上图 3 表,该笔记本电脑形体大大超过了 SOTA 标准耐用性。
此以外, 该笔记本电脑形体在 MiniWob++ 训练任务配件中的发挥作用了本能水平的平均值耐用性。这种耐用性是通过相辅相成 BC 和 RL 联合曾受训来发挥作用的。
研究成果者辨认出,虽然该笔记本电脑形体的平均值耐用性与本能十分,但有些训练任务本能的表现明显优于该笔记本电脑形体,如下上图 4 表。
训练任务迁往
研究成果者辨认出,与在每个训练任务上应以曾受训的笔记本电脑形体相比,在 MiniWob++ 的全部 104 个训练任务上曾受训一个笔记本电脑形体可以特别是在大幅提高耐用性,如下上图 5 表。
扩展到
如下上图 7 表,本能时间轴数据集集(human trajectory dataset)的尺寸是制约笔记本电脑形体耐用性的关化学键因素所。应常用 1/1000 的数据集集,大约十分于 6 小时的数据集,都会导致快速过拟合,并且与数应常用 RL 的耐用性相比没有人特别是在大幅提高。随着该研究成果将此基线的数据集量减小到三个比例级方才完整数据集集尺寸,笔记本电脑形体的耐用性得到了不间断的大幅提高。
此以外,研究成果者还意识到,随着启发式或核心的变化时,在数据集集尺寸上的耐用性可能都会更高。
流出实验者
该笔记本电脑形体应常用纹理和 DOM 讯息,并且可以可用为全力支持一系列各不相同的系统以外观设计。该研究成果展开了流出实验者以了解各种核心为了让的重要性。
该研究成果首先流出各不相同的笔记本电脑形体重定向(上图 8a)。理论上的笔记本电脑形体可用强烈依赖 DOM 讯息,如果删除此重定向,耐用性都会下降 75%。也就是说,动态讯息的重定向对该笔记本电脑形体的制约不太特别是在。
如上图 8b 表,该研究成果移至除了笔记本电脑形体应常用生态集合的句法重定向配置文件(训练任务配置文件)的能力。古怪的是,移至除再次的笔记本电脑形体始终能够克服牵涉表单填写的训练任务,但它是通过 highlight 句法,并将其开动到相关的句法框,以从本能时间轴中的学都会完毕这个训练任务。值得注意的是,在完整 Selenium 修改版的生态中的笔记本电脑形体发挥作用这种开动系统以外观设计并不单纯。
上图 8b 还示范了一个流出实验者结果,其中的笔记本电脑形体应常用与特定 DOM 原素交互的替代特技。这理论上笔记本电脑形体难以克服牵涉可视画布内特定位置、开动或 highlight 句法的训练任务。
。南京治疗白癜风的医院德州治疗白癜风的医院
黄山哪个医院治疗白癜风最好
-
离开刘銮雄8年后,吕丽君改名认真慈善、练瑜伽,儿女孝顺成绩优异
2016年,据悉一纸声明宣布同女友吕丽君恩断义绝。意识到事情已无回旋余地的吕丽君亦大方表示自己不会争积蓄,对不顾一切唯有祝福。今天8年过去,43岁的吕丽君活出了新生。 初相
- 我国自主研发液态氧直喷氢气发动机成功点火
- 粤水电(002060.SZ)签订实用价值12.9亿元的农光互补光伏电站EPC总承包合同
- 被“嘴”害了的9位明星:说谎、揭个人隐私、阴阳怪气,个个惹人嫌
- 中国光大水务(01857):收到建议发行贷款人的接受注册通知书
- 重庆又要多咖啡店上市公司,冷酸灵母公司冲击IPO,60元的儿童牙膏卖不动
- 《警察荣誉》结局:张志杰的伏笔坐实了王守一不是一个合格的研究所
- 通威股份(600438.SH):“通22转债”将于3月底18日起上市交易
- 来年弃考率有点高...感觉自己又可以了!
- 瞄准行业痛点 突出局限性 市级融媒体主力军点赞封面科技新品
- 航宇科技(688239.SH)2021年度归母净利累计增长91.13%至1.39亿元 拟10股派2元