为了辅助人类,AI 已经练就了「十八般武艺」
如写诗作词、绘画、修图,编辑视频等等,样样精通。
但如果人类只想——在凌乱的橱柜里找到一罐豆子?AI 还能帮上忙吗?
服了!能干这件小事的 AI,才是真厉害......
也许真的可以!
近日,加州大学伯克利研究团队公布了一项最新成果,他们开发了一种 AI 系统,
“该系统将预测目标物体位置的可感知管道与机械搜索策略相结合,可依次选择遮挡物体并推到一边,以尽可能的展示目标物体。”
简单来说,就是他们训练了一个 AI 机器人可以在狭窄的空间内移除遮挡物,并找到目标物体。
他们还提供了一段 Demo 示例
服了!能干这件小事的 AI,才是真厉害......
图中,AI 机器臂顺利移开了前面白色和红色的遮挡物,发现了隐藏背后的豆子罐头,研究人人员介绍,目前该系统的准确率最高可达到 87% 以上。
看到这里你可能会好奇,为什么要研发这个看起来很简单又很日常的 AI 呢?
厨房里的 AI LAXRAY
事实上,复杂环境中的目标对象搜索是 AI 机器人技术的重点研究方向之一,其相关研究成果也不再少数,但总体而言,针对诸如货架、厨房、壁橱等环境下的研究却很少。
然而,它却在现实世界中有着广泛的应用场景。
例如,医院药房的服务机器人可能需要从橱柜中找到耗材 工业机器人可能需要从仓库货架上找到成套工具 又或者零售商店的服务机器人可能需要在货架上搜索所需物品等。
服了!能干这件小事的 AI,才是真厉害......
这项研究是伯克利和 Google 研究团队共同开展的,Google 研究人员称
我们一直在研究将 AI 应用于最日常的活动场景中去,因为改善搜索和选择对象的方法是工业应用,科学实验,医疗保健,零售业务以及无数商业场景和制造过程的核心。
需要说明的是,以上看似简单的操作背后有着复杂的技术需求。
如研究人员介绍,医院、仓库或零售货架等场景,因为空间有限、存在视野障碍,为 AI 系统的搜索与检测任务带来了极大的挑战。
为此,他们提出了一种新型预测目标位置系统 LAXRAYLateral Access maXimal Reduction of occupancY,该系统支持查找货架上被遮挡的物体,并解决物体之间“密集接触”的操纵任务。
服了!能干这件小事的 AI,才是真厉害......
具体来说,研究人员基于该系统提出了 分布区域缩减DAR,分布熵缩减DER,以及 Uniform 三种搜索策略。
为了测试这些策略的性能,研究人员利用一个开放框架——一阶货架模拟器FOSS生成了 800 个难度各异的随机货架环境,然后将 LAXRAY 系统和嵌入式深度感应摄像头部署到了 Fetch 机器人中进行了测试。
服了!能干这件小事的 AI,才是真厉害......
结果显示,与 DER 相比,DAR 和 DERMT 策略的表现更好。在模拟中,LAXRAY 系统准确度达到了 87.3%。而在实际应用环境中,准确率也达到了大约 80%。这表明 LAXRAY 可以在现实环境中有效地查找被遮挡的目标对象。
技术原理及结果
LAXRAY 检测系统分为两个主要部分,一是预测目标物体空间占有率感知管道 二是利用该信息有效地解决查找问题的搜索策略。搜索策略结合感知模块的输出结果和每个步骤的观察结果做出移除动作,从而可以有效地发现目标对象。
在感知管道预测之前,需要对被遮挡物体进行深度识别和目标对象分割。在这里,研究人员从 Google 扫描数据集中,渲染了 5 个目标物体的 30000 多个图像进行了训练,其中,大约 50% 的图像包含完全遮挡的目标物体。
此外,研究人员还从一组单独的目标模型中渲染了 10000 幅图像,这些目标与测试集具有相似的纵横比。
服了!能干这件小事的 AI,才是真厉害......
如图,测试数据集中的遮挡对象具有不同的类别和不同的形状。研究人员使用动量为 0.99 的随机梯度下降法训练了一个完全连接的网络FCN,该网络以目标物体分割掩模和当前货架的深度图像为输入,可输出目标物体的位置分布密度图。
实验结果如下
研究人员把随机的物体放在一个白色的架子上,使用嵌入在机器人上的 PrimeSense RGBD 相机来获得颜色和深度图像。在彩色图像上使用一种颜色检测算法,通过设置 RGB 值的阈值来检测被涂成绿色的目标对象。
如下图显示了在完全遮挡情况下,架子上随机排列的目标对象的预测结果。
服了!能干这件小事的 AI,才是真厉害......
图中,5 个不同的目标物体长宽比为1:2 到4:1。左侧显示了随机物体在架子上的颜色和 PrimeSense 相机拍摄的深度图像。第一行显示了预训练模型的二维占用率分布,第二行显示了覆盖深度观测的 1D 占用率分布。
在实际应用中,每个长宽比的预测值有显著差异,再次验证了预训练模型的准确性。
基于感知位置信息,研究人员提出了三种搜索策略
分布区域缩减DAR 使用当前深度图像对可用操作进行排序,并针对每个对象计算对象掩码,预测最小位置分布的重叠区域。
分布熵缩减DERn 通过在当前深度图像上分割掩模的深度值来预测Pˆt+n,可得到新的深度图像的占有率分布,从而得到预测状态。
Uniform 通过 DAR 中预测的占用率分布来创建均匀分布,以代替具有遮挡对象的位置。
实验结果如下
研究人员在 800 个场景上测试了 DERnn∈{1,2,3}DAR 和 Uniform 策略。目标物体使用的是长宽比为1:1 的绿色立方体。如果在 10 个操作中至少有 90% 的目标物体展示出来,则认为策略成功。
服了!能干这件小事的 AI,才是真厉害......
表中可以看出,DAR、DERn 策略的性能优于 Uniform 策略,尤其是当对象数量增加时。当遮挡对象数目增加时,所有策略的性能都会下降,因为 AI 机器臂需要更多的操作步骤来显示目标。
当遮挡对象少于 6 个时,DAR 的性能最好。但在 6 个及更多个对象的场景中,DER2 表现最好,达到了最高 87.3%。其中,与 DER2 相比,DER1 的性能较差,是因为没有足够的目标信息被预测出来,而 DER3 较差的原因,是由于预测误差的累积。
也就是说,当遮挡对象数较少时,预测误差占主导地位,这可以解释 DAR 比 DER2 性能更好的原因。
以下是 DER1 查找 9 个遮挡物中的目标物体的序列图。
服了!能干这件小事的 AI,才是真厉害......
顶部绿色箭头的 RGB 图像,表示推动方向和距离。底部是占用率分布的深度图像。
每个深度图像底部绘制的占用率分布包括三部分 上一个时间步长的预测分布蓝色、当前时间步长的预测分布黄色以及两个分布中的最小值白色。
总之,本次研究证明了基于 LAXRAY 系统检测策略的可行性和准确性。研究人员表示,在未来的工作中计划研究更复杂的深度模型,并使用平行于相机的推力来为侧向推力创造空间,或者使用气动吸盘来拉动杂乱货架上遮挡物体。
以上就是深圳蚂蚁网络网站建设小编为您整理的相关内容,我们提供系统定制、微信开发、小程序定制、微商城开发、网站建设等互联网项目定制开发服务。