为了寻找解决方案,一组Google研究人员与哥伦比亚大学和综合AI(一种用于计算机视觉的数据生成平台)合作开发了ClearGrasp。这是一种能够从RGB图像估计透明对象的准确3D数据的算法,重要的是,该算法可与任何标准RGB相机的输入配合使用,使用AI重构透明对象的深度并将其推广到训练期间看不到的对象。
正如研究人员所指出的那样,训练复杂的AI模型通常需要大量的数据集,并且由于不存在透明物体的主体,他们创建了自己的包含超过50,000个逼真的渲染的图像,这些渲染具有相应的深度,边缘,表面法线(代表表面曲率),和更多。每个图像最多显示五个透明物体,这些物体可以放在平坦的地平面上,也可以放在装有各种背景和照明的手提袋中。一个带有相应地面真实深度的286张真实世界图像的单独集合用作测试集。
ClearGrasp总共包括三种机器学习算法:一种用于估计表面法线的网络,一种用于遮挡边界(深度不连续)的网络以及一种用于遮盖透明对象的网络。此蒙版会删除属于透明对象的所有像素,以便可以填充正确的深度,因此优化模块可以使用预测的表面法线来扩展表面的深度,以指导重建的形状。(预测的遮挡边界有助于保持不同对象之间的分离。)
在实验中,研究人员在其自定义数据集以及开放源代码Matterport3D和ScanNet语料库中的真实室内场景中训练了模型。他们说,ClearGrasp设法为保真度比基线方法高得多的透明对象重建深度,并且其输出深度可以直接用作使用图像的操纵算法的输入。当使用机器人的平行颚爪抓臂时,透明物体的抓握成功率从12%提高到74%,并且通过吸力从64%提高到86%。