每日精选AI研究论文及翻译
自监督与语言监督的图像模型蕴含了对泛化至关重要的世界知识。然而许多机器人任务需要精确的三维几何理解,而这正是二维图像特征通常欠缺的。本研究通过利用蒸馏特征场融合精确三维几何与二维基础模型的丰富语义,为机器人操作架起了二维到三维的桥梁。我们提出了一种小样本学习方法,用于六自由度抓取与放置任务,该方法利用这些强大的空间与语义先验知识,实现了对未知物体的野外泛化能力。通过从视觉语言模型CLIP中蒸馏特征,我们实现了基于自由文本语言指令指定待操作新物体的方法,并验证了其对未见表达方式和新型物体类别的泛化能力。