ChatPaper.aiChatPaper

AimBot: Una señal visual auxiliar simple para mejorar la conciencia espacial de las políticas visomotoras

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies

August 11, 2025
Autores: Yinpei Dai, Jayjun Lee, Yichi Zhang, Ziqiao Ma, Jed Yang, Amir Zadeh, Chuan Li, Nima Fazeli, Joyce Chai
cs.AI

Resumen

En este artículo, proponemos AimBot, una técnica ligera de aumento visual que proporciona señales espaciales explícitas para mejorar el aprendizaje de políticas visuomotoras en la manipulación robótica. AimBot superpone líneas de disparo y retículas de mira en imágenes RGB de múltiples vistas, ofreciendo una guía visual auxiliar que codifica el estado del efector final. Las superposiciones se calculan a partir de imágenes de profundidad, extrínsecos de la cámara y la pose actual del efector final, transmitiendo explícitamente las relaciones espaciales entre la pinza y los objetos en la escena. AimBot incurre en un sobrecargo computacional mínimo (menos de 1 ms) y no requiere cambios en las arquitecturas del modelo, ya que simplemente reemplaza las imágenes RGB originales con versiones aumentadas. A pesar de su simplicidad, nuestros resultados muestran que AimBot mejora consistentemente el rendimiento de diversas políticas visuomotoras tanto en entornos de simulación como en el mundo real, destacando los beneficios de la retroalimentación visual basada en fundamentos espaciales.
English
In this paper, we propose AimBot, a lightweight visual augmentation technique that provides explicit spatial cues to improve visuomotor policy learning in robotic manipulation. AimBot overlays shooting lines and scope reticles onto multi-view RGB images, offering auxiliary visual guidance that encodes the end-effector's state. The overlays are computed from depth images, camera extrinsics, and the current end-effector pose, explicitly conveying spatial relationships between the gripper and objects in the scene. AimBot incurs minimal computational overhead (less than 1 ms) and requires no changes to model architectures, as it simply replaces original RGB images with augmented counterparts. Despite its simplicity, our results show that AimBot consistently improves the performance of various visuomotor policies in both simulation and real-world settings, highlighting the benefits of spatially grounded visual feedback.
PDF82August 14, 2025