IVRA: Mejora de las Relaciones Visual-Token para la Política de Acción Robótica con Guía Basada en Pistas sin Entrenamiento
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
January 22, 2026
Autores: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI
Resumen
Muchos modelos Visión-Lenguaje-Acción (VLA) aplanan los parches de imagen en una secuencia unidimensional de tokens, lo que debilita las pistas espaciales bidimensionales necesarias para una manipulación precisa. Presentamos IVRA, un método ligero que no requiere entrenamiento y que mejora la comprensión espacial explotando indicios de afinidad ya disponibles en el codificador visual incorporado del modelo, sin necesidad de ningún codificador externo o reentrenamiento. IVRA inyecta selectivamente estas señales de afinidad en una capa del modelo de lenguaje donde residen las características a nivel de instancia. Esta intervención en tiempo de inferencia realinea las interacciones de tokens visuales y preserva mejor la estructura geométrica mientras mantiene fijos todos los parámetros del modelo. Demostramos la generalidad de IVRA aplicándolo a diversas arquitecturas VLA (LLaRA, OpenVLA y FLOWER) en benchmarks de simulación que abarcan tanto manipulación 2D como 3D (VIMA y LIBERO) y en varias tareas con robots reales. En VIMA 2D, IVRA mejora el éxito promedio en un +4.2% sobre el baseline LLaRA en un régimen de pocos datos. En LIBERO 3D, produce ganancias consistentes sobre los baselines OpenVLA y FLOWER, incluyendo mejoras cuando la precisión del baseline está cerca de la saturación (del 96.3% al 97.1%). Todo el código y los modelos se publicarán abiertamente. Las visualizaciones están disponibles en: jongwoopark7978.github.io/IVRA
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA