IVRA: Verbetering van Visueel-Token Relaties voor Robotactiebeleid met Trainingsvrije Hint-Gestuurde Begeleiding
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
January 22, 2026
Auteurs: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI
Samenvatting
Veel Vision-Language-Action (VLA)-modellen vouwen beeldpatches plat tot een 1D-tokenreeks, waardoor de 2D-ruimtelijke aanwijzingen die nodig zijn voor precieze manipulatie worden verzwakt. Wij introduceren IVRA, een lichtgewicht, trainingsvrije methode die het ruimtelijk begrip verbetert door gebruik te maken van affiniteitsaanwijzingen die reeds beschikbaar zijn in de ingebouwde visuele encoder van het model, zonder dat een externe encoder of hertraining nodig is. IVRA injecteert deze affiniteitssignalen selectief in een taalmodel-laag waarin instantieniveau-functies zich bevinden. Deze interventie tijdens de inferentie herstelt de interacties tussen visuele tokens en behoudt de geometrische structuur beter, terwijl alle modelparameters vast blijven. Wij tonen de algemene toepasbaarheid van IVRA aan door het toe te passen op diverse VLA-architecturen (LLaRA, OpenVLA en FLOWER) in gesimuleerde benchmarks voor zowel 2D- als 3D-manipulatie (VIMA en LIBERO) en op verschillende taken met echte robots. Op 2D VIMA verbetert IVRA het gemiddelde succespercentage met +4,2% ten opzichte van de LLaRA-baseline in een regime met weinig data. Op 3D LIBERO levert het consistente verbeteringen op ten opzichte van de OpenVLA- en FLOWER-baselines, inclusief verbeteringen wanneer de baseline-nauwkeurigheid bijna verzadigd is (van 96,3% naar 97,1%). Alle code en modellen zullen openbaar worden vrijgegeven. Visualisaties zijn beschikbaar op: jongwoopark7978.github.io/IVRA
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA