ChatPaper.aiChatPaper

IVRA: Verbesserung der visuell-token-basierten Beziehungen für Roboteraktionsrichtlinien durch trainingsfreie, hinweisbasierte Steuerung

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

January 22, 2026
papers.authors: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI

papers.abstract

Viele Vision-Language-Action (VLA)-Modelle glätten Bildbereiche zu einer 1D-Token-Sequenz, was die für präzise Manipulationen notwendigen 2D-räumlichen Hinweise abschwächt. Wir stellen IVRA vor, eine leichtgewichtige, trainingsfreie Methode, die das räumliche Verständnis verbessert, indem Affinitätshinweise genutzt werden, die bereits im eingebauten Vision-Encoder des Modells verfügbar sind, ohne dass ein externer Encoder oder Neutraining erforderlich ist. IVRA injiziert diese Affinitätssignale selektiv in eine Language-Model-Schicht, in der instanzspezifische Merkmale vorliegen. Dieser Eingriff zur Inferenzzeit richtet die visuellen Token-Interaktionen neu aus und bewahrt die geometrische Struktur besser, während alle Modellparameter festgehalten werden. Wir demonstrieren die Allgemeingültigkeit von IVRA, indem wir es auf verschiedene VLA-Architekturen (LLaRA, OpenVLA und FLOWER) in simulierten Benchmarks für sowohl 2D- als auch 3D-Manipulation (VIMA und LIBERO) sowie bei verschiedenen Real-Roboter-Aufgaben anwenden. Auf 2D-VIMA verbessert IVRA den durchschnittlichen Erfolg um +4,2 % gegenüber der LLaRA-Baseline in einem Datensparsamkeitsregime. Auf 3D-LIBERO erzielt es konsistent Gewinne gegenüber den OpenVLA- und FLOWER-Baselines, einschließlich Verbesserungen, wenn die Baseline-Genauigkeit nahe der Sättigung liegt (96,3 % auf 97,1 %). Der gesamte Code und die Modelle werden öffentlich freigegeben. Visualisierungen sind verfügbar unter: jongwoopark7978.github.io/IVRA
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA
PDF51January 28, 2026