ChatPaper.aiChatPaper

IVRA : Amélioration des relations visuo-token pour la politique d'action robotique par un guidage non supervisé basé sur des indices

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

January 22, 2026
papers.authors: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI

papers.abstract

De nombreux modèles Vision-Langage-Action (VLA) aplatissent les patchs d'image en une séquence de tokens 1D, affaiblissant ainsi les indices spatiaux 2D nécessaires à une manipulation précise. Nous présentons IVRA, une méthode légère et sans entraînement qui améliore la compréhension spatiale en exploitant des indices d'affinité déjà disponibles dans l'encodeur visuel intégré du modèle, sans nécessiter d'encodeur externe ni de réentraînement. IVRA injecte sélectivement ces signaux d'affinité dans une couche de modèle de langage où résident les caractéristiques au niveau de l'instance. Cette intervention au moment de l'inférence réaligne les interactions entre les tokens visuels et préserve mieux la structure géométrique tout en gardant tous les paramètres du modèle fixes. Nous démontrons la généralité d'IVRA en l'appliquant à diverses architectures VLA (LLaRA, OpenVLA et FLOWER) sur des benchmarks de simulation couvrant à la fois la manipulation 2D et 3D (VIMA et LIBERO) et sur diverses tâches de robotique réelle. Sur VIMA 2D, IVRA améliore le taux de réussite moyen de +4,2 % par rapport au modèle de référence LLaRA dans un régime à faible quantité de données. Sur LIBERO 3D, il apporte des gains constants par rapport aux modèles de référence OpenVLA et FLOWER, y compris des améliorations lorsque la précision de référence est proche de la saturation (de 96,3 % à 97,1 %). Tout le code et les modèles seront rendus publics. Les visualisations sont disponibles à l'adresse : jongwoopark7978.github.io/IVRA
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA
PDF51January 28, 2026