IVRA: Miglioramento delle Relazioni Visivo-Token per le Politiche di Azione Robotica tramite Guida Basata su Suggerimenti Senza Addestramento

Abstract

Molti modelli Visione-Linguaggio-Azione (VLA) appiattiscono le patch di immagine in una sequenza di token 1D, indebolendo gli indizi spaziali 2D necessari per una manipolazione precisa. Introduciamo IVRA, un metodo leggero, che non richiede training, che migliora la comprensione spaziale sfruttando gli indizi di affinità già disponibili nell'encoder visivo integrato del modello, senza necessitare di encoder esterni o riaddestramento. IVRA inietta selettivamente questi segnali di affinità in un layer del language model in cui risiedono le feature a livello di istanza. Questo intervento in fase di inferenza riallinea le interazioni tra token visivi e preserva meglio la struttura geometrica, mantenendo fissi tutti i parametri del modello. Dimostriamo la generalità di IVRA applicandolo a diverse architetture VLA (LLaRA, OpenVLA e FLOWER) su benchmark simulati che coprono sia la manipolazione 2D che 3D (VIMA e LIBERO) e su vari compiti con robot reali. Su VIMA 2D, IVRA migliora il successo medio del +4,2% rispetto al baseline LLaRA in un regime a bassi dati. Su LIBERO 3D, produce guadagni consistenti rispetto ai baseline OpenVLA e FLOWER, inclusi miglioramenti quando l'accuratezza del baseline è quasi satura (dal 96,3% al 97,1%). Tutti i codici e i modelli saranno rilasciati pubblicamente. Le visualizzazioni sono disponibili su: jongwoopark7978.github.io/IVRA

English

Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA

IVRA: Miglioramento delle Relazioni Visivo-Token per le Politiche di Azione Robotica tramite Guida Basata su Suggerimenti Senza Addestramento

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

Abstract

Support