ChatPaper.aiChatPaper

IVRA: Улучшение визуально-токенных отношений для политики действий робота с помощью не требующего обучения подсказочного управления

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

January 22, 2026
Авторы: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI

Аннотация

Многие модели «Vision-Language-Action» (VLA) преобразуют фрагменты изображений в одномерную последовательность токенов, что ослабляет двумерные пространственные связи, необходимые для точного манипулирования. Мы представляем IVRA — легковесный метод, не требующий дообучения, который улучшает пространственное понимание за счет использования признаков сходства, уже доступных во встроенном визионном энкодере модели, без необходимости во внешнем энкодере или переобучении. IVRA выборочно внедряет эти сигналы сходства в слой языковой модели, где находятся признаки на уровне экземпляров. Такое вмешательство на этапе вывода перестраивает взаимодействия визуальных токенов и лучше сохраняет геометрическую структуру, оставляя все параметры модели неизменными. Мы демонстрируем универсальность IVRA, применяя ее к различным архитектурам VLA (LLaRA, OpenVLA и FLOWER) на симулированных бенчмарках, охватывающих как 2D, так и 3D манипулирование (VIMA и LIBERO), а также на различных задачах с реальными роботами. На 2D VIMA IVRA улучшает средний показатель успеха на +4,2% по сравнению с базовой LLaRA в условиях ограниченности данных. На 3D LIBERO метод обеспечивает стабильный прирост по сравнению с базовыми OpenVLA и FLOWER, включая улучшения, когда точность базовой модели близка к насыщению (с 96,3% до 97,1%). Весь код и модели будут опубликованы в открытом доступе. Визуализации доступны по адресу: jongwoopark7978.github.io/IVRA
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA
PDF51January 28, 2026