IVRA: 훈련 없이 힌트 기반 안내를 통한 로봇 동작 정책의 시각-토큰 관계 개선
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
January 22, 2026
저자: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI
초록
많은 시각-언어-행동(VLA) 모델은 이미지 패치를 1D 토큰 시퀀스로 평탄화하여 정밀한 조작에 필요한 2D 공간적 단서를 약화시킵니다. 우리는 외부 인코더나 재학습 없이 모델 내장 시각 인코더에서 이미 사용 가능한 친화도 힌트를 활용하여 공간 이해를 향상시키는 경량의 학습 불필요 방법인 IVRA를 소개합니다. IVRA는 인스턴스 수준 특징이 존재하는 언어 모델 계층에 이러한 친화도 신호를 선택적으로 주입합니다. 이러한 추론 시점 개입은 모든 모델 매개변수를 고정한 상태에서 시각-토큰 상호작용을 재조정하고 기하학적 구조를 더 잘 보존합니다. 우리는 다양한 VLA 아키텍처(LLaRA, OpenVLA, FLOWER)에 IVRA를 적용하고 2D 및 3D 조작(VIMA 및 LIBERO)을 아우르는 시뮬레이션 벤치마크와 다양한 실제 로봇 과제에서 IVRA의 일반성을 입증합니다. 2D VIMA에서 IVRA는 낮은 데이터 환경에서 기준 LLaRA 대비 평균 성공률을 +4.2% 향상시켰습니다. 3D LIBERO에서는 기준 정확도가 포화 상태에 가까운 경우(96.3% → 97.1%)를 포함하여 OpenVLA 및 FLOWER 기준선 대비 일관된 성능 향상을 보여줍니다. 모든 코드와 모델은 공개될 예정이며, 시각화 자료는 jongwoopark7978.github.io/IVRA에서 확인할 수 있습니다.
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA