비전-언어-행동 모델의 작업 적응: 2025 BEHAVIOR 챌린지 1위 솔루션
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
December 7, 2025
저자: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI
초록
우리는 2025 BEHAVIOR Challenge에서 1위를 차지한 vision-action 정책을 제시한다. 이 대규모 벤치마크는 사실적인 시뮬레이션 환경에서 양손 조작, 이동, 상황 인식 의사 결정이 필요한 50가지 다양한 장기계획 가정 작업으로 구성된다.
Pi0.5 아키텍처를 기반으로 여러 혁신을 도입했다. 주요 기여는 흐름 매칭을 위한 상관 잡음으로, 이는 학습 효율성을 향상시키고 부드러운 행동 시퀀스를 위한 상관 인지 인페인팅을 가능하게 한다. 또한 학습 가능한 혼합 계층 어텐션과 모호성 해결을 위한 System 2 단계 추적을 적용했다. 학습에는 분산을 줄이기 위해 다중 샘플 흐름 매칭을 사용한 반면, 추론에는 행동 압축과 도전 과제 특화 수정 규칙을 활용했다.
우리의 접근 방식은 공개 및 비공개 리더보드에서 50개 작업 전반에 걸쳐 26%의 q-score를 달성했다.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making.
Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules.
Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.