행동 청킹에서의 지평선 혼합
Mixture of Horizons in Action Chunking
November 24, 2025
저자: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
초록
비전-언어-행동(VLA) 모델은 로봇 매니퓰레이션 분야에서 뛰어난 성능을 보여주지만, 훈련 시 사용되는 행동 청크 길이(horizon)에 따라 성능이 민감하게 변하는 특징이 있습니다. 우리의 실증 연구는 여기에 내재된 트레이드오프를 밝혀냈습니다: 긴 호라이즌은 전역적 예측 능력을 향상시키지만 세밀한 정확도는 저하시키며, 짧은 호라이즌은 국소적 제어 정밀도를 높이지만 장기적 과제에서는 어려움을 겪습니다. 이는 단일 호라이즌을 고정적으로 선택하는 방식이 최적이 아님을 시사합니다.
이러한 트레이드오프를 완화하기 위해 우리는 혼합 호라이즌(MoH) 전략을 제안합니다. MoH는 행동 청크를 서로 다른 호라이즌을 가진 여러 세그먼트로 재구성하고, 공유 행동 트랜스포머로 병렬 처리한 후, 경량 선형 게이트를 통해 출력을 융합합니다. MoH는 세 가지 주요 이점을 제공합니다. 1) 단일 모델 내에서 장기적 예측력과 단기적 정밀도를 동시에 활용하여 복잡한 작업에서 성능과 일반화 능력을 모두 향상시킵니다. 2) 전체 주의력(full-attention) 행동 모듈에 플러그 앤 플레이 방식으로 적용되며 훈련 또는 추론 오버헤드가 최소화됩니다. 3) 적응형 호라이즌을 통한 동적 추론이 가능하며, 호라이즌 간 일관성을 통해 안정적인 행동을 선택하여 우수한 성능을 유지하면서 기준선 대비 2.5배 높은 처리량을 달성합니다.
흐름 기반 정책 π_0, π_{0.5} 및 1단계 회귀 정책 π_reg에 대한 광범위한 실험을 통해 MoH가 시뮬레이션과 실제 과제 모두에서 일관적이고 상당한 성능 향상을 가져옴을 입증했습니다. 특히 혼합 작업 환경에서 MoH를 적용한 π_0.5는 30k번의 훈련 반복만으로 LIBERO 벤치마크에서 99%의 평균 성공률을 기록하며 새로운 최첨단 성능을 달성했습니다. 프로젝트 페이지: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons