アクションチャンキングにおける地平線の混合
Mixture of Horizons in Action Chunking
November 24, 2025
著者: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
要旨
視覚言語行動(VLA)モデルはロボットマニピュレーションにおいて顕著な能力を示すが、その性能は訓練時に使用する行動チャンク長(ホライゾン)に敏感である。我々の実証研究により、本質的なトレードオフが明らかになった:長いホライゾンは大域的な先読み能力を強化するが、細粒度の精度を低下させ、短いホライゾンは局所的な制御を鋭くする一方で長期的タスクに苦戦する。これは単一のホライゾンを固定的に選択する手法が非最適であることを示唆する。この課題を緩和するため、我々は混合ホライゾン(MoH)戦略を提案する。MoHは行動チャンクを異なるホライゾンを持つ複数のセグメントに再構成し、共有された行動トランスフォーマーで並列処理した後、軽量な線形ゲートで出力を融合する。これにより三つの利点が得られる。1) MoHは単一モデル内で長期的な先読みと短期的な精度を併用し、複雑なタスクにおける性能と一般化性を同時に向上させる。2) MoHはフルアテンション型行動モジュールに最小限の訓練/推論オーバーヘッドで追加可能なプラグアンドプレイ方式である。3) MoHは適応型ホライゾンによる動的推論を実現し、ホライゾン間の合意を通じて安定した行動を選択する。これにより優れた性能を維持しつつ、ベースライン比2.5倍のスループット向上を達成する。フローベース方策π_0、π_{0.5}、および1ステップ回帰方策π_{reg}を用いた大規模実験により、MoHがシミュレーションと実世界タスクの両方で一貫した有意な改善をもたらすことが実証された。特に混合タスク設定では、MoHを適用したπ_{0.5}が僅か3万訓練反復でLIBEROベンチマークにおいて平均成功率99%の新たな最高性能を達成した。プロジェクトページ:https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons