Mélange d'Horizons dans le Découpage en Chunks d'Action
Mixture of Horizons in Action Chunking
November 24, 2025
papers.authors: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
papers.abstract
Les modèles vision-langage-action (VLA) ont démontré des capacités remarquables en manipulation robotique, mais leurs performances sont sensibles à la longueur des segments d'action utilisés lors de l'entraînement, appelée horizon. Notre étude empirique révèle un compromis inhérent : des horizons plus longs offrent une meilleure anticipation globale mais dégradent la précision fine, tandis que des horizons plus courts améliorent le contrôle local mais peinent sur les tâches à long terme, ce qui implique que le choix fixe d'un horizon unique est sous-optimal. Pour atténuer ce compromis, nous proposons une stratégie de mélange d'horizons (MoH). MoH réorganise le segment d'action en plusieurs parties avec différents horizons, les traite en parallèle avec un transformeur d'action partagé et fusionne les sorties avec une porte linéaire légère. Elle présente trois avantages majeurs. 1) MoH exploite conjointement l'anticipation à long terme et la précision à court terme dans un seul modèle, améliorant à la fois les performances et la généralisabilité aux tâches complexes. 2) MoH est plug-and-play pour les modules d'action à attention complète avec une surcharge d'entraînement ou d'inférence minimale. 3) MoH permet une inférence dynamique avec des horizons adaptatifs, qui sélectionne des actions stables par consensus inter-horizons, atteignant un débit 2,5 fois supérieur aux méthodes de référence tout en conservant des performances supérieures. Des expériences approfondies sur les politiques basées sur le flux π₀, π₀,₅ et la politique de régression en une étape π_reg démontrent que MoH produit des gains constants et significatifs tant en simulation que sur des tâches réelles. Notamment, dans un cadre multitâche, π₀,₅ avec MoH établit un nouvel état de l'art avec un taux de réussite moyen de 99% sur LIBERO après seulement 30 000 itérations d'entraînement. Page du projet : https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons