Miscela di Orizzonti nel Frammentare l'Azione
Mixture of Horizons in Action Chunking
November 24, 2025
Autori: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) hanno dimostrato capacità notevoli nella manipolazione robotica, ma le loro prestazioni sono sensibili alla lunghezza del blocco d'azione utilizzato durante l'addestramento, denominata orizzonte. Il nostro studio empirico rivela un compromesso intrinseco: orizzonti più lunghi forniscono una maggiore capacità di previsione globale ma degradano la precisione fine, mentre quelli più corti affinano il controllo locale ma faticano nei compiti a lungo termine, implicando che la scelta fissa di un singolo orizzonte sia subottimale.
Per mitigare questo compromesso, proponiamo una strategia a miscela di orizzonti (MoH). MoH riorganizza il blocco d'azione in diversi segmenti con orizzonti differenti, li elabora in parallelo con un transformer d'azione condiviso e fonde gli output con un leggero gate lineare. La strategia offre tre vantaggi fondamentali:
1) MoH sfrutta congiuntamente la previsione a lungo termine e la precisione a breve termine all'interno di un unico modello, migliorando sia le prestazioni che la generalizzabilità a compiti complessi.
2) MoH è plug-and-play per moduli d'azione con attenzione completa, con un overhead minimo in addestramento e inferenza.
3) MoH abilita un'inferenza dinamica con orizzonti adattativi, che seleziona azioni stabili attraverso un consenso incrociato tra orizzonti, raggiungendo un throughput 2,5 volte superiore rispetto ai baseline preservando prestazioni superiori.
Esperimenti estesi sulle politiche basate su flusso π₀, π₀.₅ e sulla politica di regressione one-step π_reg dimostrano che MoH produce guadagni consistenti e significativi sia in simulazione che in compiti del mondo reale. In particolare, in uno scenario di compiti misti, π₀.₅ con MoH raggiunge un nuovo stato dell'arte con un tasso di successo medio del 99% su LIBERO dopo sole 30k iterazioni di addestramento. Pagina del progetto: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons