ChatPaper.aiChatPaper

Mengsel van Horizons in Actie-chunking

Mixture of Horizons in Action Chunking

November 24, 2025
Auteurs: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI

Samenvatting

Vision-language-action (VLA)-modellen hebben opmerkelijke capaciteiten getoond bij robotmanipulatie, maar hun prestaties zijn gevoelig voor de actiebroklengte (horizon) die tijdens de training wordt gebruikt. Onze empirische studie onthult een inherente afweging: langere horizons bieden een sterker globaal vooruitzicht maar verslechteren de fijnmazige nauwkeurigheid, terwijl kortere horizons de lokale controle aanscherpen maar moeite hebben met langetermijntaken. Dit impliceert dat een vaste keuze voor een enkele horizon suboptimaal is. Om deze afweging te mitigeren, stellen we een mixture of horizons (MoH)-strategie voor. MoH herstructureert de actiebrok in verschillende segmenten met verschillende horizons, verwerkt deze parallel met een gedeelde actie-transformer en fuseert de uitvoeren met een lichtgewicht lineaire poort. Het heeft drie aantrekkelijke voordelen. 1) MoH benut zowel langetermijnvooruitzicht als kortetermijnprecisie gezamenlijk binnen één model, wat zowel de prestaties als de generaliseerbaarheid naar complexe taken verbetert. 2) MoH is plug-and-play voor actiemodules met volledige aandacht (full-attention) met minimale training- of inferentie-overhead. 3) MoH maakt dynamische inferentie met adaptieve horizons mogelijk, die stabiele acties selecteert via consensus tussen horizons, wat een 2,5 keer hogere doorvoer bereikt dan de baseline-methoden terwijl superieure prestaties behouden blijven. Uitgebreide experimenten met op stroming gebaseerde beleidsfuncties π_0, π_{0,5} en een één-stap regressiebeleid π_{reg} tonen aan dat MoH consistente en significante verbeteringen oplevert bij zowel simulaties als taken in de echte wereld. Opmerkelijk is dat π_{0,5} met MoH onder een gemengde taakopzet een nieuwe state-of-the-art bereikt met een gemiddeld slagingspercentage van 99% op LIBERO na slechts 30k trainingsiteraties. Projectpagina: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons
PDF151December 4, 2025