Mischung von Horizonten bei der Segmentierung von Handlungsabschnitten
Mixture of Horizons in Action Chunking
November 24, 2025
papers.authors: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle haben bemerkenswerte Fähigkeiten in der robotischen Manipulation gezeigt, doch ihre Leistung ist empfindlich gegenüber der während des Trainings verwendeten Aktionsabschnittslänge, dem sogenannten Horizont. Unsere empirische Studie zeigt einen inhärenten Zielkonflikt: Längere Horizonte ermöglichen eine bessere globale Vorausschau, verschlechtern jedoch die feinkörnige Genauigkeit, während kürzere Horizonte die lokale Steuerung verbessern, aber bei langfristigen Aufgaben versagen. Dies impliziert, dass eine feste Wahl eines einzelnen Horizonts suboptimal ist. Um diesen Zielkonflikt zu entschärfen, schlagen wir eine Mixture of Horizons (MoH)-Strategie vor. MoH unterteilt den Aktionsabschnitt in mehrere Segmente mit unterschiedlichen Horizonten, verarbeitet diese parallel mit einem gemeinsamen Action Transformer und fusioniert die Ausgaben mit einem leichten linearen Gating-Mechanismus. Dies bietet drei wesentliche Vorteile: 1) MoH nutzt gleichzeitig langfristige Vorausschau und kurzfristige Präzision innerhalb eines einzigen Modells, was sowohl die Leistung als auch die Generalisierbarkeit für komplexe Aufgaben verbessert. 2) MoH ist plug-and-play-fähig für Action-Module mit Voll-Aufmerksamkeit und verursacht minimalen Zusatzaufwand während Training und Inferenz. 3) MoH ermöglicht dynamische Inferenz mit adaptiven Horizonten, die stabile Aktionen durch konsistente Übereinstimmung über verschiedene Horizonte auswählt. Dies erreicht einen 2,5-fach höheren Durchsatz als Vergleichsverfahren bei gleichbleibend hoher Leistung. Umfangreiche Experimente mit flussbasierten Policies π₀, π₀.₅ und einer One-Step-Regressions-Policy π_reg zeigen, dass MoH konsistent und signifikant sowohl in Simulationen als auch in realen Aufgaben Vorteile bringt. Besonders bemerkenswert: Unter Mixed-Task-Bedingungen erreicht π₀.₅ mit MoH einen neuen State-of-the-Art mit einer durchschnittlichen Erfolgsrate von 99 % auf LIBERO nach nur 30.000 Trainingsiterationen. Projektseite: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons