Смешение горизонтов в сегментации действий
Mixture of Horizons in Action Chunking
November 24, 2025
Авторы: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI
Аннотация
Модели «зрение-язык-действие» (VLA) демонстрируют впечатляющие способности в роботизированном манипулировании, однако их производительность чувствительна к длине фрагмента действий (горизонту планирования), используемой во время обучения. Наше эмпирическое исследование выявляет inherent trade-off: более длинные горизонты обеспечивают лучшее глобальное предвидение, но ухудшают точность мелких движений, в то время как короткие горизонты улучшают локальный контроль, но испытывают трудности с долгосрочными задачами, что указывает на субоптимальность фиксированного выбора единого горизонта. Чтобы смягчить этот компромисс, мы предлагаем стратегию смеси горизонтов (MoH). MoH реструктуризирует фрагмент действий на несколько сегментов с разными горизонтами, обрабатывает их параллельно с помощью общего трансформера действий и объединяет выходные данные с помощью легкого линейного гейта. Этот подход имеет три ключевых преимущества. 1) MoH совместно использует долгосрочное предвидение и краткосрочную точность в рамках одной модели, улучшая как производительность, так и обобщаемость на сложные задачи. 2) MoH является plug-and-play решением для action-модулей с полным вниманием, с минимальными накладными расходами на обучение или вывод. 3) MoH позволяет осуществлять динамический вывод с адаптивными горизонтами, который выбирает стабильные действия на основе консенсуса между горизонтами, достигая пропускной способности в 2,5 раза выше, чем у базовых методов, при сохранении превосходной производительности. Многочисленные эксперименты с flow-based политиками π₀, π₀.₅ и one-step регрессионной политикой π_reg показывают, что MoH обеспечивает последовательный и значительный прирост производительности как в симуляциях, так и в реальных задачах. Примечательно, что в условиях mixed-task настройки π₀.₅ с MoH достигает нового state-of-the-art результата со средним показателем успеха 99% на LIBERO после всего 30 тысяч итераций обучения. Страница проекта: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons