ChatPaper.aiChatPaper

Mezcla de Horizontes en la Fragmentación de Acciones

Mixture of Horizons in Action Chunking

November 24, 2025
Autores: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
cs.AI

Resumen

Los modelos visión-lenguaje-acción (VLA) han demostrado capacidades notables en manipulación robótica, pero su rendimiento es sensible a la longitud del fragmento de acción utilizado durante el entrenamiento, denominada horizonte. Nuestro estudio empírico revela una compensación inherente: los horizontes más largos proporcionan una mejor previsión global pero degradan la precisión de granularidad fina, mientras que los más cortos agudizan el control local pero tienen dificultades en tareas a largo plazo, lo que implica que la elección fija de un solo horizonte es subóptima. Para mitigar esta compensación, proponemos una estrategia de mezcla de horizontes (MoH). MoH reorganiza el fragmento de acción en varios segmentos con diferentes horizontes, los procesa en paralelo con un transformador de acción compartido y fusiona las salidas con una compuerta lineal ligera. Tiene tres ventajas atractivas. 1) MoH explota conjuntamente la previsión a largo plazo y la precisión a corto plazo dentro de un solo modelo, mejorando tanto el rendimiento como la generalización a tareas complejas. 2) MoH es plug-and-play para módulos de acción con atención completa, con una sobrecarga mínima en entrenamiento o inferencia. 3) MoH permite inferencia dinámica con horizontes adaptativos, que selecciona acciones estables mediante consenso entre horizontes, logrando un rendimiento 2.5 veces mayor que los métodos base mientras preserva un rendimiento superior. Experimentos extensos sobre políticas basadas en flujo π_0, π_{0.5} y la política de regresión de un paso π_{reg} demuestran que MoH produce ganancias consistentes y significativas tanto en simulaciones como en tareas del mundo real. Notablemente, bajo un entorno de tareas mixtas, π_{0.5} con MoH alcanza un nuevo estado del arte con una tasa de éxito promedio del 99% en LIBERO después de solo 30k iteraciones de entrenamiento. Página del proyecto: https://github.com/Timsty1/MixtureOfHorizons
English
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons
PDF151December 4, 2025