Mistura de Horizontes na Segmentação de Ações

Resumo

Os modelos visão-linguagem-ação (VLA) demonstraram capacidades notáveis na manipulação robótica, mas o seu desempenho é sensível ao comprimento do bloco de ação utilizado durante o treino, designado por horizonte. O nosso estudo empírico revela um compromisso inerente: horizontes mais longos proporcionam uma melhor perspetiva global, mas degradam a precisão de granularidade fina, enquanto horizontes mais curtos aperfeiçoam o controlo local, mas têm dificuldades em tarefas de longo prazo, o que implica que a escolha fixa de um único horizonte é subótima. Para mitigar este compromisso, propomos uma estratégia de mistura de horizontes (MoH). A MoH reorganiza o bloco de ação em vários segmentos com diferentes horizontes, processa-os em paralelo com um transformador de ação partilhado e funde os resultados com um portão linear leve. Apresenta três benefícios atrativos. 1) A MoH explora conjuntamente, num único modelo, a perspetiva de longo prazo e a precisão de curto prazo, melhorando o desempenho e a generalização para tarefas complexas. 2) A MoH é plug-and-play para módulos de ação com atenção completa, com sobrecarga mínima no treino ou inferência. 3) A MoH permite inferência dinâmica com horizontes adaptativos, que seleciona ações estáveis através de consenso entre horizontes, alcançando uma taxa de processamento 2,5 vezes superior às linhas de base, mantendo um desempenho superior. Experiências extensivas com políticas baseadas em fluxo π_0, π_{0,5} e a política de regressão de um passo π_{reg} demonstram que a MoH produz ganhos consistentes e significativos tanto em simulações como em tarefas do mundo real. Notablemente, num contexto de tarefas mistas, π_{0,5} com MoH atinge um novo estado da arte com uma taxa de sucesso média de 99% no LIBERO após apenas 30k iterações de treino. Página do projeto: https://github.com/Timsty1/MixtureOfHorizons

English

Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the action chunk length used during training, termed horizon. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a mixture of horizons (MoH) strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5times higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies π_0, π_{0.5}, and one-step regression policy π_{reg} demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, π_{0.5} with MoH reaches a new state-of-the-art with 99% average success rate on LIBERO after only 30k training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons

Mistura de Horizontes na Segmentação de Ações

Mixture of Horizons in Action Chunking

Resumo

Support