Adaptação de tarefas do modelo Visão-Linguagem-Ação: Solução Vencedora do Desafio BEHAVIOR 2025

Resumo

Apresentamos uma política visão-ação que conquistou o 1º lugar no Desafio BEHAVIOR 2025 - um benchmark de grande escala que apresenta 50 tarefas domésticas diversas e de longo horizonte em simulação fotorrealista, exigindo manipulação bimanual, navegação e tomada de decisão contextual. Com base na arquitetura Pi0.5, introduzimos várias inovações. Nossa principal contribuição é o ruído correlacionado para *flow matching*, que melhora a eficiência do treinamento e permite a restauração de imagem (*inpainting*) com consciência de correlação para sequências de ações suaves. Também aplicamos atenção mista em camadas (*learnable mixed-layer attention*) e rastreamento de estágio do Sistema 2 para resolução de ambiguidades. O treinamento emprega *flow matching* com múltiplas amostras para reduzir a variância, enquanto a inferência utiliza compressão de ações e regras de correção específicas para o desafio. Nossa abordagem atinge um *q-score* de 26% em todas as 50 tarefas, tanto no *leaderboard* público quanto no privado.

English

We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making. Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules. Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.