Adattamento ai compiti del modello Visione-Linguaggio-Azione: Soluzione al primo posto per la BEHAVIOR Challenge 2025
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
December 7, 2025
Autori: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI
Abstract
Presentiamo una politica visione-azione che si è aggiudicata il primo posto nella BEHAVIOR Challenge 2025, un benchmark su larga scala che comprende 50 diverse attività domestiche a lungo orizzonte in simulazione fotorealistica, richiedendo manipolazione bimanuale, navigazione e processi decisionali contestuali.
Basandoci sull'architettura Pi0.5, introduciamo diverse innovazioni. Il nostro contributo principale è l'utilizzo di rumore correlato per il flow matching, che migliora l'efficienza dell'addestramento e abilita un inpainting consapevole delle correlazioni per sequenze di azioni fluide. Applichiamo inoltre un'attenzione a strati misti apprendibili e un tracking a stadi di Sistema 2 per la risoluzione di ambiguità. L'addestramento impiega il multi-sample flow matching per ridurre la varianza, mentre l'inferenza utilizza la compressione delle azioni e regole di correzione specifiche per la challenge.
Il nostro approccio raggiunge un q-score del 26% su tutte le 50 attività sia nella classifica pubblica che in quella privata.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making.
Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules.
Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.