Adaptation en tâche du modèle Vision-Langage-Action : Solution primée du Défi BEHAVIOR 2025
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
December 7, 2025
papers.authors: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI
papers.abstract
Nous présentons une politique vision-action qui a remporté la première place au BEHAVIOR Challenge 2025 - un benchmark à grande échelle comprenant 50 tâches domestiques variées et à long horizon en simulation photoréaliste, nécessitant une manipulation bimanuelle, une navigation et une prise de décision contextuelle.
En nous appuyant sur l'architecture Pi0.5, nous introduisons plusieurs innovations. Notre contribution principale est l'utilisation de bruit corrélé pour l'appariement de flux, ce qui améliore l'efficacité de l'entraînement et permet un inpainting sensible aux corrélations pour des séquences d'actions fluides. Nous appliquons également une attention mixte à couches apprenables et un suivi de phase par le Système 2 pour la résolution d'ambiguïtés. L'entraînement emploie un appariement de flux multi-échantillons pour réduire la variance, tandis que l'inférence utilise une compression d'actions et des règles de correction spécifiques au challenge.
Notre approche atteint un score-q de 26% sur l'ensemble des 50 tâches, tant sur les classements publics que privés.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making.
Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules.
Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.