Task-Adaption von Vision-Sprache-Handlungs-Modellen: Die erstplatzierte Lösung für die BEHAVIOR Challenge 2025
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
December 7, 2025
papers.authors: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI
papers.abstract
Wir stellen eine Vision-Aktions-Policy vor, die den ersten Platz bei der BEHAVIOR Challenge 2025 gewann – einem umfangreichen Benchmark mit 50 verschiedenen Haushaltsaufgaben mit langem Planungshorizont in fotorealistischer Simulation, die bimanuelle Manipulation, Navigation und kontextbewusste Entscheidungsfindung erfordern.
Aufbauend auf der Pi0.5-Architektur führen wir mehrere Innovationen ein. Unser Hauptbeitrag ist korreliertes Rauschen für Flow Matching, das die Trainingseffizienz verbessert und korrelationsbewusstes Inpainting für glatte Aktionssequenzen ermöglicht. Zusätzlich wenden wir lernbare Mixed-Layer-Attention und System-2-Stufen-Tracking zur Auflösung von Mehrdeutigkeiten an. Das Training nutzt Multi-Sample-Flow-Matching zur Reduzierung der Varianz, während für die Inferenz Aktionskompression und challengespezifische Korrekturregeln eingesetzt werden.
Unser Ansatz erzielt einen Q-Score von 26 % über alle 50 Aufgaben hinweg, sowohl auf der öffentlichen als auch auf der privaten Bestenliste.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making.
Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules.
Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.