ChatPaper.aiChatPaper

Taakaanpassing van het Vision-Language-Action-model: Eersteprijswinnende Oplossing voor de BEHAVIOR Challenge 2025

Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

December 7, 2025
Auteurs: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI

Samenvatting

Wij presenteren een visie-actiebeleid dat de eerste plaats behaalde in de BEHAVIOR Challenge van 2025 – een grootschalige benchmark met 50 uiteenlopende huishoudelijke taken met een lange tijdsduur in een fotorealistische simulatie, waarvoor bimanuele manipulatie, navigatie en contextbewuste besluitvorming vereist zijn. Voortbouwend op de Pi0.5-architectuur introduceren wij verschillende innovaties. Onze primaire bijdrage is gecorreleerde ruis voor flow matching, wat de trainings efficiëntie verbetert en correlatiebewuste inpainting mogelijk maakt voor vloeiende actiesequenties. Tevens passen wij leerbare mixed-layer aandacht en System 2 stadiums tracking toe voor het oplossen van ambiguïteit. De training maakt gebruik van multi-sample flow matching om variantie te verminderen, terwijl voor inferentie actiecompressie en challengespecifieke correctieregels worden gebruikt. Onze aanpak behaalt een q-score van 26% over alle 50 taken op zowel de publieke als de private leaderboards.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making. Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules. Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.
PDF32December 17, 2025