Adaptación de Tareas del Modelo Visión-Lenguaje-Acción: Solución Ganadora del Primer Puesto para el Reto BEHAVIOR 2025
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
December 7, 2025
Autores: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI
Resumen
Presentamos una política visión-acción que obtuvo el primer puesto en el BEHAVIOR Challenge 2025, un benchmark a gran escala que incluye 50 tareas domésticas diversas de horizonte largo en simulación fotorrealista, que requieren manipulación bimanual, navegación y toma de decisiones contextual.
Partiendo de la arquitectura Pi0.5, introducimos varias innovaciones. Nuestra principal contribución es el ruido correlacionado para el emparejamiento de flujos, que mejora la eficiencia del entrenamiento y permite la restauración consciente de la correlación para generar secuencias de acciones fluidas. También aplicamos atención de capa mixta entrenable y seguimiento de etapas del Sistema 2 para la resolución de ambigüedades. El entrenamiento emplea emparejamiento de flujos con múltiples muestras para reducir la varianza, mientras que la inferencia utiliza compresión de acciones y reglas de corrección específicas para el desafío.
Nuestro enfoque logra un q-score del 26% en las 50 tareas, tanto en las clasificaciones públicas como privadas.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making.
Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules.
Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.