ChatPaper.aiChatPaper

Адаптация модели «Зрение-Язык-Действие» к задаче: Решение, занявшее первое место на соревновании BEHAVIOR Challenge 2025

Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

December 7, 2025
Авторы: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI

Аннотация

Мы представляем политику "зрение-действие", занявшую первое место в конкурсе BEHAVIOR Challenge 2025 — крупномасштабном тесте, включающем 50 разнообразных длительных задач в условиях фотореалистичной симуляции домашней среды, требующих двурукого манипулирования, навигации и контекстно-зависимого принятия решений. Основываясь на архитектуре Pi0.5, мы вводим ряд новшеств. Нашим ключевым вкладом является использование коррелированного шума для сопоставления потоков, что повышает эффективность обучения и позволяет выполнять корреляционно-осознанное восстановление изображений для создания плавных последовательностей действий. Мы также применяем обучаемое внимание со смешанными слоями и отслеживание состояний Системы 2 для разрешения неоднозначностей. Для обучения используется сопоставление потоков с множественными выборками для снижения дисперсии, в то время как на этапе вывода применяются сжатие действий и специфичные для конкурса правила коррекции. Наш подход демонстрирует q-показатель в 26% по всем 50 задачам как на публичном, так и на приватном лидербордах.
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making. Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules. Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.
PDF32December 17, 2025