ChatPaper.aiChatPaper

ビジョン言語行動モデルのタスク適応:2025年BEHAVIORチャレンジ優勝ソリューション

Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

December 7, 2025
著者: Ilia Larchenko, Gleb Zarin, Akash Karnatak
cs.AI

要旨

本論文では、2025年BEHAVIOR Challengeにおいて1位を獲得した視覚-行動ポリシーを提案する。この大規模ベンチマークは、写実的なシミュレーション環境における50種類の多様な長時間ホライゾン家事タスクから構成され、両手操作、ナビゲーション、文脈を考慮した意思決定が要求される。 Pi0.5アーキテクチャを基盤として、我々は幾つかの革新を導入した。主な貢献は、フローマッチングにおける相関ノイズの提案であり、これにより学習効率が改善され、滑らかな行動系列のための相関を考慮したインペインティングが可能となった。さらに、学習可能な混合層アテンションと、曖昧性解消のためのSystem 2段階トラッキングを適用した。学習には分散低減のためのマルチサンプルフローマッチングを、推論時には行動圧縮と課題特有の補正ルールを採用している。 本手法は、公開及び非公開の両リーダーボードにおいて、全50タスクで26%のq-scoreを達成した。
English
We present a vision-action policy that won 1st place in the 2025 BEHAVIOR Challenge - a large-scale benchmark featuring 50 diverse long-horizon household tasks in photo-realistic simulation, requiring bimanual manipulation, navigation, and context-aware decision making. Building on the Pi0.5 architecture, we introduce several innovations. Our primary contribution is correlated noise for flow matching, which improves training efficiency and enables correlation-aware inpainting for smooth action sequences. We also apply learnable mixed-layer attention and System 2 stage tracking for ambiguity resolution. Training employs multi-sample flow matching to reduce variance, while inference uses action compression and challenge-specific correction rules. Our approach achieves 26% q-score across all 50 tasks on both public and private leaderboards.
PDF32December 17, 2025