世界モデリングがより優れたプランナーを生み出す:エンボディードタスクプランニングのための二重選好最適化
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
March 13, 2025
著者: Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu
cs.AI
要旨
大規模視覚言語モデル(LVLM)の最近の進展は、具現化されたタスクプランニングにおいて有望な成果を示しているが、依存関係の制約や効率性といった基本的な課題に依然として苦戦している。既存のアプローチは、行動選択の最適化にのみ焦点を当てるか、推論時に世界モデルを活用するものの、プランニング能力を向上させる手段として世界をモデル化する学習の利点を見落としている。本論文では、状態予測と行動選択を同時に最適化する新しい学習フレームワークであるDual Preference Optimization(D^2PO)を提案する。このフレームワークは、選好学習を通じてLVLMが環境のダイナミクスを理解し、より良いプランニングを可能にする。人間のアノテーションなしで軌跡と段階的な選好データを自動的に収集するために、試行錯誤による広範な探索を可能にするツリーサーチメカニズムを導入した。VoTa-Benchにおける広範な実験により、Qwen2-VL(7B)、LLaVA-1.6(7B)、LLaMA-3.2(11B)に適用した場合、我々のD^2POベースの手法が既存の手法やGPT-4oを大幅に上回り、より効率的な実行パスで優れたタスク成功率を達成することが実証された。
English
Recent advances in large vision-language models (LVLMs) have shown promise
for embodied task planning, yet they struggle with fundamental challenges like
dependency constraints and efficiency. Existing approaches either solely
optimize action selection or leverage world models during inference,
overlooking the benefits of learning to model the world as a way to enhance
planning capabilities. We propose Dual Preference Optimization (D^2PO), a new
learning framework that jointly optimizes state prediction and action selection
through preference learning, enabling LVLMs to understand environment dynamics
for better planning. To automatically collect trajectories and stepwise
preference data without human annotation, we introduce a tree search mechanism
for extensive exploration via trial-and-error. Extensive experiments on
VoTa-Bench demonstrate that our D^2PO-based method significantly outperforms
existing methods and GPT-4o when applied to Qwen2-VL (7B), LLaVA-1.6 (7B), and
LLaMA-3.2 (11B), achieving superior task success rates with more efficient
execution paths.Summary
AI-Generated Summary