ChatPaper.aiChatPaper

Act2Goal: 世界モデルから汎用目標条件付き方策へ

Act2Goal: From World Model To General Goal-conditioned Policy

December 29, 2025
著者: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI

要旨

ロボットマニピュレーション課題を表現力と正確性の両立で規定することは、依然として中心的な課題である。視覚的目標は簡潔で曖昧さのない課題規定を提供するが、既存の目標条件付きポリシーは、タスクの進捗を明示的にモデル化せず単一ステップの行動予測に依存するため、長期にわたるマニピュレーションに苦戦することが多い。本論文では、目標条件付き視覚世界モデルとマルチスケール時間制御を統合した汎用目標条件付きマニピュレーションポリシーであるAct2Goalを提案する。現在の観測と目標視覚状態が与えられると、世界モデルは長期構造を捉えた妥当な中間視覚状態の系列を生成する。この視覚的計画を堅牢な実行に変換するため、マルチスケール時間ハッシュ法(MSTH)を導入する。これは、想像された軌跡を、細粒度の閉ループ制御のための高密度な近位フレームと、大域的なタスク一貫性を確保する疎な遠位フレームに分解する。本ポリシーは、これらの表現をエンドツーエンドのクロスアテンションにより運動制御と結合し、局所的な外乱に対して反応性を保ちながら、一貫した長期行動を実現する。Act2Goalは、新しい物体、空間配置、環境に対する強力なゼロショット一般化を達成する。さらに、LoRAベースのファインチューニングを用いた後悔目標再ラベリングによる報酬なしオンライン適応を可能にし、外部監視なしでの迅速な自律的改善を実現する。実ロボット実験により、Act2Goalが分布外の困難な課題において、自律的相互作用開始数分以内に成功率を30%から90%に向上させることが実証され、マルチスケール時間制御を備えた目標条件付き世界モデルが、堅牢な長期マニピュレーションに必要な構造化された指針を提供することを検証した。プロジェクトページ: https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/
PDF191December 31, 2025