Talk2Move: テキスト指示によるシーン内オブジェクトレベルの幾何学的変換のための強化学習
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
January 5, 2026
著者: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI
要旨
本論文では、シーン内オブジェクトのテキスト指示に基づく空間変換を実現する強化学習(RL)ベースの拡散フレームワーク「Talk2Move」を提案する。自然言語によるシーン内オブジェクトの空間操作は、マルチモーダル生成システムにおける課題である。既存のテキストベース編集手法は外観やスタイルの調整が可能だが、対となる教師データの不足やピクセルレベルの最適化の限界から、オブジェクトの平行移動・回転・拡大縮小といった幾何学的変換には対応が困難であった。Talk2MoveはGroup Relative Policy Optimization(GRPO)を採用し、入力画像と軽量なテキスト変異から生成される多様なロールアウトを通じて幾何学的動作を探索するため、高コストな対データが不要である。空間報酬誘導モデルが幾何学的変換と言語記述を整合させ、オフポリシー段階評価と能動的段階サンプリングにより、情報量の多い変換段階に焦点を当てることで学習効率を向上させる。さらに、変位・回転・スケーリングを直接評価するオブジェクト中心の空間報酬を設計し、解釈可能で一貫性のある変換を実現する。厳選されたベンチマークによる実験では、Talk2Moveが既存のテキスト誘導編集手法を空間精度とシーン一貫性の両面で凌駕し、精密で一貫性があり、意味的に忠実なオブジェクト変換を達成することを実証した。
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.