ChatPaper.aiChatPaper

Talk2Move : Apprentissage par Renforcement pour la Transformation Géométrique d'Objets dans des Scènes à partir d'Instructions Textuelles

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

January 5, 2026
papers.authors: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI

papers.abstract

Nous présentons Talk2Move, un cadre de diffusion basé sur l'apprentissage par renforcement (RL) pour la transformation spatiale d'objets dans des scènes, guidée par instructions textuelles. La manipulation spatiale d'objets dans une scène via le langage naturel constitue un défi pour les systèmes de génération multimodaux. Si les méthodes de manipulation basées sur le texte existantes peuvent ajuster l'apparence ou le style, elles peinent à réaliser des transformations géométriques au niveau de l'objet - telles que la translation, la rotation ou le redimensionnement d'objets - en raison de la rareté de la supervision par paires et des limites de l'optimisation au niveau des pixels. Talk2Move utilise l'Optimisation de Politique Relative par Groupe (GRPO) pour explorer des actions géométriques via des déploiements diversifiés générés à partir d'images d'entrée et de variations textuelles légères, éliminant ainsi le besoin de données appariées coûteuses. Un modèle guidé par une récompense spatiale aligne les transformations géométriques avec la description linguistique, tandis que l'évaluation d'étape hors politique et l'échantillonnage actif d'étapes améliorent l'efficacité de l'apprentissage en se concentrant sur les étapes de transformation informatives. De plus, nous concevons des récompenses spatiales centrées sur l'objet qui évaluent directement les comportements de déplacement, de rotation et de mise à l'échelle, permettant des transformations interprétables et cohérentes. Les expériences sur des benchmarks organisés démontrent que Talk2Move réalise des transformations d'objets précises, cohérentes et sémantiquement fidèles, surpassant les approches d'édition guidée par le texte existantes à la fois en précision spatiale et en cohérence scénique.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
PDF110January 7, 2026