ChatPaper.aiChatPaper

Talk2Move: Aprendizaje por Refuerzo para la Transformación Geométrica a Nivel de Objeto en Escenas mediante Instrucciones de Texto

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

January 5, 2026
Autores: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI

Resumen

Presentamos Talk2Move, un marco de difusión basado en aprendizaje por refuerzo (RL) para la transformación espacial de objetos en escenas mediante instrucciones de texto. La manipulación espacial de objetos en una escena mediante lenguaje natural representa un desafío para los sistemas de generación multimodal. Si bien los métodos de manipulación existentes basados en texto pueden ajustar la apariencia o el estilo, tienen dificultades para realizar transformaciones geométricas a nivel de objeto—como trasladar, rotar o cambiar el tamaño de los objetos—debido a la escasez de supervisión apareada y a las limitaciones de la optimización a nivel de píxel. Talk2Move emplea la Optimización de Políticas Relativas de Grupo (GRPO) para explorar acciones geométricas a través de diversas simulaciones generadas a partir de imágenes de entrada y variaciones textuales ligeras, eliminando la necesidad de datos apareados costosos. Un modelo guiado por recompensas espaciales alinea las transformaciones geométricas con la descripción lingüística, mientras que la evaluación de pasos fuera de la política y el muestreo activo de pasos mejoran la eficiencia del aprendizaje al centrarse en las etapas informativas de la transformación. Además, diseñamos recompensas espaciales centradas en el objeto que evalúan directamente los comportamientos de desplazamiento, rotación y escalado, permitiendo transformaciones interpretables y coherentes. Los experimentos en benchmarks curados demuestran que Talk2Move logra transformaciones de objetos precisas, consistentes y semánticamente fieles, superando a los enfoques de edición guiada por texto existentes tanto en precisión espacial como en coherencia de la escena.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
PDF110January 7, 2026