Talk2Move: Aprendizado por Reforço para Transformação Geométrica de Objetos em Cenas com Instruções Textuais
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
January 5, 2026
Autores: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI
Resumo
Apresentamos o Talk2Move, uma estrutura de difusão baseada em aprendizagem por reforço (RL) para transformação espacial de objetos em cenas instruída por texto. A manipulação espacial de objetos numa cena através de linguagem natural representa um desafio para sistemas de geração multimodal. Embora os métodos existentes de manipulação baseada em texto possam ajustar a aparência ou o estilo, eles têm dificuldade em realizar transformações geométricas a nível de objeto - como translação, rotação ou redimensionamento - devido à escassez de supervisão emparelhada e aos limites da otimização a nível de pixel. O Talk2Move emprega a Otimização de Política Relativa de Grupo (GRPO) para explorar ações geométricas através de diversos *rollouts* gerados a partir de imagens de entrada e variações textuais leves, eliminando a necessidade de dados emparelhados dispendiosos. Um modelo guiado por recompensa espacial alinha as transformações geométricas com a descrição linguística, enquanto a avaliação de passos *off-policy* e a amostragem ativa de passos melhoram a eficiência da aprendizagem ao focar em estágios de transformação informativos. Adicionalmente, projetamos recompensas espaciais centradas no objeto que avaliam comportamentos de deslocamento, rotação e escalonamento diretamente, permitindo transformações interpretáveis e coerentes. Experiências em benchmarks curados demonstram que o Talk2Move alcança transformações de objetos precisas, consistentes e semanticamente fiéis, superando as abordagens existentes de edição guiada por texto tanto em precisão espacial quanto em coerência da cena.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.