Talk2Move: Reinforcement Learning voor tekstgeïnstrueerde objectgeometrische transformatie in scènes
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
January 5, 2026
Auteurs: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI
Samenvatting
Wij introduceren Talk2Move, een op reinforcement learning (RL) gebaseerd raamwerk voor de ruimtelijke transformatie van objecten in scènes met behulp van tekstinstructies. Het ruimtelijk manipuleren van objecten in een scène via natuurlijke taal vormt een uitdaging voor multimodale generatiesystemen. Hoewel bestaande op tekst gebaseerde manipulatiemethoden het uiterlijk of de stijl kunnen aanpassen, hebben zij moeite met het uitvoeren van objectgeometrische transformaties—zoals het verplaatsen, roteren of herschalen van objecten—vanwege schaars gekoppeld toezicht en beperkingen op pixelniveau-optimalisatie. Talk2Move gebruikt Group Relative Policy Optimization (GRPO) om geometrische acties te verkennen via diverse rollouts gegenereerd vanuit invoerafbeeldingen en lichte tekstuele variaties, waardoor de behoefte aan kostbare gekoppelde data wordt geëlimineerd. Een ruimtelijk beloningsgestuurd model brengt geometrische transformaties in overeenstemming met linguïstische beschrijvingen, terwijl off-policy stapevaluatie en actieve stapbemonstering de leer efficiëntie verbeteren door zich te richten op informatieve transformatiefasen. Verder ontwerpen wij objectgecentreerde ruimtelijke beloningen die verplaatsing, rotatie en schaalgdrag direct evalueren, wat interpreteerbare en samenhangende transformaties mogelijk maakt. Experimenten op samengestelde benchmarks tonen aan dat Talk2Move precieze, consistente en semantisch getrouwe objecttransformaties bereikt, en bestaande tekstgestuurde bewerkingsbenaderingen overtreft in zowel ruimtelijke nauwkeurigheid als scènecoherentie.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.