Talk2Move: Apprendimento per Rinforzo per la Trasformazione Geometrica a Livello di Oggetto in Scene con Istruzioni Testuali

Abstract

Presentiamo Talk2Move, un framework di diffusione basato sull'apprendimento per rinforzo (RL) per la trasformazione spaziale di oggetti all'interno di scene, guidata da istruzioni testuali. La manipolazione spaziale di oggetti in una scena tramite linguaggio naturale rappresenta una sfida per i sistemi di generazione multimodale. Sebbene i metodi di manipolazione basati su testo esistenti possano modificare l'aspetto o lo stile, essi faticano a eseguire trasformazioni geometriche a livello di oggetto - come la traslazione, rotazione o ridimensionamento - a causa della scarsità di supervisione accoppiata e dei limiti dell'ottimizzazione a livello di pixel. Talk2Move utilizza l'ottimizzazione delle politiche relative al gruppo (GRPO) per esplorare azioni geometriche attraverso rollout generati a partire da immagini di input e leggere variazioni testuali, eliminando la necessità di dati accoppiati costosi. Un modello guidato da ricompense spaziali allinea le trasformazioni geometriche con la descrizione linguistica, mentre la valutazione off-policy dei passi e il campionamento attivo dei passi migliorano l'efficienza dell'apprendimento concentrandosi sulle fasi di trasformazione più informative. Inoltre, progettiamo ricompense spaziali centrate sull'oggetto che valutano direttamente il comportamento di spostamento, rotazione e scalatura, consentendo trasformazioni interpretabili e coerenti. Esperimenti su benchmark curati dimostrano che Talk2Move raggiunge trasformazioni di oggetti precise, consistenti e semanticamente fedeli, superando gli approcci di editing guidato da testo esistenti sia in accuratezza spaziale che in coerenza della scena.

English

We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.

Talk2Move: Apprendimento per Rinforzo per la Trasformazione Geometrica a Livello di Oggetto in Scene con Istruzioni Testuali

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

Abstract

Support