ChatPaper.aiChatPaper

Talk2Move: Verstärkendes Lernen für textgesteuerte geometrische Transformationen auf Objektebene in Szenen

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

January 5, 2026
papers.authors: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI

papers.abstract

Wir stellen Talk2Move vor, ein auf verstärkendem Lernen (Reinforcement Learning, RL) basierendes Diffusionsframework für die textgesteuerte räumliche Transformation von Objekten in Szenen. Die räumliche Manipulation von Objekten in einer Szene mittels natürlicher Sprache stellt eine Herausforderung für multimodale Generierungssysteme dar. Während bestehende textbasierte Manipulationsverfahren das Erscheinungsbild oder den Stil anpassen können, haben sie Schwierigkeiten, objektbezogene geometrische Transformationen – wie das Verschieben, Drehen oder Skalieren von Objekten – durchzuführen, was auf knappe gepaarte Supervision und Grenzen der pixelbasierten Optimierung zurückzuführen ist. Talk2Move setzt Group Relative Policy Optimization (GRPO) ein, um geometrische Aktionen durch diverse Rollouts zu erkunden, die aus Eingabebildern und einfachen Textvariationen generiert werden, wodurch der Bedarf an kostspieligen gepaarten Daten entfällt. Ein räumliches Belohnungsmodell sorgt für die Ausrichtung geometrischer Transformationen an der sprachlichen Beschreibung, während Off-Policy-Schrittbewertung und aktive Schichtprobennahme die Lerneffizienz verbessern, indem sie sich auf informative Transformationsstadien konzentrieren. Darüber hinaus entwerfen wir objektzentrierte räumliche Belohnungen, die Verschiebungs-, Rotations- und Skalierungsverhalten direkt bewerten und so interpretierbare und kohärente Transformationen ermöglichen. Experimente auf kuratierten Benchmarks zeigen, dass Talk2Move präzise, konsistente und semantisch treue Objekttransformationen erreicht und dabei bestehende textgeführte Bearbeitungsansätze sowohl in räumlicher Genauigkeit als auch in Szenenkohärenz übertrifft.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
PDF110January 7, 2026