ChatPaper.aiChatPaper

Talk2Move: Обучение с подкреплением для геометрических преобразований объектов на сцене по текстовым инструкциям

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

January 5, 2026
Авторы: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI

Аннотация

Мы представляем Talk2Move — диффузионную систему на основе обучения с подкреплением (RL) для пространственного преобразования объектов в сценах по текстовым инструкциям. Пространственное манипулирование объектами в сцене с помощью естественного языка представляет сложность для мультимодальных систем генерации. В то время как существующие методы текстового редактирования могут изменять внешний вид или стиль, они испытывают трудности с выполнением геометрических преобразований на уровне объектов — таких как перемещение, вращение или масштабирование — из-за недостатка парного обучения и ограничений пиксельной оптимизации. Talk2Move использует оптимизацию групповой относительной политики (GRPO) для исследования геометрических действий через разнообразные сценарии, сгенерированные из входных изображений и легковесных текстовых вариаций, что устраняет необходимость в дорогостоящих парных данных. Модель с пространственным вознаграждением согласует геометрические преобразования с лингвистическим описанием, а внеполитическая пошаговая оценка и активное сэмплирование шагов повышают эффективность обучения за счет концентрации на информативных этапах преобразования. Кроме того, мы разрабатываем объектно-ориентированные пространственные вознаграждения, которые напрямую оценивают смещение, вращение и масштабирование, обеспечивая интерпретируемые и согласованные преобразования. Эксперименты на специально созданных бенчмарках показывают, что Talk2Move достигает точных, последовательных и семантически достоверных преобразований объектов, превосходя существующие подходы текстового редактирования как по пространственной точности, так и по согласованности сцены.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
PDF110January 7, 2026