ChatPaper.aiChatPaper

Talk2Move: 장면 내 텍스트 지시 객체 기하 변환을 위한 강화 학습

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

January 5, 2026
저자: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto
cs.AI

초록

본 논문에서는 장면 내 객체의 텍스트 지시 기반 공간 변형을 위한 강화 학습(RL) 기반 확산 프레임워크인 Talk2Move를 소개한다. 자연어를 통해 장면 속 객체를 공간적으로 조작하는 것은 멀티모달 생성 시스템에게 어려운 과제다. 기존 텍스트 기반 조작 방법은 외관이나 스타일을 조정할 수 있지만, 충분한 지도 학습 데이터의 부족과 픽셀 수준 최적화의 한계로 인해 객체 수준의 기하학적 변환(이동, 회전, 크기 조절 등)을 수행하는 데 어려움을 겪는다. Talk2Move는 Group Relative Policy Optimization(GRPO)을 활용하여 입력 이미지와 경량의 텍스트 변형으로부터 생성된 다양한 롤아웃을 통해 기하학적 액션을 탐색함으로써, 비용이 많이 드는 지도 데이터 쌍의 필요성을 제거한다. 공간 보상 유도 모델은 기하학적 변환을 언어적 설명과 정렬시키며, 오프-폴리시 단계 평가와 능동적 단계 샘플링은 정보성이 높은 변환 단계에 집중하여 학습 효율을 향상시킨다. 더 나아가, 변위, 회전, 크기 조절 행위를 직접 평가하는 객체 중심 공간 보상을 설계하여 해석 가능하고 일관된 변환을 가능하게 한다. 정제된 벤치마크에서의 실험 결과, Talk2Move는 기존 텍스트 지도 편집 접근법보다 공간 정확도와 장면 일관성 모두에서 뛰어나며, 정밀하고 일관적이며 의미론적으로 충실한 객체 변환을 달성함을 보여준다.
English
We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
PDF110January 7, 2026