텍스트로 조종 가능한 이미지-3D 변환을 통한 피드포워드 3D 편집
Feedforward 3D Editing via Text-Steerable Image-to-3D
December 15, 2025
저자: Ziqi Ma, Hongqiao Chen, Yisong Yue, Georgia Gkioxari
cs.AI
초록
이미지-3D 변환 기술의 최근 발전은 디자인, AR/VR, 로보틱스 분야에 막대한 가능성을 열었습니다. 그러나 AI 생성 3D 자산을 실제 응용 프로그램에 사용하기 위해서는 이를 쉽게 편집할 수 있는 능력이 핵심 요구사항입니다. 본 연구에서는 이미지-3D 모델에 텍스트 제어 기능을 추가하여 생성된 3D 자산을 언어로 편집할 수 있게 하는 순전파(Feedforward) 방식의 Steer3D를 제안합니다. 우리의 접근법은 ControlNet에서 영감을 받아 이미지-3D 생성에 적용하여 순전파 과정에서 직접 텍스트 제어를 가능하게 합니다. 자동 데이터 생성을 위한 확장 가능한 데이터 엔진을 구축하고, 흐름 일치(Flow-Matching) 학습과 직접 선호도 최적화(DPO)를 기반으로 한 2단계 학습 방법을 개발했습니다. 경쟁 방법과 비교했을 때 Steer3D는 언어 명령을 더 충실히 따르고 원본 3D 자산과의 일관성을 더 잘 유지하며, 2.4배에서 28.5배 더 빠른 성능을 보입니다. Steer3D는 10만 개의 데이터로 사전 학습된 이미지-3D 생성 모델의 생성을 제어하기 위한 새로운 양식(텍스트)을 추가할 수 있음을 입증합니다. 프로젝트 웹사이트: https://glab-caltech.github.io/steer3d/
English
Recent progress in image-to-3D has opened up immense possibilities for design, AR/VR, and robotics. However, to use AI-generated 3D assets in real applications, a critical requirement is the capability to edit them easily. We present a feedforward method, Steer3D, to add text steerability to image-to-3D models, which enables editing of generated 3D assets with language. Our approach is inspired by ControlNet, which we adapt to image-to-3D generation to enable text steering directly in a forward pass. We build a scalable data engine for automatic data generation, and develop a two-stage training recipe based on flow-matching training and Direct Preference Optimization (DPO). Compared to competing methods, Steer3D more faithfully follows the language instruction and maintains better consistency with the original 3D asset, while being 2.4x to 28.5x faster. Steer3D demonstrates that it is possible to add a new modality (text) to steer the generation of pretrained image-to-3D generative models with 100k data. Project website: https://glab-caltech.github.io/steer3d/