Édition 3D par propagation directe via texte orientable d'image vers 3D
Feedforward 3D Editing via Text-Steerable Image-to-3D
December 15, 2025
papers.authors: Ziqi Ma, Hongqiao Chen, Yisong Yue, Georgia Gkioxari
cs.AI
papers.abstract
Les progrès récents en génération 3D à partir d'images ont ouvert d'immenses possibilités pour la conception, la RA/RV et la robotique. Cependant, pour utiliser les assets 3D générés par l'IA dans des applications réelles, une exigence cruciale est la capacité de les modifier facilement. Nous présentons une méthode feedforward, Steer3D, pour ajouter une pilotabilité textuelle aux modèles de génération image-à-3D, permettant l'édition des assets 3D générés par le langage. Notre approche s'inspire de ControlNet, que nous adaptons à la génération image-à-3D pour permettre un pilotage textuel directement lors d'une passe avant. Nous construisons un moteur de données scalable pour la génération automatique de données, et développons une méthode d'entraînement en deux étapes basée sur l'apprentissage par flow-matching et l'Optimisation Directe des Préférences (DPO). Par rapport aux méthodes concurrentes, Steer3D suit plus fidèlement les instructions textuelles et maintient une meilleure cohérence avec l'asset 3D original, tout en étant 2,4 à 28,5 fois plus rapide. Steer3D démontre qu'il est possible d'ajouter une nouvelle modalité (le texte) pour piloter la génération de modèles génératifs image-à-3D pré-entraînés avec seulement 100 000 données. Site du projet : https://glab-caltech.github.io/steer3d/
English
Recent progress in image-to-3D has opened up immense possibilities for design, AR/VR, and robotics. However, to use AI-generated 3D assets in real applications, a critical requirement is the capability to edit them easily. We present a feedforward method, Steer3D, to add text steerability to image-to-3D models, which enables editing of generated 3D assets with language. Our approach is inspired by ControlNet, which we adapt to image-to-3D generation to enable text steering directly in a forward pass. We build a scalable data engine for automatic data generation, and develop a two-stage training recipe based on flow-matching training and Direct Preference Optimization (DPO). Compared to competing methods, Steer3D more faithfully follows the language instruction and maintains better consistency with the original 3D asset, while being 2.4x to 28.5x faster. Steer3D demonstrates that it is possible to add a new modality (text) to steer the generation of pretrained image-to-3D generative models with 100k data. Project website: https://glab-caltech.github.io/steer3d/