ChatPaper.aiChatPaper

Edición 3D por Avance mediante Texto Dirigido de Imagen a 3D

Feedforward 3D Editing via Text-Steerable Image-to-3D

December 15, 2025
Autores: Ziqi Ma, Hongqiao Chen, Yisong Yue, Georgia Gkioxari
cs.AI

Resumen

Los recientes avances en imagen-a-3D han abierto inmensas posibilidades para el diseño, la realidad aumentada/virtual y la robótica. Sin embargo, para utilizar activos 3D generados por IA en aplicaciones reales, un requisito crítico es la capacidad de editarlos fácilmente. Presentamos un método de propagación directa, Steer3D, para añadir capacidad de dirección mediante texto a los modelos de imagen-a-3D, lo que permite editar activos 3D generados con lenguaje. Nuestro enfoque está inspirado en ControlNet, el cual adaptamos a la generación imagen-a-3D para permitir la dirección textual directamente en un pase hacia adelante. Construimos un motor de datos escalable para la generación automática de datos y desarrollamos una receta de entrenamiento en dos etapas basada en entrenamiento por correspondencia de flujos y Optimización Directa de Preferencias (DPO). En comparación con métodos competidores, Steer3D sigue las instrucciones lingüísticas con mayor fidelidad y mantiene una mejor coherencia con el activo 3D original, siendo además de 2.4x a 28.5x más rápido. Steer3D demuestra que es posible añadir una nueva modalidad (texto) para dirigir la generación de modelos generativos de imagen-a-3D preentrenados con 100k datos. Sitio web del proyecto: https://glab-caltech.github.io/steer3d/
English
Recent progress in image-to-3D has opened up immense possibilities for design, AR/VR, and robotics. However, to use AI-generated 3D assets in real applications, a critical requirement is the capability to edit them easily. We present a feedforward method, Steer3D, to add text steerability to image-to-3D models, which enables editing of generated 3D assets with language. Our approach is inspired by ControlNet, which we adapt to image-to-3D generation to enable text steering directly in a forward pass. We build a scalable data engine for automatic data generation, and develop a two-stage training recipe based on flow-matching training and Direct Preference Optimization (DPO). Compared to competing methods, Steer3D more faithfully follows the language instruction and maintains better consistency with the original 3D asset, while being 2.4x to 28.5x faster. Steer3D demonstrates that it is possible to add a new modality (text) to steer the generation of pretrained image-to-3D generative models with 100k data. Project website: https://glab-caltech.github.io/steer3d/
PDF131December 18, 2025