ChatPaper.aiChatPaper

テキスト誘導型画像対3Dを介したフィードフォワード3D編集

Feedforward 3D Editing via Text-Steerable Image-to-3D

December 15, 2025
著者: Ziqi Ma, Hongqiao Chen, Yisong Yue, Georgia Gkioxari
cs.AI

要旨

画像から3D生成技術の最近の進展は、デザイン、AR/VR、ロボティクスにおいて膨大な可能性を開拓しました。しかし、AIが生成した3Dアセットを実際のアプリケーションで使用するには、それらを容易に編集できる能力が重要な要件となります。本論文では、画像から3D生成モデルにテキストによる制御性を付与するフィードフォワード手法、Steer3Dを提案します。これにより、生成された3Dアセットを言語で編集することが可能になります。我々のアプローチはControlNetに着想を得ており、これを画像から3D生成に適応させることで、フォワードパスのみで直接テキスト制御を実現します。自動データ生成のためのスケーラブルなデータエンジンを構築し、フローマッチング訓練とDirect Preference Optimization(DPO)に基づく2段階の訓練レシピを開発しました。競合手法と比較して、Steer3Dは言語指示により忠実に従い、元の3Dアセットとの一貫性をより良く維持しながら、処理速度が2.4倍から28.5倍高速です。Steer3Dは、10万規模のデータを用いて、事前学習済み画像から3D生成モデルの生成を新しいモダリティ(テキスト)で制御できる可能性を示しています。プロジェクトウェブサイト: https://glab-caltech.github.io/steer3d/
English
Recent progress in image-to-3D has opened up immense possibilities for design, AR/VR, and robotics. However, to use AI-generated 3D assets in real applications, a critical requirement is the capability to edit them easily. We present a feedforward method, Steer3D, to add text steerability to image-to-3D models, which enables editing of generated 3D assets with language. Our approach is inspired by ControlNet, which we adapt to image-to-3D generation to enable text steering directly in a forward pass. We build a scalable data engine for automatic data generation, and develop a two-stage training recipe based on flow-matching training and Direct Preference Optimization (DPO). Compared to competing methods, Steer3D more faithfully follows the language instruction and maintains better consistency with the original 3D asset, while being 2.4x to 28.5x faster. Steer3D demonstrates that it is possible to add a new modality (text) to steer the generation of pretrained image-to-3D generative models with 100k data. Project website: https://glab-caltech.github.io/steer3d/
PDF131December 18, 2025