ChatPaper.aiChatPaper

InstructMix2Mix:マルチビューモデルパーソナライゼーションによる一貫性のあるスパースビュー編集

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

November 18, 2025
著者: Daniel Gilo, Or Litany
cs.AI

要旨

本論文では、まばらな入力ビューからのマルチビュー画像編集タスクに取り組む。入力は、異なる視点からシーンを捉えた画像の混合と見なすことができる。目的は、テキスト指示に従ってシーンを変更しつつ、すべてのビューの一貫性を維持することである。シーンごとのニューラルフィールドや時間的アテンション機構に基づく既存手法は、この設定ではアーティファクトや非一貫性のある編集を生成しがちで、困難に直面している。我々は、2D拡散モデルの編集能力を事前学習済みマルチビュー拡散モデルに蒸留し、そのデータ駆動型3D事前分布を視点間一貫性に活用するフレームワーク、InstructMix2Mix(I-Mix2Mix)を提案する。主要な貢献は、Score Distillation Sampling(SDS)における従来のニューラルフィールド統合器を、マルチビュー拡散「学生」モデルに置き換えることである。これには新規の適応が必要となる:タイムステップ間での漸次的学生モデル更新、退化を防ぐための特殊化された教師モデルノイズスケジューラ、追加コストなしで視点間コヒーレンスを強化するアテンション修正である。実験により、I-Mix2Mixがフレームごとの編集品質を高く維持しつつ、マルチビュー一貫性を大幅に改善することが実証された。
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.
PDF112December 1, 2025