ChatPaper.aiChatPaper

InstructMix2Mix: Modifica Coerente a Viste Sparse Tramite Personalizzazione Multi-Vista del Modello

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

November 18, 2025
Autori: Daniel Gilo, Or Litany
cs.AI

Abstract

Affrontiamo il compito di modifica di immagini multi-vista a partire da input sparsi, dove gli input possono essere visti come un insieme di immagini che catturano la scena da diverse angolazioni. L'obiettivo è modificare la scena secondo un'istruzione testuale preservando la coerenza tra tutte le viste. I metodi esistenti, basati su campi neurali per singola scena o meccanismi di attenzione temporale, mostrano difficoltà in questo contesto, producendo spesso artefatti e modifiche incoerenti. Proponiamo InstructMix2Mix (I-Mix2Mix), un framework che distilla le capacità di modifica di un modello di diffusione 2D in un modello di diffusione multi-vista preaddestrato, sfruttando il suo priore 3D basato sui dati per la coerenza cross-view. Un contributo chiave è la sostituzione del consolidatore a campo neurale convenzionale nello Score Distillation Sampling (SDS) con uno studente di diffusione multi-vista, che richiede adattamenti innovativi: aggiornamenti incrementali dello studente attraverso i timestep, uno scheduler del rumore specializzato per l'insegnante per prevenire la degenerazione, e una modifica del meccanismo di attenzione che migliora la coerenza cross-view senza costi aggiuntivi. Gli esperimenti dimostrano che I-Mix2Mix migliora significativamente la coerenza multi-vista mantenendo un'alta qualità di modifica per singolo fotogramma.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.
PDF112December 1, 2025