InstructMix2Mix: Consistente Sparse-View Bewerking via Multi-View Modelpersonalisatie
InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization
November 18, 2025
Auteurs: Daniel Gilo, Or Litany
cs.AI
Samenvatting
Wij behandelen de taak van multi-view beeldbewerking vanuit schaarse invoerviews, waarbij de invoer kan worden gezien als een mix van beelden die de scène vanuit verschillende gezichtspunten vastleggen. Het doel is om de scène aan te passen volgens een tekstuele instructie, terwijl consistentie tussen alle views behouden blijft. Bestaande methoden, gebaseerd op neurale velden per scène of temporele aandachtmechanismen, worstelen in deze setting en produceren vaak artefacten en incoherente bewerkingen. Wij stellen InstructMix2Mix (I-Mix2Mix) voor, een raamwerk dat de bewerkingscapaciteiten van een 2D-diffusiemodel destilleert in een voorgetraind multi-view diffusiemodel, waarbij gebruik wordt gemaakt van diens data-gedreven 3D-prior voor cross-view consistentie. Een belangrijke bijdrage is het vervangen van de conventionele neurale veldconsolideerder in Score Distillation Sampling (SDS) door een multi-view diffusiestudent, wat nieuwe aanpassingen vereist: incrementele studentupdates over tijdstappen heen, een gespecialiseerde leraar-ruisplanner om degeneratie te voorkomen, en een aandachtmodificatie die de cross-view coherentie verbetert zonder extra kosten. Experimenten tonen aan dat I-Mix2Mix de multi-view consistentie aanzienlijk verbetert, terwijl een hoge bewerkingskwaliteit per frame behouden blijft.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.