ChatPaper.aiChatPaper

InstructMix2Mix: Konsistente Sparse-View-Bearbeitung durch Multi-View-Modell-Personalisierung

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

November 18, 2025
papers.authors: Daniel Gilo, Or Litany
cs.AI

papers.abstract

Wir behandeln die Aufgabe der Bearbeitung von Multi-View-Bildern aus spärlichen Eingabeansichten, wobei die Eingaben als eine Mischung von Bildern betrachtet werden können, die die Szene aus verschiedenen Blickwinkeln erfassen. Das Ziel ist es, die Szene gemäß einer textuellen Anweisung zu modifizieren und dabei die Konsistenz über alle Ansichten hinweg zu bewahren. Bestehende Methoden, die auf szenenspezifischen neuronalen Feldern oder temporalen Aufmerksamkeitsmechanismen basieren, haben in diesem Szenario Schwierigkeiten und erzeugen oft Artefakte und inkohärente Bearbeitungen. Wir schlagen InstructMix2Mix (I-Mix2Mix) vor, ein Framework, das die Bearbeitungsfähigkeiten eines 2D-Diffusionsmodells in ein vortrainiertes Multi-View-Diffusionsmodell destilliert und dessen datengetriebene 3D-Priorität für die konsistente Darstellung über alle Ansichten hinweg nutzbar macht. Ein wesentlicher Beitrag ist der Ersatz des konventionellen neuronalen Feld-Konsolidierers im Score Distillation Sampling (SDS) durch einen Multi-View-Diffusions-Studenten, was neuartige Anpassungen erfordert: inkrementelle Studenten-Updates über Zeitschritte hinweg, einen spezialisierten Teacher-Noise-Scheduler zur Vermeidung von Degeneration und eine Aufmerksamkeitsmodifikation, die die konsistente Darstellung über die Ansichten hinweg ohne zusätzlichen Aufwand verbessert. Experimente zeigen, dass I-Mix2Mix die Multi-View-Konsistenz signifikant verbessert und gleichzeitig eine hohe Bearbeitungsqualität pro Einzelbild beibehält.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.
PDF112December 1, 2025