ChatPaper.aiChatPaper

InstructMix2Mix: Edición Consistente con Vistas Dispersas mediante la Personalización de Modelos Multi-Vista

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

November 18, 2025
Autores: Daniel Gilo, Or Litany
cs.AI

Resumen

Abordamos la tarea de edición de imágenes multivista a partir de entradas dispersas, donde las entradas pueden verse como una mezcla de imágenes que capturan la escena desde diferentes puntos de vista. El objetivo es modificar la escena según una instrucción textual manteniendo la coherencia entre todas las vistas. Los métodos existentes, basados en campos neuronales por escena o mecanismos de atención temporal, tienen dificultades en este escenario, produciendo a menudo artefactos y ediciones incoherentes. Proponemos InstructMix2Mix (I-Mix2Mix), un marco que destila las capacidades de edición de un modelo de difusión 2D en un modelo de difusión multivista preentrenado, aprovechando su conocimiento previo 3D basado en datos para la coherencia cruzada entre vistas. Una contribución clave es reemplazar el consolidador de campo neuronal convencional en el Muestreo por Destilación de Puntuaciones (SDS) con un estudiante de difusión multivista, lo que requiere adaptaciones novedosas: actualizaciones incrementales del estudiante a lo largo de los pasos temporales, un programador de ruido especializado para el profesor para evitar la degeneración, y una modificación de la atención que mejora la coherencia cruzada entre vistas sin coste adicional. Los experimentos demuestran que I-Mix2Mix mejora significativamente la coherencia multivista manteniendo una alta calidad de edición por fotograma.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.
PDF112December 1, 2025