InstructMix2Mix : Édition cohérente à vue éparse par la personnalisation multi-vues de modèles
InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization
November 18, 2025
papers.authors: Daniel Gilo, Or Litany
cs.AI
papers.abstract
Nous abordons la tâche d'édition d'images multi-vues à partir de vues d'entrée éparses, où les entrées peuvent être considérées comme un mélange d'images capturant la scène sous différents angles de vue. L'objectif est de modifier la scène selon une instruction textuelle tout en préservant la cohérence entre toutes les vues. Les méthodes existantes, basées sur des champs neuronaux par scène ou des mécanismes d'attention temporelle, peinent dans ce contexte, produisant souvent des artefacts et des modifications incohérentes. Nous proposons InstructMix2Mix (I-Mix2Mix), un cadre qui distille les capacités d'édition d'un modèle de diffusion 2D dans un modèle de diffusion multi-vues préentraîné, en exploitant son aperçu 3D basé sur les données pour assurer la cohérence inter-vues. Une contribution clé est le remplacement du consolidateur par champ neuronal conventionnel dans le Score Distillation Sampling (SDS) par un étudiant de diffusion multi-vues, ce qui nécessite des adaptations novatrices : des mises à jour incrémentielles de l'étudiant sur les pas de temps, un planificateur de bruit spécialisé pour l'enseignant afin d'éviter la dégénérescence, et une modification de l'attention qui améliore la cohérence inter-vues sans coût supplémentaire. Les expériences démontrent qu'I-Mix2Mix améliore significativement la cohérence multi-vues tout en maintenant une qualité d'édition par image élevée.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.