InstructMix2Mix: Edição Consistente de Visão Esparsa Através da Personalização de Modelo Multi-Vista

Resumo

Abordamos a tarefa de edição de imagens multi-visão a partir de vistas de entrada esparsas, onde as entradas podem ser vistas como uma mistura de imagens que capturam a cena de diferentes pontos de vista. O objetivo é modificar a cena de acordo com uma instrução textual, preservando a consistência entre todas as vistas. Os métodos existentes, baseados em campos neurais por cena ou mecanismos de atenção temporal, lutam nesse cenário, frequentemente produzindo artefatos e edições incoerentes. Propomos o InstructMix2Mix (I-Mix2Mix), uma estrutura que destila as capacidades de edição de um modelo de difusão 2D em um modelo de difusão multi-visão pré-treinado, aproveitando seu pré-conhecimento 3D orientado a dados para consistência cruzada de vistas. Uma contribuição fundamental é a substituição do consolidador de campo neural convencional na Amostragem por Destilação de Pontuação (SDS) por um estudante de difusão multi-visão, o que requer adaptações inéditas: atualizações incrementais do estudante ao longo dos passos de tempo, um programador de ruído especializado para o professor para evitar degeneração e uma modificação de atenção que melhora a coerência cruzada de vistas sem custo adicional. Experimentos demonstram que o I-Mix2Mix melhora significativamente a consistência multi-visão, mantendo alta qualidade de edição por quadro.

English

We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.

InstructMix2Mix: Edição Consistente de Visão Esparsa Através da Personalização de Modelo Multi-Vista

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

Resumo

Support