InstructMix2Mix: Последовательное редактирование с разреженными видами через персонализацию многовидовой модели
InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization
November 18, 2025
Авторы: Daniel Gilo, Or Litany
cs.AI
Аннотация
Мы рассматриваем задачу редактирования многовидовых изображений по разреженным входным данным, где входные данные представляют собой набор изображений сцены, полученных с разных точек обзора. Цель заключается в модификации сцены в соответствии с текстовой инструкцией при сохранении согласованности между всеми видами. Существующие методы, основанные на нейронных полях для отдельной сцены или временных механизмах внимания, плохо справляются в этой постановке задачи, зачастую порождая артефакты и несогласованные правки. Мы предлагаем InstructMix2Mix (I-Mix2Mix) — фреймворк, который дистиллирует возможности редактирования 2D диффузионной модели в предобученную многовидовую диффузионную модель, используя её основанные на данных 3D-приоры для обеспечения межвидовой согласованности. Ключевой вклад заключается в замене традиционного консолидатора на основе нейронного поля в Score Distillation Sampling (SDS) на многовидовую диффузионную «ученическую» модель, что потребовало новых адаптаций: инкрементных обновлений «ученика» на протяжении временных шагов, специализированного планировщика шума для «учительской» модели для предотвращения вырождения и модификации механизма внимания, которая улучшает межвидовую согласованность без дополнительных затрат. Эксперименты показывают, что I-Mix2Mix значительно улучшает многовидовую согласованность, сохраняя при этом высокое качество правки для каждого отдельного кадра.
English
We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.