Прислушиваясь к внутреннему голосу: согласование обучения ControlNet через обратную связь по промежуточным признакам
Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
July 3, 2025
Авторы: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI
Аннотация
Несмотря на значительный прогресс в моделях диффузии для генерации изображений из текста, достижение точного пространственного контроля над генерируемыми результатами остается сложной задачей. ControlNet решает эту проблему, вводя дополнительный модуль условной обработки, а ControlNet++ дополнительно улучшает выравнивание с помощью функции потерь на основе цикличной согласованности, применяемой только к финальным шагам денойзинга. Однако этот подход игнорирует промежуточные этапы генерации, что ограничивает его эффективность. Мы предлагаем InnerControl — стратегию обучения, которая обеспечивает пространственную согласованность на всех этапах диффузии. Наш метод обучает легковесные сверточные зонды для восстановления входных управляющих сигналов (например, границ, глубины) из промежуточных признаков UNet на каждом шаге денойзинга. Эти зонды эффективно извлекают сигналы даже из сильно зашумленных латентных представлений, что позволяет создавать псевдо-опорные управляющие данные для обучения. Минимизируя расхождение между предсказанными и целевыми условиями на протяжении всего процесса диффузии, наша функция потерь на выравнивание улучшает как точность контроля, так и качество генерации. В сочетании с проверенными методами, такими как ControlNet++, InnerControl демонстрирует наилучшие результаты для различных методов условной обработки (например, границ, глубины).
English
Despite significant progress in text-to-image diffusion models, achieving
precise spatial control over generated outputs remains challenging. ControlNet
addresses this by introducing an auxiliary conditioning module, while
ControlNet++ further refines alignment through a cycle consistency loss applied
only to the final denoising steps. However, this approach neglects intermediate
generation stages, limiting its effectiveness. We propose InnerControl, a
training strategy that enforces spatial consistency across all diffusion steps.
Our method trains lightweight convolutional probes to reconstruct input control
signals (e.g., edges, depth) from intermediate UNet features at every denoising
step. These probes efficiently extract signals even from highly noisy latents,
enabling pseudo ground truth controls for training. By minimizing the
discrepancy between predicted and target conditions throughout the entire
diffusion process, our alignment loss improves both control fidelity and
generation quality. Combined with established techniques like ControlNet++,
InnerControl achieves state-of-the-art performance across diverse conditioning
methods (e.g., edges, depth).