Dem inneren Gehör schenken: Ausrichtung des ControlNet-Trainings durch Feedback von Zwischenmerkmalen
Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
July 3, 2025
Autoren: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI
Zusammenfassung
Trotz erheblicher Fortschritte bei Text-zu-Bild-Diffusionsmodellen bleibt die präzise räumliche Steuerung der generierten Ausgaben eine Herausforderung. ControlNet adressiert dies durch die Einführung eines zusätzlichen Konditionierungsmoduls, während ControlNet++ die Ausrichtung durch einen Zyklus-Konsistenzverlust weiter verfeinert, der nur auf die finalen Denoising-Schritte angewendet wird. Dieser Ansatz vernachlässigt jedoch Zwischenschritte der Generierung, was seine Effektivität einschränkt. Wir schlagen InnerControl vor, eine Trainingsstrategie, die räumliche Konsistenz über alle Diffusionsschritte hinweg erzwingt. Unsere Methode trainiert leichte Faltungsproben, um Eingabesteuersignale (z.B. Kanten, Tiefe) aus Zwischenmerkmalen des UNet in jedem Denoising-Schritt zu rekonstruieren. Diese Proben extrahieren effizient Signale selbst aus stark verrauschten latenten Zuständen und ermöglichen so pseudo-Ground-Truth-Steuerungen für das Training. Durch die Minimierung der Diskrepanz zwischen vorhergesagten und Zielbedingungen während des gesamten Diffusionsprozesses verbessert unser Ausrichtungsverlust sowohl die Steuerungstreue als auch die Generierungsqualität. In Kombination mit etablierten Techniken wie ControlNet++ erreicht InnerControl state-of-the-art-Leistung über diverse Konditionierungsmethoden hinweg (z.B. Kanten, Tiefe).
English
Despite significant progress in text-to-image diffusion models, achieving
precise spatial control over generated outputs remains challenging. ControlNet
addresses this by introducing an auxiliary conditioning module, while
ControlNet++ further refines alignment through a cycle consistency loss applied
only to the final denoising steps. However, this approach neglects intermediate
generation stages, limiting its effectiveness. We propose InnerControl, a
training strategy that enforces spatial consistency across all diffusion steps.
Our method trains lightweight convolutional probes to reconstruct input control
signals (e.g., edges, depth) from intermediate UNet features at every denoising
step. These probes efficiently extract signals even from highly noisy latents,
enabling pseudo ground truth controls for training. By minimizing the
discrepancy between predicted and target conditions throughout the entire
diffusion process, our alignment loss improves both control fidelity and
generation quality. Combined with established techniques like ControlNet++,
InnerControl achieves state-of-the-art performance across diverse conditioning
methods (e.g., edges, depth).