ChatPaper.aiChatPaper

Dem inneren Gehör schenken: Ausrichtung des ControlNet-Trainings durch Feedback von Zwischenmerkmalen

Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback

July 3, 2025
Autoren: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI

Zusammenfassung

Trotz erheblicher Fortschritte bei Text-zu-Bild-Diffusionsmodellen bleibt die präzise räumliche Steuerung der generierten Ausgaben eine Herausforderung. ControlNet adressiert dies durch die Einführung eines zusätzlichen Konditionierungsmoduls, während ControlNet++ die Ausrichtung durch einen Zyklus-Konsistenzverlust weiter verfeinert, der nur auf die finalen Denoising-Schritte angewendet wird. Dieser Ansatz vernachlässigt jedoch Zwischenschritte der Generierung, was seine Effektivität einschränkt. Wir schlagen InnerControl vor, eine Trainingsstrategie, die räumliche Konsistenz über alle Diffusionsschritte hinweg erzwingt. Unsere Methode trainiert leichte Faltungsproben, um Eingabesteuersignale (z.B. Kanten, Tiefe) aus Zwischenmerkmalen des UNet in jedem Denoising-Schritt zu rekonstruieren. Diese Proben extrahieren effizient Signale selbst aus stark verrauschten latenten Zuständen und ermöglichen so pseudo-Ground-Truth-Steuerungen für das Training. Durch die Minimierung der Diskrepanz zwischen vorhergesagten und Zielbedingungen während des gesamten Diffusionsprozesses verbessert unser Ausrichtungsverlust sowohl die Steuerungstreue als auch die Generierungsqualität. In Kombination mit etablierten Techniken wie ControlNet++ erreicht InnerControl state-of-the-art-Leistung über diverse Konditionierungsmethoden hinweg (z.B. Kanten, Tiefe).
English
Despite significant progress in text-to-image diffusion models, achieving precise spatial control over generated outputs remains challenging. ControlNet addresses this by introducing an auxiliary conditioning module, while ControlNet++ further refines alignment through a cycle consistency loss applied only to the final denoising steps. However, this approach neglects intermediate generation stages, limiting its effectiveness. We propose InnerControl, a training strategy that enforces spatial consistency across all diffusion steps. Our method trains lightweight convolutional probes to reconstruct input control signals (e.g., edges, depth) from intermediate UNet features at every denoising step. These probes efficiently extract signals even from highly noisy latents, enabling pseudo ground truth controls for training. By minimizing the discrepancy between predicted and target conditions throughout the entire diffusion process, our alignment loss improves both control fidelity and generation quality. Combined with established techniques like ControlNet++, InnerControl achieves state-of-the-art performance across diverse conditioning methods (e.g., edges, depth).
PDF331July 4, 2025