Luisteren naar de innerlijke stem: Afstemming van ControlNet-training via feedback van tussenliggende kenmerken
Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
July 3, 2025
Auteurs: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in tekst-naar-beeld diffusiemodellen, blijft het bereiken van precieze ruimtelijke controle over gegenereerde uitvoer een uitdaging. ControlNet adresseert dit door een aanvullende conditioneringsmodule te introduceren, terwijl ControlNet++ de uitlijning verder verfijnt door een cyclusconsistentieverlies toe te passen op alleen de laatste denoisestappen. Deze benadering negeert echter de tussenliggende generatiefasen, wat de effectiviteit beperkt. Wij stellen InnerControl voor, een trainingsstrategie die ruimtelijke consistentie afdwingt over alle diffusiestappen. Onze methode traint lichtgewicht convolutionele probes om invoercontrolesignalen (bijv. randen, diepte) te reconstrueren uit tussenliggende UNet-kenmerken bij elke denoisestap. Deze probes extraheren efficiënt signalen, zelfs uit sterk ruisende latente representaties, waardoor pseudo grondwaarheidcontroles voor training mogelijk worden. Door de discrepantie tussen voorspelde en doelcondities gedurende het gehele diffusieproces te minimaliseren, verbetert ons uitlijningsverlies zowel de controlefideliteit als de generatiekwaliteit. In combinatie met gevestigde technieken zoals ControlNet++ bereikt InnerControl state-of-the-art prestaties over diverse conditioneringsmethoden (bijv. randen, diepte).
English
Despite significant progress in text-to-image diffusion models, achieving
precise spatial control over generated outputs remains challenging. ControlNet
addresses this by introducing an auxiliary conditioning module, while
ControlNet++ further refines alignment through a cycle consistency loss applied
only to the final denoising steps. However, this approach neglects intermediate
generation stages, limiting its effectiveness. We propose InnerControl, a
training strategy that enforces spatial consistency across all diffusion steps.
Our method trains lightweight convolutional probes to reconstruct input control
signals (e.g., edges, depth) from intermediate UNet features at every denoising
step. These probes efficiently extract signals even from highly noisy latents,
enabling pseudo ground truth controls for training. By minimizing the
discrepancy between predicted and target conditions throughout the entire
diffusion process, our alignment loss improves both control fidelity and
generation quality. Combined with established techniques like ControlNet++,
InnerControl achieves state-of-the-art performance across diverse conditioning
methods (e.g., edges, depth).