Luisteren naar de innerlijke stem: Afstemming van ControlNet-training via feedback van tussenliggende kenmerken

Samenvatting

Ondanks aanzienlijke vooruitgang in tekst-naar-beeld diffusiemodellen, blijft het bereiken van precieze ruimtelijke controle over gegenereerde uitvoer een uitdaging. ControlNet adresseert dit door een aanvullende conditioneringsmodule te introduceren, terwijl ControlNet++ de uitlijning verder verfijnt door een cyclusconsistentieverlies toe te passen op alleen de laatste denoisestappen. Deze benadering negeert echter de tussenliggende generatiefasen, wat de effectiviteit beperkt. Wij stellen InnerControl voor, een trainingsstrategie die ruimtelijke consistentie afdwingt over alle diffusiestappen. Onze methode traint lichtgewicht convolutionele probes om invoercontrolesignalen (bijv. randen, diepte) te reconstrueren uit tussenliggende UNet-kenmerken bij elke denoisestap. Deze probes extraheren efficiënt signalen, zelfs uit sterk ruisende latente representaties, waardoor pseudo grondwaarheidcontroles voor training mogelijk worden. Door de discrepantie tussen voorspelde en doelcondities gedurende het gehele diffusieproces te minimaliseren, verbetert ons uitlijningsverlies zowel de controlefideliteit als de generatiekwaliteit. In combinatie met gevestigde technieken zoals ControlNet++ bereikt InnerControl state-of-the-art prestaties over diverse conditioneringsmethoden (bijv. randen, diepte).

English

Despite significant progress in text-to-image diffusion models, achieving precise spatial control over generated outputs remains challenging. ControlNet addresses this by introducing an auxiliary conditioning module, while ControlNet++ further refines alignment through a cycle consistency loss applied only to the final denoising steps. However, this approach neglects intermediate generation stages, limiting its effectiveness. We propose InnerControl, a training strategy that enforces spatial consistency across all diffusion steps. Our method trains lightweight convolutional probes to reconstruct input control signals (e.g., edges, depth) from intermediate UNet features at every denoising step. These probes efficiently extract signals even from highly noisy latents, enabling pseudo ground truth controls for training. By minimizing the discrepancy between predicted and target conditions throughout the entire diffusion process, our alignment loss improves both control fidelity and generation quality. Combined with established techniques like ControlNet++, InnerControl achieves state-of-the-art performance across diverse conditioning methods (e.g., edges, depth).

Luisteren naar de innerlijke stem: Afstemming van ControlNet-training via feedback van tussenliggende kenmerken

Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback

Samenvatting

Support