ChatPaper.aiChatPaper

Ascoltare la Voce Interiore: Allineamento dell'Addestramento di ControlNet tramite Feedback sulle Caratteristiche Intermedie

Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback

July 3, 2025
Autori: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI

Abstract

Nonostante i significativi progressi nei modelli di diffusione testo-immagine, ottenere un controllo spaziale preciso sugli output generati rimane una sfida. ControlNet affronta questo problema introducendo un modulo di condizionamento ausiliario, mentre ControlNet++ perfeziona ulteriormente l'allineamento attraverso una perdita di consistenza ciclica applicata solo agli ultimi passi di denoising. Tuttavia, questo approccio trascura le fasi intermedie della generazione, limitandone l'efficacia. Proponiamo InnerControl, una strategia di addestramento che impone la consistenza spaziale in tutti i passi di diffusione. Il nostro metodo addestra sonde convoluzionali leggere per ricostruire i segnali di controllo in input (ad esempio, bordi, profondità) dalle caratteristiche intermedie della UNet in ogni passo di denoising. Queste sonde estraggono efficientemente i segnali anche da latenti altamente rumorosi, consentendo controlli pseudo ground truth per l'addestramento. Minimizzando la discrepanza tra le condizioni previste e quelle target durante l'intero processo di diffusione, la nostra perdita di allineamento migliora sia la fedeltà del controllo che la qualità della generazione. Combinato con tecniche consolidate come ControlNet++, InnerControl raggiunge prestazioni all'avanguardia attraverso diversi metodi di condizionamento (ad esempio, bordi, profondità).
English
Despite significant progress in text-to-image diffusion models, achieving precise spatial control over generated outputs remains challenging. ControlNet addresses this by introducing an auxiliary conditioning module, while ControlNet++ further refines alignment through a cycle consistency loss applied only to the final denoising steps. However, this approach neglects intermediate generation stages, limiting its effectiveness. We propose InnerControl, a training strategy that enforces spatial consistency across all diffusion steps. Our method trains lightweight convolutional probes to reconstruct input control signals (e.g., edges, depth) from intermediate UNet features at every denoising step. These probes efficiently extract signals even from highly noisy latents, enabling pseudo ground truth controls for training. By minimizing the discrepancy between predicted and target conditions throughout the entire diffusion process, our alignment loss improves both control fidelity and generation quality. Combined with established techniques like ControlNet++, InnerControl achieves state-of-the-art performance across diverse conditioning methods (e.g., edges, depth).
PDF371July 4, 2025