ChatPaper.aiChatPaper

Atendendo à Voz Interior: Alinhando o Treinamento do ControlNet por meio de Feedback de Características Intermediárias

Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback

July 3, 2025
Autores: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI

Resumo

Apesar dos avanços significativos nos modelos de difusão de texto para imagem, alcançar controle espacial preciso sobre as saídas geradas continua sendo um desafio. O ControlNet aborda isso ao introduzir um módulo de condicionamento auxiliar, enquanto o ControlNet++ aprimora ainda mais o alinhamento por meio de uma perda de consistência cíclica aplicada apenas às etapas finais de remoção de ruído. No entanto, essa abordagem negligencia os estágios intermediários de geração, limitando sua eficácia. Propomos o InnerControl, uma estratégia de treinamento que impõe consistência espacial em todas as etapas de difusão. Nosso método treina sondas convolucionais leves para reconstruir sinais de controle de entrada (por exemplo, bordas, profundidade) a partir de características intermediárias da UNet em cada etapa de remoção de ruído. Essas sondas extraem sinais de forma eficiente, mesmo de latentes altamente ruidosos, permitindo controles pseudo ground truth para o treinamento. Ao minimizar a discrepância entre as condições previstas e as condições alvo ao longo de todo o processo de difusão, nossa perda de alinhamento melhora tanto a fidelidade do controle quanto a qualidade da geração. Combinado com técnicas estabelecidas como o ControlNet++, o InnerControl alcança desempenho de ponta em diversos métodos de condicionamento (por exemplo, bordas, profundidade).
English
Despite significant progress in text-to-image diffusion models, achieving precise spatial control over generated outputs remains challenging. ControlNet addresses this by introducing an auxiliary conditioning module, while ControlNet++ further refines alignment through a cycle consistency loss applied only to the final denoising steps. However, this approach neglects intermediate generation stages, limiting its effectiveness. We propose InnerControl, a training strategy that enforces spatial consistency across all diffusion steps. Our method trains lightweight convolutional probes to reconstruct input control signals (e.g., edges, depth) from intermediate UNet features at every denoising step. These probes efficiently extract signals even from highly noisy latents, enabling pseudo ground truth controls for training. By minimizing the discrepancy between predicted and target conditions throughout the entire diffusion process, our alignment loss improves both control fidelity and generation quality. Combined with established techniques like ControlNet++, InnerControl achieves state-of-the-art performance across diverse conditioning methods (e.g., edges, depth).
PDF381July 4, 2025