Escuchando la Voz Interior: Alineando el Entrenamiento de ControlNet mediante Retroalimentación de Características Intermedias
Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
July 3, 2025
Autores: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
cs.AI
Resumen
A pesar de los avances significativos en los modelos de difusión de texto a imagen, lograr un control espacial preciso sobre las salidas generadas sigue siendo un desafío. ControlNet aborda este problema mediante la introducción de un módulo de condicionamiento auxiliar, mientras que ControlNet++ refina aún más la alineación mediante una pérdida de consistencia cíclica aplicada solo a los pasos finales de eliminación de ruido. Sin embargo, este enfoque descuida las etapas intermedias de generación, limitando su efectividad. Proponemos InnerControl, una estrategia de entrenamiento que impone consistencia espacial en todos los pasos de difusión. Nuestro método entrena sondas convolucionales ligeras para reconstruir señales de control de entrada (por ejemplo, bordes, profundidad) a partir de características intermedias de UNet en cada paso de eliminación de ruido. Estas sondas extraen señales de manera eficiente incluso a partir de latentes altamente ruidosos, permitiendo controles pseudo ground truth para el entrenamiento. Al minimizar la discrepancia entre las condiciones predichas y las deseadas a lo largo de todo el proceso de difusión, nuestra pérdida de alineación mejora tanto la fidelidad del control como la calidad de la generación. Combinado con técnicas establecidas como ControlNet++, InnerControl logra un rendimiento de vanguardia en diversos métodos de condicionamiento (por ejemplo, bordes, profundidad).
English
Despite significant progress in text-to-image diffusion models, achieving
precise spatial control over generated outputs remains challenging. ControlNet
addresses this by introducing an auxiliary conditioning module, while
ControlNet++ further refines alignment through a cycle consistency loss applied
only to the final denoising steps. However, this approach neglects intermediate
generation stages, limiting its effectiveness. We propose InnerControl, a
training strategy that enforces spatial consistency across all diffusion steps.
Our method trains lightweight convolutional probes to reconstruct input control
signals (e.g., edges, depth) from intermediate UNet features at every denoising
step. These probes efficiently extract signals even from highly noisy latents,
enabling pseudo ground truth controls for training. By minimizing the
discrepancy between predicted and target conditions throughout the entire
diffusion process, our alignment loss improves both control fidelity and
generation quality. Combined with established techniques like ControlNet++,
InnerControl achieves state-of-the-art performance across diverse conditioning
methods (e.g., edges, depth).