Optimización de la Generación en Pocos Pasos mediante Destilación por Adaptación Dinámica

Resumen

La Distillation por Correspondencia de Distribuciones (DMD) es un paradigma de aceleración potente, aunque su estabilidad a menudo se ve comprometida en la Zona Prohibida, regiones donde el profesor real proporciona una guía poco fiable mientras que el profesor falso ejerce una fuerza repulsiva insuficiente. En este trabajo, proponemos un marco de optimización unificado que reinterpreta técnicas anteriores como estrategias implícitas para evitar estas regiones corruptas. Basándonos en esta perspectiva, introducimos la Distillation por Correspondencia Adaptativa (AMD), un mecanismo de autocorrección que utiliza proxies de recompensa para detectar y escapar explícitamente de las Zonas Prohibidas. AMD prioriza dinámicamente los gradientes correctivos mediante una descomposición estructural de señales e introduce un Afilado del Paisaje Repulsivo para imponer barreras de energía pronunciadas contra el colapso en modos de fallo. Experimentos exhaustivos en tareas de generación de imágenes y vídeo (por ejemplo, SDXL, Wan2.1) y benchmarks rigurosos (por ejemplo, VBench, GenEval) demuestran que AMD mejora significativamente la fidelidad de las muestras y la robustez del entrenamiento. Por ejemplo, AMD mejora la puntuación HPSv2 en SDXL de 30.64 a 31.25, superando a los métodos baseline más avanzados. Estos hallazgos validan que rectificar explícitamente las trayectorias de optimización dentro de las Zonas Prohibidas es esencial para elevar el límite de rendimiento de los modelos generativos de pocos pasos.

English

Distribution Matching Distillation (DMD) is a powerful acceleration paradigm, yet its stability is often compromised in Forbidden Zone, regions where the real teacher provides unreliable guidance while the fake teacher exerts insufficient repulsive force. In this work, we propose a unified optimization framework that reinterprets prior art as implicit strategies to avoid these corrupted regions. Based on this insight, we introduce Adaptive Matching Distillation (AMD), a self-correcting mechanism that utilizes reward proxies to explicitly detect and escape Forbidden Zones. AMD dynamically prioritizes corrective gradients via structural signal decomposition and introduces Repulsive Landscape Sharpening to enforce steep energy barriers against failure mode collapse. Extensive experiments across image and video generation tasks (e.g., SDXL, Wan2.1) and rigorous benchmarks (e.g., VBench, GenEval) demonstrate that AMD significantly enhances sample fidelity and training robustness. For instance, AMD improves the HPSv2 score on SDXL from 30.64 to 31.25, outperforming state-of-the-art baselines. These findings validate that explicitly rectifying optimization trajectories within Forbidden Zones is essential for pushing the performance ceiling of few-step generative models.

Optimización de la Generación en Pocos Pasos mediante Destilación por Adaptación Dinámica

Optimizing Few-Step Generation with Adaptive Matching Distillation

Resumen

Support