Otimização da Geração em Poucos Passos com Destilação por Correspondência Adaptativa

Resumo

A Destilação por Correspondência de Distribuição (DMD) é um paradigma de aceleração poderoso, mas sua estabilidade é frequentemente comprometida na Zona Proibida, regiões onde o professor real fornece orientação não confiável enquanto o professor falso exerce uma força repulsiva insuficiente. Neste trabalho, propomos uma estrutura de otimização unificada que reinterpreta trabalhos anteriores como estratégias implícitas para evitar essas regiões corrompidas. Com base nessa percepção, introduzimos a Destilação por Correspondência Adaptativa (AMD), um mecanismo de autocorreção que utiliza *proxies* de recompensa para detectar e escapar explicitamente das Zonas Proibidas. A AMD prioriza dinamicamente gradientes corretivos via decomposição de sinal estrutural e introduz o Aprofundamento do Relevo Repulsivo para impor barreiras de energia íngremes contra o colapso em modos de falha. Experimentos extensos em tarefas de geração de imagem e vídeo (por exemplo, SDXL, Wan2.1) e *benchmarks* rigorosos (por exemplo, VBench, GenEval) demonstram que a AMD melhora significativamente a fidelidade da amostra e a robustez do treinamento. Por exemplo, a AMD melhora a pontuação HPSv2 no SDXL de 30,64 para 31,25, superando os *baselines* state-of-the-art. Esses achados validam que a retificação explícita das trajetórias de otimização dentro das Zonas Proibidas é essencial para elevar o limite de desempenho de modelos generativos de poucos passos.

English

Distribution Matching Distillation (DMD) is a powerful acceleration paradigm, yet its stability is often compromised in Forbidden Zone, regions where the real teacher provides unreliable guidance while the fake teacher exerts insufficient repulsive force. In this work, we propose a unified optimization framework that reinterprets prior art as implicit strategies to avoid these corrupted regions. Based on this insight, we introduce Adaptive Matching Distillation (AMD), a self-correcting mechanism that utilizes reward proxies to explicitly detect and escape Forbidden Zones. AMD dynamically prioritizes corrective gradients via structural signal decomposition and introduces Repulsive Landscape Sharpening to enforce steep energy barriers against failure mode collapse. Extensive experiments across image and video generation tasks (e.g., SDXL, Wan2.1) and rigorous benchmarks (e.g., VBench, GenEval) demonstrate that AMD significantly enhances sample fidelity and training robustness. For instance, AMD improves the HPSv2 score on SDXL from 30.64 to 31.25, outperforming state-of-the-art baselines. These findings validate that explicitly rectifying optimization trajectories within Forbidden Zones is essential for pushing the performance ceiling of few-step generative models.

Otimização da Geração em Poucos Passos com Destilação por Correspondência Adaptativa

Optimizing Few-Step Generation with Adaptive Matching Distillation

Resumo

Support