Guía Adaptativa sin Clasificador mediante Enmascaramiento Dinámico de Baja Confianza
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking
May 26, 2025
Autores: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao
cs.AI
Resumen
La Guía Libre de Clasificadores (Classifier-Free Guidance, CFG) mejora significativamente la controlabilidad en modelos generativos al interpolar predicciones condicionales e incondicionales. Sin embargo, la CFG estándar suele emplear una entrada incondicional estática, lo cual puede ser subóptimo para procesos de generación iterativa donde la incertidumbre del modelo varía dinámicamente. Introducimos la Guía Libre de Clasificadores Adaptativa (Adaptive Classifier-Free Guidance, A-CFG), un método novedoso que personaliza la entrada incondicional aprovechando la confianza predictiva instantánea del modelo. En cada paso de un modelo de lenguaje de difusión enmascarado iterativo, A-CFG identifica los tokens en la secuencia generada actualmente para los cuales el modelo muestra baja confianza. Estos tokens se vuelven a enmascarar temporalmente para crear una entrada incondicional dinámica y localizada. Esto enfoca la influencia correctiva de CFG precisamente en áreas de ambigüedad, lo que resulta en una guía más efectiva. Integramos A-CFG en un modelo de lenguaje de difusión enmascarado de última generación y demostramos su eficacia. Los experimentos en diversos benchmarks de generación de lenguaje muestran que A-CFG produce mejoras sustanciales sobre la CFG estándar, logrando, por ejemplo, una ganancia de 3.9 puntos en GPQA. Nuestro trabajo destaca el beneficio de adaptar dinámicamente los mecanismos de guía a la incertidumbre del modelo en la generación iterativa.
English
Classifier-Free Guidance (CFG) significantly enhances controllability in
generative models by interpolating conditional and unconditional predictions.
However, standard CFG often employs a static unconditional input, which can be
suboptimal for iterative generation processes where model uncertainty varies
dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel
method that tailors the unconditional input by leveraging the model's
instantaneous predictive confidence. At each step of an iterative (masked)
diffusion language model, A-CFG identifies tokens in the currently generated
sequence for which the model exhibits low confidence. These tokens are
temporarily re-masked to create a dynamic, localized unconditional input. This
focuses CFG's corrective influence precisely on areas of ambiguity, leading to
more effective guidance. We integrate A-CFG into a state-of-the-art masked
diffusion language model and demonstrate its efficacy. Experiments on diverse
language generation benchmarks show that A-CFG yields substantial improvements
over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work
highlights the benefit of dynamically adapting guidance mechanisms to model
uncertainty in iterative generation.Summary
AI-Generated Summary