Guidance Adaptative sans Classifieur via Masquage Dynamique des Faibles Confiances
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking
May 26, 2025
Auteurs: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao
cs.AI
Résumé
Le Classifier-Free Guidance (CFG) améliore significativement la contrôlabilité des modèles génératifs en interpolant des prédictions conditionnelles et non conditionnelles. Cependant, le CFG standard utilise souvent une entrée non conditionnelle statique, ce qui peut être sous-optimal pour les processus de génération itératifs où l'incertitude du modèle varie dynamiquement. Nous introduisons l'Adaptive Classifier-Free Guidance (A-CFG), une méthode novatrice qui adapte l'entrée non conditionnelle en exploitant la confiance prédictive instantanée du modèle. À chaque étape d'un modèle de langage à diffusion masquée itératif, l'A-CFG identifie les tokens dans la séquence générée actuelle pour lesquels le modèle montre une faible confiance. Ces tokens sont temporairement re-masqués pour créer une entrée non conditionnelle dynamique et localisée. Cela concentre l'influence corrective du CFG précisément sur les zones d'ambiguïté, conduisant à un guidage plus efficace. Nous intégrons l'A-CFG dans un modèle de langage à diffusion masquée de pointe et démontrons son efficacité. Les expériences sur divers benchmarks de génération de langage montrent que l'A-CFG apporte des améliorations substantielles par rapport au CFG standard, atteignant par exemple un gain de 3,9 points sur GPQA. Notre travail met en évidence l'avantage d'adapter dynamiquement les mécanismes de guidage à l'incertitude du modèle dans la génération itérative.
English
Classifier-Free Guidance (CFG) significantly enhances controllability in
generative models by interpolating conditional and unconditional predictions.
However, standard CFG often employs a static unconditional input, which can be
suboptimal for iterative generation processes where model uncertainty varies
dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel
method that tailors the unconditional input by leveraging the model's
instantaneous predictive confidence. At each step of an iterative (masked)
diffusion language model, A-CFG identifies tokens in the currently generated
sequence for which the model exhibits low confidence. These tokens are
temporarily re-masked to create a dynamic, localized unconditional input. This
focuses CFG's corrective influence precisely on areas of ambiguity, leading to
more effective guidance. We integrate A-CFG into a state-of-the-art masked
diffusion language model and demonstrate its efficacy. Experiments on diverse
language generation benchmarks show that A-CFG yields substantial improvements
over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work
highlights the benefit of dynamically adapting guidance mechanisms to model
uncertainty in iterative generation.Summary
AI-Generated Summary