Adaptieve Classifier-Free Guidance via Dynamische Maskering van Lage Vertrouwen
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking
May 26, 2025
Auteurs: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao
cs.AI
Samenvatting
Classifier-Free Guidance (CFG) verbetert de bestuurbaarheid van generatieve modellen aanzienlijk door conditionele en ongeconditioneerde voorspellingen te interpoleren. Echter, standaard CFG maakt vaak gebruik van een statische ongeconditioneerde invoer, wat suboptimaal kan zijn voor iteratieve generatieprocessen waarbij de onzekerheid van het model dynamisch varieert. Wij introduceren Adaptive Classifier-Free Guidance (A-CFG), een nieuwe methode die de ongeconditioneerde invoer aanpast door gebruik te maken van de directe voorspellingszekerheid van het model. Bij elke stap van een iteratief (gemaskeerd) diffusietaalmodel identificeert A-CFG tokens in de huidig gegenereerde reeks waarvoor het model een lage zekerheid vertoont. Deze tokens worden tijdelijk opnieuw gemaskeerd om een dynamische, gelokaliseerde ongeconditioneerde invoer te creëren. Hierdoor richt de corrigerende invloed van CFG zich precies op gebieden van ambiguïteit, wat leidt tot effectievere begeleiding. We integreren A-CFG in een state-of-the-art gemaskeerd diffusietaalmodel en tonen de effectiviteit ervan aan. Experimenten op diverse taalgeneratiebenchmarks laten zien dat A-CFG aanzienlijke verbeteringen oplevert ten opzichte van standaard CFG, bijvoorbeeld een winst van 3,9 punten op GPQA. Ons werk benadrukt het voordeel van het dynamisch aanpassen van begeleidingsmechanismen aan modelonzekerheid bij iteratieve generatie.
English
Classifier-Free Guidance (CFG) significantly enhances controllability in
generative models by interpolating conditional and unconditional predictions.
However, standard CFG often employs a static unconditional input, which can be
suboptimal for iterative generation processes where model uncertainty varies
dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel
method that tailors the unconditional input by leveraging the model's
instantaneous predictive confidence. At each step of an iterative (masked)
diffusion language model, A-CFG identifies tokens in the currently generated
sequence for which the model exhibits low confidence. These tokens are
temporarily re-masked to create a dynamic, localized unconditional input. This
focuses CFG's corrective influence precisely on areas of ambiguity, leading to
more effective guidance. We integrate A-CFG into a state-of-the-art masked
diffusion language model and demonstrate its efficacy. Experiments on diverse
language generation benchmarks show that A-CFG yields substantial improvements
over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work
highlights the benefit of dynamically adapting guidance mechanisms to model
uncertainty in iterative generation.