Adaptive Classifier-Freie Führung durch dynamische Maskierung bei geringem Vertrauen
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking
May 26, 2025
Autoren: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao
cs.AI
Zusammenfassung
Classifier-Free Guidance (CFG) verbessert die Steuerbarkeit in generativen Modellen erheblich, indem es bedingte und unbedingte Vorhersagen interpoliert. Allerdings verwendet die Standard-CFG oft einen statischen unbedingten Eingabewert, der für iterative Generierungsprozesse, bei denen die Modellunsicherheit dynamisch variiert, suboptimal sein kann. Wir stellen Adaptive Classifier-Free Guidance (A-CFG) vor, eine neuartige Methode, die den unbedingten Eingabewert anpasst, indem sie das momentane Vorhersagevertrauen des Modells nutzt. Bei jedem Schritt eines iterativen (maskierten) Diffusionssprachmodells identifiziert A-CFG Tokens in der aktuell generierten Sequenz, für die das Modell ein geringes Vertrauen zeigt. Diese Tokens werden vorübergehend erneut maskiert, um einen dynamischen, lokalisierten unbedingten Eingabewert zu erzeugen. Dadurch konzentriert sich der korrigierende Einfluss der CFG gezielt auf Bereiche mit Unklarheiten, was zu einer effektiveren Steuerung führt. Wir integrieren A-CFG in ein modernes maskiertes Diffusionssprachmodell und demonstrieren dessen Wirksamkeit. Experimente auf verschiedenen Sprachgenerierungs-Benchmarks zeigen, dass A-CFG erhebliche Verbesserungen gegenüber der Standard-CFG erzielt, beispielsweise einen Zuwachs von 3,9 Punkten auf GPQA. Unsere Arbeit unterstreicht den Nutzen der dynamischen Anpassung von Steuerungsmechanismen an die Modellunsicherheit bei der iterativen Generierung.
English
Classifier-Free Guidance (CFG) significantly enhances controllability in
generative models by interpolating conditional and unconditional predictions.
However, standard CFG often employs a static unconditional input, which can be
suboptimal for iterative generation processes where model uncertainty varies
dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel
method that tailors the unconditional input by leveraging the model's
instantaneous predictive confidence. At each step of an iterative (masked)
diffusion language model, A-CFG identifies tokens in the currently generated
sequence for which the model exhibits low confidence. These tokens are
temporarily re-masked to create a dynamic, localized unconditional input. This
focuses CFG's corrective influence precisely on areas of ambiguity, leading to
more effective guidance. We integrate A-CFG into a state-of-the-art masked
diffusion language model and demonstrate its efficacy. Experiments on diverse
language generation benchmarks show that A-CFG yields substantial improvements
over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work
highlights the benefit of dynamically adapting guidance mechanisms to model
uncertainty in iterative generation.Summary
AI-Generated Summary