ChatPaper.aiChatPaper

Orientação Adaptativa sem Classificador via Mascaramento Dinâmico de Baixa Confiança

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

May 26, 2025
Autores: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao
cs.AI

Resumo

O Classifier-Free Guidance (CFG) melhora significativamente a controlabilidade em modelos generativos ao interpolar previsões condicionais e incondicionais. No entanto, o CFG padrão frequentemente emprega uma entrada incondicional estática, o que pode ser subótimo para processos de geração iterativa onde a incerteza do modelo varia dinamicamente. Introduzimos o Adaptive Classifier-Free Guidance (A-CFG), um método inovador que personaliza a entrada incondicional ao aproveitar a confiança preditiva instantânea do modelo. A cada passo de um modelo de linguagem de difusão mascarada iterativa, o A-CFG identifica tokens na sequência gerada atualmente para os quais o modelo exibe baixa confiança. Esses tokens são temporariamente remascarados para criar uma entrada incondicional dinâmica e localizada. Isso concentra a influência corretiva do CFG precisamente nas áreas de ambiguidade, levando a uma orientação mais eficaz. Integramos o A-CFG em um modelo de linguagem de difusão mascarada de última geração e demonstramos sua eficácia. Experimentos em diversos benchmarks de geração de linguagem mostram que o A-CFG produz melhorias substanciais em relação ao CFG padrão, alcançando, por exemplo, um ganho de 3,9 pontos no GPQA. Nosso trabalho destaca o benefício de adaptar dinamicamente mecanismos de orientação à incerteza do modelo em gerações iterativas.
English
Classifier-Free Guidance (CFG) significantly enhances controllability in generative models by interpolating conditional and unconditional predictions. However, standard CFG often employs a static unconditional input, which can be suboptimal for iterative generation processes where model uncertainty varies dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel method that tailors the unconditional input by leveraging the model's instantaneous predictive confidence. At each step of an iterative (masked) diffusion language model, A-CFG identifies tokens in the currently generated sequence for which the model exhibits low confidence. These tokens are temporarily re-masked to create a dynamic, localized unconditional input. This focuses CFG's corrective influence precisely on areas of ambiguity, leading to more effective guidance. We integrate A-CFG into a state-of-the-art masked diffusion language model and demonstrate its efficacy. Experiments on diverse language generation benchmarks show that A-CFG yields substantial improvements over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work highlights the benefit of dynamically adapting guidance mechanisms to model uncertainty in iterative generation.
PDF12December 11, 2025