TAG: Guida di Amplificazione Tangenziale per il Campionamento di Diffusioni Resistenti alle Allucinazioni

Abstract

I recenti modelli di diffusione raggiungono prestazioni all'avanguardia nella generazione di immagini, ma spesso soffrono di incoerenze semantiche o allucinazioni. Sebbene vari metodi di guida durante l'inferenza possano migliorare la generazione, essi spesso operano indirettamente basandosi su segnali esterni o modifiche architetturali, introducendo un sovraccarico computazionale aggiuntivo. In questo articolo, proponiamo la Tangential Amplifying Guidance (TAG), un metodo di guida più efficiente e diretto che opera esclusivamente sui segnali di traiettoria senza modificare il modello di diffusione sottostante. TAG sfrutta un campione intermedio come base di proiezione e amplifica le componenti tangenziali dei punteggi stimati rispetto a questa base per correggere la traiettoria di campionamento. Formalizziamo questo processo di guida sfruttando un'espansione di Taylor del primo ordine, che dimostra come l'amplificazione della componente tangenziale orienti lo stato verso regioni a più alta probabilità, riducendo così le incoerenze e migliorando la qualità del campione. TAG è un modulo plug-and-play, indipendente dall'architettura, che migliora la fedeltà del campionamento di diffusione con un'aggiunta computazionale minima, offrendo una nuova prospettiva sulla guida della diffusione.

English

Recent diffusion models achieve the state-of-the-art performance in image generation, but often suffer from semantic inconsistencies or hallucinations. While various inference-time guidance methods can enhance generation, they often operate indirectly by relying on external signals or architectural modifications, which introduces additional computational overhead. In this paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and direct guidance method that operates solely on trajectory signals without modifying the underlying diffusion model. TAG leverages an intermediate sample as a projection basis and amplifies the tangential components of the estimated scores with respect to this basis to correct the sampling trajectory. We formalize this guidance process by leveraging a first-order Taylor expansion, which demonstrates that amplifying the tangential component steers the state toward higher-probability regions, thereby reducing inconsistencies and enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module that improves diffusion sampling fidelity with minimal computational addition, offering a new perspective on diffusion guidance.

TAG: Guida di Amplificazione Tangenziale per il Campionamento di Diffusioni Resistenti alle Allucinazioni

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Abstract

Support