TAG: Guida di Amplificazione Tangenziale per il Campionamento di Diffusioni Resistenti alle Allucinazioni
TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
October 6, 2025
Autori: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI
Abstract
I recenti modelli di diffusione raggiungono prestazioni all'avanguardia nella generazione di immagini, ma spesso soffrono di incoerenze semantiche o allucinazioni. Sebbene vari metodi di guida durante l'inferenza possano migliorare la generazione, essi spesso operano indirettamente basandosi su segnali esterni o modifiche architetturali, introducendo un sovraccarico computazionale aggiuntivo. In questo articolo, proponiamo la Tangential Amplifying Guidance (TAG), un metodo di guida più efficiente e diretto che opera esclusivamente sui segnali di traiettoria senza modificare il modello di diffusione sottostante. TAG sfrutta un campione intermedio come base di proiezione e amplifica le componenti tangenziali dei punteggi stimati rispetto a questa base per correggere la traiettoria di campionamento. Formalizziamo questo processo di guida sfruttando un'espansione di Taylor del primo ordine, che dimostra come l'amplificazione della componente tangenziale orienti lo stato verso regioni a più alta probabilità, riducendo così le incoerenze e migliorando la qualità del campione. TAG è un modulo plug-and-play, indipendente dall'architettura, che migliora la fedeltà del campionamento di diffusione con un'aggiunta computazionale minima, offrendo una nuova prospettiva sulla guida della diffusione.
English
Recent diffusion models achieve the state-of-the-art performance in image
generation, but often suffer from semantic inconsistencies or hallucinations.
While various inference-time guidance methods can enhance generation, they
often operate indirectly by relying on external signals or architectural
modifications, which introduces additional computational overhead. In this
paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and
direct guidance method that operates solely on trajectory signals without
modifying the underlying diffusion model. TAG leverages an intermediate sample
as a projection basis and amplifies the tangential components of the estimated
scores with respect to this basis to correct the sampling trajectory. We
formalize this guidance process by leveraging a first-order Taylor expansion,
which demonstrates that amplifying the tangential component steers the state
toward higher-probability regions, thereby reducing inconsistencies and
enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module
that improves diffusion sampling fidelity with minimal computational addition,
offering a new perspective on diffusion guidance.