TAG : Guidage d'Amplification Tangentielle pour un Échantillonnage de Diffusion Résistant aux Hallucinations
TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
October 6, 2025
papers.authors: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI
papers.abstract
Les modèles de diffusion récents atteignent des performances de pointe en génération d'images, mais souffrent souvent d'incohérences sémantiques ou d'hallucinations. Bien que diverses méthodes de guidage au moment de l'inférence puissent améliorer la génération, elles opèrent souvent indirectement en s'appuyant sur des signaux externes ou des modifications architecturales, ce qui introduit une surcharge computationnelle supplémentaire. Dans cet article, nous proposons le Tangential Amplifying Guidance (TAG), une méthode de guidage plus efficace et directe qui opère uniquement sur les signaux de trajectoire sans modifier le modèle de diffusion sous-jacent. TAG exploite un échantillon intermédiaire comme base de projection et amplifie les composantes tangentielles des scores estimés par rapport à cette base pour corriger la trajectoire d'échantillonnage. Nous formalisons ce processus de guidage en utilisant un développement de Taylor au premier ordre, ce qui démontre que l'amplification de la composante tangentielle oriente l'état vers des régions de plus haute probabilité, réduisant ainsi les incohérences et améliorant la qualité des échantillons. TAG est un module plug-and-play, indépendant de l'architecture, qui améliore la fidélité de l'échantillonnage par diffusion avec un ajout computationnel minimal, offrant une nouvelle perspective sur le guidage des modèles de diffusion.
English
Recent diffusion models achieve the state-of-the-art performance in image
generation, but often suffer from semantic inconsistencies or hallucinations.
While various inference-time guidance methods can enhance generation, they
often operate indirectly by relying on external signals or architectural
modifications, which introduces additional computational overhead. In this
paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and
direct guidance method that operates solely on trajectory signals without
modifying the underlying diffusion model. TAG leverages an intermediate sample
as a projection basis and amplifies the tangential components of the estimated
scores with respect to this basis to correct the sampling trajectory. We
formalize this guidance process by leveraging a first-order Taylor expansion,
which demonstrates that amplifying the tangential component steers the state
toward higher-probability regions, thereby reducing inconsistencies and
enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module
that improves diffusion sampling fidelity with minimal computational addition,
offering a new perspective on diffusion guidance.