TAG: Orientação de Amplificação Tangencial para Amostragem de Difusão Resistente a Alucinações
TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
October 6, 2025
Autores: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI
Resumo
Modelos de difusão recentes alcançam o estado da arte em geração de imagens, mas frequentemente sofrem com inconsistências semânticas ou alucinações. Embora diversos métodos de orientação durante a inferência possam melhorar a geração, eles geralmente operam de forma indireta, dependendo de sinais externos ou modificações arquitetônicas, o que introduz sobrecarga computacional adicional. Neste artigo, propomos a Orientação por Amplificação Tangencial (TAG, do inglês Tangential Amplifying Guidance), um método de orientação mais eficiente e direto que opera exclusivamente em sinais de trajetória sem modificar o modelo de difusão subjacente. O TAG utiliza uma amostra intermediária como base de projeção e amplifica os componentes tangenciais dos escores estimados em relação a essa base para corrigir a trajetória de amostragem. Formalizamos esse processo de orientação utilizando uma expansão de Taylor de primeira ordem, demonstrando que a amplificação do componente tangencial direciona o estado para regiões de maior probabilidade, reduzindo assim inconsistências e melhorando a qualidade das amostras. O TAG é um módulo plug-and-play, independente de arquitetura, que melhora a fidelidade da amostragem por difusão com adição computacional mínima, oferecendo uma nova perspectiva sobre orientação em difusão.
English
Recent diffusion models achieve the state-of-the-art performance in image
generation, but often suffer from semantic inconsistencies or hallucinations.
While various inference-time guidance methods can enhance generation, they
often operate indirectly by relying on external signals or architectural
modifications, which introduces additional computational overhead. In this
paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and
direct guidance method that operates solely on trajectory signals without
modifying the underlying diffusion model. TAG leverages an intermediate sample
as a projection basis and amplifies the tangential components of the estimated
scores with respect to this basis to correct the sampling trajectory. We
formalize this guidance process by leveraging a first-order Taylor expansion,
which demonstrates that amplifying the tangential component steers the state
toward higher-probability regions, thereby reducing inconsistencies and
enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module
that improves diffusion sampling fidelity with minimal computational addition,
offering a new perspective on diffusion guidance.