TAG: 환각 저항형 확산 샘플링을 위한 접선 증폭 가이던스
TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
October 6, 2025
저자: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI
초록
최근의 디퓨전 모델들은 이미지 생성 분야에서 최첨단 성능을 달성하고 있지만, 종종 의미론적 불일치나 환각 현상으로 어려움을 겪습니다. 다양한 추론 시점 가이던스 방법들이 생성 품질을 향상시킬 수 있지만, 이들은 외부 신호나 아키텍처 수정에 간접적으로 의존하는 경우가 많아 추가적인 계산 오버헤드를 초래합니다. 본 논문에서는 기저 디퓨전 모델을 수정하지 않고도 궤적 신호만을 활용하여 더 효율적이고 직접적인 가이던스 방법인 접선 증폭 가이던스(Tangential Amplifying Guidance, TAG)를 제안합니다. TAG는 중간 샘플을 투영 기반으로 활용하고, 이 기반에 대한 추정 점수의 접선 성분을 증폭하여 샘플링 궤적을 수정합니다. 우리는 1차 테일러 전개를 활용하여 이 가이던스 과정을 공식화함으로써, 접선 성분을 증폭하는 것이 상태를 더 높은 확률 영역으로 이끌어 불일치를 줄이고 샘플 품질을 향상시킨다는 것을 보여줍니다. TAG는 플러그 앤 플레이 방식으로, 아키텍처에 독립적인 모듈로서 최소한의 계산 추가만으로 디퓨전 샘플링의 정확도를 개선하며, 디퓨전 가이던스에 대한 새로운 관점을 제시합니다.
English
Recent diffusion models achieve the state-of-the-art performance in image
generation, but often suffer from semantic inconsistencies or hallucinations.
While various inference-time guidance methods can enhance generation, they
often operate indirectly by relying on external signals or architectural
modifications, which introduces additional computational overhead. In this
paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and
direct guidance method that operates solely on trajectory signals without
modifying the underlying diffusion model. TAG leverages an intermediate sample
as a projection basis and amplifies the tangential components of the estimated
scores with respect to this basis to correct the sampling trajectory. We
formalize this guidance process by leveraging a first-order Taylor expansion,
which demonstrates that amplifying the tangential component steers the state
toward higher-probability regions, thereby reducing inconsistencies and
enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module
that improves diffusion sampling fidelity with minimal computational addition,
offering a new perspective on diffusion guidance.