ChatPaper.aiChatPaper

TAG: 幻覚耐性拡散サンプリングのための接線増幅ガイダンス

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

October 6, 2025
著者: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI

要旨

近年の拡散モデルは画像生成において最先端の性能を達成しているが、しばしば意味的な不整合や幻覚を引き起こす問題がある。推論時の様々なガイダンス手法は生成を向上させることができるが、これらは外部信号やアーキテクチャの変更に依存する間接的な方法で動作することが多く、追加の計算コストを伴う。本論文では、基盤となる拡散モデルを変更せず、軌道信号のみに基づいて動作する、より効率的で直接的なガイダンス手法であるTangential Amplifying Guidance (TAG)を提案する。TAGは中間サンプルを投影基底として利用し、この基底に対する推定スコアの接線成分を増幅することでサンプリング軌道を補正する。このガイダンスプロセスを一次テイラー展開を用いて形式化し、接線成分を増幅することが状態を高確率領域に向かわせ、不整合を減少させサンプル品質を向上させることを示す。TAGはプラグアンドプレイでアーキテクチャに依存しないモジュールであり、最小限の計算追加で拡散サンプリングの忠実度を向上させ、拡散ガイダンスに対する新たな視点を提供する。
English
Recent diffusion models achieve the state-of-the-art performance in image generation, but often suffer from semantic inconsistencies or hallucinations. While various inference-time guidance methods can enhance generation, they often operate indirectly by relying on external signals or architectural modifications, which introduces additional computational overhead. In this paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and direct guidance method that operates solely on trajectory signals without modifying the underlying diffusion model. TAG leverages an intermediate sample as a projection basis and amplifies the tangential components of the estimated scores with respect to this basis to correct the sampling trajectory. We formalize this guidance process by leveraging a first-order Taylor expansion, which demonstrates that amplifying the tangential component steers the state toward higher-probability regions, thereby reducing inconsistencies and enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module that improves diffusion sampling fidelity with minimal computational addition, offering a new perspective on diffusion guidance.
PDF475October 13, 2025