ChatPaper.aiChatPaper

TAG: Тангенциальное усиливающее управление для устойчивого к галлюцинациям сэмплирования в диффузионных моделях

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

October 6, 2025
Авторы: Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
cs.AI

Аннотация

Современные диффузионные модели демонстрируют наилучшие результаты в генерации изображений, но часто страдают от семантических несоответствий или галлюцинаций. Хотя различные методы управления на этапе вывода могут улучшить генерацию, они обычно работают косвенно, полагаясь на внешние сигналы или модификации архитектуры, что влечет за собой дополнительные вычислительные затраты. В данной статье мы предлагаем метод Тангенциального Усиливающего Управления (TAG), более эффективный и прямой подход, который работает исключительно с сигналами траектории, не изменяя базовую диффузионную модель. TAG использует промежуточный образец в качестве проекционной основы и усиливает тангенциальные компоненты оцененных градиентов относительно этой основы, чтобы скорректировать траекторию выборки. Мы формализуем этот процесс управления с помощью разложения Тейлора первого порядка, показывая, что усиление тангенциальной компоненты направляет состояние в области с более высокой вероятностью, тем самым уменьшая несоответствия и повышая качество образцов. TAG представляет собой модуль "plug-and-play", не зависящий от архитектуры, который улучшает точность диффузионной выборки с минимальными вычислительными затратами, предлагая новый взгляд на управление диффузией.
English
Recent diffusion models achieve the state-of-the-art performance in image generation, but often suffer from semantic inconsistencies or hallucinations. While various inference-time guidance methods can enhance generation, they often operate indirectly by relying on external signals or architectural modifications, which introduces additional computational overhead. In this paper, we propose Tangential Amplifying Guidance (TAG), a more efficient and direct guidance method that operates solely on trajectory signals without modifying the underlying diffusion model. TAG leverages an intermediate sample as a projection basis and amplifies the tangential components of the estimated scores with respect to this basis to correct the sampling trajectory. We formalize this guidance process by leveraging a first-order Taylor expansion, which demonstrates that amplifying the tangential component steers the state toward higher-probability regions, thereby reducing inconsistencies and enhancing sample quality. TAG is a plug-and-play, architecture-agnostic module that improves diffusion sampling fidelity with minimal computational addition, offering a new perspective on diffusion guidance.
PDF475October 13, 2025