ChatPaper.aiChatPaper

На что обращают внимание MLLM и на что они полагаются: объяснение авторегрессивной генерации токенов

Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

September 26, 2025
Авторы: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в согласовании визуальных входных данных с естественно-языковыми выходами. Однако степень, в которой генерируемые токены зависят от визуальных модальностей, остается плохо изученной, что ограничивает интерпретируемость и надежность. В данной работе мы представляем EAGLE — легковесный черно-ящичный фреймворк для объяснения авторегрессивной генерации токенов в MLLMs. EAGLE связывает выбранные токены с компактными перцептивными областями, одновременно количественно оценивая относительное влияние языковых априорных данных и перцептивных свидетельств. Фреймворк вводит целевую функцию, объединяющую достаточность (оценка инсайта) и незаменимость (оценка необходимости), которая оптимизируется с помощью жадного поиска по разреженным областям изображения для точного и эффективного атрибутирования. Помимо пространственного атрибутирования, EAGLE выполняет модально-ориентированный анализ, который разграничивает, на что опираются токены, обеспечивая детальную интерпретируемость решений модели. Многочисленные эксперименты с открытыми MLLMs показывают, что EAGLE стабильно превосходит существующие методы по точности, локализации и диагностике галлюцинаций, при этом требуя значительно меньше памяти GPU. Эти результаты подчеркивают его эффективность и практичность для повышения интерпретируемости MLLMs. Код доступен по адресу https://github.com/RuoyuChen10/EAGLE.
English
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in aligning visual inputs with natural language outputs. Yet, the extent to which generated tokens depend on visual modalities remains poorly understood, limiting interpretability and reliability. In this work, we present EAGLE, a lightweight black-box framework for explaining autoregressive token generation in MLLMs. EAGLE attributes any selected tokens to compact perceptual regions while quantifying the relative influence of language priors and perceptual evidence. The framework introduces an objective function that unifies sufficiency (insight score) and indispensability (necessity score), optimized via greedy search over sparsified image regions for faithful and efficient attribution. Beyond spatial attribution, EAGLE performs modality-aware analysis that disentangles what tokens rely on, providing fine-grained interpretability of model decisions. Extensive experiments across open-source MLLMs show that EAGLE consistently outperforms existing methods in faithfulness, localization, and hallucination diagnosis, while requiring substantially less GPU memory. These results highlight its effectiveness and practicality for advancing the interpretability of MLLMs. The code is available at https://github.com/RuoyuChen10/EAGLE.
PDF22September 29, 2025