Où les MLLM portent leur attention et sur quoi ils s'appuient : explication de la génération de tokens autorégressive
Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
September 26, 2025
papers.authors: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables à aligner les entrées visuelles avec les sorties en langage naturel. Cependant, la mesure dans laquelle les tokens générés dépendent des modalités visuelles reste mal comprise, limitant l'interprétabilité et la fiabilité. Dans ce travail, nous présentons EAGLE, un cadre léger de type boîte noire pour expliquer la génération autoregressive de tokens dans les MLLMs. EAGLE attribue tout token sélectionné à des régions perceptuelles compactes tout en quantifiant l'influence relative des a priori linguistiques et des preuves perceptuelles. Le cadre introduit une fonction objective qui unifie la suffisance (score d'intuition) et l'indispensabilité (score de nécessité), optimisée via une recherche gloutonne sur des régions d'image éparses pour une attribution fidèle et efficace. Au-delà de l'attribution spatiale, EAGLE effectue une analyse sensible aux modalités qui démêle ce sur quoi les tokens s'appuient, fournissant une interprétabilité fine des décisions du modèle. Des expériences approfondies sur des MLLMs open-source montrent qu'EAGLE surpasse systématiquement les méthodes existantes en termes de fidélité, de localisation et de diagnostic d'hallucination, tout en nécessitant nettement moins de mémoire GPU. Ces résultats mettent en évidence son efficacité et sa praticité pour faire progresser l'interprétabilité des MLLMs. Le code est disponible à l'adresse https://github.com/RuoyuChen10/EAGLE.
English
Multimodal large language models (MLLMs) have demonstrated remarkable
capabilities in aligning visual inputs with natural language outputs. Yet, the
extent to which generated tokens depend on visual modalities remains poorly
understood, limiting interpretability and reliability. In this work, we present
EAGLE, a lightweight black-box framework for explaining autoregressive token
generation in MLLMs. EAGLE attributes any selected tokens to compact perceptual
regions while quantifying the relative influence of language priors and
perceptual evidence. The framework introduces an objective function that
unifies sufficiency (insight score) and indispensability (necessity score),
optimized via greedy search over sparsified image regions for faithful and
efficient attribution. Beyond spatial attribution, EAGLE performs
modality-aware analysis that disentangles what tokens rely on, providing
fine-grained interpretability of model decisions. Extensive experiments across
open-source MLLMs show that EAGLE consistently outperforms existing methods in
faithfulness, localization, and hallucination diagnosis, while requiring
substantially less GPU memory. These results highlight its effectiveness and
practicality for advancing the interpretability of MLLMs. The code is available
at https://github.com/RuoyuChen10/EAGLE.