ChatPaper.aiChatPaper

Où les MLLM portent leur attention et sur quoi ils s'appuient : explication de la génération de tokens autorégressive

Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

September 26, 2025
papers.authors: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables à aligner les entrées visuelles avec les sorties en langage naturel. Cependant, la mesure dans laquelle les tokens générés dépendent des modalités visuelles reste mal comprise, limitant l'interprétabilité et la fiabilité. Dans ce travail, nous présentons EAGLE, un cadre léger de type boîte noire pour expliquer la génération autoregressive de tokens dans les MLLMs. EAGLE attribue tout token sélectionné à des régions perceptuelles compactes tout en quantifiant l'influence relative des a priori linguistiques et des preuves perceptuelles. Le cadre introduit une fonction objective qui unifie la suffisance (score d'intuition) et l'indispensabilité (score de nécessité), optimisée via une recherche gloutonne sur des régions d'image éparses pour une attribution fidèle et efficace. Au-delà de l'attribution spatiale, EAGLE effectue une analyse sensible aux modalités qui démêle ce sur quoi les tokens s'appuient, fournissant une interprétabilité fine des décisions du modèle. Des expériences approfondies sur des MLLMs open-source montrent qu'EAGLE surpasse systématiquement les méthodes existantes en termes de fidélité, de localisation et de diagnostic d'hallucination, tout en nécessitant nettement moins de mémoire GPU. Ces résultats mettent en évidence son efficacité et sa praticité pour faire progresser l'interprétabilité des MLLMs. Le code est disponible à l'adresse https://github.com/RuoyuChen10/EAGLE.
English
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in aligning visual inputs with natural language outputs. Yet, the extent to which generated tokens depend on visual modalities remains poorly understood, limiting interpretability and reliability. In this work, we present EAGLE, a lightweight black-box framework for explaining autoregressive token generation in MLLMs. EAGLE attributes any selected tokens to compact perceptual regions while quantifying the relative influence of language priors and perceptual evidence. The framework introduces an objective function that unifies sufficiency (insight score) and indispensability (necessity score), optimized via greedy search over sparsified image regions for faithful and efficient attribution. Beyond spatial attribution, EAGLE performs modality-aware analysis that disentangles what tokens rely on, providing fine-grained interpretability of model decisions. Extensive experiments across open-source MLLMs show that EAGLE consistently outperforms existing methods in faithfulness, localization, and hallucination diagnosis, while requiring substantially less GPU memory. These results highlight its effectiveness and practicality for advancing the interpretability of MLLMs. The code is available at https://github.com/RuoyuChen10/EAGLE.
PDF22September 29, 2025