FINER : Les MLLM produisent des hallucinations face à des requêtes négatives à grain fin
FINER: MLLMs Hallucinate under Fine-grained Negative Queries
March 18, 2026
Auteurs: Rui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz
cs.AI
Résumé
Les modèles de langage multimodaux (MLLM) peinent avec les hallucinations, particulièrement pour les requêtes fines, un défi sous-représenté par les benchmarks existants qui se concentrent sur des questions grossières liées à l'image. Nous présentons FIne-grained NEgative queRies (FINER), accompagné de deux benchmarks : FINER-CompreCap et FINER-DOCCI. En utilisant FINER, nous analysons les hallucinations dans quatre contextes : les questions multi-objets, multi-attributs, multi-relations et les questions « quoi ». Nos benchmarks révèlent que les MLLM hallucinent lorsque des incohérences fines coexistent avec des éléments authentiquement présents dans l'image. Pour y remédier, nous proposons FINER-Tuning, exploitant l'Optimisation de Préférence Directe (DPO) sur des données inspirées de FINER. Le fine-tuning de quatre MLLM de pointe avec FINER-Tuning permet des gains allant jusqu'à 24,2 % (InternVL3.5-14B) sur les hallucinations de nos benchmarks, tout en améliorant simultanément les performances sur huit suites d'hallucinations existantes et en renforçant les capacités multimodales générales sur six benchmarks. Le code, les benchmarks et les modèles sont disponibles à l'adresse https://explainableml.github.io/finer-project/.
English
Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at https://explainableml.github.io/finer-project/{https://explainableml.github.io/finer-project/}.