FINER: Los MLLM Alucinan ante Consultas Negativas de Grano Fino
FINER: MLLMs Hallucinate under Fine-grained Negative Queries
March 18, 2026
Autores: Rui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz
cs.AI
Resumen
Los modelos de lenguaje multimodal (MLLM) presentan dificultades con las alucinaciones, especialmente en consultas de grano fino, un desafío subrepresentado en los puntos de referencia existentes que se centran en preguntas generales sobre imágenes. Presentamos FIne-grained NEgative queRies (FINER), junto con dos benchmarks: FINER-CompreCap y FINER-DOCCI. Utilizando FINER, analizamos las alucinaciones en cuatro escenarios: preguntas sobre múltiples objetos, múltiples atributos, múltiples relaciones y preguntas de tipo "qué". Nuestros benchmarks revelan que los MLLM alucinan cuando los desajustes de grano fino coinciden con elementos genuinamente presentes en la imagen. Para abordar esto, proponemos FINER-Tuning, aprovechando la Optimización de Preferencia Directa (DPO) en datos inspirados por FINER. El ajuste fino de cuatro MLLM de vanguardia con FINER-Tuning produce mejoras de hasta el 24.2% (InternVL3.5-14B) en las alucinaciones según nuestros benchmarks, al mismo tiempo que mejora el rendimiento en ocho suites de alucinación existentes y potencia las capacidades multimodales generales en seis benchmarks. El código, los benchmarks y los modelos están disponibles en https://explainableml.github.io/finer-project/.
English
Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at https://explainableml.github.io/finer-project/{https://explainableml.github.io/finer-project/}.