FINER: MLLMs Alucinam sob Consultas Negativas de Granulação Fina

Resumo

Os modelos de linguagem multimodal de grande escala (MLLMs) enfrentam dificuldades com alucinações, particularmente em consultas de granularidade fina, um desafio sub-representado pelos benchmarks existentes, que se concentram em perguntas grosseiras relacionadas à imagem. Apresentamos as Consultas Negativas de Granularidade Fina (FINER), juntamente com dois benchmarks: FINER-CompreCap e FINER-DOCCI. Utilizando o FINER, analisamos as alucinações em quatro configurações: multi-objeto, multi-atributo, multi-relação e perguntas de "o quê". Nossos benchmarks revelam que os MLLMs alucinam quando discrepâncias de granularidade fina ocorrem simultaneamente com elementos genuinamente presentes na imagem. Para abordar este problema, propomos o FINER-Tuning, que utiliza a Otimização de Preferência Direta (DPO) em dados inspirados pelo FINER. O ajuste fino de quatro MLLMs de ponta com o FINER-Tuning resulta em ganhos de até 24,2% (InternVL3.5-14B) na redução de alucinações em nossos benchmarks, ao mesmo tempo que melhora o desempenho em oito conjuntos de testes de alucinação existentes e aprimora as capacidades multimodais gerais em seis benchmarks. Código, benchmark e modelos estão disponíveis em https://explainableml.github.io/finer-project/.

English

Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at https://explainableml.github.io/finer-project/{https://explainableml.github.io/finer-project/}.

FINER: MLLMs Alucinam sob Consultas Negativas de Granulação Fina

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Resumo

Support