FINER: Многоязыковые большие языковые модели галлюцинируют при обработке детализированных негативных запросов

Аннотация

Мультимодальные большие языковые модели (MБЯМ) страдают от галлюцинаций, особенно при работе с детализированными запросами, — проблема, недостаточно отраженная в существующих бенчмарках, которые фокусируются на общих вопросах, связанных с изображениями. Мы представляем метод FINER (FIne-grained NEgative queRies) вместе с двумя бенчмарками: FINER-CompreCap и FINER-DOCCI. Используя FINER, мы анализируем галлюцинации в четырех сценариях: множественные объекты, множественные атрибуты, множественные отношения и вопросы «что». Наши бенчмарки показывают, что МБЯМ галлюцинируют, когда тонкие несоответствия сочетаются с реально присутствующими элементами на изображении. Для решения этой проблемы мы предлагаем FINER-Tuning, использующий оптимизацию прямых предпочтений (DPO) на данных, вдохновленных FINER. Дообучение четырех передовых МБЯМ с помощью FINER-Tuning позволяет достичь улучшения до 24,2% (InternVL3.5-14B) в снижении галлюцинаций согласно нашим бенчмаркам, одновременно повышая производительность на восьми существующих наборах данных по галлюцинациям и улучшая общие мультимодальные способности по шести бенчмаркам. Код, бенчмарки и модели доступны по адресу: https://explainableml.github.io/finer-project/.

English

Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at https://explainableml.github.io/finer-project/{https://explainableml.github.io/finer-project/}.

FINER: Многоязыковые большие языковые модели галлюцинируют при обработке детализированных негативных запросов

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Аннотация

Support