Auf dem Weg zu einer robusten hyperdetaillierten Bildbeschreibung: Ein Multiagenten-Ansatz und duale Bewertungsmetriken für Faktentreue und Abdeckung.
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage
December 20, 2024
Autoren: Saehyung Lee, Seunghyun Yoon, Trung Bui, Jing Shi, Sungroh Yoon
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) zeichnen sich durch die Erstellung hochgradig detaillierter Bildunterschriften aus, produzieren jedoch häufig Halluzinationen. Unsere Analyse zeigt, dass bestehende Methoden zur Halluzinationserkennung Schwierigkeiten mit detaillierten Bildunterschriften haben. Dies führen wir darauf zurück, dass MLLMs zunehmend auf ihren generierten Text angewiesen sind, anstatt auf das Eingabebild, wenn die Sequenzlänge zunimmt. Um dieses Problem anzugehen, schlagen wir einen Multiagenten-Ansatz vor, der die Zusammenarbeit von LLM-MLLM nutzt, um gegebene Bildunterschriften zu korrigieren. Darüber hinaus führen wir einen Bewertungsrahmen und einen Benchmark-Datensatz ein, um die systematische Analyse detaillierter Bildunterschriften zu erleichtern. Unsere Experimente zeigen, dass unsere vorgeschlagene Bewertungsmethode besser mit menschlichen Urteilen über Faktizität übereinstimmt als bestehende Metriken und dass bestehende Ansätze zur Verbesserung der Faktizität von MLLM möglicherweise bei hyperdetaillierten Bildunterschriftenaufgaben nicht ausreichen. Im Gegensatz dazu verbessert unsere vorgeschlagene Methode signifikant die faktische Genauigkeit von Bildunterschriften, sogar diejenigen, die von GPT-4V generiert wurden. Schließlich heben wir eine Einschränkung der VQA-zentrierten Benchmarking hervor, indem wir zeigen, dass die Leistung eines MLLM auf VQA-Benchmarks möglicherweise nicht mit seiner Fähigkeit korreliert, detaillierte Bildunterschriften zu generieren.
English
Multimodal large language models (MLLMs) excel at generating highly detailed
captions but often produce hallucinations. Our analysis reveals that existing
hallucination detection methods struggle with detailed captions. We attribute
this to the increasing reliance of MLLMs on their generated text, rather than
the input image, as the sequence length grows. To address this issue, we
propose a multiagent approach that leverages LLM-MLLM collaboration to correct
given captions. Additionally, we introduce an evaluation framework and a
benchmark dataset to facilitate the systematic analysis of detailed captions.
Our experiments demonstrate that our proposed evaluation method better aligns
with human judgments of factuality than existing metrics and that existing
approaches to improve the MLLM factuality may fall short in hyper-detailed
image captioning tasks. In contrast, our proposed method significantly enhances
the factual accuracy of captions, even improving those generated by GPT-4V.
Finally, we highlight a limitation of VQA-centric benchmarking by demonstrating
that an MLLM's performance on VQA benchmarks may not correlate with its ability
to generate detailed image captions.