Können große multimodale Modelle fehlerhafte Eingaben aktiv erkennen? Ein systematisches Bewertungsrahmenwerk für ihre Fähigkeit zur Eingabeüberprüfung
Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability
August 6, 2025
papers.authors: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu
cs.AI
papers.abstract
Große Multimodale Modelle (LMMs) haben ein bemerkenswertes Wachstum erfahren und zeigen beeindruckende Fähigkeiten bei der Bewältigung komplexer multimodaler Aufgaben mit außergewöhnlicher Leistung. Jüngste Forschungen haben die Tendenz großer Sprachmodelle hervorgehoben, fehlerhafte Eingaben passiv zu akzeptieren, was oft zu nutzlosen Schlussfolgerungen bei ungültigen Eingabeaufforderungen führt. Die entscheidende Frage, ob LMMs aktiv fehlerhafte Eingaben erkennen und überprüfen können, bleibt jedoch weiterhin unerforscht. Um diese Lücke zu schließen, führen wir das Input Scrutiny Ability Evaluation Framework (ISEval) ein, das sieben Kategorien fehlerhafter Prämissen und drei Bewertungsmetriken umfasst. Unsere umfangreiche Bewertung von zehn fortgeschrittenen LMMs hat wichtige Erkenntnisse erbracht. Die meisten Modelle haben Schwierigkeiten, fehlerhafte textuelle Prämissen ohne Anleitung aktiv zu erkennen, was eine starke Abhängigkeit von expliziten Eingabeaufforderungen zur Identifizierung von Prämissenfehlern widerspiegelt. Der Fehlertyp beeinflusst die Leistung: Modelle sind gut darin, logische Fehlschlüsse zu identifizieren, haben jedoch Schwierigkeiten mit oberflächlichen linguistischen Fehlern und bestimmten konditionalen Fehlern. Die Vertrauenswürdigkeit der Modalität variiert – Gemini 2.5 Pro und Claude Sonnet 4 balancieren visuelle und textuelle Informationen aus, während aya-vision-8b bei Konflikten übermäßig auf Text vertraut. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit, die proaktive Überprüfung der Eingabegültigkeit durch LMMs zu verbessern, und bieten neue Einblicke in die Lösung dieses Problems. Der Code ist verfügbar unter https://github.com/MLGroupJLU/LMM_ISEval.
English
Large Multimodal Models (LMMs) have witnessed remarkable growth, showcasing
formidable capabilities in handling intricate multimodal tasks with exceptional
performance. Recent research has underscored the inclination of large language
models to passively accept defective inputs, often resulting in futile
reasoning on invalid prompts. However, the same critical question of whether
LMMs can actively detect and scrutinize erroneous inputs still remains
unexplored. To address this gap, we introduce the Input Scrutiny Ability
Evaluation Framework (ISEval), which encompasses seven categories of flawed
premises and three evaluation metrics. Our extensive evaluation of ten advanced
LMMs has identified key findings. Most models struggle to actively detect
flawed textual premises without guidance, which reflects a strong reliance on
explicit prompts for premise error identification. Error type affects
performance: models excel at identifying logical fallacies but struggle with
surface-level linguistic errors and certain conditional flaws. Modality trust
varies-Gemini 2.5 pro and Claude Sonnet 4 balance visual and textual info,
while aya-vision-8b over-rely on text in conflicts. These insights underscore
the urgent need to enhance LMMs' proactive verification of input validity and
shed novel insights into mitigating the problem. The code is available at
https://github.com/MLGroupJLU/LMM_ISEval.