Modelos Multimodais de Grande Escala Podem Reconhecer Ativamente Entradas Defeituosas? Um Framework de Avaliação Sistemática de Sua Capacidade de Escrutínio de Entradas
Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability
August 6, 2025
Autores: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu
cs.AI
Resumo
Os Modelos Multimodais de Grande Escala (LMMs) têm testemunhado um crescimento notável, demonstrando capacidades impressionantes no tratamento de tarefas multimodais complexas com desempenho excepcional. Pesquisas recentes destacaram a tendência dos grandes modelos de linguagem de aceitar passivamente entradas defeituosas, frequentemente resultando em raciocínios infrutíferos sobre prompts inválidos. No entanto, a mesma questão crítica de se os LMMs podem detectar e examinar ativamente entradas errôneas ainda permanece inexplorada. Para abordar essa lacuna, introduzimos o Framework de Avaliação da Habilidade de Escrutínio de Entrada (ISEval), que abrange sete categorias de premissas defeituosas e três métricas de avaliação. Nossa extensa avaliação de dez LMMs avançados identificou descobertas importantes. A maioria dos modelos luta para detectar ativamente premissas textuais defeituosas sem orientação, o que reflete uma forte dependência de prompts explícitos para a identificação de erros de premissa. O tipo de erro afeta o desempenho: os modelos se destacam na identificação de falácias lógicas, mas têm dificuldades com erros linguísticos superficiais e certas falhas condicionais. A confiança na modalidade varia - Gemini 2.5 Pro e Claude Sonnet 4 equilibram informações visuais e textuais, enquanto aya-vision-8b depende excessivamente do texto em conflitos. Esses insights destacam a necessidade urgente de aprimorar a verificação proativa da validade das entradas pelos LMMs e oferecem novas perspectivas para mitigar o problema. O código está disponível em https://github.com/MLGroupJLU/LMM_ISEval.
English
Large Multimodal Models (LMMs) have witnessed remarkable growth, showcasing
formidable capabilities in handling intricate multimodal tasks with exceptional
performance. Recent research has underscored the inclination of large language
models to passively accept defective inputs, often resulting in futile
reasoning on invalid prompts. However, the same critical question of whether
LMMs can actively detect and scrutinize erroneous inputs still remains
unexplored. To address this gap, we introduce the Input Scrutiny Ability
Evaluation Framework (ISEval), which encompasses seven categories of flawed
premises and three evaluation metrics. Our extensive evaluation of ten advanced
LMMs has identified key findings. Most models struggle to actively detect
flawed textual premises without guidance, which reflects a strong reliance on
explicit prompts for premise error identification. Error type affects
performance: models excel at identifying logical fallacies but struggle with
surface-level linguistic errors and certain conditional flaws. Modality trust
varies-Gemini 2.5 pro and Claude Sonnet 4 balance visual and textual info,
while aya-vision-8b over-rely on text in conflicts. These insights underscore
the urgent need to enhance LMMs' proactive verification of input validity and
shed novel insights into mitigating the problem. The code is available at
https://github.com/MLGroupJLU/LMM_ISEval.