ChatPaper.aiChatPaper

Oculto a simple vista: Explorando el razonamiento implícito en modelos de lenguaje multimodal

Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models

May 30, 2025
Autores: Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) se están implementando cada vez más en entornos abiertos y del mundo real, donde las entradas son desordenadas, poco especificadas y no siempre confiables. A diferencia de los puntos de referencia cuidadosamente seleccionados, estos entornos frecuentemente involucran instrucciones que se refieren a objetos ausentes o hechos contradictorios, dependen de referencias ambiguas o solicitan acciones inviables. En tales casos, el éxito no depende únicamente de la ejecución de la tarea, sino de la capacidad del modelo para detectar cuándo algo está silenciosamente mal. Este artículo presenta un análisis sistemático de cómo los MLLMs actuales manejan estos escenarios de razonamiento implícito: casos en los que el error no se expresa explícitamente, pero debe inferirse a partir del contexto. Utilizando un conjunto de diagnósticos cuidadosamente seleccionados que abarcan cuatro categorías de modos de fallo del mundo real, evaluamos seis MLLMs, incluyendo o3 y GPT-4o, y encontramos que los modelos frecuentemente no logran identificar problemas ocultos, incluso cuando poseen las habilidades perceptivas y de razonamiento necesarias. El uso de indicaciones explícitas revela que las capacidades subyacentes existen, pero a menudo se suprimen en favor del cumplimiento del usuario. Además, demostramos que intervenciones simples durante la inferencia, como el uso de indicaciones de personalidad cautelosa y, en particular, la exigencia de una pregunta de clarificación, pueden recuperar drásticamente el rendimiento. Nuestros hallazgos destacan una brecha persistente entre la competencia de razonamiento y el cumplimiento conductual en los MLLMs actuales y sugieren estrategias prácticas para hacer que estos modelos sean más confiables en entornos poco restringidos.
English
Multimodal large language models (MLLMs) are increasingly deployed in open-ended, real-world environments where inputs are messy, underspecified, and not always trustworthy. Unlike curated benchmarks, these settings frequently involve instructions that refer to missing objects or contradictory facts, rely on ambiguous references, or request infeasible actions. In such cases, success hinges not on task execution alone, but on a model's ability to detect when something is silently wrong. This paper presents a systematic analysis of how current MLLMs handle such implicit reasoning scenarios: cases where the flaw is not explicitly stated but must be inferred from context. Using a curated diagnostic suite spanning four categories of real-world failure modes, we evaluate six MLLMs, including o3 and GPT-4o, and find that models frequently fail to surface hidden issues, even when they possess the necessary perceptual and reasoning skills. Explicit prompting reveals that the underlying capabilities exist but are often suppressed in favor of user compliance. We further show that simple inference-time interventions, such as cautious persona prompting and, in particular, requiring a clarifying question, can dramatically recover performance. Our findings highlight a persistent gap between reasoning competence and behavioral compliance in current MLLMs and suggest practical strategies for making these models more trustworthy in underconstrained environments.
PDF21June 10, 2025