Oculto a simple vista: Explorando el razonamiento implícito en modelos de lenguaje multimodal
Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models
May 30, 2025
Autores: Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) se están implementando cada vez más en entornos abiertos y del mundo real, donde las entradas son desordenadas, poco especificadas y no siempre confiables. A diferencia de los puntos de referencia cuidadosamente seleccionados, estos entornos frecuentemente involucran instrucciones que se refieren a objetos ausentes o hechos contradictorios, dependen de referencias ambiguas o solicitan acciones inviables. En tales casos, el éxito no depende únicamente de la ejecución de la tarea, sino de la capacidad del modelo para detectar cuándo algo está silenciosamente mal. Este artículo presenta un análisis sistemático de cómo los MLLMs actuales manejan estos escenarios de razonamiento implícito: casos en los que el error no se expresa explícitamente, pero debe inferirse a partir del contexto. Utilizando un conjunto de diagnósticos cuidadosamente seleccionados que abarcan cuatro categorías de modos de fallo del mundo real, evaluamos seis MLLMs, incluyendo o3 y GPT-4o, y encontramos que los modelos frecuentemente no logran identificar problemas ocultos, incluso cuando poseen las habilidades perceptivas y de razonamiento necesarias. El uso de indicaciones explícitas revela que las capacidades subyacentes existen, pero a menudo se suprimen en favor del cumplimiento del usuario. Además, demostramos que intervenciones simples durante la inferencia, como el uso de indicaciones de personalidad cautelosa y, en particular, la exigencia de una pregunta de clarificación, pueden recuperar drásticamente el rendimiento. Nuestros hallazgos destacan una brecha persistente entre la competencia de razonamiento y el cumplimiento conductual en los MLLMs actuales y sugieren estrategias prácticas para hacer que estos modelos sean más confiables en entornos poco restringidos.
English
Multimodal large language models (MLLMs) are increasingly deployed in
open-ended, real-world environments where inputs are messy, underspecified, and
not always trustworthy. Unlike curated benchmarks, these settings frequently
involve instructions that refer to missing objects or contradictory facts, rely
on ambiguous references, or request infeasible actions. In such cases, success
hinges not on task execution alone, but on a model's ability to detect when
something is silently wrong. This paper presents a systematic analysis of how
current MLLMs handle such implicit reasoning scenarios: cases where the flaw is
not explicitly stated but must be inferred from context. Using a curated
diagnostic suite spanning four categories of real-world failure modes, we
evaluate six MLLMs, including o3 and GPT-4o, and find that models frequently
fail to surface hidden issues, even when they possess the necessary perceptual
and reasoning skills. Explicit prompting reveals that the underlying
capabilities exist but are often suppressed in favor of user compliance. We
further show that simple inference-time interventions, such as cautious persona
prompting and, in particular, requiring a clarifying question, can dramatically
recover performance. Our findings highlight a persistent gap between reasoning
competence and behavioral compliance in current MLLMs and suggest practical
strategies for making these models more trustworthy in underconstrained
environments.