ChatPaper.aiChatPaper

¿Más pensamiento, menos visión? Evaluando la alucinación amplificada en modelos de razonamiento multimodal

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23, 2025
Autores: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI

Resumen

El cómputo en tiempo de prueba ha potenciado a los modelos de lenguaje multimodal de gran escala para generar cadenas de razonamiento extendidas, logrando un rendimiento sólido en tareas como el razonamiento matemático multimodal. Sin embargo, esta mejora en la capacidad de razonamiento a menudo viene acompañada de un aumento en las alucinaciones: a medida que las generaciones se vuelven más largas, los modelos tienden a alejarse del contenido basado en imágenes y a depender más de los conocimientos previos del lenguaje. El análisis de atención muestra que las cadenas de razonamiento más largas reducen el enfoque en las entradas visuales, lo que contribuye a las alucinaciones. Para estudiar sistemáticamente este fenómeno, introducimos RH-AUC, una métrica que cuantifica cómo cambia la precisión perceptiva de un modelo con la longitud del razonamiento, permitiéndonos evaluar si el modelo preserva el anclaje visual durante el razonamiento. También lanzamos RH-Bench, un banco de pruebas diagnóstico que abarca una variedad de tareas multimodales, diseñado para evaluar el equilibrio entre la capacidad de razonamiento y las alucinaciones. Nuestro análisis revela que (i) los modelos más grandes suelen lograr un mejor equilibrio entre razonamiento y percepción, y (ii) este equilibrio está más influenciado por los tipos y dominios de los datos de entrenamiento que por su volumen total. Estos hallazgos subrayan la importancia de los marcos de evaluación que consideran conjuntamente tanto la calidad del razonamiento como la fidelidad perceptiva.
English
Test-time compute has empowered multimodal large language models to generate extended reasoning chains, yielding strong performance on tasks such as multimodal math reasoning. However, this improved reasoning ability often comes with increased hallucination: as generations become longer, models tend to drift away from image-grounded content and rely more heavily on language priors. Attention analysis shows that longer reasoning chains lead to reduced focus on visual inputs, which contributes to hallucination. To systematically study this phenomenon, we introduce RH-AUC, a metric that quantifies how a model's perception accuracy changes with reasoning length, allowing us to evaluate whether the model preserves visual grounding during reasoning. We also release RH-Bench, a diagnostic benchmark that spans a variety of multimodal tasks, designed to assess the trade-off between reasoning ability and hallucination. Our analysis reveals that (i) larger models typically achieve a better balance between reasoning and perception, and (ii) this balance is influenced more by the types and domains of training data than by its overall volume. These findings underscore the importance of evaluation frameworks that jointly consider both reasoning quality and perceptual fidelity.
PDF142June 2, 2025