ChatPaper.aiChatPaper

MetaphorStar: Comprensión y Razonamiento de Metáforas Visuales con Aprendizaje por Refuerzo Visual de Extremo a Extremo

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

February 11, 2026
Autores: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI

Resumen

La comprensión metafórica en imágenes sigue siendo un desafío crítico para los sistemas de IA actuales. Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) sobresalen en la Respuesta a Preguntas Visuales (VQA) básica, consistentemente luchan por captar las implicaciones culturales, emocionales y contextuales matizadas incrustadas en el contenido visual. Esta dificultad surge de la demanda de la tarea por capacidades de razonamiento multicapa sofisticado, contexto cultural y Teoría de la Mente (ToM), de las cuales carecen los modelos actuales. Para llenar este vacío, proponemos MetaphorStar, el primer marco de aprendizaje por refuerzo (RL) visual integral para tareas de implicación en imágenes. Nuestro marco incluye tres componentes centrales: el conjunto de datos de grano fino TFQ-Data, el método de RL visual TFQ-GRPO y el benchmark bien estructurado TFQ-Bench. Nuestra familia MetaphorStar, completamente de código abierto y entrenada usando TFQ-GRPO en TFQ-Data, mejora significativamente el rendimiento en un promedio del 82.6% en los benchmarks de implicación en imágenes. En comparación con más de 20 MLLMs principales, MetaphorStar-32B logra el estado del arte (SOTA) en Preguntas de Opción Múltiple y Preguntas de Estilo Abierto, y supera significativamente al principal modelo de código cerrado Gemini-3.0-pro en Preguntas de Verdadero o Falso. Crucialmente, nuestros experimentos revelan que aprender tareas de implicación en imágenes mejora la capacidad de comprensión general, especialmente la capacidad de razonamiento visual complejo. Además, proporcionamos un análisis sistemático del escalado de parámetros del modelo, el escalado de datos de entrenamiento, y el impacto de diferentes arquitecturas de modelo y estrategias de entrenamiento, demostrando la amplia aplicabilidad de nuestro método. Hemos liberado todos los pesos del modelo, conjuntos de datos y código del método en https://metaphorstar.github.io.
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.
PDF31February 14, 2026