МетафораЗвезда: Понимание и рассуждение о визуальных метафорах с помощью сквозного визуального обучения с подкреплением
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
February 11, 2026
Авторы: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI
Аннотация
Понимание метафор в изображениях остается серьезной проблемой для современных систем искусственного интеллекта. Хотя мультимодальные большие языковые модели (MLLM) преуспевают в решении базовых задач визуального вопросно-ответного взаимодействия (VQA), они стабильно испытывают трудности с распознаванием тонких культурных, эмоциональных и контекстуальных импликаций, заложенных в визуальном контенте. Эта сложность проистекает из требований задачи к сложному многошаговому рассуждению, учету культурного контекста и способностям к моделированию психического состояния (Theory of Mind, ToM), которыми современные модели не обладают. Чтобы заполнить этот пробел, мы предлагаем MetaphorStar — первую сквозную фреймворку визуального обучения с подкреплением (RL) для задач выявления импликаций в изображениях. Наша система включает три ключевых компонента: детализированный набор данных TFQ-Data, метод визуального RL TFQ-GRPO и структурированный бенчмарк TFQ-Bench.
Наше полностью открытое семейство моделей MetaphorStar, обученное с использованием TFQ-GRPO на TFQ-Data, демонстрирует значительное улучшение производительности — в среднем на 82.6% — в тестах на выявление импликаций в изображениях. По сравнению с более чем 20 ведущими MLLM, модель MetaphorStar-32B достигает state-of-the-art (SOTA) результатов в заданиях с множественным выбором и открытыми вопросами, а также значительно превосходит ведущую закрытую модель Gemini-3.0-pro в заданиях на верность/неверность утверждений. Ключевым открытием является то, что наши эксперименты показывают, что обучение задачам выявления импликаций улучшает общие способности к пониманию, в особенности сложные способности к визуальному рассуждению. Мы также проводим системный анализ масштабирования параметров модели, объема обучающих данных, а также влияния различных архитектур моделей и стратегий обучения, демонстрируя широкую применимость нашего метода. Все веса моделей, наборы данных и код методов доступны по адресу https://metaphorstar.github.io.
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench.
Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.