MetaphorStar: 종단간 시각 강화 학습을 통한 이미지 메타포 이해 및 추론
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
February 11, 2026
저자: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI
초록
이미지의 은유적 이해는 현대 AI 시스템이 여전히 직면한 중요한 과제입니다. 멀티모달 대규모 언어 모델(MLLM)은 기본적인 시각 질의응답(VQA)에서는 뛰어난 성능을 보이지만, 시각적 콘텐츠에 내재된 미묘한 문화적, 정서적, 맥락적 함의를 파악하는 데는 지속적으로 어려움을 겪습니다. 이러한 어려움은 해당 작업이 요구하는 정교한 다중 추론, 문화적 맥락, 마음이론(ToM) 능력이 현재 모델에 부족하기 때문입니다. 이 격차를 해소하기 위해 우리는 이미지 함의 작업을 위한 최초의 종단간 시각 강화 학습(RL) 프레임워크인 MetaphorStar를 제안합니다. 우리의 프레임워크는 세 가지 핵심 구성 요소인 세분화된 데이터셋 TFQ-Data, 시각 RL 방법론 TFQ-GRPO, 그리고 체계적으로 구성된 벤치마크 TFQ-Bench를 포함합니다.
TFQ-Data에 TFQ-GRPO를 적용하여 학습된 우리의 완전 오픈소스 MetaphorStar 패밀리는 이미지 함의 벤치마크에서 평균 82.6%의 성능 향상을 달성했습니다. 20개 이상의 주류 MLLM과 비교했을 때, MetaphorStar-32B는 객관식 질문과 자유형 질문에서 최첨단(SOTA) 성능을 달성했으며, 참/거짓 질문에서는 최고의 클로즈드소스 모델인 Gemini-3.0-pro를 크게 앞섰습니다. 무엇보다 중요한 것은, 우리의 실험을 통해 이미지 함의 작업을 학습함으로써 모델의 일반적인 이해 능력, 특히 복잡한 시각 추론 능력이 향상된다는 사실을 확인했습니다. 우리는 또한 모델 파라미터 규모 확장, 학습 데이터 규모 확장, 그리고 다양한 모델 아키텍처와 학습 전략의 영향을 체계적으로 분석하여 우리 방법론의 광범위한 적용 가능성을 입증했습니다. 우리는 모든 모델 가중치, 데이터셋, 방법론 코드를 https://metaphorstar.github.io에서 오픈소스로 공개했습니다.
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench.
Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.