VisPlay: 이미지에서 자기 진화하는 비전-언어 모델
VisPlay: Self-Evolving Vision-Language Models from Images
November 19, 2025
저자: Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang
cs.AI
초록
강화학습(RL)은 복잡한 추론 과제에서 시각-언어 모델(VLM)의 성능을 향상시키기 위한 원칙적인 프레임워크를 제공합니다. 그러나 기존 RL 접근법은 검증 가능한 보상을 정의하기 위해 인간이 주석을 단 레이블이나 과제별 휴리스틱에 의존하는 경우가 많으며, 이는 모두 비용이 많이 들고 확장하기 어렵습니다. 본 연구에서는 방대한 양의 레이블 없는 이미지 데이터를 활용하여 VLM이 자율적으로 추론 능력을 향상시킬 수 있는 자가 진화 RL 프레임워크인 VisPlay를 소개합니다. 단일 기본 VLM에서 시작하여 VisPlay는 모델을 상호 작용하는 두 가지 역할로 할당합니다: 도전적이면서도 답변이 가능한 시각적 질문을 구성하는 이미지 조건 질문자(Image-Conditioned Questioner)와 은색 응답(silver response)을 생성하는 다중모드 추론자(Multimodal Reasoner)입니다. 이러한 역할은 생성된 질문의 복잡성과 은색 응답의 품질을 균형 있게 조절하기 위해 다양성 및 난이도 보상을 통합한 그룹 상대 정책 최적화(GRPO)를 통해 공동으로 학습됩니다. VisPlay는 두 모델 패밀리에서 효율적으로 확장됩니다. Qwen2.5-VL 및 MiMo-VL로 학습했을 때, VisPlay는 MM-Vet와 MMMU를 포함한 8개 벤치마크에서 시각적 추론, 구성적 일반화, 환각 감소 측면에서 일관된 성능 향상을 달성하여 자가 진화하는 다중모드 인텔리전스로 나아가는 확장 가능한 경로를 입증합니다. 프로젝트 페이지는 https://bruno686.github.io/VisPlay/에서 확인할 수 있습니다.
English
Reinforcement learning (RL) provides a principled framework for improving Vision-Language Models (VLMs) on complex reasoning tasks. However, existing RL approaches often rely on human-annotated labels or task-specific heuristics to define verifiable rewards, both of which are costly and difficult to scale. We introduce VisPlay, a self-evolving RL framework that enables VLMs to autonomously improve their reasoning abilities using large amounts of unlabeled image data. Starting from a single base VLM, VisPlay assigns the model into two interacting roles: an Image-Conditioned Questioner that formulates challenging yet answerable visual questions, and a Multimodal Reasoner that generates silver responses. These roles are jointly trained with Group Relative Policy Optimization (GRPO), which incorporates diversity and difficulty rewards to balance the complexity of generated questions with the quality of the silver answers. VisPlay scales efficiently across two model families. When trained on Qwen2.5-VL and MiMo-VL, VisPlay achieves consistent improvements in visual reasoning, compositional generalization, and hallucination reduction across eight benchmarks, including MM-Vet and MMMU, demonstrating a scalable path toward self-evolving multimodal intelligence. The project page is available at https://bruno686.github.io/VisPlay/