ChatPaper.aiChatPaper

VisPlay: Modelli Visione-Linguaggio Auto-Evolventi da Immagini

VisPlay: Self-Evolving Vision-Language Models from Images

November 19, 2025
Autori: Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang
cs.AI

Abstract

L’apprendimento per rinforzo (RL) fornisce un framework principiato per migliorare i Modelli Visione-Linguaggio (VLM) su compiti di ragionamento complesso. Tuttavia, gli approcci RL esistenti spesso fanno affidamento su etichette annotate manualmente o euristiche specifiche per il compito per definire ricompense verificabili, entrambe costose e difficili da scalare. Introduciamo VisPlay, un framework RL auto-evolutivo che consente ai VLM di migliorare autonomamente le proprie capacità di ragionamento utilizzando grandi quantità di dati immagine non etichettati. Partendo da un singolo VLM base, VisPlay assegna al modello due ruoli interagenti: un Interrogatore Condizionato all'Immagine che formula domande visive impegnative ma risolvibili, e un Ragionatore Multimodale che genera risposte "d'argento" (silver). Questi ruoli sono addestrati congiuntamente tramite Group Relative Policy Optimization (GRPO), che incorpora ricompense basate sulla diversità e sulla difficoltà per bilanciare la complessità delle domande generate con la qualità delle risposte d'argento. VisPlay scala efficientemente su due famiglie di modelli. Quando addestrato su Qwen2.5-VL e MiMo-VL, VisPlay raggiunge miglioramenti consistenti nel ragionamento visivo, nella generalizzazione composizionale e nella riduzione delle allucinazioni su otto benchmark, inclusi MM-Vet e MMMU, dimostrando un percorso scalabile verso un'intelligenza multimodale auto-evolutiva. La pagina del progetto è disponibile all'indirizzo https://bruno686.github.io/VisPlay/.
English
Reinforcement learning (RL) provides a principled framework for improving Vision-Language Models (VLMs) on complex reasoning tasks. However, existing RL approaches often rely on human-annotated labels or task-specific heuristics to define verifiable rewards, both of which are costly and difficult to scale. We introduce VisPlay, a self-evolving RL framework that enables VLMs to autonomously improve their reasoning abilities using large amounts of unlabeled image data. Starting from a single base VLM, VisPlay assigns the model into two interacting roles: an Image-Conditioned Questioner that formulates challenging yet answerable visual questions, and a Multimodal Reasoner that generates silver responses. These roles are jointly trained with Group Relative Policy Optimization (GRPO), which incorporates diversity and difficulty rewards to balance the complexity of generated questions with the quality of the silver answers. VisPlay scales efficiently across two model families. When trained on Qwen2.5-VL and MiMo-VL, VisPlay achieves consistent improvements in visual reasoning, compositional generalization, and hallucination reduction across eight benchmarks, including MM-Vet and MMMU, demonstrating a scalable path toward self-evolving multimodal intelligence. The project page is available at https://bruno686.github.io/VisPlay/
PDF413December 2, 2025