VisPlay: Modelos Visão-Linguagem de Auto-evolução a partir de Imagens

Resumo

O aprendizado por reforço (RL) fornece uma estrutura fundamentada para melhorar os Modelos de Visão e Linguagem (VLMs) em tarefas de raciocínio complexo. No entanto, as abordagens de RL existentes frequentemente dependem de rótulos anotados manualmente ou heurísticas específicas da tarefa para definir recompensas verificáveis, sendo ambas as opções custosas e de difícil escalabilidade. Apresentamos o VisPlay, uma estrutura de RL de auto-evolução que permite aos VLMs melhorar autonomamente suas capacidades de raciocínio utilizando grandes quantidades de dados de imagem não rotulados. Partindo de um único VLM base, o VisPlay atribui ao modelo dois papéis interativos: um Questionador Condicionado por Imagem, que formula questões visuais desafiadoras porém respondíveis, e um Raciocinador Multimodal, que gera respostas de prata (silver responses). Esses papéis são treinados conjuntamente com a Otimização de Política Relativa de Grupo (GRPO), que incorpora recompensas de diversidade e dificuldade para equilibrar a complexidade das questões geradas com a qualidade das respostas de prata. O VisPlay escala eficientemente em duas famílias de modelos. Quando treinado no Qwen2.5-VL e no MiMo-VL, o VisPlay alcança melhorias consistentes no raciocínio visual, na generalização composicional e na redução de alucinações em oito benchmarks, incluindo MM-Vet e MMMU, demonstrando um caminho escalável para a inteligência multimodal de auto-evolução. A página do projeto está disponível em https://bruno686.github.io/VisPlay/.

English

Reinforcement learning (RL) provides a principled framework for improving Vision-Language Models (VLMs) on complex reasoning tasks. However, existing RL approaches often rely on human-annotated labels or task-specific heuristics to define verifiable rewards, both of which are costly and difficult to scale. We introduce VisPlay, a self-evolving RL framework that enables VLMs to autonomously improve their reasoning abilities using large amounts of unlabeled image data. Starting from a single base VLM, VisPlay assigns the model into two interacting roles: an Image-Conditioned Questioner that formulates challenging yet answerable visual questions, and a Multimodal Reasoner that generates silver responses. These roles are jointly trained with Group Relative Policy Optimization (GRPO), which incorporates diversity and difficulty rewards to balance the complexity of generated questions with the quality of the silver answers. VisPlay scales efficiently across two model families. When trained on Qwen2.5-VL and MiMo-VL, VisPlay achieves consistent improvements in visual reasoning, compositional generalization, and hallucination reduction across eight benchmarks, including MM-Vet and MMMU, demonstrating a scalable path toward self-evolving multimodal intelligence. The project page is available at https://bruno686.github.io/VisPlay/

VisPlay: Modelos Visão-Linguagem de Auto-evolução a partir de Imagens

VisPlay: Self-Evolving Vision-Language Models from Images

Resumo

Support