Questionador Visual Auto-Evolutivo

Resumo

Modelos de visão-linguagem (MVLs) são tipicamente treinados como respondedores passivos, enquanto sua capacidade de formular ativamente perguntas diversas, não triviais, centradas no visual e fundamentadas permanece pouco explorada. O desempenho dos questionadores visuais existentes é limitado pela disponibilidade de dados de treinamento de alta qualidade ou pelo custo de sua curadoria. Demonstramos que um MVL pode melhorar continuamente a si mesmo como questionador visual sem qualquer supervisão externa. Propomos uma estrutura autoevolutiva que utiliza o próprio MVL tanto como proponente quanto como filtro para produzir perguntas mais difíceis, mais informativas e centradas no visual, enquanto mantém a diversidade exploratória para evitar colapso no treinamento. Essas perguntas são então usadas para treinar o MVL tanto no modo questionador quanto no modo respondedor. Para avaliar o questionador, introduzimos um protocolo agentivo que avalia as perguntas nas dimensões de percepção, raciocínio e diversidade. Experimentos em diversos MVLs de base mostram que nosso método melhora substancialmente a qualidade e expande significativamente a fronteira de dificuldade da geração autônoma de perguntas. Sob o mesmo orçamento, nossa autossupervisão é mais eficaz do que o treinamento em dados estáticos de origem. Além disso, o questionador autoevolutivo permanece um respondedor competitivo ou até mesmo superior.

English

Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.