Cuestionador Visual Autoevolutivo

Resumen

Los modelos de visión-lenguaje (VLMs) suelen entrenarse como respondedores pasivos, mientras que su capacidad para formular activamente preguntas diversas, no triviales, centradas en lo visual y fundamentadas permanece poco explorada. El rendimiento de los preguntadores visuales existentes se ve limitado por la disponibilidad de datos de entrenamiento de alta calidad o por el coste de su curación. Demostramos que un VLM puede mejorarse a sí mismo de forma continua como preguntador visual sin necesidad de supervisión externa. Proponemos un marco autoevolutivo que utiliza al propio VLM tanto como proponente como filtro para generar preguntas más difíciles, más informativas y centradas en lo visual, manteniendo al mismo tiempo su diversidad de exploración para evitar el colapso del entrenamiento. Estas preguntas se emplean luego para entrenar al VLM tanto en modo preguntador como respondedor. Para evaluar al preguntador, introducimos un protocolo agéntico que evalúa las preguntas en las dimensiones de percepción, razonamiento y diversidad. Los experimentos con diversos VLMs base muestran que nuestro método mejora sustancialmente la calidad y expande de manera significativa el límite de dificultad en la generación autónoma de preguntas. Bajo el mismo presupuesto, nuestra autosupervisión resulta más efectiva que el entrenamiento con datos fuente estáticos. Además, el preguntador autoevolutivo sigue siendo un respondedor competitivo o incluso mejor.

English

Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.