Questionneur Visuel Auto-évolutif

Résumé

Les modèles vision-langage (VLMs) sont généralement entraînés comme des répondeurs passifs, tandis que leur capacité à poser activement des questions diverses, non triviales, centrées sur le visuel et ancrées dans l'image reste sous-explorée. La performance des questionneurs visuels existants est limitée par la disponibilité de données d'entraînement de haute qualité ou par le coût de leur curation. Nous montrons qu'un VLM peut s'améliorer continuellement en tant que questionneur visuel sans aucune supervision externe. Nous proposons un cadre auto-évolutif qui utilise un VLM lui-même à la fois comme proposeur et comme filtre pour produire des questions plus difficiles, plus informatives et centrées sur le visuel, tout en maintenant leur diversité d'exploration afin d'éviter un effondrement de l'entraînement. Ces questions sont ensuite utilisées pour entraîner le VLM à la fois en mode questionneur et en mode répondeur. Pour évaluer le questionneur, nous introduisons un protocole agentique qui évalue les questions selon les dimensions de perception, de raisonnement et de diversité. Des expériences menées sur divers VLMs de base montrent que notre méthode améliore considérablement la qualité et élargit substantiellement la frontière de difficulté de la génération autonome de questions. Sous le même budget, notre auto-supervision est plus efficace qu'un entraînement sur des données sources statiques. De plus, le questionneur auto-évolutif reste un répondeur compétitif, voire meilleur.

English

Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.