Самоэволюционирующий визуальный вопрошатель

Аннотация

Модели видения-языка (VLM) обычно обучаются как пассивные отвечающие, в то время как их способность активно задавать разнообразные, нетривиальные, визуально-ориентированные и обоснованные вопросы остаётся малоизученной. Производительность существующих визуальных вопрошателей ограничена доступностью обучающих данных высокого качества или затратами на их курирование. Мы показываем, что VLM может непрерывно самосовершенствоваться в качестве визуального вопрошателя без какого-либо внешнего контроля. Мы предлагаем саморазвивающуюся схему, которая использует саму VLM и в качестве создателя, и в качестве фильтра для генерации более сложных, информативных и визуально-ориентированных вопросов, при этом поддерживая разнообразие их исследования, чтобы избежать коллапса обучения. Затем эти вопросы используются для обучения VLM как в режиме вопрошателя, так и в режиме отвечающего. Для оценки вопрошателя мы вводим агентный протокол, который оценивает вопросы по параметрам восприятия, рассуждения и разнообразия. Эксперименты на различных базовых VLM показывают, что наш метод значительно повышает качество и существенно расширяет границы сложности автономной генерации вопросов. При одинаковом бюджете наш метод самоконтроля более эффективен, чем обучение на статичных исходных данных. Более того, саморазвивающийся вопрошатель остаётся конкурентоспособным или даже лучшим отвечающим.

English

Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.