Selbst-evolvierender visueller Fragesteller

Zusammenfassung

Vision-Language-Modelle (VLMs) werden typischerweise als passive Antwortsysteme trainiert, während ihre Fähigkeit, aktiv diverse, nicht-triviale, visuell-zentrierte und fundierte Fragen zu stellen, bisher kaum erforscht ist. Die Leistung bestehender visueller Fragesteller wird durch die Verfügbarkeit hochwertiger Trainingsdaten oder die Kosten ihrer Zusammenstellung eingeschränkt. Wir zeigen, dass ein VLM sich selbst kontinuierlich als visueller Fragesteller verbessern kann, ohne auf externe Überwachung angewiesen zu sein. Wir schlagen einen selbstentwickelnden Rahmen vor, der ein VLM sowohl als Vorschlags- als auch als Filterinstanz nutzt, um schwierigere, informativere und visuell-zentrierte Fragen zu generieren, während gleichzeitig die Erkundungsdiversität erhalten bleibt, um einen Trainingskollaps zu vermeiden. Diese Fragen werden dann verwendet, um das VLM sowohl im Fragesteller- als auch im Antwortmodus zu trainieren. Zur Bewertung des Fragestellers führen wir ein agentisches Protokoll ein, das Fragen hinsichtlich Wahrnehmung, Schlussfolgerung und Diversität bewertet. Experimente mit verschiedenen Basis-Vision-Sprachmodellen zeigen, dass unsere Methode die Qualität erheblich verbessert und die Schwierigkeitsgrenze der autonomen Fragengenerierung deutlich erweitert. Bei gleichem Budget ist unsere Selbstüberwachung effektiver als das Training auf statischen Quelldaten. Darüber hinaus bleibt der selbstentwickelnde Fragesteller ein konkurrenzfähiges oder sogar besseres Antwortsystem.

English

Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.