Ariadne: Een Beheersbaar Raamwerk voor het Onderzoeken en Uitbreiden van de Redeneergrenzen van VLM's
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
November 1, 2025
Auteurs: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI
Samenvatting
Hoewel Vision-Language Models (VLM's) die nageoefend zijn met Reinforcement Learning (RL) indrukwekkend algemeen redeneervermogen vertonen, is hun evaluatie vaak beperkt tot taakgebieden waar taal dominant is (bijv. wiskunde). Dit roept een kritische vraag op: kan RL-natraining daadwerkelijk de inherente capaciteitsgrens van een basis-VLM verleggen, met name voor visueel-gecentreerde ruimtelijke taken waarbij deze initieel faalt? Om dit te onderzoeken introduceren we Ariadne, een raamwerk dat gebruikmaakt van synthetische doolhoven voor multi-stap ruimtelijk redeneren, waarbij de taakmoeilijkheid (bijv. padlengte, bochten) precies gecontroleerd wordt. We benutten deze controleerbare omgeving om VLM's te trainen met Reinforcement Learning met Geverifieerde Beloningen (RLVR) volgens een moeilijkheidsbewust curriculum. Verrassend genoeg behaalt de VLM na RLVR-training een nauwkeurigheid van meer dan 50% op een probleemset waar het basismodel 0% scoorde, wat aantoont dat onze aanpak de initiële capaciteitsgrens van het model verruimt. Om de praktische bruikbaarheid te beoordelen, evalueren we out-of-distribution (OOD) generalisatie op praktische benchmarks. Ondanks uitsluitende training op synthetische doolhofvoorbeelden, behaalt Ariadne significante zero-shot verbeteringen, gemiddeld 16% op MapBench (bijv. museumnavigatie) en 24% op ReasonMap (overstaptaken in de metro). Deze resultaten bevestigen dat onze methode niet alleen de fundamentele limieten van het model verbreedt, maar ook de generalisatie naar real-world ruimtelijk redeneren verbetert. We erkennen dat onze studie beperkt is tot de natrainingsfase, gezien de ondoorzichtigheid van pre-trainingsdata, en hopen dat ons onderzoek verder werk aan gespecialiseerde, capaciteitsverruimende afstemming stimuleert.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning
(RL) show impressive general reasoning, their evaluation is often confined to
language-dominant tasks (e.g., math). This raises a critical question: can RL
post-training truly extend the inherent capability boundary of a base VLM,
particularly for visual-centric spatial tasks where it initially fails? To
investigate this, we introduce Ariadne, a framework utilizing synthetic mazes
for multi-step spatial reasoning where task difficulty (e.g., path length,
turns) is precisely controlled. We leverage this controllable environment to
train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a
difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves
over 50% accuracy on a problem set where the base model scored 0%,
demonstrating that our approach expands the model's initial capability
boundary. To assess real-world viability, we evaluate out-of-distribution (OOD)
generalization on practical benchmarks. Despite training only on synthetic maze
samples, Ariadne achieves significant zero-shot improvements, averaging 16% on
MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer
tasks). These results confirm that our method not only broadens the model's
fundamental limits but also enhances its generalization to real-world spatial
reasoning. We acknowledge our study is limited to the post-training phase,
given the opaqueness of pre-training data, and hope our research motivates
further work on specialized, capability-extending alignment.