Ariadne: Ein steuerbares Framework zur Untersuchung und Erweiterung der Grenzen des VLM-Argumentationsvermögens
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
November 1, 2025
papers.authors: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI
papers.abstract
Obwohl Vision-Language-Modelle (VLMs), die nachträglich mit Reinforcement Learning (RL) trainiert wurden, beeindruckende allgemeine Reasoning-Fähigkeiten zeigen, beschränkt sich ihre Evaluation oft auf sprachdominante Aufgaben (z.B. Mathematik). Dies wirft eine kritische Frage auf: Kann das nachträgliche RL-Training tatsächlich die inhärente Fähigkeitsgrenze eines Basis-VLM erweitern, insbesondere für visuell-zentrierte räumliche Aufgaben, bei denen es anfänglich versagt? Um dies zu untersuchen, stellen wir Ariadne vor, ein Framework, das synthetische Labyrinthe für mehrstufiges räumliches Reasoning nutzt, wobei die Aufgabenschwierigkeit (z.B. Pfadlänge, Abbiegungen) präzise gesteuert wird. Wir nutzen diese kontrollierbare Umgebung, um VLMs mit Reinforcement Learning mit Verifizierten Belohnungen (RLVR) in einem schwierigkeitsbasierten Curriculum zu trainieren. Überraschenderweise erreicht das VLM nach dem RLVR-Training eine Genauigkeit von über 50 % auf einem Problemset, bei dem das Basismodell 0 % erreichte, was demonstriert, dass unser Ansatz die anfängliche Fähigkeitsgrenze des Modells erweitert. Um die Praxistauglichkeit zu bewerten, evaluieren wir die Out-of-Distribution (OOD)-Generalisierung auf praktischen Benchmarks. Obwohl nur auf synthetischen Labyrinth-Beispielen trainiert, erzielt Ariadne signifikante Zero-Shot-Verbesserungen von durchschnittlich 16 % auf MapBench (z.B. Museumsnavigation) und 24 % auf ReasonMap (U-Bahn-Umstiegsaufgaben). Diese Ergebnisse bestätigen, dass unsere Methode nicht nur die fundamentalen Grenzen des Modells erweitert, sondern auch seine Generalisierung auf praktisches räumliches Reasoning verbessert. Wir räumen ein, dass unsere Studie aufgrund der Undurchsichtigkeit der Vortrainingsdaten auf die Nachtrainingsphase beschränkt ist, und hoffen, dass unsere Forschung weitere Arbeiten zu spezialisierter, fähigkeitserweiternder Alignment-Methoden anregt.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning
(RL) show impressive general reasoning, their evaluation is often confined to
language-dominant tasks (e.g., math). This raises a critical question: can RL
post-training truly extend the inherent capability boundary of a base VLM,
particularly for visual-centric spatial tasks where it initially fails? To
investigate this, we introduce Ariadne, a framework utilizing synthetic mazes
for multi-step spatial reasoning where task difficulty (e.g., path length,
turns) is precisely controlled. We leverage this controllable environment to
train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a
difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves
over 50% accuracy on a problem set where the base model scored 0%,
demonstrating that our approach expands the model's initial capability
boundary. To assess real-world viability, we evaluate out-of-distribution (OOD)
generalization on practical benchmarks. Despite training only on synthetic maze
samples, Ariadne achieves significant zero-shot improvements, averaging 16% on
MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer
tasks). These results confirm that our method not only broadens the model's
fundamental limits but also enhances its generalization to real-world spatial
reasoning. We acknowledge our study is limited to the post-training phase,
given the opaqueness of pre-training data, and hope our research motivates
further work on specialized, capability-extending alignment.