Ariadne: Un Framework Controllabile per Esplorare ed Estendere i Confini del Ragionamento nei VLM
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
November 1, 2025
Autori: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI
Abstract
Sebbene i modelli visione-linguaggio (VLM) addestrati in seguito con apprendimento per rinforzo (RL) dimostrino capacità di ragionamento generale impressionanti, la loro valutazione è spesso limitata a compiti dominati dal linguaggio (ad esempio, la matematica). Ciò solleva una questione cruciale: l'addestramento successivo con RL può veramente estendere il confine delle capacità intrinseche di un VLM di base, in particolare per compiti spaziali incentrati sulla vista in cui inizialmente fallisce? Per indagare ciò, introduciamo Ariadne, un framework che utilizza labirinti sintetici per il ragionamento spaziale multi-step, in cui la difficoltà del compito (ad esempio, lunghezza del percorso, svolte) è controllata con precisione. Sfruttiamo questo ambiente controllabile per addestrare i VLM utilizzando l'Apprendimento per Rinforzo con Ricompense Verificate (RLVR) in un curriculum consapevole della difficoltà. Sorprendentemente, dopo l'addestramento RLVR, il VLM raggiunge un'accuratezza superiore al 50% su un set di problemi in cui il modello base aveva ottenuto lo 0%, dimostrando che il nostro approccio espande il confine delle capacità iniziali del modello. Per valutarne la fattibilità nel mondo reale, valutiamo la generalizzazione fuori distribuzione (OOD) su benchmark pratici. Nonostante l'addestramento sia avvenuto solo su campioni di labirinti sintetici, Ariadne raggiunge miglioramenti zero-shot significativi, in media del 16% su MapBench (ad es., navigazione museale) e del 24% su ReasonMap (compiti di trasferimento in metropolitana). Questi risultati confermano che il nostro metodo non solo amplia i limiti fondamentali del modello, ma ne migliora anche la generalizzazione al ragionamento spaziale nel mondo reale. Riconosciamo che il nostro studio è limitato alla fase di post-addestramento, data l'opacità dei dati di pre-addestramento, e speriamo che la nostra ricerca motivi ulteriori lavori su un allineamento specializzato che estenda le capacità.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning
(RL) show impressive general reasoning, their evaluation is often confined to
language-dominant tasks (e.g., math). This raises a critical question: can RL
post-training truly extend the inherent capability boundary of a base VLM,
particularly for visual-centric spatial tasks where it initially fails? To
investigate this, we introduce Ariadne, a framework utilizing synthetic mazes
for multi-step spatial reasoning where task difficulty (e.g., path length,
turns) is precisely controlled. We leverage this controllable environment to
train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a
difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves
over 50% accuracy on a problem set where the base model scored 0%,
demonstrating that our approach expands the model's initial capability
boundary. To assess real-world viability, we evaluate out-of-distribution (OOD)
generalization on practical benchmarks. Despite training only on synthetic maze
samples, Ariadne achieves significant zero-shot improvements, averaging 16% on
MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer
tasks). These results confirm that our method not only broadens the model's
fundamental limits but also enhances its generalization to real-world spatial
reasoning. We acknowledge our study is limited to the post-training phase,
given the opaqueness of pre-training data, and hope our research motivates
further work on specialized, capability-extending alignment.