Ariadne : Un cadre contrôlable pour sonder et étendre les limites du raisonnement des modèles de vision par le langage

papers.abstract

Bien que les modèles vision-langage (VLM) post-entraînés par apprentissage par renforcement (RL) démontrent des capacités de raisonnement général impressionnantes, leur évaluation se limite souvent à des tâches dominées par le langage (par exemple, les mathématiques). Cela soulève une question cruciale : le post-entraînement par RL peut-il véritablement repousser la limite des capacités intrinsèques d'un VLM de base, en particulier pour les tâches spatiales centrées sur la vision où il échoue initialement ? Pour investiguer cela, nous présentons Ariadne, un cadre utilisant des labyrinthes synthétiques pour un raisonnement spatial multi-étapes où la difficulté de la tâche (par exemple, la longueur du chemin, les virages) est précisément contrôlée. Nous exploitons cet environnement contrôlable pour entraîner les VLM en utilisant l'Apprentissage par Renforcement avec Récompenses Vérifiées (RLVR) selon un curriculum sensible à la difficulté. De manière surprenante, après l'entraînement RLVR, le VLM atteint une précision supérieure à 50 % sur un ensemble de problèmes où le modèle de base obtenait 0 %, démontrant que notre approche étend la limite de capacité initiale du modèle. Pour évaluer la viabilité en conditions réelles, nous évaluons la généralisation hors-distribution (OOD) sur des benchmarks pratiques. Bien qu'entraîné uniquement sur des échantillons de labyrinthes synthétiques, Ariadne obtient des améliorations significatives en zéro-shot, avec en moyenne 16 % sur MapBench (par exemple, la navigation dans un musée) et 24 % sur ReasonMap (tâches de correspondance de métro). Ces résultats confirment que notre méthode élargit non seulement les limites fondamentales du modèle, mais améliore également sa généralisation au raisonnement spatial en monde réel. Nous reconnaissons que notre étude se limite à la phase de post-entraînement, étant donné l'opacité des données de pré-entraînement, et nous espérons que nos recherches motiveront des travaux futurs sur un alignement spécialisé, visant à étendre les capacités.

English

While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.

Ariadne : Un cadre contrôlable pour sonder et étendre les limites du raisonnement des modèles de vision par le langage

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

papers.abstract

Support