ChatPaper.aiChatPaper

Ariadne: Un Marco Controlable para Explorar y Extender los Límites del Razonamiento en VLM

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

November 1, 2025
Autores: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI

Resumen

Si bien los Modelos de Visión y Lenguaje (VVL) post-entrenados con Aprendizaje por Refuerzo (RL) muestran capacidades de razonamiento general impresionantes, su evaluación a menudo se limita a tareas dominadas por el lenguaje (por ejemplo, matemáticas). Esto plantea una pregunta crítica: ¿puede el post-entrenamiento con RL realmente extender la frontera de capacidad inherente de un VVL base, particularmente para tareas espaciales centradas en la visión en las que inicialmente falla? Para investigar esto, presentamos Ariadne, un marco que utiliza laberintos sintéticos para el razonamiento espacial multi-paso, donde la dificultad de la tarea (por ejemplo, longitud de la ruta, giros) se controla con precisión. Aprovechamos este entorno controlable para entrenar VVL utilizando Aprendizaje por Refuerzo con Recompensas Verificadas (RLVR) en un currículo consciente de la dificultad. Sorprendentemente, tras el post-entrenamiento con RLVR, el VVL logra una precisión superior al 50% en un conjunto de problemas donde el modelo base obtuvo un 0%, lo que demuestra que nuestro enfoque expande la frontera de capacidad inicial del modelo. Para evaluar la viabilidad en el mundo real, evaluamos la generalización fuera de distribución (OOD) en benchmarks prácticos. A pesar de entrenarse únicamente con muestras de laberintos sintéticos, Ariadne logra mejoras significativas de cero disparos, con un promedio del 16% en MapBench (por ejemplo, navegación en museos) y del 24% en ReasonMap (tareas de transbordo en metro). Estos resultados confirman que nuestro método no solo amplía los límites fundamentales del modelo, sino que también mejora su generalización al razonamiento espacial del mundo real. Reconocemos que nuestro estudio se limita a la fase de post-entrenamiento, dada la opacidad de los datos de pre-entrenamiento, y esperamos que nuestra investigación motive trabajos futuros sobre alineación especializada que extienda las capacidades.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.
PDF42December 2, 2025