Ариадна: Управляемая система для исследования и расширения границ логического вывода VLM
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
November 1, 2025
Авторы: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI
Аннотация
Хотя модели «визуальный язык» (VLM), дообученные с подкреплением (RL), демонстрируют впечатляющие способности к общим рассуждениям, их оценка часто ограничивается задачами с доминированием языка (например, математическими). Это поднимает важный вопрос: может ли дообучение с RL действительно расширить inherentные границы возможностей базовой VLM, особенно для визуально-ориентированных пространственных задач, в которых она изначально не справляется? Для изучения этого вопроса мы представляем Ariadne — фреймворк, использующий синтетические лабиринты для многошагового пространственного мышления, где сложность задачи (например, длина пути, количество поворотов) точно контролируется. Мы используем эту контролируемую среду для обучения VLM с помощью обучения с подкреплением и верифицированными наградами (RLVR) по сложностно-ориентированному учебному плану. Удивительно, но после дообучения RLVR модель VLM достигает точности свыше 50% на наборе задач, где базовая модель показывала 0%, что демонстрирует, что наш подход расширяет исходные границы возможностей модели. Для оценки практической применимости в реальном мире мы оцениваем обобщение на внераспределительных (OOD) данных на практических бенчмарках. Несмотря на обучение только на синтетических примерах лабиринтов, Ariadne демонстрирует значительное улучшение zero-shot, в среднем на 16% на MapBench (например, навигация в музее) и на 24% на ReasonMap (задачи пересадки в метро). Эти результаты подтверждают, что наш метод не только расширяет фундаментальные пределы модели, но и улучшает её обобщение для пространственного мышления в реальном мире. Мы признаем, что наше исследование ограничено фазой дообучения, учитывая непрозрачность данных предварительного обучения, и надеемся, что наша работа стимулирует дальнейшие исследования в области специализированного согласования, расширяющего возможности моделей.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning
(RL) show impressive general reasoning, their evaluation is often confined to
language-dominant tasks (e.g., math). This raises a critical question: can RL
post-training truly extend the inherent capability boundary of a base VLM,
particularly for visual-centric spatial tasks where it initially fails? To
investigate this, we introduce Ariadne, a framework utilizing synthetic mazes
for multi-step spatial reasoning where task difficulty (e.g., path length,
turns) is precisely controlled. We leverage this controllable environment to
train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a
difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves
over 50% accuracy on a problem set where the base model scored 0%,
demonstrating that our approach expands the model's initial capability
boundary. To assess real-world viability, we evaluate out-of-distribution (OOD)
generalization on practical benchmarks. Despite training only on synthetic maze
samples, Ariadne achieves significant zero-shot improvements, averaging 16% on
MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer
tasks). These results confirm that our method not only broadens the model's
fundamental limits but also enhances its generalization to real-world spatial
reasoning. We acknowledge our study is limited to the post-training phase,
given the opaqueness of pre-training data, and hope our research motivates
further work on specialized, capability-extending alignment.