ChatPaper.aiChatPaper

아리아드네: VLM 추론 경계 탐색 및 확장을 위한 제어 가능한 프레임워크

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

November 1, 2025
저자: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI

초록

강화 학습(RL)을 통해 사후 학습된 시각-언어 모델(VLM)은 인상적인 일반 추론 능력을 보이지만, 그 평가는 주로 언어 중심 과제(예: 수학)에 국한되는 경향이 있습니다. 이는 중요한 질문을 제기합니다: 특히 기본 VLM이 처음에는 실패하는 시각 중심 공간 과제에서 RL 사후 학습이 정말로 기본 VLM의 고유 능력 한계를 확장할 수 있을까요? 이를 조사하기 위해 우리는 과제 난이도(예: 경로 길이, 회전)를 정밀하게 제어할 수 있는 다단계 공간 추론을 위한 합성 미로를 활용하는 Ariadne 프레임워크를 소개합니다. 우리는 이 제어 가능한 환경을 활용하여 난이도 인지 커리큘럼 하에서 검증된 보상을 활용한 강화 학습(RLVR)으로 VLM을 학습시킵니다. 놀랍게도, RLVR 사후 학습을 거친 VLM은 기본 모델이 0%의 정확도를 보였던 문제 집합에서 50% 이상의 정확도를 달성하여, 우리의 접근 방식이 모델의 초기 능력 한계를 확장함을 입증했습니다. 실제 적용 가능성을 평가하기 위해 우리는 실용적인 벤치마크에서 분포 외(OOD) 일반화 성능을 평가합니다. 합성 미로 샘플만으로 학습했음에도 불구하고, Ariadne는 MapBench(예: 박물관 내비게이션)에서 평균 16%, ReasonMap(지하철 환승 과제)에서 평균 24%의 상당한 제로샷 성능 향상을 달성합니다. 이러한 결과는 우리의 방법이 모델의 근본적인 한계를 넓힐 뿐만 아니라 실제 공간 추론으로의 일반화 능력도 향상시킨다는 것을 확인해줍니다. 우리는 사전 학습 데이터의 불투명성을 고려할 때 본 연구가 사후 학습 단계에 국한됨을 인정하며, 우리의 연구가 특화되고 능력 확장을 위한 정렬(alignment)에 대한 추가 연구를 촉진하기를 바랍니다.
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.
PDF42December 2, 2025