Ariadne: Uma Estrutura Controlável para Investigar e Expandir os Limites do Raciocínio de VLM

Resumo

Embora os Modelos de Visão e Linguagem (VLMs) pós-treinados com Aprendizado por Reforço (RL) demonstrem raciocínio geral impressionante, sua avaliação frequentemente se restringe a tarefas dominadas pela linguagem (por exemplo, matemática). Isso levanta uma questão crítica: o pós-treinamento com RL pode realmente estender a fronteira de capacidade inerente de um VLM base, particularmente para tarefas espaciais centradas na visão onde ele inicialmente falha? Para investigar isso, apresentamos Ariadne, um framework que utiliza labirintos sintéticos para raciocínio espacial multi-etapas, onde a dificuldade da tarefa (por exemplo, comprimento do caminho, curvas) é controlada com precisão. Aproveitamos este ambiente controlável para treinar VLMs usando Aprendizado por Reforço com Recompensas Verificadas (RLVR) em um currículo consciente da dificuldade. Surpreendentemente, após o treinamento RLVR, o VLM atinge mais de 50% de precisão em um conjunto de problemas onde o modelo base obteve 0%, demonstrando que nossa abordagem expande a fronteira de capacidade inicial do modelo. Para avaliar a viabilidade no mundo real, avaliamos a generalização fora da distribuição (OOD) em benchmarks práticos. Apesar de treinado apenas em amostras sintéticas de labirinto, Ariadne alcança melhorias significativas de *zero-shot*, com média de 16% no MapBench (por exemplo, navegação em museus) e 24% no ReasonMap (tarefas de transferência de metrô). Esses resultados confirmam que nosso método não apenas amplia os limites fundamentais do modelo, mas também melhora sua generalização para o raciocínio espacial do mundo real. Reconhecemos que nosso estudo é limitado à fase de pós-treinamento, dada a opacidade dos dados de pré-treinamento, e esperamos que nossa pesquisa motive trabalhos futuros sobre alinhamento especializado e extensor de capacidades.

English

While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.

Ariadne: Uma Estrutura Controlável para Investigar e Expandir os Limites do Raciocínio de VLM

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

Resumo

Support