AlphaMaze: Aprimorando a Inteligência Espacial de Modelos de Linguagem de Grande Escala via GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
February 20, 2025
Autores: Alan Dao, Dinh Bach Vu
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades impressionantes no processamento de linguagem, mas frequentemente enfrentam dificuldades em tarefas que exigem raciocínio visual espacial genuíno. Neste artigo, introduzimos uma nova estrutura de treinamento em duas etapas projetada para equipar LLMs padrão com habilidades de raciocínio visual para navegação em labirintos. Primeiro, utilizamos o Ajuste Fino Supervisionado (SFT) em um conjunto de dados curado de representações tokenizadas de labirintos para ensinar o modelo a prever comandos de movimento passo a passo. Em seguida, aplicamos a Otimização de Política Relativa em Grupo (GRPO) — uma técnica usada no DeepSeekR1 — com uma função de recompensa cuidadosamente elaborada para refinar a tomada de decisão sequencial do modelo e incentivar comportamentos emergentes de cadeia de pensamento. Resultados experimentais em labirintos gerados sinteticamente mostram que, enquanto um modelo de linha de base falha em navegar pelo labirinto, o modelo treinado com SFT alcança 86% de precisão, e o ajuste fino adicional com GRPO aumenta a precisão para 93%. Análises qualitativas revelam que o GRPO promove um raciocínio mais robusto e autocorretivo, destacando o potencial de nossa abordagem para preencher a lacuna entre modelos de linguagem e tarefas de raciocínio visual espacial. Essas descobertas oferecem implicações promissoras para aplicações em robótica, navegação autônoma e outros domínios que exigem raciocínio visual e sequencial integrado.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in
language processing, yet they often struggle with tasks requiring genuine
visual spatial reasoning. In this paper, we introduce a novel two-stage
training framework designed to equip standard LLMs with visual reasoning
abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT)
on a curated dataset of tokenized maze representations to teach the model to
predict step-by-step movement commands. Next, we apply Group Relative Policy
Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted
reward function to refine the model's sequential decision-making and encourage
emergent chain-of-thought behaviors. Experimental results on synthetically
generated mazes show that while a baseline model fails to navigate the maze,
the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning
boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more
robust and self-corrective reasoning, highlighting the potential of our
approach to bridge the gap between language models and visual spatial tasks.
These findings offer promising implications for applications in robotics,
autonomous navigation, and other domains that require integrated visual and
sequential reasoning.Summary
AI-Generated Summary