AlphaMaze : Amélioration de l'intelligence spatiale des grands modèles de langage via GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
February 20, 2025
Auteurs: Alan Dao, Dinh Bach Vu
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en traitement du langage, mais ils peinent souvent à accomplir des tâches nécessitant un véritable raisonnement visuel et spatial. Dans cet article, nous présentons un nouveau cadre d'apprentissage en deux étapes conçu pour doter les LLMs standards de capacités de raisonnement visuel pour la navigation dans des labyrinthes. Premièrement, nous utilisons un Fine-Tuning Supervisé (SFT) sur un ensemble de données soigneusement sélectionné de représentations tokenisées de labyrinthes pour enseigner au modèle à prédire des commandes de mouvement étape par étape. Ensuite, nous appliquons l'Optimisation de Politique Relative par Groupe (GRPO) — une technique utilisée dans DeepSeekR1 — avec une fonction de récompense minutieusement conçue pour affiner la prise de décision séquentielle du modèle et encourager l'émergence de comportements de chaîne de pensée. Les résultats expérimentaux sur des labyrinthes générés de manière synthétique montrent que, tandis qu'un modèle de base échoue à naviguer dans le labyrinthe, le modèle entraîné par SFT atteint une précision de 86 %, et un affinage supplémentaire par GRPO augmente cette précision à 93 %. Des analyses qualitatives révèlent que le GRPO favorise un raisonnement plus robuste et autocorrectif, soulignant le potentiel de notre approche pour combler le fossé entre les modèles de langage et les tâches visuelles et spatiales. Ces résultats offrent des implications prometteuses pour des applications en robotique, navigation autonome et d'autres domaines nécessitant un raisonnement intégré visuel et séquentiel.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in
language processing, yet they often struggle with tasks requiring genuine
visual spatial reasoning. In this paper, we introduce a novel two-stage
training framework designed to equip standard LLMs with visual reasoning
abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT)
on a curated dataset of tokenized maze representations to teach the model to
predict step-by-step movement commands. Next, we apply Group Relative Policy
Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted
reward function to refine the model's sequential decision-making and encourage
emergent chain-of-thought behaviors. Experimental results on synthetically
generated mazes show that while a baseline model fails to navigate the maze,
the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning
boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more
robust and self-corrective reasoning, highlighting the potential of our
approach to bridge the gap between language models and visual spatial tasks.
These findings offer promising implications for applications in robotics,
autonomous navigation, and other domains that require integrated visual and
sequential reasoning.Summary
AI-Generated Summary