ChatPaper.aiChatPaper

AlphaMaze : Amélioration de l'intelligence spatiale des grands modèles de langage via GRPO

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

February 20, 2025
Auteurs: Alan Dao, Dinh Bach Vu
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en traitement du langage, mais ils peinent souvent à accomplir des tâches nécessitant un véritable raisonnement visuel et spatial. Dans cet article, nous présentons un nouveau cadre d'apprentissage en deux étapes conçu pour doter les LLMs standards de capacités de raisonnement visuel pour la navigation dans des labyrinthes. Premièrement, nous utilisons un Fine-Tuning Supervisé (SFT) sur un ensemble de données soigneusement sélectionné de représentations tokenisées de labyrinthes pour enseigner au modèle à prédire des commandes de mouvement étape par étape. Ensuite, nous appliquons l'Optimisation de Politique Relative par Groupe (GRPO) — une technique utilisée dans DeepSeekR1 — avec une fonction de récompense minutieusement conçue pour affiner la prise de décision séquentielle du modèle et encourager l'émergence de comportements de chaîne de pensée. Les résultats expérimentaux sur des labyrinthes générés de manière synthétique montrent que, tandis qu'un modèle de base échoue à naviguer dans le labyrinthe, le modèle entraîné par SFT atteint une précision de 86 %, et un affinage supplémentaire par GRPO augmente cette précision à 93 %. Des analyses qualitatives révèlent que le GRPO favorise un raisonnement plus robuste et autocorrectif, soulignant le potentiel de notre approche pour combler le fossé entre les modèles de langage et les tâches visuelles et spatiales. Ces résultats offrent des implications prometteuses pour des applications en robotique, navigation autonome et d'autres domaines nécessitant un raisonnement intégré visuel et séquentiel.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model's sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

Summary

AI-Generated Summary

PDF142February 21, 2025