ChatPaper.aiChatPaper

AlphaMaze: Verbetering van ruimtelijke intelligentie in grote taalmodellen via GRPO

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

February 20, 2025
Auteurs: Alan Dao, Dinh Bach Vu
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben indrukwekkende capaciteiten getoond in taalverwerking, maar ze hebben vaak moeite met taken die echt visueel ruimtelijk redeneren vereisen. In dit artikel introduceren we een nieuw tweestaps trainingsraamwerk dat is ontworpen om standaard LLM's uit te rusten met visuele redeneervaardigheden voor doolhofnavigatie. Eerst maken we gebruik van Supervised Fine Tuning (SFT) op een gecureerde dataset van getokeniseerde doolhofrepresentaties om het model te leren stapsgewijze bewegingen te voorspellen. Vervolgens passen we Group Relative Policy Optimization (GRPO) toe—een techniek die wordt gebruikt in DeepSeekR1—met een zorgvuldig ontworpen beloningsfunctie om het sequentiële besluitvormingsproces van het model te verfijnen en emergente keten-van-gedachten gedragingen te stimuleren. Experimentele resultaten op synthetisch gegenereerde doolhoven tonen aan dat terwijl een basismodel faalt in het navigeren door het doolhof, het SFT-getrainde model een nauwkeurigheid van 86% behaalt, en verdere GRPO-finetuning de nauwkeurigheid verhoogt tot 93%. Kwalitatieve analyses onthullen dat GRPO robuuster en zelfcorrigerend redeneren bevordert, wat het potentieel van onze aanpak benadrukt om de kloof tussen taalmodelen en visueel ruimtelijke taken te overbruggen. Deze bevindingen bieden veelbelovende implicaties voor toepassingen in robotica, autonome navigatie en andere domeinen die geïntegreerd visueel en sequentieel redeneren vereisen.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model's sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

Summary

AI-Generated Summary

PDF142February 21, 2025