AlphaMaze: Verbesserung der räumlichen Intelligenz großer Sprachmodelle durch GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
February 20, 2025
Autoren: Alan Dao, Dinh Bach Vu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Sprachverarbeitung gezeigt, doch sie haben oft Schwierigkeiten mit Aufgaben, die echte visuell-räumliche Schlussfolgerungen erfordern. In diesem Artikel stellen wir ein neuartiges zweistufiges Trainingsframework vor, das darauf abzielt, Standard-LLMs mit visuellen Denkfähigkeiten für die Navigation in Labyrinthen auszustatten. Zunächst nutzen wir Supervised Fine Tuning (SFT) auf einem kuratierten Datensatz von tokenisierten Labyrinthdarstellungen, um dem Modell beizubringen, schrittweise Bewegungsbefehle vorherzusagen. Anschließend wenden wir Group Relative Policy Optimization (GRPO) – eine Technik, die in DeepSeekR1 verwendet wird – mit einer sorgfältig gestalteten Belohnungsfunktion an, um die sequenzielle Entscheidungsfindung des Modells zu verfeinern und emergente Ketten von Denkprozessen zu fördern. Experimentelle Ergebnisse auf synthetisch generierten Labyrinthen zeigen, dass ein Baseline-Modell das Labyrinth nicht navigieren kann, während das SFT-trainierte Modell eine Genauigkeit von 86 % erreicht und eine weitere GRPO-Feinabstimmung die Genauigkeit auf 93 % steigert. Qualitative Analysen zeigen, dass GRPO robustere und selbstkorrigierende Denkprozesse fördert, was das Potenzial unseres Ansatzes zur Überbrückung der Lücke zwischen Sprachmodellen und visuell-räumlichen Aufgaben unterstreicht. Diese Ergebnisse bieten vielversprechende Implikationen für Anwendungen in der Robotik, autonomen Navigation und anderen Bereichen, die integrierte visuelle und sequenzielle Denkfähigkeiten erfordern.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in
language processing, yet they often struggle with tasks requiring genuine
visual spatial reasoning. In this paper, we introduce a novel two-stage
training framework designed to equip standard LLMs with visual reasoning
abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT)
on a curated dataset of tokenized maze representations to teach the model to
predict step-by-step movement commands. Next, we apply Group Relative Policy
Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted
reward function to refine the model's sequential decision-making and encourage
emergent chain-of-thought behaviors. Experimental results on synthetically
generated mazes show that while a baseline model fails to navigate the maze,
the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning
boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more
robust and self-corrective reasoning, highlighting the potential of our
approach to bridge the gap between language models and visual spatial tasks.
These findings offer promising implications for applications in robotics,
autonomous navigation, and other domains that require integrated visual and
sequential reasoning.Summary
AI-Generated Summary