AlphaMaze: Verbesserung der räumlichen Intelligenz großer Sprachmodelle durch GRPO

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Sprachverarbeitung gezeigt, doch sie haben oft Schwierigkeiten mit Aufgaben, die echte visuell-räumliche Schlussfolgerungen erfordern. In diesem Artikel stellen wir ein neuartiges zweistufiges Trainingsframework vor, das darauf abzielt, Standard-LLMs mit visuellen Denkfähigkeiten für die Navigation in Labyrinthen auszustatten. Zunächst nutzen wir Supervised Fine Tuning (SFT) auf einem kuratierten Datensatz von tokenisierten Labyrinthdarstellungen, um dem Modell beizubringen, schrittweise Bewegungsbefehle vorherzusagen. Anschließend wenden wir Group Relative Policy Optimization (GRPO) – eine Technik, die in DeepSeekR1 verwendet wird – mit einer sorgfältig gestalteten Belohnungsfunktion an, um die sequenzielle Entscheidungsfindung des Modells zu verfeinern und emergente Ketten von Denkprozessen zu fördern. Experimentelle Ergebnisse auf synthetisch generierten Labyrinthen zeigen, dass ein Baseline-Modell das Labyrinth nicht navigieren kann, während das SFT-trainierte Modell eine Genauigkeit von 86 % erreicht und eine weitere GRPO-Feinabstimmung die Genauigkeit auf 93 % steigert. Qualitative Analysen zeigen, dass GRPO robustere und selbstkorrigierende Denkprozesse fördert, was das Potenzial unseres Ansatzes zur Überbrückung der Lücke zwischen Sprachmodellen und visuell-räumlichen Aufgaben unterstreicht. Diese Ergebnisse bieten vielversprechende Implikationen für Anwendungen in der Robotik, autonomen Navigation und anderen Bereichen, die integrierte visuelle und sequenzielle Denkfähigkeiten erfordern.

English

Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model's sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

AlphaMaze: Verbesserung der räumlichen Intelligenz großer Sprachmodelle durch GRPO

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

papers.abstract

Support