AlphaMaze: Miglioramento dell'Intelligenza Spaziale nei Modelli Linguistici di Grande Scala tramite GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
February 20, 2025
Autori: Alan Dao, Dinh Bach Vu
cs.AI
Abstract
I Large Language Models (LLM) hanno dimostrato capacità impressionanti nell'elaborazione del linguaggio, ma spesso incontrano difficoltà in compiti che richiedono un genuino ragionamento visivo-spaziale. In questo articolo, introduciamo un innovativo framework di addestramento in due fasi progettato per dotare i LLM standard di abilità di ragionamento visivo per la navigazione in labirinti. In primo luogo, sfruttiamo il Fine Tuning Supervisionato (SFT) su un dataset curato di rappresentazioni tokenizzate di labirinti per insegnare al modello a prevedere comandi di movimento passo-passo. Successivamente, applichiamo l'ottimizzazione delle politiche relative ai gruppi (GRPO) - una tecnica utilizzata in DeepSeekR1 - con una funzione di ricompensa accuratamente progettata per affinare il processo decisionale sequenziale del modello e incoraggiare comportamenti emergenti di catena di pensiero. I risultati sperimentali su labirinti generati sinteticamente mostrano che, mentre un modello di base non riesce a navigare nel labirinto, il modello addestrato con SFT raggiunge un'accuratezza dell'86%, e un ulteriore fine-tuning con GRPO aumenta l'accuratezza al 93%. Analisi qualitative rivelano che il GRPO favorisce un ragionamento più robusto e autocorrettivo, evidenziando il potenziale del nostro approccio per colmare il divario tra modelli linguistici e compiti visivo-spaziali. Questi risultati offrono implicazioni promettenti per applicazioni nella robotica, nella navigazione autonoma e in altri domini che richiedono un ragionamento integrato visivo e sequenziale.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in
language processing, yet they often struggle with tasks requiring genuine
visual spatial reasoning. In this paper, we introduce a novel two-stage
training framework designed to equip standard LLMs with visual reasoning
abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT)
on a curated dataset of tokenized maze representations to teach the model to
predict step-by-step movement commands. Next, we apply Group Relative Policy
Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted
reward function to refine the model's sequential decision-making and encourage
emergent chain-of-thought behaviors. Experimental results on synthetically
generated mazes show that while a baseline model fails to navigate the maze,
the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning
boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more
robust and self-corrective reasoning, highlighting the potential of our
approach to bridge the gap between language models and visual spatial tasks.
These findings offer promising implications for applications in robotics,
autonomous navigation, and other domains that require integrated visual and
sequential reasoning.Summary
AI-Generated Summary