ChatPaper.aiChatPaper

AlphaMaze: Mejorando la Inteligencia Espacial de los Modelos de Lenguaje de Gran Escala mediante GRPO

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

February 20, 2025
Autores: Alan Dao, Dinh Bach Vu
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en el procesamiento del lenguaje, pero a menudo enfrentan dificultades en tareas que requieren un razonamiento visual espacial genuino. En este artículo, presentamos un marco de entrenamiento novedoso de dos etapas diseñado para dotar a los LLMs estándar con habilidades de razonamiento visual para la navegación en laberintos. Primero, utilizamos el Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en un conjunto de datos curado de representaciones tokenizadas de laberintos para enseñar al modelo a predecir comandos de movimiento paso a paso. Luego, aplicamos la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés)—una técnica utilizada en DeepSeekR1—con una función de recompensa cuidadosamente diseñada para refinar la toma de decisiones secuencial del modelo y fomentar comportamientos emergentes de cadena de pensamiento. Los resultados experimentales en laberintos generados sintéticamente muestran que, mientras un modelo de referencia no logra navegar el laberinto, el modelo entrenado con SFT alcanza un 86% de precisión, y un ajuste fino adicional con GRPO aumenta la precisión al 93%. Los análisis cualitativos revelan que GRPO fomenta un razonamiento más robusto y autocorrectivo, destacando el potencial de nuestro enfoque para cerrar la brecha entre los modelos de lenguaje y las tareas visuales espaciales. Estos hallazgos ofrecen implicaciones prometedoras para aplicaciones en robótica, navegación autónoma y otros dominios que requieren un razonamiento visual y secuencial integrado.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model's sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

Summary

AI-Generated Summary

PDF142February 21, 2025