ChatPaper.aiChatPaper

AlphaMaze: Улучшение пространственного интеллекта крупных языковых моделей с помощью GRPO

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

February 20, 2025
Авторы: Alan Dao, Dinh Bach Vu
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в обработке языка, однако они часто испытывают трудности с задачами, требующими подлинного визуально-пространственного мышления. В данной статье мы представляем новую двухэтапную структуру обучения, предназначенную для оснащения стандартных LLM способностями к визуальному мышлению для навигации в лабиринтах. Сначала мы используем контролируемую тонкую настройку (SFT) на тщательно отобранном наборе данных токенизированных представлений лабиринтов, чтобы научить модель предсказывать пошаговые команды движения. Затем мы применяем оптимизацию групповой относительной политики (GRPO) — метод, используемый в DeepSeekR1, — с тщательно разработанной функцией вознаграждения для улучшения последовательного принятия решений моделью и стимулирования возникновения цепочек рассуждений. Экспериментальные результаты на синтетически созданных лабиринтах показывают, что базовая модель не справляется с навигацией, в то время как модель, обученная с помощью SFT, достигает точности 86%, а дальнейшая тонкая настройка с использованием GRPO повышает точность до 93%. Качественный анализ показывает, что GRPO способствует более устойчивому и самокорректирующемуся мышлению, подчеркивая потенциал нашего подхода для преодоления разрыва между языковыми моделями и визуально-пространственными задачами. Эти результаты открывают перспективные возможности для применения в робототехнике, автономной навигации и других областях, требующих интегрированного визуального и последовательного мышления.
English
Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model's sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

Summary

AI-Generated Summary

PDF142February 21, 2025