ChatPaper.aiChatPaper

Расширение пространства действий языковых моделей для рассуждений за пределами языка

Expanding the Action Space of LLMs to Reason Beyond Language

October 8, 2025
Авторы: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI

Аннотация

Крупные языковые модели (LLM) являются мощными инструментами для рассуждений на естественном языке, но их действия обычно ограничиваются генерацией токенов словаря. В результате взаимодействия с внешними средами — такими как символические операторы или симуляторы — должны выражаться через текст в заранее заданных форматах, анализироваться и направляться на внешние интерфейсы. Это перегружает язык модели как задачами рассуждения, так и управления, а также требует создания внешнего по отношению к LLM ручного парсера. Чтобы решить эту проблему, мы разделяем взаимодействия со средой и язык, инкапсулируя их в Расширенное Пространство Действий (ExpA), выходящее за пределы словаря. Модель начинает рассуждения в стандартной языковой среде, но может в любой момент инициировать действия маршрутизации и переключиться на внешнюю среду. Оттуда модель может вызывать только специфичные для среды действия, получать обратную связь от среды и, возможно, возвращаться обратно к языку в результате. Для эффективного исследования расширенного пространства действий и новых сред мы вводим Обучение с Подкреплением в Расширенном Пространстве Действий (EARL) с оптимизацией политики на основе контрфактических сценариев. В задачах, требующих многошаговых взаимодействий и условного планирования, EARL превосходит сильные базовые подходы с действиями, ограниченными словарём. Модель демонстрирует устойчивую производительность в многозадачном обучении на основе калькулятора, а в частично наблюдаемой задаче сортировки достигает 100% точности в Sort-4, самостоятельно находя эффективный алгоритм, конкурентоспособный с классическими решениями.
English
Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.
PDF32October 22, 2025