Расширение пространства действий языковых моделей для рассуждений за пределами языка
Expanding the Action Space of LLMs to Reason Beyond Language
October 8, 2025
Авторы: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI
Аннотация
Крупные языковые модели (LLM) являются мощными инструментами для рассуждений на естественном языке, но их действия обычно ограничиваются генерацией токенов словаря. В результате взаимодействия с внешними средами — такими как символические операторы или симуляторы — должны выражаться через текст в заранее заданных форматах, анализироваться и направляться на внешние интерфейсы. Это перегружает язык модели как задачами рассуждения, так и управления, а также требует создания внешнего по отношению к LLM ручного парсера. Чтобы решить эту проблему, мы разделяем взаимодействия со средой и язык, инкапсулируя их в Расширенное Пространство Действий (ExpA), выходящее за пределы словаря. Модель начинает рассуждения в стандартной языковой среде, но может в любой момент инициировать действия маршрутизации и переключиться на внешнюю среду. Оттуда модель может вызывать только специфичные для среды действия, получать обратную связь от среды и, возможно, возвращаться обратно к языку в результате. Для эффективного исследования расширенного пространства действий и новых сред мы вводим Обучение с Подкреплением в Расширенном Пространстве Действий (EARL) с оптимизацией политики на основе контрфактических сценариев. В задачах, требующих многошаговых взаимодействий и условного планирования, EARL превосходит сильные базовые подходы с действиями, ограниченными словарём. Модель демонстрирует устойчивую производительность в многозадачном обучении на основе калькулятора, а в частично наблюдаемой задаче сортировки достигает 100% точности в Sort-4, самостоятельно находя эффективный алгоритм, конкурентоспособный с классическими решениями.
English
Large Language Models (LLMs) are powerful reasoners in natural language, but
their actions are typically confined to outputting vocabulary tokens. As a
result, interactions with external environments -- such as symbolic operators
or simulators -- must be expressed through text in predefined formats, parsed,
and routed to external interfaces. This overloads the model's language with
both reasoning and control duties, and requires a hand-crafted parser, external
to the LLM. To address this, we decouple environment interactions from language
by internalizing them in an Expanded Action space (ExpA), beyond the
vocabulary. The model starts reasoning in the default language environment, but
may trigger routing actions and switch to an external environment at any time.
From there, the model can only invoke environment-specific actions, receive
feedback from the environment, and potentially route back to language as a
result. To promote effective exploration of the expanded action space and new
environments, we introduce ExpA Reinforcement Learning (EARL) with
counterfactual policy optimization. On tasks requiring multi-turn interactions
and contingent planning, EARL outperforms strong baselines with
vocabulary-constrained actions. It performs robustly across calculator-based
multi-task learning and, in the partially observed sorting problem, achieves
perfect Sort-4 accuracy while self-discovering an efficient algorithm
competitive with classical designs.