DynaAct: Рассуждения больших языковых моделей с динамическими пространствами действий

Аннотация

В современных системах принятия последовательных решений построение оптимального пространства кандидатных действий играет ключевую роль для эффективного вывода. Однако существующие подходы либо опираются на ручное определение пространств действий, не обладающих масштабируемостью, либо используют неструктурированные пространства, делающие полный перебор вычислительно неосуществимым. В данной статье мы предлагаем новую структуру под названием DynaAct для автоматического построения компактного пространства действий с целью улучшения последовательных рассуждений в сложных сценариях решения задач. Наш метод сначала оценивает аппроксимацию полного пространства действий путем извлечения общих шаблонов, наблюдаемых в корпусе, охватывающем разнообразные сложные задачи рассуждений, с использованием больших языковых моделей. Затем мы формулируем супермодулярную функцию, которая совместно оценивает кандидатные действия на основе их полезности для текущего состояния и их разнообразия, и применяем жадный алгоритм для выбора оптимального набора кандидатов. Масштабные эксперименты на шести разнообразных стандартных тестовых наборах демонстрируют, что наш подход значительно улучшает общую производительность, сохраняя при этом эффективный вывод без существенного увеличения задержки. Реализация доступна по адресу https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Рассуждения больших языковых моделей с динамическими пространствами действий

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Аннотация

Support