DynaAct: Raciocínio com Modelos de Linguagem de Grande Porte em Espaços de Ação Dinâmicos

Resumo

Em sistemas modernos de tomada de decisão sequencial, a construção de um espaço de ação candidato ideal é crucial para uma inferência eficiente. Contudo, as abordagens existentes ou dependem de espaços de ação definidos manualmente que carecem de escalabilidade, ou utilizam espaços não estruturados que tornam a busca exaustiva computacionalmente proibitiva. Neste artigo, propomos uma nova estrutura denominada DynaAct para construir automaticamente um espaço de ação compacto que aprimore o raciocínio sequencial em cenários complexos de resolução de problemas. Nosso método primeiro estima um proxy para o espaço de ação completo através da extração de esboços gerais observados em um corpus que abrange diversos problemas complexos de raciocínio, utilizando modelos de linguagem de grande porte. Em seguida, formulamos uma função submodular que avalia conjuntamente as ações candidatas com base na sua utilidade para o estado atual e na sua diversidade, e empregamos um algoritmo guloso para selecionar um conjunto candidato ideal. Experimentos extensos em seis benchmarks padrão diversos demonstram que nossa abordagem melhora significativamente o desempenho geral, mantendo uma inferência eficiente sem introduzir latência substancial. A implementação está disponível em https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Raciocínio com Modelos de Linguagem de Grande Porte em Espaços de Ação Dinâmicos

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Resumo

Support