DynaAct : Raisonnement des grands modèles de langage avec des espaces d'action dynamiques

papers.abstract

Dans les systèmes modernes de prise de décision séquentielle, la construction d'un espace d'actions candidates optimal est cruciale pour une inférence efficace. Cependant, les approches existantes reposent soit sur des espaces d'actions définis manuellement qui manquent d'évolutivité, soit sur des espaces non structurés qui rendent la recherche exhaustive prohibitrice en calcul. Dans cet article, nous proposons un nouveau cadre nommé DynaAct pour construire automatiquement un espace d'actions compact afin d'améliorer le raisonnement séquentiel dans des scénarios complexes de résolution de problèmes. Notre méthode estime d'abord un proxy de l'espace d'actions complet en extrayant des esquisses générales observées dans un corpus couvrant divers problèmes de raisonnement complexe à l'aide de grands modèles de langage. Nous formulons ensuite une fonction sous-modulaire qui évalue conjointement les actions candidates sur la base de leur utilité pour l'état actuel et de leur diversité, et employons un algorithme glouton pour sélectionner un ensemble candidat optimal. Des expériences approfondies sur six benchmarks standards variés démontrent que notre approche améliore significativement les performances globales, tout en maintenant une inférence efficace sans introduire de latence substantielle. L'implémentation est disponible à l'adresse https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct : Raisonnement des grands modèles de langage avec des espaces d'action dynamiques

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

papers.abstract

Support