DynaAct: Redeneren met grote taalmodellen met dynamische actieruimtes

Samenvatting

In moderne sequentiële besluitvormingssystemen is de constructie van een optimale kandidaat-actieruimte cruciaal voor efficiënte inferentie. Bestaande methoden vertrouwen echter op handmatig gedefinieerde actieruimten die niet schaalbaar zijn, of maken gebruik van ongestructureerde ruimten die een uitputtende zoektocht computationeel onhaalbaar maken. In dit artikel stellen we een nieuw raamwerk voor, genaamd DynaAct, voor het automatisch construeren van een compacte actieruimte om sequentieel redeneren in complexe probleemoplossingsscenario's te verbeteren. Onze methode schat eerst een benadering van de complete actieruimte door algemene schetsen te extraheren die zijn waargenomen in een corpus met diverse complexe redeneerproblemen, waarbij gebruik wordt gemaakt van grote taalmodel(len). Vervolgens formuleren we een submodulaire functie die kandidaatacties gezamenlijk evalueert op basis van hun nut voor de huidige staat en hun diversiteit, en gebruiken we een gulzig algoritme om een optimale kandidaatverzameling te selecteren. Uitgebreide experimenten op zes diverse standaardbenchmarks tonen aan dat onze aanpak de algehele prestaties aanzienlijk verbetert, terwijl efficiënte inferentie wordt behouden zonder aanzienlijke vertraging te introduceren. De implementatie is beschikbaar op https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Redeneren met grote taalmodellen met dynamische actieruimtes

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Samenvatting

Support