DynaAct: Ragionamento con Modelli Linguistici di Grande Dimensione in Spazi d'Azione Dinamici

Abstract

Nei moderni sistemi decisionali sequenziali, la costruzione di uno spazio di azioni candidate ottimale è fondamentale per un'inferenza efficiente. Tuttavia, gli approcci esistenti si basano su spazi d'azione definiti manualmente che mancano di scalabilità, oppure utilizzano spazi non strutturati che rendono la ricerca esaustiva computazionalmente proibitiva. In questo articolo, proponiamo un nuovo framework denominato DynaAct per costruire automaticamente uno spazio d'azione compatto al fine di potenziare il ragionamento sequenziale in scenari complessi di problem-solving. Il nostro metodo stima inizialmente un proxy per lo spazio d'azione completo estraendo schemi generali osservati in un corpus che copre problemi di ragionamento complesso e diversificati, utilizzando modelli linguistici di grandi dimensioni. Successivamente, formuliamo una funzione submodulare che valuta congiuntamente le azioni candidate in base alla loro utilità per lo stato corrente e alla loro diversità, e impieghiamo un algoritmo greedy per selezionare un insieme candidato ottimale. Esperimenti estesi su sei benchmark standard diversificati dimostrano che il nostro approccio migliora significativamente le prestazioni complessive, mantenendo al contempo un'inferenza efficiente senza introdurre una latenza sostanziale. L'implementazione è disponibile all'indirizzo https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Ragionamento con Modelli Linguistici di Grande Dimensione in Spazi d'Azione Dinamici

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Abstract

Support