DynaAct: Reasoning mit großen Sprachmodellen in dynamischen Aktionsräumen

papers.abstract

In modernen sequenziellen Entscheidungssystemen ist die Konstruktion eines optimalen Kandidaten-Aktionsraums entscheidend für eine effiziente Inferenz. Bisherige Ansätze verlassen sich jedoch entweder auf manuell definierte Aktionsräume, denen es an Skalierbarkeit mangelt, oder nutzen unstrukturierte Räume, die eine erschöpfende Suche rechenpraktisch undurchführbar machen. In diesem Artikel stellen wir ein neuartiges Framework namens DynaAct vor, das automatisch einen kompakten Aktionsraum konstruiert, um das sequenzielle Schließen in komplexen Problemszenarien zu verbessern. Unsere Methode schätzt zunächst einen Stellvertreter für den vollständigen Aktionsraum, indem allgemeine Skizzen extrahiert werden, die in einem Korpus mit verschiedenen komplexen Reasoning-Problemen mittels großer Sprachmodelle beobachtet wurden. Anschließend formulieren wir eine submodulare Funktion, die Kandidatenaktionen gemeinsam basierend auf ihrem Nutzen für den aktuellen Zustand und ihrer Diversität bewertet, und setzen einen greedy-Algorithmus ein, um eine optimale Kandidatenmenge auszuwählen. Umfangreiche Experimente auf sechs verschiedenen Standard-Benchmarks zeigen, dass unser Ansatz die Gesamtleistung signifikant verbessert, während eine effiziente Inferenz ohne wesentliche Latenz erhalten bleibt. Die Implementierung ist verfügbar unter https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Reasoning mit großen Sprachmodellen in dynamischen Aktionsräumen

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

papers.abstract

Support