DynaAct: Razonamiento con Modelos de Lenguaje Grandes en Espacios de Acción Dinámicos

Resumen

En los sistemas modernos de toma de decisiones secuenciales, la construcción de un espacio de acciones candidato óptimo es crucial para una inferencia eficiente. Sin embargo, los enfoques existentes dependen de espacios de acción definidos manualmente que carecen de escalabilidad o utilizan espacios no estructurados que hacen que la búsqueda exhaustiva sea computacionalmente prohibitiva. En este artículo, proponemos un nuevo marco denominado DynaAct para construir automáticamente un espacio de acción compacto que mejore el razonamiento secuencial en escenarios complejos de resolución de problemas. Nuestro método primero estima un proxy del espacio de acción completo extrayendo esquemas generales observados en un corpus que abarca diversos problemas de razonamiento complejo utilizando modelos de lenguaje grandes. Luego, formulamos una función submodular que evalúa conjuntamente las acciones candidato en función de su utilidad para el estado actual y su diversidad, y empleamos un algoritmo voraz para seleccionar un conjunto candidato óptimo. Experimentos exhaustivos en seis benchmarks estándar diversos demuestran que nuestro enfoque mejora significativamente el rendimiento general, manteniendo una inferencia eficiente sin introducir una latencia sustancial. La implementación está disponible en https://github.com/zhaoxlpku/DynaAct.

English

In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.

DynaAct: Razonamiento con Modelos de Lenguaje Grandes en Espacios de Acción Dinámicos

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Resumen

Support