Utilisation efficace des outils avec raisonnement en chaîne d'abstraction

papers.abstract

Pour parvenir à un raisonnement fidèle qui corresponde aux attentes humaines, les grands modèles de langage (LLMs) doivent ancrer leur raisonnement dans des connaissances du monde réel (par exemple, des faits issus du web, des règles mathématiques et physiques). Les outils aident les LLMs à accéder à ces connaissances externes, mais des défis subsistent pour affiner les agents LLMs (par exemple, Toolformer) afin qu'ils invoquent des outils dans des problèmes de raisonnement à étapes multiples, où des appels d'outils interconnectés nécessitent une planification holistique et efficace de l'utilisation des outils. Dans ce travail, nous proposons une nouvelle méthode permettant aux LLMs de mieux exploiter les outils dans le raisonnement à étapes multiples. Notre méthode, appelée Chaîne d'Abstraction (CoA), entraîne les LLMs à décoder d'abord des chaînes de raisonnement avec des espaces réservés abstraits, puis à appeler des outils de domaine pour concrétiser chaque chaîne de raisonnement en y intégrant des connaissances spécifiques. Cette planification avec des chaînes abstraites permet aux LLMs d'apprendre des stratégies de raisonnement plus générales, qui sont robustes aux variations des connaissances de domaine (par exemple, les résultats mathématiques) pertinentes pour différentes questions de raisonnement. Elle permet également aux LLMs d'effectuer le décodage et l'appel d'outils externes en parallèle, évitant ainsi le délai d'inférence causé par l'attente des réponses des outils. Dans les domaines du raisonnement mathématique et des questions-réponses sur Wiki, nous montrons que notre méthode surpasse systématiquement les approches précédentes basées sur la chaîne de pensée et les LLMs augmentés d'outils, tant sur des ensembles de tests en distribution qu'en dehors de la distribution, avec une amélioration moyenne de ~6 % en précision absolue des réponses. Les agents LLMs entraînés avec notre méthode montrent également une utilisation plus efficace des outils, avec une vitesse d'inférence en moyenne ~1,4 fois plus rapide que les LLMs augmentés d'outils de référence.

English

To achieve faithful reasoning that aligns with human expectations, large language models (LLMs) need to ground their reasoning to real-world knowledge (e.g., web facts, math and physical rules). Tools help LLMs access this external knowledge, but there remains challenges for fine-tuning LLM agents (e.g., Toolformer) to invoke tools in multi-step reasoning problems, where inter-connected tool calls require holistic and efficient tool usage planning. In this work, we propose a new method for LLMs to better leverage tools in multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to first decode reasoning chains with abstract placeholders, and then call domain tools to reify each reasoning chain by filling in specific knowledge. This planning with abstract chains enables LLMs to learn more general reasoning strategies, which are robust to shifts of domain knowledge (e.g., math results) relevant to different reasoning questions. It also allows LLMs to perform decoding and calling of external tools in parallel, which avoids the inference delay caused by waiting for tool responses. In mathematical reasoning and Wiki QA domains, we show that our method consistently outperforms previous chain-of-thought and tool-augmented baselines on both in-distribution and out-of-distribution test sets, with an average ~6% absolute QA accuracy improvement. LLM agents trained with our method also show more efficient tool use, with inference speed being on average ~1.4x faster than baseline tool-augmented LLMs.

Utilisation efficace des outils avec raisonnement en chaîne d'abstraction

Efficient Tool Use with Chain-of-Abstraction Reasoning

papers.abstract

Support