Utilisation efficace des outils avec raisonnement en chaîne d'abstraction
Efficient Tool Use with Chain-of-Abstraction Reasoning
January 30, 2024
Auteurs: Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang
cs.AI
Résumé
Pour parvenir à un raisonnement fidèle qui corresponde aux attentes humaines, les grands modèles de langage (LLMs) doivent ancrer leur raisonnement dans des connaissances du monde réel (par exemple, des faits issus du web, des règles mathématiques et physiques). Les outils aident les LLMs à accéder à ces connaissances externes, mais des défis subsistent pour affiner les agents LLMs (par exemple, Toolformer) afin qu'ils invoquent des outils dans des problèmes de raisonnement à étapes multiples, où des appels d'outils interconnectés nécessitent une planification holistique et efficace de l'utilisation des outils.
Dans ce travail, nous proposons une nouvelle méthode permettant aux LLMs de mieux exploiter les outils dans le raisonnement à étapes multiples. Notre méthode, appelée Chaîne d'Abstraction (CoA), entraîne les LLMs à décoder d'abord des chaînes de raisonnement avec des espaces réservés abstraits, puis à appeler des outils de domaine pour concrétiser chaque chaîne de raisonnement en y intégrant des connaissances spécifiques. Cette planification avec des chaînes abstraites permet aux LLMs d'apprendre des stratégies de raisonnement plus générales, qui sont robustes aux variations des connaissances de domaine (par exemple, les résultats mathématiques) pertinentes pour différentes questions de raisonnement. Elle permet également aux LLMs d'effectuer le décodage et l'appel d'outils externes en parallèle, évitant ainsi le délai d'inférence causé par l'attente des réponses des outils. Dans les domaines du raisonnement mathématique et des questions-réponses sur Wiki, nous montrons que notre méthode surpasse systématiquement les approches précédentes basées sur la chaîne de pensée et les LLMs augmentés d'outils, tant sur des ensembles de tests en distribution qu'en dehors de la distribution, avec une amélioration moyenne de ~6 % en précision absolue des réponses. Les agents LLMs entraînés avec notre méthode montrent également une utilisation plus efficace des outils, avec une vitesse d'inférence en moyenne ~1,4 fois plus rapide que les LLMs augmentés d'outils de référence.
English
To achieve faithful reasoning that aligns with human expectations, large
language models (LLMs) need to ground their reasoning to real-world knowledge
(e.g., web facts, math and physical rules). Tools help LLMs access this
external knowledge, but there remains challenges for fine-tuning LLM agents
(e.g., Toolformer) to invoke tools in multi-step reasoning problems, where
inter-connected tool calls require holistic and efficient tool usage planning.
In this work, we propose a new method for LLMs to better leverage tools in
multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to
first decode reasoning chains with abstract placeholders, and then call domain
tools to reify each reasoning chain by filling in specific knowledge. This
planning with abstract chains enables LLMs to learn more general reasoning
strategies, which are robust to shifts of domain knowledge (e.g., math results)
relevant to different reasoning questions. It also allows LLMs to perform
decoding and calling of external tools in parallel, which avoids the inference
delay caused by waiting for tool responses. In mathematical reasoning and Wiki
QA domains, we show that our method consistently outperforms previous
chain-of-thought and tool-augmented baselines on both in-distribution and
out-of-distribution test sets, with an average ~6% absolute QA accuracy
improvement. LLM agents trained with our method also show more efficient tool
use, with inference speed being on average ~1.4x faster than baseline
tool-augmented LLMs.