Эффективное использование инструментов с помощью цепочки абстрактных рассуждений
Efficient Tool Use with Chain-of-Abstraction Reasoning
January 30, 2024
Авторы: Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang
cs.AI
Аннотация
Для достижения достоверного рассуждения, соответствующего человеческим ожиданиям, крупные языковые модели (LLM) должны основывать свои рассуждения на реальных знаниях (например, фактах из интернета, математических и физических законах). Инструменты помогают LLM получать доступ к этим внешним знаниям, однако остаются сложности в тонкой настройке агентов на основе LLM (например, Toolformer) для вызова инструментов в задачах многошагового рассуждения, где взаимосвязанные вызовы инструментов требуют целостного и эффективного планирования их использования.
В данной работе мы предлагаем новый метод, позволяющий LLM более эффективно использовать инструменты в многошаговом рассуждении. Наш метод, называемый "Цепочка абстракций" (Chain-of-Abstraction, CoA), обучает LLM сначала декодировать цепочки рассуждений с абстрактными заполнителями, а затем вызывать специализированные инструменты для конкретизации каждой цепочки, заполняя их конкретными знаниями. Такое планирование с использованием абстрактных цепочек позволяет LLM изучать более общие стратегии рассуждения, которые устойчивы к изменениям доменных знаний (например, математических результатов), актуальных для различных вопросов. Это также позволяет LLM выполнять декодирование и вызов внешних инструментов параллельно, что устраняет задержки в выводе, вызванные ожиданием ответов от инструментов. В задачах математического рассуждения и вопросно-ответных систем на основе Wiki мы показываем, что наш метод стабильно превосходит предыдущие подходы, такие как "цепочка мыслей" и инструментально-усиленные базовые модели, как на тестовых наборах из распределения, так и вне его, с улучшением точности ответов в среднем на ~6%. Агенты на основе LLM, обученные с использованием нашего метода, также демонстрируют более эффективное использование инструментов, с увеличением скорости вывода в среднем в ~1.4 раза по сравнению с базовыми инструментально-усиленными LLM.
English
To achieve faithful reasoning that aligns with human expectations, large
language models (LLMs) need to ground their reasoning to real-world knowledge
(e.g., web facts, math and physical rules). Tools help LLMs access this
external knowledge, but there remains challenges for fine-tuning LLM agents
(e.g., Toolformer) to invoke tools in multi-step reasoning problems, where
inter-connected tool calls require holistic and efficient tool usage planning.
In this work, we propose a new method for LLMs to better leverage tools in
multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to
first decode reasoning chains with abstract placeholders, and then call domain
tools to reify each reasoning chain by filling in specific knowledge. This
planning with abstract chains enables LLMs to learn more general reasoning
strategies, which are robust to shifts of domain knowledge (e.g., math results)
relevant to different reasoning questions. It also allows LLMs to perform
decoding and calling of external tools in parallel, which avoids the inference
delay caused by waiting for tool responses. In mathematical reasoning and Wiki
QA domains, we show that our method consistently outperforms previous
chain-of-thought and tool-augmented baselines on both in-distribution and
out-of-distribution test sets, with an average ~6% absolute QA accuracy
improvement. LLM agents trained with our method also show more efficient tool
use, with inference speed being on average ~1.4x faster than baseline
tool-augmented LLMs.