Эффективное использование инструментов с помощью цепочки абстрактных рассуждений

Аннотация

Для достижения достоверного рассуждения, соответствующего человеческим ожиданиям, крупные языковые модели (LLM) должны основывать свои рассуждения на реальных знаниях (например, фактах из интернета, математических и физических законах). Инструменты помогают LLM получать доступ к этим внешним знаниям, однако остаются сложности в тонкой настройке агентов на основе LLM (например, Toolformer) для вызова инструментов в задачах многошагового рассуждения, где взаимосвязанные вызовы инструментов требуют целостного и эффективного планирования их использования. В данной работе мы предлагаем новый метод, позволяющий LLM более эффективно использовать инструменты в многошаговом рассуждении. Наш метод, называемый "Цепочка абстракций" (Chain-of-Abstraction, CoA), обучает LLM сначала декодировать цепочки рассуждений с абстрактными заполнителями, а затем вызывать специализированные инструменты для конкретизации каждой цепочки, заполняя их конкретными знаниями. Такое планирование с использованием абстрактных цепочек позволяет LLM изучать более общие стратегии рассуждения, которые устойчивы к изменениям доменных знаний (например, математических результатов), актуальных для различных вопросов. Это также позволяет LLM выполнять декодирование и вызов внешних инструментов параллельно, что устраняет задержки в выводе, вызванные ожиданием ответов от инструментов. В задачах математического рассуждения и вопросно-ответных систем на основе Wiki мы показываем, что наш метод стабильно превосходит предыдущие подходы, такие как "цепочка мыслей" и инструментально-усиленные базовые модели, как на тестовых наборах из распределения, так и вне его, с улучшением точности ответов в среднем на ~6%. Агенты на основе LLM, обученные с использованием нашего метода, также демонстрируют более эффективное использование инструментов, с увеличением скорости вывода в среднем в ~1.4 раза по сравнению с базовыми инструментально-усиленными LLM.

English

To achieve faithful reasoning that aligns with human expectations, large language models (LLMs) need to ground their reasoning to real-world knowledge (e.g., web facts, math and physical rules). Tools help LLMs access this external knowledge, but there remains challenges for fine-tuning LLM agents (e.g., Toolformer) to invoke tools in multi-step reasoning problems, where inter-connected tool calls require holistic and efficient tool usage planning. In this work, we propose a new method for LLMs to better leverage tools in multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to first decode reasoning chains with abstract placeholders, and then call domain tools to reify each reasoning chain by filling in specific knowledge. This planning with abstract chains enables LLMs to learn more general reasoning strategies, which are robust to shifts of domain knowledge (e.g., math results) relevant to different reasoning questions. It also allows LLMs to perform decoding and calling of external tools in parallel, which avoids the inference delay caused by waiting for tool responses. In mathematical reasoning and Wiki QA domains, we show that our method consistently outperforms previous chain-of-thought and tool-augmented baselines on both in-distribution and out-of-distribution test sets, with an average ~6% absolute QA accuracy improvement. LLM agents trained with our method also show more efficient tool use, with inference speed being on average ~1.4x faster than baseline tool-augmented LLMs.

Эффективное использование инструментов с помощью цепочки абстрактных рассуждений

Efficient Tool Use with Chain-of-Abstraction Reasoning

Аннотация

Support