Husky: マルチステップ推論のための統合型オープンソース言語エージェント
Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
June 10, 2024
著者: Joongwon Kim, Bhargavi Paranjape, Tushar Khot, Hannaneh Hajishirzi
cs.AI
要旨
言語エージェントは、各ステップを正確に実行するためにツールを使用して複雑なタスクを遂行します。しかし、既存のエージェントの多くはプロプライエタリなモデルに基づいており、数学や多段階質問応答などの特定のタスクを対象に設計されています。本論文では、Huskyという包括的でオープンソースの言語エージェントを紹介します。Huskyは、数値、表形式、知識ベースの推論を含む多様な複雑タスクに対処するために、統一されたアクション空間上で推論することを学習します。Huskyは、1) 与えられたタスクを解決するための次のアクションを生成し、2) 専門モデルを使用してアクションを実行し、現在の解決状態を更新するという2つのステージを繰り返します。我々は、複雑なタスクに対処するための徹底的なアクションのオントロジーを特定し、これらのアクションを実行するための専門モデルを訓練するための高品質なデータをキュレーションしました。実験の結果、Huskyは14の評価データセットにおいて、従来の言語エージェントを凌駕することが示されました。さらに、我々はHuskyQAという新しい評価セットを導入し、欠落した知識の検索と数値推論に焦点を当てた混合ツール推論において言語エージェントをストレステストします。7Bモデルを使用しているにもかかわらず、HuskyはGPT-4のような最先端の大規模言語モデルに匹敵し、これらのタスクにおいて我々の包括的アプローチの有効性を示しています。コードとモデルはhttps://github.com/agent-husky/Husky-v1で公開されています。
English
Language agents perform complex tasks by using tools to execute each step
precisely. However, most existing agents are based on proprietary models or
designed to target specific tasks, such as mathematics or multi-hop question
answering. We introduce Husky, a holistic, open-source language agent that
learns to reason over a unified action space to address a diverse set of
complex tasks involving numerical, tabular, and knowledge-based reasoning.
Husky iterates between two stages: 1) generating the next action to take
towards solving a given task and 2) executing the action using expert models
and updating the current solution state. We identify a thorough ontology of
actions for addressing complex tasks and curate high-quality data to train
expert models for executing these actions. Our experiments show that Husky
outperforms prior language agents across 14 evaluation datasets. Moreover, we
introduce HuskyQA, a new evaluation set which stress tests language agents for
mixed-tool reasoning, with a focus on retrieving missing knowledge and
performing numerical reasoning. Despite using 7B models, Husky matches or even
exceeds frontier LMs such as GPT-4 on these tasks, showcasing the efficacy of
our holistic approach in addressing complex reasoning problems. Our code and
models are available at https://github.com/agent-husky/Husky-v1.Summary
AI-Generated Summary