HASHIRU: ハイブリッドインテリジェントリソース活用のための階層型エージェントシステム
HASHIRU: Hierarchical Agent System for Hybrid Intelligent Resource Utilization
June 1, 2025
著者: Kunal Pai, Parth Shah, Harshil Patel
cs.AI
要旨
大規模言語モデル(LLM)の急速な進歩は、自律型マルチエージェントシステム(MAS)の開発を加速させています。しかし、現在のフレームワークは、柔軟性、リソース認識、モデルの多様性、自律的なツール作成の点で不足していることが多いです。本論文では、柔軟性、リソース効率、適応性を向上させる新しいMASフレームワークであるHASHIRU(Hierarchical Agent System for Hybrid Intelligent Resource Utilization)を紹介します。HASHIRUは、タスクのニーズとリソース制約(コスト、メモリ)に基づいてインスタンス化される専門的な「従業員」エージェントを動的に管理する「CEO」エージェントを特徴としています。そのハイブリッド知能は、小規模なローカルLLM(Ollama経由)を優先しつつ、必要に応じて外部APIや大規模モデルを柔軟に使用します。採用/解雇コストを含む経済モデルは、チームの安定性と効率的なリソース配分を促進します。また、システムには自律的なAPIツール作成機能とメモリ機能も含まれています。学術論文レビュー(58%の成功率)、安全性評価(JailbreakBenchのサブセットで100%)、複雑な推論(GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%でGemini 2.0 Flashを上回る)などのタスクでの評価により、HASHIRUの能力が実証されています。ケーススタディでは、自律的なコストモデル生成、ツール統合、予算管理による自己改善が示されています。HASHIRUは、動的な階層制御、リソースを意識したハイブリッド知能、自律的な機能拡張を通じて、より堅牢で効率的かつ適応性の高いMASを実現する有望なアプローチを提供します。ソースコードとベンチマークはそれぞれhttps://github.com/HASHIRU-AI/HASHIRUとhttps://github.com/HASHIRU-AI/HASHIRUBenchで公開されており、リクエストに応じてライブデモもhttps://hashiruagentx-hashiruai.hf.spaceで利用可能です。
English
Rapid Large Language Model (LLM) advancements are fueling autonomous
Multi-Agent System (MAS) development. However, current frameworks often lack
flexibility, resource awareness, model diversity, and autonomous tool creation.
This paper introduces HASHIRU (Hierarchical Agent System for Hybrid Intelligent
Resource Utilization), a novel MAS framework enhancing flexibility, resource
efficiency, and adaptability. HASHIRU features a "CEO" agent dynamically
managing specialized "employee" agents, instantiated based on task needs and
resource constraints (cost, memory). Its hybrid intelligence prioritizes
smaller, local LLMs (via Ollama) while flexibly using external APIs and larger
models when necessary. An economic model with hiring/firing costs promotes team
stability and efficient resource allocation. The system also includes
autonomous API tool creation and a memory function. Evaluations on tasks like
academic paper review (58% success), safety assessments (100% on a
JailbreakBench subset), and complex reasoning (outperforming Gemini 2.0 Flash
on GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%) demonstrate
HASHIRU's capabilities. Case studies illustrate its self-improvement via
autonomous cost model generation, tool integration, and budget management.
HASHIRU offers a promising approach for more robust, efficient, and adaptable
MAS through dynamic hierarchical control, resource-aware hybrid intelligence,
and autonomous functional extension. Source code and benchmarks are available
at https://github.com/HASHIRU-AI/HASHIRU and
https://github.com/HASHIRU-AI/HASHIRUBench respectively, and a live demo is
available at https://hashiruagentx-hashiruai.hf.space upon request.