MIRIX: LLMベースエージェントのためのマルチエージェントメモリシステム
MIRIX: Multi-Agent Memory System for LLM-Based Agents
July 10, 2025
著者: Yu Wang, Xi Chen
cs.AI
要旨
AIエージェントの記憶能力が注目を集める中、既存のソリューションは根本的に限界がある。ほとんどのアプローチは、フラットで狭い範囲の記憶コンポーネントに依存しており、ユーザー固有の情報を時間をかけてパーソナライズし、抽象化し、確実に想起する能力が制約されている。この課題を解決するため、我々はMIRIXを提案する。MIRIXは、モジュール型のマルチエージェント記憶システムであり、言語モデルが真に記憶することを可能にするという、この分野の最も重要な課題を解決することで、AI記憶の未来を再定義する。従来のアプローチとは異なり、MIRIXはテキストを超えて豊かな視覚的およびマルチモーダルな体験を取り入れ、現実世界のシナリオで記憶を真に有用なものにする。MIRIXは、コア、エピソード、意味、手続き、リソース記憶、およびナレッジボールトという6つの異なる、慎重に構造化された記憶タイプで構成され、更新と検索を動的に制御・調整するマルチエージェントフレームワークと連携する。この設計により、エージェントは多様で長期的なユーザーデータを大規模に保持し、推論し、正確に検索することが可能となる。我々はMIRIXを2つの厳しい設定で検証した。まず、ScreenshotVQAでは、シーケンスごとに約20,000枚の高解像度コンピュータスクリーンショットを含む挑戦的なマルチモーダルベンチマークにおいて、深い文脈理解を必要とし、既存の記憶システムが適用できない状況で、MIRIXはRAGベースラインよりも35%高い精度を達成し、ストレージ要件を99.9%削減した。次に、LOCOMOでは、単一モーダルのテキスト入力による長文会話ベンチマークにおいて、MIRIXは85.4%の最先端性能を達成し、既存のベースラインを大きく上回った。これらの結果は、MIRIXが記憶拡張型LLMエージェントの新たな性能基準を確立したことを示している。ユーザーが我々の記憶システムを体験できるよう、MIRIXを活用したパッケージアプリケーションを提供する。このアプリケーションは、画面をリアルタイムで監視し、パーソナライズされた記憶ベースを構築し、直感的な視覚化と安全なローカルストレージを提供することでプライバシーを確保する。
English
Although memory capabilities of AI agents are gaining increasing attention,
existing solutions remain fundamentally limited. Most rely on flat, narrowly
scoped memory components, constraining their ability to personalize, abstract,
and reliably recall user-specific information over time. To this end, we
introduce MIRIX, a modular, multi-agent memory system that redefines the future
of AI memory by solving the field's most critical challenge: enabling language
models to truly remember. Unlike prior approaches, MIRIX transcends text to
embrace rich visual and multimodal experiences, making memory genuinely useful
in real-world scenarios. MIRIX consists of six distinct, carefully structured
memory types: Core, Episodic, Semantic, Procedural, Resource Memory, and
Knowledge Vault, coupled with a multi-agent framework that dynamically controls
and coordinates updates and retrieval. This design enables agents to persist,
reason over, and accurately retrieve diverse, long-term user data at scale. We
validate MIRIX in two demanding settings. First, on ScreenshotVQA, a
challenging multimodal benchmark comprising nearly 20,000 high-resolution
computer screenshots per sequence, requiring deep contextual understanding and
where no existing memory systems can be applied, MIRIX achieves 35% higher
accuracy than the RAG baseline while reducing storage requirements by 99.9%.
Second, on LOCOMO, a long-form conversation benchmark with single-modal textual
input, MIRIX attains state-of-the-art performance of 85.4%, far surpassing
existing baselines. These results show that MIRIX sets a new performance
standard for memory-augmented LLM agents. To allow users to experience our
memory system, we provide a packaged application powered by MIRIX. It monitors
the screen in real time, builds a personalized memory base, and offers
intuitive visualization and secure local storage to ensure privacy.