InternLM-XComposer2.5-OmniLive: 長期ストリーミングビデオおよびオーディオインタラクションのための包括的なマルチモーダルシステム
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
著者: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
要旨
人間の認知に類似した、環境と長期間にわたってやり取りできるAIシステムを作成することは、長年の研究目標でした。最近の多様な言語モデル(MLLMs)の進歩により、オープンワールド理解において大きな進展が見られました。しかし、連続して同時にストリーミングされる知覚、記憶、および推論の課題は、ほとんど未開拓のままです。現在のMLLMsは、シーケンス間のアーキテクチャに制約があり、入力を処理し応答を生成する能力が同時に制限されており、知覚と思考を同時に行うことができない状況に似ています。さらに、長いコンテキストに依存して歴史的データを保存することは、長期的な相互作用には非効率でコストがかかるため、実用的ではありません。したがって、すべての機能を実行するために単一の基礎モデルに依存するのではなく、このプロジェクトはSpecialized Generalist AIの概念からインスピレーションを得て、ストリーミングされた知覚、推論、および記憶メカニズムを導入し、ストリーミングビデオとオーディオ入力とのリアルタイムなやり取りを可能にします。提案されたフレームワークInternLM-XComposer2.5-OmniLive(IXC2.5-OL)は、次の3つの主要モジュールで構成されています:(1)ストリーミング知覚モジュール:リアルタイムで多様な情報を処理し、重要な詳細を記憶に保存し、ユーザークエリに応じて推論をトリガーします。 (2)マルチモーダル長期記憶モジュール:短期および長期記憶を統合し、短期記憶を長期記憶に圧縮して効率的な検索と精度向上を実現します。 (3)推論モジュール:クエリに応答し推論タスクを実行し、知覚と記憶モジュールと連携します。このプロジェクトは、人間のような認知をシミュレートし、多様な言語モデルが時間をかけて連続的かつ適応的なサービスを提供できるようにします。
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary