InternLM-XComposer2.5-OmniLive: Ein umfassendes multimodales System für langfristige Streaming-Video- und Audio-Interaktionen
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Autoren: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Zusammenfassung
Die Schaffung von KI-Systemen, die über lange Zeiträume hinweg mit Umgebungen interagieren können, ähnlich wie die menschliche Kognition, ist ein langjähriges Forschungsziel. Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben bedeutende Fortschritte im Verständnis von offenen Welten gemacht. Die Herausforderung der kontinuierlichen und gleichzeitigen Streaming-Wahrnehmung, Speicherung und Schlussfolgerung bleibt jedoch weitgehend unerforscht. Aktuelle MLLMs sind durch ihre Sequenz-zu-Sequenz-Architektur eingeschränkt, was ihre Fähigkeit zur Verarbeitung von Eingaben und gleichzeitigen Generierung von Antworten begrenzt, ähnlich wie das Unvermögen zu denken, während man wahrnimmt. Darüber hinaus ist es unpraktisch, auf lange Kontexte zur Speicherung historischer Daten zu vertrauen, da das Beibehalten aller Informationen teuer und ineffizient wird. Daher greift dieses Projekt nicht auf ein einzelnes Grundlagenmodell zurück, um alle Funktionen auszuführen, sondern lässt sich vom Konzept der Spezialisierten Generalistischen KI inspirieren und führt entwirrte Streaming-Wahrnehmungs-, Schlussfolgerungs- und Gedächtnismechanismen ein, die eine Echtzeitinteraktion mit Streaming-Video- und Audioeingaben ermöglichen. Der vorgeschlagene Rahmen InternLM-XComposer2.5-OmniLive (IXC2.5-OL) besteht aus drei Schlüsselmodulen: (1) Streaming-Wahrnehmungsmodul: Verarbeitet multimodale Informationen in Echtzeit, speichert Schlüsseldetails im Gedächtnis und löst Schlussfolgerungen als Reaktion auf Benutzeranfragen aus. (2) Multimodales Langzeitgedächtnismodul: Integriert Kurzzeit- und Langzeitgedächtnis, komprimiert Kurzzeitgedächtnisse zu Langzeitgedächtnissen für effiziente Abrufbarkeit und verbesserte Genauigkeit. (3) Schlussfolgerungsmodul: Beantwortet Anfragen und führt Schlussfolgerungsaufgaben aus, koordiniert mit den Wahrnehmungs- und Gedächtnismodulen. Dieses Projekt simuliert eine menschenähnliche Kognition und ermöglicht es multimodalen großen Sprachmodellen, kontinuierlichen und anpassungsfähigen Service im Laufe der Zeit zu bieten.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary