InternLM-XComposer2.5-OmniLive: Een uitgebreid multimodaal systeem voor langdurige streaming video- en audiointeracties.
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Auteurs: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Het creëren van AI-systemen die over lange periodes met omgevingen kunnen interageren, vergelijkbaar met menselijke cognitie, is een langdurig onderzoeksdoel geweest. Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft aanzienlijke stappen gezet in het begrijpen van de open wereld. Echter, de uitdaging van continue en gelijktijdige streaming perceptie, geheugen en redenering blijft grotendeels onontgonnen. Huidige MLLM's worden beperkt door hun sequentie-naar-sequentie architectuur, wat hun vermogen beperkt om inputs te verwerken en tegelijkertijd reacties te genereren, vergelijkbaar met niet kunnen denken tijdens het waarnemen. Bovendien is het vertrouwen op lange contexten om historische gegevens op te slaan onpraktisch voor langdurige interacties, aangezien het behouden van alle informatie kostbaar en inefficiënt wordt. Daarom, in plaats van te vertrouwen op een enkel basismodel om alle functies uit te voeren, haalt dit project inspiratie uit het concept van de Gespecialiseerde Generalistische AI en introduceert het ontvlochten streaming perceptie, redenering en geheugenmechanismen, waardoor real-time interactie met streaming video- en audio-invoer mogelijk is. Het voorgestelde raamwerk InternLM-XComposer2.5-OmniLive (IXC2.5-OL) bestaat uit drie belangrijke modules: (1) Streaming Perceptiemodule: Verwerkt multimodale informatie in real-time, slaat belangrijke details op in het geheugen en activeert redenering als reactie op gebruikersvragen. (2) Multi-modale Lange Geheugenmodule: Integreert kortetermijn- en langetermijngeheugen, comprimeert kortetermijnherinneringen tot langetermijnherinneringen voor efficiënte ophaling en verbeterde nauwkeurigheid. (3) Redeneringsmodule: Beantwoordt vragen en voert redeneertaken uit, in samenwerking met de perceptie- en geheugenmodules. Dit project simuleert menselijke cognitie, waardoor multimodale grote taalmodellen continue en aanpasbare service kunnen bieden in de loop van de tijd.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.