InternLM-XComposer2.5-OmniLive : Un système multimodal complet pour les interactions vidéo et audio en streaming à long terme
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Auteurs: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
La création de systèmes d'IA capables d'interagir avec des environnements sur de longues périodes, similaire à la cognition humaine, est un objectif de recherche de longue date. Les récents progrès dans les modèles de langage multimodaux de grande taille (MLLM) ont réalisé des avancées significatives dans la compréhension du monde ouvert. Cependant, le défi de la perception en continu et simultanée en flux, de la mémoire et du raisonnement reste largement inexploré. Les MLLM actuels sont limités par leur architecture de séquence à séquence, ce qui restreint leur capacité à traiter les entrées et générer des réponses simultanément, semblable à l'incapacité de penser tout en percevant. De plus, se reposer sur de longs contextes pour stocker des données historiques est impraticable pour des interactions à long terme, car conserver toutes les informations devient coûteux et inefficace. Par conséquent, au lieu de s'appuyer sur un modèle de base unique pour effectuer toutes les fonctions, ce projet s'inspire du concept d'IA généraliste spécialisée et introduit des mécanismes de perception, de raisonnement et de mémoire en flux désenchevêtrés, permettant une interaction en temps réel avec des entrées vidéo et audio en flux. Le cadre proposé, InternLM-XComposer2.5-OmniLive (IXC2.5-OL), se compose de trois modules clés : (1) Module de Perception en Flux : Traite les informations multimodales en temps réel, stocke les détails clés en mémoire et déclenche le raisonnement en réponse aux requêtes de l'utilisateur. (2) Module de Mémoire Longue Multi-modale : Intègre la mémoire à court terme et à long terme, comprime les souvenirs à court terme en souvenirs à long terme pour une récupération efficace et une précision améliorée. (3) Module de Raisonnement : Répond aux requêtes et exécute des tâches de raisonnement, en coordination avec les modules de perception et de mémoire. Ce projet simule une cognition semblable à celle humaine, permettant aux modèles de langage multimodaux de grande taille de fournir un service continu et adaptatif au fil du temps.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary