InternLM-XComposer2.5-OmniLive: Un sistema multimodal integral para interacciones de video y audio en tiempo real a largo plazo.
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Autores: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
La creación de sistemas de IA que puedan interactuar con entornos durante largos períodos, similar a la cognición humana, ha sido un objetivo de investigación de larga data. Los avances recientes en modelos de lenguaje multimodal grandes (MLLMs, por sus siglas en inglés) han logrado avances significativos en la comprensión de entornos abiertos. Sin embargo, el desafío de la percepción continua y simultánea en tiempo real, memoria y razonamiento sigue siendo en gran medida inexplorado. Los MLLMs actuales están limitados por su arquitectura de secuencia a secuencia, lo que restringe su capacidad para procesar entradas y generar respuestas simultáneamente, similar a no poder pensar mientras se percibe. Además, depender de contextos largos para almacenar datos históricos resulta poco práctico para interacciones a largo plazo, ya que retener toda la información se vuelve costoso e ineficiente. Por lo tanto, en lugar de depender de un único modelo base para realizar todas las funciones, este proyecto se inspira en el concepto de la IA Generalista Especializada e introduce mecanismos de percepción, razonamiento y memoria en tiempo real y desacoplados, permitiendo la interacción en tiempo real con entradas de video y audio en continuo. El marco propuesto, InternLM-XComposer2.5-OmniLive (IXC2.5-OL), consta de tres módulos clave: (1) Módulo de Percepción en Tiempo Real: Procesa información multimodal en tiempo real, almacenando detalles clave en la memoria y activando el razonamiento en respuesta a consultas de usuario. (2) Módulo de Memoria Larga Multi-modal: Integra memoria a corto y largo plazo, comprimiendo memorias a corto plazo en memorias a largo plazo para una recuperación eficiente y una precisión mejorada. (3) Módulo de Razonamiento: Responde a consultas y ejecuta tareas de razonamiento, coordinándose con los módulos de percepción y memoria. Este proyecto simula la cognición similar a la humana, permitiendo que los modelos de lenguaje multimodal grandes proporcionen un servicio continuo y adaptativo con el tiempo.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary