InternLM-XComposer2.5-OmniLive: Um Sistema Multimodal Abrangente para Interações de Vídeo e Áudio em Streaming de Longo Prazo
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Autores: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
A criação de sistemas de IA capazes de interagir com ambientes por longos períodos, semelhante à cognição humana, tem sido um objetivo de pesquisa de longa data. Avanços recentes em modelos de linguagem multimodais de grande escala (MLLMs) têm feito progressos significativos na compreensão de mundo aberto. No entanto, o desafio da percepção contínua e simultânea em streaming, memória e raciocínio permanece amplamente inexplorado. Os MLLMs atuais são limitados por sua arquitetura sequência a sequência, o que restringe sua capacidade de processar entradas e gerar respostas simultaneamente, semelhante a não ser capaz de pensar enquanto percebe. Além disso, depender de contextos longos para armazenar dados históricos é impraticável para interações de longo prazo, pois reter todas as informações se torna caro e ineficiente. Portanto, em vez de depender de um único modelo fundamental para realizar todas as funções, este projeto se inspira no conceito de IA Generalista Especializada e introduz mecanismos de percepção, raciocínio e memória em streaming desembaraçados, permitindo interação em tempo real com entrada de vídeo e áudio em streaming. O framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consiste em três módulos principais: (1) Módulo de Percepção em Streaming: Processa informações multimodais em tempo real, armazenando detalhes-chave na memória e acionando o raciocínio em resposta a consultas do usuário. (2) Módulo de Memória Longa Multimodal: Integra memória de curto prazo e longo prazo, comprimindo memórias de curto prazo em memórias de longo prazo para recuperação eficiente e precisão aprimorada. (3) Módulo de Raciocínio: Responde a consultas e executa tarefas de raciocínio, coordenando-se com os módulos de percepção e memória. Este projeto simula a cognição semelhante à humana, permitindo que modelos de linguagem multimodais de grande escala forneçam um serviço contínuo e adaptativo ao longo do tempo.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary