InternLM-XComposer2.5-OmniLive: Комплексная мультимодальная система для долгосрочного потокового взаимодействия с видео и аудио.

Аннотация

Создание систем искусственного интеллекта, способных взаимодействовать с окружающей средой на протяжении длительных периодов, подобно человеческому познанию, является давней целью исследований. Недавние достижения в области мультимодальных крупных языковых моделей (MLLMs) сделали значительные шаги в понимании открытого мира. Однако вызов непрерывного и одновременного потокового восприятия, памяти и рассуждений остается в значительной степени неисследованным. Текущие MLLMs ограничены своей архитектурой последовательности-последовательности, что ограничивает их способность обрабатывать входные данные и генерировать ответы одновременно, подобно невозможности мыслить во время восприятия. Более того, полагаться на длинные контексты для хранения исторических данных непрактично для долгосрочного взаимодействия, поскольку сохранение всей информации становится дорогостоящим и неэффективным. Поэтому вместо полагания на одну основную модель для выполнения всех функций, данный проект черпает вдохновение из концепции Специализированного Генералистского ИИ и представляет потоковые механизмы восприятия, рассуждений и памяти, позволяющие взаимодействовать в реальном времени с потоковым видео- и аудиовходом. Предложенная структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль Потокового Восприятия: Обрабатывает мультимодальную информацию в реальном времени, сохраняя ключевые детали в памяти и вызывая рассуждения в ответ на запросы пользователя. (2) Мультимодульный Долгосрочный Модуль Памяти: Интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и улучшения точности. (3) Модуль Рассуждений: Отвечает на запросы и выполняет задачи рассуждений, взаимодействуя с модулями восприятия и памяти. Данный проект моделирует познание, подобное человеческому, позволяя мультимодальным крупным языковым моделям предоставлять непрерывное и адаптивное обслуживание со временем.

English

Creating AI systems that can interact with environments over long periods, similar to human cognition, has been a longstanding research goal. Recent advancements in multimodal large language models (MLLMs) have made significant strides in open-world understanding. However, the challenge of continuous and simultaneous streaming perception, memory, and reasoning remains largely unexplored. Current MLLMs are constrained by their sequence-to-sequence architecture, which limits their ability to process inputs and generate responses simultaneously, akin to being unable to think while perceiving. Furthermore, relying on long contexts to store historical data is impractical for long-term interactions, as retaining all information becomes costly and inefficient. Therefore, rather than relying on a single foundation model to perform all functions, this project draws inspiration from the concept of the Specialized Generalist AI and introduces disentangled streaming perception, reasoning, and memory mechanisms, enabling real-time interaction with streaming video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module: Processes multimodal information in real-time, storing key details in memory and triggering reasoning in response to user queries. (2) Multi-modal Long Memory Module: Integrates short-term and long-term memory, compressing short-term memories into long-term ones for efficient retrieval and improved accuracy. (3) Reasoning Module: Responds to queries and executes reasoning tasks, coordinating with the perception and memory modules. This project simulates human-like cognition, enabling multimodal large language models to provide continuous and adaptive service over time.

InternLM-XComposer2.5-OmniLive: Комплексная мультимодальная система для долгосрочного потокового взаимодействия с видео и аудио.

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Аннотация

Support