Чат с ИИ: Неожиданный поворот в развитии видеосвязи в реальном времени от человека к искусственному интеллекту
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
July 14, 2025
Авторы: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI
Аннотация
AI Video Chat представляет собой новую парадигму для систем реального времени (Real-time Communication, RTC), где один из участников взаимодействия является не человеком, а мультимодальной крупной языковой моделью (Multimodal Large Language Model, MLLM). Это делает взаимодействие между человеком и ИИ более интуитивным, как будто происходит общение лицом к лицу с реальным человеком. Однако это создает значительные проблемы с задержкой, поскольку процесс вывода MLLM занимает большую часть времени ответа, оставляя очень мало времени для потоковой передачи видео. Из-за неопределенности и нестабильности сетевого соединения задержка передачи становится критическим узким местом, препятствующим тому, чтобы ИИ вел себя как реальный человек. Для решения этой проблемы мы предлагаем Artic — фреймворк для систем реального времени, ориентированный на ИИ, который исследует сдвиг сетевых требований от «просмотра видео человеком» к «пониманию видео ИИ». Для значительного снижения битрейта при сохранении точности MLLM мы предлагаем контекстно-зависимую потоковую передачу видео, которая распознает важность каждой области видео для чата и выделяет битрейт почти исключительно для областей, важных для общения. Чтобы избежать повторной передачи пакетов, мы предлагаем адаптивную частоту кадров, устойчивую к потерям, которая использует предыдущие кадры для замены потерянных или задержанных кадров, избегая при этом потерь битрейта. Для оценки влияния качества потоковой передачи видео на точность MLLM мы создали первый бенчмарк под названием Degraded Video Understanding Benchmark (DeViBench). Наконец, мы обсуждаем некоторые открытые вопросы и текущие решения для AI Video Chat.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC),
where one peer is not a human, but a Multimodal Large Language Model (MLLM).
This makes interaction between humans and AI more intuitive, as if chatting
face-to-face with a real person. However, this poses significant challenges to
latency, because the MLLM inference takes up most of the response time, leaving
very little time for video streaming. Due to network uncertainty and
instability, transmission latency becomes a critical bottleneck preventing AI
from being like a real person. To address this, we propose Artic, an
AI-oriented Real-time Communication framework, exploring the network
requirement shift from "humans watching video" to "AI understanding video". To
reduce bitrate dramatically while maintaining MLLM accuracy, we propose
Context-Aware Video Streaming that recognizes the importance of each video
region for chat and allocates bitrate almost exclusively to chat-important
regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive
Frame Rate that leverages previous frames to substitute for lost/delayed frames
while avoiding bitrate waste. To evaluate the impact of video streaming quality
on MLLM accuracy, we build the first benchmark, named Degraded Video
Understanding Benchmark (DeViBench). Finally, we discuss some open questions
and ongoing solutions for AI Video Chat.