ChatPaper.aiChatPaper

Chat com IA: A Surpreendente Virada da Comunicação por Vídeo em Tempo Real de Humanos para IA

Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

July 14, 2025
Autores: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI

Resumo

O Chat de Vídeo com IA surge como um novo paradigma para Comunicação em Tempo Real (RTC), onde um dos interlocutores não é um humano, mas um Modelo de Linguagem Multimodal de Grande Escala (MLLM). Isso torna a interação entre humanos e IA mais intuitiva, como se estivessem conversando face a face com uma pessoa real. No entanto, isso apresenta desafios significativos em relação à latência, pois a inferência do MLLM consome a maior parte do tempo de resposta, deixando muito pouco tempo para o streaming de vídeo. Devido à incerteza e instabilidade da rede, a latência de transmissão se torna um gargalo crítico que impede a IA de se comportar como uma pessoa real. Para resolver isso, propomos o Artic, um framework de Comunicação em Tempo Real orientado para IA, que explora a mudança nos requisitos de rede de "humanos assistindo vídeo" para "IA compreendendo vídeo". Para reduzir drasticamente a taxa de bits enquanto mantém a precisão do MLLM, propomos o Streaming de Vídeo Consciente do Contexto, que reconhece a importância de cada região do vídeo para o chat e aloca a taxa de bits quase exclusivamente para as regiões importantes para a conversa. Para evitar a retransmissão de pacotes, propomos a Taxa de Quadros Adaptável Resiliente a Perdas, que aproveita quadros anteriores para substituir quadros perdidos/atrasados, evitando o desperdício de taxa de bits. Para avaliar o impacto da qualidade do streaming de vídeo na precisão do MLLM, construímos o primeiro benchmark, chamado Benchmark de Compreensão de Vídeo Degradado (DeViBench). Por fim, discutimos algumas questões em aberto e soluções em andamento para o Chat de Vídeo com IA.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.
PDF42July 28, 2025