Chat com IA: A Surpreendente Virada da Comunicação por Vídeo em Tempo Real de Humanos para IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
July 14, 2025
Autores: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI
Resumo
O Chat de Vídeo com IA surge como um novo paradigma para Comunicação em Tempo Real (RTC), onde um dos interlocutores não é um humano, mas um Modelo de Linguagem Multimodal de Grande Escala (MLLM). Isso torna a interação entre humanos e IA mais intuitiva, como se estivessem conversando face a face com uma pessoa real. No entanto, isso apresenta desafios significativos em relação à latência, pois a inferência do MLLM consome a maior parte do tempo de resposta, deixando muito pouco tempo para o streaming de vídeo. Devido à incerteza e instabilidade da rede, a latência de transmissão se torna um gargalo crítico que impede a IA de se comportar como uma pessoa real. Para resolver isso, propomos o Artic, um framework de Comunicação em Tempo Real orientado para IA, que explora a mudança nos requisitos de rede de "humanos assistindo vídeo" para "IA compreendendo vídeo". Para reduzir drasticamente a taxa de bits enquanto mantém a precisão do MLLM, propomos o Streaming de Vídeo Consciente do Contexto, que reconhece a importância de cada região do vídeo para o chat e aloca a taxa de bits quase exclusivamente para as regiões importantes para a conversa. Para evitar a retransmissão de pacotes, propomos a Taxa de Quadros Adaptável Resiliente a Perdas, que aproveita quadros anteriores para substituir quadros perdidos/atrasados, evitando o desperdício de taxa de bits. Para avaliar o impacto da qualidade do streaming de vídeo na precisão do MLLM, construímos o primeiro benchmark, chamado Benchmark de Compreensão de Vídeo Degradado (DeViBench). Por fim, discutimos algumas questões em aberto e soluções em andamento para o Chat de Vídeo com IA.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC),
where one peer is not a human, but a Multimodal Large Language Model (MLLM).
This makes interaction between humans and AI more intuitive, as if chatting
face-to-face with a real person. However, this poses significant challenges to
latency, because the MLLM inference takes up most of the response time, leaving
very little time for video streaming. Due to network uncertainty and
instability, transmission latency becomes a critical bottleneck preventing AI
from being like a real person. To address this, we propose Artic, an
AI-oriented Real-time Communication framework, exploring the network
requirement shift from "humans watching video" to "AI understanding video". To
reduce bitrate dramatically while maintaining MLLM accuracy, we propose
Context-Aware Video Streaming that recognizes the importance of each video
region for chat and allocates bitrate almost exclusively to chat-important
regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive
Frame Rate that leverages previous frames to substitute for lost/delayed frames
while avoiding bitrate waste. To evaluate the impact of video streaming quality
on MLLM accuracy, we build the first benchmark, named Degraded Video
Understanding Benchmark (DeViBench). Finally, we discuss some open questions
and ongoing solutions for AI Video Chat.