Chatear con IA: El giro sorprendente de la comunicación por video en tiempo real de humano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
July 14, 2025
Autores: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI
Resumen
El Chat de Video con IA surge como un nuevo paradigma para la Comunicación en Tiempo Real (RTC, por sus siglas en inglés), donde uno de los interlocutores no es un humano, sino un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés). Esto hace que la interacción entre humanos e IA sea más intuitiva, como si se estuviera conversando cara a cara con una persona real. Sin embargo, esto plantea desafíos significativos en cuanto a la latencia, ya que la inferencia del MLLM consume la mayor parte del tiempo de respuesta, dejando muy poco tiempo para la transmisión de video. Debido a la incertidumbre e inestabilidad de la red, la latencia de transmisión se convierte en un cuello de botella crítico que impide que la IA se comporte como una persona real. Para abordar este problema, proponemos Artic, un marco de Comunicación en Tiempo Real orientado a la IA, que explora el cambio en los requisitos de la red desde "humanos viendo video" hacia "IA entendiendo video". Para reducir drásticamente la tasa de bits mientras se mantiene la precisión del MLLM, proponemos la Transmisión de Video Consciente del Contexto, que reconoce la importancia de cada región del video para la conversación y asigna la tasa de bits casi exclusivamente a las regiones importantes para el chat. Para evitar la retransmisión de paquetes, proponemos una Tasa de Cuadros Adaptativa Resiliente a Pérdidas, que aprovecha los cuadros anteriores para sustituir los cuadros perdidos o retrasados, evitando el desperdicio de tasa de bits. Para evaluar el impacto de la calidad de la transmisión de video en la precisión del MLLM, construimos el primer punto de referencia, denominado Punto de Referencia de Comprensión de Video Degradado (DeViBench). Finalmente, discutimos algunas preguntas abiertas y soluciones en curso para el Chat de Video con IA.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC),
where one peer is not a human, but a Multimodal Large Language Model (MLLM).
This makes interaction between humans and AI more intuitive, as if chatting
face-to-face with a real person. However, this poses significant challenges to
latency, because the MLLM inference takes up most of the response time, leaving
very little time for video streaming. Due to network uncertainty and
instability, transmission latency becomes a critical bottleneck preventing AI
from being like a real person. To address this, we propose Artic, an
AI-oriented Real-time Communication framework, exploring the network
requirement shift from "humans watching video" to "AI understanding video". To
reduce bitrate dramatically while maintaining MLLM accuracy, we propose
Context-Aware Video Streaming that recognizes the importance of each video
region for chat and allocates bitrate almost exclusively to chat-important
regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive
Frame Rate that leverages previous frames to substitute for lost/delayed frames
while avoiding bitrate waste. To evaluate the impact of video streaming quality
on MLLM accuracy, we build the first benchmark, named Degraded Video
Understanding Benchmark (DeViBench). Finally, we discuss some open questions
and ongoing solutions for AI Video Chat.