Chatear con IA: El giro sorprendente de la comunicación por video en tiempo real de humano a IA

Resumen

El Chat de Video con IA surge como un nuevo paradigma para la Comunicación en Tiempo Real (RTC, por sus siglas en inglés), donde uno de los interlocutores no es un humano, sino un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés). Esto hace que la interacción entre humanos e IA sea más intuitiva, como si se estuviera conversando cara a cara con una persona real. Sin embargo, esto plantea desafíos significativos en cuanto a la latencia, ya que la inferencia del MLLM consume la mayor parte del tiempo de respuesta, dejando muy poco tiempo para la transmisión de video. Debido a la incertidumbre e inestabilidad de la red, la latencia de transmisión se convierte en un cuello de botella crítico que impide que la IA se comporte como una persona real. Para abordar este problema, proponemos Artic, un marco de Comunicación en Tiempo Real orientado a la IA, que explora el cambio en los requisitos de la red desde "humanos viendo video" hacia "IA entendiendo video". Para reducir drásticamente la tasa de bits mientras se mantiene la precisión del MLLM, proponemos la Transmisión de Video Consciente del Contexto, que reconoce la importancia de cada región del video para la conversación y asigna la tasa de bits casi exclusivamente a las regiones importantes para el chat. Para evitar la retransmisión de paquetes, proponemos una Tasa de Cuadros Adaptativa Resiliente a Pérdidas, que aprovecha los cuadros anteriores para sustituir los cuadros perdidos o retrasados, evitando el desperdicio de tasa de bits. Para evaluar el impacto de la calidad de la transmisión de video en la precisión del MLLM, construimos el primer punto de referencia, denominado Punto de Referencia de Comprensión de Video Degradado (DeViBench). Finalmente, discutimos algunas preguntas abiertas y soluciones en curso para el Chat de Video con IA.

English

AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.

Chatear con IA: El giro sorprendente de la comunicación por video en tiempo real de humano a IA

Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

Resumen

Support