ChatPaper.aiChatPaper

Converser avec l'IA : Le tournant surprenant de la communication vidéo en temps réel de l'humain à l'IA

Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

July 14, 2025
papers.authors: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI

papers.abstract

Le Chat Vidéo IA émerge comme un nouveau paradigme pour la Communication en Temps Réel (RTC), où un des interlocuteurs n'est pas un humain, mais un Modèle de Langage Multimodal de Grande Taille (MLLM). Cela rend l'interaction entre les humains et l'IA plus intuitive, comme si l'on discutait face à face avec une personne réelle. Cependant, cela pose des défis majeurs en termes de latence, car l'inférence du MLLM occupe la majeure partie du temps de réponse, laissant très peu de temps pour le streaming vidéo. En raison de l'incertitude et de l'instabilité du réseau, la latence de transmission devient un goulot d'étranglement critique empêchant l'IA de se comporter comme une personne réelle. Pour résoudre ce problème, nous proposons Artic, un cadre de Communication en Temps Réel orienté IA, explorant le changement des exigences réseau de "l'humain regardant la vidéo" à "l'IA comprenant la vidéo". Pour réduire considérablement le débit tout en maintenant la précision du MLLM, nous proposons le Streaming Vidéo Sensible au Contexte qui reconnaît l'importance de chaque région vidéo pour la conversation et alloue le débit presque exclusivement aux régions importantes pour le chat. Pour éviter la retransmission de paquets, nous proposons le Taux de Rafraîchissement Adaptatif Résilient aux Pertes qui exploite les images précédentes pour remplacer les images perdues ou retardées tout en évitant le gaspillage de débit. Pour évaluer l'impact de la qualité du streaming vidéo sur la précision du MLLM, nous avons créé le premier benchmark, nommé Benchmark de Compréhension de Vidéo Dégradée (DeViBench). Enfin, nous discutons de certaines questions ouvertes et des solutions en cours pour le Chat Vidéo IA.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.
PDF42July 28, 2025