ChatPaper.aiChatPaper

Chat mit KI: Die überraschende Wende der Echtzeit-Videokommunikation von Mensch zu KI

Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

July 14, 2025
papers.authors: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI

papers.abstract

AI-Video-Chat etabliert sich als neues Paradigma für Echtzeitkommunikation (Real-time Communication, RTC), bei dem ein Kommunikationspartner kein Mensch, sondern ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM) ist. Dies macht die Interaktion zwischen Mensch und KI intuitiver, als würde man sich mit einer realen Person von Angesicht zu Angesicht unterhalten. Allerdings stellt dies erhebliche Herausforderungen an die Latenz, da die Inferenz des MLLM den Großteil der Antwortzeit beansprucht und nur sehr wenig Zeit für den Video-Streaming-Prozess bleibt. Aufgrund von Netzwerkunsicherheiten und -instabilitäten wird die Übertragungslatenz zu einem kritischen Engpass, der verhindert, dass die KI wie eine reale Person agiert. Um dies zu lösen, schlagen wir Artic vor, ein KI-orientiertes Echtzeitkommunikations-Framework, das den Netzwerkanforderungswechsel von „Menschen, die Videos ansehen“ zu „KI, die Videos versteht“ untersucht. Um die Bitrate drastisch zu reduzieren und gleichzeitig die Genauigkeit des MLLM zu erhalten, schlagen wir Context-Aware Video Streaming vor, das die Bedeutung jeder Videoregion für den Chat erkennt und die Bitrate fast ausschließlich auf chatrelevante Regionen verteilt. Um Paketwiederholungen zu vermeiden, schlagen wir Loss-Resilient Adaptive Frame Rate vor, das vorherige Frames nutzt, um verlorene oder verzögerte Frames zu ersetzen und dabei Bitrateverschwendung zu vermeiden. Um die Auswirkungen der Video-Streaming-Qualität auf die Genauigkeit des MLLM zu bewerten, haben wir den ersten Benchmark entwickelt, den Degraded Video Understanding Benchmark (DeViBench). Abschließend diskutieren wir einige offene Fragen und laufende Lösungen für AI-Video-Chat.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.
PDF42July 28, 2025