Chatten met AI: De verrassende wending van real-time videocommunicatie van mens naar AI
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
July 14, 2025
Auteurs: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI
Samenvatting
AI Video Chat ontstaat als een nieuw paradigma voor Real-time Communicatie (RTC),
waarbij één partij geen mens is, maar een Multimodaal Taalmodel op Grote Schaal (MLLM).
Dit maakt de interactie tussen mensen en AI intuïtiever, alsof je face-to-face
praat met een echt persoon. Dit brengt echter aanzienlijke uitdagingen met zich mee op het gebied van
latentie, omdat de MLLM-inferentie het grootste deel van de reactietijd in beslag neemt, waardoor
er zeer weinig tijd overblijft voor videostreaming. Door netwerkonzekerheid en
-instabiliteit wordt transmissielatentie een kritieke bottleneck die voorkomt dat AI
op een echt persoon lijkt. Om dit aan te pakken, stellen we Artic voor, een
AI-gericht Real-time Communicatie-framework, dat de verschuiving in netwerkvereisten onderzoekt van "mensen die video bekijken" naar "AI die video begrijpt". Om
de bitrate drastisch te verlagen terwijl de nauwkeurigheid van het MLLM behouden blijft, stellen we
Context-Aware Video Streaming voor, dat het belang van elk videogebied voor de chat herkent en de bitrate vrijwel uitsluitend toewijst aan chat-belangrijke
gebieden. Om pakketretransmissie te voorkomen, stellen we Loss-Resilient Adaptive
Frame Rate voor, dat gebruikmaakt van vorige frames om verloren/vertraagde frames te vervangen
terwijl bitrateverspilling wordt vermeden. Om de impact van videostreamingkwaliteit op de nauwkeurigheid van het MLLM te evalueren, bouwen we de eerste benchmark, genaamd Degraded Video
Understanding Benchmark (DeViBench). Tot slot bespreken we enkele open vragen
en lopende oplossingen voor AI Video Chat.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC),
where one peer is not a human, but a Multimodal Large Language Model (MLLM).
This makes interaction between humans and AI more intuitive, as if chatting
face-to-face with a real person. However, this poses significant challenges to
latency, because the MLLM inference takes up most of the response time, leaving
very little time for video streaming. Due to network uncertainty and
instability, transmission latency becomes a critical bottleneck preventing AI
from being like a real person. To address this, we propose Artic, an
AI-oriented Real-time Communication framework, exploring the network
requirement shift from "humans watching video" to "AI understanding video". To
reduce bitrate dramatically while maintaining MLLM accuracy, we propose
Context-Aware Video Streaming that recognizes the importance of each video
region for chat and allocates bitrate almost exclusively to chat-important
regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive
Frame Rate that leverages previous frames to substitute for lost/delayed frames
while avoiding bitrate waste. To evaluate the impact of video streaming quality
on MLLM accuracy, we build the first benchmark, named Degraded Video
Understanding Benchmark (DeViBench). Finally, we discuss some open questions
and ongoing solutions for AI Video Chat.