Chatta con l'IA: La Svolta Sorprendente della Comunicazione Video in Tempo Reale da Umano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
July 14, 2025
Autori: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI
Abstract
AI Video Chat emerge come un nuovo paradigma per la Comunicazione in Tempo Reale (RTC), in cui uno degli interlocutori non è un essere umano, ma un Modello Linguistico Multimodale di Grande Scala (MLLM). Ciò rende l'interazione tra esseri umani e IA più intuitiva, come se si stesse chattando faccia a faccia con una persona reale. Tuttavia, questo pone sfide significative in termini di latenza, poiché l'inferenza dell'MLLM occupa la maggior parte del tempo di risposta, lasciando pochissimo tempo per lo streaming video. A causa dell'incertezza e dell'instabilità della rete, la latenza di trasmissione diventa un collo di bottiglia critico che impedisce all'IA di comportarsi come una persona reale. Per affrontare questo problema, proponiamo Artic, un framework di Comunicazione in Tempo Reale orientato all'IA, che esplora il cambiamento dei requisiti di rete da "umani che guardano video" a "IA che comprende video". Per ridurre drasticamente il bitrate mantenendo l'accuratezza dell'MLLM, proponiamo uno Streaming Video Consapevole del Contesto che riconosce l'importanza di ciascuna regione video per la chat e assegna il bitrate quasi esclusivamente alle regioni importanti per la chat. Per evitare la ritrasmissione dei pacchetti, proponiamo una Frequenza dei Fotogrammi Adattiva Resiliente alle Perdite che sfrutta i fotogrammi precedenti per sostituire quelli persi/ritardati, evitando sprechi di bitrate. Per valutare l'impatto della qualità dello streaming video sull'accuratezza dell'MLLM, abbiamo creato il primo benchmark, denominato Degraded Video Understanding Benchmark (DeViBench). Infine, discutiamo alcune questioni aperte e soluzioni in corso per l'AI Video Chat.
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC),
where one peer is not a human, but a Multimodal Large Language Model (MLLM).
This makes interaction between humans and AI more intuitive, as if chatting
face-to-face with a real person. However, this poses significant challenges to
latency, because the MLLM inference takes up most of the response time, leaving
very little time for video streaming. Due to network uncertainty and
instability, transmission latency becomes a critical bottleneck preventing AI
from being like a real person. To address this, we propose Artic, an
AI-oriented Real-time Communication framework, exploring the network
requirement shift from "humans watching video" to "AI understanding video". To
reduce bitrate dramatically while maintaining MLLM accuracy, we propose
Context-Aware Video Streaming that recognizes the importance of each video
region for chat and allocates bitrate almost exclusively to chat-important
regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive
Frame Rate that leverages previous frames to substitute for lost/delayed frames
while avoiding bitrate waste. To evaluate the impact of video streaming quality
on MLLM accuracy, we build the first benchmark, named Degraded Video
Understanding Benchmark (DeViBench). Finally, we discuss some open questions
and ongoing solutions for AI Video Chat.