ChatPaper.aiChatPaper

AIとのチャット:人間からAIへのリアルタイム映像通信の驚くべき転換

Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

July 14, 2025
著者: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang
cs.AI

要旨

AIビデオチャットは、リアルタイムコミュニケーション(RTC)の新たなパラダイムとして登場し、その一端が人間ではなくマルチモーダル大規模言語モデル(MLLM)であるという特徴を持っています。これにより、人間とAIの間のインタラクションは、まるで実際の人物と対面で会話しているかのように直感的になります。しかし、MLLMの推論が応答時間の大部分を占めるため、ビデオストリーミングに割り当てられる時間が非常に限られ、レイテンシが大きな課題となります。ネットワークの不確実性と不安定性により、伝送遅延はAIが実際の人物のように振る舞うことを妨げる重大なボトルネックとなります。この問題に対処するため、我々はAI指向のリアルタイムコミュニケーションフレームワーク「Artic」を提案し、「人間がビデオを見る」から「AIがビデオを理解する」というネットワーク要件の変化を探求します。MLLMの精度を維持しながらビットレートを大幅に削減するため、チャットにとって重要なビデオ領域を認識し、ビットレートをほぼ独占的にその領域に割り当てる「コンテキスト対応ビデオストリーミング」を提案します。パケット再送信を回避するため、失われたまたは遅延したフレームを以前のフレームで代替しつつ、ビットレートの無駄を防ぐ「損失耐性適応フレームレート」を提案します。ビデオストリーミング品質がMLLMの精度に与える影響を評価するため、初のベンチマーク「Degraded Video Understanding Benchmark(DeViBench)」を構築します。最後に、AIビデオチャットに関するいくつかの未解決の問題と進行中の解決策について議論します。
English
AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.
PDF42July 28, 2025