OmniInteract: Бенчмаркинг потокового взаимодействия в реальном мире для омнимодальных ассистентов реального времени

Аннотация

Мы представляем OmniInteract — потоковый бенчмарк для оценки многомодальных больших языковых моделей в реальном времени, основанный на нативной онлайн-обработке аудиовизуальных потоков. В отличие от задач офлайн-понимания видео или ответов на запросы по текстовым подсказкам в потоковом режиме, OmniInteract сохраняет исходный аудиовизуальный поток и требует, чтобы модели обрабатывали его онлайн, без доступа к будущему контенту. Пользовательские запросы и фоновые звуки встроены в аудиодорожку, что вынуждает модели обнаруживать мультимодальные триггеры, принимать решение о моменте ответа и давать ответ по мере развертывания потока. OmniInteract содержит 250 видеороликов с 1430 временно привязанными слотами для ответов: 1062 слота формата «1 вопрос — 1 ответ» для сценариев реального времени, проактивного взаимодействия и вложенных запросов, а также 368 слотов формата «1 вопрос — несколько ответов» для непрерывного мониторинга задач и пошагового руководства. Каждый слот включает триггер, окно ответа и целевой ответ. Мы оцениваем корректность ответов, временные характеристики, некорректные выходные данные, обработку прерываний и непрерывность контекста с помощью метрик Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite и Nested Chain Completion Score. Эксперименты показывают, что современные модели остаются слабыми в потоковом взаимодействии: наилучший общий показатель IA-QTF1 достигает лишь 0,368, а лучший показатель для формата «1 вопрос — несколько ответов» составляет всего 0,052. Дальнейшее исследование математических рассуждений в условиях полнодуплексной связи показывает, что офлайн-способности не обязательно переносятся на онлайн-взаимодействие. Код и наборы данных будут доступны по адресу https://github.com/Lucky-Lance/OmniInteract.

English

We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.