JoyAI-VL-Interaction: Интеллект визуально-языкового взаимодействия в реальном времени

Аннотация

Многие события в реальном мире не ждут, пока пользователь задаст вопрос. Пожар начинается на мониторе системы безопасности, выражение лица мелькает во время видеозвонка, или товар, который хочет зритель, быстро проходит в прямом эфире. Однако сегодняшние большие модели по своей архитектуре остаются в основном пошаговыми: они отвечают только тогда, когда к ним обращаются, и даже приложения для видеозвонков, которые кажутся интерактивными, по-прежнему работают как системы вопросов и ответов, реагируя только при опросе или запросе. Мы предлагаем иную парадигму: модель, которая присутствует в мире как человек. Она непрерывно наблюдает за происходящим сейчас, самостоятельно решает, говорить или молчать, взаимодействует в реальном времени и делегирует задачу фоновой модели, когда проблема сложна. Чтобы продвинуть модели взаимодействия и их внедрение в различных областях, мы вносим два полностью открытых вклада. Во-первых, мы выпускаем JoyAI-VL-Interaction — модель VL-взаимодействия масштаба 8B, ориентированную в первую очередь на зрение. Модель принимает решение об ответе внутренне, выбирая каждую секунду: молчать, ответить или делегировать фоновой модели. Она превосходно справляется с реактивностью, запускаемой зрением, и осознанием времени. Мы дополняем её переносимой методикой обучения, из которой возникают способности, которым мы никогда не учили модель, например, направлять покупателя через смену экранов приложения или импровизировать лекцию по набору слайдов. Во-вторых, мы выпускаем полную, развертываемую систему, построенную вокруг этой модели. Система передает любое текущее видео на вход модели, делая её по-настоящему присутствующей в мире. Все остальные компоненты являются подключаемыми, включая модули ASR/TTS, память, пользовательский интерфейс визуализации и фоновый мозг, который может подключаться к любому API или агенту. В шести реальных сценариях человеческие рецензенты значительно предпочитают JoyAI-VL-Interaction по сравнению с внутриприложенными помощниками видеозвонков от Doubao и Gemini. Насколько нам известно, это первая открытая модель взаимодействия, управляемая зрением, выпущенная вместе с методикой обучения, данными и полной развертываемой системой.

English

Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.