JoyAI-VL-Interaction : Intelligence d'interaction vision-langage en temps réel
JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence
June 10, 2026
Auteurs: Dingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang
cs.AI
Résumé
De nombreux moments du monde réel n’attendent pas qu’un utilisateur pose une question. Un incendie se déclenche sur un écran de surveillance, une expression traverse un appel vidéo, ou un produit qu’un spectateur souhaite zien apparaît furtivement dans un live. Pourtant, les grands modèles actuels restent majoritairement conçus sur un mode tour par tour : ils ne répondent que lorsqu’on s’adresse à eux, et même les applications d’appel vidéo qui semblent interactives fonctionnent encore comme des systèmes questions-réponses, ne réagissant que lorsqu’elles sont interrogées ou sollicitées. Nous plaidons pour un paradigme différent : un modèle qui soit présent dans le monde à la manière d’une personne. Il observe en continu ce qui se passe à l’instant, décide de lui-même s’il doit parler ou se taire, interagit en temps réel, et délègue à un modèle en arrière-plan lorsque le problème est difficile. Pour faire progresser les modèles d’interaction et leur adoption dans divers domaines, nous apportons deux contributions entièrement open source. Premièrement, nous publions JoyAI-VL-Interaction, un modèle d’interaction VL (vision-langage) centré sur la vision de taille 8B. Le modèle prend la décision de réponse en interne, choisissant chaque seconde de rester silencieux, de répondre ou de déléguer à un modèle en arrière-plan, et il excelle dans la réactivité déclenchée par la vision et la conscience temporelle. Nous l’accompagnons d’une recette d’entraînement transférable, à partir de laquelle émergent des capacités pour lesquelles nous n’avons jamais entraîné le modèle, comme guider un acheteur à travers des changements d’écran d’application ou improviser un cours à partir d’un diaporama. Deuxièmement, nous publions un système complet et déployable construit autour de ce modèle. Ce système diffuse en continu toute vidéo en cours dans le modèle, le rendant véritablement présent dans le monde. Tous les autres composants sont enfichables, notamment les modules ASR/TTS, la mémoire, l’interface de visualisation et un cerveau en arrière-plan pouvant se connecter à n’importe quelle API ou agent. Dans six scénarios du monde réel, les évaluateurs humains préfèrent largement JoyAI-VL-Interaction aux assistants d’appel vidéo intégrés de Doubao et Gemini. À notre connaissance, il s’agit du premier modèle d’interaction ouvert, piloté par la vision, publié avec sa recette d’entraînement, ses données et son système complet déployable.
English
Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.