JoyAI-VL-Interaction: real-time visie-taalinteractie-intelligentie

Samenvatting

Veel momenten in de echte wereld wachten niet op een vraag van een gebruiker. Er ontstaat een brand op een beveiligingsmonitor, een gezichtsuitdrukking flitst voorbij tijdens een videogesprek, of een product dat een kijker wil, schiet voorbij in een livestream. Toch blijven de huidige grote modellen grotendeels beurtgebonden qua ontwerp: ze antwoorden alleen als ze worden aangesproken, en zelfs videobel-apps die interactief lijken, werken nog steeds als vraag-antwoordsystemen, die alleen reageren wanneer ze worden gepolst of aangespoord. Wij pleiten voor een ander paradigma: een model dat aanwezig is in de wereld als een mens. Het kijkt continu naar wat er nu gebeurt, beslist zelf of het spreekt of stil blijft, interacteert in realtime en delegeert naar een achtergrondmodel wanneer het probleem moeilijk is. Om interactiemodellen en hun adoptie in verschillende domeinen te bevorderen, leveren we twee volledig open-source bijdragen. Ten eerste brengen we JoyAI-VL-Interaction uit, een 8B-schaal, visie-eerst VL-interactiemodel. Het model neemt de responsbeslissing intern, waarbij het elke seconde kiest om stil te blijven, te reageren of te delegeren naar een achtergrondmodel, en blinkt uit in visie-getriggerde responsiviteit en tijdsbewustzijn. We koppelen het aan een overdraagbaar trainingsrecept, waaruit mogelijkheden voortkomen die we nooit hebben getraind, zoals het begeleiden van een shopper door veranderende app-schermen of het improviseren van een college aan de hand van een diapresentatie. Ten tweede brengen we een compleet, implementeerbaar systeem uit dat rond dat model is gebouwd. Het systeem streamt elke lopende video naar het model, waardoor het echt aanwezig is in de wereld. Alle andere componenten zijn inplugbaar, waaronder ASR/TTS-modules, geheugen, visualisatie-UI en een achtergrondbrein dat verbinding kan maken met elke API of agent. In zes realistische scenario's geven menselijke beoordelaars de voorkeur aan JoyAI-VL-Interaction boven de in-app videobel-assistenten van Doubao en Gemini met een ruime marge. Voor zover wij weten, is dit het eerste open, visiegestuurde interactiemodel dat wordt uitgebracht samen met het trainingsrecept, de gegevens en het complete implementeerbare systeem.

English

Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.