JoyAI-VL-Interaktion: Echtzeit-Vision-Language-Interaktionsintelligenz

Zusammenfassung

Viele Momente in der realen Welt warten nicht darauf, dass ein Nutzer sie anspricht. Ein Feuer bricht auf einem Sicherheitsmonitor aus, ein Gesichtsausdruck huscht über eine Video-Call-Oberfläche, oder ein Produkt, das ein Zuschauer begehrt, fliegt in einem Livestream vorbei. Dennoch bleiben heutige große Modelle größtenteils zugbasiert (turn-based) konzipiert: Sie antworten nur, wenn sie angesprochen werden, und selbst Video-Call-Apps, die interaktiv erscheinen, funktionieren weiterhin als Frage-Antwort-Systeme, die nur reagieren, wenn sie abgefragt oder aufgefordert werden. Wir plädieren für ein anderes Paradigma: ein Modell, das wie ein Mensch in der Welt präsent ist. Es beobachtet kontinuierlich das aktuelle Geschehen, entscheidet eigenständig, ob es sprechen oder schweigen soll, interagiert in Echtzeit und delegiert schwierige Probleme an ein Hintergrundmodell. Um Interaktionsmodelle und deren Anwendung in verschiedenen Bereichen voranzubringen, leisten wir zwei vollständig quelloffene Beiträge. Erstens veröffentlichen wir JoyAI-VL-Interaction, ein vision-zentriertes VL-Interaktionsmodell im 8B-Maßstab. Das Modell trifft die Entscheidung zur Antwort intern, wählt jede Sekunde zwischen Schweigen, Antworten oder Delegation an ein Hintergrundmodell und zeichnet sich durch vision-getriggerte Reaktionsfähigkeit und Zeitbewusstsein aus. Wir kombinieren es mit einem übertragbaren Trainingsrezept, aus dem Fähigkeiten emergieren, für die wir nie spezifisch trainiert haben – etwa das Führen eines Käufers durch wechselnde App-Bildschirme oder das Improvisieren eines Vortrags aus einer Folienpräsentation. Zweitens veröffentlichen wir ein vollständiges, einsatzbereites System, das um dieses Modell herum aufgebaut ist. Das System streamt jedes laufende Video in das Modell und macht es so echt präsent in der Welt. Alle anderen Komponenten sind ansteckbar, darunter ASR/TTS-Module, Speicher, Visualisierungs-UI und ein Hintergrund-Brain, das an jede API oder jeden Agenten angebunden werden kann. In sechs realen Szenarien bevorzugen menschliche Bewerter JoyAI-VL-Interaction mit großem Abstand gegenüber den integrierten Video-Call-Assistenten von Doubao und Gemini. Nach unserem Wissen ist dies das erste offene, visionsgetriebene Interaktionsmodell, das zusammen mit seinem Trainingsrezept, Daten und einem vollständig einsetzbaren System veröffentlicht wird.

English

Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.