JoyAI-VL-Interaction: Inteligência de Interação Visão-Linguagem em Tempo Real

Resumo

Muitos momentos no mundo real não esperam que um usuário pergunte. Um incêndio começa em um monitor de segurança, uma expressão passa por uma chamada de vídeo, ou um produto que um espectador deseja surge rapidamente em uma transmissão ao vivo. No entanto, os grandes modelos de hoje permanecem, em sua maioria, baseados em turnos por design: eles respondem apenas quando são chamados, e até mesmo aplicativos de chamada de vídeo que parecem interativos ainda operam como sistemas de pergunta e resposta, reagindo apenas quando consultados ou solicitados. Defendemos um paradigma diferente: um modelo que está presente no mundo como uma pessoa. Ele observa continuamente o que está acontecendo agora, decide por si mesmo se deve falar ou permanecer em silêncio, interage em tempo real e delega para um modelo de fundo quando o problema é difícil. Para avançar os modelos de interação e sua adoção em diferentes domínios, fazemos duas contribuições totalmente de código aberto. Primeiro, lançamos o JoyAI-VL-Interaction, um modelo de interação VL (visão-linguagem) de escala 8B, focado principalmente em visão. O modelo toma a decisão de resposta internamente, escolhendo a cada segundo permanecer em silêncio, responder ou delegar a um modelo de fundo, e se destaca na capacidade de resposta acionada por visão e na consciência temporal. Acompanhamos com uma receita de treinamento transferível, a partir da qual emergem capacidades para as quais nunca treinamos, como guiar um comprador através de telas de aplicativos em mudança ou improvisar uma palestra a partir de uma apresentação de slides. Em segundo lugar, lançamos um sistema completo e implantável construído em torno desse modelo. O sistema transmite qualquer vídeo em andamento para o modelo, tornando-o genuinamente presente no mundo. Todos os outros componentes são plugáveis, incluindo módulos ASR/TTS, memória, interface de visualização e um cérebro de fundo que pode se conectar a qualquer API ou agente. Em seis cenários do mundo real, avaliadores humanos preferem o JoyAI-VL-Interaction aos assistentes de chamada de vídeo incorporados do Doubao e do Gemini por uma ampla margem. Até onde sabemos, este é o primeiro modelo de interação aberto, orientado por visão, lançado juntamente com sua receita de treinamento, dados e sistema implantável completo.

English

Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.