JoyAI-VL-Interaction: Inteligencia de Interacción Visión-Lenguaje en Tiempo Real

Resumen

Muchos momentos del mundo real no esperan a que un usuario pregunte. Un incendio comienza en un monitor de seguridad, una expresión se cruza en una videollamada, o un producto que un espectador desea pasa rápidamente en una transmisión en vivo. Sin embargo, los modelos grandes actuales siguen siendo mayoritariamente por turnos por diseño: solo responden cuando se les dirige la palabra, e incluso las aplicaciones de videollamada que parecen interactivas aún operan como sistemas de pregunta-respuesta, reaccionando solo cuando se les consulta o se les da una instrucción. Proponemos un paradigma diferente: un modelo que está presente en el mundo como una persona. Observa continuamente lo que está sucediendo ahora, decide por sí mismo si hablar o permanecer en silencio, interactúa en tiempo real y delega a un modelo de fondo cuando el problema es difícil. Para avanzar en los modelos de interacción y su adopción en diversos dominios, realizamos dos contribuciones completamente de código abierto. Primero, lanzamos JoyAI-VL-Interaction, un modelo de interacción VL de 8 mil millones de parámetros centrado en la visión. El modelo toma la decisión de respuesta internamente, eligiendo cada segundo permanecer en silencio, responder o delegar a un modelo de fondo, y destaca en capacidad de respuesta activada por visión y conciencia temporal. Lo acompañamos de una receta de entrenamiento transferible, de la cual surgen capacidades para las que nunca entrenamos, como guiar a un comprador a través de cambios de pantalla en una aplicación o improvisar una conferencia a partir de una presentación de diapositivas. Segundo, lanzamos un sistema completo y desplegable construido alrededor de ese modelo. El sistema transmite cualquier video en curso al modelo, haciéndolo genuinamente presente en el mundo. Todos los demás componentes son conectables, incluidos módulos ASR/TTS, memoria, interfaz de visualización y un cerebro de fondo que puede conectarse a cualquier API o agente. En seis escenarios del mundo real, los evaluadores humanos prefieren JoyAI-VL-Interaction sobre los asistentes de videollamada integrados en aplicaciones de Doubao y Gemini por un amplio margen. Hasta donde sabemos, este es el primer modelo de interacción abierto e impulsado por visión que se publica junto con su receta de entrenamiento, datos y sistema completo desplegable.

English

Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.