ChatPaper.aiChatPaper

JoyAI-VL-Interaction: Inteligencia de Interacción Visión-Lenguaje en Tiempo Real

JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

June 10, 2026
Autores: Dingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang
cs.AI

Resumen

Muchos momentos del mundo real no esperan a que un usuario pregunte. Un incendio comienza en un monitor de seguridad, una expresión se cruza en una videollamada, o un producto que un espectador desea pasa rápidamente en una transmisión en vivo. Sin embargo, los modelos grandes actuales siguen siendo mayoritariamente por turnos por diseño: solo responden cuando se les dirige la palabra, e incluso las aplicaciones de videollamada que parecen interactivas aún operan como sistemas de pregunta-respuesta, reaccionando solo cuando se les consulta o se les da una instrucción. Proponemos un paradigma diferente: un modelo que está presente en el mundo como una persona. Observa continuamente lo que está sucediendo ahora, decide por sí mismo si hablar o permanecer en silencio, interactúa en tiempo real y delega a un modelo de fondo cuando el problema es difícil. Para avanzar en los modelos de interacción y su adopción en diversos dominios, realizamos dos contribuciones completamente de código abierto. Primero, lanzamos JoyAI-VL-Interaction, un modelo de interacción VL de 8 mil millones de parámetros centrado en la visión. El modelo toma la decisión de respuesta internamente, eligiendo cada segundo permanecer en silencio, responder o delegar a un modelo de fondo, y destaca en capacidad de respuesta activada por visión y conciencia temporal. Lo acompañamos de una receta de entrenamiento transferible, de la cual surgen capacidades para las que nunca entrenamos, como guiar a un comprador a través de cambios de pantalla en una aplicación o improvisar una conferencia a partir de una presentación de diapositivas. Segundo, lanzamos un sistema completo y desplegable construido alrededor de ese modelo. El sistema transmite cualquier video en curso al modelo, haciéndolo genuinamente presente en el mundo. Todos los demás componentes son conectables, incluidos módulos ASR/TTS, memoria, interfaz de visualización y un cerebro de fondo que puede conectarse a cualquier API o agente. En seis escenarios del mundo real, los evaluadores humanos prefieren JoyAI-VL-Interaction sobre los asistentes de videollamada integrados en aplicaciones de Doubao y Gemini por un amplio margen. Hasta donde sabemos, este es el primer modelo de interacción abierto e impulsado por visión que se publica junto con su receta de entrenamiento, datos y sistema completo desplegable.
English
Many moments in the real world do not wait for a user to ask. A fire starts on a security monitor, an expression flickers across a video call, or a product a viewer wants flashes by in a livestream. Yet today's large models remain mostly turn-based by design: they answer only when addressed, and even video-call apps that appear interactive still operate as question-answer systems, reacting only when polled or prompted. We argue for a different paradigm: a model that is present in the world like a person. It continuously watches what is happening now, decides on its own whether to speak or stay silent, interacts in real time, and delegates to a background model when the problem is hard. To advance interaction models and their adoption across domains, we make two fully open-sourced contributions. First, we release JoyAI-VL-Interaction, an 8B-scale, vision-first VL-interaction model. The model makes the response decision internally, choosing each second to stay silent, respond, or delegate to a background model, and it excels at vision-triggered responsiveness and time awareness. We pair it with a transferable training recipe, from which capabilities we never trained for emerge, such as guiding a shopper through changing app screens or improvising a lecture from a slide deck. Second, we release a complete, deployable system built around that model. The system streams any ongoing video into the model, making it genuinely present in the world. All other components are pluggable, including ASR/TTS modules, memory, visualization UI, and a background brain that can connect to any API or agent. Across six real-world scenarios, human raters prefer JoyAI-VL-Interaction over the in-app video-call assistants of Doubao and Gemini by a wide margin. To our knowledge, this is the first open, vision-driven interaction model released together with its training recipe, data, and complete deployable system.