MaineCoon: En busca de un modelo de mundo social audiovisual en tiempo real

Resumen

A medida que la mayoría creciente del contenido de video global se consume en plataformas sociales con fines interactivos, los modelos de generación de video diseñados para entornos sociales son importantes, pero han sido ampliamente ignorados por estudios previos. En este trabajo, definimos la posición de los modelos de mundo social y construimos un modelo prototipo como primer paso hacia este objetivo. Mientras que los modelos de mundo previos simulan con éxito entornos físicos o la exploración de juegos, siguen estando fundamentalmente desvinculados de las dinámicas sociales centradas en el ser humano. Para cerrar esta brecha como primer paso hacia los modelos de mundo social, presentamos MaineCoon, el primer modelo autorregresivo audiovisual en tiempo real con 22 mil millones de parámetros, capaz de generar transmisiones en tiempo real e interactuar en menos de un segundo, con una tasa de fotogramas récord de hasta 47.5 FPS en una sola GPU. Hasta donde sabemos, MaineCoon es también el primer modelo de generación audiovisual en tiempo real optimizado específicamente para aplicaciones sociales interactivas. Para permitir un entrenamiento eficiente y estable, introducimos varias técnicas novedosas en MaineCoon, incluyendo el auto-muestreo (self-resampling), la alineación de representaciones entre modalidades, la optimización de preferencias consciente del dominio y la destilación de políticas en línea reforzada (ROPD, por sus siglas en inglés). También diseñamos el primer marco de inferencia de transmisión agéntica, que admite generación a escala de miles de segundos o incluso más larga, mitigando la deriva mediante la gestión agéntica de caché y la planificación de indicaciones (prompt planning). Estas innovaciones aceleran significativamente el entrenamiento mientras optimizan el rendimiento de inferencia en tiempo real. Creemos que este trabajo no solo establece un nuevo punto de referencia de rendimiento de última generación (SOTA) para modelos autorregresivos audiovisuales de alta calidad, baja latencia y horizonte largo, sino que también señala el cambio de paradigma deseado para las plataformas sociales nativas de IA de próxima generación.

English

As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked by previous studies. In this work, we define the position of social world models and build a prototype model as the first step towards this goal. While previous world models successfully simulate physical environments or gaming world exploration, they remain fundamentally detached from human-centric social dynamics. To bridge this gap as the first step to social world models, we present MaineCoon, the first real-time audio-visual autoregressive model that has 22B parameters and is capable of real-time streaming generation and sub-second interaction, with a record-breaking frame rate of up to 47.5 FPS, on a single GPU. To the best of our knowledge, MaineCoon is also the first real-time audio-visual generation model specifically optimized for social-interactive applications. To enable efficient and stable training, we introduce several novel techniques into MaineCoon, including self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). We also design the first agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift with agentic cache management and prompt planing. These innovations significantly accelerate training while optimizing real-time inference performance. We believe this work not only sets a new state-of-the-art (SOTA) performance benchmark for high-quality, low-latency, and long-horizon audio-visual autoregressive models, but also points out the paradigm shift desired for next-generation AI-native social platforms.