MaineCoon: Em Busca de um Modelo de Mundo Social Audiovisual em Tempo Real

Resumo

À medida que uma maioria cada vez maior do conteúdo global de vídeo é consumida em plataformas sociais para fins sociais interativos, os modelos de geração de vídeo construídos para mundos sociais são importantes, mas amplamente negligenciados por estudos anteriores. Neste trabalho, definimos a posição dos modelos de mundo social e construímos um modelo protótipo como primeiro passo para este objetivo. Embora modelos de mundo anteriores simulem com sucesso ambientes físicos ou exploração de mundos de jogos, eles permanecem fundamentalmente desconectados das dinâmicas sociais centradas no ser humano. Para preencher essa lacuna como primeiro passo para modelos de mundo social, apresentamos o MaineCoon, o primeiro modelo autorregressivo audiovisual em tempo real que possui 22 bilhões de parâmetros e é capaz de geração de streaming em tempo real e interação em menos de um segundo, com uma taxa de quadros recorde de até 47,5 FPS, em uma única GPU. Até onde sabemos, o MaineCoon também é o primeiro modelo de geração audiovisual em tempo real especificamente otimizado para aplicações sociais interativas. Para permitir um treinamento eficiente e estável, introduzimos várias técnicas inovadoras no MaineCoon, incluindo auto-reamostragem, alinhamento de representação cross-modal, otimização de preferência ciente de domínio e destilação de política online reforçada (ROPD). Também projetamos o primeiro framework de inferência de streaming agêntico que suporta geração na escala de milhares de segundos ou mais, mitigando deriva com gerenciamento de cache agêntico e planejamento de prompts. Essas inovações aceleram significativamente o treinamento enquanto otimizam o desempenho de inferência em tempo real. Acreditamos que este trabalho não apenas estabelece um novo benchmark de desempenho de estado da arte (SOTA) para modelos autorregressivos audiovisuais de alta qualidade, baixa latência e horizonte longo, mas também aponta a mudança de paradigma desejada para as plataformas sociais nativas de IA de próxima geração.

English

As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked by previous studies. In this work, we define the position of social world models and build a prototype model as the first step towards this goal. While previous world models successfully simulate physical environments or gaming world exploration, they remain fundamentally detached from human-centric social dynamics. To bridge this gap as the first step to social world models, we present MaineCoon, the first real-time audio-visual autoregressive model that has 22B parameters and is capable of real-time streaming generation and sub-second interaction, with a record-breaking frame rate of up to 47.5 FPS, on a single GPU. To the best of our knowledge, MaineCoon is also the first real-time audio-visual generation model specifically optimized for social-interactive applications. To enable efficient and stable training, we introduce several novel techniques into MaineCoon, including self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). We also design the first agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift with agentic cache management and prompt planing. These innovations significantly accelerate training while optimizing real-time inference performance. We believe this work not only sets a new state-of-the-art (SOTA) performance benchmark for high-quality, low-latency, and long-horizon audio-visual autoregressive models, but also points out the paradigm shift desired for next-generation AI-native social platforms.