MaineCoon: Anstreben eines Echtzeit-Audio-Visuellen Sozialen Weltmodells

Zusammenfassung

Da ein zunehmender Anteil globaler Videoinhalte auf sozialen Plattformen zu interaktiven sozialen Zwecken konsumiert wird, sind Modelle zur Videogenerierung, die für soziale Welten entwickelt wurden, wichtig, werden jedoch in früheren Studien weitgehend übersehen. In dieser Arbeit definieren wir die Position von Modellen für soziale Welten und entwickeln ein Prototypmodell als ersten Schritt in diese Richtung. Während frühere Weltmodelle erfolgreich physikalische Umgebungen oder die Erkundung von Spielwelten simulieren, bleiben sie grundlegend von menschenzentrierten sozialen Dynamiken entkoppelt. Um diese Lücke als ersten Schritt zu Modellen für soziale Welten zu schließen, präsentieren wir MaineCoon, das erste Echtzeit-Audio-Video-autoregressive Modell mit 22B Parametern, das in der Lage ist, in Echtzeit streamingfähige Inhalte zu generieren und in Subsekunden-Interaktionen zu agieren, mit einer rekordverdächtigen Bildrate von bis zu 47,5 FPS auf einer einzelnen GPU. Nach unserem besten Wissen ist MaineCoon auch das erste Echtzeit-Audio-Video-Generierungsmodell, das speziell für sozial-interaktive Anwendungen optimiert wurde. Um effizientes und stabiles Training zu ermöglichen, führen wir mehrere neuartige Techniken in MaineCoon ein, darunter Selbst-Resampling, kreuzmodale Repräsentationsausrichtung, domänenbewusste Präferenzoptimierung und verstärkte Online-Policy-Destillation (ROPD). Wir entwickeln außerdem das erste agentische Streaming-Inferenz-Framework, das Generierungen im Tausend-Sekunden-Maßstab oder sogar länger unterstützt und gleichzeitig Drift durch agentische Cache-Verwaltung und Prompt-Planung reduziert. Diese Innovationen beschleunigen das Training erheblich, während die Echtzeit-Inferenz-Leistung optimiert wird. Wir glauben, dass diese Arbeit nicht nur einen neuen State-of-the-Art (SOTA)-Leistungsbenchmark für qualitativ hochwertige, latenzarme und langanhaltende Audio-Video-autoregressive Modelle setzt, sondern auch auf den Paradigmenwechsel hinweist, der für die nächste Generation KI-nativer sozialer Plattformen erforderlich ist.

English

As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked by previous studies. In this work, we define the position of social world models and build a prototype model as the first step towards this goal. While previous world models successfully simulate physical environments or gaming world exploration, they remain fundamentally detached from human-centric social dynamics. To bridge this gap as the first step to social world models, we present MaineCoon, the first real-time audio-visual autoregressive model that has 22B parameters and is capable of real-time streaming generation and sub-second interaction, with a record-breaking frame rate of up to 47.5 FPS, on a single GPU. To the best of our knowledge, MaineCoon is also the first real-time audio-visual generation model specifically optimized for social-interactive applications. To enable efficient and stable training, we introduce several novel techniques into MaineCoon, including self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). We also design the first agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift with agentic cache management and prompt planing. These innovations significantly accelerate training while optimizing real-time inference performance. We believe this work not only sets a new state-of-the-art (SOTA) performance benchmark for high-quality, low-latency, and long-horizon audio-visual autoregressive models, but also points out the paradigm shift desired for next-generation AI-native social platforms.