MaineCoon: разработка аудиовизуальной модели социального мира в реальном времени

Аннотация

Поскольку всё большая часть мирового видеоконтента потребляется на социальных платформах в интерактивных социальных целях, модели генерации видео, созданные для социальных миров, важны, но в значительной степени игнорируются предыдущими исследованиями. В данной работе мы определяем положение моделей социальных миров и создаём прототип модели как первый шаг к этой цели. В то время как предыдущие модели миров успешно симулируют физические среды или исследование игровых миров, они остаются принципиально оторванными от человеко-центрированной социальной динамики. Чтобы преодолеть этот разрыв в качестве первого шага к моделям социальных миров, мы представляем MaineCoon — первую в реальном времени аудиовизуальную авторегрессионную модель с 22 миллиардами параметров, способную к потоковой генерации в реальном времени и взаимодействию за доли секунды, с рекордной частотой кадров до 47,5 FPS на одном GPU. Насколько нам известно, MaineCoon также является первой моделью генерации аудио и видео в реальном времени, специально оптимизированной для социально-интерактивных приложений. Для обеспечения эффективного и стабильного обучения мы внедряем в MaineCoon несколько новых методов, включая самоповторную выборку, выравнивание кросс-модальных представлений, оптимизацию предпочтений с учётом домена и дистилляцию на основе подкрепляемой онлайн-политики (ROPD). Мы также разрабатываем первую агентскую структуру потокового вывода, которая поддерживает генерацию масштаба тысячи секунд или даже дольше, смягчая дрейф с помощью агентского управления кэшем и планирования подсказок. Эти инновации значительно ускоряют обучение, одновременно оптимизируя производительность вывода в реальном времени. Мы считаем, что эта работа не только устанавливает новый передовой (SOTA) ориентир производительности для высококачественных, малозатратных по времени и долгосрочных аудиовизуальных авторегрессионных моделей, но и указывает на сдвиг парадигмы, необходимый для социальных платформ следующего поколения, основанных на ИИ.

English

As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked by previous studies. In this work, we define the position of social world models and build a prototype model as the first step towards this goal. While previous world models successfully simulate physical environments or gaming world exploration, they remain fundamentally detached from human-centric social dynamics. To bridge this gap as the first step to social world models, we present MaineCoon, the first real-time audio-visual autoregressive model that has 22B parameters and is capable of real-time streaming generation and sub-second interaction, with a record-breaking frame rate of up to 47.5 FPS, on a single GPU. To the best of our knowledge, MaineCoon is also the first real-time audio-visual generation model specifically optimized for social-interactive applications. To enable efficient and stable training, we introduce several novel techniques into MaineCoon, including self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). We also design the first agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift with agentic cache management and prompt planing. These innovations significantly accelerate training while optimizing real-time inference performance. We believe this work not only sets a new state-of-the-art (SOTA) performance benchmark for high-quality, low-latency, and long-horizon audio-visual autoregressive models, but also points out the paradigm shift desired for next-generation AI-native social platforms.