Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете представлена Kandinsky 5.0 — семейство современных базовых моделей для синтеза изображений высокого разрешения и 10-секундных видеороликов. Фреймворк включает три основные линейки моделей: Kandinsky 5.0 Image Lite — линейку моделей генерации изображений с 6 миллиардами параметров, Kandinsky 5.0 Video Lite — быстрые и легковесные модели преобразования текста в видео и изображения в видео с 2 миллиардами параметров, а также Kandinsky 5.0 Video Pro — модели с 19 миллиардами параметров, обеспечивающие превосходное качество генерации видео. В работе представлен всесторонний обзор жизненного цикла подготовки данных, включающего сбор, обработку, фильтрацию и кластеризацию, для многоэтапного процесса обучения, который включает обширное предварительное обучение и использует методы повышения качества, такие как самообучаемая тонкая настройка (SFT) и пост-обучение на основе обучения с подкреплением (RL). Также описаны новые архитектурные, обучающие и оптимизационные подходы, которые позволяют Kandinsky 5.0 достигать высокой скорости генерации и передовых показателей производительности в различных задачах, что подтверждено оценкой экспертов. Как крупномасштабный и общедоступный генеративный фреймворк, Kandinsky 5.0 раскрывает весь потенциал своего предварительного обучения и последующих этапов, что делает его пригодным для широкого спектра генеративных приложений. Мы надеемся, что данный отчет, наряду с публикацией нашего открытого исходного кода и контрольных точек обучения, внесет значительный вклад в развитие и доступность высококачественных генеративных моделей для исследовательского сообщества.