Технический отчет Kling-OmniKling-Omni Technical Report
Мы представляем Kling-Omni — универсальную генеративную систему, предназначенную для синтеза видео высокого качества непосредственно из мультимодальных визуально-языковых входных данных. Принимая сквозной подход, Kling-Omni устраняет функциональный разрыв между разнородными задачами генерации, редактирования и интеллектуального анализа видео, интегрируя их в целостную систему. В отличие от разрозненных конвейерных подходов, Kling-Omni поддерживает широкий спектр пользовательских входных данных, включая текстовые инструкции, эталонные изображения и видеоконтексты, преобразуя их в унифицированное мультимодальное представление для создания кинематографичного и высокоинтеллектуального видеоконтента. Для обеспечения этих возможностей мы создали комплексную систему данных, которая служит основой для мультимодального создания видео. Эффективность системы дополнительно повышена за счёт стратегий масштабного предварительного обучения и оптимизации инфраструктуры для вывода. Всесторонние оценки показывают, что Kling-Omni демонстрирует исключительные способности в контекстно-зависимой генерации, редактировании на основе логического вывода и выполнении мультимодальных инструкций. Выходя за рамки инструмента для создания контента, мы считаем, что Kling-Omni является ключевым шагом на пути к созданию мультимодальных симуляторов мира, способных воспринимать, анализировать, генерировать и взаимодействовать с динамичными и сложными мирами.