Informe Técnico Kling-OmniKling-Omni Technical Report
Presentamos Kling-Omni, un marco generativo generalista diseñado para sintetizar vídeos de alta fidelidad directamente a partir de entradas multimodales de lenguaje visual. Adoptando una perspectiva integral (end-to-end), Kling-Omni elimina la separación funcional entre diversas tareas de generación, edición y razonamiento inteligente de vídeos, integrándolas en un sistema holístico. A diferencia de los enfoques basados en pipelines fragmentados, Kling-Omni admite una amplia gama de entradas del usuario, incluyendo instrucciones de texto, imágenes de referencia y contextos de vídeo, procesándolas en una representación multimodal unificada para ofrecer una creación de contenido videográfico de calidad cinematográfica y altamente inteligente. Para respaldar estas capacidades, construimos un sistema de datos integral que sirve como base para la creación multimodal de vídeos. El marco se ve potenciado además por estrategias eficientes de pre-entrenamiento a gran escala y optimizaciones de infraestructura para la inferencia. Evaluaciones exhaustivas revelan que Kling-Omni demuestra capacidades excepcionales en generación contextual, edición basada en razonamiento y seguimiento de instrucciones multimodales. Trascendiendo su función como herramienta de creación de contenido, creemos que Kling-Omni representa un avance crucial hacia simuladores multimodales del mundo capaces de percibir, razonar, generar e interactuar con mundos dinámicos y complejos.