Kling-Omni Technischer BerichtKling-Omni Technical Report
Wir stellen Kling-Omni vor, ein generalistisches generatives Framework, das darauf ausgelegt ist, hochwertige Videos direkt aus multimodalen visuell-sprachlichen Eingaben zu synthetisieren. Aus einer End-to-End-Perspektive heraus überbrückt Kling-Omni die funktionale Trennung zwischen verschiedenen Aufgaben der Videogenerierung, -bearbeitung und intelligenten Schlussfolgerung und integriert sie in ein ganzheitliches System. Im Gegensatz zu fragmentierten Pipeline-Ansätzen unterstützt Kling-Omni eine Vielzahl von Benutzereingaben, einschließlich Textanweisungen, Referenzbildern und Videokontexten, verarbeitet diese zu einer einheitlichen multimodalen Repräsentation und ermöglicht so die Erstellung von Videoinhalten in Kinoqualität mit hoher Intelligenz. Um diese Fähigkeiten zu unterstützen, haben wir ein umfassendes Datensystem aufgebaut, das die Grundlage für multimodale Videocreation bildet. Das Framework wird weiter gestärkt durch effiziente Strategien für groß angelegtes Pre-Training und Infrastrukturoptimierungen für die Inferenz. Umfassende Evaluierungen zeigen, dass Kling-Omni außergewöhnliche Fähigkeiten bei der Kontextgenerierung, der reasoning-basierten Bearbeitung und der Befolgung multimodaler Anweisungen demonstriert. Über ein reines Content-Erstellungswerkzeug hinaus glauben wir, dass Kling-Omni einen entscheidenden Fortschritt hin zu multimodalen Welt-Simulatoren darstellt, die in der Lage sind, dynamische und komplexe Welten wahrzunehmen, zu schlussfolgern, zu generieren und mit ihnen zu interagieren.