Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta Kandinsky 5.0, una familia de modelos base de vanguardia para la síntesis de imágenes de alta resolución y videos de 10 segundos. El marco comprende tres líneas principales de modelos: Kandinsky 5.0 Image Lite, una serie de modelos de generación de imágenes con 6 mil millones de parámetros; Kandinsky 5.0 Video Lite, modelos rápidos y ligeros de texto a video e imagen a video con 2 mil millones de parámetros; y Kandinsky 5.0 Video Pro, modelos de 19 mil millones de parámetros que logran una calidad superior en la generación de videos. Ofrecemos una revisión exhaustiva del ciclo de vida de la curación de datos —incluyendo recopilación, procesamiento, filtrado y agrupamiento— para la canalización de entrenamiento en múltiples etapas que implica un extenso preentrenamiento e incorpora técnicas de mejora de calidad como el ajuste fino autosupervisado (SFT) y el entrenamiento posterior basado en aprendizaje por refuerzo (RL). También presentamos optimizaciones novedosas en arquitectura, entrenamiento e inferencia que permiten a Kandinsky 5.0 alcanzar velocidades de generación elevadas y un rendimiento de vanguardia en diversas tareas, según lo demuestra la evaluación humana. Como un marco generativo de gran escala y disponible públicamente, Kandinsky 5.0 aprovecha al máximo su preentrenamiento y las etapas posteriores para adaptarse a una amplia gama de aplicaciones generativas. Esperamos que este informe, junto con la liberación de nuestro código de fuente abierta y puntos de control de entrenamiento, avance significativamente el desarrollo y la accesibilidad de modelos generativos de alta calidad para la comunidad investigadora.