每日精選AI研究論文及翻譯
本报告介绍了Kandinsky 5.0,这是一系列用于高分辨率图像及十秒视频合成的最先进基础模型。该框架包含三大核心模型系列:Kandinsky 5.0 Image Lite——一组拥有60亿参数的高效图像生成模型;Kandinsky 5.0 Video Lite——快速轻量级、具备20亿参数的文本转视频及图像转视频模型;以及Kandinsky 5.0 Video Pro——拥有190亿参数,能够实现卓越视频生成质量的模型。我们全面回顾了多阶段训练流程中的数据管理生命周期,包括收集、处理、筛选与聚类,这一流程涉及广泛的预训练,并融合了如自监督微调(SFT)和基于强化学习(RL)的训练后优化等质量提升技术。此外,我们展示了新颖的架构、训练及推理优化策略,这些策略使Kandinsky 5.0能够在多种任务中实现高速生成并达到业界领先的性能,这一点已通过人类评估得到验证。作为一个大规模、公开可用的生成框架,Kandinsky 5.0充分发挥了其预训练及后续阶段的潜力,适用于广泛的生成应用场景。我们期望,本报告连同我们开源代码及训练检查点的发布,将极大地推动高质量生成模型的研究与发展,提升其在学术界的可及性。