CineScale: Almuerzo gratis en la generación visual cinematográfica de alta resolución
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
August 21, 2025
Autores: Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
cs.AI
Resumen
Los modelos de difusión visual han logrado avances notables, aunque generalmente se entrenan en resoluciones limitadas debido a la falta de datos de alta resolución y a los recursos computacionales restringidos, lo que dificulta su capacidad para generar imágenes o videos de alta fidelidad en resoluciones más altas. Esfuerzos recientes han explorado estrategias sin ajustes para aprovechar el potencial no explotado de generación visual de mayor resolución en modelos preentrenados. Sin embargo, estos métodos aún tienden a producir contenido visual de baja calidad con patrones repetitivos. El obstáculo clave radica en el inevitable aumento de información de alta frecuencia cuando el modelo genera contenido visual que excede su resolución de entrenamiento, lo que conduce a patrones repetitivos no deseados derivados de errores acumulativos. En este trabajo, proponemos CineScale, un nuevo paradigma de inferencia para habilitar la generación visual de mayor resolución. Para abordar los diversos problemas introducidos por los dos tipos de arquitecturas de generación de video, proponemos variantes específicas adaptadas a cada una. A diferencia de los métodos base existentes que se limitan a la generación de T2I y T2V de alta resolución, CineScale amplía el alcance al permitir la síntesis de I2V y V2V de alta resolución, construido sobre marcos de generación de video de código abierto de última generación. Experimentos extensos validan la superioridad de nuestro paradigma al extender las capacidades de generación visual de mayor resolución tanto para modelos de imagen como de video. Notablemente, nuestro enfoque permite la generación de imágenes en 8k sin ningún ajuste fino y logra la generación de videos en 4k con solo un ajuste mínimo mediante LoRA. Las muestras de video generadas están disponibles en nuestro sitio web: https://eyeline-labs.github.io/CineScale/.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. In this work, we propose CineScale, a novel inference
paradigm to enable higher-resolution visual generation. To tackle the various
issues introduced by the two types of video generation architectures, we
propose dedicated variants tailored to each. Unlike existing baseline methods
that are confined to high-resolution T2I and T2V generation, CineScale broadens
the scope by enabling high-resolution I2V and V2V synthesis, built atop
state-of-the-art open-source video generation frameworks. Extensive experiments
validate the superiority of our paradigm in extending the capabilities of
higher-resolution visual generation for both image and video models.
Remarkably, our approach enables 8k image generation without any fine-tuning,
and achieves 4k video generation with only minimal LoRA fine-tuning. Generated
video samples are available at our website:
https://eyeline-labs.github.io/CineScale/.