CineScale: Un'opportunità senza costi nella generazione di contenuti visivi cinematografici ad alta risoluzione
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
August 21, 2025
Autori: Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
cs.AI
Abstract
I modelli di diffusione visiva hanno compiuto progressi notevoli, ma sono tipicamente addestrati a risoluzioni limitate a causa della mancanza di dati ad alta risoluzione e di risorse computazionali ridotte, compromettendo la loro capacità di generare immagini o video ad alta fedeltà a risoluzioni più elevate. Recenti sforzi hanno esplorato strategie senza tuning per sfruttare il potenziale inesplorato della generazione visiva ad alta risoluzione di modelli pre-addestrati. Tuttavia, questi metodi sono ancora inclini a produrre contenuti visivi di bassa qualità con schemi ripetitivi. L'ostacolo principale risiede nell'inevitabile aumento delle informazioni ad alta frequenza quando il modello genera contenuti visivi che superano la risoluzione di addestramento, portando a schemi ripetitivi indesiderati derivanti da errori accumulati. In questo lavoro, proponiamo CineScale, un nuovo paradigma di inferenza per abilitare la generazione visiva ad alta risoluzione. Per affrontare i vari problemi introdotti dai due tipi di architetture di generazione video, proponiamo varianti dedicate specifiche per ciascuna. A differenza dei metodi di base esistenti che si limitano alla generazione T2I e T2V ad alta risoluzione, CineScale amplia l'ambito consentendo la sintesi I2V e V2V ad alta risoluzione, costruita su framework di generazione video open-source all'avanguardia. Esperimenti estesi convalidano la superiorità del nostro paradigma nell'estendere le capacità di generazione visiva ad alta risoluzione sia per i modelli di immagine che per quelli video. In modo significativo, il nostro approccio consente la generazione di immagini 8k senza alcun fine-tuning e raggiunge la generazione di video 4k con solo un minimo fine-tuning LoRA. Campioni video generati sono disponibili sul nostro sito web: https://eyeline-labs.github.io/CineScale/.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. In this work, we propose CineScale, a novel inference
paradigm to enable higher-resolution visual generation. To tackle the various
issues introduced by the two types of video generation architectures, we
propose dedicated variants tailored to each. Unlike existing baseline methods
that are confined to high-resolution T2I and T2V generation, CineScale broadens
the scope by enabling high-resolution I2V and V2V synthesis, built atop
state-of-the-art open-source video generation frameworks. Extensive experiments
validate the superiority of our paradigm in extending the capabilities of
higher-resolution visual generation for both image and video models.
Remarkably, our approach enables 8k image generation without any fine-tuning,
and achieves 4k video generation with only minimal LoRA fine-tuning. Generated
video samples are available at our website:
https://eyeline-labs.github.io/CineScale/.