Generazione di Video HDR tramite Allineamento Latente con Codifica Logaritmica
HDR Video Generation via Latent Alignment with Logarithmic Encoding
April 13, 2026
Autori: Naomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
cs.AI
Abstract
Le immagini ad alto intervallo dinamico (HDR) offrono una rappresentazione ricca e fedele della radianza della scena, ma rimangono una sfida per i modelli generativi a causa della loro incompatibilità con i dati limitati e compressi percettivamente su cui questi modelli sono addestrati. Una soluzione naturale è apprendere nuove rappresentazioni per l'HDR, il che introduce ulteriore complessità e requisiti dati. In questo lavoro, dimostriamo che la generazione HDR può essere ottenuta in modo molto più semplice sfruttando i forti preconcetti visivi già catturati da modelli generativi pre-addestrati. Osserviamo che una codifica logaritmica ampiamente utilizzata nelle pipeline cinematografiche mappa le immagini HDR in una distribuzione che è naturalmente allineata con lo spazio latente di questi modelli, consentendo un adattamento diretto tramite un fine-tuning leggero senza dover riaddestrare un encoder. Per recuperare i dettagli che non sono direttamente osservabili nell'input, introduciamo inoltre una strategia di addestramento basata su degradazioni che imitano la fotocamera, la quale incoraggia il modello a dedurre il contenuto HDR mancante dai suoi preconcetti appresi. Combinando queste intuizioni, dimostriamo una generazione di video HDR di alta qualità utilizzando un modello video pre-addestrato con un adattamento minimo, ottenendo risultati solidi in diverse scene e condizioni di illuminazione impegnative. I nostri risultati indicano che l'HDR, nonostante rappresenti un regime di formazione dell'immagine fondamentalmente diverso, può essere gestito efficacemente senza ridisegnare i modelli generativi, a condizione che la rappresentazione sia scelta per allinearsi con i loro preconcetti appresi.
English
High dynamic range (HDR) imagery offers a rich and faithful representation of scene radiance, but remains challenging for generative models due to its mismatch with the bounded, perceptually compressed data on which these models are trained. A natural solution is to learn new representations for HDR, which introduces additional complexity and data requirements. In this work, we show that HDR generation can be achieved in a much simpler way by leveraging the strong visual priors already captured by pretrained generative models. We observe that a logarithmic encoding widely used in cinematic pipelines maps HDR imagery into a distribution that is naturally aligned with the latent space of these models, enabling direct adaptation via lightweight fine-tuning without retraining an encoder. To recover details that are not directly observable in the input, we further introduce a training strategy based on camera-mimicking degradations that encourages the model to infer missing high dynamic range content from its learned priors. Combining these insights, we demonstrate high-quality HDR video generation using a pretrained video model with minimal adaptation, achieving strong results across diverse scenes and challenging lighting conditions. Our results indicate that HDR, despite representing a fundamentally different image formation regime, can be handled effectively without redesigning generative models, provided that the representation is chosen to align with their learned priors.