ChatPaper.aiChatPaper

Geração de Vídeo HDR via Alinhamento Latente com Codificação Logarítmica

HDR Video Generation via Latent Alignment with Logarithmic Encoding

April 13, 2026
Autores: Naomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
cs.AI

Resumo

A imagem de alta faixa dinâmica (HDR) oferece uma representação rica e fiel da radiância da cena, mas continua a ser um desafio para modelos generativos devido ao seu desalinhamento com os dados limitados e comprimidos perceptualmente nos quais estes modelos são treinados. Uma solução natural é aprender novas representações para HDR, o que introduz complexidade adicional e requisitos de dados. Neste trabalho, mostramos que a geração de HDR pode ser alcançada de forma muito mais simples, aproveitando os fortes *priors* visuais já capturados por modelos generativos pré-treinados. Observamos que uma codificação logarítmica amplamente utilizada em pipelines cinematográficos mapeia a imagem HDR para uma distribuição que está naturalmente alinhada com o espaço latente destes modelos, permitindo uma adaptação direta através de *fine-tuning* leve sem a necessidade de retreinar um codificador. Para recuperar detalhes que não são diretamente observáveis na entrada, introduzimos ainda uma estratégia de treino baseada em degradações que mimetizam a câmara, incentivando o modelo a inferir conteúdo HDR em falta a partir dos seus *priors* aprendidos. Combinando estas perspetivas, demonstramos a geração de vídeo HDR de alta qualidade usando um modelo de vídeo pré-treinado com adaptação mínima, alcançando resultados robustos em diversas cenas e condições de iluminação desafiadoras. Os nossos resultados indicam que o HDR, apesar de representar um regime de formação de imagem fundamentalmente diferente, pode ser tratado eficazmente sem redesenhar os modelos generativos, desde que a representação seja escolhida para se alinhar com os seus *priors* aprendidos.
English
High dynamic range (HDR) imagery offers a rich and faithful representation of scene radiance, but remains challenging for generative models due to its mismatch with the bounded, perceptually compressed data on which these models are trained. A natural solution is to learn new representations for HDR, which introduces additional complexity and data requirements. In this work, we show that HDR generation can be achieved in a much simpler way by leveraging the strong visual priors already captured by pretrained generative models. We observe that a logarithmic encoding widely used in cinematic pipelines maps HDR imagery into a distribution that is naturally aligned with the latent space of these models, enabling direct adaptation via lightweight fine-tuning without retraining an encoder. To recover details that are not directly observable in the input, we further introduce a training strategy based on camera-mimicking degradations that encourages the model to infer missing high dynamic range content from its learned priors. Combining these insights, we demonstrate high-quality HDR video generation using a pretrained video model with minimal adaptation, achieving strong results across diverse scenes and challenging lighting conditions. Our results indicate that HDR, despite representing a fundamentally different image formation regime, can be handled effectively without redesigning generative models, provided that the representation is chosen to align with their learned priors.
PDF82April 26, 2026