TC-Light: Reiluminação Temporalmente Consistente para Vídeos Longos e Dinâmicos
TC-Light: Temporally Consistent Relighting for Dynamic Long Videos
June 23, 2025
Autores: Yang Liu, Chuanchen Luo, Zimo Tang, Yingyan Li, Yuran Yang, Yuanyong Ning, Lue Fan, Junran Peng, Zhaoxiang Zhang
cs.AI
Resumo
A edição de iluminação em vídeos longos com dinâmicas complexas possui um valor significativo em diversas tarefas subsequentes, incluindo a criação e manipulação de conteúdo visual, bem como o aumento de escala de dados para IA incorporada por meio de transferências sim2real e real2real. No entanto, as técnicas existentes de reiluminação de vídeo são predominantemente limitadas a vídeos de retrato ou enfrentam o gargalo da consistência temporal e da eficiência computacional. Neste artigo, propomos o TC-Light, um novo paradigma caracterizado pelo mecanismo de otimização pós-processamento em duas etapas. Partindo de um vídeo preliminarmente reiluminado por um modelo de reiluminação de vídeo inflado, ele otimiza o embedding de aparência na primeira etapa para alinhar a iluminação global. Em seguida, otimiza a representação canônica de vídeo proposta, ou seja, o Tensor de Vídeo Único (UVT), para alinhar texturas e iluminações de granularidade fina na segunda etapa. Para avaliar o desempenho de forma abrangente, também estabelecemos um benchmark de vídeos longos e altamente dinâmicos. Experimentos extensivos mostram que nosso método permite resultados de reiluminação fisicamente plausíveis com coerência temporal superior e baixo custo computacional. O código e as demonstrações em vídeo estão disponíveis em https://dekuliutesla.github.io/tclight/.
English
Editing illumination in long videos with complex dynamics has significant
value in various downstream tasks, including visual content creation and
manipulation, as well as data scaling up for embodied AI through sim2real and
real2real transfer. Nevertheless, existing video relighting techniques are
predominantly limited to portrait videos or fall into the bottleneck of
temporal consistency and computation efficiency. In this paper, we propose
TC-Light, a novel paradigm characterized by the proposed two-stage post
optimization mechanism. Starting from the video preliminarily relighted by an
inflated video relighting model, it optimizes appearance embedding in the first
stage to align global illumination. Then it optimizes the proposed canonical
video representation, i.e., Unique Video Tensor (UVT), to align fine-grained
texture and lighting in the second stage. To comprehensively evaluate
performance, we also establish a long and highly dynamic video benchmark.
Extensive experiments show that our method enables physically plausible
relighting results with superior temporal coherence and low computation cost.
The code and video demos are available at
https://dekuliutesla.github.io/tclight/.