POLARIS: Mínimos Quadrados de Projeção-Ortogonal para Inversão Robusta e Adaptativa em Modelos de Difusão

Resumo

O Paradigma de Inversão-Desruído, baseado em modelos de difusão, destaca-se em diversas tarefas de edição e restauração de imagens. Revisitamos seu mecanismo e revelamos um fator crítico e negligenciado na degradação da reconstrução: o erro de aproximação do ruído. Este erro decorre da aproximação do ruído no passo t com a previsão do passo t-1, resultando em um acúmulo severo de erros ao longo do processo de inversão. Introduzimos o método POLARIS (Projection-Orthogonal Least Squares for Robust and Adaptive Inversion), que reformula a inversão de um problema de compensação de erro para um problema de origem do erro. Em vez de otimizar *embeddings* ou códigos latentes para compensar o desvio acumulado, o POLARIS trata o fator de orientação ω como uma variável passo a passo e deriva uma formulação matematicamente fundamentada para minimizar o erro de inversão em cada etapa. Notavelmente, o POLARIS melhora a qualidade do espaço latente de inversão com apenas uma linha de código. Com sobrecarga de desempenho insignificante, ele mitiga substancialmente os erros de aproximação do ruído e melhora consistentemente a precisão de tarefas subsequentes.

English

The Inversion-Denoising Paradigm, which is based on diffusion models, excels in diverse image editing and restoration tasks. We revisit its mechanism and reveal a critical, overlooked factor in reconstruction degradation: the approximate noise error. This error stems from approximating the noise at step t with the prediction at step t-1, resulting in severe error accumulation throughout the inversion process. We introduce Projection-Orthogonal Least Squares for Robust and Adaptive Inversion (POLARIS), which reformulates inversion from an error-compensation problem into an error-origin problem. Rather than optimizing embeddings or latent codes to offset accumulated drift, POLARIS treats the guidance scale ω as a step-wise variable and derives a mathematically grounded formula to minimize inversion error at each step. Remarkably, POLARIS improves inversion latent quality with just one line of code. With negligible performance overhead, it substantially mitigates noise approximation errors and consistently improves the accuracy of downstream tasks.