Hiperredes de Ruído: Amortizando o Cálculo em Tempo de Teste em Modelos de Difusão

Resumo

O novo paradigma de escalonamento em tempo de teste tem gerado avanços notáveis em Modelos de Linguagem de Grande Escala (LLMs) (por exemplo, modelos de raciocínio) e em modelos generativos de visão, permitindo que os modelos aloquem computação adicional durante a inferência para lidar efetivamente com problemas cada vez mais complexos. Apesar das melhorias trazidas por essa abordagem, uma limitação importante surge: o aumento substancial no tempo de computação torna o processo lento e impraticável para muitas aplicações. Dado o sucesso desse paradigma e seu uso crescente, buscamos preservar seus benefícios enquanto evitamos a sobrecarga de inferência. Neste trabalho, propomos uma solução para o problema crítico de integrar o conhecimento de escalonamento em tempo de teste em um modelo durante o pós-treinamento. Especificamente, substituímos a otimização de ruído guiada por recompensa em tempo de teste em modelos de difusão por uma Hiper-rede de Ruído que modula o ruído inicial de entrada. Propomos um framework teoricamente fundamentado para aprender essa distribuição inclinada por recompensa para geradores destilados, por meio de um objetivo tratável no espaço de ruído que mantém a fidelidade ao modelo base enquanto otimiza para características desejadas. Mostramos que nossa abordagem recupera uma porção substancial dos ganhos de qualidade da otimização explícita em tempo de teste a uma fração do custo computacional. O código está disponível em https://github.com/ExplainableML/HyperNoise.

English

The new paradigm of test-time scaling has yielded remarkable breakthroughs in Large Language Models (LLMs) (e.g. reasoning models) and in generative vision models, allowing models to allocate additional computation during inference to effectively tackle increasingly complex problems. Despite the improvements of this approach, an important limitation emerges: the substantial increase in computation time makes the process slow and impractical for many applications. Given the success of this paradigm and its growing usage, we seek to preserve its benefits while eschewing the inference overhead. In this work we propose one solution to the critical problem of integrating test-time scaling knowledge into a model during post-training. Specifically, we replace reward guided test-time noise optimization in diffusion models with a Noise Hypernetwork that modulates initial input noise. We propose a theoretically grounded framework for learning this reward-tilted distribution for distilled generators, through a tractable noise-space objective that maintains fidelity to the base model while optimizing for desired characteristics. We show that our approach recovers a substantial portion of the quality gains from explicit test-time optimization at a fraction of the computational cost. Code is available at https://github.com/ExplainableML/HyperNoise

Hiperredes de Ruído: Amortizando o Cálculo em Tempo de Teste em Modelos de Difusão

Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

Resumo

Support