Hiperredes de Ruido: Amortización del Cómputo en Tiempo de Prueba en Modelos de Difusión

Resumen

El nuevo paradigma de escalado en tiempo de prueba ha generado avances notables en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) (por ejemplo, modelos de razonamiento) y en modelos generativos de visión, permitiendo que los modelos asignen computación adicional durante la inferencia para abordar de manera efectiva problemas cada vez más complejos. A pesar de las mejoras de este enfoque, surge una limitación importante: el aumento sustancial en el tiempo de computación hace que el proceso sea lento e impráctico para muchas aplicaciones. Dado el éxito de este paradigma y su creciente uso, buscamos preservar sus beneficios mientras evitamos la sobrecarga de inferencia. En este trabajo proponemos una solución al problema crítico de integrar el conocimiento de escalado en tiempo de prueba en un modelo durante el posentrenamiento. Específicamente, reemplazamos la optimización de ruido guiada por recompensas en tiempo de prueba en modelos de difusión con una Hiperred de Ruido que modula el ruido inicial de entrada. Proponemos un marco teóricamente fundamentado para aprender esta distribución inclinada por recompensas para generadores destilados, a través de un objetivo en el espacio de ruido manejable que mantiene la fidelidad al modelo base mientras optimiza las características deseadas. Demostramos que nuestro enfoque recupera una porción sustancial de las ganancias de calidad de la optimización explícita en tiempo de prueba a una fracción del costo computacional. El código está disponible en https://github.com/ExplainableML/HyperNoise.

English

The new paradigm of test-time scaling has yielded remarkable breakthroughs in Large Language Models (LLMs) (e.g. reasoning models) and in generative vision models, allowing models to allocate additional computation during inference to effectively tackle increasingly complex problems. Despite the improvements of this approach, an important limitation emerges: the substantial increase in computation time makes the process slow and impractical for many applications. Given the success of this paradigm and its growing usage, we seek to preserve its benefits while eschewing the inference overhead. In this work we propose one solution to the critical problem of integrating test-time scaling knowledge into a model during post-training. Specifically, we replace reward guided test-time noise optimization in diffusion models with a Noise Hypernetwork that modulates initial input noise. We propose a theoretically grounded framework for learning this reward-tilted distribution for distilled generators, through a tractable noise-space objective that maintains fidelity to the base model while optimizing for desired characteristics. We show that our approach recovers a substantial portion of the quality gains from explicit test-time optimization at a fraction of the computational cost. Code is available at https://github.com/ExplainableML/HyperNoise

Hiperredes de Ruido: Amortización del Cómputo en Tiempo de Prueba en Modelos de Difusión

Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

Resumen

Support