ChatPaper.aiChatPaper

Iperreti del Rumore: Ammortizzazione del Calcolo al Momento del Test nei Modelli di Diffusione

Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

August 13, 2025
Autori: Luca Eyring, Shyamgopal Karthik, Alexey Dosovitskiy, Nataniel Ruiz, Zeynep Akata
cs.AI

Abstract

Il nuovo paradigma del ridimensionamento al momento del test ha portato a notevoli progressi nei modelli linguistici di grandi dimensioni (LLM, ad esempio modelli di ragionamento) e nei modelli generativi per la visione, consentendo ai modelli di allocare ulteriori risorse computazionali durante l'inferenza per affrontare efficacemente problemi sempre più complessi. Nonostante i miglioramenti apportati da questo approccio, emerge un'importante limitazione: l'aumento significativo del tempo di calcolo rende il processo lento e poco pratico per molte applicazioni. Considerando il successo di questo paradigma e il suo crescente utilizzo, cerchiamo di preservarne i vantaggi evitando al contempo l'overhead computazionale durante l'inferenza. In questo lavoro proponiamo una soluzione al problema critico di integrare la conoscenza del ridimensionamento al momento del test in un modello durante la fase post-addestramento. Nello specifico, sostituiamo l'ottimizzazione del rumore guidata dalla ricompensa al momento del test nei modelli di diffusione con un Noise Hypernetwork che modula il rumore iniziale in ingresso. Proponiamo un framework teoricamente fondato per apprendere questa distribuzione inclinata dalla ricompensa per generatori distillati, attraverso un obiettivo trattabile nello spazio del rumore che mantiene la fedeltà al modello di base mentre ottimizza le caratteristiche desiderate. Dimostriamo che il nostro approccio recupera una parte sostanziale dei guadagni di qualità derivanti dall'ottimizzazione esplicita al momento del test a una frazione del costo computazionale. Il codice è disponibile all'indirizzo https://github.com/ExplainableML/HyperNoise.
English
The new paradigm of test-time scaling has yielded remarkable breakthroughs in Large Language Models (LLMs) (e.g. reasoning models) and in generative vision models, allowing models to allocate additional computation during inference to effectively tackle increasingly complex problems. Despite the improvements of this approach, an important limitation emerges: the substantial increase in computation time makes the process slow and impractical for many applications. Given the success of this paradigm and its growing usage, we seek to preserve its benefits while eschewing the inference overhead. In this work we propose one solution to the critical problem of integrating test-time scaling knowledge into a model during post-training. Specifically, we replace reward guided test-time noise optimization in diffusion models with a Noise Hypernetwork that modulates initial input noise. We propose a theoretically grounded framework for learning this reward-tilted distribution for distilled generators, through a tractable noise-space objective that maintains fidelity to the base model while optimizing for desired characteristics. We show that our approach recovers a substantial portion of the quality gains from explicit test-time optimization at a fraction of the computational cost. Code is available at https://github.com/ExplainableML/HyperNoise
PDF152August 14, 2025