Generazione Visiva Autoregressiva ParallelizzataParallelized Autoregressive Visual Generation
I modelli autoregressivi sono emersi come un approccio potente per la generazione visuale, ma soffrono di una lentezza nell'elaborazione dovuta al loro processo sequenziale di previsione token per token. In questo articolo, proponiamo un approccio semplice ma efficace per la generazione visuale autoregressiva parallelizzata che migliora l'efficienza di generazione pur preservando i vantaggi della modellazione autoregressiva. La nostra intuizione chiave è che la generazione parallela dipende dalle dipendenze tra i token visivi: i token con dipendenze deboli possono essere generati in parallelo, mentre i token adiacenti fortemente dipendenti sono difficili da generare insieme, poiché il loro campionamento indipendente potrebbe portare a incongruenze. Basandoci su questa osservazione, sviluppiamo una strategia di generazione parallela che genera token distanti con dipendenze deboli in parallelo, mantenendo al contempo la generazione sequenziale per i token locali fortemente dipendenti. Il nostro approccio può essere integrato senza soluzione di continuità nei modelli autoregressivi standard senza modificare l'architettura o il tokenizer. Gli esperimenti su ImageNet e UCF-101 dimostrano che il nostro metodo raggiunge un aumento della velocità di 3,6 volte con una qualità comparabile e fino a 9,5 volte con una degradazione minima della qualità in compiti di generazione di immagini e video. Speriamo che questo lavoro possa ispirare futuri studi sulla generazione visuale efficiente e sulla modellazione autoregressiva unificata. Pagina del progetto: https://epiphqny.github.io/PAR-project.