Geração Visual Autoregressiva ParalelizadaParallelized Autoregressive Visual Generation
Os modelos autoregressivos surgiram como uma abordagem poderosa para geração visual, mas sofrem com a lentidão na velocidade de inferência devido ao seu processo de previsão sequencial de token por token. Neste artigo, propomos uma abordagem simples, porém eficaz, para geração visual autoregressiva paralela que melhora a eficiência de geração, preservando as vantagens da modelagem autoregressiva. Nossa principal percepção é que a geração paralela depende das dependências entre tokens visuais - tokens com dependências fracas podem ser gerados em paralelo, enquanto tokens adjacentes fortemente dependentes são difíceis de gerar juntos, pois a amostragem independente deles pode levar a inconsistências. Com base nessa observação, desenvolvemos uma estratégia de geração paralela que gera tokens distantes com dependências fracas em paralelo, mantendo a geração sequencial para tokens locais fortemente dependentes. Nosso método pode ser integrado perfeitamente em modelos autoregressivos padrão sem modificar a arquitetura ou o tokenizador. Experimentos no ImageNet e UCF-101 demonstram que nosso método alcança um aumento de velocidade de 3,6 vezes com qualidade comparável e até 9,5 vezes de aumento de velocidade com degradação mínima de qualidade em tarefas de geração de imagens e vídeos. Esperamos que este trabalho inspire pesquisas futuras em geração visual eficiente e modelagem autoregressiva unificada. Página do projeto: https://epiphqny.github.io/PAR-project.