Параллельная авторегрессионная визуальная генерацияParallelized Autoregressive Visual Generation
Авторегрессионные модели стали мощным подходом для визуальной генерации, но страдают от медленной скорости вывода из-за последовательного предсказания токенов. В данной статье мы предлагаем простой, но эффективный подход для параллельной авторегрессионной визуальной генерации, который повышает эффективность генерации, сохраняя преимущества авторегрессионного моделирования. Наш ключевой инсайт заключается в том, что параллельная генерация зависит от визуальной зависимости токенов - токены с слабыми зависимостями могут быть сгенерированы параллельно, в то время как сильно зависимые соседние токены сложно генерировать вместе, поскольку их независимая выборка может привести к несоответствиям. Исходя из этого наблюдения, мы разработали стратегию параллельной генерации, которая генерирует удаленные токены с слабыми зависимостями параллельно, сохраняя последовательную генерацию для сильно зависимых локальных токенов. Наш подход может быть легко интегрирован в стандартные авторегрессионные модели без изменения архитектуры или токенизатора. Эксперименты на ImageNet и UCF-101 показывают, что наш метод достигает ускорения в 3,6 раза с сопоставимым качеством и до 9,5 раз ускорения с минимальным ухудшением качества как для задач генерации изображений, так и видео. Мы надеемся, что данная работа вдохновит будущие исследования в области эффективной визуальной генерации и объединенного авторегрессионного моделирования. Страница проекта: https://epiphqny.github.io/PAR-project.