병렬화된 자기회귀식 시각 생성Parallelized Autoregressive Visual Generation
자기회귀 모델은 시각 생성을 위한 강력한 접근 방식으로 등장했지만 순차적인 토큰 단위 예측 과정으로 인해 추론 속도가 느린 단점이 있습니다. 본 논문에서는 병렬 자기회귀 시각 생성을 위한 간단하면서도 효과적인 접근 방식을 제안합니다. 이 방법은 생성 효율성을 향상시키면서 자기회귀 모델링의 장점을 유지합니다. 우리의 주요 인사이트는 병렬 생성이 시각 토큰 의존성에 의존한다는 것입니다. 즉, 약한 의존성을 가진 토큰은 병렬로 생성될 수 있지만 강한 의존성을 가진 인접한 토큰은 함께 생성하기 어렵습니다. 왜냐하면 독립적인 샘플링으로 인해 일관성 문제가 발생할 수 있기 때문입니다. 이 관찰을 기반으로, 우리는 먼 거리에 있는 약한 의존성을 가진 토큰을 병렬로 생성하면서 강한 의존성을 가진 근접한 토큰에 대해서는 순차적 생성을 유지하는 병렬 생성 전략을 개발합니다. 우리의 방법은 아키텍처나 토크나이저를 수정하지 않고 표준 자기회귀 모델에 매끄럽게 통합될 수 있습니다. ImageNet 및 UCF-101에서의 실험 결과는 우리의 방법이 이미지 및 비디오 생성 작업 모두에서 비교 가능한 품질로 3.6배의 속도 향상을 달성하며 최소한의 품질 저하로 최대 9.5배의 속도 향상을 보여줍니다. 우리는 본 연구가 효율적인 시각 생성 및 통합된 자기회귀 모델링에 대한 미래 연구에 영감을 줄 것으로 기대합니다. 프로젝트 페이지: https://epiphqny.github.io/PAR-project.