추론 시간 스케일링은 스케일링 노이즈 제거 단계를 넘어 확산 모델에 대해 적용됩니다.Inference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
생성 모델은 다양한 영역에서 중요한 영향을 미쳤는데, 이는 데이터, 계산 자원, 그리고 모델 크기를 증가시킴으로써 훈련 중에 확장할 수 있는 능력 때문이다. 이러한 현상은 스케일링 법칙에 의해 특징 지어진다. 최근 연구에서는 대형 언어 모델 (LLM)의 추론 시간 스케일링 행동을 탐구하기 시작하여 성능이 추가 계산을 통해 어떻게 더 개선될 수 있는지 밝혀내고 있다. LLM과는 달리 확산 모델은 기본적으로 노이즈 제거 단계 수를 통해 추론 시간 계산을 조정할 수 있는 유연성을 갖고 있지만, 성능 향상은 일반적으로 수십 단계 후에 안정화된다. 본 연구에서는 확산 모델의 추론 시간 스케일링 행동을 더 많은 노이즈 제거 단계를 추가함으로써 탐구하고, 계산 증가로 생성 성능이 어떻게 더 개선될 수 있는지 조사한다. 구체적으로, 확산 샘플링 과정에서 더 나은 노이즈를 식별하기 위한 검색 문제를 고려한다. 우리는 피드백을 제공하는 확인자와 더 나은 노이즈 후보를 찾기 위해 사용되는 알고리즘을 따라 설계 공간을 구조화한다. 클래스 조건부 및 텍스트 조건부 이미지 생성 벤치마크에 대한 광범위한 실험을 통해, 확산 모델에 의해 생성된 샘플의 품질이 상당히 향상되는 것을 밝혀내며, 이미지의 복잡성과 함께, 프레임워크 구성 요소의 조합은 다양한 응용 시나리오와 일치하도록 특별히 선택될 수 있다.