번역이 포함된 일일 선별된 AI 연구 논문
가장 진보된 텍스트-이미지(T2I) 모델은 상당한 학습 비용(예: 수백만 GPU 시간)을 요구하며, 이는 AIGC 커뮤니티의 근본적인 혁신을 심각하게 저해하고 CO2 배출량을 증가시킵니다. 본 논문은 Transformer 기반의 T2I 확산 모델인 PIXART-alpha를 소개합니다. 이 모델은 이미지 생성 품질에서 최첨단 이미지 생성기(예: Imagen, SDXL, 심지어 Midjourney)와 경쟁력이 있으며, 상업적 응용 기준에 근접합니다. 또한, 그림 1과 2에서 보여주듯이 낮은 학습 비용으로 최대 1024px 해상도의 고해상도 이미지 합성을 지원합니다. 이를 달성하기 위해 세 가지 핵심 설계를 제안합니다: (1) 학습 전략 분해: 픽셀 의존성, 텍스트-이미지 정렬, 이미지 미적 품질을 각각 최적화하는 세 가지 별도의 학습 단계를 고안합니다; (2) 효율적인 T2I Transformer: 텍스트 조건을 주입하고 계산 집약적인 클래스 조건 분기를 간소화하기 위해 Diffusion Transformer(DiT)에 교차 주의 모듈을 통합합니다; (3) 고정보 데이터: 텍스트-이미지 쌍에서 개념 밀도의 중요성을 강조하고, 대규모 Vision-Language 모델을 활용하여 밀집된 가짜 캡션을 자동으로 레이블링하여 텍스트-이미지 정렬 학습을 지원합니다. 결과적으로, PIXART-alpha의 학습 속도는 기존 대규모 T2I 모델을 크게 능가하며, 예를 들어 PIXART-alpha는 Stable Diffusion v1.5의 학습 시간의 10.8%만 소요됩니다(675 vs. 6,250 A100 GPU 일). 이는 약 \300,000(26,000 vs. \320,000)을 절약하고 CO2 배출량을 90% 감소시킵니다. 더욱이, 더 큰 SOTA 모델인 RAPHAEL과 비교했을 때, 우리의 학습 비용은 단 1%에 불과합니다. 광범위한 실험을 통해 PIXART-alpha가 이미지 품질, 예술성, 의미론적 제어에서 우수함을 입증합니다. 우리는 PIXART-alpha가 AIGC 커뮤니티와 스타트업이 고품질이면서도 저비용의 생성 모델을 처음부터 구축하는 속도를 가속화하는 데 새로운 통찰을 제공하기를 바랍니다.
대규모 언어 모델(LLMs)은 개방형 텍스트 생성 작업에서 뛰어난 능력을 보여주고 있습니다. 그러나 이러한 작업의 본질적인 개방성은 모델 응답의 품질을 항상 개선할 여지가 있음을 의미합니다. 이러한 문제를 해결하기 위해 LLMs의 성능을 향상시키기 위한 다양한 접근 방식이 제안되어 왔습니다. 특히, LLMs가 스스로 응답 품질을 개선할 수 있도록 하는 데 초점이 맞춰지면서, 다양하고 고품질의 훈련 데이터를 수집하기 위한 광범위한 인간 주석 작업에 대한 의존도를 줄이는 방향으로 연구가 진행되고 있습니다. 최근에는 프롬프트 기반 방법이 효과성, 효율성, 편의성으로 인해 자기 개선 방법 중에서 널리 탐구되고 있습니다. 그러나 이러한 방법들은 일반적으로 LLMs에 명시적이고 철저하게 작성된 평가 기준(rubrics)을 입력으로 요구합니다. 실제 세계의 복잡한 개선 목표(예: 더 도움이 되고 덜 해로운 방향)를 위해 필요한 모든 평가 기준을 수동으로 도출하고 제공하는 것은 비용이 많이 들고 어려운 작업입니다. 이를 위해, 우리는 인간 선호 데이터로부터 개선 목표를 암묵적으로 학습하는 ImPlicit Self-ImprovemenT (PIT) 프레임워크를 제안합니다. PIT는 추가적인 인간 노력 없이 보상 모델을 훈련하는 데 사용되는 선호 데이터만을 요구합니다. 구체적으로, 우리는 인간 피드백을 통한 강화 학습(RLHF)의 훈련 목표를 재구성합니다. 주어진 입력에 대한 응답 품질을 최대화하는 대신, 참조 응답을 조건으로 한 응답의 품질 격차를 최대화합니다. 이렇게 함으로써, PIT는 인간 선호와 더 잘 일치시키는 개선 목표를 암묵적으로 훈련받습니다. 두 개의 실제 데이터셋과 하나의 합성 데이터셋에서의 실험 결과, 우리의 방법이 프롬프트 기반 방법을 크게 능가함을 보여줍니다.
생성적 확산 모델은 텍스트-이미지 생성에 강력한 사전 지식을 제공하며, 이를 통해 이미지 편집, 복원, 초해상도와 같은 조건부 생성 작업의 기반으로 작용합니다. 그러나 확산 모델의 주요 한계점은 느린 샘플링 시간입니다. 이 문제를 해결하기 위해, 우리는 이미지 조건을 활용하여 확산 사전 지식을 보완하고, 매우 적은 단계로 조건부 샘플링을 가능하게 하는 새로운 조건부 증류 방법을 제안합니다. 우리는 무조건 사전 학습을 단일 단계에서 직접 공동 학습을 통해 증류함으로써, 기존의 증류와 조건부 미세 조정을 별도로 수행하는 두 단계 절차를 크게 단순화합니다. 더욱이, 우리의 방법은 공유된 고정된 무조건 백본과 결합된 소수의 추가 매개변수만으로 각 작업을 증류할 수 있는 새로운 매개변수 효율적 증류 메커니즘을 가능하게 합니다. 초해상도, 이미지 편집, 깊이-이미지 생성을 포함한 다양한 작업에 대한 실험 결과, 우리의 방법은 동일한 샘플링 시간에서 기존의 증류 기술을 능가하는 성능을 보여줍니다. 특히, 우리의 방법은 훨씬 느린 미세 조정된 조건부 확산 모델의 성능에 맞출 수 있는 최초의 증류 전략입니다.