번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)의 최근 인기에 이어, 이를 시각 영역으로 확장하려는 여러 시도가 이루어지고 있습니다. 낯선 환경을 안내해 줄 수 있는 시각적 어시스턴트부터 고수준의 텍스트 설명만으로 이미지를 생성하는 생성 모델에 이르기까지, 시각-언어 모델(VLM) 응용 프로그램은 기술과의 관계에 큰 영향을 미칠 것입니다. 그러나 이러한 모델의 신뢰성을 향상시키기 위해서는 해결해야 할 많은 과제들이 있습니다. 언어는 이산적(discrete)인 반면, 시각은 훨씬 더 높은 차원의 공간에서 진화하며, 개념이 항상 쉽게 이산화될 수는 없습니다. 시각을 언어로 매핑하는 메커니즘을 더 잘 이해하기 위해, 우리는 이 분야에 진입하고자 하는 모든 이들에게 도움이 되길 바라며 VLM에 대한 이 소개를 제시합니다. 먼저, VLM이 무엇인지, 어떻게 작동하는지, 그리고 어떻게 훈련시키는지 소개합니다. 그런 다음, VLM을 평가하는 접근 방식을 제시하고 논의합니다. 이 작업은 주로 이미지를 언어로 매핑하는 데 초점을 맞추고 있지만, VLM을 비디오로 확장하는 것에 대해서도 논의합니다.
트랜스포머가 산술 작업에서 보이는 낮은 성능은 주로 큰 자릿수 범위 내에서 각 숫자의 정확한 위치를 추적하지 못하는 데서 비롯된 것으로 보입니다. 우리는 이 문제를 해결하기 위해 각 숫자에 해당 숫자가 수의 시작점에서 상대적으로 어디에 위치하는지를 인코딩하는 임베딩을 추가했습니다. 이러한 임베딩 자체가 제공하는 성능 향상 외에도, 이 수정이 입력 주입(input injection) 및 순환 레이어(recurrent layers)와 같은 아키텍처적 변경을 가능하게 하여 성능을 더욱 개선할 수 있음을 보여줍니다. 위치 문제가 해결되면, 트랜스포머의 논리적 외삽 능력을 연구할 수 있습니다. 트랜스포머가 훈련 데이터보다 더 크고 복잡한 산술 문제를 해결할 수 있을까요? 우리는 단일 GPU로 20자리 숫자에 대해 하루 동안 훈련하는 것만으로도 최첨단 성능에 도달할 수 있으며, 100자리 덧셈 문제에서 최대 99%의 정확도를 달성할 수 있음을 확인했습니다. 마지막으로, 이러한 수리 능력의 향상이 정렬 및 곱셈과 같은 다른 다단계 추론 작업에서도 개선을 이끌어낼 수 있음을 보여줍니다.
LLaVA와 같은 대규모 멀티모달 모델(LMMs)은 시각-언어 추론에서 강력한 성능을 보여주고 있습니다. 이러한 모델들은 먼저 이미지를 고정된 수의 시각적 토큰으로 임베딩한 후 이를 대규모 언어 모델(LLM)에 입력합니다. 그러나 이러한 설계는 고해상도 이미지 및 비디오와 같은 밀집된 시각적 시나리오에서 과도한 수의 토큰을 생성하여 큰 비효율성을 초래합니다. 토큰 프루닝/병합 방법이 존재하지만, 이들은 각 이미지에 대해 단일 길이의 출력을 생성하며 정보 밀도와 효율성 간의 균형을 유연하게 조정할 수 없습니다. 마트료시카 인형의 개념에서 영감을 받아, 우리는 M3: 마트료시카 멀티모달 모델을 제안합니다. 이 모델은 시각적 콘텐츠를 여러 단계의 거친 것에서 세밀한 것까지 정보를 포착하는 중첩된 시각적 토큰 집합으로 표현하는 방법을 학습합니다. 우리의 접근 방식은 LMMs에 대해 몇 가지 독특한 이점을 제공합니다: (1) 추론 중에 테스트 인스턴스별로 시각적 세분성을 명시적으로 제어할 수 있습니다. 예를 들어, 예상되는 콘텐츠의 복잡성 또는 단순성에 따라 이미지를 표현하는 데 사용되는 토큰 수를 조정할 수 있습니다; (2) M3는 기존 데이터셋에 필요한 세분성을 분석하기 위한 프레임워크를 제공하며, 우리는 COCO 스타일 벤치마크가 모든 576개의 토큰을 사용하는 것과 유사한 정확도를 얻기 위해 약 ~9개의 시각적 토큰만 필요하다는 것을 발견했습니다; (3) 우리의 접근 방식은 샘플 수준에서 성능과 시각적 토큰 길이 간의 최적의 균형을 탐구하기 위한 기반을 제공하며, 우리의 조사는 오라클 상한과 현재의 고정 크기 표현 사이에 큰 격차가 존재한다는 것을 보여줍니다.
본 기술 보고서에서는 7B 규모의 SSM-트랜스포머 하이브리드 모델인 Zamba를 소개한다. Zamba는 동일 규모의 주요 오픈 웨이트 모델들과 경쟁력 있는 성능을 달성하며, 공개적으로 이용 가능한 데이터셋에서 1조 개의 토큰으로 학습되었다. 이 규모에서 Zamba는 트랜스포머가 아닌 모델 중 최고의 성능을 보인다. Zamba는 Mamba 백본과 단일 공유 어텐션 모듈을 결합한 독창적인 아키텍처를 도입함으로써, 최소한의 파라미터 비용으로 어텐션의 이점을 얻는다. 이러한 아키텍처 덕분에 Zamba는 유사한 트랜스포머 모델보다 추론 속도가 훨씬 빠르며, 긴 시퀀스 생성 시 메모리 사용량도 상당히 적다. Zamba는 두 단계로 사전 학습되었는데, 첫 번째 단계는 기존 웹 데이터셋을 기반으로 하며, 두 번째 단계는 고품질의 지시 및 합성 데이터셋을 통해 모델을 어닐링(annealing)하고 빠른 학습률 감소를 특징으로 한다. 우리는 Zamba의 가중치와 모든 체크포인트를 첫 번째 단계와 어닐링 단계를 포함하여 오픈소스로 공개한다.
디코더 전용 대형 언어 모델(LLM) 기반 임베딩 모델이 일반적인 텍스트 임베딩 작업, 특히 밀집 벡터 기반 검색에서 BERT나 T5 기반 임베딩 모델을 능가하기 시작하고 있습니다. 본 연구에서는 LLM을 다목적 임베딩 모델로 활용할 때 성능을 크게 향상시키면서도 단순성과 재현성을 유지할 수 있는 다양한 아키텍처 설계 및 학습 절차를 도입한 NV-Embed 모델을 소개합니다. 모델 아키텍처 측면에서는 풀링된 임베딩을 얻기 위해 잠재 어텐션 레이어를 제안하며, 이는 LLM의 평균 풀링이나 마지막 <EOS> 토큰 임베딩 사용에 비해 검색 및 다운스트림 작업 정확도를 지속적으로 개선합니다. 표현 학습을 강화하기 위해, 대조 학습 중에 LLM의 인과적 어텐션 마스크를 제거합니다. 모델 학습 측면에서는 두 단계의 대조적 명령어 튜닝 방법을 도입합니다. 첫 번째 단계에서는 검색 데이터셋에 대해 명령어와 함께 대조 학습을 적용하며, 배치 내 부정 예제와 선별된 어려운 부정 예제를 활용합니다. 두 번째 단계에서는 다양한 비검색 데이터셋을 명령어 튜닝에 통합하여, 비검색 작업 정확도를 향상시킬 뿐만 아니라 검색 성능도 개선합니다. 이러한 기법들을 결합하여, 공개 데이터만을 사용한 NV-Embed 모델은 Massive Text Embedding Benchmark(MTEB)(2024년 5월 24일 기준)에서 56개 작업(검색, 재순위화, 분류, 클러스터링, 의미적 텍스트 유사성 작업 포함)에 대해 69.32점의 기록적인 최고 점수를 달성하며 1위를 차지했습니다. 특히, MTEB 벤치마크(또는 BEIR)의 15개 검색 작업에서도 59.36점의 최고 점수를 기록했습니다. 모델은 https://huggingface.co/nvidia/NV-Embed-v1에서 오픈소스로 공개될 예정입니다.
확산 모델의 놀라운 생성 능력은 이미지 및 비디오 편집 분야에서 광범위한 연구를 촉진해 왔습니다. 시간 차원에서 추가적인 도전에 직면한 비디오 편집과 비교할 때, 이미지 편집은 더 다양하고 고품질의 접근 방식과 Photoshop과 같은 더 강력한 소프트웨어의 발전을 목격했습니다. 이러한 격차를 고려하여, 우리는 사전 훈련된 이미지-투-비디오 모델을 사용하여 단일 프레임에서 전체 비디오로 편집을 전파함으로써 이미지 편집 도구의 적용 범위를 비디오로 확장하는 새롭고 일반적인 솔루션을 소개합니다. 우리의 방법인 I2VEdit은 편집의 정도에 따라 소스 비디오의 시각적 및 모션 무결성을 적응적으로 보존하며, 기존 방법들이 완전히 달성하지 못한 전역 편집, 지역 편집, 그리고 중간 정도의 형태 변화를 효과적으로 처리합니다. 우리 방법의 핵심은 두 가지 주요 프로세스로 구성됩니다: 원본 비디오와 기본 모션 패턴을 정렬하기 위한 Coarse Motion Extraction과 세밀한 주의 매칭을 사용한 정밀 조정을 위한 Appearance Refinement입니다. 또한, 우리는 여러 비디오 클립에 걸친 자동 회귀 생성으로 인한 품질 저하를 완화하기 위해 skip-interval 전략을 통합했습니다. 실험 결과는 우리의 프레임워크가 세밀한 비디오 편집에서 우수한 성능을 보이며, 고품질의 시간적 일관성을 가진 출력을 생성할 수 있는 능력을 입증합니다.
우리는 단일 이미지로부터 임의의 시점에서 고품질의 시공간적 일관성을 가진 인간 동영상을 생성하는 새로운 접근 방식을 제안합니다. 우리의 프레임워크는 정확한 조건 주입을 위한 U-Net의 강점과 시점 및 시간 전반의 전역적 상관관계를 포착하기 위한 디퓨전 트랜스포머의 강점을 결합합니다. 핵심은 시점, 시간, 공간 차원에 걸쳐 주의(attention)를 분해하여 4D 공간을 효율적으로 모델링할 수 있는 계단식 4D 트랜스포머 아키텍처입니다. 인간의 정체성, 카메라 파라미터, 시간 신호를 각각의 트랜스포머에 주입함으로써 정밀한 조건 설정을 달성합니다. 이 모델을 학습시키기 위해 이미지, 동영상, 다중 시점 데이터 및 3D/4D 스캔을 아우르는 다차원 데이터셋과 다차원 학습 전략을 구축했습니다. 우리의 접근 방식은 복잡한 동작과 시점 변화에 어려움을 겪는 GAN 또는 UNet 기반 디퓨전 모델의 한계를 극복합니다. 광범위한 실험을 통해 우리의 방법이 현실적이고 일관적이며 자유 시점의 인간 동영상을 합성할 수 있음을 입증하며, 가상 현실 및 애니메이션과 같은 분야에서 고급 멀티미디어 애플리케이션의 길을 열어줍니다. 프로젝트 웹사이트는 https://human4dit.github.io에서 확인할 수 있습니다.
저순위 어댑터(LoRA)와 그 변형들은 전체 모델 미세 조정 성능에 근접하면서도 소수의 추가 파라미터만을 요구하는 인기 있는 파라미터 효율적 미세 조정(PEFT) 기술입니다. 이러한 추가 LoRA 파라미터는 적용되는 기본 모델에 특화되어 있습니다. 기본 모델이 폐기되고 새로운 모델로 교체되어야 할 때, 관련된 모든 LoRA 모듈을 재훈련해야 합니다. 이러한 재훈련은 원래 기본 모델에 대한 LoRA를 훈련하는 데 사용된 데이터에 대한 접근을 필요로 합니다. 이는 LoRA 모듈과 기본 모델이 서비스 제공자에 의해 호스팅되는 상용 클라우드 애플리케이션에서 특히 문제가 됩니다. 이러한 서비스 제공자는 고객의 독점 작업 데이터를 호스팅할 수 없을 가능성이 있습니다. 이러한 문제를 해결하기 위해, 우리는 Trans-LoRA를 제안합니다. 이는 기본 모델 간에 LoRA를 데이터 거의 없이 무손실로 전송하는 새로운 방법입니다. 우리의 접근 방식은 합성 데이터를 사용하여 LoRA 모듈을 전송합니다. 대규모 언어 모델을 사용하여 관찰된 작업 데이터 하위 집합의 데이터 생성 과정을 근사화하는 합성 데이터 생성기를 설계합니다. 결과적으로 생성된 합성 데이터셋에 대한 훈련을 통해 LoRA 모듈을 새로운 모델로 전송합니다. 우리는 LLama와 Gemma 모델 패밀리를 사용하여 우리의 접근 방식의 효과를 보여줍니다. 우리의 접근 방식은 다양한 작업에서 서로 다른 기본 모델 패밀리 내 및 간의 LoRA 전송을 무손실(대부분 개선된)로 달성하며, 심지어 서로 다른 PEFT 방법 간에도 가능합니다.
본 논문은 사용자 프롬프트를 통해 실시간 스트리밍 비디오-투-비디오(V2V) 변환을 가능하게 하는 확산 모델인 StreamV2V를 소개합니다. 기존의 V2V 방법들이 제한된 프레임을 처리하기 위해 배치 방식을 사용한 것과 달리, 우리는 무제한 프레임을 지원하기 위해 스트리밍 방식으로 프레임을 처리합니다. StreamV2V의 핵심에는 현재를 과거와 연결하는 후방 참조 원칙이 자리 잡고 있습니다. 이는 과거 프레임의 정보를 보관하는 특징 벙커(feature bank)를 유지함으로써 구현됩니다. 들어오는 프레임에 대해 StreamV2V는 자기 주의(self-attention)를 확장하여 벙커에 저장된 키와 값을 포함시키고, 유사한 과거 특징을 출력에 직접 융합합니다. 특징 벙커는 저장된 특징과 새로운 특징을 병합함으로써 지속적으로 업데이트되며, 이를 통해 간결하면서도 정보가 풍부한 상태를 유지합니다. StreamV2V는 적응성과 효율성에서 두각을 나타내며, 미세 조정 없이도 이미지 확산 모델과 원활하게 통합됩니다. 이 모델은 단일 A100 GPU에서 20 FPS로 실행 가능하며, 각각 FlowVid, CoDeF, Rerender, TokenFlow보다 15배, 46배, 108배, 158배 빠른 성능을 보입니다. 정량적 지표와 사용자 연구를 통해 StreamV2V가 시간적 일관성을 유지하는 데 있어 탁월한 능력을 가지고 있음이 확인되었습니다.
비디오 생성 연구는 최근 엄청난 진전을 이루며 텍스트 프롬프트나 이미지로부터 고품질 비디오를 생성할 수 있게 되었습니다. 비디오 생성 과정에 제어를 추가하는 것은 앞으로 나아가야 할 중요한 목표이며, 최근 카메라 궤적을 조건으로 하는 비디오 생성 모델 접근법은 이를 향해 큰 진전을 이루었습니다. 그러나 동일한 장면을 여러 다른 카메라 궤적에서 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 다중 비디오 생성 문제에 대한 해결책은 편집 가능한 카메라 궤적을 포함한 대규모 3D 장면 생성 등 다양한 응용 분야를 가능하게 할 수 있습니다. 우리는 이러한 비전을 향한 중요한 단계로 협업 비디오 확산(Collaborative Video Diffusion, CVD)을 소개합니다. CVD 프레임워크는 에피폴라 어텐션 메커니즘을 사용하여 서로 다른 카메라 포즈에서 렌더링된 동일한 비디오의 해당 프레임 간 일관성을 촉진하는 새로운 교차 비디오 동기화 모듈을 포함합니다. 최신 카메라 제어 모듈 위에서 훈련된 CVD는 다양한 카메라 궤적에서 렌더링된 여러 비디오를 생성하며, 광범위한 실험에서 보여준 바와 같이 기준선보다 훨씬 더 나은 일관성을 보입니다. 프로젝트 페이지: https://collaborativevideodiffusion.github.io/.
최근 디퓨전 모델의 등장으로 단일 뷰 재구성에 새로운 가능성이 열렸습니다. 그러나 기존의 모든 방법들은 대상 물체를 구조적 정보가 없는 닫힌 메쉬로 표현함으로써, 재구성된 형태의 부품 기반 구조를 간과했습니다. 이는 많은 다운스트림 애플리케이션에 있어서 중요한 요소입니다. 또한 생성된 메쉬들은 대체로 큰 노이즈, 불균일한 표면, 흐릿한 텍스처 등의 문제를 겪어 3D 세그멘테이션 기술을 사용하여 만족스러운 부품 분할을 얻는 것이 어려웠습니다. 본 논문에서는 단일 뷰 이미지로부터 부품 인식 3D 재구성을 위한 새로운 프레임워크인 Part123을 제안합니다. 먼저 디퓨전 모델을 사용하여 주어진 이미지로부터 다중 뷰 일관성 이미지를 생성하고, 임의의 객체에 대해 강력한 일반화 능력을 보여주는 Segment Anything Model(SAM)을 활용하여 다중 뷰 세그멘테이션 마스크를 생성합니다. 2D 부품 기반 정보를 3D 재구성에 효과적으로 통합하고 불일치를 처리하기 위해, 우리는 다중 뷰 세그멘테이션 마스크를 기반으로 부품 인식 특징 공간을 학습하기 위해 신경 렌더링 프레임워크에 대조 학습을 도입했습니다. 또한 클러스터링 기반 알고리즘을 개발하여 재구성된 모델로부터 3D 부품 세그멘테이션 결과를 자동으로 도출합니다. 실험 결과, 우리의 방법은 다양한 객체에 대해 고품질의 분할된 부품을 가진 3D 모델을 생성할 수 있음을 보여줍니다. 기존의 비구조적 재구성 방법과 비교하여, 우리의 방법으로 생성된 부품 인식 3D 모델은 특징 보존 재구성, 기본 도형 피팅, 3D 형태 편집 등 중요한 애플리케이션에 유용합니다.
확산 모델은 복잡한 분포를 학습할 수 있지만, 샘플링에는 계산 비용이 많이 드는 반복적 과정이 필요합니다. 기존의 증류 방법들은 효율적인 샘플링을 가능하게 하지만, 매우 적은 샘플링 단계에서 성능 저하, 학습 데이터 접근에 대한 의존성, 또는 전체 분포를 포착하지 못할 수 있는 모드 추구 최적화와 같은 뚜렷한 한계가 있습니다. 우리는 최대 우도 기반 접근법인 EM 증류(EMD)를 제안하며, 이는 확산 모델을 지각적 품질 손실을 최소화하면서 단일 단계 생성기 모델로 증류합니다. 우리의 접근법은 기대값 최대화(EM) 관점에서 유도되었으며, 여기서 생성기 매개변수는 확산 교사 사전 분포와 추론된 생성기 잠재 변수의 결합 분포에서 추출된 샘플을 사용하여 업데이트됩니다. 우리는 재매개변수화된 샘플링 기법과 노이즈 제거 기술을 개발하여 증류 과정을 안정화합니다. 또한, 우리의 방법이 기존의 모드 추구 KL 최소화 방법과 흥미로운 연관성을 가짐을 밝혔습니다. EMD는 ImageNet-64 및 ImageNet-128에서 FID 점수 측면에서 기존의 단일 단계 생성 방법들을 능가하며, 텍스트-이미지 확산 모델 증류에 관한 선행 연구와 비교하여 유리한 성능을 보입니다.
비디오 생성 모델은 사실적이고 창의적인 프레임을 생성할 수 있는 능력으로 인해 특히 주목받고 있습니다. 또한, 이러한 모델은 강력한 3D 일관성을 보여주어 세계 시뮬레이터로서의 잠재력을 크게 향상시킵니다. 본 연구에서는 단일 생성 비디오에서 4D(즉, 순차적 3D) 표현을 정확하게 재구성하는 데 탁월한 성능을 보이는 새로운 재구성 모델인 Vidu4D를 소개합니다. 이 모델은 비강체성과 프레임 왜곡과 관련된 문제를 해결하며, 공간적 및 시간적 일관성을 유지하는 고품질 가상 콘텐츠를 생성하는 데 중요한 역할을 합니다. Vidu4D의 핵심은 우리가 제안한 Dynamic Gaussian Surfels(DGS) 기술입니다. DGS는 시간에 따라 변화하는 워핑 함수를 최적화하여 정적 상태의 Gaussian surfels(표면 요소)를 동적으로 왜곡된 상태로 변환합니다. 이 변환은 시간에 따른 움직임과 변형을 정밀하게 묘사할 수 있게 합니다. 표면 정렬된 Gaussian surfels의 구조적 무결성을 유지하기 위해, 우리는 법선을 추정하기 위한 연속적인 워핑 필드를 기반으로 한 왜곡 상태 기하학적 정규화를 설계했습니다. 또한, Gaussian surfels의 회전 및 스케일링 매개변수에 대한 개선을 학습하여 워핑 과정 중의 텍스처 깜빡임을 크게 완화하고 미세한 외관 세부 사항을 더 잘 포착할 수 있도록 했습니다. Vidu4D는 또한 DGS의 워핑 필드에 적절한 시작점을 제공하는 새로운 초기화 상태를 포함합니다. 기존의 비디오 생성 모델과 Vidu4D를 결합한 전체 프레임워크는 외관과 기하학 모두에서 고품질의 텍스트-투-4D 생성을 보여줍니다.
딥러닝 모델의 좋은 초기화는 모델이 더 나은 수렴과 빠른 학습을 가능하게 하므로 필수적입니다. 그러나 대규모 모델의 사전 학습은 많은 연구자들에게 부담스러운 작업이며, 이로 인해 초기 매개변수에 대한 예측이 더욱 필요해졌습니다. 모델 매개변수를 예측하는 접근법 중 하나인 그래프 하이퍼네트워크(GHNs)는 최근 대규모 비전 모델 초기화에서 강력한 성능을 보여주었습니다. 그러나 매우 넓은 네트워크의 매개변수를 예측할 때는 작은 매개변수 덩어리를 여러 번 복사해야 하며, 완전한 예측을 지원하기 위해 지나치게 많은 매개변수가 필요하여 실제 적용에 큰 장애가 되었습니다. 이러한 한계를 해결하기 위해, 우리는 LoGAH(Low-rank GrAph Hypernetworks)를 제안합니다. LoGAH은 낮은 랭크(low-rank) 매개변수 디코더를 갖춘 GHN으로, 이전 시도들보다 훨씬 적은 매개변수 증가로도 더 넓은 네트워크로 확장할 수 있습니다. LoGAH을 통해 7억 7천 4백만 개의 대규모 신경망 매개변수를 메모리 효율적으로 예측할 수 있습니다. 우리는 LoGAH로 초기화된 비전 및 언어 모델(예: ViT 및 GPT-2)이 무작위 초기화나 기존 하이퍼네트워크를 사용한 초기화보다 더 나은 성능을 달성함을 보여줍니다. 또한, 작은 데이터셋에서 LoGAH을 학습하고 예측된 매개변수를 더 큰 작업의 초기화에 사용할 때 유망한 전이 학습 결과를 보여줍니다. 코드는 https://github.com/Blackzxy/LoGAH에서 제공됩니다.
우리는 대규모 픽셀 기반 이미지 확산 모델을 효과적으로 학습시키는 오랜 문제를 해결하기 위해, 캐스케이드 초해상도 구성 요소 없이도 대규모 고해상도 모델을 안정적으로 훈련시킬 수 있는 매우 간단한 탐욕적 성장 방법을 소개합니다. 핵심 통찰은 텍스트-이미지 정렬과 고해상도 렌더링을 담당하는 핵심 구성 요소를 신중하게 사전 훈련하는 데서 비롯됩니다. 먼저, 다운(업)샘플링 인코더(디코더)가 없는 {\it 얕은 UNet}을 확장하는 이점을 보여줍니다. 이 모델의 깊은 핵심 레이어를 확장함으로써 정렬, 객체 구조, 구성을 개선할 수 있음을 입증합니다. 이 핵심 모델을 기반으로, 사전 훈련된 표현의 무결성을 유지하면서 훈련을 안정화하고 대규모 고해상도 데이터셋의 필요성을 줄이는 탐욕적 알고리즘을 제안합니다. 이를 통해 단일 단계 모델로 초해상도 캐스케이드 없이도 고해상도 이미지를 생성할 수 있습니다. 우리의 주요 결과는 공개 데이터셋을 기반으로 하며, 추가 정규화 기법 없이도 80억 개의 매개변수를 가진 비캐스케이드 모델을 훈련시킬 수 있음을 보여줍니다. 내부 데이터셋으로 훈련된 1024x1024 이미지를 생성하는 우리의 전체 파이프라인 모델인 Vermeer은 SDXL 대비 44.0% 대 21.4%로 인간 평가자들에게 더 선호되었습니다.