번역이 포함된 일일 선별된 AI 연구 논문
우리는 인간의 개입 없이 지속적으로 세계를 탐험하고 다양한 기술을 습득하며 새로운 발견을 하는, Minecraft 내 최초의 LLM 기반 구체화된 평생 학습 에이전트인 Voyager를 소개합니다. Voyager는 세 가지 핵심 구성 요소로 이루어져 있습니다: 1) 탐험을 극대화하는 자동 커리큘럼, 2) 복잡한 행동을 저장하고 검색하기 위한 실행 가능한 코드로 구성된 지속적으로 성장하는 기술 라이브러리, 3) 환경 피드백, 실행 오류 및 자체 검증을 통합하여 프로그램을 개선하는 새로운 반복적 프롬프트 메커니즘. Voyager는 GPT-4와 블랙박스 쿼리를 통해 상호작용하며, 이는 모델 파라미터 미세 조정의 필요성을 없앱니다. Voyager가 개발한 기술은 시간적으로 확장 가능하고 해석 가능하며 구성적이어서, 에이전트의 능력을 빠르게 증대시키고 치명적인 망각을 완화합니다. 실험적으로, Voyager는 강력한 문맥 내 평생 학습 능력을 보여주며 Minecraft 플레이에서 탁월한 숙련도를 나타냅니다. 이전 SOTA 대비 3.3배 더 많은 고유 아이템을 획득하고, 2.3배 더 긴 거리를 이동하며, 주요 기술 트리 이정표를 최대 15.3배 더 빠르게 해제합니다. Voyager는 학습된 기술 라이브러리를 새로운 Minecraft 세계에서 활용하여 처음부터 새로운 작업을 해결할 수 있는 반면, 다른 기술들은 일반화에 어려움을 겪습니다. 우리는 전체 코드베이스와 프롬프트를 https://voyager.minedojo.org/에서 오픈소스로 공개합니다.
스코어 증류 샘플링(Score Distillation Sampling, SDS)은 사전 학습된 대규모 텍스트-이미지 확산 모델을 증류하여 텍스트-3D 생성에서 큰 가능성을 보여주었지만, 과포화, 과도한 평활화, 그리고 낮은 다양성 문제를 겪고 있습니다. 본 연구에서는 SDS에서와 같이 3D 매개변수를 상수로 모델링하는 대신 이를 확률 변수로 모델링하고, 텍스트-3D 생성에서 앞서 언급된 문제들을 설명하고 해결하기 위한 원칙 기반의 입자 기반 변분 프레임워크인 변분 스코어 증류(Variational Score Distillation, VSD)를 제안합니다. 우리는 SDS가 VSD의 특수한 경우이며, 작은 CFG 가중치와 큰 CFG 가중치 모두에서 열악한 샘플을 생성한다는 것을 보여줍니다. 반면, VSD는 다양한 CFG 가중치에서 잘 작동하며, 확산 모델의 조상 샘플링과 유사하게 일반적인 CFG 가중치(즉, 7.5)에서 다양성과 샘플 품질을 동시에 개선합니다. 또한, 증류 알고리즘과는 직교적이지만 잘 탐구되지 않은 증류 시간 스케줄링 및 밀도 초기화와 같은 텍스트-3D 설계 공간에서의 다양한 개선 사항을 제시합니다. 우리의 전체 접근 방식인 ProlificDreamer는 높은 렌더링 해상도(즉, 512x512)와 풍부한 구조 및 복잡한 효과(예: 연기와 물방울)를 가진 고품질 NeRF를 생성할 수 있습니다. 더 나아가, NeRF로 초기화된 메시는 VSD로 미세 조정되어 세밀하고 사실적인 디테일을 갖추게 됩니다. 프로젝트 페이지: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
약한 언어 모델을 저렴하게 개선하는 새로운 방법으로, ChatGPT와 같은 강력한 모델(예: Alpaca, Self-Instruct 등)의 출력을 기반으로 미세 조정(finetune)하는 접근법이 등장했습니다. 이 방법은 약한 오픈소스 모델을 사용해 독점 모델의 능력을 저렴하게 모방하는 것을 목표로 합니다. 본 연구에서는 이러한 접근법을 비판적으로 분석합니다. 먼저, 다양한 기본 모델 크기(1.5B–13B), 데이터 소스, 모방 데이터 양(0.3M–150M 토큰)을 사용해 ChatGPT를 모방하는 일련의 언어 모델(LM)을 미세 조정했습니다. 이후, 크라우드 평가자와 표준 NLP 벤치마크를 통해 모델을 평가했습니다. 초기에는 모방 모델의 출력 품질에 놀랐습니다. 이 모델들은 지시를 따르는 능력이 훨씬 뛰어났으며, 크라우드 작업자들은 그 출력을 ChatGPT와 경쟁력 있는 수준으로 평가했습니다. 그러나 보다 표적화된 자동 평가를 수행한 결과, 모방 데이터에서 충분히 지원되지 않는 작업에서는 기본 LM과 ChatGPT 사이의 격차가 거의 좁혀지지 않음을 발견했습니다. 이러한 성능 차이는 인간 평가자에게 간과될 수 있는데, 이는 모방 모델이 ChatGPT의 스타일은 잘 모방하지만 사실성(factuality)은 모방하지 못하기 때문입니다. 전반적으로, 우리는 모델 모방이 허황된 약속이라고 결론지었습니다. 오픈소스와 독점 LM 사이에는 상당한 능력 격차가 존재하며, 현재의 방법으로는 엄청난 양의 모방 데이터를 사용하거나 더 강력한 기본 LM을 사용해야만 이 격차를 메울 수 있습니다. 따라서, 오픈소스 모델을 개선하기 위한 가장 효과적인 방법은 독점 시스템을 모방하는 지름길을 택하기보다, 더 나은 기본 LM을 개발하는 어려운 과제에 도전하는 것이라고 주장합니다.
Stable Diffusion 모델(SDMs)의 뛰어난 텍스트-이미지(T2I) 생성 결과는 상당한 계산 비용을 동반합니다. 이 문제를 해결하기 위해, 최근의 효율적인 SDMs 연구는 샘플링 단계 수를 줄이고 네트워크 양자화를 활용하는 데 초점을 맞추었습니다. 이러한 방향과는 별개로, 본 연구는 블록 제거 기반 지식 증류 SDMs(BK-SDMs)를 도입하여 일반적인 목적의 T2I 합성을 위한 고전적인 아키텍처 압축의 힘을 강조합니다. 우리는 SDMs의 U-Net에서 여러 잔차 블록과 어텐션 블록을 제거하여 매개변수 수, 샘플링 단계당 MACs, 그리고 지연 시간을 30% 이상 줄였습니다. 단일 A100 GPU에서 0.22M LAION 쌍(전체 학습 쌍의 0.1% 미만)으로 증류 기반 사전 학습을 수행했습니다. 제한된 자원으로 학습되었음에도 불구하고, 우리의 컴팩트 모델은 전달된 지식의 이점을 통해 원본 SDM을 모방할 수 있으며, 제로샷 MS-COCO 벤치마크에서 더 큰 수십억 개의 매개변수를 가진 모델들과 경쟁력 있는 결과를 달성했습니다. 또한, 우리는 DreamBooth 미세 조정을 통한 개인화 생성에서 경량화된 사전 학습 모델의 적용 가능성을 입증했습니다.
텍스트-이미지 확산 모델은 사용자가 제공한 텍스트 프롬프트를 기반으로 다양하고 고품질의 이미지를 생성할 수 있습니다. 최근 연구에서는 이러한 모델을 확장하여 텍스트 기반 이미지 편집을 지원하고 있습니다. 텍스트 지침은 사용자에게 직관적인 편집 인터페이스를 제공하지만, 사용자가 전달하려는 정확한 개념을 보장하지 못하는 경우가 많습니다. 이 문제를 해결하기 위해 우리는 Custom-Edit을 제안합니다. 이 방법에서는 (i) 몇 장의 참조 이미지를 사용하여 확산 모델을 맞춤화한 후 (ii) 텍스트 기반 편집을 수행합니다. 우리의 주요 발견은, 증강된 프롬프트와 함께 언어 관련 매개변수만 맞춤화하면 참조 유사성을 크게 개선하면서도 원본 유사성을 유지할 수 있다는 것입니다. 또한, 각 맞춤화 및 편집 프로세스에 대한 방법론을 제공합니다. 우리는 널리 사용되는 맞춤화 방법들을 비교하고, 다양한 데이터셋을 사용한 두 가지 편집 방법에 대한 실험 결과를 검증합니다.
최근 음악 생성 분야의 발전은 최첨단 MusicLM에 의해 크게 진전되었습니다. MusicLM은 의미론적, 거친 음향, 그리고 세밀한 음향 모델링을 각각 담당하는 세 가지 LM(Language Model)의 계층 구조로 구성되어 있습니다. 그러나 MusicLM을 사용한 샘플링은 이러한 LM들을 하나씩 거쳐 세밀한 음향 토큰을 얻어야 하기 때문에 계산 비용이 많이 들고 실시간 생성에는 적합하지 않습니다. MusicLM과 동등한 품질을 유지하면서 효율적으로 음악을 생성하는 것은 여전히 중요한 과제로 남아 있습니다. 본 논문에서는 MeLoDy(M for music; L for LM; D for diffusion)를 소개합니다. MeLoDy는 LM-가이드 확산 모델로, 최첨단 품질의 음악 오디오를 생성하면서도 10초 또는 30초 음악 샘플링 시 MusicLM의 순방향 전달 횟수를 각각 95.7% 또는 99.6% 줄입니다. MeLoDy는 MusicLM의 최상위 LM을 상속받아 의미론적 모델링을 수행하고, 새로운 이중 경로 확산(Dual-Path Diffusion, DPD) 모델과 오디오 VAE-GAN을 적용하여 조건부 의미 토큰을 웨이브폼으로 효율적으로 디코딩합니다. DPD는 각 노이즈 제거 단계에서 교차 주의(cross-attention)를 통해 의미 정보를 잠재 변수 세그먼트에 효과적으로 통합함으로써 거친 음향과 세밀한 음향을 동시에 모델링합니다. 실험 결과는 MeLoDy가 샘플링 속도와 무한히 연속 가능한 생성이라는 실용적인 장점뿐만 아니라 최첨단의 음악성, 오디오 품질, 그리고 텍스트 상관관계에서도 우수함을 보여줍니다. 샘플은 https://Efficient-MeLoDy.github.io/에서 확인할 수 있습니다.
리만 다양체 위에 정의된 연속 함수의 생성 모델을 학습하기 위한 접근법인 Manifold Diffusion Fields(MDF)를 제안한다. 스펙트럼 기하학 분석에서 얻은 통찰을 바탕으로, 라플라스-벨트라미 연산자의 고유 함수를 통해 다양체 위에 내재적인 좌표계를 정의한다. MDF는 다수의 입력-출력 쌍으로 구성된 명시적 매개변수화를 사용하여 함수를 표현한다. 이 접근법은 다양체 위의 연속 함수를 샘플링할 수 있도록 하며, 다양체의 강체 및 등거리 변환에 대해 불변성을 가진다. 여러 데이터셋과 다양체에 대한 실험 결과는 MDF가 기존 방법들보다 더 나은 다양성과 충실도로 이러한 함수의 분포를 포착할 수 있음을 보여준다.
텍스트-이미지 확산 모델은 이제 실제 이미지와 구별하기 어려운 수준의 이미지를 생성할 수 있습니다. 이러한 이미지를 생성하기 위해, 이 모델들은 생성하도록 요청받은 객체의 의미론을 이해해야 합니다. 본 연구에서는 어떠한 학습 없이도 확산 모델 내부에 있는 이러한 의미론적 지식을 활용하여 여러 이미지 간에 동일한 의미를 가지는 위치, 즉 의미론적 대응 관계를 찾을 수 있음을 보여줍니다. 구체적으로, 주어진 이미지에 대해 관심 영역에 대한 최대 주의를 끌기 위해 이 모델들의 프롬프트 임베딩을 최적화합니다. 이러한 최적화된 임베딩은 해당 위치에 대한 의미론적 정보를 포착하며, 이를 다른 이미지로 전달할 수 있습니다. 이를 통해 PF-Willow 데이터셋에서 강력한 지도 학습(state of the art) 수준의 결과를 얻었으며, PF-Willow, CUB-200 및 SPair-71k 데이터셋에서 기존의 약지도 또는 비지도 학습 방법들을 크게 능가하는 성능(SPair-71k 데이터셋에서 20.9% 상대적 개선)을 달성했습니다.