번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 텍스트-이미지 합성을 위한 잠재 확산 모델인 SDXL을 소개한다. 이전 버전의 Stable Diffusion과 비교하여, SDXL은 3배 더 큰 UNet 백본을 활용한다: 모델 파라미터의 증가는 주로 더 많은 어텐션 블록과 두 번째 텍스트 인코더를 사용함으로써 확장된 크로스-어텐션 컨텍스트에 기인한다. 우리는 여러 가지 새로운 조건화 기법을 설계하고, SDXL을 다양한 종횡비로 학습시켰다. 또한, SDXL이 생성한 샘플의 시각적 충실도를 향상시키기 위해 사후 이미지-이미지 기법을 사용하는 정제 모델을 도입했다. 우리는 SDXL이 이전 버전의 Stable Diffusion에 비해 극적으로 향상된 성능을 보이며, 블랙박스 방식의 최첨단 이미지 생성기와 경쟁력 있는 결과를 달성함을 입증한다. 대규모 모델 학습과 평가에서 개방형 연구와 투명성을 촉진하기 위해, 코드와 모델 가중치를 https://github.com/Stability-AI/generative-models에서 제공한다.
대규모 언어 모델 시대에서 시퀀스 길이 확장은 중요한 요구사항으로 부상했습니다. 그러나 기존 방법들은 계산 복잡성이나 모델 표현력에 어려움을 겪으며, 최대 시퀀스 길이가 제한되는 문제를 안고 있습니다. 본 연구에서는 더 짧은 시퀀스에서의 성능을 희생하지 않으면서도 시퀀스 길이를 10억 토큰 이상으로 확장할 수 있는 Transformer 변형인 LongNet을 소개합니다. 구체적으로, 거리가 증가함에 따라 주의 영역을 기하급수적으로 확장하는 확장 주의(dilated attention)를 제안합니다. LongNet은 다음과 같은 중요한 장점을 가지고 있습니다: 1) 선형 계산 복잡성과 토큰 간 로그 의존성을 가집니다; 2) 극도로 긴 시퀀스를 위한 분산 학습기로 사용될 수 있습니다; 3) 확장 주의는 표준 주의를 대체할 수 있는 드롭인(drop-in) 방식으로, 기존 Transformer 기반 최적화와 원활하게 통합될 수 있습니다. 실험 결과는 LongNet이 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보여줌을 입증합니다. 본 연구는 전체 코퍼스나 심지어 인터넷 전체를 하나의 시퀀스로 다루는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.
기존 대규모 텍스트-이미지(T2I) 모델이 상세한 텍스트 설명에서 고품질 이미지를 생성할 수 있는 능력을 갖추고 있음에도 불구하고, 이들은 종종 생성된 이미지나 실제 이미지를 정밀하게 편집하는 능력이 부족합니다. 본 논문에서는 Drag 스타일 조작을 Diffusion 모델에 적용할 수 있는 새로운 이미지 편집 방법인 DragonDiffusion을 제안합니다. 구체적으로, 우리는 Diffusion 모델의 중간 특징 간의 강력한 대응 관계를 기반으로 분류기 가이던스를 구성합니다. 이는 특징 대응 손실을 통해 편집 신호를 그래디언트로 변환하여 Diffusion 모델의 중간 표현을 수정할 수 있습니다. 이 가이던스 전략을 바탕으로, 우리는 의미론적 및 기하학적 정렬을 모두 고려한 다중 스케일 가이던스를 구축합니다. 또한, 원본 이미지와 편집 결과 간의 일관성을 유지하기 위해 크로스-브랜치 자기 주의 메커니즘을 추가했습니다. 우리의 방법은 효율적인 설계를 통해 생성된 이미지나 실제 이미지에 대해 객체 이동, 객체 크기 조정, 객체 외관 교체, 콘텐츠 드래깅과 같은 다양한 편집 모드를 달성합니다. 주목할 점은 모든 편집 및 콘텐츠 보존 신호가 이미지 자체에서 나오며, 모델은 미세 조정이나 추가 모듈이 필요하지 않다는 것입니다. 우리의 소스 코드는 https://github.com/MC-E/DragonDiffusion에서 확인할 수 있습니다.
최근 INSTRUCTEVAL의 출시는 인코더-디코더 또는 디코더 전용 아키텍처를 활용하는 대형 언어 모델(LLM)의 성능에 대한 유용한 통찰력을 제공하였다. 흥미롭게도, 4년 전에 소개된 T5 기반 LLM들, 예를 들어 FLAN-T5는 일반적인 문제 해결 능력을 요구하는 작업에서 최신 디코더 기반 LLM들인 LLAMA와 VICUNA를 계속해서 능가하고 있다. 이러한 성능 차이는 세 가지 주요 요인으로 설명될 수 있다: (1) 사전 학습 데이터, (2) 백본 아키텍처, (3) 명령어 데이터셋. 본 기술 보고서에서는 세 번째 요인의 영향을 조사하는 데 주력하며, 이를 위해 ChatGPT 대화를 기반으로 미세 조정된 LLAMA 기반의 대형 언어 모델인 VICUNA를 활용하였다. 이 목표를 달성하기 위해, 우리는 FLANMINI라는 맞춤형 명령어 데이터셋 컬렉션을 사용하여 VICUNA를 미세 조정하였다. 이 컬렉션은 대규모 명령어 데이터셋인 FLAN의 하위 집합과 다양한 코드 관련 데이터셋, 그리고 ChatGPT/GPT-4에서 파생된 대화 데이터셋을 포함한다. 이 데이터셋은 문제 해결 능력을 요구하는 다수의 작업으로 구성되어 있다. 우리의 실험 결과는 FLAN 데이터셋을 통해 미세 조정된 VICUNA 모델인 FLACUNA의 향상된 문제 해결 능력이 INSTRUCTEVAL의 다양한 벤치마크 데이터셋에서 상당한 개선을 이끌어냈음을 강력히 시사한다. FLACUNA는 https://huggingface.co/declare-lab/flacuna-13b-v1.0에서 공개적으로 이용 가능하다.
문서 이해(Document Understanding)는 웹 페이지와 같은 다양한 유형의 디지털 문서로부터 정보를 자동으로 추출, 분석 및 이해하는 것을 의미합니다. 기존의 다중 모드 대형 언어 모델(Multi-model Large Language Models, MLLMs)인 mPLUG-Owl을 포함한 모델들은 OCR(광학 문자 인식)을 사용하지 않은 얕은 수준의 텍스트 인식에서 유망한 제로샷(zero-shot) 능력을 보여주며, OCR을 사용하지 않은 문서 이해의 잠재력을 시사했습니다. 그러나 도메인 내 훈련 없이는 이러한 모델들은 정교한 테이블이나 대량의 텍스트 블록과 같은 세밀한 OCR 특징을 무시하는 경향이 있으며, 이는 OCR을 사용하지 않은 문서 이해에 필수적입니다. 본 논문에서는 OCR을 사용하지 않은 문서 이해를 위해 mPLUG-Owl을 기반으로 한 mPLUG-DocOwl을 제안합니다. 구체적으로, 먼저 다양한 시각-텍스트 이해 작업을 특징으로 하는 지시 튜닝(instruction tuning) 데이터셋을 구축합니다. 그런 다음, 언어 전용, 일반적인 시각-언어, 그리고 문서 지시 튜닝 데이터셋을 통합 지시 튜닝 전략으로 공동 훈련하여 OCR을 사용하지 않은 문서 이해 능력을 강화합니다. 또한, 모델의 지시 준수 및 문서 이해 능력을 더 잘 비교하기 위해 OCR을 사용하지 않은 문서 지시 이해 평가 세트인 LLMDoc을 구축합니다. 실험 결과는 우리의 모델이 기존의 다중 모드 모델들을 능가하며, 강력한 문서 이해 능력을 보여줍니다. 또한, 특정한 미세 조정 없이도 mPLUG-DocOwl은 다양한 하위 작업에서 잘 일반화됩니다. 우리의 코드, 모델, 훈련 데이터 및 평가 세트는 https://github.com/X-PLUG/mPLUG-DocOwl에서 확인할 수 있습니다.
안전성과 무해성을 위해 훈련된 대형 언어 모델들은 여전히 적대적 오용에 취약하며, 이는 초기 ChatGPT 릴리스에서 원치 않는 행동을 유도하는 "탈옥(jailbreak)" 공격의 유행으로 입증되었습니다. 이 문제를 단순히 인식하는 데 그치지 않고, 우리는 이러한 공격이 성공하는 이유와 그것이 어떻게 생성될 수 있는지 조사합니다. 우리는 안전 훈련의 두 가지 실패 모드, 즉 상충되는 목표와 불일치 일반화를 가설로 제시합니다. 상충되는 목표는 모델의 능력과 안전 목표가 충돌할 때 발생하며, 불일치 일반화는 안전 훈련이 능력이 존재하는 영역으로 일반화되지 못할 때 발생합니다. 우리는 이러한 실패 모드를 활용하여 탈옥 공격을 설계한 후, OpenAI의 GPT-4와 Anthropic의 Claude v1.3을 포함한 최신 모델들을 기존 및 새로 설계된 공격에 대해 평가합니다. 우리는 이러한 모델들에 대한 광범위한 레드팀링과 안전 훈련 노력에도 불구하고 취약점이 지속된다는 사실을 발견했습니다. 특히, 우리의 실패 모드를 활용한 새로운 공격들은 모델들의 레드팀링 평가 세트에서 수집된 안전하지 않은 요청들에 대해 모든 프롬프트에서 성공하며, 기존의 임시 탈옥 공격들을 능가합니다. 우리의 분석은 안전 메커니즘이 기본 모델만큼 정교해야 한다는 안전-능력 패리티의 필요성을 강조하며, 단순히 규모를 키우는 것만으로 이러한 안전 실패 모드가 해결될 수 있다는 생각에 반대합니다.
GPT4와 같은 대형 언어 모델(LLMs)의 최근 발전은 이미지가 주어진 개방형 지시를 따르는 데 있어 탁월한 다중 모달 능력을 보여주고 있다. 그러나 이러한 모델의 성능은 네트워크 구조, 학습 데이터, 학습 전략과 같은 설계 선택에 크게 의존하며, 이러한 선택은 문헌에서 광범위하게 논의되지 않아 이 분야의 진전을 정량화하기 어렵다. 이 문제를 해결하기 위해, 본 논문은 이러한 모델을 훈련하는 데 있어 체계적이고 포괄적인 연구를 정량적 및 정성적으로 제시한다. 우리는 통제된 설정으로 20가지 이상의 변형을 구현한다. 구체적으로, 네트워크 구조에 대해 다양한 LLM 백본과 모델 설계를 비교한다. 학습 데이터에 대해 데이터 및 샘플링 전략의 영향을 조사한다. 지시에 대해 다양한 프롬프트가 훈련된 모델의 지시 수행 능력에 미치는 영향을 탐구한다. 벤치마크에 대해, 우리가 아는 한 최초로 이미지와 비디오 작업을 모두 포함한 포괄적인 평가 세트를 크라우드소싱을 통해 제공한다. 우리의 연구 결과를 바탕으로, 기존의 오픈소스 GPT4 스타일 모델과 비교하여 가장 정확한 다중 모달 이해 능력을 유지하면서 최고의 다중 모달 생성 능력을 보여주는 Lynx를 제시한다.
대규모 언어 모델(LLMs)은 다양한 도메인에서 단일 에이전트의 구체화된 작업에 대한 인상적인 계획 능력을 보여주었습니다. 그러나 다중 에이전트 협업에서의 계획 및 의사소통 능력은 여전히 불분명하며, 이는 지능형 구체화 에이전트에게 중요한 기술입니다. 본 논문에서는 LLMs를 활용한 다중 에이전트 협업을 위한 새로운 프레임워크를 제시하고 이를 다양한 구체화된 환경에서 테스트합니다. 우리의 프레임워크는 구체화된 에이전트가 다른 구체화된 에이전트 또는 인간과 계획하고, 의사소통하며, 협력하여 장기적인 작업을 효율적으로 수행할 수 있도록 합니다. 최근의 LLMs, 예를 들어 GPT-4가 강력한 계획 기반 방법을 능가하고, 미세 조정이나 소수 샷 프롬프팅 없이도 우리의 프레임워크를 사용하여 효과적인 의사소통을 보여줄 수 있음을 입증합니다. 또한 자연어로 의사소통하는 LLM 기반 에이전트가 인간과 더 많은 신뢰를 얻고 더 효과적으로 협력할 수 있음을 발견했습니다. 우리의 연구는 구체화된 AI를 위한 LLMs의 잠재력을 강조하며, 다중 에이전트 협업에 대한 미래 연구의 기초를 마련합니다. 비디오는 프로젝트 웹사이트 https://vis-www.cs.umass.edu/Co-LLM-Agents/에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 단계별 계획 수립부터 상식적 추론에 이르기까지 로봇에게 유용할 수 있는 다양한 잠재력을 보여주지만, 여전히 확신에 찬 허구적 예측을 내놓는 경향이 있습니다. 본 연구에서는 LLM 기반 계획 시스템이 자신이 모르는 것을 알고 필요할 때 도움을 요청할 수 있도록 불확실성을 측정하고 조정하는 프레임워크인 KnowNo를 제안합니다. KnowNo는 컨포멀 예측(conformal prediction) 이론을 기반으로 하여 복잡한 다단계 계획 설정에서 인간의 도움을 최소화하면서 작업 완료에 대한 통계적 보장을 제공합니다. 공간적 불확실성부터 수치적 불확실성, 인간 선호도부터 위노그래드 스키마(Winograd schemas)에 이르기까지 다양한 모드의 모호성을 포함하는 시뮬레이션 및 실제 로봇 설정에서의 실험 결과, KnowNo는 앙상블이나 광범위한 프롬프트 튜닝을 포함할 수 있는 현대적 베이스라인 대비 효율성과 자율성을 개선하면서 공식적 보장을 제공하는 데 유리한 성능을 보였습니다. KnowNo는 모델 미세 조정 없이도 바로 사용 가능한 LLM과 함께 사용할 수 있으며, 기초 모델의 성장하는 능력과 보완적이고 확장 가능한 경량화된 불확실성 모델링 접근 방식을 제시합니다. 웹사이트: https://robot-help.github.io
최근 Diffusion Transformer(예: DiT)는 고품질 2D 이미지 생성에서 강력한 효과를 입증했습니다. 그러나 Transformer 아키텍처가 3D 형태 생성에서도 동일한 성능을 발휘하는지는 여전히 불분명합니다. 이전의 3D diffusion 방법들은 대부분 U-Net 아키텍처를 채택했기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 3D 형태 생성을 위한 새로운 Diffusion Transformer인 DiT-3D를 제안합니다. DiT-3D는 일반적인 Transformer를 사용하여 복셀화된 포인트 클라우드에서 직접 노이즈 제거 프로세스를 수행할 수 있습니다. 기존의 U-Net 접근 방식과 비교하여, 우리의 DiT-3D는 모델 크기 측면에서 더 확장 가능하며 훨씬 더 높은 품질의 생성물을 만들어냅니다. 구체적으로, DiT-3D는 DiT의 설계 철학을 채택하지만 3D 위치 및 패치 임베딩을 통합하여 복셀화된 포인트 클라우드의 입력을 적응적으로 집계하도록 수정했습니다. 3D 형태 생성에서 self-attention의 계산 비용을 줄이기 위해, 우리는 Transformer 블록에 3D 윈도우 어텐션을 통합했습니다. 이는 복셀의 추가 차원으로 인해 증가한 3D 토큰 길이가 높은 계산량을 초래할 수 있기 때문입니다. 마지막으로, 선형 및 디복셀화 레이어를 사용하여 노이즈가 제거된 포인트 클라우드를 예측합니다. 또한, 우리의 Transformer 아키텍처는 2D에서 3D로의 효율적인 미세 조정을 지원하며, ImageNet에서 사전 학습된 DiT-2D 체크포인트가 ShapeNet에서 DiT-3D의 성능을 크게 향상시킬 수 있습니다. ShapeNet 데이터셋에 대한 실험 결과는 제안된 DiT-3D가 고화질 및 다양한 3D 포인트 클라우드 생성에서 최첨단 성능을 달성함을 보여줍니다. 특히, 우리의 DiT-3D는 Chamfer Distance로 평가했을 때 최첨단 방법의 1-Nearest Neighbor Accuracy를 4.59 감소시키고 Coverage 지표를 3.51 증가시켰습니다.
비전 트랜스포머(Vision Transformers, ViT)의 입력 토큰은 입력 이미지의 내용과 무관하게 동일한 크기의 정규 패치로 정의되기 때문에 시맨틱 의미를 거의 포함하지 않습니다. 그러나 이미지의 균일한 배경 영역을 처리하는 데에는 복잡하고 혼잡한 영역만큼의 계산 자원이 필요하지 않습니다. 이 문제를 해결하기 위해, 우리는 ViT를 위한 동적 혼합 스케일 토큰화 기법인 MSViT를 제안합니다. 우리의 방법은 각 이미지 영역에 대해 최적의 토큰 스케일을 선택하는 조건부 게이팅 메커니즘을 도입하여, 입력마다 토큰의 수를 동적으로 결정합니다. 제안된 게이팅 모듈은 경량이며, 트랜스포머 백본 선택에 독립적이고, 적은 학습 오버헤드로 몇 에포크(예: ImageNet에서 20 에포크) 내에 학습됩니다. 또한, 학습 중 게이트의 조건부 동작을 강화하기 위해 배치 셰이핑 손실(batch-shaping loss)의 새로운 일반화를 도입합니다. 우리는 게이팅 모듈이 거친 패치 수준에서 로컬하게 동작함에도 불구하고 의미 있는 시맨틱을 학습할 수 있음을 보여줍니다. MSViT는 분류 및 세분화 작업에서 검증되었으며, 정확도와 복잡성 간의 균형을 개선하는 결과를 보여줍니다.
본 연구는 오픈소스 대형 언어 모델(LLM)의 텍스트 주석 작업 성능을 조사하고 이를 ChatGPT와 같은 상용 모델 및 MTurk와 같은 인간 기반 서비스와 비교합니다. 이전 연구에서 ChatGPT가 다양한 NLP 작업에서 높은 성능을 보인 것으로 입증되었지만, HugginChat 및 FLAN과 같은 오픈소스 LLM은 비용 효율성, 투명성, 재현성, 우수한 데이터 보호 측면에서 주목받고 있습니다. 우리는 이러한 모델들을 제로샷 및 퓨샷 접근 방식과 다양한 온도 매개변수를 사용하여 다양한 텍스트 주석 작업에서 평가합니다. 연구 결과, ChatGPT가 대부분의 작업에서 최고의 성능을 달성하지만, 오픈소스 LLM은 MTurk를 능가할 뿐만 아니라 특정 작업에서 ChatGPT에 대해 경쟁력 있는 잠재력을 보여줍니다.
아바타는 가상 세계에서 상호작용적이고 몰입적인 경험을 창출하는 데 중요합니다. 이러한 캐릭터를 사용자의 동작을 모방하도록 애니메이션화하는 데 있어 한 가지 도전 과제는 상용 AR/VR 제품이 헤드셋과 컨트롤러로만 구성되어 사용자의 자세에 대한 센서 데이터가 매우 제한적이라는 점입니다. 또 다른 도전 과제는 아바타가 인간과 다른 골격 구조를 가질 수 있으며, 이들 간의 매핑이 명확하지 않다는 점입니다. 본 연구에서는 이러한 두 가지 도전 과제를 모두 해결합니다. 우리는 희소한 인간 센서 데이터에서 다양한 형태의 캐릭터로 실시간으로 동작을 리타겟팅하는 방법을 소개합니다. 우리의 방법은 물리 시뮬레이터에서 캐릭터를 제어하기 위한 정책을 훈련하기 위해 강화 학습을 사용합니다. 우리는 각 아바타에 대해 아티스트가 생성한 애니메이션에 의존하지 않고, 훈련을 위해 인간 모션 캡처 데이터만을 요구합니다. 이를 통해 대규모 모션 캡처 데이터셋을 사용하여 실시간으로 실제 및 희소 데이터에서 보이지 않는 사용자를 추적할 수 있는 일반적인 정책을 훈련할 수 있습니다. 우리는 공룡, 생쥐 같은 생물, 인간 등 세 가지 다른 골격 구조를 가진 캐릭터에 대해 우리의 접근 방식의 타당성을 입증합니다. 우리는 하체에 대한 센서 정보가 없음에도 불구하고 아바타의 자세가 종종 사용자의 자세와 놀라울 정도로 잘 일치함을 보여줍니다. 우리는 우리의 프레임워크에서 중요한 구성 요소, 특히 운동학적 리타겟팅 단계, 모방, 접촉 및 행동 보상, 그리고 비대칭적인 액터-크리틱 관찰에 대해 논의하고 이를 제거해 봅니다. 우리는 또한 불균형, 춤, 스포츠 동작을 포함한 다양한 설정에서 우리의 방법의 견고성을 추가로 탐구합니다.
본 논문은 기존의 Decision Transformer(DT)와 그 변형들을 크게 개선한 Elastic Decision Transformer(EDT)를 소개한다. DT는 최적의 궤적을 생성한다고 주장하지만, 실험적 증거에 따르면 DT는 궤적 스티칭(trajectory stitching) 과정에서 어려움을 겪는 것으로 나타났다. 궤적 스티칭이란 여러 차선의 궤적 중 가장 우수한 부분을 조합하여 최적 또는 근사 최적의 궤적을 생성하는 과정을 의미한다. 제안된 EDT는 테스트 시점에서의 행동 추론 과정에서 궤적 스티칭을 용이하게 함으로써 차별성을 갖는다. 이는 DT에서 유지되는 이력(history) 길이를 조정함으로써 달성된다. 또한, EDT는 이전 궤적이 최적일 때는 더 긴 이력을 유지하고, 차선일 때는 더 짧은 이력을 유지함으로써 궤적을 최적화하며, 이를 통해 더 최적의 궤적과 "스티칭"할 수 있게 한다. 광범위한 실험을 통해 EDT는 DT 기반 접근법과 Q 러닝 기반 접근법 간의 성능 격차를 줄일 수 있음을 입증했다. 특히, EDT는 D4RL 로코모션 벤치마크와 아타리 게임에서의 다중 작업 환경에서 Q 러닝 기반 방법들을 능가하는 성능을 보였다. 관련 동영상은 https://kristery.github.io/edt/에서 확인할 수 있다.
구현된 에이전트에게 상식을 갖추는 것은 로봇이 일반적인 환경에서 복잡한 인간의 지시를 성공적으로 완수하기 위해 중요하다. 최근의 대형 언어 모델(LLM)은 복잡한 작업의 계획 생성에서 에이전트를 위해 풍부한 의미론적 지식을 포함할 수 있지만, 현실 세계에 대한 정보가 부족하여 실행 불가능한 행동 시퀀스를 생성하는 경우가 많다. 본 논문에서는 물리적 장면 제약 조건을 고려한 계획 수립을 위해 구현된 작업에서의 TAsk Planing Agent (TaPA)를 제안한다. 이 에이전트는 LLM을 시각 인식 모델과 정렬하여 장면에 존재하는 객체에 따라 실행 가능한 계획을 생성한다. 구체적으로, 우리는 먼저 실내 장면, 지시 및 행동 계획의 삼중항을 포함하는 다중 모드 데이터셋을 구성한다. 여기서 우리는 GPT-3.5가 대량의 지시와 해당 계획된 행동을 생성할 수 있도록 설계된 프롬프트와 장면에 존재하는 객체 목록을 제공한다. 생성된 데이터는 사전 훈련된 LLM의 계획 수립을 위한 기반으로 활용된다. 추론 과정에서, 우리는 다양한 달성 가능한 위치에서 수집된 다중 뷰 RGB 이미지에 대해 개방형 어휘 객체 탐지기를 확장하여 장면의 객체를 발견한다. 실험 결과는 우리의 TaPA 프레임워크에서 생성된 계획이 LLaVA와 GPT-3.5보다 상당히 높은 성공률을 달성함을 보여주며, 이는 일반적이고 복잡한 환경에서의 구현된 작업 계획의 실용성을 나타낸다.
음악은 감정을 전달하기 위해 사용되며, 따라서 감정적 음악을 생성하는 것은 자동 음악 생성에서 중요합니다. 기존의 감정적 음악 생성 연구에서는 주석이 달린 감정 레이블을 직접 제어 신호로 사용했는데, 이는 주관적 편향에 취약합니다: 같은 음악에 대해 다른 사람들이 서로 다른 감정을 주석으로 달 수 있으며, 한 사람도 상황에 따라 다른 감정을 느낄 수 있습니다. 따라서 감정 레이블을 음악 시퀀스로 직접 매핑하는 엔드투엔드 방식은 학습 과정을 혼란스럽게 하고, 모델이 일반적인 감정을 가진 음악을 생성하는 것을 방해할 수 있습니다. 본 논문에서는 감정과 음악 사이의 다리 역할을 하는 일련의 감정 관련 음악 속성을 활용하고, 생성 과정을 두 단계로 나누는 EmoGen이라는 감정적 음악 생성 시스템을 제안합니다: 감정-속성 매핑은 지도 클러스터링을 통해, 속성-음악 생성은 자기 지도 학습을 통해 수행됩니다. 두 단계 모두 장점이 있습니다: 첫 번째 단계에서는 클러스터링 중심 주변의 속성 값이 샘플들의 일반적인 감정을 나타내어 감정 레이블의 주관적 편향의 영향을 제거하는 데 도움을 줍니다; 두 번째 단계에서는 생성이 감정 레이블과 완전히 분리되어 주관적 편향에서 자유롭습니다. 주관적 및 객관적 평가 모두에서 EmoGen은 감정 제어 정확도와 음악 품질 측면에서 기존 방법들을 능가하며, 이는 감정적 음악 생성에서의 우수성을 입증합니다. EmoGen으로 생성된 음악 샘플은 https://ai-muzic.github.io/emogen/에서 확인할 수 있으며, 코드는 https://github.com/microsoft/muzic/에서 이용 가능합니다.