번역이 포함된 일일 선별된 AI 연구 논문
인상적인 학습 능력을 지닌 대규모 언어 모델(LLM)의 개발을 주도하는 요인은 그 거대한 모델 크기와 방대한 학습 데이터셋입니다. 자연어 처리 분야의 발전과 함께, LLM은 보다 깊이 있는 연구와 응용을 촉진하기 위해 자주 공개되어 왔습니다. 그러나 이러한 LLM, 특히 최신 최첨단 모델들의 학습 데이터셋은 종종 완전히 공개되지 않는 경우가 많습니다. 고성능 LLM을 위한 학습 데이터를 생성하기 위해서는 필요한 수준의 품질을 보장하기 위해 광범위한 정제 및 중복 제거 작업이 필요합니다. 학습 데이터의 투명성 부족은 LLM의 환각(hallucination) 및 편향(bias) 문제를 규명하고 해결하기 위한 연구를 저해하며, 재현(replication) 노력과 커뮤니티의 추가 발전을 방해하고 있습니다. 이러한 문제는 사용 가능한 다국어 텍스트 데이터셋이 종종 부적절하게 수집되고 정제되는 다국어 학습 시나리오에서 더욱 두드러집니다. 결과적으로, 다국어로 LLM을 효과적으로 학습시키기 위한 오픈소스 및 즉시 사용 가능한 데이터셋이 부족한 실정입니다. 이 문제를 해결하기 위해, 우리는 LLM 개발을 위해 맞춤화된 167개 언어로 구성된 6.3조 토큰의 방대한 다국어 데이터셋인 CulturaX를 제안합니다. 우리의 데이터셋은 언어 식별, URL 기반 필터링, 메트릭 기반 정제, 문서 개선, 데이터 중복 제거를 포함한 다단계의 엄격한 파이프라인을 통해 세심하게 정제 및 중복 제거되어 모델 학습을 위한 최상의 품질을 달성합니다. CulturaX는 다국어 LLM 연구 및 발전을 촉진하기 위해 HuggingFace에 완전히 공개되었습니다: https://huggingface.co/datasets/uonlp/CulturaX.
도메인 특화 코퍼스에 대한 지속적인 사전 학습이 대규모 언어 모델에 미치는 영향을 탐구한 결과, 원시 코퍼스에 대한 학습은 모델에 도메인 지식을 부여하지만 질문 응답을 위한 프롬프팅 능력을 크게 저하시키는 것으로 나타났습니다. 인간의 독해를 통한 학습 방식—즉, 읽은 후 연습을 통해 학습한 지식을 바탕으로 질문에 답변하는 능력이 향상되는 방식—에서 영감을 받아, 우리는 원시 코퍼스를 독해 텍스트로 변환하는 간단한 방법을 제안합니다. 각 원시 텍스트는 그 내용과 관련된 일련의 작업으로 보강됩니다. 우리의 방법은 매우 확장 가능하며 모든 사전 학습 코퍼스에 적용할 수 있으며, 생물의학, 금융, 법률 등 세 가지 다른 도메인에서 다양한 작업에 걸쳐 일관되게 성능을 향상시킵니다. 특히, 우리의 7B 언어 모델은 BloombergGPT-50B와 같은 훨씬 더 큰 규모의 도메인 특화 모델과 경쟁력 있는 성능을 달성합니다. 더 나아가, 도메인 특화 독해 텍스트가 일반 벤치마크에서도 모델의 성능을 향상시킬 수 있음을 보여주며, 더 많은 도메인에 걸친 일반 모델 개발의 잠재력을 보여줍니다. 우리의 모델, 코드, 데이터는 https://github.com/microsoft/LMOps에서 이용 가능할 예정입니다.
대형 언어 모델(LLM)은 문서가 LLM의 짧은 컨텍스트 길이에 맞지 않는 상황에서 문서 질의응답(QA)에 문제를 겪습니다. 이 문제를 해결하기 위해 기존 연구 대부분은 문서에서 관련 컨텍스트를 검색하여 이를 일반 텍스트로 표현하는 데 초점을 맞추고 있습니다. 그러나 PDF, 웹 페이지, 프레젠테이션과 같은 문서는 페이지, 표, 섹션 등으로 자연스럽게 구조화되어 있습니다. 이러한 구조화된 문서를 일반 텍스트로 표현하는 것은 사용자가 풍부한 구조를 가진 이러한 문서에 대해 가지고 있는 정신적 모델과 어울리지 않습니다. 시스템이 문서에서 컨텍스트를 질의해야 할 때, 이러한 불일치가 두드러지며, 사소해 보이는 질문도 QA 시스템을 혼란스럽게 할 수 있습니다. 구조화된 문서를 처리하는 데 있어 이러한 근본적인 격차를 해소하기 위해, 우리는 구조 또는 내용을 기반으로 컨텍스트를 검색할 수 있는 PDFTriage라는 접근 방식을 제안합니다. 우리의 실험은 기존의 검색 강화 LLM이 실패하는 여러 유형의 질문에서 제안된 PDFTriage 강화 모델의 효과성을 입증합니다. 이 근본적인 문제에 대한 추가 연구를 촉진하기 위해, 우리는 10가지 다른 질문 유형 카테고리에서 80개의 구조화된 문서에 대해 900개 이상의 인간이 생성한 질문으로 구성된 벤치마크 데이터셋을 공개합니다.
본 논문은 시각 및 시각-언어 능력을 보여주는 멀티모달 파운데이션 모델의 분류체계와 진화에 대한 포괄적인 조사를 제시하며, 특수 목적 모델에서 범용 어시스턴트로의 전환에 초점을 맞춥니다. 연구 영역은 두 가지 범주로 나뉜 다섯 가지 핵심 주제를 포함합니다. (i) 먼저, 잘 정립된 연구 분야에 대한 조사를 시작합니다: 특정 목적을 위해 사전 학습된 멀티모달 파운데이션 모델로, 시각 이해를 위한 시각 백본 학습 방법과 텍스트-이미지 생성이라는 두 가지 주제를 포함합니다. (ii) 그런 다음, 탐구적이고 개방된 연구 분야의 최근 발전을 소개합니다: 범용 어시스턴트 역할을 목표로 하는 멀티모달 파운데이션 모델로, 대형 언어 모델(LLM)에서 영감을 받은 통합 시각 모델, 멀티모달 LLM의 종단간 학습, 그리고 멀티모달 도구와 LLM의 연결이라는 세 가지 주제를 포함합니다. 본 논문의 대상 독자는 멀티모달 파운데이션 모델의 기초와 최신 동향을 배우고자 하는 컴퓨터 비전 및 시각-언어 멀티모달 커뮤니티의 연구자, 대학원생, 전문가들입니다.
우리는 Li 등(2022)이 제안한 간단하고 계산 부담이 적으며 추가 학습이 필요 없는 텍스트 생성 방법인 Contrastive Decoding이 다양한 추론 과제에서 탐욕적 디코딩(greedy decoding) 대비 큰 개선 효과를 즉시 달성함을 보여준다. 원래 장문 텍스트 생성의 질적 향상을 위해 제안된 Contrastive Decoding은 강력한 모델과 약한 모델 간의 가능성 차이를 가중치로 최대화하는 문자열을 탐색한다. 우리는 Contrastive Decoding이 LLaMA-65B로 하여금 HellaSwag 상식 추론 벤치마크에서 LLaMA 2, GPT-3.5 및 PaLM 2-L을 능가하고, GSM8K 수학 단어 문제 추론 벤치마크에서 LLaMA 2, GPT-3.5 및 PaLM-540B를 능가하며, 다른 과제들에서도 개선을 달성함을 보여준다. 분석 결과, Contrastive Decoding은 일부 추상적 추론 오류를 방지하고, 사고의 연쇄(chain-of-thought) 과정에서 입력의 일부를 단순히 복사하는 등의 단순한 모드를 피함으로써 기존 방법들을 개선하는 것으로 나타났다. 전반적으로, Contrastive Decoding은 장문 생성에서는 nucleus sampling을, 추론 과제에서는 탐욕적 디코딩을 능가하여, 언어 모델로부터 텍스트를 생성하는 강력한 범용 방법으로 자리매김하고 있다.
대규모 언어 모델(LLM)의 급속한 발전은 자연어 처리(NLP) 분야에 혁신을 가져왔습니다. 이러한 모델들은 인간과 유사한 텍스트를 이해하고 생성하는 데 탁월한 성능을 보이지만, 광범위한 배포에는 막대한 비용이 발생할 수 있습니다. SortedNet은 최근에 개발된 심층 신경망을 위한 동적 추론을 가능하게 하는 훈련 기법입니다. 이 기법은 네트워크 모듈성을 활용하여 다양한 계산 부하를 가진 하위 모델을 생성하고, 이를 계산/정확도 특성에 따라 중첩 방식으로 정렬합니다. 우리는 SortedNet을 생성적 NLP 작업에 확장하여, 사전 훈련 없이도 대규모 언어 모델을 동적으로 만들고, 표준 지도 미세 조정(SFT)을 Sorted Fine-Tuning(SoFT)으로 대체함으로써 동일한 비용으로 이를 달성합니다. 우리의 접근 방식은 모델의 효율성을 높여 추론 과정에서 다양한 시나리오에 대해 여러 모델을 사용할 필요를 없앱니다. 이 방법을 사용하여 트랜스포머의 중간 계층이 목표 출력을 생성하는 데 있어 잠재력을 발휘할 수 있음을 보여줍니다. 우리의 하위 모델들은 원본 모델의 필수 구성 요소로 남아, 저장 공간 요구 사항과 다양한 계산/지연 예산 간 전환 비용을 최소화합니다. LLaMa 2 13B 모델에 이 접근 방식을 적용하여 Stanford Alpaca 데이터셋에 대해 튜닝하고, 일반 튜닝 및 PandaLM 벤치마크를 통한 조기 종료와 비교함으로써, Sorted Fine-Tuning이 원본 모델보다 두 배 빠르면서도 성능을 유지하거나 초과하는 모델을 제공할 수 있음을 보여줍니다.
대규모 언어 모델(LLM)은 자연어 지시문의 몇 가지 예시만으로도 다양한 자연어 작업에서 뛰어난 성능을 보이며, 광범위한 피처 엔지니어링의 필요성을 줄여왔습니다. 그러나 가장 강력한 LLM 대부분은 클로즈드 소스이거나 영어 이외의 언어에 대한 기능이 제한적입니다. 본 기술 보고서에서는 2.6조 개의 토큰으로 처음부터 학습된 70억 및 130억 개의 파라미터를 포함한 대규모 다국어 언어 모델 시리즈인 Baichuan 2를 소개합니다. Baichuan 2는 MMLU, CMMLU, GSM8K, HumanEval과 같은 공개 벤치마크에서 유사한 규모의 다른 오픈소스 모델과 동등하거나 더 나은 성능을 보입니다. 또한 Baichuan 2는 의학 및 법률과 같은 특정 도메인에서도 탁월한 성능을 발휘합니다. 우리는 Baichuan 2의 학습 동역학을 더 잘 이해할 수 있도록 연구 커뮤니티에 모든 사전 학습 모델 체크포인트를 공개할 예정입니다.
시각적 명령어 튜닝(Visual instruction tuning)은 최근 LLaVA와 MiniGPT-4와 같은 오픈소스 대형 멀티모달 모델(LMM)을 통해 고무적인 진전을 보여주고 있습니다. 그러나 대부분의 기존 오픈소스 LMM 연구는 13B 파라미터 이하의 모델을 사용하여 수행되었습니다. 본 논문에서는 LLaVA를 33B 및 65B/70B 규모로 확장한 실험적 연구를 소개하고, 이미지 해상도, 데이터 혼합, LoRA/QLoRA와 같은 파라미터 효율적 학습 방법에 대한 탐구 결과를 공유합니다. 이러한 요소들은 실제 작업에서 멀티모달 및 언어 능력에 미치는 영향을 평가하기 위해 검증되었습니다. 연구 결과, LMM의 규모를 확장하는 것이 모델 성능을 지속적으로 향상시키고 언어 능력을 개선하는 것으로 나타났으며, LoRA/QLoRA 튜닝의 성능은 전체 모델 미세 조정(fine-tuning)의 성능과 비슷한 수준임을 확인했습니다. 또한, 더 높은 이미지 해상도와 멀티모달-언어 데이터의 혼합이 LMM 성능 향상에 중요한 역할을 하며, 시각적 명령어 튜닝이 때로는 LMM의 순수 언어 능력을 개선할 수 있다는 점이 강조되었습니다. 이 연구가 더 큰 규모의 최첨단 LMM 연구를 보다 접근 가능하게 만들어 미래 연구를 위한 더 강력한 기준선을 마련하는 데 도움이 되기를 바랍니다. 코드와 체크포인트는 공개될 예정입니다.
그래픽 레이아웃 생성은 사용자 참여와 정보 인식에 중요한 역할을 하는 성장 중인 연구 분야입니다. 기존 방법들은 주로 레이아웃 생성을 수치 최적화 작업으로 취급하며, 각 레이아웃 요소 간의 관계와 같은 레이아웃의 의미론적 정보를 간과하고 양적 측면에 초점을 맞추었습니다. 본 논문에서는 레이아웃 생성을 코드 생성 작업으로 처리하여 의미론적 정보를 강화하고 대형 언어 모델(LLMs)의 숨겨진 레이아웃 전문성을 활용하는 첫 번째 모델인 LayoutNUWA를 제안합니다. 보다 구체적으로, 우리는 세 가지 상호 연결된 모듈로 구성된 Code Instruct Tuning(CIT) 접근법을 개발했습니다: 1) Code Initialization(CI) 모듈은 수치적 조건을 정량화하고 전략적으로 배치된 마스크와 함께 HTML 코드로 초기화합니다; 2) Code Completion(CC) 모듈은 LLMs의 포맷팅 지식을 활용하여 HTML 코드 내의 마스크된 부분을 채웁니다; 3) Code Rendering(CR) 모듈은 완성된 코드를 최종 레이아웃 출력으로 변환하여 코드를 시각화된 레이아웃에 직접 매핑하는 고도로 해석 가능하고 투명한 레이아웃 생성 절차를 보장합니다. 우리는 여러 데이터셋에서 최신 기술을 크게 능가하는 성능(50% 이상의 개선)을 달성하며 LayoutNUWA의 강력한 능력을 입증했습니다. 우리의 코드는 https://github.com/ProjectNUWA/LayoutNUWA에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 다중 에이전트 시스템에서 복잡한 스케줄링을 수행하고, 이러한 에이전트들을 조율하여 광범위한 협업이 필요한 정교한 작업을 완수할 수 있는 능력을 가지고 있습니다. 그러나 수많은 게임 프레임워크가 도입되었음에도 불구하고, 커뮤니티는 LLM과 인간-NPC 협업을 모두 포괄하는 일반적인 다중 에이전트 협업 인프라를 구축하기 위한 충분한 벤치마크를 갖추지 못하고 있습니다. 본 연구에서는 게임 상호작용을 위한 계획 및 조율 능력의 창발적 특성을 평가하기 위해 새로운 인프라인 MindAgent를 제안합니다. 특히, 우리의 인프라는 기존 게임 프레임워크를 활용하여 i) 다중 에이전트 시스템에 대한 조율자의 이해를 요구하고, ii) 미세 조정되지 않은 적절한 지시를 통해 인간 플레이어와 협업하며, iii) 피드백이 포함된 소수 샷 프롬프트에 대한 문맥 내 학습을 확립합니다. 또한, 우리는 다중 에이전트 협업 효율성을 측정하고 동시에 게임을 플레이하는 다중 에이전트를 감독하는 새로운 게임 시나리오 및 관련 벤치마크인 CUISINEWORLD를 소개합니다. 우리는 협업 효율성을 계산하기 위한 새로운 자동 메트릭 CoS를 사용하여 포괄적인 평가를 수행합니다. 마지막으로, 우리의 인프라는 CUISINEWORLD의 맞춤형 VR 버전으로 실제 게임 시나리오에 배포될 수 있으며, 기존의 더 넓은 Minecraft 게임 도메인에 적용될 수 있습니다. 우리는 LLM에 대한 연구 결과와 일반적인 목적의 스케줄링 및 조율을 위한 새로운 인프라가 대규모 언어 코퍼스로부터 학습함으로써 이러한 기술을 획득할 수 있는 방법에 대한 통찰을 제공할 수 있기를 바랍니다.
대규모 언어 모델(Large Language Models)을 기반으로 한 실용적 응용 분야의 급속한 발전이 계속됨에 따라, 연구 영역에서 외삽(extrapolation) 성능의 중요성이 기하급수적으로 증가하고 있습니다. 본 연구에서 우리는 이전에 간과되었던 트랜스포머(Transformer) 모델의 이상 동작을 발견했으며, 이는 가장 중요한 정보를 담고 있는 근접 토큰들 주변에서 혼란을 일으키는 것으로 나타났습니다. 우리는 이 발견을 "트랜스포머의 두통(headache of Transformers)"이라고 명명했습니다. 이 문제를 근본적으로 해결하기 위해, 우리는 새로운 자기 주의(self-attention) 구조인 Collinear Constrained Attention(CoCA)을 제안했습니다. 이 구조는 기존의 외삽, 내삽(interpolation) 방법 및 전통적인 트랜스포머 모델을 위해 설계된 다른 최적화 전략과 원활하게 통합될 수 있습니다. 우리는 모델에 대한 미세 조정(fine-tuning) 없이도 추론(inference) 시퀀스 길이를 16배에서 24배까지 늘렸을 때도 우수한 외삽 성능을 달성했습니다. 또한 CoCA의 계산 및 공간 효율성을 향상시켜 실용성을 보장했습니다. 우리는 곧 CoCA를 오픈소스로 공개할 계획입니다. 그동안 재현 실험을 위해 부록에 코드를 공개했습니다.
대형 언어 모델(LLM)은 자연어 처리 분야에 혁신을 가져왔지만, 인간의 가치와 선호도에 맞추기 위해 RLHF(Reinforcement Learning from Human Feedback)를 사용하는 것은 여전히 큰 과제로 남아 있습니다. 이 과제는 보드 해킹(reward hacking)과 치명적 망각(catastrophic forgetting)과 같은 다양한 불안정성으로 특징지어집니다. 본 기술 보고서에서는 RLHF 훈련을 안정화하기 위한 두 가지 혁신적인 방법을 제안합니다: 1) **어드밴티지 모델(Advantage Model)**: 이 모델은 기대 보상 대비 추가 보상인 어드밴티지 점수를 직접 모델링하고, 작업 간 점수 분포를 조절하여 보드 해킹을 방지합니다. 2) **선택적 리허설(Selective Rehearsal)**: 이 방법은 PPO(Proximal Policy Optimization) 훈련과 지식 리허설을 위해 데이터를 전략적으로 선택함으로써 치명적 망각을 완화합니다. 공개 및 독점 데이터셋에 대한 실험 분석 결과, 제안된 방법들은 RLHF 훈련의 안정성을 높일 뿐만 아니라 더 높은 보드 점수와 승률을 달성하는 것으로 나타났습니다.
GPT-4와 같은 대형 언어 모델(LLMs)의 강력한 성능에도 불구하고, 복잡하고 구조화된 출력을 생성해야 하는 작업에서는 여전히 어려움을 겪고 있습니다. 본 연구에서는 현재의 LLMs가 복잡한 구조화된 데이터를 생성하는 능력을 평가하고, 이러한 능력을 향상시키기 위한 구조 인식 미세 조정 접근법을 제안합니다. 포괄적인 평가를 수행하기 위해, 우리는 Struc-Bench를 제안하고, GPT-NeoX 20B, GPT-3.5, GPT-4, Vicuna 등 5가지 대표적인 LLMs를 포함하여 원시 텍스트, HTML, LaTeX 테이블로 구성된 데이터셋에서 평가를 진행했습니다. 현재 모델 성능에 대한 분석을 바탕으로, 우리는 특정한 일반적인 형식 오류와 개선 가능한 영역을 식별했습니다. 복잡한 형식 요구 사항을 해결하기 위해, 우리는 FormatCoT(Chain-of-Thought)를 활용하여 목표 출력에서 형식 지침을 생성했습니다. 실험 결과, LLaMA-7B에 적용된 구조 인식 미세 조정 방법은 자연어 제약 조건을 더 잘 준수하며, 평가된 다른 LLMs를 능가하는 것으로 나타났습니다. 이러한 결과를 바탕으로, 우리는 모델의 능력을 6가지 차원(즉, 범위, 형식, 추론, 이해, 실용성, 환각)에서 매핑한 능력 지도를 제시합니다. 이 지도는 복잡한 구조화된 출력을 처리하는 데 있어 LLMs의 약점을 강조하고, 향후 연구를 위한 유망한 방향을 제시합니다. 우리의 코드와 모델은 https://github.com/gersteinlab/Struc-Bench에서 확인할 수 있습니다.
명령어 수행 능력을 갖춘 대규모 언어 모델은 인공지능 분야에 혁신을 가져왔습니다. 이러한 모델들은 자연어 인터페이스를 통해 다양한 실제 작업을 해결하는 데 있어 탁월한 일반화 능력을 보여줍니다. 그러나 이들의 성능은 고품질의 예시 데이터에 크게 의존하며, 이러한 데이터는 종종 얻기 어렵습니다. 이러한 문제는 멀티모달 명령어 수행으로 넘어가면 더욱 심화됩니다. 본 연구에서는 TextBind를 소개합니다. 이는 거의 주석이 필요 없는 프레임워크로, 대규모 언어 모델에 멀티턴 교차형 멀티모달 명령어 수행 능력을 부여합니다. 우리의 접근 방식은 이미지-캡션 쌍만을 요구하며, 언어 모델로부터 멀티턴 멀티모달 명령어-응답 대화를 생성합니다. 우리는 멀티모달 명령어 수행 분야의 향후 연구를 촉진하기 위해 데이터셋, 모델, 데모를 공개합니다.
Shampoo는 신경망 훈련을 위한 AdaGrad 계열의 온라인 및 확률적 최적화 알고리즘입니다. 이 알고리즘은 블록 대각 행렬 형태의 전처리기를 구성하며, 각 블록은 신경망의 각 매개변수에 대해 완전 행렬 AdaGrad의 대략적인 크로네커 곱 근사로 이루어져 있습니다. 본 연구에서는 이 알고리즘의 완전한 설명과 더불어, PyTorch에서 대규모 심층 신경망을 훈련하기 위해 우리의 구현이 활용하는 성능 최적화 기법들을 제시합니다. 우리의 구현은 PyTorch의 DTensor 데이터 구조를 통해 각 매개변수의 블록과 관련된 메모리 및 계산을 분산시키고, 각 반복에서 계산된 탐색 방향에 대해 AllGather 연산을 수행함으로써 빠른 다중 GPU 분산 데이터 병렬 훈련을 가능하게 합니다. 이러한 주요 성능 개선을 통해 우리는 표준 대각 스케일링 기반 적응형 그래디언트 방법 대비 최대 10%의 단계별 벽시계 시간 성능 저하만을 달성할 수 있었습니다. 우리는 ImageNet ResNet50 훈련에 대한 절제 연구를 수행하여 Shampoo의 우수성을 검증하며, 최소한의 하이퍼파라미터 조정만으로도 표준 훈련 방법을 능가함을 입증합니다.
기존의 대화 상태 추적(Dialogue State Tracking, DST) 문제는 사용자와 에이전트 간의 대화에서 사용자의 선호도와 의도를 추적하는 것을 목표로 합니다. 이는 좁은 도메인 애플리케이션을 지원하는 작업 지향적 대화 시스템에는 충분하지만, 대형 언어 모델(Large Language Model, LLM) 기반 채팅 시스템의 등장으로 인해 개방형 도메인 대화에서 많은 현실 세계의 복잡성이 도입되었습니다. 이러한 복잡성은 문맥적 상호작용의 증가된 복잡성, 다양한 주제를 포괄하는 확장된 대화 세션, 그리고 더 빈번한 문맥 전환의 형태로 나타납니다. 진화하는 LLM 기반 채팅 시스템에서 발생하는 이러한 복잡성을 처리하기 위해, 우리는 개방형 도메인 대화 시스템에서 세그먼트별로 대화 분할과 상태 추적을 결합하는 방법을 제안합니다. 진정한 개방형 도메인 대화 시스템에 적합한 제로샷 설정을 가정하여, 우리는 S3-DST라는 구조화된 프롬프팅 기법을 제안합니다. 이 기법은 장기 문맥 추적을 개선하기 위해 설계한 새로운 접지 메커니즘인 사전 분석적 회상(Pre-Analytical Recollection)을 활용합니다. 분할과 상태 추적을 결합한 우리의 접근 방식의 효용성을 입증하기 위해, S3-DST를 독점적으로 익명화된 개방형 도메인 대화 데이터셋과 공개적으로 이용 가능한 DST 및 분할 데이터셋에서 평가합니다. 모든 데이터셋과 설정에서 S3-DST는 최신 기술을 일관되게 능가하며, 차세대 LLM 기반 채팅 시스템에서의 강력함과 견고함을 입증합니다.
언어 모델 기반 음악 생성에서, 생성된 웨이브폼은 코드북 패턴에 따라 자기회귀 방식 또는 병렬 방식으로 디코딩될 수 있는 계층적 토큰 스택의 시퀀스로 표현됩니다. 특히, 코드북을 평면화(flattening)하는 것은 가장 높은 품질의 디코딩 전략을 나타내지만, 속도가 매우 느리다는 것으로 알려져 있습니다. 이를 위해, 우리는 평면 패턴 디코딩을 개선하기 위해 새로운 스택-앤-딜레이(stack-and-delay) 스타일의 디코딩 전략을 제안합니다. 이 전략은 기존의 평면 디코딩에 비해 생성 속도가 네 배 빠르며, 딜레이 디코딩 전략에 가까운 추론 시간을 달성하고, 작은 배치 크기에서 GPU 상에서 더 빠른 추론을 가능하게 합니다. 딜레이 패턴과 동일한 추론 효율성 예산 내에서, 제안된 접근 방식은 객관적 평가에서 더 나은 성능을 보이며, 품질 측면에서 평면 패턴과의 격차를 거의 메웁니다. 이러한 결과는 주관적 평가에서도 확인되었으며, 동일한 텍스트 프롬프트가 주어졌을 때 새로운 모델이 생성한 샘플이 경쟁 모델이 생성한 샘플보다 약간 더 선호되는 것으로 나타났습니다.
모델 적응은 프록시 학습 데이터와 실제 사용자 데이터 간의 불일치를 처리하는 데 중요합니다. 효과적인 적응을 수행하기 위해 사용자의 텍스트 데이터는 일반적으로 서버나 로컬 디바이스에 저장되며, 이러한 도메인 내 데이터를 사용하여 다운스트림 자연어 처리(NLP) 모델을 직접 학습시킬 수 있습니다. 그러나 이는 사용자 정보를 공격자에게 노출시킬 수 있는 추가적인 위험으로 인해 개인정보 보호와 보안 문제를 야기할 수 있습니다. 최근에는 텍스트 데이터의 식별 정보를 일반 마커로 대체하는 방법이 연구되고 있습니다. 본 연구에서는 대형 언어 모델(LLM)을 활용하여 마스킹된 토큰의 대체어를 제안하고, 이를 다운스트림 언어 모델링 작업에서의 효과를 평가합니다. 구체적으로, 우리는 여러 사전 학습 및 미세 조정된 LLM 기반 접근법을 제안하고, 다양한 데이터셋에 대한 실험적 연구를 수행하여 이러한 방법들을 비교합니다. 실험 결과는 개인정보 보호를 위한 토큰 마스킹 없이 원본 데이터로 학습된 모델과 비교할 때, 난독화된 코퍼스로 학습된 모델이 비슷한 성능을 달성할 수 있음을 보여줍니다.
본 논문은 모델 학습 과정에서 오디오와 텍스트 표현 간의 정렬을 강조함으로써 오디오 생성에 대한 제어를 향상시키는 혁신적인 접근 방식을 제시합니다. 언어 모델 기반 오디오 생성의 맥락에서, 모델은 텍스트와 오디오 토큰 표현 모두로부터 입력을 활용하여 후속 오디오 토큰을 예측합니다. 그러나 현재 구성에서는 선택된 텍스트 표현과 언어 모델의 예측 간의 정렬을 보장하기 위한 명시적인 정규화가 부족합니다. 우리의 제안은 오디오와 텍스트 표현 정규화를 통합하는 것인데, 특히 언어 모델 학습 중 교차 주의(cross attention)에서 텍스트 조건이 제외되는 분류자 없는 지도(classifier-free guidance, CFG) 단계에서 이를 적용합니다. 이 제안된 표현 정규화의 목표는 동일한 학습 배치 내의 다른 샘플들과 비교하여 오디오와 텍스트 유사성의 불일치를 최소화하는 것입니다. 음악 및 오디오 생성 작업에 대한 실험 결과는 우리가 제안한 방법이 오디오와 음악 생성 모두에서 객관적 지표의 개선을 가져오며, 오디오 생성에 대한 인간의 인지적 측면에서도 향상을 보여줌을 입증합니다.
음성 의미 구문 분석(Spoken Semantic Parsing, SSP)은 입력된 음성에서 기계가 이해할 수 있는 구문을 생성하는 과정을 포함합니다. 기존의 훈련 데이터로 표현된 응용 분야에 대한 강건한 모델을 학습하거나 새로운 분야로 확장하기 위해서는 음성-전사-의미 구문 데이터의 삼중항이 필요하지만, 이를 얻는 데는 많은 비용이 듭니다. 본 논문에서는 해당 음성이 없는 전사-의미 구문 데이터(비대응 텍스트)를 활용할 수 있는 방법을 탐구하여 이러한 문제를 해결하고자 합니다. 먼저, 기존 텍스트 코퍼스에서 비대응 텍스트를 추출할 경우, Joint Audio Text(JAT)와 Text-to-Speech(TTS)를 비교하여 비대응 텍스트에 대한 음성 표현을 생성하는 방법을 검토합니다. STOP 데이터셋에 대한 실험 결과, 기존 및 새로운 분야에서 비대응 텍스트를 사용함으로써 각각 2%와 30%의 절대 정확도(Exact Match, EM) 향상을 확인했습니다. 둘째, 기존 텍스트 코퍼스에서 비대응 텍스트를 사용할 수 없는 경우를 고려합니다. 이를 위해 대형 언어 모델(Large Language Models, LLMs)을 활용하여 기존 및 새로운 분야에 대한 비대응 텍스트를 생성하는 방법을 제안합니다. 실험 결과, Llama 2.0을 사용하여 의도와 함께 나타나는 예시 및 단어를 활용하여 비대응 텍스트를 생성할 수 있음을 확인했습니다. 생성된 텍스트를 JAT와 TTS와 함께 음성 의미 구문 분석에 사용함으로써, STOP 데이터셋에서 기존 및 새로운 분야에 대해 각각 1.4%와 2.6%의 절대 EM 향상을 달성했습니다.