번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델의 재현성과 투명성은 개방형 연구를 진전시키고, 결과의 신뢰성을 보장하며, 데이터 및 모델 편향과 잠재적 위험에 대한 조사를 가능하게 하는 데 있어 매우 중요합니다. 이를 위해 우리는 최첨단 오픈 언어 모델인 OpenELM을 공개합니다. OpenELM은 트랜스포머 모델의 각 계층 내에서 매개변수를 효율적으로 할당하기 위해 계층별 스케일링 전략을 사용하여 정확도를 향상시킵니다. 예를 들어, 약 10억 개의 매개변수 예산으로 OpenELM은 OLMo 대비 2.36%의 정확도 향상을 보이며, 사전 학습 토큰 수를 2배 더 적게 요구합니다. 이전의 관행과 달리, 모델 가중치와 추론 코드만을 제공하고 비공개 데이터셋에서 사전 학습을 진행하는 대신, 우리는 공개적으로 이용 가능한 데이터셋에서 언어 모델을 훈련하고 평가하기 위한 완전한 프레임워크를 포함하여 훈련 로그, 다중 체크포인트, 사전 학습 구성을 공개합니다. 또한 Apple 기기에서 추론 및 미세 조정을 위해 모델을 MLX 라이브러리로 변환하는 코드도 공개합니다. 이 포괄적인 공개는 개방형 연구 커뮤니티를 강화하고 미래의 개방형 연구 노력을 위한 길을 열기 위한 것입니다. 우리의 소스 코드와 사전 훈련된 모델 가중치 및 훈련 레시피는 https://github.com/apple/corenet에서 확인할 수 있습니다. 또한, \model 모델은 HuggingFace에서 https://huggingface.co/apple/OpenELM에서 찾아볼 수 있습니다.
희소 전문가 혼합 모델(Sparse Mixtures of Experts, SMoE)은 훈련 및 추론 비용의 큰 증가 없이 모델 용량을 확장할 수 있지만, 다음과 같은 두 가지 문제점을 보입니다: (1) 낮은 전문가 활성화로, 최적화를 위해 소수의 전문가만이 활성화됩니다. (2) 개별 토큰 내의 다중 의미 개념에 대한 세밀한 분석 능력이 부족합니다. 우리는 다중 헤드 전문가 혼합 모델(Multi-Head Mixture-of-Experts, MH-MoE)을 제안합니다. 이 모델은 다중 헤드 메커니즘을 사용하여 각 토큰을 여러 하위 토큰으로 분할합니다. 이러한 하위 토큰은 다양한 전문가 집단에 병렬로 할당 및 처리된 후 원래의 토큰 형태로 원활하게 재통합됩니다. 다중 헤드 메커니즘은 모델이 다양한 전문가 내의 여러 표현 공간에서 정보를 집중적으로 주목할 수 있게 하며, 전문가 활성화를 크게 향상시켜 컨텍스트 이해를 심화하고 과적합을 완화합니다. 또한, 우리의 MH-MoE는 구현이 간단하며 다른 SMoE 최적화 방법과 분리되어 있어, 다른 SMoE 모델과 쉽게 통합하여 성능을 향상시킬 수 있습니다. 영어 중심 언어 모델링, 다국어 언어 모델링, 마스크된 다중 모달리티 모델링 작업에 걸친 광범위한 실험 결과는 MH-MoE의 효과를 입증합니다.
대규모 제로샷 음성 합성의 최근 발전은 언어 모델과 확산 모델에 의해 크게 촉진되었습니다. 그러나 두 방법 모두 생성 과정이 느리고 계산 집약적입니다. 이전 연구와 동등한 품질을 달성하면서 더 낮은 컴퓨팅 예산을 사용하는 효율적인 음성 합성은 여전히 중요한 과제로 남아 있습니다. 본 논문에서는 이전 연구 대비 약 5%의 추론 시간을 달성한 대규모 제로샷 음성 합성 시스템인 FlashSpeech를 소개합니다. FlashSpeech는 잠재 일관성 모델을 기반으로 구축되었으며, 사전 훈련된 확산 모델을 교사로 사용하지 않고도 처음부터 훈련할 수 있는 새로운 적대적 일관성 훈련 방식을 적용합니다. 또한, 새로운 운율 생성기 모듈은 운율의 다양성을 향상시켜 음성의 리듬을 더 자연스럽게 만듭니다. FlashSpeech의 생성 과정은 고음질과 제로샷 음성 생성을 위한 오디오 프롬프트와의 높은 유사성을 유지하면서 하나 또는 두 개의 샘플링 단계로 효율적으로 달성할 수 있습니다. 우리의 실험 결과는 FlashSpeech의 우수한 성능을 입증합니다. 특히, FlashSpeech는 음성 품질과 유사성 측면에서 비슷한 성능을 유지하면서 다른 제로샷 음성 합성 시스템보다 약 20배 빠를 수 있습니다. 또한, FlashSpeech는 음성 변환, 음성 편집, 다양한 음성 샘플링과 같은 작업을 효율적으로 수행함으로써 그 다양성을 입증합니다. 오디오 샘플은 https://flashspeech.github.io/에서 확인할 수 있습니다.
본 기술 보고서는 비디오 콘텐츠 이해와 자연어를 통한 상호작용에 특화된 멀티모달 언어 모델인 Pegasus-1을 소개합니다. Pegasus-1은 시공간 정보 해석과 같은 비디오 데이터가 제기하는 독특한 과제를 해결하기 위해 설계되었으며, 다양한 길이의 비디오 콘텐츠에 대한 세밀한 이해를 제공합니다. 이 기술 보고서는 Pegasus-1의 아키텍처, 훈련 전략, 그리고 비디오 대화, 제로샷 비디오 질의응답, 비디오 요약 분야에서의 벤치마크 성능을 개괄적으로 살펴봅니다. 또한 Pegasus-1의 질적 특성을 탐구함으로써 그 능력과 한계를 보여주고, 독자들에게 현재 상태와 미래 방향에 대한 균형 잡힌 시각을 제공합니다.
대규모 언어 모델(LLMs)은 광범위한 문맥을 처리하는 데 있어 놀라운 진전을 이루었으며, 이 과정에서 키-값(KV) 캐시가 성능 향상에 중요한 역할을 하고 있습니다. 그러나 입력 길이가 증가함에 따라 KV 캐시의 크기가 커지면서 메모리와 시간 효율성에 문제가 발생합니다. 이 문제를 해결하기 위해, 본 논문은 실제 응용에서도 비슷한 성능을 유지하면서 KV 캐시 크기를 효율적으로 최소화하는 혁신적이고 미세 조정이 필요 없는 접근 방식인 SnapKV를 소개합니다. 우리는 모델의 각 어텐션 헤드가 생성 과정에서 특정 프롬프트 어텐션 특징에 지속적으로 주목한다는 사실을 발견했습니다. 동시에, 이러한 강력한 패턴은 프롬프트 끝에 위치한 '관찰' 창에서 얻을 수 있습니다. 이러한 통찰을 바탕으로, SnapKV는 각 어텐션 헤드에 대해 중요한 KV 위치를 클러스터링하여 선택함으로써 KV 캐시를 자동으로 압축합니다. 우리의 접근 방식은 긴 입력 시퀀스를 처리할 때 증가하는 계산 오버헤드와 메모리 사용량을 크게 줄입니다. 구체적으로, SnapKV는 16K 토큰의 입력을 처리할 때 기준 모델 대비 3.6배 빠른 생성 속도와 8.2배 향상된 메모리 효율성을 유지하면서도 일관된 디코딩 속도를 달성합니다. 동시에, 16개의 긴 시퀀스 데이터셋에서 기준 모델과 비슷한 성능을 유지합니다. 또한, SnapKV는 HuggingFace 구현을 약간 수정하여 단일 A100-80GB GPU에서 최대 380K 문맥 토큰을 처리할 수 있으며, Needle-in-a-Haystack 테스트에서도 정확도 저하가 거의 없음을 보여줍니다. 더 포괄적인 연구 결과는 SnapKV가 실용적인 응용에 적합할 가능성을 시사합니다.
디퓨전 모델(DMs)은 시각적 영역을 넘어 최첨단 생성 모델링 접근법으로 자리 잡았습니다. DMs의 주요 단점은 대규모 신경망을 통한 많은 순차적 함수 평가에 의존하는 느린 샘플링 속도입니다. DMs에서 샘플링은 샘플링 스케줄로 알려진 이산화된 노이즈 레벨 집합을 통해 미분 방정식을 푸는 것으로 볼 수 있습니다. 과거 연구들은 주로 효율적인 솔버를 도출하는 데 초점을 맞췄지만, 최적의 샘플링 스케줄을 찾는 데는 거의 관심을 기울이지 않았으며, 전체 문헌은 수작업 휴리스틱에 의존해 왔습니다. 본 연구에서는 처음으로 'Align Your Steps'라는 이름으로 고품질 출력을 위한 DMs의 샘플링 스케줄을 최적화하는 일반적이고 원칙적인 접근 방식을 제안합니다. 우리는 확률적 미적분학의 방법을 활용하여 다양한 솔버, 훈련된 DMs 및 데이터셋에 특화된 최적의 스케줄을 찾습니다. 우리는 이 새로운 접근 방식을 여러 이미지, 비디오 및 2D 토이 데이터 합성 벤치마크에서 다양한 샘플러를 사용하여 평가했으며, 최적화된 스케줄이 거의 모든 실험에서 이전의 수작업 스케줄을 능가하는 것을 관찰했습니다. 우리의 방법은 특히 적은 단계 합성 체제에서 샘플링 스케줄 최적화의 잠재력을 보여줍니다.
기존의 많은 연구들은 트랜스포머 아키텍처의 능력을 계산의 형식적 모델을 통해 표현력을 설명함으로써 분석해 왔습니다. 그러나 지금까지의 초점은 언어 수용 측면에서 아키텍처를 분석하는 데 맞춰져 있었습니다. 우리는 이것이 문자열에 대한 확률 분포로 정의되는 언어 모델(LM) 연구에는 적합하지 않은 문제라고 주장합니다. 본 논문에서는 트랜스포머 LM과 n-gram LM 간의 관계에 초점을 맞춥니다. n-gram LM은 단순하면서도 역사적으로 중요한 언어 모델 클래스입니다. 우리는 하드 또는 희소 주의 메커니즘을 사용하는 트랜스포머 LM이 모든 n-gram LM을 정확히 표현할 수 있음을 보여줌으로써, 이들의 확률적 표현 능력에 대한 구체적인 하한을 제시합니다. 이는 트랜스포머 LM이 문자열에 대한 확률 분포를 표현하기 위해 사용할 수 있는 메커니즘을 이해하기 위한 첫 번째 단계를 제공합니다.