번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 년 동안 대형 언어 모델(LLM)의 급속한 발전이 이루어졌다. 다양한 언어 이해 작업에서 강력한 성능을 보이지만, 특히 에지 디바이스에 배포해야 할 경우, 높은 계산 부담이 LLM의 적용을 크게 제한한다. 본 논문에서는 양자화 인지 저랭크 적응(Quantization-Aware Low-Rank Adaptation, QA-LoRA) 알고리즘을 제안한다. 이 알고리즘의 동기는 양자화와 적응의 자유도 불균형에 있으며, 그 해결책은 그룹 단위 연산자를 사용하여 양자화의 자유도를 증가시키는 동시에 적응의 자유도를 감소시키는 것이다. QA-LoRA는 몇 줄의 코드로 쉽게 구현할 수 있으며, 원래의 LoRA에 두 가지 능력을 부여한다: (i) 미세 조정(fine-tuning) 동안 LLM의 가중치를 양자화(예: INT4로)하여 시간과 메모리 사용량을 줄이고, (ii) 미세 조정 후, LLM과 보조 가중치가 정확도 손실 없이 자연스럽게 양자화된 모델로 통합된다. 우리는 QA-LoRA를 LLaMA 및 LLaMA2 모델 패밀리에 적용하고, 다양한 미세 조정 데이터셋과 다운스트림 시나리오에서 그 효과를 검증한다. 코드는 https://github.com/yuhuixu1993/qa-lora에서 제공될 예정이다.
본 연구는 사전 학습된 텍스트-이미지(T2I) 생성 모델을 기반으로 고품질의 텍스트-비디오(T2V) 생성 모델을 학습하는 것을 목표로 합니다. 이는 a) 시각적으로 사실적이고 시간적으로 일관된 비디오 합성을 달성하면서 b) 사전 학습된 T2I 모델의 강력한 창의적 생성 특성을 보존하는, 매우 바람직하지만 도전적인 과제입니다. 이를 위해, 우리는 기본 T2V 모델, 시간적 보간 모델, 비디오 초해상도 모델로 구성된 계단식 비디오 잠재 확산 모델을 기반으로 작동하는 통합 비디오 생성 프레임워크인 LaVie를 제안합니다. 우리의 주요 통찰은 두 가지입니다: 1) 단순한 시간적 자기 주의 메커니즘과 회전 위치 인코딩을 결합함으로써 비디오 데이터에 내재된 시간적 상관관계를 적절히 포착할 수 있음을 밝혔습니다. 2) 또한, 이미지-비디오 공동 미세 조정 과정이 고품질 및 창의적인 결과물을 생성하는 데 중요한 역할을 한다는 것을 검증했습니다. LaVie의 성능을 향상시키기 위해, 우리는 품질, 다양성, 미적 매력을 우선시하는 2,500만 개의 텍스트-비디오 쌍으로 구성된 포괄적이고 다양한 비디오 데이터셋인 Vimeo25M을 제공합니다. 광범위한 실험을 통해 LaVie가 양적 및 질적으로 최첨단 성능을 달성함을 입증했습니다. 더 나아가, 우리는 사전 학습된 LaVie 모델이 다양한 장편 비디오 생성 및 개인화된 비디오 합성 응용 분야에서의 다용성을 보여줍니다.
일반적인 Transformer 기반 대형 언어 모델(LLM)의 계산은 배치 크기, 은닉 차원, 레이어 수, 시퀀스 길이로 특징지을 수 있습니다. 지금까지 LLM 학습 가속화를 위한 시스템 연구는 주로 처음 세 가지 차원에 초점을 맞추어 왔습니다: 배치 크기에 대한 데이터 병렬화, 은닉 크기에 대한 텐서 병렬화, 그리고 모델 깊이 또는 레이어에 대한 파이프라인 병렬화. 이렇게 널리 연구된 병렬화 형태는 긴 시퀀스 Transformer 모델을 대상으로 하거나 최적화되지 않았습니다. 긴 시퀀스 LLM의 실제 응용 요구를 고려할 때, 시퀀스 병렬화에 대한 새로운 관심이 집중되고 있습니다. 그러나 기존의 시퀀스 병렬화 연구는 메모리-통신 비효율성으로 인해 제약을 받아, 긴 시퀀스 대형 모델로의 확장성이 제한되었습니다. 본 연구에서는 극도로 긴 시퀀스 길이로 LLM 학습을 고효율적이고 확장 가능하게 하는 새로운, 이식 가능하며 효과적인 방법론인 DeepSpeed-Ulysses를 소개합니다. DeepSpeed-Ulysses는 핵심적으로 입력 데이터를 시퀀스 차원을 따라 분할하고, 어텐션 계산을 위한 효율적인 all-to-all 집단 통신을 사용합니다. 이론적 통신 분석에 따르면, 다른 방법들은 시퀀스 길이가 증가함에 따라 통신 오버헤드가 발생하는 반면, DeepSpeed-Ulysses는 시퀀스 길이와 컴퓨팅 장치가 비례적으로 증가할 때 통신량을 일정하게 유지합니다. 또한, 실험적 평가 결과, DeepSpeed-Ulysses는 기존의 SOTA 기준 방법보다 4배 더 긴 시퀀스 길이에서 2.5배 더 빠르게 학습하는 것으로 나타났습니다.
LLM(대형 언어 모델) 및 Diffusion 모델과 같은 딥러닝 방법론의 최근 발전은 이러한 현대적 아키텍처의 계산적 요구를 충족하면서도 정확도를 유지할 수 있는 개선된 양자화 방법의 필요성을 대두시켰습니다. 이를 위해 우리는 기계 번역, 언어 모델링, 텍스트 생성, 이미지 분류, 생성 및 분할 등 다양한 작업을 아우르는 75개의 고유 네트워크 아키텍처에 걸쳐 사후 학습 양자화를 위한 FP8 데이터 형식의 장점을 연구했습니다. 우리는 동적 범위와 정밀도 간의 다양한 절충 정도가 모델 정확도에 미치는 영향을 연구하기 위해 세 가지 다른 FP8 표현(E5M2, E4M3 및 E3M4)을 검토했습니다. 광범위한 연구를 바탕으로, 우리는 다양한 네트워크 아키텍처에 걸쳐 일반화 가능한 양자화 워크플로를 개발했습니다. 우리의 실험 결과는 FP8 형식이 INT8보다 워크로드 커버리지(92.64% 대 65.87%), 모델 정확도 및 더 광범위한 연산에 대한 적합성 등 여러 측면에서 우수함을 보여줍니다. 또한, 우리의 연구 결과는 E4M3이 NLP 모델에 더 적합한 반면, E3M4는 컴퓨터 비전 작업에서 E4M3보다 약간 더 나은 성능을 보인다는 것을 시사합니다. 코드는 Intel Neural Compressor에서 공개적으로 제공됩니다: https://github.com/intel/neural-compressor.
우리는 Transformer 기반 대규모 언어 모델(LLMs)이 사실적으로 부정확한 텍스트를 생성할 때의 내부 동작을 조사합니다. 우리는 사실적 질의를 제약 충족 문제(Constraint Satisfaction Problems)로 모델링하고, 이 프레임워크를 사용하여 모델이 내부적으로 사실적 제약과 어떻게 상호작용하는지 탐구합니다. 특히, 모델이 제약 토큰에 주의를 기울이는 정도와 응답의 사실적 정확도 사이에 강한 양의 상관관계가 있음을 발견했습니다. 40,000개 이상의 프롬프트로 구성된 11개의 데이터셋을 통해, 우리는 모든 규모(7B, 13B, 70B)의 Llama-2 모델군을 대상으로 사실적 오류를 예측하는 과제를 연구합니다. 우리는 SAT Probe라는 방법을 제안하는데, 이는 자기 주의(self-attention) 패턴을 탐색하여 제약 충족 및 사실적 오류를 예측하고, 조기 오류 식별을 가능하게 합니다. 이 접근법과 연구 결과는 LLMs의 사실성에 대한 기계적 이해를 활용하여 신뢰성을 향상시킬 수 있는 방법을 보여줍니다.