번역이 포함된 일일 선별된 AI 연구 논문
우리는 인공 일반 지능(AGI) 모델과 그 전신들의 능력과 행동을 분류하기 위한 프레임워크를 제안한다. 이 프레임워크는 AGI의 성능, 일반성, 자율성의 수준을 소개한다. 우리는 이 프레임워크가 자율 주행의 수준과 유사한 방식으로 유용하게 활용되어, 모델을 비교하고 위험을 평가하며 AGI로 가는 길에서의 진전을 측정하는 공통 언어를 제공할 수 있기를 바란다. 우리의 프레임워크를 개발하기 위해, 우리는 AGI의 기존 정의를 분석하고, 유용한 AGI 온톨로지가 충족해야 할 여섯 가지 원칙을 도출한다. 이러한 원칙에는 메커니즘보다는 능력에 초점을 맞추는 것; 일반성과 성능을 별도로 평가하는 것; 그리고 종착점에 초점을 맞추기보다는 AGI로 가는 길에서의 단계를 정의하는 것이 포함된다. 이러한 원칙을 염두에 두고, 우리는 능력의 깊이(성능)와 폭(일반성)을 기반으로 'AGI의 수준'을 제안하고, 현재 시스템들이 이 온톨로지에 어떻게 적합한지 반영한다. 우리는 이러한 수준에 대해 AGI 모델의 행동과 능력을 정량화하는 미래의 벤치마크에 대한 도전적인 요구 사항을 논의한다. 마지막으로, 우리는 이러한 AGI의 수준이 자율성과 위험과 같은 배포 고려 사항과 어떻게 상호작용하는지 논의하고, 고도로 능력 있는 AI 시스템의 책임 있고 안전한 배포를 위해 인간-AI 상호작용 패러다임을 신중하게 선택하는 것의 중요성을 강조한다.
대규모 다중모달 모델(Large Multimodal Models, LMMs)은 대규모 언어 모델(Large Language Models)을 시각 영역으로 확장한 것이다. 초기의 LMMs 연구는 전체 이미지와 텍스트 프롬프트를 사용하여 근거 없는 텍스트 응답을 생성하는 데 초점을 맞추었다. 최근에는 영역 수준의 LMMs가 시각적으로 근거 있는 응답을 생성하는 데 사용되고 있다. 그러나 이러한 모델들은 한 번에 단일 객체 범주만 참조할 수 있고, 사용자가 입력에서 영역을 지정해야 하거나, 조밀한 픽셀 단위 객체 근거를 제공하지 못하는 한계가 있다. 본 연구에서는 자연어 응답과 해당 객체 분할 마스크를 원활하게 결합하여 생성할 수 있는 최초의 모델인 Grounding LMM(GLaMM)을 제안한다. GLaMM은 대화에서 등장하는 객체를 근거로 삼을 뿐만 아니라, 텍스트 및 선택적 시각 프롬프트(관심 영역)를 입력으로 받아들이는 유연성을 갖추고 있다. 이를 통해 사용자는 텍스트와 시각 영역에서 다양한 세분화 수준으로 모델과 상호작용할 수 있다. 시각적으로 근거 있는 상세한 대화를 생성하는 새로운 설정을 위한 표준 벤치마크가 부족한 상황에서, 우리는 정제된 근거 있는 대화를 포함한 포괄적인 평가 프로토콜을 도입한다. 우리가 제안한 Grounded Conversation Generation(GCG) 작업은 대규모 자연 장면에서 조밀하게 근거 있는 개념을 요구한다. 이를 위해 우리는 810M개의 영역에 걸쳐 7.5M개의 고유 개념을 포함하는 조밀하게 주석이 달린 Grounding-anything Dataset(GranD)을 제안하며, 이는 우리가 제안한 자동화된 주석 파이프라인을 통해 생성되었다. GCG 외에도 GLaMM은 참조 표현 분할, 이미지 및 영역 수준 캡셔닝, 시각-언어 대화 등 여러 하위 작업에서도 효과적으로 수행된다. 프로젝트 페이지: https://mbzuai-oryx.github.io/groundingLMM.
비디오 합성은 최근 확산 모델의 급속한 발전으로 인해 놀라운 진전을 이루었습니다. 그러나 여전히 의미적 정확성, 선명도 및 시공간적 연속성 측면에서 어려움에 직면해 있습니다. 이러한 문제는 잘 정렬된 텍스트-비디오 데이터의 부족과 비디오의 복잡한 내재적 구조로 인해 발생하며, 이로 인해 모델이 동시에 의미적 및 질적 우수성을 보장하기 어렵습니다. 본 보고서에서는 이러한 두 요소를 분리하고 정적 이미지를 중요한 지침으로 활용하여 입력 데이터의 정렬을 보장함으로써 모델 성능을 향상시키는 계단식 I2VGen-XL 접근 방식을 제안합니다. I2VGen-XL은 두 단계로 구성됩니다: i) 기본 단계는 두 개의 계층적 인코더를 사용하여 일관된 의미를 보장하고 입력 이미지의 내용을 보존하며, ii) 개선 단계는 추가적인 간단한 텍스트를 통합하여 비디오의 세부 사항을 강화하고 해상도를 1280x720으로 향상시킵니다. 다양성을 개선하기 위해 약 3,500만 개의 단일 샷 텍스트-비디오 쌍과 60억 개의 텍스트-이미지 쌍을 수집하여 모델을 최적화했습니다. 이를 통해 I2VGen-XL은 생성된 비디오의 의미적 정확성, 세부 사항의 연속성 및 선명도를 동시에 향상시킬 수 있습니다. 광범위한 실험을 통해 I2VGen-XL의 기본 원리를 조사하고 현재의 최상위 방법과 비교함으로써 다양한 데이터에 대한 그 효과성을 입증했습니다. 소스 코드와 모델은 https://i2vgen-xl.github.io에서 공개될 예정입니다.
"사전 학습 후 미세 조정(pretrain-then-finetune)" 패러다임은 대규모 언어 모델 배포에서 흔히 채택됩니다. LoRA(Low-Rank Adaptation)는 파라미터 효율적인 미세 조정 방법으로, 하나의 기본 모델을 다양한 작업에 맞게 조정하여 다수의 LoRA 어댑터를 생성하는 데 자주 사용됩니다. 우리는 이 패러다임이 서비스 중 배치 추론(batched inference)에 상당한 기회를 제공한다는 점을 관찰했습니다. 이러한 기회를 활용하기 위해, 우리는 많은 LoRA 어댑터를 확장 가능하게 서비스하기 위한 시스템인 S-LoRA를 제안합니다. S-LoRA는 모든 어댑터를 메인 메모리에 저장하고 현재 실행 중인 쿼리에서 사용되는 어댑터를 GPU 메모리로 가져옵니다. GPU 메모리를 효율적으로 사용하고 단편화를 줄이기 위해, S-LoRA는 통합 페이징(Unified Paging)을 제안합니다. 통합 페이징은 다양한 순위를 가진 동적 어댑터 가중치와 다양한 시퀀스 길이를 가진 KV 캐시 텐서를 관리하기 위해 통합 메모리 풀을 사용합니다. 또한, S-LoRA는 새로운 텐서 병렬화 전략과 LoRA 계산의 이기종 배치(heterogeneous batching)를 위한 고도로 최적화된 맞춤형 CUDA 커널을 사용합니다. 이러한 기능들은 S-LoRA가 단일 GPU 또는 여러 GPU에서 수천 개의 LoRA 어댑터를 작은 오버헤드로 서비스할 수 있게 합니다. HuggingFace PEFT 및 vLLM(단순 LoRA 서비스 지원 포함)과 같은 최신 라이브러리와 비교했을 때, S-LoRA는 처리량을 최대 4배까지 향상시키고 서비스 가능한 어댑터 수를 몇 배나 증가시킬 수 있습니다. 결과적으로, S-LoRA는 많은 작업별 미세 조정 모델의 확장 가능한 서비스를 가능하게 하며, 대규모 맞춤형 미세 조정 서비스의 잠재력을 제공합니다.
우리는 강력한 오픈소스 시각 언어 기반 모델인 CogVLM을 소개합니다. 이미지 특징을 언어 모델의 입력 공간으로 매핑하는 일반적인 얕은 정렬(alignment) 방식과 달리, CogVLM은 고정된 사전 학습 언어 모델과 이미지 인코더 간의 간극을 주의력(attention) 및 FFN 계층에서 학습 가능한 시각 전문가(visual expert) 모듈을 통해 연결합니다. 이를 통해 CogVLM은 NLP 작업의 성능을 희생하지 않으면서도 시각과 언어 특징의 깊은 융합을 가능하게 합니다. CogVLM-17B은 NoCaps, Flicker30k 캡셔닝, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA, TDIUC 등 10개의 고전적인 크로스모달 벤치마크에서 최첨단 성능을 달성하며, VQAv2, OKVQA, TextVQA, COCO 캡셔닝 등에서는 2위를 기록하여 PaLI-X 55B를 능가하거나 동등한 성능을 보입니다. 코드와 체크포인트는 https://github.com/THUDM/CogVLM에서 확인할 수 있습니다.
동적 형태 계산은 현대 머신러닝 워크로드, 특히 새롭게 부상하는 대규모 언어 모델에서 중요한 요소로 자리 잡았습니다. 이러한 모델들의 성공은 다양한 백엔드 환경에 이들을 배포하려는 수요를 촉진시켰습니다. 본 논문에서는 동적 머신러닝 워크로드의 종단 간 최적화를 위한 컴파일러 추상화인 Relax를 소개합니다. Relax는 프로그램 전역에 걸쳐 동적 형태 계산을 추적하기 위해 일급 기호 형태 주석을 도입합니다. 또한, 계산 그래프, 루프 수준 텐서 프로그램, 라이브러리 호출을 단일 표현으로 캡슐화하여 교차 수준 최적화를 가능하게 하는 교차 수준 추상화를 제안합니다. 우리는 제안된 접근법을 사용하여 동적 형태 모델을 최적화하는 종단 간 컴파일 프레임워크를 구축했습니다. 대규모 언어 모델에 대한 실험 결과는 Relax가 플랫폼 간 최신 수동 최적화 시스템과 경쟁력 있는 성능을 제공하며, 모바일 폰, 임베디드 장치, 웹 브라우저를 포함한 더 광범위한 환경에 새롭게 부상하는 동적 모델의 배포를 가능하게 함을 보여줍니다.
최근 몇 년 동안 폐쇄형 및 오픈소스 등 다양한 대규모 언어 모델(LLM)이 제안되며, 여러 벤치마크에서 지속적으로 새로운 기록을 세워왔습니다. 그러나 LLM의 개발은 여전히 몇 가지 문제에 직면해 있습니다. 예를 들어, 처음부터 모델을 학습시키는 데 드는 높은 비용, 지속적인 사전 학습으로 인한 치명적 망각(catastrophic forgetting) 등이 있습니다. 이러한 많은 문제들이 LLM 연구 과정에서 해결되고 있지만, 중요한 실질적인 한계는 많은 연구가 모델 크기를 키우는 데 지나치게 집중하면서 사전 학습 데이터의 사용을 종합적으로 분석하고 최적화하지 못하며, 비용 효율적인 설정 하에서 LLM을 학습할 때 이러한 데이터를 적절히 조직하고 활용하지 못한다는 점입니다. 본 연구에서는 LLaMA2를 기반 모델로 채택하고 7000억 개의 토큰으로 추가 사전 학습을 진행한 130억 개의 파라미터를 가진 Ziya2 모델을 제안합니다. 여기서 우리는 사전 학습 기술에 초점을 맞추고 데이터 중심 최적화를 통해 Ziya2의 학습 과정을 다양한 단계에서 개선했습니다. 실험 결과, Ziya2는 여러 벤치마크에서 특히 대표적인 오픈소스 모델들과 비교했을 때 유망한 결과를 보이며 다른 모델들을 크게 앞섰습니다. Ziya2 (Base)는 https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base와 https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary에서 공개되었습니다.
우리는 신경 방사장(NeRF)을 활용하여 가상 현실에서 걸을 수 있는 공간을 고해상도로 캡처하고, 모델을 재구성하며, 실시간 렌더링을 가능하게 하는 종단 간 시스템을 제안합니다. 이를 위해, 우리는 고해상도와 다중 뷰 고다이내믹 레인지(HDR) 이미지를 전례 없는 품질과 밀도로 밀집 캡처할 수 있는 맞춤형 다중 카메라 장비를 설계 및 제작했습니다. 우리는 인스턴트 신경 그래픽스 프리미티브를 확장하여 정확한 HDR 외관을 학습하기 위한 새로운 지각 색 공간과, 앤티앨리어싱을 포함한 세부 수준 렌더링을 위한 효율적인 밉매핑 메커니즘을 도입하면서 품질과 속도 간의 균형을 신중하게 최적화했습니다. 우리의 다중 GPU 렌더러는 맞춤형 데모 머신에서 듀얼 2K×2K의 전체 VR 해상도로 36Hz의 속도로 신경 방사장 모델의 고해상도 볼륨 렌더링을 가능하게 합니다. 우리는 도전적인 고해상도 데이터셋에서 얻은 결과의 품질을 입증하고, 우리의 방법과 데이터셋을 기존 베이스라인과 비교합니다. 우리는 프로젝트 웹사이트를 통해 데이터셋을 공개합니다.
인간이 작성한 글에서는 종종 굵은 글씨나 기울임꼴과 같은 텍스트 스타일의 미묘한 차이를 활용하여 독자의 주의를 유도합니다. 이러한 텍스트 강조는 독자가 전달된 정보를 이해하는 데 매우 중요합니다. 대형 언어 모델(LLM)과 상호작용할 때도 비슷한 필요가 있습니다. 즉, 사용자가 지정한 정보(예: 지시사항)에 모델이 더 주의를 기울이도록 유도하는 것입니다. 그러나 기존 방법들은 일반 텍스트만 처리할 수 있어 이러한 메커니즘을 지원하지 못합니다. 이에 영감을 받아 우리는 PASTA(Post-hoc Attention STeering Approach)를 소개합니다. PASTA는 사용자가 지정한 강조 표시가 있는 텍스트를 LLM이 읽을 수 있도록 하는 방법입니다. 이를 위해 PASTA는 소수의 어텐션 헤드를 식별하고 이들에 대해 정밀한 어텐션 재가중을 적용하여 모델의 주의를 사용자가 지정한 부분으로 유도합니다. 프롬프팅과 마찬가지로 PASTA는 추론 시점에 적용되며 모델 파라미터를 변경할 필요가 없습니다. 실험 결과, PASTA는 LLM이 사용자 지시를 따르거나 사용자 입력으로부터 새로운 지식을 통합하는 능력을 크게 향상시켜 다양한 작업에서 상당한 성능 개선을 이끌어냄을 보여줍니다. 예를 들어, LLAMA-7B의 경우 평균 정확도가 22% 향상되었습니다. 우리의 코드는 https://github.com/QingruZhang/PASTA에서 공개되어 있습니다.
잠재 확산 모델(Latent Diffusion Models)은 시각적 출력물의 생성 및 조작 분야에서 최첨단 기술로 입증되어 왔다. 그러나 우리가 아는 한, RGB와 함께 깊이 맵(depth map)을 동시에 생성하는 기술은 여전히 제한적이다. 본 연구에서는 가상 현실 개발을 목표로 한 확산 모델 제품군인 LDM3D-VR을 소개한다. 이 제품군은 LDM3D-pano와 LDM3D-SR을 포함하며, 각각 텍스트 프롬프트를 기반으로 파노라믹 RGBD를 생성하고 저해상도 입력을 고해상도 RGBD로 업스케일링하는 기능을 제공한다. 우리의 모델은 파노라믹/고해상도 RGB 이미지, 깊이 맵, 캡션을 포함한 데이터셋에서 사전 훈련된 기존 모델을 미세 조정하여 개발되었다. 두 모델 모두 기존 관련 방법들과 비교하여 평가되었다.
코드 LLM은 사전 훈련된 모델을 미세 조정하여 모델의 코딩 능력을 향상시키는 데 주력한 주목할 만한 연구와 함께 특화된 연구 분야로 부상했습니다. 기존의 미세 조정 접근 방식은 일반적으로 특정 하위 작업이나 시나리오에 맞춰져 있어 각 작업마다 별도의 미세 조정이 필요했으며, 이는 광범위한 훈련 자원을 요구하고 배포 및 유지 관리 측면에서 어려움을 야기했습니다. 더욱이 이러한 접근 방식은 서로 다른 코드 관련 작업 간의 내재적 연결성을 활용하지 못했습니다. 이러한 한계를 극복하기 위해, 우리는 다중 작업 미세 조정 프레임워크인 MFTcoder를 제안합니다. 이 프레임워크는 여러 작업에 대해 동시에 병렬로 미세 조정을 가능하게 합니다. 다양한 손실 함수를 통합함으로써, 데이터 불균형, 난이도 차이, 수렴 속도 불일치와 같은 다중 작업 학습의 일반적인 문제를 효과적으로 해결합니다. 광범위한 실험을 통해 우리의 다중 작업 미세 조정 접근 방식이 단일 작업에 대한 개별 미세 조정과 작업 혼합 앙상블에 대한 미세 조정 모두를 능가함을 확실히 입증했습니다. 또한, MFTcoder는 효율적인 데이터 토큰화 모드와 PEFT 미세 조정을 포함한 효율적인 훈련 기능을 제공하여 기존의 미세 조정 방법에 비해 상당히 향상된 속도를 보여줍니다. MFTcoder는 CodeLLama 및 Qwen과 같은 여러 주류 오픈소스 LLM과 원활하게 통합됩니다. CodeLLama 기반을 활용하여, 우리의 MFTcoder 미세 조정 모델인 CodeFuse-CodeLLama-34B는 HumaneEval 벤치마크에서 74.4%의 인상적인 pass@1 점수를 달성하며, GPT-4 성능(67%, 제로샷)을 능가합니다. MFTCoder는 https://github.com/codefuse-ai/MFTCOder에서 오픈소스로 제공됩니다.
인간의 놀라운 능력 중 하나는 조합적 추론, 즉 "유한한 수단을 무한히 활용"할 수 있는 능력에 있습니다. 그러나 현재의 대형 시각-언어 기반 모델(VLMs)은 "단어 모음(bag-of-words)" 방식의 행동과 시각적 개체 및 개체 간의 관계를 올바르게 표현하는 단어를 구성하지 못하는 한계로 인해 이러한 조합적 능력이 부족합니다. 이를 해결하기 위해, 우리는 CoVLM을 제안합니다. CoVLM은 대형 언어 모델(LLM)이 텍스트 내에서 시각적 개체와 관계를 명시적으로 조합하도록 유도하고, 시각 인코더 및 검출 네트워크와 동적으로 소통하여 시각-언어 소통적 디코딩을 달성합니다. 구체적으로, 우리는 먼저 LLM을 위한 일련의 새로운 소통 토큰을 설계하여 시각 검출 시스템과 언어 시스템 간의 동적 소통을 가능하게 합니다. 소통 토큰은 시각적 개체나 관계 뒤에 LLM에 의해 생성되며, 검출 네트워크에 지금까지 생성된 문장과 관련된 영역을 제안하도록 알립니다. 제안된 관심 영역(ROIs)은 이후 LLM에 다시 입력되어 관련 영역에 기반한 더 나은 언어 생성을 가능하게 합니다. 이를 통해 LLM은 소통 토큰을 통해 시각적 개체와 관계를 조합할 수 있습니다. 시각-언어 및 언어-시각 소통은 전체 문장이 생성될 때까지 반복적으로 수행됩니다. 우리의 프레임워크는 시각적 인식과 LLM 간의 간극을 원활하게 연결하며, 조합적 추론 벤치마크에서 이전의 VLMs을 크게 능가합니다(예: HICO-DET mAP에서 ~20%, Cola top-1 정확도에서 ~14%, ARO top-1 정확도에서 ~3%). 또한, 참조 표현 이해 및 시각적 질문 응답과 같은 전통적인 시각-언어 작업에서도 최첨단 성능을 달성합니다.
지식 증류(Knowledge Distillation, KD)는 계산 비용이 많이 드는 사전 학습된 언어 모델(Pre-trained Language Models, PLMs)의 지식을 더 작은 모델로 전이함으로써 이를 압축하고, 자원이 제한적이거나 실시간 환경에서의 사용을 가능하게 합니다. 그러나 대부분의 작은 모델은 원래의 더 큰 모델의 성능을 넘어서지 못하여, 추론 속도를 개선하기 위해 성능을 희생하는 결과를 초래합니다. 이 문제를 해결하기 위해, 우리는 두 모델을 동시에 학습시키면서 상호적으로 지식을 증류함으로써 성능과 추론 속도를 함께 개선하는 새로운 프레임워크인 공동 학습 및 공동 증류(Co-Training and Co-Distillation, CTCD)를 제안합니다. CTCD 프레임워크는 두 가지 중요한 발견을 바탕으로 이를 성공적으로 달성합니다: 1) 공동 학습 중에 작은 모델에서 큰 모델로 지식을 증류하면 큰 모델의 성능이 향상됩니다. 2) 큰 모델의 향상된 성능은 작은 모델의 성능을 더욱 향상시킵니다. CTCD 프레임워크는 기존의 아키텍처 설계나 데이터 증강과 같은 기법과 결합하여 단방향 KD 방법을 대체함으로써 추가적인 성능 개선을 달성할 수 있는 가능성을 보여줍니다. 광범위한 절제 연구는 CTCD의 효과를 입증하며, CTCD로 증류된 작은 모델은 GLUE 벤치마크에서 원래의 더 큰 모델을 1.66이라는 상당한 차이로 능가합니다.
본 논문에서는 캘리브레이션되지 않은 단안 비디오로부터 4D 동적 객체를 생성하는 새로운 접근법인 Consistent4D를 제안합니다. 우리는 360도 동적 객체 재구성을 4D 생성 문제로 전환함으로써, 번거로운 다중 시점 데이터 수집과 카메라 캘리브레이션의 필요성을 제거했습니다. 이는 객체 수준의 3D 인식 이미지 확산 모델을 Dynamic Neural Radiance Fields(DyNeRF) 학습을 위한 주요 감독 신호로 활용하여 달성되었습니다. 구체적으로, 우리는 시간 축 상에서 이산적인 감독 신호 하에서 안정적인 수렴과 시간적 연속성을 촉진하기 위해 Cascade DyNeRF를 제안합니다. 공간적 및 시간적 일관성을 달성하기 위해, 우리는 추가적으로 보간 기반 일관성 손실(Interpolation-driven Consistency Loss)을 도입했습니다. 이는 DyNeRF에서 렌더링된 프레임과 사전 학습된 비디오 보간 모델에서 보간된 프레임 간의 차이를 최소화함으로써 최적화됩니다. 광범위한 실험을 통해 우리의 Consistent4D가 기존 기술 대안과 경쟁적으로 수행될 수 있음을 보여주며, 단안 비디오로부터 4D 동적 객체 생성의 새로운 가능성을 열어주는 동시에 기존의 텍스트-3D 생성 작업에서도 장점을 보임을 입증했습니다. 우리의 프로젝트 페이지는 https://consistent4d.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LMs)은 질문 응답을 돕기 위해 자유 텍스트 형식의 근거를 생성할 수 있다. 그러나 기존 연구는 1) 유용한 자기-근거화(self-rationalization)는 상당한 규모(예: 175B 매개변수 GPT-3)에서만 나타난다는 점을 시사하며, 2) 주로 하위 작업 성능에 초점을 맞추어 근거 자체의 의미론적 특성(예: 신뢰성, 진실성, 인간에게 도움이 되는지 여부)을 간과해 왔다. 본 연구에서는 GPT-3보다 약 200배 작은 규모의 LMs가 하위 작업 성능을 향상시킬 뿐만 아니라, 자동 및 인간 평가를 통해 더 그럴듯하고 일관적이며 다양성이 높은 근거를 생성할 수 있도록 한다. 우리의 방법인 MaRio(Multi-rewArd RatIOnalization)는 다중 보상 조건부 자기-근거화 알고리즘으로, 그럴듯함, 다양성, 일관성과 같은 여러 특성을 최적화한다. StrategyQA, QuaRel, OpenBookQA, NumerSense, QASC 등 5개의 어려운 질문-응답 데이터셋에서의 결과는 MaRio가 작업 정확도를 향상시킬 뿐만 아니라, 지도 미세 조정(SFT) 기준선보다 작은 LMs의 자기-근거화 품질을 앞서 언급한 측면에서 더욱 개선함을 보여준다. 광범위한 인간 평가를 통해 MaRio 근거가 SFT 근거보다 선호되며, 그럴듯함과 일관성 측면에서 질적 개선이 있음을 확인하였다.
본 논문에서는 간단한 자기 지도 사전 학습 오디오 모델이 복잡한 사전 학습 모델과 비슷한 추론 효율성을 달성할 수 있음을 보여줍니다. 이러한 복잡한 모델은 음성 트랜스포머 인코더를 사용하며, 합성곱 모듈과 자기 주의 모듈을 혼합하는 방식으로 동작합니다. 이들은 ASR(자동 음성 인식)에서 최고 수준의 효율성과 성능을 달성합니다. 우리는 먼저 이러한 음성 트랜스포머를 인코더로 사용할 경우 사전 학습 오디오 모델의 효율성도 크게 향상됨을 보입니다. 그러나 연구 결과, 고급 자기 주의 모듈만으로도 비슷한 효율성을 달성할 수 있음을 확인했습니다. 우리는 이 간단한 접근 방식이 신경망의 저비트 가중치 양자화 기술과 결합될 때 특히 유리하다는 점을 입증합니다. 이는 최근의 음성 트랜스포머가 양자화된 합성곱과 양자화된 자기 주의 모듈을 혼합하는 방식과 비교하여, 서로 다른 양자화된 모듈 간의 오류 전파를 방지한다는 가설을 뒷받침합니다.
긴 시퀀스로 훈련된 트랜스포머 모델은 종종 짧은 시퀀스보다 더 높은 정확도를 달성합니다. 그러나 기존의 트랜스포머는 과도한 계산 및 메모리 요구 사항으로 인해 긴 시퀀스 훈련에 어려움을 겪습니다. 기존의 긴 시퀀스 훈련 방법은 속도 향상과 메모리 감소가 제한적이며, 정확도를 저하시킬 수 있습니다. 본 논문은 긴 시퀀스로 트랜스포머를 훈련하기 위한 새로운 효율적인 분산 훈련 방법인 Long Short-Sequence Transformer(LSS Transformer)를 제안합니다. 이 방법은 긴 시퀀스를 GPU 간에 세그먼트로 분할하고, 각 GPU가 해당 세그먼트에 대한 부분적 self-attention을 계산합니다. 그런 다음, 융합된 통신과 새로운 이중 그래디언트 평균화 기술을 사용하여 부분적 self-attention을 집계할 필요를 없애고 통신 오버헤드를 최소화합니다. 우리는 LSS Transformer와 최신 Nvidia 시퀀스 병렬화의 성능을 Wikipedia enwik8 데이터셋에서 평가했습니다. 결과는 제안된 방법이 144개의 Nvidia V100 GPU에서 최신 시퀀스 병렬화보다 5.6배 빠르고 10.2배 더 메모리 효율적인 구현을 이끌어냄을 보여줍니다. 또한, 우리의 알고리즘은 3,456개의 GPU에서 50,112의 극단적인 시퀀스 길이로 확장 가능하며, 161%의 초선형 병렬 효율성과 32 페타플롭스의 처리량을 달성합니다.