번역이 포함된 일일 선별된 AI 연구 논문
희소 오토인코더(SAEs)는 대형 언어 모델(Large-Language Models, LLMs)의 역공학에서 중요한 구성 요소가 되었습니다. LLMs의 경우, SAEs는 종종 직접 해석할 수 없는 중간 표현을 희소한 해석 가능한 특징들의 합으로 분해하여 더 나은 제어와 후속 분석을 용이하게 합니다. 그러나 텍스트-이미지 모델에 대해 유사한 분석과 접근 방식이 부족했습니다. 저희는 SDXL Turbo와 같은 몇 단계의 텍스트-이미지 확산 모델에서 해석 가능한 특징을 학습하는 데 SAEs를 사용할 수 있는 가능성을 조사했습니다. 이를 위해, 우리는 SDXL Turbo의 소음 제거 U-net 내에서 트랜스포머 블록에 의해 수행된 업데이트에 대해 SAEs를 훈련시켰습니다. 우리는 그들이 학습한 특징이 해석 가능하며 생성 프로세스에 인과적으로 영향을 주며 블록들 사이에 전문화를 드러낸다는 것을 발견했습니다. 특히, 이미지 구성에 주로 관여하는 블록, 지역적 세부 사항을 주로 추가하는 블록, 색상, 조명 및 스타일에 대한 블록을 발견했습니다. 따라서 우리의 연구는 SDXL Turbo와 같은 생성적 텍스트-이미지 모델의 내부를 더 잘 이해하기 위한 중요한 첫걸음이며, SAEs에 의해 학습된 특징들이 시각 도메인에 대한 잠재력을 보여줍니다. 코드는 https://github.com/surkovv/sdxl-unbox에서 확인할 수 있습니다.
LLM의 사후 훈련에서 차이를 만드는 것은 무엇인가? 우리는 다른 응답 및 초기 모델로 훈련할 때, 대규모 언어 모델(Large Language Models, LLMs)의 다양한 레이어의 훈련 패턴을 그래디언트의 관점에서 조사합니다. 최근 chain-of-thoughts (CoT) 및 process rewards와 같은 추론 경로에서 LLM을 훈련하는 인기로 인해, 빠른 사고와 느린 사고가 레이어별 그래디언트에 어떤 영향을 미치는지에 특히 관심이 있습니다. 우리의 연구에서 CoT 없이 빠른 사고는 느린 사고(Detailed CoT)보다 큰 그래디언트와 레이어 간 그래디언트의 큰 차이를 보여줌으로써 후자가 가져오는 학습 안정성을 나타냅니다. 게다가, 사전 훈련된 LLM은 명령에 맞게 조정된 LLM보다 빠른 사고의 불안정성에 덜 영향을 받습니다. 또한, 다른 LLM을 훈련할 때 느린 사고와 빠른 사고 경로를 사용하는 경우 그래디언트 패턴이 응답의 정확성을 반영할 수 있는지 연구합니다. 결과는 느린 사고의 그래디언트가 올바른 및 관련 없는 추론 경로를 구별할 수 있다는 것을 보여줍니다. 비교적으로, 비추론적 지식 학습 작업에서 유사한 그래디언트 분석을 수행하지만, 응답 길이를 단순히 증가시키는 것은 느린 사고의 유사한 행동으로 이어지지 않습니다. 우리의 연구는 LLM 훈련의 기본적인 이해를 강화하고 효율성 및 안정성에 대한 혁신적인 통찰을 제공하여 일반화 가능한 System-2 에이전트를 구축하는 길을 열어줍니다. 우리의 코드, 데이터 및 그래디언트 통계는 다음에서 찾을 수 있습니다: https://github.com/MingLiiii/Layer_Gradient.
작업 지향 대화 시스템에서 의도 감지는 사용자 쿼리를 해석하고 적절한 응답을 제공하는 데 중요합니다. 기존 연구는 주로 단일 의도를 갖는 간단한 쿼리에 대해 다루며, 여러 의도를 갖는 복잡한 쿼리를 처리하고 다양한 의도 구간을 추출하는 효과적인 시스템이 부족합니다. 또한, 다국어, 다중 의도 데이터셋이 부족한 것이 두드러집니다. 본 연구는 세 가지 중요한 작업을 다룹니다: 쿼리로부터 여러 의도 구간 추출, 다중 의도 감지, 그리고 다국어 다중 레이블 의도 데이터셋 개발. 우리는 기존 벤치마크 데이터셋에서 선별한 새로운 다중 레이블 다중 클래스 의도 감지 데이터셋(MLMCID-dataset)을 소개합니다. 또한, 섹스투플 형식의 코어스 및 파인 그레인 레이블로 다중 의도를 추출하고 감지하는 포인터 네트워크 기반 아키텍처(MLMCID)를 제안합니다. 포인터 네트워크 기반 시스템이 다양한 데이터셋에서 정확도와 F1 점수 측면에서 기존 방법보다 우월함을 포괄적으로 분석한 결과를 통해 입증합니다.
지시 튜닝은 대형 언어 모델(Large Language Models, LLMs)의 능력을 크게 향상시키는 감독형 세밀 조정 방법입니다. 우리는 SelfCodeAlign을 제안합니다. 이는 인간 주석이나 증류(distillation) 없이 코드 LLMs를 완전히 투명하고 허용적으로 자기 정렬하는 파이프라인으로, 데이터 생성 과정 전체에서 동일한 기본 모델을 추론에 활용합니다. SelfCodeAlign은 먼저 고품질 초기 코드 스니펫에서 다양한 코딩 개념을 추출하여 새로운 작업을 생성합니다. 그런 다음 각 작업에 대해 여러 응답을 샘플링하고 각각을 테스트 케이스와 짝지어 검증합니다. 마지막으로 지시 튜닝을 위해 통과한 예제를 선택합니다. 주요 실험에서는 SelfCodeAlign을 CodeQwen1.5-7B와 함께 사용하여 74k 개의 지시-응답 쌍 데이터셋을 생성합니다. 이 데이터셋에 대한 세밀 조정은 HumanEval+에서 67.1 pass@1을 달성하여 CodeLlama-70B-Instruct를 10배 작은 크기임에도 불구하고 능가합니다. 모든 벤치마크에서 이 세밀 조정된 모델은 이전 최첨단 방법인 OctoPack으로 훈련된 원본 버전보다 우수한 성능을 지속적으로 보입니다. 또한 SelfCodeAlign이 3B에서 33B까지 다양한 크기의 LLMs에서 효과적임을 보여주며, 기본 모델이 자체 데이터 분포와 더 잘 일치하도록 정렬되는 이점을 얻을 수 있음을 보여줍니다. 우리는 또한 SelfCodeAlign의 각 구성 요소의 효과를 검증하여, GPT-4o로부터 직접 증류하는 방법과 OSS-Instruct 및 Evol-Instruct와 같은 주요 GPT-3.5 기반 증류 방법을 능가하는 SelfCodeAlign의 성능을 보여줍니다. SelfCodeAlign은 또한 최첨단 코딩 성능을 달성하는 최초의 완전히 투명하고 허용적으로 라이선스가 부여된 자기 정렬 코드 LLM인 StarCoder2-Instruct의 창조로 이어졌습니다.
대형 언어 모델(LLMs)은 다양한 응용 프로그램을 혁신적으로 바꿨지만, 지역 장치의 메모리 제약으로 인해 배포가 여전히 어려움을 겪고 있습니다. 스케일링 법칙은 LLM의 능력을 향상시켰지만, 주요 병목 현상은 능력에서 가용성으로 옮겨져 효율적인 메모리 관리의 필요성을 강조하고 있습니다. 양자화와 같은 전통적인 압축 방법은 종종 미리 정의된 압축 비율과 각 설정에 대한 별도의 압축 프로세스가 필요하여 변수 메모리 환경에서의 배포를 복잡하게 만듭니다. 본 논문에서는 메가바이트 수준의 메모리 사용량과 모델 성능 사이의 트레이드오프를 가능하게 하는 훈련 없이 가중치 압축 접근 방식인 BitStack을 소개합니다. 가중치 분해를 활용하여 BitStack은 실행 중인 메모리와 저장 장치 간의 최소 전송으로 모델 크기를 동적으로 조정할 수 있습니다. 우리의 방법은 각 매개변수의 중요성을 고려하면서 가중치 행렬을 반복적으로 분해하여, 각 분해 반복에서 매개변수 당 약 1비트의 잔여 블록을 생성합니다. 이러한 블록은 기본 전송 단위로 저장되어 현재 메모리 가용성에 따라 다른 양이 로드됩니다. 다양한 작업 범위에서의 광범위한 실험 결과는 BitStack이 세밀한 크기 제어를 제공하면서도 특히 극단적인 압축 비율에서 강력한 양자화 기준을 일관되게 따라잡거나 능가한다는 것을 보여줍니다. 우리의 지식 범위 내에서, 이는 양자화와 같은 실용적인 압축 기술로의 간극을 효과적으로 메꾸는 첫 번째 분해 기반 방법입니다. 코드는 https://github.com/xinghaow99/BitStack에서 사용할 수 있습니다.
대형 언어 모델(LLMs)은 형식, 길이 등의 복잡한 제약 조건을 따르는 데 어려움을 겪습니다. 기존의 지시-조정 방법을 따라, 이전 연구들은 복잡한 지시를 고급 LLM에 공급하여 생성된 복잡한 지시-응답 쌍에 대해 사후 훈련을 실시했습니다. 그러나 심지어 고급 LLM도 복잡한 지시를 잘 따르지 못하기 때문에 생성된 데이터의 품질이 제한됩니다. 본 연구에서는 기존 데이터셋이 내재적으로 복잡한 제약 조건을 포함하고 있음을 발견하고, 새로운 데이터 생성 기술인 제약 조건 역번역을 제안합니다. 구체적으로, 기존 데이터셋의 고품질 지시-응답 쌍을 채택하고, 응답이 이미 지시에 충족되는 복잡한 제약 조건을 추가하기 위해 고급 LLM만 사용하여 비용과 데이터 잡음을 자연스럽게 줄입니다. 실험에서는 Llama3-70B-Instruct를 사용하여 제약 조건을 역번역하고, CRAB라는 고품질 복잡한 지시-응답 데이터셋을 생성합니다. CRAB에 대한 사후 훈련이 다양한 백본 LLM의 복잡한 지시 따르기 능력을 향상시킨다는 것을 제시하며, 다양한 지시 따르기 벤치마크에서 평가합니다. 또한 제약 조건 역번역이 사후 훈련에서 유용한 보조 훈련 목표로 작용한다는 것을 발견합니다. 우리의 코드, 데이터 및 모델은 향후 연구를 용이하게 하기 위해 공개될 예정입니다.
최근 대형 언어 모델 (LLM)의 발전은 긴 맥락을 처리하는 능력을 크게 향상시켰지만, 긴 맞춤 출력 생성에서는 상당한 차이가 남아 있습니다. 이 한계는 사전 훈련이 긴 텍스트 생성에 대한 효과적인 지침을 부족하게 하고, 사후 훈련 데이터가 주로 짧은 질의-응답 쌍으로 구성되어 있기 때문에 발생합니다. 지시 역번역과 행동 모방과 같은 현재의 방법들은 데이터 품질, 저작권 문제, 그리고 소유 모델 사용에 대한 제약 등의 어려움에 직면하고 있습니다. 본 논문에서는 보조 데이터나 소유 모델이 필요하지 않는 LLM의 내재 지식과 기술만을 활용하는 혁신적인 반복 훈련 프레임워크인 Self-Lengthen을 소개합니다. 이 프레임워크는 생성자와 확장자 두 가지 역할로 구성되어 있습니다. 생성자는 초기 응답을 생성하고, 그 후 확장자가 이를 분할하고 확장합니다. 이 과정을 통해 새로운, 더 긴 응답이 생성되며, 이를 통해 생성자와 확장자가 반복적으로 훈련됩니다. 이 과정을 통해 모델들은 점차적으로 점점 더 긴 응답을 처리할 수 있도록 훈련됩니다. 벤치마크 및 인간 평가 실험 결과는 Self-Lengthen이 Qwen2 및 LLaMA3와 같은 최고의 오픈 소스 LLM에 적용될 때 긴 텍스트 생성에서 기존 방법들을 능가한다는 것을 보여줍니다. 저희 코드는 https://github.com/QwenLM/Self-Lengthen에서 공개적으로 제공됩니다.
신경망의 성능은 더 많은 매개변수를 사용할 때 향상됩니다. 그러나 모델 크기는 훈련 및 추론 중에 사용 가능한 장치 내 메모리에 의해 제한됩니다. 양자화와 같은 기술을 적용하면 제한을 완화할 수 있지만, 성능 저하가 발생합니다. 본 연구에서는 신경망의 부동 소수점 숫자 엔트로피를 기반으로 한 새로운 가중치 압축 방식인 NeuZip을 소개합니다. NeuZip을 사용하면 성능을 희생하지 않고 메모리 효율적인 훈련과 추론을 달성할 수 있습니다. 특히, Llama-3 8B 모델의 훈련 메모리 풋프린트를 31GB에서 16GB 미만으로 크게 줄였으며, 훈련 역학을 완전히 유지했습니다. 추론에서는 메모리 사용량을 절반 이상으로 줄이면서 거의 손실이 없는 성능을 유지할 수 있습니다. 저희 코드는 공개적으로 이용 가능합니다.
본 논문에서는 자연 비디오를 훈련에 포함시키지 않고 합성 비디오와 자연 이미지로부터 유용한 비디오 표현을 학습할 수 있다는 것을 보여줍니다. 우리는 간단한 생성 프로세스에 의해 합성된 비디오 데이터셋 진행을 제안합니다. 이 데이터셋은 자연 비디오 특성(예: 움직임, 가속, 모양 변환)의 증가하는 집합을 모델링합니다. 이러한 생성된 데이터셋에서 사전 훈련된 비디오 모델의 하류 성능은 데이터셋 진행에 따라 점진적으로 향상됩니다. 우리의 합성 비디오에서 사전 훈련된 VideoMAE 모델은 UCF101 동작 분류에서 처음부터 훈련하거나 자가 지도 사전 훈련과의 성능 차이 97.2%를 메우며 HMDB51에서 사전 훈련된 모델을 능가합니다. 사전 훈련 단계에서 정적 이미지의 잘린 부분을 도입하면 UCF101 사전 훈련과 유사한 성능을 보이며 UCF101 사전 훈련된 모델을 UCF101-P의 14개의 분포 이외 데이터셋 중 11개에서 능가합니다. 데이터셋의 저수준 특성을 분석하여 프레임 다양성, 자연 데이터와의 프레임 유사성, 그리고 하류 성능 사이의 상관 관계를 확인합니다. 우리의 접근 방식은 사전 훈련을 위한 비디오 데이터 선별 프로세스에 대한 더욱 조절 가능하고 투명한 대안을 제공합니다.
다수의 연구에서는 특히 대규모 언어 모델 (LLMs)이 이메일 작성, 질문 응답 및 창의적 콘텐츠 생성과 같은 일상적인 작업을 용이하게 하는 데 얼마나 능숙한지를 평가해 왔습니다. 그러나 연구자들은 자신의 작업에 LLM을 활용하는 데 고유한 도전과 기회를 직면하고 있습니다. 예를 들어, 연구 아이디어 떠올리기, 실험 설계, 논문 작성 또는 검토와 같은 작업을 수행하는 데 LLM을 활용하는 것입니다. 본 연구에서는 AAAR-1.0을 소개합니다. 이는 세 가지 기본적이고 전문적인 연구 작업에서 LLM의 성능을 평가하기 위해 설계된 벤치마크 데이터셋입니다. 이 세 가지 작업은 다음과 같습니다: (i) EquationInference, 논문 제출물의 맥락 정보를 기반으로 방정식의 정확성을 평가하는 작업; (ii) ExperimentDesign, 연구 아이디어 및 해결책을 검증하기 위한 실험 설계 작업; (iii) PaperWeakness, 논문 제출물의 약점을 식별하는 작업; 그리고 (iv) REVIEWCRITIQUE, 인간 리뷰에서 각 세그먼트가 결함이 있는지 여부를 식별하는 작업입니다. AAAR-1.0은 이전 벤치마크와 두 가지 중요한 측면에서 차별화됩니다: 첫째, 명시적으로 연구 지향적이며, 심층적인 도메인 전문 지식이 필요한 작업을 수행합니다. 둘째, 연구자 중심적이며, 연구자들이 일상적으로 참여하는 주요 활동을 반영합니다. 오픈 소스와 프로프리어터리 LLM의 평가를 통해, 이들이 복잡한 연구 작업을 수행하는 데 있어 잠재력과 한계를 확인할 수 있습니다. 우리는 AAAR-1.0을 새로운 버전으로 지속적으로 발전시킬 것입니다.
대형 언어 모델(LLM)의 등장은 지식 기반 시스템과 사용자 상호작용을 혁신적으로 바꿔놓았습니다. 이를 통해 챗봇이 방대한 양의 정보를 종합하고 복잡한 탐구적 작업을 지원할 수 있게 되었습니다. 그러나 LLM 기반 챗봇은 종종 사용자가 모호한 질문을 시작하거나 충분한 맥락 정보가 부족할 때 특히 개인화된 지원을 제공하는 데 어려움을 겪습니다. 본 논문은 탐구적 작업에서 개인화를 향상시키기 위해 다중 에이전트 LLM 프레임워크를 구조화된 사용자 인터페이스와 결합한 Collaborative Assistant for Personalized Exploration (CARE) 시스템을 소개합니다. CARE의 인터페이스는 채팅 패널, 솔루션 패널 및 필요성 패널로 구성되어 반복적인 쿼리 정제와 동적 솔루션 생성을 가능하게 합니다. 다중 에이전트 프레임워크는 명시적 및 암시적 사용자 요구 사항을 식별하기 위해 협력하여 맞춤형 실질적인 솔루션을 제공합니다. 22명의 참가자를 대상으로 한 사용자 연구에서 CARE는 일관되게 기본 LLM 챗봇보다 선호되었으며, 사용자들은 CARE가 인지 부하를 줄이고 창의성을 고무시며 더 맞춤화된 솔루션을 제공하는 능력을 칭찬했습니다. 우리의 연구 결과는 CARE가 LLM 기반 시스템을 개인화된 문제 해결 및 탐구에서 수동적인 정보 검색기에서 적극적인 파트너로 변화시킬 잠재력을 강조합니다.
의료 비전-언어 사전 훈련(MedVLP)은 짝지어진 및 짝지어지지 않은 의료 이미지와 보고서에서 일반화 가능하고 이전 가능한 시각적 표현을 학습하는 데 유망성을 보여줍니다. MedVLP는 하류 작업에 유용한 기능을 제공하고 적은 예제를 사용하여 새로운 설정에 작업별 모델을 적응시키는 데 도움을 줄 수 있습니다. 그러나 기존의 MedVLP 방법은 데이터셋, 전처리 및 세부 조정 구현 측면에서 종종 차이가 있습니다. 이는 통일되고 표준화된 포괄적인 벤치마크의 부재로 인해 MedVLP 방법이 다양한 임상 관련 작업에 얼마나 잘 일반화되는지를 평가하는 데 큰 어려움을 야기합니다. 이 공백을 채우기 위해 우리는 BenchX를 제안합니다. BenchX는 공개 흉부 X-선 데이터셋을 사용하여 MedVLP 방법 간의 대등 비교와 체계적 분석을 가능하게 하는 통합된 벤치마크 프레임워크입니다. 구체적으로, BenchX는 다음 세 가지 구성 요소로 구성됩니다: 1) 아홉 가지 데이터셋과 네 가지 의료 작업을 포함하는 포괄적인 데이터셋; 2) 데이터 전처리, 훈련-테스트 분할 및 매개 변수 선택을 표준화하는 벤치마크 스위트; 3) 분류, 분할 및 보고서 생성에 대한 일관된 작업 적응을 위해 이질적인 MedVLP 방법을 수용하는 통합된 세부 조정 프로토콜. BenchX를 활용하여 우리는 아홉 가지 최첨단 MedVLP 방법에 대한 기준선을 설정하고, 일부 초기 MedVLP 방법의 성능을 향상시켜 더 최근 것들을 능가할 수 있다는 것을 발견하여, MedVLP의 이전 작업에서의 발전과 결론을 재방문할 것을 촉구합니다. 우리의 코드는 https://github.com/yangzhou12/BenchX에서 사용할 수 있습니다.
모노클 비디오에서 밀도 높은 3D 모션을 추적하는 것은 여전히 어려운 과제입니다, 특히 장기 시퀀스에 걸쳐 픽셀 수준의 정밀도를 목표로 할 때. 우리는 \Approach를 소개합니다. 이는 3D 공간의 모든 픽셀을 효율적으로 추적하여 전체 비디오에서 정확한 모션 추정을 가능케 하는 혁신적인 방법입니다. 저희 방법은 해상도를 낮춘 추적을 위한 합성 글로벌-로컬 어텐션 메커니즘을 활용하며, 고해상도 예측을 위해 트랜스포머 기반 업샘플러를 사용합니다. 계산 효율성이나 희소 추적으로 제한되는 기존 방법과 달리, \Approach는 규모에 걸친 밀도 높은 3D 추적을 제공하며, 이전 방법보다 8배 빠르게 실행되면서 최첨단 정확도를 달성합니다. 또한, 깊이 표현이 추적 성능에 미치는 영향을 탐구하고 로그-깊이를 최적의 선택으로 확인합니다. 포괄적인 실험은 \Approach의 우수성을 입증하며, 2D 및 3D 밀도 높은 추적 작업에서 새로운 최첨단 결과를 달성합니다. 저희 방법은 3D 공간에서 세밀하고 장기적인 모션 추적이 필요한 응용 프로그램에 대한 견고한 솔루션을 제공합니다.
실제 상황에서, 타인의 언어를 활용하여 명시적 또는 암시적 지식을 습득하는 능력을 갖는 타체 에이전트가 바람직합니다. 최근의 발전에도 불구하고, 이전 접근 방식 대부분은 자연스러운 인간 커뮤니케이션을 반영하지 못할 수 있는 간단한 수준의 명령을 언어 입력으로 채택했습니다. 언어의 풍부한 활용을 어떻게 통합하여 과제 학습을 용이하게 할지 명확하지 않습니다. 이 문제를 해결하기 위해, 본 논문은 강화 학습 (RL) 타체 에이전트의 학습을 용이하게 하는 다양한 유형의 언어 입력을 연구합니다. 더 구체적으로, 과거 행동에 대한 피드백 및 미래 지침에 대한 언어의 다양한 수준 (즉, 언어 표현의 변화)이 에이전트의 학습과 추론에 어떤 영향을 미치는지 조사합니다. 네 가지 RL 벤치마크를 기반으로 한 우리의 경험적 결과는, 다양하고 유익한 언어 피드백으로 훈련된 에이전트가 새로운 과제에 대한 향상된 일반화 및 빠른 적응을 달성할 수 있다는 것을 보여줍니다. 이러한 발견은 개방된 세계에서 타체 에이전트에게 새로운 과제를 가르치는 데 언어 사용이 중요한 역할을 한다는 것을 강조합니다. 프로젝트 웹사이트: https://github.com/sled-group/Teachable_RL
본 논문은 로그 손실 하에서 작동하는 새로운 손실 압축 프레임워크를 조사하며, 재구성 분포가 원본 분포와 다른 상황을 다루도록 설계되었습니다. 이 프레임워크는 특히 합성 압축 및 검색이 필요한 응용 프로그램 및 처리로 인한 분포 이동이 포함된 시나리오에 적합합니다. 우리는 제안된 공식이 병목 현상을 통합하여 최소 엔트로피 결합 프레임워크를 확장하며, 결합에서 제어된 확률성 정도를 허용하는 것을 보여줍니다. 우리는 최소 엔트로피 결합과 병목 (MEC-B)을 두 가지 다른 최적화 문제로 분해하는 것을 탐구합니다: 인코더를 위한 엔트로피 제한 정보 최대화 (EBIM) 및 디코더를 위한 최소 엔트로피 결합 (MEC). 철저한 분석을 통해, 우리는 성능을 보장하는 EBIM을 위한 탐욕 알고리즘을 제시하고, 기능적 매핑 근처의 최적 솔루션을 특성화하여 이 문제의 구조적 복잡성에 대한 중요한 이론적 통찰을 제공합니다. 더 나아가, 우리는 MEC-B의 실용적인 응용을 마르코프 부호화 게임 (MCGs) 실험을 통해 설명합니다. 이 게임은 마르코프 의사 결정 과정 내에서 통신 시나리오를 시뮬레이션하며, 에이전트가 발신자로부터 수신자로 압축된 메시지를 전송해야 하는 상황을 보여줍니다. 우리의 실험은 다양한 압축률에서 MDP 보상과 수신자 정확도 간의 트레이드오프를 강조하며, 우리의 방법이 전통적인 압축 기준과 비교하여 효과적임을 보여줍니다.
대량의 텍스트 말뭉치의 필요성은 사전 훈련된 언어 모델의 등장과 특히 이러한 모델에 대한 스케일링 법칙의 발견으로 증가했습니다. 대부분의 사용 가능한 말뭉치는 대규모 주요 커뮤니티를 가진 언어에 대해서만 충분한 데이터를 갖고 있습니다. 그러나 (i) 다양한 소수 언어를 커버하는 코퍼스가 없으며, (ii) 오픈 소스 재현 가능한 파이프라인에 의해 생성되며, (iii) 잡음으로부터 엄격히 정리되어 신뢰할 수 있는 코퍼스가 없습니다. 저희는 CommonCrawl에서 파생된 2TB 일반 도메인 코퍼스인 GlotCC를 제시합니다. GlotCC는 1000여 개 이상의 언어를 커버하며, 깨끗하고 문서 수준의 코퍼스입니다. GlotCC 및 해당 코퍼스를 생성하는 데 사용된 시스템 - 파이프라인, 언어 식별 모델 및 필터를 연구 커뮤니티에 제공합니다. 코퍼스 v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, 파이프라인 v. 3.0 https://github.com/cisnlp/GlotCC.