번역이 포함된 일일 선별된 AI 연구 논문
그리스어를 위한 최초의 오픈 대형 언어 모델인 Meltemi 7B의 개발 과정과 기능을 설명합니다. Meltemi 7B는 70억 개의 파라미터를 가지며, 400억 토큰 규모의 그리스어 코퍼스로 학습되었습니다. Meltemi 7B의 개발을 위해 Mistral을 그리스어 코퍼스에 대한 지속적인 사전 학습으로 적응시켰습니다. Meltemi 7B는 2023년 9월까지의 최신 정보를 포함하고 있습니다. 또한, 그리스어 명령어 코퍼스를 번역하고 정제하여 Meltemi 7B Instruct라는 채팅 모델의 명령어 튜닝에 사용했습니다. Meltemi 7B Instruct의 경우, 유해 콘텐츠 제거와 정렬에 특별한 주의를 기울였습니다. 개발된 모델은 다양한 평가 코퍼스 세트에서 평가되었으며, 프롬프트와 응답의 예시가 제시됩니다. Meltemi 7B와 Meltemi 7B Instruct는 Apache 2.0 라이선스 하에 https://huggingface.co/ilsp에서 이용 가능합니다.
대형 언어 모델(LLM)은 모델 크기와 시퀀스 길이의 증가를 활용하여 다양한 응용 분야에서 전례 없는 성능을 달성하며 자연어 처리 분야를 혁신했습니다. 그러나 이와 관련된 계산 및 메모리 비용의 증가는 특히 트랜스포머 어텐션 메커니즘의 2차 복잡성으로 인해 긴 시퀀스를 관리하는 데 있어 상당한 과제를 제기합니다. 본 논문은 장문맥 시나리오에 초점을 맞추어, 추론 과정에서 KV 캐시 메모리 소비의 비효율성을 해결합니다. 기존의 접근 방식들이 시퀀스 길이에 기반하여 메모리를 최적화하는 것과 달리, 우리는 KV 캐시의 채널 차원이 불균형한 크기 분포와 어텐션 가중치의 저랭크 구조로 특징지어지는 상당한 중복성을 보인다는 점을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 ThinK라는 새로운 쿼리 의존적 KV 캐시 프루닝 방법을 제안합니다. 이 방법은 가장 중요하지 않은 채널을 선택적으로 제거하면서 어텐션 가중치 손실을 최소화하도록 설계되었습니다. 우리의 접근 방식은 모델 정확도를 유지하거나 향상시킬 뿐만 아니라, 기존의 KV 캐시 제거 방법에 비해 메모리 비용을 20% 이상 절감합니다. LLaMA3 및 Mistral 모델을 다양한 장문 시퀀스 데이터셋에 대해 광범위하게 평가한 결과, ThinK의 효율성을 확인하며 성능 저하 없이 LLM 배포의 새로운 기준을 제시했습니다. 또한, 우리는 이 방법을 값 캐시 프루닝으로 확장할 가능성을 제시함으로써 ThinK의 다재다능성과 메모리 및 계산 오버헤드를 줄이는 데 있어 광범위한 적용 가능성을 입증했습니다.
대규모 화학 언어 모델을 위한 사전 학습 방법론은 화학정보학 분야에서 획기적인 발전을 나타냅니다. 이러한 방법들은 대규모 비주석화 코퍼스에 대한 자기 지도 학습을 통해 입력 토큰의 문맥적 표현을 학습함으로써, 물성 예측 및 분자 생성과 같은 작업에서 탁월한 성능을 발휘합니다. 일반적으로 이는 비주석화 데이터에 대한 사전 학습과 특정 작업에 대한 미세 조정을 포함하며, 이는 주석화된 데이터셋에 대한 의존도를 줄이고 화학 언어 표현에 대한 이해를 확장합니다. 본 논문은 PubChem에서 수집된 9100만 개의 SMILES 샘플(이는 40억 개의 분자 토큰에 해당)로 구성된 데이터셋에 사전 학습된 대규모 인코더-디코더 화학 기초 모델을 소개합니다. 제안된 기초 모델은 양자 물성 예측을 포함한 다양한 복잡한 작업을 지원하며, 두 가지 주요 변형(289M 및 8배 289M)을 통해 유연성을 제공합니다. 여러 벤치마크 데이터셋에 대한 실험을 통해 제안된 모델이 다양한 작업에서 최첨단 결과를 제공할 수 있는 능력을 검증합니다. 또한, 추론 작업을 위한 전제 조건으로서 임베딩 공간의 구성성에 대한 예비 평가를 제공합니다. 우리는 생성된 잠재 공간이 최신 기술과 비교하여 분리 가능하며 소수 샷 학습 능력을 갖추고 있음을 입증합니다.
대규모 언어 모델(LLM)이 운영 워크플로우(LLM-Ops)에 점점 더 통합됨에 따라, 안전하고 정렬된 상호작용을 보장하기 위한 효과적인 가드레일의 필요성이 절실해지고 있습니다. 이는 다양한 언어에서 잠재적으로 안전하지 않거나 부적절한 콘텐츠를 탐지할 수 있는 능력을 포함합니다. 그러나 기존의 안전한 작업용 분류기는 주로 영어 텍스트에 초점을 맞추고 있습니다. 이러한 격차를 해소하기 위해 말레이시아 언어에 특화된 새로운 안전한 작업용 텍스트 분류기를 제시합니다. 다양한 콘텐츠 카테고리에 걸친 말레이시아 텍스트의 최초 데이터셋을 수집하고 주석을 달아, 최신 자연어 처리 기술을 활용하여 잠재적으로 안전하지 않은 자료를 식별할 수 있는 분류 모델을 훈련했습니다. 이 작업은 LLM의 책임 있는 배포를 보장하고 잠재적 위험을 완화하기 위해 더 안전한 상호작용과 콘텐츠 필터링을 가능하게 하는 중요한 단계를 나타냅니다. 접근성을 극대화하고 말레이시아 맥락에서 LLM-Ops의 정렬을 강화하기 위한 추가 연구를 촉진하기 위해, 이 모델은 https://huggingface.co/malaysia-ai/malaysian-sfw-classifier에서 공개되었습니다.
우리는 대규모 언어 모델, 시각 언어 모델, 그리고 확산 모델을 활용하여 구체화된 에이전트의 강화 학습에서 샘플 효율성과 전이 학습을 개선하는 새로운 프레임워크인 Diffusion Augmented Agents (DAAG)를 소개합니다. DAAG는 확산 모델을 사용하여 에이전트의 과거 경험을 다시 라벨링하며, 이를 위해 비디오를 시간적 및 기하학적으로 일관된 방식으로 변환하여 목표 지시사항과 맞추는 Hindsight Experience Augmentation이라는 기술을 사용합니다. 대규모 언어 모델은 이 자율적인 과정을 조율하며, 인간의 감독 없이도 작동할 수 있어 평생 학습 시나리오에 적합합니다. 이 프레임워크는 1) 보상 감지기 역할을 하는 시각 언어 모델을 미세 조정하고, 2) 새로운 작업에 대해 RL 에이전트를 훈련시키는 데 필요한 보상 라벨링 데이터의 양을 줄입니다. 우리는 DAAG의 샘플 효율성 향상을 조작 및 탐색을 포함한 시뮬레이션된 로봇 환경에서 입증합니다. 결과는 DAAG가 보상 감지기 학습, 과거 경험 전이, 그리고 새로운 작업 습득을 개선함으로써 효율적인 평생 학습 에이전트 개발에 필요한 핵심 능력을 향상시킨다는 것을 보여줍니다. 보충 자료와 시각화는 우리의 웹사이트 https://sites.google.com/view/diffusion-augmented-agents/에서 확인할 수 있습니다.
우리는 이스라엘 의회 회의록으로 구성된 Knesset 코퍼스에 미세 조정된 대형 히브리어 언어 모델인 Knesset-DictaBERT를 소개합니다. 이 모델은 DictaBERT 아키텍처를 기반으로 하며, MLM(Masked Language Modeling) 작업에서 의회 언어 이해 능력이 크게 향상되었음을 보여줍니다. 우리는 모델의 성능을 상세히 평가하여, 기준이 되는 DictaBERT 모델 대비 perplexity와 정확도 측면에서 개선된 결과를 제시합니다.
본 논문은 이미지 매팅(image matting)을 위한 혁신적인 접근 방식을 소개하며, 전통적인 회귀 기반 작업을 생성 모델링 문제로 재정의합니다. 우리의 방법은 사전 학습된 광범위한 지식을 활용한 잠재 확산 모델(latent diffusion models)의 능력을 이용하여 매팅 프로세스를 정규화합니다. 우리는 모델이 더 높은 해상도와 세부 사항을 가진 매트를 생성할 수 있도록 하는 새로운 아키텍처 혁신을 제시합니다. 제안된 방법은 다재다능하며, 다양한 추가 단서를 수용할 수 있는 가이드 없는(guidance-free) 및 가이드 기반(guidance-based) 이미지 매팅을 모두 수행할 수 있습니다. 세 가지 벤치마크 데이터셋에 걸친 포괄적인 평가를 통해 우리의 접근 방식이 양적 및 질적으로 우수한 성능을 보임을 입증합니다. 결과는 우리 방법의 강력한 효과뿐만 아니라, 사실적인 품질에 근접한 시각적으로 매력적인 매트를 생성하는 능력을 강조합니다. 본 논문의 프로젝트 페이지는 https://lightchaserx.github.io/matting-by-generation/에서 확인할 수 있습니다.
기존의 음악 캡셔닝 방법은 짧은 음악 클립에 대한 간결한 전반적 설명을 생성하는 데에만 국한되어 있어, 세밀한 음악적 특성과 시간에 따른 음악적 변화를 포착하지 못하는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 시간적 구성을 활용한 생성적 증강 학습을 통해 세밀한 음악 이해 능력을 갖춘 FUTGA 모델을 제안합니다. 우리는 기존의 음악 캡션 데이터셋과 대형 언어 모델(LLM)을 활용하여 전체 길이의 곡에 대한 구조적 설명과 시간 경계를 포함한 세밀한 음악 캡션을 합성합니다. 제안된 합성 데이터셋으로 증강된 FUTGA는 주요 전환 지점에서의 음악적 변화와 그 기능을 식별할 수 있을 뿐만 아니라, 각 음악 세그먼트에 대한 상세한 설명을 생성할 수 있습니다. 또한, 우리는 FUTGA에 의해 생성된 전체 길이의 음악 캡션 데이터셋을 MusicCaps 및 Song Describer 데이터셋의 증강으로 소개합니다. 자동 생성된 캡션은 음악 생성 및 검색을 포함한 여러 다운스트림 작업에서 평가되었으며, 실험 결과는 생성된 캡션의 품질과 제안된 음악 캡셔닝 접근법이 다양한 다운스트림 작업에서 더 나은 성능을 달성함을 보여줍니다. 우리의 코드와 데이터셋은 https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}에서 확인할 수 있습니다.
신경망 정보 검색(Neural Information Retrieval)은 고자원 언어에서 빠르게 발전해 왔지만, 일본어와 같은 저자원 언어에서는 데이터 부족 등의 문제로 인해 진전이 더딘 상황입니다. 이로 인해 다국어 모델들이 일본어 검색 분야를 주도해 왔지만, 이들은 계산 비효율성과 언어적 뉘앙스를 포착하지 못하는 한계를 지니고 있습니다. 최근 JaColBERT와 같은 다중 벡터 단일 언어 모델들이 이러한 격차를 줄이기는 했지만, 대규모 평가에서는 여전히 다국어 방법들에 뒤처지는 모습을 보였습니다. 본 연구는 일본어를 중심으로 저자원 환경에서 다중 벡터 검색기의 최적화되지 않은 학습 방법을 해결하고자 합니다. 우리는 JaColBERT 및 더 넓게는 다중 벡터 모델들의 추론 및 학습 설정의 주요 측면들을 체계적으로 평가하고 개선했습니다. 또한, 새로운 체크포인트 병합 단계를 통해 성능을 더욱 향상시켰으며, 이는 미세 조정의 이점과 원본 체크포인트의 일반화 능력을 효과적으로 결합하는 방법임을 입증했습니다. 이러한 분석을 바탕으로, 우리는 새로운 학습 레시피를 도입하여 JaColBERTv2.5 모델을 개발했습니다. JaColBERTv2.5는 단 1억 1천만 개의 매개변수로 구성되었으며, 4개의 A100 GPU에서 15시간 미만으로 학습되었음에도 불구하고 모든 일반 벤치마크에서 기존의 모든 방법들을 크게 능가하며 평균 점수 0.754를 달성했습니다. 이는 이전 최고 점수인 0.720을 상당히 상회하는 성과입니다. 향후 연구를 지원하기 위해, 우리는 최종 모델, 중간 체크포인트 및 사용된 모든 데이터를 공개적으로 제공합니다.
HAL(Hyper Articles en Ligne)은 프랑스의 국가 출판물 저장소로, 대부분의 고등 교육 및 연구 기관에서 오픈 사이언스 정책을 위해 사용되고 있습니다. 디지털 도서관으로서 HAL은 학술 문서의 풍부한 저장소이지만, 고급 연구를 위한 잠재력은 충분히 활용되지 못해 왔습니다. 우리는 HAL에 제출된 논문의 전체 텍스트와 인용 네트워크 간의 간극을 메우는 독특한 데이터셋인 HALvest를 소개합니다. 우리는 HAL에서 학술 출판물을 필터링하여 약 700,000개의 문서로 구성된 이 데이터셋을 제작했으며, 이는 13개의 식별된 도메인에 걸쳐 34개 언어로 구성되어 언어 모델 학습에 적합하고, 약 165억 개의 토큰(프랑스어 80억 개, 영어 70억 개로 가장 많이 나타남)을 생성합니다. 각 논문의 메타데이터를 인용 네트워크로 변환하여 방향성 이종 그래프를 생성합니다. 이 그래프는 HAL에서 고유하게 식별된 저자와 모든 공개 제출 논문 및 그들의 인용을 포함합니다. 우리는 이 데이터셋을 사용하여 저자 귀속을 위한 기준을 제공하고, 링크 예측을 위한 그래프 표현 학습의 최신 모델들을 구현하며, 생성된 지식 그래프 구조의 유용성에 대해 논의합니다.