AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

INDUS: 과학적 응용을 위한 효과적이고 효율적인 언어 모델
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17

ByBishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee

일반 도메인 코퍼스로 훈련된 대형 언어 모델(LLMs)은 자연어 처리(NLP) 과제에서 주목할 만한 성과를 보여주었습니다. 그러나, 이전 연구에서는 특정 도메인에 초점을 맞춘 코퍼스를 사용해 훈련된 LLMs이 전문 과제에서 더 나은 성능을 발휘한다는 것을 입증했습니다. 이러한 중요한 통찰에 영감을 받아, 우리는 지구과학, 생물학, 물리학, 태양물리학, 행성과학 및 천체물리학 도메인에 맞춤화된 INDUS라는 포괄적인 LLMs 제품군을 개발했습니다. 이 모델들은 다양한 데이터 소스에서 선별된 과학 코퍼스를 사용해 훈련되었습니다. 이 제품군에는 다음이 포함됩니다: (1) 자연어 이해 과제를 해결하기 위해 도메인 특화 어휘와 코퍼스를 사용해 훈련된 인코더 모델, (2) 정보 검색 과제를 해결하기 위해 다양한 소스에서 추출된 데이터셋을 사용해 훈련된 대조 학습 기반 일반 텍스트 임베딩 모델, 그리고 (3) 지연 시간이나 자원 제약이 있는 애플리케이션을 해결하기 위해 지식 증류 기술을 사용해 생성된 이 모델들의 소형 버전. 또한, 우리는 CLIMATE-CHANGE-NER(개체 인식), NASA-QA(추출형 질의응답), NASA-IR(정보 검색)이라는 세 가지 새로운 과학 벤치마크 데이터셋을 만들어 이러한 다학제적 분야의 연구를 가속화했습니다. 마지막으로, 우리는 우리의 모델들이 새로운 과제뿐만 아니라 관심 도메인의 기존 벤치마크 과제에서도 일반 목적 인코더(RoBERTa)와 기존 도메인 특화 인코더(SciBERT)를 능가한다는 것을 보여줍니다.

대규모 언어 모델의 효율적 추론을 위한 계층별 압축 KV 캐시
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

May 17

ByHaoyi Wu, Kewei Tu

대용량 메모리 소비는 실제 애플리케이션에서 고처리량 대규모 언어 모델을 배포하는 데 있어 주요한 병목 현상으로 작용해 왔습니다. 많은 수의 파라미터 외에도, 트랜스포머 아키텍처의 어텐션 메커니즘을 위한 키-값(Key-Value, KV) 캐시는 특히 깊은 언어 모델에서 레이어 수가 많을 때 상당한 양의 메모리를 소비합니다. 본 논문에서는 소수의 레이어에 대해서만 KV를 계산하고 캐싱함으로써 메모리 소비를 크게 절약하고 추론 처리량을 향상시키는 새로운 방법을 제안합니다. 대규모 언어 모델에 대한 실험 결과, 우리의 방법은 표준 트랜스포머 대비 최대 26배 높은 처리량을 달성하며, 언어 모델링 및 다운스트림 작업에서 경쟁력 있는 성능을 보였습니다. 또한, 우리의 방법은 기존의 트랜스포머 메모리 절약 기술과 직교적(orthogonal)이므로, 이를 우리 모델과 쉽게 통합하여 추론 효율성을 더욱 개선할 수 있습니다. 우리의 코드는 https://github.com/whyNLP/LCKV에서 확인할 수 있습니다.

관측적 스케일링 법칙과 언어 모델 성능의 예측 가능성
Observational Scaling Laws and the Predictability of Language Model Performance

May 17

ByYangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

언어 모델의 성능이 규모에 따라 어떻게 변하는지 이해하는 것은 벤치마크 및 알고리즘 개발에 있어 매우 중요합니다. 스케일링 법칙(Scaling Laws)은 이러한 이해를 구축하는 한 가지 접근 방식이지만, 다양한 규모의 모델을 학습시켜야 한다는 요구 사항으로 인해 그 활용이 제한적이었습니다. 우리는 모델 학습을 우회하고 대신 공개적으로 이용 가능한 약 80개의 모델로부터 스케일링 법칙을 구축하는 관찰적 접근 방식을 제안합니다. 여러 모델 패밀리로부터 단일 스케일링 법칙을 구축하는 것은 학습 계산 효율성과 능력에서 큰 변동이 있기 때문에 어려운 과제입니다. 그러나 우리는 이러한 변동이 단순하고 일반화된 스케일링 법칙과 일관성이 있음을 보여줍니다. 이 법칙에서는 언어 모델 성능이 저차원 능력 공간의 함수이며, 모델 패밀리는 학습 계산을 능력으로 전환하는 효율성에서만 차이가 납니다. 이 접근 방식을 사용하여 우리는 복잡한 스케일링 현상의 놀라운 예측 가능성을 보여줍니다: 여러 가지 돌출 현상이 부드러운 시그모이드(Sigmoidal) 행동을 따르며 작은 모델로부터 예측 가능함을 보여주고, GPT-4와 같은 모델의 에이전트 성능이 더 단순한 비에이전트 벤치마크로부터 정확하게 예측될 수 있음을 보여주며, 언어 모델의 능력이 계속 향상됨에 따라 Chain-of-Thought 및 Self-Consistency와 같은 사후 학습 개입의 영향을 예측하는 방법을 보여줍니다.

참조 토큰이 포함된 Grounded 3D-LLM
Grounded 3D-LLM with Referent Tokens

May 16

ByYilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang

3D 장면 이해에 관한 기존 연구들은 주로 특정 작업을 위한 전용 모델을 개발하거나 작업별 미세 조정을 요구했습니다. 본 연구에서는 다양한 3D 비전 작업을 통합 생성 프레임워크 내에서 통합할 수 있는 3D 대형 멀티모달 모델(3D LMM)의 잠재력을 탐구하는 Grounded 3D-LLM을 제안합니다. 이 모델은 3D 장면을 참조하기 위한 특수 명사구로 장면 참조 토큰을 사용하여 3D와 텍스트 데이터가 교차하는 시퀀스를 처리할 수 있도록 합니다. 또한 작업별 지시 템플릿을 사용하여 3D 비전 작업을 언어 형식으로 변환하는 자연스러운 접근 방식을 제공합니다. 후속 언어 모델링에서 참조 토큰의 사용을 용이하게 하기 위해, 기존 객체 레이블을 부트스트랩하여 구문 수준에서 더 세밀한 장면-텍스트 대응을 제공하는 대규모 Grounded 언어 데이터셋을 구축했습니다. 이후, Contrastive LAnguage-Scene Pre-training (CLASP)을 도입하여 이 데이터를 효과적으로 활용함으로써 3D 비전과 언어 모델을 통합했습니다. 우리의 포괄적인 평가는 밀집 캡셔닝 및 3D 질의응답과 같은 개방형 작업과 객체 감지 및 언어 그라운딩과 같은 폐쇄형 작업을 모두 포함합니다. 여러 3D 벤치마크에서의 실험을 통해 Grounded 3D-LLM의 선도적인 성능과 광범위한 적용 가능성을 확인했습니다. 코드와 데이터셋은 프로젝트 페이지(https://groundedscenellm.github.io/grounded_3d-llm.github.io)에서 공개될 예정입니다.

대규모 언어 모델을 위한 교차 언어 전이 학습을 위한 동적 데이터 샘플러
Dynamic data sampler for cross-language transfer learning in large language models

May 17

ByYudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

대규모 언어 모델(LLM)은 다양한 응용 분야로 인해 자연어 처리(NLP) 분야에서 상당한 주목을 받고 있습니다. 그러나 영어 이외의 언어에 대한 LLM 학습은 대규모 코퍼스 확보의 어려움과 필요한 컴퓨팅 자원으로 인해 상당한 도전 과제로 여겨집니다. 본 논문에서는 이러한 문제를 해결하고 비용 효율적으로 대규모 중국어 언어 모델을 학습하기 위해 교차 언어 전이 기반의 LLM인 ChatFlow를 제안합니다. 우리는 중국어, 영어 및 병렬 코퍼스를 혼합하여 LLaMA2 모델을 지속적으로 학습시킴으로써 교차 언어 표현을 정렬하고, 특히 중국어 언어 모델로의 지식 전이를 용이하게 합니다. 또한, 동적 데이터 샘플러를 사용하여 모델이 비지도 사전 학습에서 지도 미세 조정으로 점진적으로 전환되도록 합니다. 실험 결과는 우리의 접근 방식이 모델 수렴을 가속화하고 우수한 성능을 달성함을 보여줍니다. 우리는 ChatFlow를 인기 있는 중국어 및 영어 벤치마크에서 평가하였으며, 그 결과 LLaMA-2-7B를 기반으로 사후 학습된 다른 중국어 모델들을 능가하는 성능을 보임을 확인했습니다.