번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 사전 학습된 대규모 언어 모델(LLM)의 컨텍스트 크기를 제한된 계산 비용으로 확장하는 효율적인 미세 조정 접근법인 LongLoRA를 제안한다. 일반적으로 긴 컨텍스트 크기로 LLM을 학습시키는 것은 계산 비용이 많이 들며, 많은 학습 시간과 GPU 자원을 필요로 한다. 예를 들어, 컨텍스트 길이 8192로 학습하는 경우, 셀프 어텐션 레이어에서 2048에 비해 16배의 계산 비용이 소요된다. 본 논문에서는 두 가지 측면에서 LLM의 컨텍스트 확장 속도를 높인다. 한편으로, 추론 시에는 밀집된 전역 어텐션이 필요하지만, 모델의 미세 조정은 희소한 지역 어텐션을 통해 효과적이고 효율적으로 수행될 수 있다. 제안된 시프트 짧은 어텐션은 컨텍스트 확장을 효과적으로 가능하게 하며, 기존의 밀집 어텐션을 사용한 미세 조정과 유사한 성능을 유지하면서도 상당한 계산 비용 절감을 이끌어낸다. 특히, 이는 학습 시 단 두 줄의 코드로 구현할 수 있으며, 추론 시에는 선택적으로 사용할 수 있다. 다른 한편으로, 컨텍스트 확장을 위한 파라미터 효율적 미세 조정 체계를 재검토한다. 특히, 학습 가능한 임베딩과 정규화를 전제로 할 때, 컨텍스트 확장을 위한 LoRA가 잘 작동함을 발견했다. LongLoRA는 7B/13B에서 70B에 이르는 LLaMA2 모델에서 다양한 작업에서 강력한 실험 결과를 보여준다. LongLoRA는 LLaMA2 7B를 4k 컨텍스트에서 100k로, 또는 LLaMA2 70B를 32k로 단일 8x A100 머신에서 확장한다. LongLoRA는 모델의 원래 아키텍처를 유지하면서 컨텍스트를 확장하며, FlashAttention-2와 같은 대부분의 기존 기술과 호환된다. 또한, LongLoRA를 실용적으로 만들기 위해, 지도 미세 조정을 위한 데이터셋인 LongQA를 수집했다. 이 데이터셋은 3천 개 이상의 긴 컨텍스트 질문-답변 쌍을 포함한다.
Transformer는 처음에 자연어 처리 분야에서 등장한 후 컴퓨터 비전 영역으로 확장되었으며, 비전 작업에서 뛰어난 성능을 입증했습니다. 그러나 최근 Retentive Network(RetNet)가 Transformer를 대체할 가능성이 있는 아키텍처로 부상하며 NLP 커뮤니티에서 광범위한 관심을 끌고 있습니다. 따라서 우리는 RetNet의 아이디어를 비전 영역으로 전이시키는 것이 비전 작업에서도 탁월한 성능을 가져올 수 있는지에 대한 질문을 제기합니다. 이를 해결하기 위해 우리는 RetNet과 Transformer를 결합하여 RMT를 제안합니다. RetNet에서 영감을 받은 RMT는 비전 백본에 명시적인 감쇠를 도입하여 공간 거리와 관련된 사전 지식을 비전 모델에 제공합니다. 이 거리 관련 공간 사전 지식은 각 토큰이 주의를 기울일 수 있는 토큰의 범위를 명시적으로 제어할 수 있게 합니다. 또한 전역 모델링의 계산 비용을 줄이기 위해, 우리는 이 모델링 과정을 이미지의 두 좌표축을 따라 분해합니다. 다양한 실험을 통해 우리의 RMT가 여러 컴퓨터 비전 작업에서 탁월한 성능을 보인다는 것을 입증했습니다. 예를 들어, RMT는 단 4.5G FLOPs를 사용하여 ImageNet-1k에서 84.1%의 Top1 정확도를 달성합니다. 우리가 아는 한, 모든 모델 중에서 RMT는 유사한 크기의 모델이 동일한 전략으로 훈련되었을 때 가장 높은 Top1 정확도를 달성합니다. 또한 RMT는 객체 탐지, 인스턴스 분할, 의미론적 분할과 같은 다운스트림 작업에서 기존의 비전 백본을 크게 능가합니다. 우리의 작업은 아직 진행 중입니다.
생성형 대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 놀라운 발전을 이루어냈습니다. 그러나 이러한 발전은 번역 작업, 특히 중간 규모의 모델(예: 7B 또는 13B 파라미터)에서는 반영되지 않았으며, 이들은 여전히 기존의 지도 학습 기반 인코더-디코더 번역 모델에 뒤처져 있습니다. 이전 연구들은 이러한 중간 규모 LLM의 번역 능력을 향상시키려는 시도를 해왔지만, 그 성과는 제한적이었습니다. 본 연구에서는 번역 작업에 특화된 새로운 미세 조정(fine-tuning) 접근법을 제안하며, 이는 기존 번역 모델이 일반적으로 의존하는 대량의 병렬 데이터가 필요하지 않습니다. 우리의 접근법은 단일 언어 데이터에 대한 초기 미세 조정과 소량의 고품질 병렬 데이터에 대한 후속 미세 조정이라는 두 단계로 구성됩니다. 이 전략을 통해 개발된 LLM을 Advanced Language Model-based trAnslator(ALMA)로 명명합니다. LLaMA-2를 기본 모델로 사용한 결과, 이 모델은 WMT'21(2개 방향) 및 WMT'22(8개 방향) 테스트 데이터셋에서 10개 번역 방향에 걸쳐 제로샷(zero-shot) 성능 대비 평균 12 BLEU 및 12 COMET 이상의 향상을 달성할 수 있음을 보여줍니다. 이 성능은 모든 기존 연구를 크게 능가하며, 7B 또는 13B 파라미터만으로도 NLLB-54B 모델과 GPT-3.5-text-davinci-003보다 우수합니다. 이 방법은 기계 번역에서 새로운 훈련 패러다임의 기반을 마련합니다.
실제 환경에서 사람들이 대규모 언어 모델(LLM)과 어떻게 상호작용하는지 연구하는 것은 다양한 애플리케이션에서의 광범위한 사용으로 인해 점점 더 중요해지고 있습니다. 본 논문에서는 25개의 최신 LLM과의 100만 건의 실제 대화를 포함한 대규모 데이터셋인 LMSYS-Chat-1M을 소개합니다. 이 데이터셋은 Vicuna 데모 및 Chatbot Arena 웹사이트에서 21만 개의 고유 IP 주소로부터 수집되었습니다. 우리는 데이터셋의 내용을 개괄적으로 설명하며, 데이터 선별 과정, 기본 통계, 주제 분포를 포함하여 데이터셋의 다양성, 독창성 및 규모를 강조합니다. 또한, GPT-4와 유사한 성능을 보이는 콘텐츠 조정 모델 개발, 안전성 벤치마크 구축, Vicuna와 유사한 성능을 보이는 명령 수행 모델 훈련, 도전적인 벤치마크 질문 생성 등 네 가지 사용 사례를 통해 데이터셋의 다용도성을 입증합니다. 우리는 이 데이터셋이 LLM의 능력을 이해하고 발전시키는 데 유용한 자원으로 활용될 것이라고 믿습니다. 이 데이터셋은 https://huggingface.co/datasets/lmsys/lmsys-chat-1m에서 공개적으로 이용 가능합니다.
대규모 언어 모델(LLM)은 자연어 이해의 한계를 넓히고 뛰어난 문제 해결 능력을 보여주었습니다. 그러나 이러한 큰 성공에도 불구하고, 대부분의 기존 오픈소스 LLM(예: LLaMA-2)은 복잡한 추론 과정으로 인해 수학 문제 해결에 있어 만족스러운 수준에 이르지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 수학적 추론에 특화된 미세 조정(fine-tuned) 언어 모델인 MetaMath를 제안합니다. 구체적으로, 우리는 추가 지식 없이 질문을 다양한 관점에서 재구성하여 수학적 질문을 부트스트래핑(bootstrapping)하는 방식으로 시작하며, 이를 통해 MetaMathQA라는 새로운 데이터셋을 생성합니다. 이후 LLaMA-2 모델을 MetaMathQA 데이터셋으로 미세 조정합니다. 수학적 추론을 위한 두 가지 인기 벤치마크(GSM8K 및 MATH)에서의 실험 결과는 MetaMath가 다양한 오픈소스 LLM을 상당한 차이로 능가함을 보여줍니다. 우리의 MetaMath-7B 모델은 GSM8K에서 66.4%, MATH에서 19.4%의 정확도를 달성하며, 동일한 크기의 최신 모델을 각각 11.5%와 8.7% 앞섭니다. 특히, MetaMath-70B는 GSM8K에서 82.3%의 정확도를 달성하여 GPT-3.5-Turbo를 약간 상회합니다. 우리는 MetaMathQA 데이터셋, 다양한 크기의 MetaMath 모델, 그리고 훈련 코드를 공개하여 누구나 사용할 수 있도록 합니다.
3D 시각적 그라운딩은 가정용 로봇이 주변 환경을 기반으로 이동, 물체 조작, 질문에 답변하는 데 필수적인 기술입니다. 기존 접근 방식은 대량의 레이블 데이터에 의존하거나 복잡한 언어 질의를 처리하는 데 한계를 보이는 반면, 우리는 LLM-Grounder라는 새로운 제로샷, 오픈 어휘, 대형 언어 모델(LLM) 기반 3D 시각적 그라운딩 파이프라인을 제안합니다. LLM-Grounder는 LLM을 사용하여 복잡한 자연어 질의를 의미 구성 요소로 분해하고, OpenScene이나 LERF와 같은 시각적 그라운딩 도구를 활용하여 3D 장면 내의 객체를 식별합니다. 이후 LLM은 제안된 객체들 간의 공간적 및 상식적 관계를 평가하여 최종 그라운딩 결정을 내립니다. 우리의 방법은 레이블된 학습 데이터가 필요하지 않으며, 새로운 3D 장면과 임의의 텍스트 질의로 일반화할 수 있습니다. 우리는 LLM-Grounder를 ScanRefer 벤치마크에서 평가하고, 최신의 제로샷 그라운딩 정확도를 입증했습니다. 연구 결과에 따르면, LLM은 특히 복잡한 언어 질의에서 그라운딩 능력을 크게 향상시켜, LLM-Grounder가 로보틱스의 3D 시각-언어 작업에 효과적인 접근 방식임을 보여줍니다. 비디오 및 인터랙티브 데모는 프로젝트 웹사이트 https://chat-with-nerf.github.io/에서 확인할 수 있습니다.
본 연구에서는 부울 함수의 종단 간 기호 회귀(symbolic regression)를 수행하도록 학습된 최초의 트랜스포머(Transformer) 아키텍처인 Boolformer를 소개한다. 먼저, Boolformer가 학습 과정에서 보지 못한 복잡한 함수에 대해 깔끔한 진리표(truth table)가 제공될 때 간결한 공식을 예측할 수 있음을 보여준다. 다음으로, 불완전하고 노이즈가 있는 관측 데이터가 제공될 때 근사적인 표현식을 찾는 능력을 입증한다. 우리는 Boolformer를 다양한 실제 이진 분류 데이터셋에 대해 평가하며, 이를 통해 기존의 기계 학습 방법에 대한 해석 가능한 대안으로서의 잠재력을 확인한다. 마지막으로, Boolformer를 유전자 조절 네트워크의 동역학 모델링이라는 광범위한 과제에 적용한다. 최근 벤치마크를 사용하여 Boolformer가 최첨단 유전 알고리즘과 경쟁력을 가지면서도 수 배 빠른 속도를 보임을 입증한다. 우리의 코드와 모델은 공개적으로 이용 가능하다.
우리는 새로운 최첨단 30억 파라미터 오픈소스 언어 모델인 "BTLM-3B-8K"를 소개합니다. BTLM-3B-8K는 SlimPajama 데이터셋의 6270억 토큰을 사용하여 2,048과 8,192의 컨텍스트 길이를 혼합하여 학습되었습니다. BTLM-3B-8K는 기존의 모든 30억 파라미터 모델을 다운스트림 작업에서 2-5.5% 앞섭니다. 또한, BTLM-3B-8K는 일부 70억 파라미터 모델과도 경쟁력을 갖추고 있습니다. 더불어, BTLM-3B-8K는 긴 컨텍스트 성능에서도 우수하여, MPT-7B-8K와 XGen-7B-8K를 8,192 컨텍스트 길이 작업에서 능가합니다. 우리는 모델을 정제되고 중복이 제거된 SlimPajama 데이터셋으로 학습시켰으며, \textmu P 하이퍼파라미터와 스케줄을 적극적으로 튜닝하고, ALiBi 위치 임베딩을 사용했으며, SwiGLU 비선형성을 채택했습니다. Hugging Face에서 가장 인기 있는 모델들은 70억 파라미터를 가지고 있으며, 이는 사용자들이 70억 파라미터 모델의 품질-크기 비율을 선호한다는 것을 나타냅니다. 70억 파라미터 모델을 성능에 거의 영향을 미치지 않으면서 30억 파라미터로 압축하는 것은 중요한 이정표입니다. BTLM-3B-8K는 4비트 정밀도에서 단 3GB의 메모리만 필요하며, 70억 파라미터 모델보다 2.5배 적은 추론 계산을 요구하여, 모바일 및 엣지 디바이스에서 강력한 언어 모델에 대한 접근성을 높이는 데 기여합니다. BTLM-3B-8K는 Hugging Face에서 Apache 2.0 라이선스로 제공됩니다: https://huggingface.co/cerebras/btlm-3b-8k-base.