번역이 포함된 일일 선별된 AI 연구 논문
우리는 단일 48GB GPU에서 65B 파라미터 모델을 미세 조정할 수 있을 만큼 메모리 사용량을 줄이면서도 16비트 미세 조정 작업 성능을 완전히 보존하는 효율적인 미세 조정 접근 방식인 QLoRA를 제안합니다. QLoRA는 고정된 4비트 양자화된 사전 학습 언어 모델을 통해 그래디언트를 역전파하여 Low Rank Adapters(LoRA)로 전달합니다. 우리가 Guanaco로 명명한 최고의 모델 패밀리는 Vicuna 벤치마크에서 이전에 공개된 모든 모델을 능가하며, 단일 GPU에서 단 24시간의 미세 조정만으로 ChatGPT 성능 수준의 99.3%에 도달합니다. QLoRA는 성능을 희생하지 않으면서 메모리를 절약하기 위해 여러 혁신을 도입했습니다: (a) 정규 분포 가중치에 대해 정보 이론적으로 최적인 새로운 데이터 타입인 4비트 NormalFloat(NF4), (b) 양자화 상수를 양자화하여 평균 메모리 사용량을 줄이는 이중 양자화, 그리고 (c) 메모리 급증을 관리하기 위한 페이징 옵티마이저. 우리는 QLoRA를 사용하여 1,000개 이상의 모델을 미세 조정했으며, 8개의 명령어 데이터셋, 다양한 모델 유형(LLaMA, T5), 그리고 일반적인 미세 조정으로는 실행이 불가능한 모델 규모(예: 33B 및 65B 파라미터 모델)에 걸친 명령어 수행 및 챗봇 성능에 대한 상세한 분석을 제공합니다. 우리의 결과는 작은 고품질 데이터셋에 대한 QLoRA 미세 조정이 이전 최첨단 기술보다 더 작은 모델을 사용하더라도 최첨단 결과를 이끌어냄을 보여줍니다. 우리는 인간 평가와 GPT-4 평가를 기반으로 한 챗봇 성능에 대한 상세한 분석을 제공하며, GPT-4 평가가 인간 평가에 대한 저렴하고 합리적인 대안임을 보여줍니다. 더 나아가, 현재의 챗봇 벤치마크가 챗봇의 성능 수준을 정확히 평가하기에는 신뢰할 수 없음을 발견했습니다. 레몬 픽킹 분석은 Guanaco가 ChatGPT에 비해 실패하는 지점을 보여줍니다. 우리는 4비트 학습을 위한 CUDA 커널을 포함한 모든 모델과 코드를 공개합니다.
지시 데이터에 대한 미세 조정은 ChatGPT와 같은 채팅 언어 모델을 구현하는 데 효과적인 방법으로 널리 검증되어 왔다. 이러한 데이터의 다양성과 품질을 확장하는 것은 비록 간단하지만 성능 향상으로 이어질 가능성이 크다. 본 논문은 오픈소스 모델의 상한을 더욱 개선하는 것을 목표로 한다. 먼저, 인간의 질문을 포함하지 않고 체계적으로 설계된 다양하고 유익한 대규모 지시 대화 데이터셋인 UltraChat을 제공한다. 우리의 목표는 인간이 AI 어시스턴트와 가질 수 있는 상호작용의 폭을 포착하고, 다중 턴 대화를 반복적으로 생성하기 위한 포괄적인 프레임워크를 사용하는 것이다. UltraChat은 150만 개의 고품질 다중 턴 대화를 포함하며 다양한 주제와 지시를 다룬다. UltraChat에 대한 통계적 분석은 규모, 평균 길이, 다양성, 일관성 등 다양한 핵심 지표에서의 우수성을 보여주며, 이를 선도적인 오픈소스 데이터셋으로 자리매김한다. UltraChat을 기반으로 LLaMA 모델을 미세 조정하여 강력한 대화 모델인 UltraLLaMA을 생성한다. 우리의 평가 결과, UltraLLaMA은 이전에 최첨단 오픈소스 모델로 인정받았던 Vicuna을 포함한 다른 오픈소스 모델들을 꾸준히 능가하는 것으로 나타났다. 데이터셋과 모델은 공개될 예정이다\url{https://github.com/thunlp/UltraChat}.
우리는 다양한 산술 작업에서 GPT-4를 크게 능가하는 미세 조정된 LLaMA 모델인 Goat를 소개합니다. 합성적으로 생성된 데이터셋으로 미세 조정된 Goat는 BIG-bench 산술 하위 작업에서 최첨단 성능을 달성합니다. 특히, 제로샷 Goat-7B는 퓨샷 PaLM-540B가 달성한 정확도를 맞추거나 심지어 능가합니다. 놀랍게도, Goat는 지도 미세 조정만을 통해 대규모 숫자의 덧셈과 뺄셈에서 거의 완벽한 정확도를 달성할 수 있으며, 이는 Bloom, OPT, GPT-NeoX 등과 같은 이전의 사전 학습된 언어 모델로는 거의 불가능한 일이었습니다. 우리는 Goat의 탁월한 성능을 LLaMA의 일관된 숫자 토큰화에 기인한다고 설명합니다. 대규모 숫자의 곱셈과 나눗셈과 같은 더 어려운 작업을 해결하기 위해, 우리는 작업을 학습 가능성에 따라 분류하고, 다자리 곱셈과 나눗셈과 같은 학습 불가능한 작업을 기본 산술 원리를 활용하여 일련의 학습 가능한 작업으로 분해하는 접근 방식을 제안합니다. 우리는 모델의 성능을 철저히 검토하며, 제안된 분해 단계의 효과에 대한 포괄적인 평가를 제공합니다. 또한, Goat-7B는 24GB VRAM GPU에서 LoRA를 사용하여 쉽게 학습할 수 있어 다른 연구자들의 재현성을 용이하게 합니다. 우리는 모델, 데이터셋, 그리고 데이터셋 생성을 위한 Python 스크립트를 공개합니다.
실제 애플리케이션에서 언어 모델을 사용할 때의 주요 위험 중 하나는 잘못된 진술을 할 가능성, 즉 '환각(hallucination)' 현상입니다. 환각은 종종 언어 모델의 지식 부족으로 인한 것으로 여겨지지만, 우리는 일부 경우에 언어 모델이 이전에 생성한 환각을 정당화하기 위해 스스로도 잘못이라고 인식할 수 있는 거짓 주장을 출력한다는 가설을 세웠습니다. 우리는 ChatGPT와 GPT-4가 종종 잘못된 답변을 제시하고, 그 설명에 하나 이상의 잘못된 주장을 포함하는 세 가지 질문-답변 데이터셋을 구성했습니다. 중요한 점은, ChatGPT와 GPT-4가 각각 자신의 실수 중 67%와 87%를 인식할 수 있다는 것을 발견했다는 것입니다. 우리는 이러한 현상을 '환각 눈덩이 효과(hallucination snowballing)'라고 부르며, 이는 언어 모델이 초기의 실수에 과도하게 집착함으로써 원래는 하지 않았을 추가적인 실수를 유발하는 현상을 의미합니다.
음성 언어 모델(SpeechLMs)은 텍스트 감독 없이 오직 음향 데이터만을 처리하고 생성합니다. 본 연구에서는 사전 학습된 텍스트 언어 모델을 활용해 SpeechLMs를 훈련시키는 방법인 TWIST를 제안합니다. 자동 평가와 인간 평가를 통해 TWIST가 초기화된 SpeechLM보다 전반적으로 우수한 성능을 보임을 입증합니다. 음성 토크나이저, 사전 학습된 텍스트 모델, 데이터셋 크기와 같은 다양한 모델 설계 선택의 영향을 실증적으로 분석합니다. 모델과 데이터셋의 규모가 모두 더 나은 성능의 SpeechLMs를 구축하는 데 중요한 역할을 한다는 사실을 발견합니다. 이러한 관찰을 바탕으로, 우리는 현재까지 알려진 가장 큰 규모의 SpeechLM을 파라미터 수와 훈련 데이터 양 측면에서 제시합니다. 또한, 모델 평가를 개선하고 해당 분야의 미래 연구를 촉진하기 위해 StoryCloze 텍스트 벤치마크의 두 가지 음성 버전을 소개합니다. 음성 샘플은 다음 웹사이트에서 확인할 수 있습니다: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .
고정된 크기의 컨텍스트를 사용하는 Transformer는 GPT 모델이 임의로 긴 텍스트를 생성하는 데 한계를 가집니다. 본 논문에서는 RNN의 순환 메커니즘을 언어 기반으로 시뮬레이션한 RecurrentGPT를 소개합니다. RecurrentGPT는 ChatGPT와 같은 대형 언어 모델(LLM)을 기반으로 구축되었으며, 자연어를 사용하여 LSTM의 장단기 메모리(Long Short-Term Memory) 메커니즘을 시뮬레이션합니다. 각 시간 단계에서 RecurrentGPT는 텍스트의 한 단락을 생성하고 하드 드라이브와 프롬프트에 저장된 언어 기반의 장단기 메모리를 각각 업데이트합니다. 이 순환 메커니즘은 RecurrentGPT가 잊지 않고 임의의 길이의 텍스트를 생성할 수 있도록 합니다. 인간 사용자가 자연어 메모리를 쉽게 관찰하고 편집할 수 있기 때문에, RecurrentGPT는 해석 가능하며 긴 텍스트의 상호작용적 생성을 가능하게 합니다. RecurrentGPT는 지역적 편집 제안을 넘어 차세대 컴퓨터 보조 작성 시스템을 향한 첫걸음입니다. AI 생성 콘텐츠(AIGC)를 생산하는 것 외에도, RecurrentGPT를 소비자와 직접 상호작용하는 인터랙티브 픽션으로 사용할 가능성도 보여줍니다. 우리는 이러한 생성 모델의 사용을 "콘텐츠로서의 AI"(AIAC)라고 부르며, 이는 기존 AIGC의 다음 형태라고 믿습니다. 또한 RecurrentGPT를 사용하여 작가가 아닌 독자와 직접 상호작용하는 개인 맞춤형 인터랙티브 픽션을 창작할 가능성도 보여줍니다. 더 넓게 보면, RecurrentGPT는 인지 과학과 딥러닝의 인기 있는 모델 설계에서 아이디어를 차용하여 LLM을 프롬프팅하는 데 유용함을 보여줍니다. 우리의 코드는 https://github.com/aiwaves-cn/RecurrentGPT에서 확인할 수 있으며, 온라인 데모는 https://www.aiwaves.org/recurrentgpt에서 이용 가능합니다.
대규모 언어 모델(LLM)의 부상은 소프트웨어 개발 분야에서 이 기술의 다양한 응용 가능성을 열어주었다. 특히, 생성형 LLM은 코드 작성 중 전체 문장 또는 코드 블록을 제안할 수 있는 AI 기반 코드 작성 도구를 효과적으로 구동하는 것으로 입증되었다. 본 논문에서는 Meta 내부에서 개발 및 배포된 AI 지원 코드 작성 도구인 CodeCompose를 소개한다. CodeCompose는 생성 능력과 양방향성을 결합한 InCoder LLM을 기반으로 한다. 우리는 CodeCompose를 확장하여 Meta 내 10개 이상의 프로그래밍 언어와 여러 코딩 환경에서 수만 명의 개발자에게 서비스를 제공하고 있다. 대규모 산업 환경에서 이러한 도구를 배포할 때 발생하는 사용자 경험 및 메트릭과 관련된 독특한 도전 과제에 대해 논의한다. 이러한 도전 과제를 해결하기 위해 CodeCompose의 모델 및 시스템 아키텍처에 대한 설계 결정을 내린 경험을 제시한다. 마지막으로, 15일 동안 CodeCompose가 Meta 내부 코드 작성 경험에 미친 영향을 보여주는 대규모 배포 메트릭을 제시한다. 이 기간 동안 CodeCompose는 450만 건의 제안을 생성했다. 정량적 메트릭은 (i) CodeCompose가 여러 언어에서 22%의 수락률을 보이며, (ii) CodeCompose 사용자가 입력한 코드의 8%가 CodeCompose의 코드 제안을 수락한 것임을 나타낸다. 정성적 피드백은 CodeCompose에 대해 압도적으로 91.5%의 긍정적인 반응을 보여준다. 코드 작성 지원 외에도 CodeCompose는 개발자가 더 많은 인라인 문서를 생성하도록 장려하고, 새로운 API를 발견하는 데 도움을 주는 등 다른 긍정적인 부수 효과를 도입하고 있다.
본 연구에서는 사전 학습된 다중모달 모델(예: Flamingo, BEiT-3, GPT-4 등)의 지각 및 추론 능력을 평가하기 위한 새로운 다중모달 비디오 벤치마크인 'Perception Test'를 제안한다. 기존의 벤치마크가 주로 분류, 탐지, 추적과 같은 계산적 과제에 초점을 맞추는 반면, Perception Test는 비디오, 오디오, 텍스트 모달리티에 걸쳐 기억, 추상화, 물리학, 의미론과 같은 능력과 기술적, 설명적, 예측적, 반사실적 추론 유형에 초점을 맞춰 포괄적이고 효율적인 평가 도구를 제공한다. 이 벤치마크는 제로샷/퓨샷 또는 제한된 파인튜닝 환경에서 사전 학습된 모델의 전이 능력을 탐구한다. 이를 위해 Perception Test는 전 세계 약 100명의 참가자가 촬영한 평균 23초 길이의 11,600개의 실제 비디오를 도입하여 지각적으로 흥미로운 상황을 보여주도록 설계되었다. 이 비디오들은 객관식 및 근거 기반 비디오 질문-답변, 객체 및 점 트랙, 시간적 행동 및 사운드 세그먼트 등 6가지 유형의 라벨로 밀도 있게 주석 처리되어 언어 및 비언어 평가를 모두 가능하게 한다. 벤치마크의 파인튜닝 및 검증 분할은 CC-BY 라이선스로 공개되어 있으며, 보유된 테스트 분할을 포함한 챌린지 서버도 제공된다. 최첨단 비디오 QA 모델과 비교한 인간 기준 결과는 성능에서 상당한 차이(91.4% 대 43.6%)를 보여주며, 다중모달 비디오 이해 분야에서 개선의 여지가 크다는 것을 시사한다. 데이터셋, 기준 코드 및 챌린지 서버는 https://github.com/deepmind/perception_test에서 이용 가능하다.
대규모 언어 모델(LLMs)을 인간의 가치에 맞추는 것은 LLMs를 정교하게 조종할 수 있게 해주며, 예를 들어 주어진 지시를 따르도록 하면서도 유해성을 줄이는 데 점점 더 중요해지고 있다. 그러나 이는 상당한 양의 인간의 시범과 피드백을 필요로 한다. 최근에는 오픈소스 모델들이 InstructGPT나 ChatGPT와 같은 이미 정렬된 LLMs로부터 데이터를 추출하여 정렬 학습 과정을 복제하려는 시도를 해왔다. 이 과정은 인간의 노력을 줄여주지만, 이러한 데이터셋을 구축하는 데는 교사 모델에 대한 높은 의존성이 있다. 본 연구에서는 거의 인간의 노력이 필요 없고, 미리 정렬된 LLMs에 의존하지 않는 새로운 정렬 학습 프레임워크를 제안한다. 먼저, 다양한 크기와 프롬프트를 가진 기본 LLMs의 응답을 대조하여 합성 피드백으로 보상 모델링(RM)을 수행한다. 그런 다음, 이 RM을 사용하여 고품질 시범 데이터를 시뮬레이션하여 지도 정책을 훈련하고, 강화 학습을 통해 모델을 더욱 최적화한다. 우리의 결과 모델인 합성 훈련 데이터셋을 사용한 정렬 언어 모델(ALMoST)은 InstructGPT의 출력물이나 인간이 주석을 단 지시를 기반으로 훈련된 Alpaca, Dolly, OpenAssistant와 같은 오픈소스 모델들을 능가한다. 우리의 7B 크기 모델은 GPT-4를 판단자로 사용한 A/B 테스트에서 12-13B 모델들을 평균 약 75%의 승률로 앞섰다.
인간은 자신만의 목표를 상상하고 연습함으로써 무한히 확장 가능한 기술 레퍼토리를 숙달하는 법을 배운다. 이러한 자기목적적(autotelic) 학습 과정, 즉 스스로 생성한(auto) 목표(telos)를 추구하는 과정은 목표가 더 다양하고 추상적이며 창의적으로 될수록 점점 더 무한히 확장 가능해진다. 이로 인해 가능한 기술 공간을 탐색하는 과정은 개인 간 탐색에 의해 뒷받침된다: 목표 표현은 문화적으로 진화하며 개인 간에 전달되는데, 특히 언어를 사용하여 전달된다. 현재의 인공 에이전트는 대부분 미리 정의된 목표 표현에 의존하며, 이러한 목표 공간은 제한적(예: 지시 목록)이거나 무제한적(예: 가능한 시각적 입력 공간)이지만, 목표 표현을 재구성하거나 새로운 추상화를 형성하거나 창의적인 목표를 상상하는 능력을 갖추는 경우는 드물다. 본 논문에서는 사전 훈련된 언어 모델(LM)을 활용하여 다양하고 추상적이며 인간과 관련된 목표의 표현, 생성 및 학습을 지원하는 언어 모델 기반 자기목적적 에이전트(LMA3)를 소개한다. 이 언어 모델은 인간의 문화적 전달을 불완전하게 모델링한 것으로, 인간의 상식, 직관적 물리학 및 전반적인 관심사를 포착하려는 시도이다. 구체적으로, 이 모델은 자기목적적 아키텍처의 세 가지 핵심 구성 요소를 지원한다: 1) 에이전트의 궤적에서 달성된 목표를 설명하는 재라벨러(relabeler), 2) 에이전트가 이미 숙달한 하위 목표로 분해될 수 있는 새로운 상위 목표를 제안하는 목표 생성기(goal generator), 그리고 3) 이러한 각 목표에 대한 보상 함수(reward function). 수작업으로 작성된 목표 표현, 보상 함수 또는 커리큘럼에 의존하지 않고, LMA3 에이전트가 작업에 구애받지 않는 텍스트 기반 환경에서 다양한 기술을 숙달하는 법을 학습함을 보여준다.
본 논문에서는 대규모 언어 모델(LLMs)의 추론 능력을 심층적으로 조사하며, 특히 이러한 모델의 대표적인 예로 Open Pretrained Transformers(OPT) 모델에 초점을 맞춥니다. 우리의 연구는 신중하게 선별된 추론 코퍼스에 대해 세 가지 크기의 OPT 모델을 미세 조정하는 것을 포함하며, 이로 인해 설명 없이 미세 조정된 OPT-R 모델과 설명과 함께 미세 조정된 OPT-RE 모델 두 세트가 생성됩니다. 그런 다음 SUPER-NATURALINSTRUCTIONS 벤치마크에서 추출된 57개의 도메인 외 작업에 대해 세 가지 프롬프트 기법을 활용하여 모든 모델을 평가하며, 이는 26개의 구별된 추론 기술을 포괄합니다. 27가지 구성과 6,156개의 테스트 평가를 통해 미세 조정, 프롬프트, 규모의 차원을 조사하여 다양한 추론 기술에서 설명의 역할을 이해합니다. 우리의 연구 결과는 모델이 미세 조정된 경우 몇 가지 예제에 설명이 포함되어도 모델의 성능에 유의미한 영향을 미치지 않는 반면, 미세 조정되지 않은 모델에서는 긍정적인 영향을 미친다는 것을 보여줍니다. 또한, 프롬프트와 미세 조정 과정에서 설명을 포함할 때 분류 정확도가 약간이지만 일관되게 증가하는 것을 관찰합니다. 마지막으로, 미세 조정과 프롬프트 과정에서 설명을 포함함으로써 가장 큰 이점을 얻는 기술(예: 수치 추론(+20.4%) 및 유추 추론(+13.9%))과 미미하거나 부정적인 영향을 보이는 기술에 대한 통찰을 제공합니다.
데이터 부족은 고도로 다국어 NLP 시스템 개발에 있어 중요한 문제입니다. 그러나 많은 저자원 언어(ULs) — 사용자 요구를 충족시키는 데 있어 NLP 연구가 특히 뒤처진 언어 — 의 경우, 소량의 데이터에 주석을 달 수 있는 가능성이 있습니다. 이를 바탕으로, 우리는 XTREME-UP이라는 벤치마크를 제안합니다. 이 벤치마크는 다음과 같은 특징으로 정의됩니다: 제로샷이 아닌 희소 데이터 시나리오에 초점을 맞춘 점; 고자원 언어 사용자들 사이에서 널리 채택된 사용자 중심 작업에 초점을 맞춘 점; 그리고 이러한 희소 데이터 시나리오가 가장 현실적인 저자원 언어에 초점을 맞춘 점. XTREME-UP은 88개의 저자원 언어에 걸쳐 ASR, OCR, MT 및 정보 접근 작업과 같은 일반적으로 유용한 9가지 주요 사용자 중심 기술에 대한 언어 모델의 능력을 평가합니다. 우리는 OCR, 자동 완성, 의미 분석 및 음역을 위한 새로운 데이터셋을 생성하고, 다른 작업을 위해 기존 데이터셋을 기반으로 개선합니다. XTREME-UP은 텍스트 전용, 다중 모달(비전, 오디오 및 텍스트), 지도 파라미터 튜닝 및 인컨텍스트 학습을 포함한 다양한 모델링 시나리오를 평가하기 위한 방법론을 제공합니다. 우리는 일반적으로 사용되는 모델을 벤치마크에서 평가합니다. 모든 코드와 모델을 학습 및 평가하기 위한 스크립트를 공개합니다.