번역이 포함된 일일 선별된 AI 연구 논문
우리는 TinyStories에서 시작된 더 작은 규모의 트랜스포머 기반 언어 모델의 능력에 대한 연구를 계속 이어가고 있습니다. TinyStories는 1천만 개의 파라미터를 가진 모델로, 일관된 영어 문장을 생성할 수 있습니다. 이어서 phi-1이라는 13억 개의 파라미터를 가진 모델에 대한 후속 연구가 진행되었는데, 이 모델은 파이썬 코딩 성능에서 최신 기술 수준에 근접했습니다. 후속 연구에서는 기존의 대형 언어 모델(LLM)을 활용하여 "교과서 수준"의 데이터를 생성함으로써 전통적인 웹 데이터보다 더 나은 학습 과정을 제안했습니다. 우리는 "Textbooks Are All You Need" 접근법을 따르되, 이번에는 자연어에서의 상식 추론에 초점을 맞추어 13억 개의 파라미터를 가진 새로운 모델인 phi-1.5를 개발했습니다. 이 모델은 자연어 작업에서 5배 더 큰 모델과 비슷한 성능을 보이며, 초등학교 수학 및 기본 코딩과 같은 더 복잡한 추론 작업에서는 대부분의 비최신 LLM을 능가합니다. 더 일반적으로, phi-1.5는 훨씬 더 큰 LLM의 여러 특성을 보여줍니다. 이 중에는 "단계적으로 생각하기"나 일부 기본적인 문맥 내 학습과 같은 긍정적인 특성도 있지만, 환각(hallucination) 및 유해하고 편향된 생성물의 가능성과 같은 부정적인 특성도 포함됩니다. 다행히도, 웹 데이터가 없기 때문에 이러한 문제에서 개선이 이루어지고 있습니다. 우리는 이러한 긴급한 주제에 대한 추가 연구를 촉진하기 위해 phi-1.5를 오픈소스로 공개합니다.
최근 멀티모달 대형 언어 모델(MM-LLMs)이 놀라운 발전을 이루었지만, 대부분 입력 측면의 멀티모달 이해에만 국한되어 다양한 모달리티로 콘텐츠를 생성하는 능력은 부족한 한계를 보여왔습니다. 우리 인간은 항상 다양한 모달리티를 통해 세상을 인지하고 타인과 소통하기 때문에, 어떤 모달리티든 수용하고 전달할 수 있는 any-to-any MM-LLMs를 개발하는 것은 인간 수준의 AI를 위해 필수적입니다. 이러한 격차를 메우기 위해, 우리는 end-to-end 범용 any-to-any MM-LLM 시스템인 NExT-GPT를 제안합니다. NExT-GPT는 LLM을 멀티모달 어댑터와 다양한 디퓨전 디코더와 연결하여 텍스트, 이미지, 비디오, 오디오의 임의 조합으로 입력을 인지하고 출력을 생성할 수 있도록 합니다. 기존에 잘 훈련된 고성능 인코더와 디코더를 활용함으로써, NExT-GPT는 특정 투영 계층의 매개변수 중 단 1%만으로 조정되며, 이는 저비용 훈련을 가능하게 할 뿐만 아니라 잠재적인 추가 모달리티로의 편리한 확장을 촉진합니다. 더불어, 우리는 모달리티 전환 지시 튜닝(MosIT)을 도입하고 이를 위해 고품질 데이터셋을 수작업으로 구축함으로써, NExT-GPT가 복잡한 교차 모달 의미 이해와 콘텐츠 생성 능력을 갖추도록 했습니다. 전반적으로, 본 연구는 보편적인 모달리티를 모델링할 수 있는 AI 에이전트를 구축할 가능성을 보여주며, 커뮤니티에서 더욱 인간다운 AI 연구를 위한 길을 열었습니다.
우리는 CommonCrawl을 기반으로 419개 언어를 아우르는 3T 토큰 규모의 일반 도메인 단일 언어 데이터셋인 MADLAD-400을 소개한다. 이 데이터셋은 수동으로 감사(manually audited)되었으며, 우리는 자체 감사 과정에서 드러난 MADLAD-400의 한계와 데이터 감사가 데이터셋 생성 과정에서 수행한 역할에 대해 논의한다. 이후, 공개적으로 이용 가능한 데이터를 사용하여 450개 이상의 언어를 포함하는 2500억 토큰으로 107억 파라미터 규모의 다국어 기계 번역 모델을 학습시키고 공개한다. 이 모델은 훨씬 더 큰 규모의 모델들과 경쟁력을 보이며, 다양한 도메인에서의 결과를 보고한다. 추가적으로, 80억 파라미터 규모의 언어 모델을 학습시키고, 소수 샷(few-shot) 번역에서의 결과를 평가한다. 우리는 이러한 베이스라인 모델들을 연구 커뮤니티에 공개한다.
본 연구에서는 이론 컴퓨터 과학과 수학에서 가장 중요한 미해결 문제 중 하나인 P 대 NP 문제에 대한 연구를 증강하고 가속화하기 위해 대규모 언어 모델(LLM)을 활용합니다. 구체적으로, 우리는 복잡한 문제 해결을 위해 LLM과의 심층적 사고를 촉진하는 일반적인 프레임워크인 소크라틱 추론(Socratic reasoning)을 제안합니다. 소크라틱 추론은 LLM이 문제를 재귀적으로 발견, 해결, 통합하도록 장려하며, 동시에 자기 평가와 개선을 촉진합니다. P 대 NP 문제에 대한 파일럿 연구에서 GPT-4는 97번의 대화를 통해 엄격한 추론을 수행하며 "P ≠ NP"라는 결론을 도출하는 증명 스키마를 성공적으로 생성했으며, 이는 (Xu와 Zhou, 2023)의 연구와 일치합니다. 이 연구는 LLM의 광범위한 해결 공간 내에서 새로운 통찰을 발견하며, 과학을 위한 LLM의 가능성을 조명합니다.
우리는 단일 GPU에서도 수행 가능한 경량화된 방식으로 대규모 언어 모델 패밀리를 분석합니다. 구체적으로, 125m에서 66b 파라미터에 이르는 OPT 모델 패밀리에 초점을 맞추고, FFN 뉴런이 활성화되었는지 여부에만 의존합니다. 먼저, 네트워크의 초기 부분이 희소하며 많은 이산적 특징을 나타낸다는 것을 발견했습니다. 여기서 많은 뉴런들(66b 모델의 일부 층에서는 70% 이상)이 "죽은" 상태, 즉 다양한 데이터 집합에서 절대 활성화되지 않습니다. 동시에, 활성 상태인 많은 뉴런들은 이산적 특징을 위해 예약되어 있으며 토큰 및 n-그램 탐지기 역할을 합니다. 흥미롭게도, 이들에 해당하는 FFN 업데이트는 예상대로 다음 토큰 후보를 촉진할 뿐만 아니라, 이를 트리거한 토큰(즉, 현재 입력)에 대한 정보를 명시적으로 제거하는 데 초점을 맞춥니다. 우리가 아는 한, 이는 잔차 스트림에서 정보를 추가하는 대신 제거하는 데 특화된 메커니즘의 첫 번째 사례입니다. 규모가 커질수록 모델들은 더 많은 죽은 뉴런과 토큰 탐지기를 가지는 측면에서 더 희소해집니다. 마지막으로, 일부 뉴런들은 위치에 따라 달라집니다: 이들이 활성화되는지 여부는 주로(또는 전적으로) 위치에 따라 결정되며, 텍스트 데이터에는 덜(또는 전혀) 영향을 받지 않습니다. 우리는 더 작은 모델들이 위치 범위 표시기 역할을 하는 뉴런 집합을 가지고 있는 반면, 더 큰 모델들은 덜 명시적인 방식으로 작동한다는 것을 발견했습니다.
최근 대량의 텍스트 데이터는 대형 언어 모델(LLM)의 발전에 크게 기여해 왔습니다. 이러한 데이터는 일반적으로 인터넷을 스크랩핑하여 획득되며, 이로 인해 노이즈가 많은 웹 텍스트로 구성된 사전 학습 데이터셋이 생성됩니다. 현재까지 이러한 데이터셋을 더 높은 품질의 부분집합으로 정제하기 위한 노력은 규칙 기반 필터로 인코딩된 수작업 휴리스틱에 의존해 왔습니다. 본 연구에서는 더 넓은 시각을 취하여 사전 학습 데이터의 품질을 체계적으로 측정할 수 있는 확장 가능한 데이터 품질 추정 방법을 탐구합니다. 우리는 단순한 데이터 품질 추정치인 퍼플렉서티(perplexity)와 더 정교하고 계산 집약적인 오차 L2-노름 및 기억화(memorization) 추정치를 대규모로 엄격하게 비교합니다. 이러한 메트릭을 사용하여 사전 학습 코퍼스를 순위화하고 정제한 후, 이렇게 정제된 데이터셋으로 훈련된 LLM을 비교합니다. 놀랍게도, 단순한 퍼플렉서티 기법이 더 계산 비용이 많이 드는 점수화 방법들을 능가하는 것으로 나타났습니다. 우리는 원래 훈련 데이터셋의 30%만으로 훈련하면서도 정제를 하지 않은 기준선을 개선했습니다. 본 연구는 고품질 코퍼스를 자동으로 큐레이션하는 새로운 전략의 기초를 마련하며, 성능을 유지하면서도 대부분의 사전 학습 데이터를 제거할 수 있음을 시사합니다.
트랜스포머는 딥러닝 분야에서 지배적인 모델로 자리 잡았지만, 그 뛰어난 성능의 원인은 잘 이해되지 않고 있습니다. 본 연구에서는 트랜스포머의 강력한 성능이 메사 최적화(mesa-optimization)에 대한 아키텍처적 편향에서 비롯된다는 가설을 제안합니다. 메사 최적화란 모델의 순전파 과정에서 실행되는 학습된 프로세스로, 다음 두 단계로 구성됩니다: (i) 내부 학습 목표의 구성, 그리고 (ii) 최적화를 통해 찾은 해당 목표에 대한 해결책. 이 가설을 검증하기 위해, 우리는 간단한 시퀀스 모델링 작업에 대해 학습된 일련의 자기회귀 트랜스포머를 역공학하여 예측 생성 과정을 이끄는 기저의 경사 기반 메사 최적화 알고리즘을 발견했습니다. 더 나아가, 학습된 순전파 최적화 알고리즘이 지도 학습의 소수 샷(few-shot) 작업을 해결하는 데 즉각적으로 재사용될 수 있음을 보여주며, 이는 메사 최적화가 대규모 언어 모델의 문맥 내 학습(in-context learning) 능력의 기반이 될 수 있음을 시사합니다. 마지막으로, 우리는 문맥에서 지정된 최적화 문제를 명시적이고 효율적으로 해결하는 새로운 셀프 어텐션 계층인 메사 레이어(mesa-layer)를 제안합니다. 이 계층이 합성 및 예비 언어 모델링 실험에서 성능 향상을 이끌어낼 수 있음을 발견함으로써, 메사 최적화가 학습된 트랜스포머의 가중치 내에 숨겨진 중요한 연산일 수 있다는 우리의 가설에 더욱 무게를 실어줍니다.
대규모 언어 모델(LLMs)은 언어 관련 작업 수행에서 뛰어난 능력을 입증했습니다. 그러나 이러한 모델의 배포는 상당한 메모리와 저장 공간 요구 사항으로 인해 큰 어려움을 겪고 있습니다. 이러한 문제에 대응하여, 특히 3비트 및 4비트 가중치 전용 양자화(weight-only quantization)가 가장 실현 가능한 해결책 중 하나로 부상했습니다. 비트 수가 감소함에 따라 양자화 그리드가 넓어지며, 이는 올림과 내림의 중요성을 더욱 강조합니다. 기존 연구에서는 올림과 내림을 미세 조정하고 섭동(perturbation)을 추가함으로써 일부 시나리오에서 정확도를 향상시킬 수 있음을 보여주었지만, 본 연구는 이러한 섭동의 정확하고 제한된 경계에 초점을 맞추며, 오직 반올림 값을 변경하는 임계값만이 중요하다는 점에 주목합니다. 이에 따라, 우리는 가중치 반올림 작업을 최적화하기 위한 간결하고 매우 효과적인 접근 방식을 제안합니다. 우리의 방법인 SignRound는 부호 있는 경사 하강법(signed gradient descent)을 사용한 경량 블록 단위 조정(lightweight block-wise tuning)을 통해 400단계 이내에 탁월한 결과를 달성합니다. SignRound는 기존의 반올림-가장 가까운 값(rounding-to-nearest, RTN) 기준선을 능가하며, 최근의 방법들과도 인상적으로 경쟁력을 보이면서 추가적인 추론 오버헤드를 도입하지 않습니다. 소스 코드는 곧 https://github.com/intel/neural-compressor에서 공개될 예정입니다.
오디오-언어 모델은 멀티모달 텍스트와 오디오 표현을 공동으로 학습하여 제로샷 추론을 가능하게 합니다. 이 모델들은 인코더를 통해 입력의 강력한 표현을 생성하고, 소리, 음악, 음성 등 다양한 작업에 일반화합니다. 비록 모델들이 놀라운 성능을 달성했지만, 여전히 작업별 특화 모델과의 성능 격차가 존재합니다. 본 논문에서는 460만 개의 오디오-텍스트 쌍으로 구성된 다양한 데이터셋을 사용하여 두 가지 혁신적인 인코더로 사전 학습된 대조적 언어-오디오 사전 학습 모델을 제안합니다. 오디오 표현을 학습하기 위해, 우리는 기존의 소리 이벤트 분류 학습 대신 22개의 오디오 작업에 대해 오디오 인코더를 학습했습니다. 언어 표현을 학습하기 위해, 기존의 인코더 전용 모델 대신 자기회귀 디코더 전용 모델을 학습했습니다. 그런 다음, 오디오와 언어 표현은 대조 학습을 통해 공동의 멀티모달 공간으로 통합됩니다. 우리는 이 인코더들을 사용하여 다운스트림 작업의 성능을 크게 향상시켰습니다. 우리는 문헌상 가장 큰 규모인 26개의 다운스트림 작업에서 우리의 표현의 일반화 능력을 광범위하게 평가했습니다. 우리의 모델은 여러 작업에서 최첨단 결과를 달성하며, 범용 오디오 표현을 향한 길을 열었습니다.
포토리얼리스틱 뉴럴 레이디언스 필드(NeRF) 볼륨 내에 다각형 메시 에셋을 내장하여, 이를 렌더링하고 NeRF와 물리적으로 일관된 방식으로 그 동역학을 시뮬레이션할 수 있도록 하는 것은, 전통적인 그래픽스 파이프라인에 NeRF를 통합하는 시스템 관점에서 아직 충분히 탐구되지 않았다. 본 논문은 렌더링과 시뮬레이션 과정에서 메시와 NeRF 간의 양방향 결합을 설계한다. 먼저 메시와 NeRF에 대한 광 전달 방정식을 검토한 후, 이를 임의의 수의 반사가 있는 캐스트 레이를 따라 레이디언스와 처리량을 효율적으로 업데이트하는 알고리즘으로 정제한다. 패스 트레이서가 가정하는 선형 색 공간과 표준 NeRF가 사용하는 sRGB 색 공간 간의 불일치를 해결하기 위해, 우리는 고동적범위(HDR) 이미지로 NeRF를 학습시킨다. 또한 NeRF에서 광원을 추정하고 그림자를 드리우는 전략을 제시한다. 마지막으로, 하이브리드 표면-체적 공식이 천, 강체 및 연체를 지원하는 고성능 물리 시뮬레이터와 효율적으로 통합될 수 있는 방법을 고려한다. 전체 렌더링 및 시뮬레이션 시스템은 GPU에서 인터랙티브 속도로 실행될 수 있다. 우리는 하이브리드 시스템 접근 방식이 메시 삽입에서 시각적 리얼리즘 측면에서 대안들을 능가함을 보여준다. 이는 체적 NeRF 매체에서 표면으로의 현실적인 광 전달을 가능하게 하여, 반사/굴절 표면의 외관과 동적 장면에 기반한 확산 표면의 조명에 영향을 미치기 때문이다.
대규모 언어 모델(LLM)의 학습 패러다임은 현재 컨텍스트 내 학습(In-Context Learning, ICL)과 전체 미세 조정(Full Fine-Tuning)으로 크게 나뉩니다. 각각의 접근 방식은 사용 가능한 데이터, 모델 크기, 계산 비용, 사용 편의성, 최종 품질 등에 따라 고유의 장단점을 가지며, 어느 한 방법도 모든 측면에서 우수한 성능을 보이지는 않습니다. 본 논문에서는 먼저 ICL과 미세 조정 패러다임을 설명하며 이들 간의 자연스러운 연결점을 강조합니다. 이러한 연결점을 바탕으로, 우리는 두 패러다임의 장점을 융합한 새로운 학습 패러다임인 FIAT를 제안합니다. FIAT는 가장 큰 모델에서 프롬프트 엔지니어링과 사고 연쇄(Chain-of-Thought) 추론을 가능하게 하면서도, 적당한 크기의 LLM에 대해 매개변수 효율적 조정(Parameter-Efficient Tuning)을 통해 매개변수 업데이트를 수행하는 유사한 방법을 사용합니다. 우리는 FIAT의 효과를 다양한 다국어 작업에서 평가하였으며, 100~10,000개의 훈련 예제 범위에서 FIAT가 ICL과 미세 조정 모두보다 더 나은 성능을 보임을 관찰했습니다. FIAT가 학습 패러다임 간의 어려운 선택 없이도 LLM의 전체 잠재력을 활용할 수 있는 실용적인 방법을 제공하기를 바랍니다.