번역이 포함된 일일 선별된 AI 연구 논문
우리는 Sparse Mixture of Experts(SMoE) 언어 모델인 Mixtral 8x7B를 소개한다. Mixtral은 Mistral 7B와 동일한 아키텍처를 가지며, 각 레이어가 8개의 피드포워드 블록(즉, 전문가)으로 구성된다는 점에서 차이가 있다. 각 토큰에 대해, 각 레이어에서 라우터 네트워크는 현재 상태를 처리하고 그들의 출력을 결합할 두 명의 전문가를 선택한다. 각 토큰이 두 명의 전문가만을 보게 되더라도, 선택된 전문가는 각 시간 단계에서 달라질 수 있다. 결과적으로, 각 토큰은 47B개의 파라미터에 접근할 수 있지만, 추론 중에는 13B개의 활성 파라미터만 사용한다. Mixtral은 32k 토큰의 컨텍스트 크기로 훈련되었으며, 평가된 모든 벤치마크에서 Llama 2 70B와 GPT-3.5를 능가하거나 동등한 성능을 보인다. 특히, Mixtral은 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B를 크게 앞선다. 또한, 지시를 따르도록 미세 조정된 모델인 Mixtral 8x7B - Instruct를 제공하며, 이 모델은 인간 벤치마크에서 GPT-3.5 Turbo, Claude-2.1, Gemini Pro, 그리고 Llama 2 70B - chat 모델을 능가한다. 기본 모델과 지시 모델 모두 Apache 2.0 라이선스 하에 공개되었다.
상태 공간 모델(State Space Models, SSMs)은 순차 모델링 분야에서 트랜스포머(Transformers)의 지배적 위치에 도전하는 강력한 경쟁자로 부상하고 있다. 동시에, 전문가 혼합 모델(Mixture of Experts, MoE)은 최신 오픈소스 모델을 포함한 트랜스포머 기반 대형 언어 모델(LLMs)의 성능을 크게 향상시켰다. 본 연구에서는 SSM의 확장 잠재력을 극대화하기 위해 MoE와의 결합을 제안한다. 이를 최근 SSM 기반 모델인 Mamba에 적용하여, 트랜스포머와 유사한 뛰어난 성능을 달성하는 것을 보여준다. 우리가 제안한 MoE-Mamba 모델은 Mamba와 Transformer-MoE 모두를 능가하며, 특히 Mamba와 동일한 성능을 2.2배 더 적은 학습 단계로 달성하면서도 Mamba가 트랜스포머 대비 갖는 추론 성능 향상을 유지한다.
대화형 인공지능 연구에서는 ChatGPT와 같은 모델로 대표되는, 더 많은 매개변수를 가진 모델을 개발하려는 뚜렷한 추세가 관찰된다. 이러한 대규모 모델은 점점 더 나은 채팅 응답을 생성하는 경향이 있지만, 상당한 계산 자원과 메모리를 요구한다. 본 연구는 다음과 같은 관련 질문을 탐구한다: 더 작은 모델들의 조합이 단일 대형 모델에 비해 비슷하거나 향상된 성능을 협력적으로 달성할 수 있는가? 우리는 "블렌딩(blending)"이라는 접근법을 소개하는데, 이는 여러 채팅 AI를 통합하는 간단하면서도 효과적인 방법이다. 우리의 실증적 증거는 특정한 더 작은 모델들이 시너지 효과를 내며 블렌딩될 때, 훨씬 더 큰 모델의 능력을 능가하거나 동등한 성능을 발휘할 가능성이 있음을 시사한다. 예를 들어, 중간 크기의 세 모델(6B/13B 매개변수)을 통합하면 ChatGPT(175B+ 매개변수)와 같은 훨씬 더 큰 모델의 성능 지표에 필적하거나 이를 능가할 수 있다. 이 가설은 Chai 연구 플랫폼에서 30일 동안 대규모 사용자 기반을 대상으로 A/B 테스트 방법론을 사용하여 엄격히 검증되었다. 연구 결과는 "블렌딩" 전략이 계산 요구량의 급증 없이 채팅 AI의 효능을 향상시키는 실행 가능한 접근법으로서의 잠재력을 강조한다.
긴 문맥의 활용은 대형 언어 모델(LLM)의 제한된 문맥 창 길이로 인해 큰 도전 과제로 여겨진다. 문맥 창은 미세 조정을 통해 확장할 수 있지만, 이는 학습 및 추론 시간에 상당한 비용을 초래하며 LLM의 원래 능력에 부정적인 영향을 미칠 수 있다. 본 연구에서는 Activation Beacon을 제안한다. 이는 LLM의 원시 활성화를 더욱 간결한 형태로 압축하여 제한된 문맥 창 내에서 훨씬 더 긴 문맥을 인지할 수 있도록 한다. Activation Beacon은 LLM에 플러그 앤 플레이 모듈로 도입된다. 이는 짧은 문맥에 대한 LLM의 원래 능력을 완전히 보존하면서 더 긴 문맥을 처리하는 새로운 능력을 확장한다. 또한, 긴 문맥을 처리하기 위해 짧은 슬라이딩 창과 함께 작동하여 학습 및 추론 과정에서 경쟁력 있는 메모리 및 시간 효율성을 달성한다. Activation Beacon은 다양한 압축 비율을 가진 비콘의 혼합을 조건으로 하는 자동 회귀 작업을 통해 학습된다. 이러한 처리 덕분에 단일 8xA800 GPU 머신에서 9시간 미만의 시간을 소비하며 단 10,000 단계만으로 짧은 시퀀스 데이터로 효율적으로 학습할 수 있다. 실험 연구는 Activation Beacon이 Llama-2-7B의 문맥 길이를 100배(4K에서 400K로) 확장할 수 있음을 보여주며, 긴 문맥 생성 및 이해 작업 모두에서 우수한 결과를 달성한다. 우리의 모델과 코드는 BGE 저장소에서 이용 가능할 예정이다.
텍스트-3D 생성 방법의 최근 발전에도 불구하고, 신뢰할 수 있는 평가 지표가 현저히 부족한 상황이다. 기존 지표들은 일반적으로 입력 텍스트와 얼마나 잘 정렬되었는지와 같은 단일 기준에 초점을 맞추고 있다. 이러한 지표들은 다양한 평가 기준에 일반화할 수 있는 유연성이 부족하며, 인간의 선호도와 잘 맞지 않을 수 있다. 사용자 선호도 연구를 수행하는 것은 적응성과 인간 중심의 결과를 모두 제공하는 대안이다. 그러나 사용자 연구는 확장하기에 매우 비용이 많이 든다. 본 논문은 텍스트-3D 생성 모델을 위한 자동적이고 다목적이며 인간 중심의 평가 지표를 제시한다. 이를 위해, 먼저 GPT-4V를 사용하여 평가 프롬프트를 생성하는 프롬프트 생성기를 개발하여, 이를 텍스트-3D 모델을 비교하기 위한 입력으로 사용한다. 또한, 사용자 정의 기준에 따라 두 개의 3D 자산을 비교하도록 GPT-4V를 지시하는 방법을 설계한다. 마지막으로, 이러한 쌍별 비교 결과를 사용하여 이 모델들에 Elo 등급을 부여한다. 실험 결과는 우리의 지표가 다양한 평가 기준에서 인간의 선호도와 강력하게 일치함을 보여준다.
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 화자 분할 시스템의 출력을 후처리하는 DiarizationLM 프레임워크를 소개한다. 제안된 프레임워크를 통해 화자 분할된 텍스트의 가독성을 향상시키거나 단어 화자 분할 오류율(WDER)을 감소시키는 등 다양한 목표를 달성할 수 있다. 이 프레임워크에서는 자동 음성 인식(ASR) 시스템과 화자 분할 시스템의 출력을 간결한 텍스트 형식으로 표현하여, 선택적으로 미세 조정된 LLM의 프롬프트에 포함시킨다. LLM의 출력은 원하는 개선 사항이 반영된 정제된 화자 분할 결과로 사용될 수 있다. 후처리 단계로서, 이 프레임워크는 기존 구성 요소를 재학습할 필요 없이 모든 상용 ASR 및 화자 분할 시스템에 쉽게 적용할 수 있다. 실험 결과, 미세 조정된 PaLM 2-S 모델은 Fisher 전화 대화 데이터셋에서 WDER을 상대적으로 25.9% 감소시켰으며, Callhome 영어 데이터셋에서는 상대적으로 31% 감소시켰다.
대규모 언어 모델(LLM)은 코드 관련 작업에서 상당한 발전을 이루었지만, 많은 LLM이 코드를 단순한 시퀀스로 취급하여 그 구조적 특성을 간과하고 있습니다. 우리는 AST-T5라는 새로운 사전 학습 패러다임을 소개합니다. 이는 추상 구문 트리(AST)를 활용하여 코드 생성, 변환 및 이해를 향상시킵니다. 동적 프로그래밍을 사용한 AST-Aware Segmentation은 코드 구조를 유지하며, AST-Aware Span Corruption 목표는 모델이 다양한 코드 구조를 재구성할 수 있도록 합니다. 다른 모델과 달리, AST-T5는 복잡한 프로그램 분석이나 아키텍처 변경을 피하므로 모든 인코더-디코더 트랜스포머와 원활하게 통합됩니다. 평가 결과, AST-T5는 다양한 코드 관련 작업에서 유사한 크기의 언어 모델을 지속적으로 능가하는 것으로 나타났습니다. 구조 인식은 특히 코드 간 작업에서 AST-T5를 강력하게 만드는데, Bugs2Fix 작업에서 CodeT5보다 정확도 점수가 2점 높고, CodeXGLUE의 Java-C# 변환 작업에서 3점 높습니다. 우리의 코드와 모델은 https://github.com/gonglinyuan/ast_t5에서 공개되어 있습니다.
우리는 800개의 파이썬 함수(3-13줄)로 구성된 벤치마크인 CRUXEval(Code Reasoning, Understanding, and eXecution Evaluation)을 소개합니다. 각 함수는 입력-출력 쌍과 함께 제공되며, 이는 입력 예측과 출력 예측이라는 두 가지 자연스러운 과제로 이어집니다. 첫째, 우리는 이 실행 벤치마크를 생성하기 위한 일반적인 방법론을 제안하며, 이는 향후 벤치마크의 변형을 생성하는 데 사용될 수 있습니다. 둘째, 우리는 이 벤치마크에서 20개의 코드 모델을 평가하고, HumanEval에서 높은 점수를 기록한 최신 모델들이 우리 벤치마크에서는 동일한 개선을 보이지 않는다는 사실을 발견했습니다. 셋째, 우리는 간단한 CoT(Chain of Thought)와 미세 조정 기법이 우리 벤치마크에서 성능을 향상시킬 수 있지만, 이를 완전히 해결하기에는 여전히 멀었다는 것을 보여줍니다. 최고의 설정인 GPT-4 with CoT는 입력 예측과 출력 예측에서 각각 75%와 81%의 pass@1을 달성했습니다. 반면, Code Llama 34B는 입력 예측과 출력 예측에서 각각 50%와 46%의 pass@1을 기록하며, 오픈 소스와 클로즈드 소스 모델 간의 격차를 강조합니다. 어떤 모델도 CRUXEval을 완벽히 해결하지 못함에 따라, 우리는 간단한 프로그램에서 GPT-4의 일관된 실패 사례를 제공하여 그 코드 추론 능력과 개선이 필요한 부분을 살펴봅니다.
사전 학습된 모델의 등장은 자연어 처리(NLP)와 컴퓨터 비전부터 관계형 데이터셋에 이르기까지 다양한 분야에 큰 영향을 미쳤습니다. 전통적으로 이러한 모델들은 미세 조정된 하위 작업을 통해 평가되어 왔습니다. 그러나 이는 이러한 모델을 더 효율적이고 효과적으로 평가할 방법에 대한 질문을 제기합니다. 본 연구에서는 각 엔티티와 관련된 메타 특성을 세상 지식의 원천으로 활용하고 모델에서 얻은 엔티티 표현을 사용하는 새로운 접근 방식을 탐구합니다. 우리는 이러한 표현과 메타 특성 간의 일관성을 사전 학습된 모델을 평가하기 위한 지표로 사용할 것을 제안합니다. 우리의 방법은 관계형 데이터셋을 가진 모델, 대형 언어 모델, 이미지 모델을 포함한 다양한 도메인에서 그 효과성을 입증합니다.
자동화된 3D 콘텐츠 생성 파이프라인에 대한 필요성이 증가함에 따라, 단일 이미지로부터 3D 객체를 생성하기 위해 다양한 3D 표현 방식이 연구되어 왔습니다. 특히, 뛰어난 렌더링 효율성으로 인해 3D 가우시안 스플래팅 기반 모델이 최근 3D 재구성 및 생성 분야에서 두각을 나타내고 있습니다. 이미지에서 3D 생성을 위한 3D 가우시안 스플래팅 접근법은 주로 최적화 기반으로, 많은 계산 비용이 드는 점수 증류 단계를 필요로 합니다. 이러한 문제를 극복하기 위해, 우리는 단일 이미지에서 즉각적으로 3D 가우시안을 생성하는 Amortized Generative 3D Gaussian 프레임워크(AGG)를 제안합니다. 이 프레임워크는 인스턴스별 최적화가 필요 없도록 설계되었습니다. 중간 하이브리드 표현을 활용하여, AGG는 3D 가우시안의 위치와 다른 외형 속성의 생성을 분해하여 공동 최적화를 수행합니다. 또한, 우리는 먼저 3D 데이터의 대략적인 표현을 생성한 후, 3D 가우시안 초해상도 모듈로 업샘플링하는 캐스케이드 파이프라인을 제안합니다. 우리의 방법은 기존의 최적화 기반 3D 가우시안 프레임워크와 다른 3D 표현 방식을 사용하는 샘플링 기반 파이프라인과 비교 평가되었으며, AGG는 질적 및 양적으로 경쟁력 있는 생성 능력을 보여주면서도 수 배 더 빠른 속도를 자랑합니다. 프로젝트 페이지: https://ir1d.github.io/AGG/
본 기술 보고서에서는 30억, 70억, 120억 개의 파라미터를 가진 대규모 언어 모델(LLM) 컬렉션인 TeleChat을 소개합니다. 이 컬렉션은 사전 학습된 언어 모델과 인간의 선호도에 맞춰 미세 조정된 채팅 모델을 포함합니다. TeleChat은 영어와 중국어로 구성된 다양한 텍스트 컬렉션을 포함한 방대한 코퍼스에서 초기 사전 학습을 진행하며, 이는 수조 개의 토큰으로 이루어져 있습니다. 이후, 본문에서 상세히 설명하는 방법론에 따라 인간의 선호도에 맞춰 모델을 미세 조정합니다. TeleChat의 성능은 언어 이해, 수학, 추론, 코드 생성, 지식 기반 질문 응답 등 다양한 작업에서 평가되었습니다. 평가 결과, TeleChat은 다양한 공개 벤치마크에서 유사한 규모의 다른 오픈소스 모델과 비슷한 성능을 달성함을 확인했습니다. 대규모 언어 모델을 활용한 향후 연구와 응용을 지원하기 위해, 우리는 TeleChat의 70억 및 120억 변종의 미세 조정된 모델 체크포인트와 코드, 그리고 사전 학습 데이터의 일부를 공개 커뮤니티에 공개합니다.