번역이 포함된 일일 선별된 AI 연구 논문
본 연구는 Transformer 기반 대규모 언어 모델(LLM)을 유한한 메모리와 계산량으로 무한히 긴 입력에 확장할 수 있는 효율적인 방법을 소개합니다. 제안된 접근법의 핵심 구성 요소는 Infini-attention이라는 새로운 어텐션 기법입니다. Infini-attention은 기본 어텐션 메커니즘에 압축 메모리를 통합하고, 마스킹된 지역 어텐션과 장기 선형 어텐션 메커니즘을 단일 Transformer 블록 내에 구축합니다. 우리는 이 접근법의 효과를 장문맥 언어 모델링 벤치마크, 100만 토큰 길이의 패스키 컨텍스트 블록 검색, 그리고 50만 토큰 길이의 책 요약 작업에서 10억 및 80억 파라미터 규모의 LLM으로 입증했습니다. 우리의 접근법은 최소한의 유한 메모리 파라미터를 도입하며 LLM의 빠른 스트리밍 추론을 가능하게 합니다.
대형 언어 모델(LLMs)은 놀라운 성과를 달성했지만, 점점 증가하는 자원 요구량은 강력하고 접근 가능한 초인공지능 개발의 주요 장애물로 부상했습니다. 본 보고서는 10만 달러 미만의 비용으로 1.25조 토큰의 신중하게 혼합된 오픈소스 코퍼스와 30,000 H100 GPU 시간을 사용하여 학습된 새로운 LLM인 JetMoE-8B를 소개합니다. 낮은 비용에도 불구하고, JetMoE-8B는 인상적인 성능을 보여주며, JetMoE-8B는 Llama2-7B 모델을 능가하고, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 뛰어넘습니다. 이러한 결과는 LLM 학습이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사합니다. JetMoE-8B는 효율적인 희소 게이트 혼합 전문가(SMoE) 아키텍처를 기반으로 하며, 어텐션과 피드포워드 전문가로 구성됩니다. 두 레이어 모두 희소 활성화되어 있어, JetMoE-8B는 80억 개의 파라미터를 가지고 있으면서도 각 입력 토큰에 대해 20억 개만 활성화하여 Llama2-7B 대비 추론 계산량을 약 70% 줄입니다. 또한, JetMoE-8B는 매우 개방적이고 학계 친화적이며, 공개 데이터셋과 학습 코드만을 사용합니다. 모든 학습 파라미터와 데이터 혼합은 이 보고서에 상세히 기술되어 있어, 향후 오픈 파운데이션 모델 개발을 위한 노력을 촉진합니다. 이러한 투명성은 접근 가능하고 효율적인 LLM 분야에서의 협력과 추가 발전을 장려하기 위한 것입니다. 모델 가중치는 https://github.com/myshell-ai/JetMoE에서 공개되어 있습니다.
긴 문맥 언어 모델(LMs)의 능력을 평가하기 위해, 긴 방해 텍스트(건초더미) 속에서 특정 정보(바늘)를 검색하는 능력을 시험하는 '건초더미 속 바늘 찾기(NIAH)' 테스트가 널리 사용되어 왔습니다. 그러나 이러한 단순한 검색 기반 테스트는 긴 문맥 이해의 표면적인 형태만을 나타냅니다. 긴 문맥 LMs에 대한 보다 포괄적인 평가를 제공하기 위해, 우리는 사용자 정의 시퀀스 길이와 작업 복잡성을 위한 유연한 구성을 갖춘 새로운 합성 벤치마크 RULER를 개발했습니다. RULER는 기본 NIAH 테스트를 확장하여 다양한 유형과 수량의 바늘을 포함한 변형을 다룹니다. 더 나아가, RULER는 문맥에서의 검색을 넘어선 행동을 테스트하기 위해 다중 홉 추적 및 집계와 같은 새로운 작업 범주를 도입했습니다. 우리는 RULER의 13가지 대표적인 작업을 통해 10개의 긴 문맥 LMs를 평가했습니다. 기본 NIAH 테스트에서 거의 완벽한 정확도를 달성했음에도 불구하고, 모든 모델은 문맥 길이가 증가함에 따라 큰 성능 하락을 보였습니다. 이들 모델은 모두 32K 토큰 이상의 문맥 크기를 주장하지만, 32K 길이에서 만족스러운 성능을 유지할 수 있는 모델은 GPT-4, Command-R, Yi-34B, Mixtral 네 가지뿐이었습니다. 200K의 문맥 길이를 지원하는 Yi-34B에 대한 우리의 분석은 입력 길이와 작업 복잡성이 증가함에 따라 개선의 여지가 크다는 것을 보여줍니다. 우리는 RULER를 오픈소스로 공개하여 긴 문맥 LMs에 대한 포괄적인 평가를 촉진하고자 합니다.
우리는 텍스트 설명으로부터 일반적인 전방향 3D 장면을 생성하는 기술인 RealmDreamer를 소개합니다. 우리의 기술은 복잡한 텍스트 프롬프트와 일치하도록 3D 가우시안 스플래팅 표현을 최적화합니다. 이러한 스플랫을 초기화하기 위해 최신 텍스트-이미지 생성기를 활용하고, 그 샘플을 3D로 변환한 후 오클루전 볼륨을 계산합니다. 그런 다음, 이미지 조건부 확산 모델을 사용하여 3D 인페인팅 작업으로 이 표현을 다중 뷰에 걸쳐 최적화합니다. 올바른 기하학적 구조를 학습하기 위해, 인페인팅 모델의 샘플을 조건으로 하는 깊이 확산 모델을 통합하여 풍부한 기하학적 구조를 제공합니다. 마지막으로, 이미지 생성기의 선명한 샘플을 사용하여 모델을 미세 조정합니다. 특히, 우리의 기술은 비디오나 다중 뷰 데이터를 필요로 하지 않으며, 다양한 스타일의 고품질 3D 장면을 여러 객체로 구성하여 합성할 수 있습니다. 이 기술의 일반성은 단일 이미지로부터도 3D 합성을 가능하게 합니다.
우리는 사전 학습된 대규모 언어 모델(예: Llama2, GPT-4, Claude 3 등)이 추가적인 학습이나 그래디언트 업데이트 없이 컨텍스트 내 예제가 주어졌을 때 선형 및 비선형 회귀를 얼마나 잘 수행할 수 있는지 분석했다. 연구 결과, GPT-4, Claude 3와 같은 여러 대규모 언어 모델이 Random Forest, Bagging, Gradient Boosting과 같은 전통적인 지도 학습 방법과 견줄 만한(또는 이를 능가하는) 성능으로 회귀 작업을 수행할 수 있음이 밝혀졌다. 예를 들어, 도전적인 Friedman #2 회귀 데이터셋에서 Claude 3는 AdaBoost, SVM, Random Forest, KNN, Gradient Boosting과 같은 많은 지도 학습 방법을 능가하는 성능을 보였다. 이후 우리는 대규모 언어 모델의 성능이 컨텍스트 내 예제의 수에 따라 어떻게 확장되는지 조사했다. 온라인 학습에서의 후회(regret) 개념을 차용하여, 대규모 언어 모델이 하위 선형(sub-linear) 후회를 달성할 수 있음을 실증적으로 보였다.
비전-언어 모델(VLMs)은 일반적으로 CLIP과 같은 비전 인코더와 인코딩된 특징을 해석하여 다운스트림 작업을 해결하는 언어 모델(LM)로 구성됩니다. 비록 놀라운 발전을 이루었지만, VLMs는 비전 인코더의 제한된 능력으로 인해 특정 이미지 특징에 대한 "시각적 맹목", 시각적 환각 등 여러 단점에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 VLMs의 시각적 인코딩 능력을 확장하는 방법을 연구합니다. 먼저, 다양한 귀납적 편향을 가진 여러 비전 인코더를 VLM 작업 해결을 위해 종합적으로 벤치마킹합니다. 우리는 단일 인코딩 구성이 모든 작업에서 일관되게 최고 성능을 달성하지 못하며, 서로 다른 편향을 가진 인코더들이 놀랍도록 유사한 성능을 보인다는 것을 관찰했습니다. 이를 바탕으로, 우리는 BRAVE라는 방법을 도입하여 여러 고정된 인코더의 특징을 통합하여 더 다재다능한 표현으로 만들고, 이를 고정된 LM의 입력으로 직접 제공할 수 있게 합니다. BRAVE는 다양한 캡셔닝 및 VQA 벤치마크에서 최첨단 성능을 달성하며, VLMs의 앞서 언급된 문제를 크게 줄이고, 기존 방법보다 적은 수의 학습 가능한 매개변수를 요구하며, 더 압축된 표현을 가집니다. 우리의 결과는 다양한 시각적 편향을 통합하여 VLMs의 더 넓고 맥락화된 시각적 이해를 위한 잠재력을 강조합니다.
가상 현실 애플리케이션에 대한 수요가 증가함에 따라 몰입형 3D 자산 제작의 중요성이 부각되고 있습니다. 본 논문에서는 야외 환경을 위한 포괄적인 360도 장면을 단 몇 분 만에 생성할 수 있는 텍스트-투-3D 360도 장면 생성 파이프라인을 제안합니다. 우리의 접근 방식은 2D 확산 모델의 생성 능력과 프롬프트 자기 정제를 활용하여 고품질이면서 전역적으로 일관된 파노라마 이미지를 생성합니다. 이 이미지는 초기 "평면적" (2D) 장면 표현으로 작용합니다. 이후, 이 이미지는 스플래팅 기법을 사용하여 3D 가우시안으로 변환되어 실시간 탐색이 가능하도록 합니다. 일관된 3D 기하학을 생성하기 위해, 우리의 파이프라인은 2D 단안 깊이를 전역적으로 최적화된 포인트 클라우드에 정렬함으로써 공간적으로 일관된 구조를 구축합니다. 이 포인트 클라우드는 3D 가우시안의 중심점 초기 상태로 사용됩니다. 단일 뷰 입력에서 발생할 수 있는 보이지 않는 영역의 문제를 해결하기 위해, 우리는 합성된 뷰와 입력 카메라 뷰 모두에 의미론적 및 기하학적 제약을 정규화로 적용합니다. 이러한 제약은 가우시안의 최적화를 안내하여 보이지 않는 영역의 재구성을 돕습니다. 요약하면, 우리의 방법은 360도 관점에서 전역적으로 일관된 3D 장면을 제공함으로써 기존 기술보다 향상된 몰입형 경험을 제공합니다. 프로젝트 웹사이트: http://dreamscene360.github.io/
본 연구는 LLaMA와 같은 디코더 전용 트랜스포머(decoder-only Transformer)가 원래 대규모 언어 모델(LLM)을 위해 설계되었음에도 불구하고 컴퓨터 비전 분야에 적용될 수 있는지 여부를 탐구합니다. 먼저, 표준 ViT(Vision Transformer)를 단계적으로 "LLaMA화(LLaMAfy)"하여 LLaMA의 아키텍처와 일치시키고, 케주얼 마스크(casual mask)를 셀프 어텐션(self-attention)에 직접 적용할 경우 어텐션 붕괴(attention collapse) 문제가 발생하여 네트워크 학습이 실패함을 발견했습니다. 이를 해결하기 위해 클래스 토큰(class token)을 이미지 토큰 뒤에 배치하는 포스트 시퀀스 클래스 토큰(post-sequence class token) 기법을 제안하여, 인과적 셀프 어텐션(causal self-attention)이 전체 이미지 정보를 효과적으로 포착할 수 있도록 했습니다. 또한, 학습 초기에 케주얼 마스크를 점진적으로 도입하는 소프트 마스크 전략(soft mask strategy)을 개발하여 최적화 과정을 원활히 진행할 수 있도록 했습니다. 이러한 맞춤형 모델은 이미지 LLaMA(iLLaMA)로 명명되었으며, 아키텍처 측면에서 LLaMA와 유사하고 직접적인 지도 학습(supervised learning)이 가능합니다. 인과적 셀프 어텐션은 계산 효율성을 높이고 어텐션 맵 랭크(attention map rank)를 향상시켜 복잡한 표현을 학습합니다. iLLaMA는 인코더 전용(encoder-only) 모델들과 경쟁력 있는 성능을 보이며, 단 570만 개의 파라미터로 ImageNet top-1 정확도 75.1%를 달성했습니다. 모델을 약 3억 1천만 개의 파라미터로 확장하고 ImageNet-21K에서 사전 학습을 진행한 결과, 정확도는 86.0%로 더욱 향상되었습니다. 다양한 실험을 통해 iLLaMA의 신뢰할 만한 특성들—보정(calibration), 형태-질감 편향(shape-texture bias), 양자화 호환성(quantization compatibility), ADE20K 세그멘테이션 및 CIFAR 전이 학습(transfer learning)—을 입증했습니다. 본 연구가 LLM의 물결 속에서 시각 모델 설계에 대한 새로운 관점을 제공하기를 바랍니다. 사전 학습된 모델과 코드는 여기에서 확인할 수 있습니다.
기존의 오디오 이해를 위한 데이터셋은 주로 단일 턴 상호작용(예: 오디오 캡셔닝, 오디오 질의응답)에 초점을 맞춰 자연어로 오디오를 설명하는 데 그치며, 이로 인해 대화형 방식으로 오디오를 이해하는 데 한계가 있었습니다. 이러한 격차를 해결하기 위해, 우리는 일반적인 소리와 음악을 포함한 163.8k개의 샘플로 구성된 다중 턴 대화 데이터셋인 '오디오 대화(Audio Dialogues)'를 소개합니다. 오디오 대화는 대화뿐만 아니라 여러 입력 오디오를 함께 이해하고 비교하기 위한 질문-답변 쌍도 포함하고 있습니다. 오디오 대화는 프롬프트 기반 접근 방식을 활용하고 기존 데이터셋의 캡션 주석을 사용하여 대형 언어 모델(LLM)을 통해 다중 턴 대화를 생성합니다. 우리는 제안된 데이터셋을 기반으로 기존의 오디오 증강 대형 언어 모델을 평가하여 오디오 대화의 복잡성과 적용 가능성을 입증합니다. 데이터셋 생성 코드는 공개될 예정이며, 상세한 프롬프트와 생성된 대화는 데모 웹사이트 https://audiodialogues.github.io/에서 확인할 수 있습니다.
사전 학습된 기반 시각-언어 모델들의 최근 성공으로 인해 개방형 어휘 분할(Open-Vocabulary Segmentation, OVS)이 가능해졌습니다. 이 접근법은 유망한 성능을 보이지만, 두 가지 주요 과제로 인해 상당한 계산 부담을 초래합니다: 1) 백본 모델의 큰 크기; 2) 미세 조정(fine-tuning) 과정에서의 높은 비용. 이러한 과제들은 이 OVS 전략이 실제 시나리오에서 널리 적용되고 경제적으로 실현 가능한 것을 방해합니다. 전통적인 방법들, 예를 들어 모델 압축과 효율적인 미세 조정은 이러한 과제를 해결할 수 있지만, 이들은 종종 경험적 방법에 의존합니다. 이는 그들의 해결책이 쉽게 전이될 수 없고, 다른 모델들에 대해 재학습이 필요하며, 이는 비용을 수반한다는 것을 의미합니다. 효율적인 OVS의 맥락에서, 우리는 더 작은 모델을 활용하여 더 낮은 학습 비용을 발생시키면서도, 대형 시각-언어 기반 모델을 기반으로 한 기존 OVS 연구들과 비교할 만하거나 더 나은 성능을 달성하는 것을 목표로 합니다. 핵심 전략은 우리의 효율성을 원칙적으로 만들어, 추가적인 사용자 정의 없이도 하나의 OVS 프레임워크에서 다른 프레임워크로 원활하게 전이 가능하도록 하는 것입니다. 다양한 OVS 벤치마크에 대한 포괄적인 실험을 통해, 우리는 이전 연구들에 비해 분할 정확도와 계산 비용 간의 우수한 균형을 입증했습니다. 우리의 코드는 https://github.com/Xujxyang/OpenTrans에서 확인할 수 있습니다.