번역이 포함된 일일 선별된 AI 연구 논문
BigCode 프로젝트는 코드용 대규모 언어 모델(Code LLM)의 책임 있는 개발에 초점을 맞춘 오픈 과학적 협력 프로젝트로, StarCoder2를 소개합니다. Software Heritage(SWH)와의 협력을 통해, 우리는 그들의 소스 코드 아카이브 디지털 커먼스 위에 The Stack v2를 구축했습니다. 619개 프로그래밍 언어를 아우르는 SWH 저장소와 함께, GitHub 풀 리퀘스트, Kaggle 노트북, 코드 문서 등 다른 고품질 데이터 소스를 신중하게 선별했습니다. 이를 통해 첫 번째 StarCoder 데이터셋보다 4배 더 큰 훈련 데이터셋을 구성했습니다. 우리는 3B, 7B, 15B 파라미터 규모의 StarCoder2 모델을 3.3조에서 4.3조 토큰으로 훈련시키고, 포괄적인 Code LLM 벤치마크 세트를 통해 철저히 평가했습니다. 그 결과, 우리의 소형 모델인 StarCoder2-3B는 대부분의 벤치마크에서 유사한 규모의 다른 Code LLM을 능가했으며, StarCoderBase-15B보다도 더 나은 성능을 보였습니다. 대형 모델인 StarCoder2-15B는 비슷한 규모의 다른 모델들을 크게 앞섰으며, 자신의 두 배 이상인 CodeLlama-34B와도 동등하거나 더 나은 성능을 보였습니다. 비록 DeepSeekCoder-33B가 고자원 언어에서의 코드 완성 작업에서 최고 성능을 보였지만, StarCoder2-15B는 수학 및 코드 추론 벤치마크와 여러 저자원 언어에서 이를 능가했습니다. 우리는 모델 가중치를 OpenRAIL 라이선스 하에 공개하고, 소스 코드 데이터의 Software Heritage 영구 식별자(SWHID)를 공개함으로써 훈련 데이터에 대한 완전한 투명성을 보장합니다.
순환 신경망(RNN)은 긴 시퀀스에서 빠른 추론과 효율적인 확장성을 보이지만, 학습이 어렵고 확장하기도 힘든 단점이 있습니다. 우리는 게이트 선형 순환을 사용한 RNN인 Hawk와, 게이트 선형 순환과 지역적 어텐션을 혼합한 하이브리드 모델인 Griffin을 제안합니다. Hawk는 다운스트림 작업에서 Mamba의 보고된 성능을 능가하며, Griffin은 Llama-2의 성능을 유지하면서도 학습 토큰 수를 6배 이상 줄였습니다. 또한 Griffin은 학습 중에 본 시퀀스보다 훨씬 더 긴 시퀀스에서도 외삽(extrapolate)할 수 있음을 보여줍니다. 우리의 모델은 학습 중 트랜스포머와 동등한 하드웨어 효율성을 유지하며, 추론 시에는 더 낮은 지연 시간과 훨씬 높은 처리량을 제공합니다. Griffin을 140억 파라미터 규모로 확장하고, 효율적인 분산 학습을 위한 모델 샤딩 방법도 설명합니다.
전통적인 딥러닝은 종종 디지털 세계의 기본 단위인 바이트를 간과하는데, 이는 모든 형태의 정보와 연산이 이진 형식으로 인코딩되고 조작되는 곳입니다. 자연어 처리에서의 다음 토큰 예측의 성공에 영감을 받아, 우리는 디지털 세계를 시뮬레이션하기 위해 다음 바이트 예측을 수행하는 bGPT 모델을 소개합니다. bGPT는 텍스트, 오디오, 이미지 등 다양한 모달리티에서 특화된 모델들과 성능을 맞추며, 알고리즘 또는 하드웨어 동작을 예측, 시뮬레이션, 진단하는 새로운 가능성을 제공합니다. bGPT는 기호 음악 데이터 변환 과정을 거의 완벽하게 복제하여 ABC 표기법을 MIDI 형식으로 변환할 때 바이트당 0.0011비트의 낮은 오류율을 달성했습니다. 또한, bGPT는 CPU 동작 시뮬레이션에서도 뛰어난 능력을 보여주며, 다양한 연산을 실행할 때 99.99%를 초과하는 정확도를 보입니다. 다음 바이트 예측을 활용함으로써, bGPT와 같은 모델은 방대한 이진 데이터로부터 직접 학습하여 디지털 세계의 복잡한 패턴을 효과적으로 시뮬레이션할 수 있습니다.
데이터와 주석의 품질은 다운스트림 모델의 품질 상한을 결정한다. 대규모 텍스트 코퍼스와 이미지-텍스트 쌍은 존재하지만, 고품질의 비디오-텍스트 데이터는 수집하기가 훨씬 더 어렵다. 우선, 수동 라벨링은 더 많은 시간이 소요되는데, 이는 주석자가 전체 비디오를 시청해야 하기 때문이다. 둘째, 비디오는 시간적 차원을 가지며, 여러 장면이 겹쳐져 있고 여러 동작을 보여준다. 따라서 고품질 캡션을 가진 비디오 데이터셋을 구축하기 위해, 우리는 텍스트 비디오 설명, 자막, 개별 비디오 프레임과 같은 다중 모달 입력을 활용한 자동화된 접근 방식을 제안한다. 구체적으로, 우리는 공개적으로 이용 가능한 HD-VILA-100M 데이터셋에서 3.8M개의 고해상도 비디오를 선별한다. 그런 다음 이를 의미론적으로 일관된 비디오 클립으로 분할하고, 각 비디오에 대한 캡션을 얻기 위해 여러 교차 모달리티 교사 모델을 적용한다. 다음으로, 각 비디오의 최적 캡션을 수동으로 선택한 소규모 하위 집합에서 검색 모델을 미세 조정한 후, 전체 데이터셋에 이 모델을 적용하여 최적의 캡션을 주석으로 선택한다. 이 방식으로 우리는 고품질 텍스트 캡션과 짝을 이루는 70M개의 비디오를 확보한다. 우리는 이 데이터셋을 Panda-70M이라고 명명한다. 우리는 제안된 데이터셋의 가치를 세 가지 다운스트림 작업(비디오 캡셔닝, 비디오 및 텍스트 검색, 텍스트 기반 비디오 생성)에서 보여준다. 제안된 데이터로 훈련된 모델은 모든 작업에서 대부분의 메트릭에서 상당히 더 높은 점수를 기록한다.
우리는 실제 세계의 휴머노이드 제어를 언어에서 다음 단어를 예측하는 것과 유사한 다음 토큰 예측 문제로 재구성합니다. 우리의 모델은 감각운동 궤적(sensorimotor trajectories)의 자기회귀적 예측을 통해 학습된 인과적 트랜스포머(causal transformer)입니다. 데이터의 다중 모달리티 특성을 고려하기 위해, 우리는 모달리티에 맞춰 예측을 수행하며, 각 입력 토큰에 대해 동일한 모달리티의 다음 토큰을 예측합니다. 이러한 일반적인 공식화를 통해, 동작이 없는 비디오 궤적과 같이 일부 모달리티가 누락된 데이터도 활용할 수 있습니다. 우리는 이전의 신경망 정책, 모델 기반 제어기, 모션 캡처 데이터, 그리고 인간의 YouTube 비디오에서 나온 시뮬레이션 궤적 모음을 사용해 모델을 학습시킵니다. 우리의 모델은 샌프란시스코에서 풀사이즈 휴머노이드가 제로샷(zero-shot)으로 걷는 것을 가능하게 합니다. 이 모델은 단 27시간의 걷기 데이터로만 학습되었음에도 실제 세계로 전이할 수 있으며, 학습 중에 보지 못한 뒤로 걷기와 같은 명령에도 일반화할 수 있습니다. 이러한 결과는 감각운동 궤적의 생성 모델링을 통해 어려운 실제 세계 제어 작업을 학습하는 유망한 경로를 제시합니다.
우리는 일상 사용자와 함께 요리하기와 같은 복잡한 협업 작업을 수행하기 위한 모듈형 홈 로봇 아키텍처인 MOSAIC을 소개한다. MOSAIC은 인간과 긴밀히 협력하며, 자연어를 사용하여 사용자와 상호작용하고, 다중 로봇을 조율하며, 일상적인 물체에 대한 개방형 어휘를 관리한다. MOSAIC의 핵심은 모듈성에 있다: 언어 및 이미지 인식과 같은 일반적인 작업을 위해 대규모 사전 훈련된 모델을 활용하는 동시에, 작업 특화 제어를 위해 설계된 간소화된 모듈을 사용한다. 우리는 두 대의 로봇이 인간 사용자와 협력하여 6가지 레시피 조합을 요리하는 60회의 종단 간 시험을 통해 MOSAIC을 광범위하게 평가했다. 또한, 180회의 시각운동적 물체 집기, 60회의 인간 동작 예측, 그리고 작업 계획기에 대한 46회의 온라인 사용자 평가를 통해 개별 모듈을 철저히 테스트했다. 우리는 MOSAIC이 실제 인간 사용자와 함께 전체 시스템을 종단 간으로 실행함으로써 효율적으로 협력할 수 있음을 보여주었으며, 6가지 다른 레시피에 대한 68.3%(41/60)의 협업 요리 시험을 완료하고, 하위 작업 완료율은 91.6%를 달성했다. 마지막으로, 현재 시스템의 한계와 이 분야에서의 흥미로운 미해결 과제에 대해 논의한다. 프로젝트 웹사이트는 https://portal-cornell.github.io/MOSAIC/에서 확인할 수 있다.
디퓨전 모델은 고품질 이미지 합성에서 큰 성공을 거두었습니다. 그러나 디퓨전 모델을 사용하여 고해상도 이미지를 생성하는 것은 여전히 막대한 계산 비용으로 인해 어려운 과제이며, 이는 인터랙티브 애플리케이션에서 사용하기에는 지연 시간이 너무 길게 만듭니다. 본 논문에서는 이 문제를 해결하기 위해 다중 GPU 간의 병렬 처리를 활용한 DistriFusion을 제안합니다. 우리의 방법은 모델 입력을 여러 패치로 분할하고 각 패치를 GPU에 할당합니다. 그러나 이러한 알고리즘을 단순히 구현하면 패치 간의 상호작용이 끊어져 충실도가 떨어지고, 이러한 상호작용을 포함시키면 엄청난 통신 오버헤드가 발생합니다. 이러한 딜레마를 극복하기 위해, 우리는 인접한 디퓨전 단계 간의 입력이 매우 유사하다는 점을 관찰하고, 이전 타임스텝에서 미리 계산된 특징 맵을 재사용하여 현재 단계에 컨텍스트를 제공하는 displaced patch parallelism을 제안합니다. 따라서 우리의 방법은 비동기 통신을 지원하며, 이를 계산과 파이프라인으로 처리할 수 있습니다. 광범위한 실험을 통해 우리의 방법이 최신 Stable Diffusion XL에 적용 가능하며 품질 저하 없이 8개의 NVIDIA A100에서 단일 GPU 대비 최대 6.1배의 속도 향상을 달성할 수 있음을 보여줍니다. 우리의 코드는 https://github.com/mit-han-lab/distrifuser에서 공개되어 있습니다.
최근 연구에 따르면, 어텐션 기반 언어 모델은 이전에 문맥에서 본 토큰을 기반으로 생성물을 만들어내는 능력인 리콜(recall)에서 뛰어난 성능을 보입니다. 그러나 어텐션 기반 모델의 효율성은 추론 과정에서 KV 캐시의 과도한 메모리 소비로 인해 병목 현상을 겪습니다. 본 연구에서는 리콜 성능을 저하시키지 않으면서 언어 모델의 효율성(예: 메모리 소비 감소)을 개선할 수 있는지 탐구합니다. 다양한 아키텍처에 대한 실험과 이론을 적용하여, 모델의 상태 크기와 리콜 능력 사이의 주요 트레이드오프를 확인했습니다. 어텐션의 효율적인 대안(예: H3, Mamba, RWKV)은 고정 크기의 순환 상태를 유지하지만 리콜에서 어려움을 겪는 것을 보여줍니다. 우리는 선형 어텐션과 슬라이딩 윈도우 어텐션을 결합한 간단한 아키텍처인 BASED를 제안합니다. BASED의 윈도우 크기와 선형 어텐션 특징 차원을 조정함으로써 상태 크기를 조절하고 리콜-메모리 트레이드오프 곡선의 파레토 프론티어를 탐색할 수 있습니다. 이를 통해 한쪽 끝에서는 어텐션의 완전한 품질을, 다른 쪽 끝에서는 어텐션 대안의 작은 상태 크기를 회복할 수 있습니다. 우리는 최대 13억 파라미터의 언어 모델을 학습시켜 BASED가 가장 강력한 서브-쿼드라틱 모델(예: Mamba)과 perplexity에서 동등한 성능을 보이며, 실제 세계의 리콜 집약적 작업에서는 6.22 정확도 포인트 더 우수한 성능을 보임을 입증했습니다. 선형 어텐션의 구현은 최적화된 표준 어텐션 구현보다 종종 덜 효율적입니다. BASED를 경쟁력 있게 만들기 위해, 우리는 IO 인식 알고리즘을 개발하여 13억 파라미터 모델을 사용해 1024 토큰을 생성할 때 FlashAttention-2보다 24배 높은 처리량을 달성했습니다. 본 연구의 코드는 https://github.com/HazyResearch/based에서 제공됩니다.
대형 언어 모델은 코드 생성 및 최적화에 있어 큰 잠재력을 보여줍니다. 널리 사용되는 샘플링 방법 중 하나인 Nucleus Sampling은 생성의 다양성을 증가시키지만, 낮은 온도에서는 반복된 샘플을, 높은 온도에서는 일관성 없는 샘플을 생성하는 경우가 많습니다. 또한, 온도 계수는 각 작업에 맞게 조정해야 하므로 사용성이 제한됩니다. 본 논문에서는 Priority Sampling이라는 간단하고 결정론적인 샘플링 기법을 제안합니다. 이 기법은 모델의 신뢰도에 따라 정렬된 고유한 샘플을 생성하며, 각 새로운 샘플은 확장된 탐색 트리에서 가장 높은 확률을 가진 미확장 토큰을 확장합니다. 또한, Priority Sampling은 정규 표현식을 기반으로 한 생성을 지원하여 제어 가능하고 구조화된 탐색 과정을 제공합니다. Priority Sampling은 샘플 수에 관계없이 Nucleus Sampling을 능가하며, 원본 모델의 성능을 -Oz 대비 2.87%에서 5%까지 향상시킵니다. 더 나아가, 단 30개의 샘플만으로도 원본 모델의 훈련을 위한 레이블 생성에 사용된 자동 튜너를 능가하는 성능을 보여줍니다.
잠재 일관성 모델(Latent Consistency Model, LCM)은 일관성 모델을 잠재 공간으로 확장하고, 지도된 일관성 증류 기술을 활용하여 텍스트-이미지 합성의 가속화에서 인상적인 성능을 달성합니다. 그러나 우리는 LCM이 선명함과 세밀한 복잡성을 동시에 갖춘 이미지를 생성하는 데 어려움을 겪는 것을 관찰했습니다. 이러한 한계를 해결하기 위해, 우리는 먼저 근본적인 원인을 탐구하고 명확히 설명합니다. 우리의 조사 결과, 주요 문제는 세 가지 영역에서 발생하는 오류에서 비롯된다는 것을 확인했습니다. 이에 따라, 우리는 궤적 일관성 함수와 전략적 확률적 샘플링을 포함하는 궤적 일관성 증류(Trajectory Consistency Distillation, TCD)를 소개합니다. 궤적 일관성 함수는 자기 일관성 경계 조건의 범위를 확장함으로써 증류 오류를 줄이고, TCD가 확률 흐름 ODE의 전체 궤적을 정확하게 추적할 수 있는 능력을 부여합니다. 또한, 전략적 확률적 샘플링은 다단계 일관성 샘플링에서 내재적으로 발생하는 누적 오류를 피하도록 특별히 설계되었으며, TCD 모델을 보완하기 위해 세심하게 맞춤화되었습니다. 실험 결과, TCD는 낮은 NFE(Number of Function Evaluations)에서 이미지 품질을 크게 향상시킬 뿐만 아니라, 높은 NFE에서도 교사 모델보다 더 세밀한 결과를 생성하는 것으로 나타났습니다.
확산 모델을 통한 새로운 시점 합성은 다양하고 고품질의 이미지를 생성하는 데 있어 놀라운 잠재력을 입증했습니다. 그러나 이러한 기존 방법들에서 이미지 생성이 독립적으로 이루어지기 때문에 다중 시점 일관성을 유지하는 데 어려움이 있습니다. 이를 해결하기 위해, 우리는 기존에 사전 학습된 확산 모델에 원활하게 통합될 수 있는 새로운 훈련 불필요 알고리즘인 ViewFusion을 소개합니다. 우리의 접근 방식은 이전에 생성된 시점들을 다음 시점 생성을 위한 맥락으로 암묵적으로 활용하는 자기회귀 방식을 채택하여, 새로운 시점 생성 과정에서 견고한 다중 시점 일관성을 보장합니다. 보간된 노이즈 제거를 통해 알려진 시점 정보를 융합하는 확산 과정을 통해, 우리의 프레임워크는 추가적인 미세 조정 없이도 단일 시점 조건 모델을 다중 시점 조건 설정에서 작동하도록 성공적으로 확장합니다. 광범위한 실험 결과는 ViewFusion이 일관적이고 세부적인 새로운 시점을 생성하는 데 있어 효과적임을 입증합니다.