번역이 포함된 일일 선별된 AI 연구 논문
예측 모델이 무손실 압축기로 변환될 수 있고 그 반대도 가능하다는 것은 오랫동안 알려진 사실입니다. 최근 몇 년 동안 머신러닝 커뮤니티는 점점 더 크고 강력한 자기 지도 학습(언어) 모델을 훈련하는 데 집중해 왔습니다. 이러한 대규모 언어 모델은 인상적인 예측 능력을 보여주기 때문에 강력한 압축기로 사용하기에 적합합니다. 본 연구에서는 예측 문제를 압축의 관점에서 바라보고 대형(파운데이션) 모델의 압축 능력을 평가합니다. 우리는 대규모 언어 모델이 강력한 범용 예측기임을 보여주며, 압축 관점이 스케일링 법칙, 토큰화, 그리고 컨텍스트 내 학습에 대한 새로운 통찰을 제공한다는 것을 입증합니다. 예를 들어, 주로 텍스트를 기반으로 훈련된 Chinchilla 70B는 ImageNet 패치를 원본 크기의 43.4%로, LibriSpeech 샘플을 16.4%로 압축하여 각각 PNG(58.5%)나 FLAC(30.3%)와 같은 도메인 특화 압축기를 능가합니다. 마지막으로, 예측-압축 동등성을 통해 gzip과 같은 임의의 압축기를 사용하여 조건부 생성 모델을 구축할 수 있음을 보여줍니다.
본 연구에서는 인간의 시연 데이터와 자율적으로 수집된 데이터를 모두 활용할 수 있는 대규모 오프라인 데이터셋으로부터 다중 작업 정책을 학습하기 위한 확장 가능한 강화 학습 방법을 제안합니다. 우리의 방법은 Transformer를 사용하여 오프라인 시간 차이 백업(temporal difference backups)을 통해 학습된 Q-함수에 대한 확장 가능한 표현을 제공합니다. 따라서 이 방법을 Q-Transformer라고 부릅니다. 각 행동 차원을 이산화하고 각 행동 차원의 Q-값을 별도의 토큰으로 표현함으로써, Q-학습에 효과적인 고용량 시퀀스 모델링 기법을 적용할 수 있습니다. 우리는 오프라인 강화 학습 훈련에서 우수한 성능을 가능하게 하는 여러 설계 결정을 제시하고, Q-Transformer가 대규모 다양한 실제 로봇 조작 작업 세트에서 기존의 오프라인 강화 학습 알고리즘과 모방 학습 기법을 능가함을 보여줍니다. 프로젝트 웹사이트와 동영상은 https://q-transformer.github.io에서 확인할 수 있습니다.
수십억 개의 파라미터를 가진 대규모 언어 모델(LLMs)은 다양한 자연어 처리 과제에서 뛰어난 성능을 보여주고 있습니다. 본 보고서는 중국어 중심의 오픈소스 모델 커뮤니티에 기여하기 위해, 오픈소스 15B 이중 언어 비대칭 seq2seq 모델인 OpenBA를 소개합니다. 우리는 OpenBA를 효과적이고 효율적인 기술로 강화하고, 모델을 처음부터 학습시키기 위해 세 단계의 학습 전략을 채택했습니다. 우리의 솔루션은 단 380B 토큰만으로도 매우 경쟁력 있는 성능을 달성할 수 있으며, 이는 BELEBELE 벤치마크에서 LLaMA-70B보다, MMLU 벤치마크에서 BLOOM-176B보다, C-Eval (hard) 벤치마크에서 GLM-130B보다 우수한 성능을 보입니다. 본 보고서는 유사 모델을 사전 학습시키기 위한 주요 세부 사항을 제공하며, 사전 학습 데이터 처리, 이중 언어 Flan 데이터 수집, 모델 아키텍처 설계에 영감을 준 경험적 관찰, 다양한 단계의 학습 목표, 그리고 기타 강화 기술을 포함합니다. 우리는 코드를 Huggingface Transformers 라이브러리의 설계 원칙에 따라 리팩토링하여 개발자들이 더 편리하게 사용할 수 있도록 했으며, 다양한 학습 단계의 체크포인트를 https://huggingface.co/openBA에서 공개했습니다. 프로젝트의 더 자세한 내용은 https://github.com/OpenNLG/openBA.git에서 확인할 수 있습니다.
본 논문은 SlimPajama를 사용하여 대규모 언어 모델 훈련에 다양한 데이터 조합(예: 웹 텍스트, 위키피디아, 깃허브, 도서)이 미치는 영향을 이해하는 것을 목표로 한다. SlimPajama는 Together가 제공한 방대한 1.2T 토큰의 RedPajama 데이터셋에서 중복을 철저히 제거하고 추가로 정제하여 627B 토큰으로 축소된 다중 소스 데이터셋이다. 우리는 이 연구를 SlimPajama-DC로 명명하였으며, SlimPajama를 대규모 언어 모델 훈련에 활용할 때의 기본 특성과 최적의 실천 방법을 밝히기 위한 실증적 분석을 수행하였다. SlimPajama를 사용한 연구 과정에서 두 가지 중요한 관찰 결과가 도출되었다: (1) 전역 중복 제거 vs. 지역 중복 제거. 우리는 전역(다양한 데이터셋 소스 간) 및 지역(단일 데이터셋 소스 내) 중복 제거가 훈련된 모델의 성능에 미치는 영향을 분석하고 논의한다. (2) 다중 소스 데이터셋 조합에서 고품질/고도로 중복 제거된 데이터의 비율. 이를 연구하기 위해 SlimPajama 데이터셋의 여섯 가지 구성을 설계하고, Alibi와 SwiGLU를 사용한 1.3B Cerebras-GPT 모델로 각각 훈련을 진행하였다. 우리의 최적 구성은 동일한 훈련 토큰 수로 RedPajama에서 훈련된 1.3B 모델을 상당한 차이로 능가하였다. 모든 1.3B 모델은 Cerebras 16x CS-2 클러스터에서 bf16 혼합 정밀도로 총 80 PFLOP/s로 훈련되었다. 우리는 이러한 발견(예: 전역 중복 제거 후 데이터 다양성 증가가 중요함)을 대규모 배치 크기 훈련을 적용한 7B 모델로 확장하였다. 우리의 모델과 별도의 SlimPajama-DC 데이터셋은 https://huggingface.co/MBZUAI-LLM 및 https://huggingface.co/datasets/cerebras/SlimPajama-627B에서 확인할 수 있다.
최근 오디오 생성 분야의 발전은 대규모 딥러닝 모델과 방대한 데이터셋의 진화에 힘입어 이루어졌습니다. 그러나 비디오-투-오디오(V2A) 생성 작업은 여전히 도전적인 과제로 남아 있는데, 이는 주로 고차원의 시각적 및 청각적 데이터 간의 복잡한 관계와 시간적 동기화와 관련된 문제 때문입니다. 본 연구에서는 언어 모델링 패러다임을 기반으로 한 오픈 도메인 V2A 생성 시스템인 FoleyGen을 소개합니다. FoleyGen은 웨이브폼과 이산 토큰 간의 양방향 변환을 위해 기성 신경 오디오 코덱을 활용합니다. 오디오 토큰의 생성은 시각적 인코더에서 추출된 시각적 특징에 조건화된 단일 Transformer 모델에 의해 이루어집니다. V2A 생성에서 흔히 발생하는 문제는 생성된 오디오가 비디오의 가시적 동작과 일치하지 않는 것입니다. 이를 해결하기 위해 우리는 세 가지 새로운 시각적 주의 메커니즘을 탐구합니다. 또한, 단일 모달리티 또는 다중 모달리티 작업에 사전 학습된 여러 시각적 인코더를 철저히 평가합니다. VGGSound 데이터셋에 대한 실험 결과는 우리가 제안한 FoleyGen이 모든 객관적 지표와 인간 평가에서 이전 시스템들을 능가함을 보여줍니다.
우리는 단일 이미지로부터 완전한 360도 뷰의 3D 모델을 생성하는 새로운 프레임워크인 POP3D를 소개합니다. POP3D는 단일 뷰 재구성을 제한하는 두 가지 주요 문제를 해결합니다. 첫째, POP3D는 임의의 카테고리에 대해 상당한 일반화 능력을 제공하며, 이는 기존 방법들이 달성하기 어려웠던 특성입니다. 둘째, POP3D는 재구성의 충실도와 자연스러움을 더욱 향상시키며, 이는 동시대 연구들이 미치지 못했던 중요한 측면입니다. 우리의 접근 방식은 네 가지 주요 구성 요소의 강점을 결합합니다: (1) 중요한 기하학적 단서를 예측하는 단안 깊이 및 법선 예측기, (2) 대상 물체의 잠재적으로 보이지 않는 부분을 구분할 수 있는 공간 조각 방법, (3) 대규모 이미지 데이터셋에서 사전 훈련된 생성 모델로 대상의 보이지 않는 영역을 완성할 수 있는 모델, (4) RGB 이미지와 단안 기하학적 단서를 사용하여 물체를 재구성하도록 맞춤화된 신경 암시적 표면 재구성 방법. 이러한 구성 요소의 조합은 POP3D가 다양한 실제 이미지에 걸쳐 쉽게 일반화하고 최첨단 재구성을 생성할 수 있게 하며, 유사한 연구들을 상당한 차이로 능가합니다. 프로젝트 페이지: http://cg.postech.ac.kr/research/POP3D