번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 및 시각 모델(LLVM)의 급속한 발전은 시각적 명령 튜닝의 진보에 의해 주도되어 왔습니다. 최근 오픈소스 LLVM은 고품질의 시각적 명령 튜닝 데이터셋을 구축하고, 추가적인 시각 인코더나 다중 컴퓨터 비전 모델을 활용하여 강력한 클로즈드소스 LLVM과의 성능 격차를 좁히고자 했습니다. 이러한 발전은 기본적인 이미지 이해, 상식 및 비물체 개념(예: 차트, 다이어그램, 기호, 표지판, 수학 문제)에 대한 실세계 지식, 복잡한 질문을 해결하기 위한 단계별 절차 등 다양한 역량을 위해 필요한 다면적 정보에 기인합니다. 이러한 다면적 정보를 바탕으로, 우리는 새로운 효율적인 LLVM인 Mamba 기반의 근거 탐색(Meteor)을 제안합니다. 이 모델은 다면적 근거를 활용하여 이해 및 답변 능력을 향상시킵니다. 풍부한 정보를 포함하는 긴 근거를 임베딩하기 위해, 우리는 선형 시간 복잡도로 순차 데이터를 처리할 수 있는 Mamba 아키텍처를 사용합니다. 우리는 근거의 효율적인 임베딩을 용이하게 하는 새로운 개념인 근거 탐색을 소개합니다. 이후, 백본 다중모달 언어 모델(MLM)은 근거의 도움을 받아 답변을 생성하도록 훈련됩니다. 이러한 단계를 통해, Meteor는 모델 크기를 확장하거나 추가적인 시각 인코더와 컴퓨터 비전 모델을 사용하지 않고도 다양한 역량을 요구하는 여러 평가 벤치마크에서 시각 언어 성능을 크게 개선합니다.
고해상도 대형 멀티모달 모델(LMMs)은 과도한 시각 토큰과 이차원적 시각 복잡성이라는 도전에 직면하고 있습니다. 현재의 고해상도 LMMs는 이차원적 복잡성을 해결하면서도 여전히 과도한 시각 토큰을 생성합니다. 그러나 시각 토큰의 중복성이 주요 문제로, 이는 더 많은 계산을 필요로 합니다. 이 문제를 완화하기 위해, 우리는 ConvNeXt라는 계층적 백본을 LMM의 시각 인코더로 사용하여 Vision Transformer(ViT)를 대체하는 ConvLLaVA를 제안합니다. ConvLLaVA는 고해상도 이미지를 정보가 풍부한 시각 특징으로 압축하여 과도한 시각 토큰의 생성을 효과적으로 방지합니다. ConvLLaVA의 능력을 향상시키기 위해, 우리는 두 가지 중요한 최적화를 제안합니다. 저해상도로 사전 학습된 ConvNeXt는 고해상도에서 직접 적용할 때 성능이 떨어지므로, 이를 업데이트하여 격차를 줄입니다. 또한, ConvNeXt의 원래 압축 비율은 훨씬 더 높은 해상도 입력에 대해 부적합하므로, 연속적인 단계를 학습하여 시각 토큰을 더 압축함으로써 중복성을 줄입니다. 이러한 최적화를 통해 ConvLLaVA는 1536x1536 해상도의 입력을 지원하며 단 576개의 시각 토큰만 생성하며, 임의의 종횡비를 가진 이미지를 처리할 수 있습니다. 실험 결과는 우리의 방법이 주류 벤치마크에서 최신 모델과 경쟁력 있는 성능을 달성함을 보여줍니다. ConvLLaVA 모델 시리즈는 https://github.com/alibaba/conv-llava에서 공개적으로 이용 가능합니다.
우리는 트랜스포머가 파라미터적 지식에 대해 암묵적으로 추론하는 능력을 학습할 수 있는지 연구합니다. 이는 가장 강력한 언어 모델들도 어려워하는 기술입니다. 대표적인 두 가지 추론 유형인 조합(composition)과 비교(comparison)에 초점을 맞추어, 트랜스포머가 암묵적 추론을 학습할 수 있지만 그럭(grokking), 즉 과적합을 훨씬 넘어선 장기간의 훈련을 통해서만 가능하다는 것을 일관되게 발견했습니다. 일반화 수준도 추론 유형에 따라 다르게 나타났습니다: 분포 외(out-of-distribution) 예제에 직면했을 때, 트랜스포머는 조합에 대해 체계적으로 일반화하는 데 실패했지만 비교에서는 성공했습니다. 우리는 훈련 과정 전반에 걸쳐 모델의 내부를 깊이 분석하며, 다음을 밝히는 실험을 수행했습니다: 1) 그럭의 메커니즘, 예를 들어 일반화 회로의 형성과 이를 일반화 회로와 기억 회로의 상대적 효율성과의 관계, 그리고 2) 체계성(systematicity)과 일반화 회로의 구성 간의 연결. 우리의 연구 결과는 암묵적 추론을 더 잘 유도하기 위한 데이터 및 훈련 설정에 대한 가이드를 제공하며, 크로스 레이어 지식 공유를 촉진하는 등 트랜스포머 아키텍처의 잠재적 개선 방안을 제안합니다. 또한, 우리는 큰 탐색 공간을 가진 도전적인 추론 과제에서, 비파라미터적 메모리에 기반한 GPT-4-Turbo와 Gemini-1.5-Pro가 프롬프트 스타일이나 검색 증강(retrieval augmentation)에 관계없이 심각하게 실패하는 반면, 완전히 그럭된 트랜스포머는 거의 완벽한 정확도를 달성할 수 있음을 보여주며, 복잡한 추론을 위한 파라미터적 메모리의 힘을 입증했습니다.
이 기술 보고서는 다국어 언어 모델 패밀리인 Aya 23을 소개합니다. Aya 23은 최근 출시된 Aya 모델(Ust"un et al., 2024)을 기반으로, 고성능 사전 학습 모델과 최근 공개된 Aya 컬렉션(Singh et al., 2024)을 결합하는 데 초점을 맞추고 있습니다. 그 결과, 23개 언어를 지원하는 강력한 다국어 대형 언어 모델이 탄생했으며, 이는 세계 인구의 약 절반에 해당하는 언어 모델링 기술의 최첨단을 확장합니다. Aya 모델은 101개 언어를 커버했던 반면, Aya 23은 깊이 대 폭의 실험으로, 사전 학습 중 포함된 적은 수의 언어에 더 많은 용량을 할당하는 것이 미치는 영향을 탐구합니다. Aya 23은 커버하는 언어에 대해 이전의 대규모 다국어 모델인 Aya 101뿐만 아니라 Gemma, Mistral, Mixtral과 같은 널리 사용되는 모델들도 다양한 판별 및 생성 작업에서 능가합니다. 우리는 다국어 발전에 대한 접근성을 확대하기 위한 지속적인 노력의 일환으로 8B 및 35B 모델의 오픈 가중치를 공개합니다.
LLM(Large Language Model)은 그 규모가 크기 때문에 사전 학습에 많은 계산 비용이 듭니다. 모델 성장(Model Growth)은 더 작은 모델을 활용하여 더 큰 모델의 학습을 가속화하는 유망한 접근 방식으로 부상하고 있습니다. 그러나 이러한 모델 성장 방법이 LLM의 효율적인 사전 학습에 얼마나 적합한지는 아직 충분히 탐구되지 않았습니다. 본 연구는 세 가지 주요 장애물을 식별합니다: (O1) 포괄적인 평가의 부재, (O2) 확장 가능성에 대한 검증 부족, (O3) 경험적 지침의 부족. O1을 해결하기 위해, 우리는 기존 접근 방식을 네 가지 기본 성장 연산자로 요약하고 이를 표준화된 LLM 사전 학습 환경에서 체계적으로 평가합니다. 우리의 연구 결과, G_{stack}이라는 깊이별 스태킹 연산자가 학습 가속화에서 뛰어난 성과를 보이며, 강력한 베이스라인 대비 손실 감소와 8개의 표준 NLP 벤치마크에서 전반적인 성능 향상을 이끌어냄을 확인했습니다. 이러한 유망한 결과에 고무되어, 우리는 O2와 O3를 더 깊이 탐구하기 위해 G_{stack}에 대한 광범위한 실험을 수행합니다. O2(검증되지 않은 확장성)에 대해, 우리의 연구는 G_{stack}이 확장 가능하며 일관되게 우수한 성능을 보임을 입증합니다. 이는 성장 후 7B 규모의 LLM과 750B 토큰으로 사전 학습된 LLM까지의 실험을 통해 확인되었습니다. 예를 들어, 300B 토큰을 사용하여 전통적으로 학습된 7B 모델과 비교했을 때, 우리의 G_{stack} 모델은 194B 토큰으로 동일한 손실에 도달하여 54.6%의 속도 향상을 달성했습니다. 또한, O3(경험적 지침의 부족)를 해결하기 위해 G_{stack}의 성장 시기와 성장 요소를 결정하는 지침을 공식화하여 일반적인 LLM 사전 학습에서 실용적으로 사용할 수 있도록 했습니다. 우리는 또한 G_{stack}에 대한 심층 논의와 포괄적인 절제 연구를 제공합니다. 우리의 코드와 사전 학습된 모델은 https://llm-stacking.github.io/에서 확인할 수 있습니다.
최적화 중단 단계 T를 명시할 필요가 없는 기존의 학습률 스케줄링 방법들은 T에 의존하는 학습률 스케줄링 방법에 비해 크게 뒤떨어지는 성능을 보입니다. 우리는 스케줄링을 전혀 사용하지 않으면서도 중단 시간을 지정할 필요를 없애는 접근 방식을 제안하며, 이 방법은 볼록 문제에서 대규모 딥러닝 문제에 이르기까지 다양한 문제군에서 최신 스케줄링 기법들과 비교해 최첨단 성능을 보여줍니다. 우리의 Schedule-Free 접근법은 모멘텀을 사용하는 표준 최적화 기법에 비해 추가적인 하이퍼파라미터를 도입하지 않습니다. 이 방법은 스케줄링과 반복 평균화를 통합하는 새로운 이론에서 직접 도출된 결과입니다. 우리의 방법에 대한 오픈소스 구현체는 (https://github.com/facebookresearch/schedule_free)에서 확인할 수 있습니다.
우리는 GPT-4 Turbo(2024년 4월)와 GPT-4o를 Human Eval 벤치마크 테스트의 pass@1에서 능가하는 최초의 대형 언어 모델인 AutoCoder를 소개합니다(90.9% 대 90.2%). 또한, AutoCoder는 GPT-4 Turbo와 GPT-4o에 비해 더 다재다능한 코드 인터프리터를 제공합니다. AutoCoder의 코드 인터프리터는 내장 패키지로 제한되지 않고 외부 패키지를 설치할 수 있습니다. AutoCoder의 학습 데이터는 에이전트 상호작용과 외부 코드 실행 검증을 결합한 시스템으로 생성된 다중 턴 대화 데이터셋으로, 우리는 이를 \textsc{AIEV-Instruct}(에이전트 상호작용 및 실행 검증을 통한 지시 튜닝)라고 명명했습니다. 기존의 대규모 코드 데이터셋 생성 방법과 비교할 때, AIEV-Instruct는 독점적인 대형 모델에 대한 의존도를 줄이고 실행 검증된 코드 데이터셋을 제공합니다. 코드와 데모 비디오는 https://github.com/bin123apple/AutoCoder에서 확인할 수 있습니다.
우리는 CraftsMan이라는 새로운 생성형 3D 모델링 시스템을 소개합니다. 이 시스템은 다양한 형태, 규칙적인 메시 토폴로지, 그리고 상세한 표면을 가진 고품질 3D 형상을 생성할 수 있으며, 특히 사용자가 상호작용 방식으로 형상을 세부 조정할 수 있도록 합니다. 3D 생성 기술의 상당한 발전에도 불구하고, 기존 방법들은 여전히 긴 최적화 과정, 불규칙한 메시 토폴로지, 노이즈가 있는 표면, 그리고 사용자 편집을 수용하는 데 어려움을 겪고 있어, 3D 모델링 소프트웨어에서의 광범위한 채택과 구현을 방해하고 있습니다. 우리의 작업은 일반적으로 작업의 전체적인 형태를 먼저 대략적으로 잡고 그 후에 표면 세부 사항을 정교하게 다듬는 장인의 방식에서 영감을 받았습니다. 구체적으로, 우리는 잠재 공간 기반의 3D 표현에서 학습된 잠재 공간에서 작동하는 3D 네이티브 확산 모델을 사용하여 규칙적인 메시 토폴로지를 가진 대략적인 형상을 몇 초 만에 생성합니다. 특히, 이 과정은 텍스트 프롬프트나 참조 이미지를 입력으로 받아 강력한 다중 뷰(MV) 확산 모델을 활용하여 대략적인 형상의 여러 뷰를 생성하고, 이를 우리의 MV 조건부 3D 확산 모델에 입력하여 3D 형상을 생성함으로써 견고성과 일반화 능력을 크게 향상시킵니다. 그 후, 노말 기반의 형상 정제기를 사용하여 표면 세부 사항을 크게 개선합니다. 이 정제 과정은 자동으로 수행되거나, 사용자가 제공한 편집과 함께 상호작용적으로 수행될 수 있습니다. 광범위한 실험을 통해 우리의 방법이 기존 방법들에 비해 우수한 품질의 3D 자산을 생성하는 데 높은 효율성을 달성함을 입증했습니다. 홈페이지: https://craftsman3d.github.io/, 코드: https://github.com/wyysf-98/CraftsMan
자기 지도 학습(self-supervised) 특징은 현대 머신러닝 시스템의 초석입니다. 이러한 특징은 일반적으로 데이터 수집 및 정제에 광범위한 인간의 노력이 필요한 데이터셋에 대해 사전 학습됩니다. 이 수동적인 과정은 지도 학습에서 마주치는 한계와 유사한 문제를 가지고 있습니다. 예를 들어, 크라우드소싱을 통한 데이터 선택은 비용이 많이 들고 시간이 소모적이어서 데이터셋 크기를 확장하는 데 방해가 됩니다. 본 연구에서는 자기 지도 학습 사전 학습을 위한 고품질 데이터셋의 자동 정제 문제를 고려합니다. 우리는 이러한 데이터셋이 크고 다양하며 균형 잡혀야 한다고 가정하고, 이러한 모든 기준을 충족하는 데이터셋을 구축하기 위한 클러스터링 기반 접근 방식을 제안합니다. 우리의 방법은 대규모 및 다양한 데이터 저장소에 대해 k-means를 연속적이고 계층적으로 적용하여 데이터 개념 간에 균일하게 분포된 클러스터를 얻은 후, 이러한 클러스터에서 계층적이고 균형 잡힌 샘플링 단계를 수행합니다. 웹 기반 이미지, 위성 이미지 및 텍스트를 포함한 세 가지 다른 데이터 도메인에 대한 광범위한 실험 결과, 우리가 자동으로 정제한 데이터셋에서 학습된 특징이 정제되지 않은 데이터에서 학습된 특징보다 우수하며, 수동으로 정제된 데이터에서 학습된 특징과 동등하거나 더 나은 성능을 보임을 확인했습니다.
월드 모델은 모델 기반 에이전트가 실제 세계의 의사결정을 위해 상상된 환경 내에서 상호작용적으로 탐색, 추론 및 계획을 세울 수 있도록 지원합니다. 그러나 상호작용성에 대한 높은 요구는 최근 비디오 생성 모델의 발전을 대규모 월드 모델 개발에 활용하는 데 있어 도전 과제를 제기합니다. 본 연구는 상호작용적 경험을 가능하게 하는 다음 토큰 예측을 통해 시각적 관찰, 행동 및 보상을 토큰 시퀀스로 통합하는 확장 가능한 자기회귀 트랜스포머 프레임워크인 Interactive VideoGPT(iVideoGPT)를 소개합니다. iVideoGPT는 고차원 시각적 관찰을 효율적으로 이산화하는 새로운 압축적 토큰화 기술을 특징으로 합니다. 확장 가능한 아키텍처를 활용하여, 우리는 수백만 건의 인간 및 로봇 조작 궤적에 대해 iVideoGPT를 사전 학습시켜 다양한 하위 작업에 대한 상호작용적 월드 모델로 활용할 수 있는 다목적 기반을 구축했습니다. 이는 행동 조건 비디오 예측, 시각적 계획 및 모델 기반 강화 학습을 포함하며, iVideoGPT는 최신 기술과 비교하여 경쟁력 있는 성능을 달성합니다. 우리의 연구는 생성적 비디오 모델과 실용적인 모델 기반 강화 학습 응용 프로그램 간의 격차를 해소하며, 상호작용적 일반 월드 모델 개발을 진전시킵니다.
언어 모델(LM)은 오랫동안 자동 음성 인식(ASR) 시스템의 성능을 개선하기 위해 사용되어 왔지만, 이들은 ASR 시스템이 발생시키는 오류를 인식하지 못합니다. 오류 수정 모델은 ASR 오류를 수정하도록 설계되었지만, 지도 학습 데이터의 부족으로 인해 기존 LM 대비 큰 개선을 보여주지 못했습니다. 본 논문에서는 대량의 합성 데이터로 학습된 확장된 오류 수정 모델인 Denoising LM(DLM)을 제안하며, 이는 기존 시도를 크게 뛰어넘으면서 새로운 최첨단 ASR 성능을 달성합니다. 우리는 텍스트-투-스피치(TTS) 시스템을 사용하여 오디오를 합성하고, 이를 ASR 시스템에 입력하여 잡음이 포함된 가설을 생성한 후, 이를 원본 텍스트와 짝지어 DLM을 학습시킵니다. DLM은 다음과 같은 주요 요소를 포함합니다: (i) 확장된 모델과 데이터; (ii) 다중 화자 TTS 시스템의 활용; (iii) 다양한 잡음 증강 전략의 조합; (iv) 새로운 디코딩 기술. Transformer-CTC ASR과 함께 사용된 DLM은 Librispeech의 test-clean에서 1.5%의 단어 오류율(WER), test-other에서 3.3%의 WER을 달성하며, 이는 우리가 아는 한 외부 오디오 데이터를 사용하지 않는 설정에서 보고된 최고 수치이며, 외부 오디오 데이터를 사용하는 자기 지도 학습 방법과도 견줄 만한 성능입니다. 더욱이, 단일 DLM은 다양한 ASR에 적용 가능하며, 기존 LM 기반 빔 서치 재점수화의 성능을 크게 능가합니다. 이러한 결과는 적절히 연구된 오류 수정 모델이 기존 LM을 대체할 잠재력을 가지고 있으며, ASR 시스템의 정확도를 새로운 수준으로 끌어올릴 수 있는 열쇠를 쥐고 있음을 시사합니다.
대규모 언어 모델은 다양한 출처의 데이터 활용을 주된 원인으로 하여 탁월한 일반화 능력을 보여줍니다. 그러나 이러한 다양한 데이터를 통합하는 기존의 관행은 이론적 지침이 부족한 경험적 방식에 크게 의존하고 있습니다. 본 연구는 데이터 혼합에 대한 저비용 프록시 기반 전략을 탐구함으로써 이러한 한계를 해결하고, 데이터 큐레이션을 간소화하여 학습 효율성을 향상시키는 것을 목표로 합니다. 구체적으로, 우리는 데이터 양과 혼합 비율의 이변량 스케일링 동작을 정확하게 모델링하는 'BiMix'라는 통합 스케일링 법칙을 제안합니다. 체계적인 실험을 통해 BiMix의 예측 능력과 기본 원리에 대한 경험적 증거를 제시하며, 특히 엔트로피 기반의 학습 없이 구성된 데이터 혼합이 더 많은 자원을 요구하는 방법들과 견줄 만하거나 더 나은 성능을 달성할 수 있음을 발견했습니다. 우리의 정량적 통찰이 비용 효율적인 언어 모델링 연구 개발에 더욱 합리적인 방향을 제시할 수 있기를 기대합니다.
고동적범위(High Dynamic Range, HDR) 신시점 합성(Novel View Synthesis, NVS)은 HDR 이미징 기술을 사용하여 새로운 시점에서 포토리얼리스틱한 이미지를 생성하는 것을 목표로 합니다. 렌더링된 HDR 이미지는 일반적인 저동적범위(Low Dynamic Range, LDR) 이미지보다 더 넓은 밝기 범위를 포착하여 장면의 더 많은 세부 정보를 담아냅니다. 기존의 HDR NVS 방법은 주로 NeRF(Neural Radiance Fields)에 기반을 두고 있으며, 긴 학습 시간과 느린 추론 속도라는 문제점을 가지고 있습니다. 본 논문에서는 새로운 프레임워크인 High Dynamic Range Gaussian Splatting(HDR-GS)을 제안합니다. 이 프레임워크는 새로운 HDR 시점을 효율적으로 렌더링하고 사용자가 입력한 노출 시간에 따라 LDR 이미지를 재구성할 수 있습니다. 구체적으로, 우리는 HDR 색상을 맞추기 위해 구면 조화 함수(spherical harmonics)를 사용하고 LDR 색상을 렌더링하기 위해 MLP(Multi-Layer Perceptron) 기반의 톤 매퍼를 활용하는 이중 동적 범위(Dual Dynamic Range, DDR) 가우시안 포인트 클라우드 모델을 설계했습니다. HDR과 LDR 색상은 두 개의 병렬 미분 가능 래스터화(Parallel Differentiable Rasterization, PDR) 프로세스에 입력되어 HDR과 LDR 시점을 재구성합니다. HDR NVS에서 3D 가우시안 스플래팅 기반 방법의 연구를 위한 데이터 기반을 마련하기 위해, 우리는 카메라 매개변수를 재조정하고 가우시안 포인트 클라우드의 초기 위치를 계산했습니다. 실험 결과, 우리의 HDR-GS는 LDR과 HDR NVS에서 최신 NeRF 기반 방법을 각각 3.84dB와 1.91dB 능가하며, 1000배 빠른 추론 속도와 단 6.3%의 학습 시간만을 필요로 하는 것으로 나타났습니다.