번역이 포함된 일일 선별된 AI 연구 논문
텍스트 조건부 비디오 생성을 위해 사전 학습된 확산 모델 기반의 새로운 추론 기법을 제안한다. FIFO-Diffusion이라 명명된 우리의 접근법은 추가적인 학습 없이도 이론상 무한히 긴 비디오를 생성할 수 있다. 이는 대각선 디노이징(diagonal denoising)을 반복적으로 수행함으로써 달성되는데, 이 방법은 연속적인 프레임 시퀀스를 큐(queue)에 넣어 점진적으로 증가하는 노이즈 레벨로 동시에 처리한다. 우리의 방법은 큐의 헤드(head)에서 완전히 디노이징된 프레임을 디큐(dequeue)하는 동시에 테일(tail)에 새로운 랜덤 노이즈 프레임을 인큐(enqueue)한다. 그러나 대각선 디노이징은 양날의 검인데, 테일 근처의 프레임이 앞선 프레임을 참조하여 더 깨끗한 결과를 얻을 수 있지만, 이러한 전략은 학습과 추론 간의 불일치를 유발한다. 따라서 우리는 학습-추론 간극을 줄이기 위해 잠재 공간 분할(latent partitioning)을 도입하고, 앞선 참조의 이점을 활용하기 위해 룩어헤드 디노이징(lookahead denoising)을 제안한다. 우리는 기존 텍스트-투-비디오 생성 베이스라인에서 제안된 방법들의 유망한 결과와 효과성을 입증하였다.
저순위 적응(Low-rank adaptation)은 대규모 언어 모델을 위한 인기 있는 파라미터 효율적 미세 조정 방법입니다. 본 논문에서는 LoRA에서 구현된 저순위 업데이트의 영향을 분석합니다. 우리의 연구 결과에 따르면, 저순위 업데이트 메커니즘이 LLM이 새로운 지식을 효과적으로 학습하고 기억하는 능력을 제한할 수 있음을 시사합니다. 이러한 관찰에서 영감을 받아, 우리는 MoRA라는 새로운 방법을 제안합니다. 이 방법은 동일한 수의 학습 가능한 파라미터를 유지하면서 고순위 업데이트를 달성하기 위해 정방 행렬을 사용합니다. 이를 위해, 우리는 정방 행렬의 입력 차원을 줄이고 출력 차원을 증가시키기 위해 해당하는 비파라미터 연산자를 도입합니다. 더욱이, 이러한 연산자는 가중치가 LLM으로 다시 병합될 수 있도록 보장하여, 우리의 방법이 LoRA처럼 배포될 수 있게 합니다. 우리는 지시 튜닝, 수학적 추론, 지속적 사전 학습, 메모리 및 사전 학습 등 다섯 가지 작업에 걸쳐 우리의 방법을 종합적으로 평가합니다. 우리의 방법은 메모리 집약적인 작업에서 LoRA를 능가하며, 다른 작업에서도 비슷한 성능을 달성합니다.
대규모 언어 모델(LLM)이 스케일링 법칙에 따라 계속 성장함에 따라, 인간 피드백을 통한 강화 학습(RLHF)은 그 뛰어난 성능으로 인해 상당한 주목을 받고 있습니다. 그러나 단일 모델의 사전 학습이나 미세 조정과 달리, 대규모 언어 모델을 훈련하기 위한 RLHF의 스케일링은 네 가지 모델 간의 조율 문제를 야기합니다. 우리는 효율적인 RLHF 스케일링을 가능하게 하는 오픈소스 프레임워크인 OpenRLHF를 소개합니다. 기존의 RLHF 프레임워크가 네 가지 모델을 동일한 GPU에 배치하는 것과 달리, OpenRLHF는 Ray, vLLM, DeepSpeed를 활용하여 70B 이상의 파라미터를 가진 모델을 위한 스케줄링을 재설계하여 자원 활용도를 개선하고 다양한 훈련 접근법을 도입했습니다. Hugging Face와 원활하게 통합된 OpenRLHF는 최적화된 알고리즘과 실행 스크립트를 제공하여 사용자 친화성을 보장합니다. OpenRLHF는 RLHF, DPO, 거부 샘플링 및 기타 정렬 기법을 구현합니다. 최신 LLM 개발을 지원하는 OpenRLHF의 코드는 https://github.com/OpenLLMAI/OpenRLHF에서 확인할 수 있습니다.
기본 대형 언어 모델(LLM)의 파라미터 효율적 적응 방법이 점점 증가함에 따라, 이러한 훈련된 어댑터를 재사용하여 새로운 작업의 성능을 개선할 수 있는지 연구할 필요가 있습니다. 우리는 다중 작업 데이터가 주어졌을 때 어댑터 라이브러리를 최적으로 구축하는 방법과, 이러한 라이브러리를 통해 제로샷 및 지도 작업 일반화를 위한 라우팅 기술을 고안합니다. 이 라이브러리를 구축하기 위한 기존 접근법을 벤치마킹하고, 모델 기반 클러스터링(MBC)이라는 방법을 소개합니다. 이 방법은 어댑터 매개변수의 유사성을 기반으로 작업을 그룹화하여 다중 작업 데이터셋 간 전이를 간접적으로 최적화합니다. 라이브러리를 재사용하기 위해, 새로운 입력에 대해 가장 관련성이 높은 어댑터를 동적으로 선택할 수 있는 제로샷 라우팅 메커니즘인 Arrow를 제안합니다. 이 메커니즘은 재훈련 없이도 작동합니다. 우리는 Phi-2와 Mistral과 같은 여러 LLM을 다양한 보류된 작업에 대해 실험하여, MBC 기반 어댑터와 Arrow 라우팅이 새로운 작업에 대한 우수한 일반화를 이끌어냄을 확인합니다. 이를 통해 모듈화되고 적응 가능한 LLM을 만들어 전통적인 공동 훈련을 능가하거나 그에 맞먹는 성능을 달성하기 위한 단계를 밟습니다.
대규모 언어 모델(LLMs)의 능력을 활용하여, 최근의 대규모 멀티모달 모델(LMMs)은 개방형 세계의 멀티모달 이해에서 놀라운 다양성을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 매개변수가 많고 계산 집약적이어서, 자원이 제한된 시나리오에서의 적용이 어렵습니다. 이를 위해, 제한된 규모(예: 3B)에서의 능력을 극대화하기 위해 여러 경량 LMMs가 연이어 제안되었습니다. 이러한 방법들이 격려할 만한 결과를 달성했음에도 불구하고, 대부분의 방법들은 설계 공간의 한두 가지 측면에만 초점을 맞추고 있으며, 모델 능력에 영향을 미치는 주요 설계 선택들이 아직 철저히 연구되지 않았습니다. 본 논문에서는 모델 아키텍처, 훈련 전략, 훈련 데이터 측면에서 경량 LMMs에 대한 체계적인 연구를 수행합니다. 우리의 연구 결과를 바탕으로, 2B-4B 규모에서 높은 능력을 가진 Imp 모델 패밀리를 얻었습니다. 특히, 우리의 Imp-3B 모델은 유사한 크기의 모든 기존 경량 LMMs를 꾸준히 능가하며, 13B 규모의 최첨단 LMMs를 넘어서는 성능을 보여줍니다. 저비트 양자화 및 해상도 감소 기술을 통해, 우리의 Imp 모델은 Qualcomm Snapdragon 8Gen3 모바일 칩에 배포될 수 있으며, 약 13 토큰/초의 높은 추론 속도를 달성합니다.
다양한 로봇 데이터셋에 대해 사전 학습된 대규모 정책은 로봇 학습을 혁신할 잠재력을 가지고 있습니다: 새로운 정책을 처음부터 학습하는 대신, 이러한 범용 로봇 정책은 소량의 도메인 내 데이터만으로도 미세 조정이 가능하며, 넓은 범위로 일반화될 수 있습니다. 그러나 다양한 로봇 학습 시나리오, 환경 및 작업에 광범위하게 적용되기 위해서는, 이러한 정책이 다양한 센서와 액션 공간을 처리할 수 있어야 하며, 일반적으로 사용되는 다양한 로봇 플랫폼을 수용하고, 새로운 도메인에 쉽고 효율적으로 미세 조정될 수 있어야 합니다. 본 연구에서는 로봇 조작을 위한 오픈소스이며 광범위하게 적용 가능한 범용 정책 개발의 기반을 마련하고자 합니다. 첫 번째 단계로, 우리는 Open X-Embodiment 데이터셋(현재까지 가장 큰 로봇 조작 데이터셋)의 80만 개 궤적에 대해 학습된 대형 트랜스포머 기반 정책인 Octo를 소개합니다. Octo는 언어 명령이나 목표 이미지를 통해 지시받을 수 있으며, 새로운 센서 입력과 액션 공간을 가진 로봇 설정에 대해 표준 소비자용 GPU에서 몇 시간 내에 효과적으로 미세 조정될 수 있습니다. 9개의 로봇 플랫폼에 걸친 실험에서, Octo가 새로운 관찰 및 액션 공간에 효과적으로 미세 조정될 수 있는 다용도 정책 초기화로 기능함을 입증했습니다. 또한, 아키텍처부터 학습 데이터까지 Octo 모델의 설계 결정에 대한 상세한 절제 연구를 수행하여, 범용 로봇 모델 구축을 위한 향후 연구를 안내하고자 합니다.
트랜스포머(Transformers)는 자연어 처리와 컴퓨터 비전 작업 모두에서 기반이 되는 아키텍처로 자리 잡았습니다. 그러나 높은 계산 비용으로 인해 자원이 제한된 장치에 배포하기에는 상당히 어려움이 있습니다. 본 논문은 효율적인 트랜스포머의 계산 병목 현상을 일으키는 모듈, 즉 정규화 계층과 어텐션 모듈을 조사합니다. LayerNorm은 트랜스포머 아키텍처에서 흔히 사용되지만, 추론 과정에서 통계 계산이 필요하기 때문에 계산적으로 불리합니다. 그러나 LayerNorm을 더 효율적인 BatchNorm으로 대체하면 종종 성능 저하와 학습 중 붕괴가 발생합니다. 이 문제를 해결하기 위해, 우리는 학습 과정에서 LayerNorm을 재파라미터화된 BatchNorm으로 점진적으로 대체하는 PRepBN이라는 새로운 방법을 제안합니다. 또한, 간단하면서도 강력한 성능을 달성할 수 있는 단순화된 선형 어텐션(SLA) 모듈을 제안합니다. 이미지 분류 및 객체 탐지에 대한 광범위한 실험을 통해 우리가 제안한 방법의 효과를 입증했습니다. 예를 들어, 우리의 SLAB-Swin은 ImageNet-1K에서 83.6%의 top-1 정확도를 달성하며 16.2ms의 지연 시간을 보였는데, 이는 Flatten-Swin보다 2.4ms 더 빠르고 정확도는 0.1% 더 높습니다. 또한, 언어 모델링 작업에 대해 우리의 방법을 평가했을 때 비슷한 성능과 더 낮은 지연 시간을 얻었습니다. 코드는 https://github.com/xinghaochen/SLAB와 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB에서 공개되어 있습니다.
본 연구에서는 Denoising Diffusion Implicit Models(DDIM) 역변환 과정을 사용할 때 Interval Score Matching(ISM)에서 누적 오류로 인해 발생하는 가짜 실측 데이터(pseudo ground truth) 불일치 문제를 해결하기 위한 새로운 Trajectory Score Matching(TSM) 방법을 제안합니다. ISM이 DDIM의 역변환 과정을 통해 단일 경로를 계산하는 반면, 우리의 TSM 방법은 동일한 시작점에서 두 개의 경로를 생성하여 계산합니다. 두 경로가 동일한 시작점에서 출발하기 때문에 TSM은 ISM에 비해 누적 오류를 줄일 수 있으며, 이로 인해 가짜 실측 데이터 불일치 문제를 완화할 수 있습니다. TSM은 증류 과정에서 모델이 생성하는 경로의 안정성과 일관성을 향상시킵니다. 우리는 이를 실험적으로 입증하고, ISM이 TSM의 특수한 경우임을 추가로 보여줍니다. 또한, 고해상도 텍스트에서 3D 생성까지의 현재 다단계 최적화 과정을 최적화하기 위해 Stable Diffusion XL을 지침으로 채택합니다. Stable Diffusion XL을 사용할 때 3D Gaussian splatting 과정에서 불안정한 그래디언트로 인해 발생하는 비정상적인 복제 및 분할 문제에 대응하기 위해, 픽셀 단위 그래디언트 클리핑 방법을 제안합니다. 광범위한 실험을 통해 우리의 모델이 시각적 품질과 성능 측면에서 최신 모델을 크게 능가함을 보여줍니다. 코드: https://github.com/xingy038/Dreamer-XL.