번역이 포함된 일일 선별된 AI 연구 논문
인간 피드백을 통한 강화 학습(RLHF)은 모델을 인간의 의도에 맞추기 위한 인기 있는 패러다임으로 부상했습니다. 일반적으로 RLHF 알고리즘은 두 단계로 작동합니다: 첫째, 인간의 선호도를 사용하여 보상 함수를 학습하고, 둘째, 강화 학습(RL)을 통해 학습된 보상을 최적화하여 모델을 정렬합니다. 이 패러다임은 인간의 선호도가 보상에 따라 분포한다고 가정하지만, 최근 연구에 따르면 인간의 선호도는 사용자의 최적 정책 하에서의 후회(regret)를 따르는 것으로 나타났습니다. 따라서 피드백으로부터 보상 함수를 학습하는 것은 인간 선호도에 대한 잘못된 가정에 기반할 뿐만 아니라, 정책 그래디언트나 RL 단계의 부트스트래핑에서 비롯된 복잡한 최적화 문제를 야기합니다. 이러한 최적화 문제로 인해, 현대의 RLHF 방법들은 문맥적 밴딧 설정(예: 대형 언어 모델)으로 제한되거나 관측 차원을 제한(예: 상태 기반 로보틱스)합니다. 우리는 이러한 한계를 극복하기 위해 인간 선호도의 후회 기반 모델을 사용하여 인간 피드백으로부터 행동을 최적화하는 새로운 알고리즘 패밀리를 소개합니다. 최대 엔트로피 원리를 사용하여, 우리는 보상 함수를 학습하지 않고도 선호도로부터 최적 정책을 학습하는 대조적 선호 학습(CPL) 알고리즘을 도출했습니다. 이는 RL의 필요성을 우회합니다. CPL은 완전히 오프-정책이며, 단순한 대조적 목적 함수만을 사용하며, 임의의 MDP에 적용할 수 있습니다. 이를 통해 CPL은 이전 방법들보다 간단하면서도 고차원 및 순차적 RLHF 문제로 우아하게 확장될 수 있습니다.
*데이터 합성*은 매우 적은 양의 레이블된 데이터로 소규모 모델을 훈련시키는 유망한 방법입니다. 데이터 합성의 한 가지 접근 방식은 대규모 언어 모델의 풍부한 지식을 활용하여 소규모 모델을 위한 가짜 훈련 예제를 합성함으로써 데이터와 계산 효율성을 동시에 달성할 수 있게 하는 것입니다. 그러나 데이터 합성의 주요 과제는 합성된 데이터셋이 종종 *실제 작업* 데이터 분포와 큰 분포적 차이를 보인다는 점입니다. 따라서 본 논문에서는 대규모 언어 모델을 사용하여 합성된 데이터셋으로 훈련된 소규모 모델이 소규모 실제 검증 데이터셋에서 발생한 오류를 반복적으로 추정함으로써 이러한 분포 격차를 줄이는 *단계별 합성*(**S3**) 프레임워크를 제안합니다. 다양한 NLP 작업에 대한 광범위한 실험을 통해 우리의 접근 방식이 합성 데이터셋과 실제 데이터 간의 격차를 줄여 소규모 모델의 성능을 향상시키며, 여러 베이스라인과 비교하여 상당한 개선을 보임을 확인했습니다: ZeroGen 대비 9.48%, GoldGen 대비 2.73%의 성능 향상을 보였으며, 인간이 주석을 단 데이터로 훈련된 소규모 모델과 비교하여 최대 15.17%의 성능 향상을 달성했습니다.
확산 확률 모델(Diffusion Probabilistic Models, DPMs)은 고충실도 이미지 생성에서 우수한 성능을 보여주는 반면, 비효율적인 샘플링 문제를 겪고 있다. 최근 연구들은 DPM의 특정 ODE 형태를 활용한 빠른 ODE 솔버를 제안하여 샘플링 절차를 가속화하였다. 그러나 이러한 방법들은 추론 과정에서 특정 파라미터화(예: 노이즈/데이터 예측)에 크게 의존하며, 이는 최적의 선택이 아닐 수 있다. 본 연구에서는 ODE 해의 1차 이산화 오차를 최소화하는 샘플링 중 최적 파라미터화를 위한 새로운 공식을 제안한다. 이를 기반으로 사전 학습된 모델에서 효율적으로 계산되는 여러 계수(경험적 모델 통계량)를 도입하여 DPM-Solver-v3라는 새로운 빠른 ODE 솔버를 제안한다. 또한, 다단계 방법과 예측자-수정자 프레임워크를 통합하고, 적은 함수 평가 횟수(NFE)나 큰 가이던스 스케일에서 샘플 품질을 개선하기 위한 몇 가지 기법을 제안한다. 실험 결과, DPM-Solver-v3는 픽셀 공간 및 잠재 공간 DPM 모두에서 무조건 및 조건부 샘플링에서 일관되게 더 나은 또는 비슷한 성능을 달성하며, 특히 5~10 NFE에서 두드러진 성능을 보인다. 무조건 CIFAR10에서 12.21(5 NFE), 2.51(10 NFE)의 FID를 달성했으며, Stable Diffusion에서 0.55(5 NFE, 7.5 가이던스 스케일)의 MSE를 기록하여 기존의 최신 학습 없는 방법 대비 15%~30%의 속도 향상을 보였다. 코드는 https://github.com/thu-ml/DPM-Solver-v3에서 확인할 수 있다.
청각은 물리적 세계에서 인공지능(AI) 에이전트의 필수적인 능력으로 간주될 수 있으며, 이는 최소한 세 가지 유형의 소리(음성, 오디오 이벤트, 음악)로 구성된 일반적인 청각 정보를 인지하고 이해하는 것을 의미한다. 본 논문에서는 사전 학습된 텍스트 기반 대형 언어 모델(LLM)과 음성 및 오디오 인코더를 단일 다중모달 모델로 통합하여 구축한 SALMONN(Speech Audio Language Music Open Neural Network)을 제안한다. SALMONN은 LLM이 일반 오디오 입력을 직접 처리하고 이해할 수 있게 하며, 자동 음성 인식 및 번역, 청각 정보 기반 질의응답, 감정 인식, 화자 검증, 음악 및 오디오 캡셔닝 등 훈련에 사용된 다양한 음성 및 오디오 작업에서 경쟁력 있는 성능을 달성한다. 또한 SALMONN은 훈련 중에는 볼 수 없었던 다양한 창발적 능력을 보유하고 있으며, 이는 훈련되지 않은 언어로의 음성 번역, 음성 기반 슬롯 채우기, 음성 질의 기반 질의응답, 오디오 기반 스토리텔링, 음성 및 오디오 공동 추론 등을 포함한다. 이러한 교차모달 창발적 능력의 존재를 연구하고, SALMONN의 이러한 능력을 활성화하기 위한 새로운 소샷 활성화 튜닝 접근법을 제안한다. 우리가 아는 한, SALMONN은 이 유형의 첫 번째 모델이며, 일반적인 청각 능력을 가진 AI로 나아가는 한 걸음으로 간주될 수 있다. SALMONN의 인터랙티브 데모는 \url{https://github.com/bytedance/SALMONN}에서 확인할 수 있으며, 훈련 코드와 모델 체크포인트는 논문 채택 시 공개될 예정이다.
대규모 언어 모델(LLM)은 자연어 처리 분야에서 인상적인 창발적 능력을 보여주지만, 막대한 계산 자원 요구와 폐쇄적인 소스 코드로 인해 그 대중화가 제한되고 있습니다. 최근 연구에서는 블랙박스 LLM으로부터 지식을 추출하여 오픈소스 소형 LM을 발전시키는 방법이 지시 수행 능력에서 유망한 결과를 얻었습니다. 그러나 더 도전적인 과제인 추론 능력은 상대적으로 덜 탐구되었습니다. 본 논문에서는 이러한 추론 능력을 소형 LM에 전수하여 독점적인 추론 능력의 대중화를 촉진하기 위한 맞춤형 학습 접근법을 제안합니다. 단순히 LLM을 데이터 주석자로 사용하는 것과 달리, 우리는 LLM을 추론 교사로 활용하여 상호작용적인 다중 라운드 학습 패러다임을 구축합니다. 이 패러다임은 학생이 블랙박스 교사에게 자신의 부족한 점을 노출시켜 교사가 맞춤형 훈련 데이터를 제공할 수 있도록 합니다. 또한, 소형 LM의 추론 잠재력을 극대화하기 위해 자기 성찰 학습을 제안하여 학생이 스스로 만든 실수로부터 배우도록 동기를 부여합니다. 자기 성찰 학습과 LLM으로부터의 학습은 모두 다중 라운드 학습 패러다임과의 원활한 통합 덕분에 학생의 학습 상태에 맞춰 조정됩니다. 수학적 및 상식적 추론 과제에 대한 포괄적인 실험과 분석을 통해 우리 방법의 효과성을 입증합니다. 코드는 https://github.com/Raibows/Learn-to-Reason에서 공개될 예정입니다.
대규모 언어 모델(LLMs)은 복잡한 현실 세계 문제를 해결하는 데 있어 강력한 의사결정 및 계획 능력을 보여주고 있다. LLM 기반 자율 에이전트는 다양한 도구(예: 기능적 API)와 상호작용하며 단계별로 일련의 API 함수 호출을 실행하는 솔루션 계획을 생성할 수 있다. 수많은 후보 API 함수 호출은 행동 공간을 크게 확장시켜 효율적인 행동 공간 탐색의 중요성을 더욱 부각시킨다. 그러나 기존 방법들은 방대한 행동 공간에서 단방향 탐색에 어려움을 겪거나 지역적 최적 해에 갇히는 문제가 있으며, 모든 잠재적 행동을 완전히 탐색함으로써 비효율적인 탐색을 초래한다. 이러한 문제를 해결하기 위해 우리는 LLM 기반 에이전트를 위한 효율적인 트리 탐색 기반 계획 알고리즘인 ToolChain*을 제안한다. 이 알고리즘은 전체 행동 공간을 의사결정 트리로 구성하며, 각 노드는 솔루션 계획에 포함될 수 있는 API 함수 호출을 나타낸다. A* 탐색 알고리즘을 과제 특화 비용 함수 설계와 결합함으로써, 잘못된 행동을 포함할 가능성이 높은 고비용 분기를 효율적으로 제거하고 가장 낮은 비용의 유효한 경로를 솔루션으로 식별한다. 다양한 도구 사용 및 추론 과제에 대한 광범위한 실험을 통해 ToolChain*이 방대한 행동 공간 내에서 탐색과 활용을 효율적으로 균형 있게 수행함을 입증하였다. 이 알고리즘은 계획 및 추론 과제에서 최신 기준선 대비 평균 3.1% 및 3.5% 더 우수한 성능을 보였으며, 각각 7.35배 및 2.31배 더 적은 시간을 요구하였다.
디퓨전 기반 방법들은 2D 미디어 생성에서 두드러진 성공을 거두었습니다. 그러나 XR/VR과 같은 3D 공간 응용 프로그램에서 장면 수준의 메쉬 텍스처링에 대해 유사한 수준의 성능을 달성하는 것은 여전히 제한적입니다. 이는 주로 3D 기하학의 복잡성과 몰입형 자유 시점 렌더링의 필요성 때문입니다. 본 논문에서는 매혹적인 디테일과 진정한 공간적 일관성을 갖춘 텍스트 기반 텍스처 생성을 제공하는 새로운 실내 장면 텍스처링 프레임워크를 제안합니다. 핵심 통찰은 장면의 중심 시점에서 스타일화된 360도 파노라마 텍스처를 먼저 상상한 다음, 이를 인페인팅과 모방 기술을 통해 나머지 영역으로 전파하는 것입니다. 장면에 의미 있고 정렬된 텍스처를 보장하기 위해, 캡처된 장면의 기하학적 및 텍스처 단서를 모두 고려하는 이중 텍스처 정렬을 갖춘 새로운 코스-투-파인 파노라마 텍스처 생성 접근 방식을 개발했습니다. 텍스처 전파 중 복잡한 기하학적 구조에서 벗어나기 위해, 신뢰할 수 있는 영역에서 텍스처 인페인팅을 수행한 다음, 가려지고 작은 구조적 영역에서 텍스처를 합성하기 위한 암묵적 모방 네트워크를 학습하는 분리된 전략을 설계했습니다. 실제 실내 장면에 대한 광범위한 실험과 몰입형 VR 응용 프로그램은 생성된 텍스처의 높은 품질과 VR 헤드셋에서의 매력적인 경험을 입증합니다. 프로젝트 웹페이지: https://ybbbbt.com/publication/dreamspace
대형 언어 모델(LLM)의 자기 개선 능력은 모델이 자신의 출력을 분석하고 수정하도록 유도함으로써 가능해지며, 이는 최근 연구에서 상당한 관심을 받고 있습니다. 그러나 이러한 능력은 더 작은 모델에서는 존재하지 않거나 학습하기 어려운 것으로 나타나, 최첨단 LLM과 더 경제적이고 빠른 모델 간의 성능 격차를 더욱 벌어지게 하고 있습니다. 이러한 격차를 줄이기 위해, 우리는 TriPosT라는 훈련 알고리즘을 소개하며, 이 알고리즘은 더 작은 모델에 이러한 자기 개선 능력을 부여합니다. 우리의 접근 방식은 LLaMA-7b 모델의 수학 및 추론 작업 성능을 최대 7.13%까지 향상시킬 수 있음을 보여줍니다. 기존 연구와 달리, 우리는 더 작은 모델이 LLM과 상호작용하여 자신의 생성물에 대한 피드백과 개선 사항을 수집하도록 한 다음, 이 경험을 재생하여 작은 모델을 훈련시킵니다. 네 가지 수학 및 추론 데이터셋에 대한 실험 결과, 작은 모델이 자신의 실수를 학습하고 수정하는 상호작용 경험이 성능 향상에 중요한 역할을 한다는 것을 확인했습니다.
대규모 언어 모델(LLMs)은 자연어 지시를 따르는 방식으로 다양한 작업을 수행할 수 있으며, 이때 작업별 미세 조정(fine-tuning)이 필요하지 않습니다. 그러나 LLM의 성능은 이러한 지시의 질에 크게 영향을 받으며, 각 작업에 대해 효과적인 지시문을 수동으로 작성하는 것은 노동 집약적이고 주관적인 과정입니다. 본 논문에서는 LLM에 제공되는 지시문의 질을 자동으로 개선하는 새로운 방법인 Auto-Instruct를 소개합니다. 우리의 방법은 LLM의 내재적 생성 능력을 활용하여 주어진 작업에 대해 다양한 후보 지시문을 생성한 후, 575개의 기존 NLP 작업으로 훈련된 채점 모델을 사용하여 이를 순위 매깁니다. 118개의 도메인 외 작업에 대한 실험에서 Auto-Instruct는 인간이 작성한 지시문과 기존의 LLM 생성 지시문 기준선을 모두 능가했습니다. 또한, 우리의 방법은 훈련 과정에 포함되지 않은 다른 LLM에서도 주목할 만한 일반화 능력을 보여줍니다.
LLaMA와 같은 오픈소스 대형 언어 모델(LLM)을 Instruct-GPT 및 GPT-4와 같은 더 강력한 LLM의 직접 출력을 사용하여 명령어 튜닝(instruction tuning)하는 것은 모델의 행동을 인간의 선호에 맞추는 비용 효율적인 방법으로 입증되었습니다. 그러나 명령어 튜닝된 모델은 각 명령어에 대해 하나의 응답만을 보았기 때문에 잠재적으로 더 나은 응답에 대한 지식이 부족합니다. 본 논문에서는 명령어 튜닝된 LLM을 우리의 새로운 확률적 순위 지정(probabilistic ranking) 및 문맥적 순위 지정(contextual ranking) 접근법을 사용하여 미세 조정(finetuning)함으로써 더 나은 응답을 생성할 가능성을 높이는 방법을 제안합니다. 확률적 순위 지정은 명령어 튜닝된 모델이 교사 LLM으로부터 고품질 및 저품질 응답의 상대적 순위를 상속받을 수 있게 합니다. 반면, 문맥적 순위 지정을 통한 학습은 모델이 더 강력한 LLM의 문맥 이해 능력을 사용하여 자신의 응답 분포를 개선할 수 있도록 합니다. 또한, 우리는 확률적 순위 지정과 문맥적 순위 지정을 명령어 튜닝된 LLM에 순차적으로 적용합니다. 그 결과로 나온 모델, 즉 Tuna는 Super Natural Instructions(119개 테스트 작업), LMentry(25개 테스트 작업), Vicuna QA에서 일관되게 성능을 향상시키며, 여러 강력한 강화 학습 기반 모델보다 더 나은 결과를 얻을 수도 있습니다. 우리의 코드와 데이터는 https://github.com/microsoft/LMOps에서 확인할 수 있습니다.
웹 규모의 이미지 캡션 데이터셋을 이용한 이미지-텍스트 사전 학습은 CLIP 및 그 변형 모델들의 성공 덕분에 개방형 어휘 분류 및 검색 모델의 기본적인 접근법으로 자리 잡았습니다. 여러 연구에서도 CLIP의 특징을 밀집 예측(dense prediction) 작업에 활용하며 개방형 집합(open-set) 능력의 출현을 보여주었습니다. 그러나 대조 학습(contrastive learning) 목표는 이미지-텍스트 정렬에만 초점을 맞추고 있어 밀집 예측 작업을 위한 이미지 특징 학습을 촉진하지는 않습니다. 본 연구에서는 SILC를 제안하기 위해 대조 사전 학습에 추가 목표로 자기 지식 증류(self-distillation)를 통한 지역적-전역적 대응 학습(local-to-global correspondence learning)을 간단히 추가합니다. 지수 이동 평균(EMA) 교사 모델로부터 지역적 이미지 특징을 증류하는 것이 분류, 검색, 특히 세그멘테이션을 포함한 여러 컴퓨터 비전 작업에서 모델 성능을 크게 향상시킨다는 것을 보여줍니다. 또한 SILC가 동일한 학습 기간 동안 기준 모델(baseline)보다 더 나은 확장성을 보인다는 것을 입증합니다. 우리의 모델 SILC는 제로샷 분류(zero-shot classification), 퓨샷 분류(few-shot classification), 이미지 및 텍스트 검색, 제로샷 세그멘테이션(zero-shot segmentation), 그리고 개방형 어휘 세그멘테이션(open vocabulary segmentation)에서 새로운 최첨단(state-of-the-art) 성능을 달성합니다.
도구 사용은 동물 행동과 로봇 능력 모두에서 고급 지능의 상징으로 여겨집니다. 본 논문은 암묵적인 물리적 제약과 장기적 계획이 필요한 작업에서 로봇이 창의적으로 도구를 사용할 수 있는 가능성을 탐구합니다. 대규모 언어 모델(LLM)을 활용하여, 우리는 자연어 명령을 입력받고 시뮬레이션 및 실제 환경에서 로봇을 제어하기 위한 실행 가능한 코드를 출력하는 RoboTool 시스템을 개발했습니다. RoboTool은 네 가지 핵심 구성 요소를 포함합니다: (i) 자연어를 해석하여 작업과 관련된 주요 개념을 파악하는 "Analyzer", (ii) 언어 입력과 주요 개념을 바탕으로 포괄적인 전략을 생성하는 "Planner", (iii) 각 기술에 대한 매개변수를 계산하는 "Calculator", 그리고 (iv) 이러한 계획을 실행 가능한 Python 코드로 변환하는 "Coder". 우리의 실험 결과는 RoboTool이 명시적 또는 암묵적인 물리적 제약과 환경 요인을 이해할 뿐만 아니라 창의적인 도구 사용을 보여줄 수 있음을 입증합니다. 명시적 최적화에 의존하는 전통적인 작업 및 모션 계획(TAMP) 방법과 달리, 우리의 LLM 기반 시스템은 복잡한 로봇 작업을 위한 더 유연하고 효율적이며 사용자 친화적인 솔루션을 제공합니다. 광범위한 실험을 통해, 우리는 RoboTool이 창의적인 도구 사용 없이는 불가능했을 작업을 능숙하게 처리할 수 있음을 검증하며, 이를 통해 로봇 시스템의 능력을 확장합니다. 데모는 프로젝트 페이지에서 확인할 수 있습니다: https://creative-robotool.github.io/.
대형 언어 모델(LLMs)은 AI 분야에서 혁신을 가져왔습니다. 그러나 이러한 모델들은 편향적이거나 사적인, 저작권이 있는, 또는 유해한 텍스트를 포함할 수 있는 등 상당한 위험 요소도 내포하고 있습니다. 이러한 이유로 우리는 개방적이고 투명하며 안전한 솔루션이 필요합니다. 본 프로젝트에서는 LLM 개발과 테스트를 위한 완전한 오픈소스 생태계를 소개합니다. 이 프로젝트의 목표는 폐쇄형 접근 방식에 대한 개방형 대안을 촉진하는 것입니다. 우리는 70억에서 700억 개의 파라미터를 가진 미세 조정된 LLM인 h2oGPT 시리즈를 공개합니다. 또한, 최신 기술을 활용하여 LLM의 효율적인 미세 조정, 평가, 배포를 위한 프레임워크 및 노코드 GUI인 H2O LLM Studio를 소개합니다. 우리의 코드와 모델은 완전히 허용적인 Apache 2.0 라이선스 하에 제공됩니다. 우리는 오픈소스 언어 모델이 AI 개발을 촉진하고 더 접근 가능하며 신뢰할 수 있게 만드는 데 도움이 된다고 믿습니다. 데모는 https://gpt.h2o.ai/에서 확인할 수 있습니다.
인간 피드백을 통한 강화 학습(RLHF)은 고품질 AI 어시스턴트를 훈련시키기 위한 널리 사용되는 기술입니다. 그러나 RLHF는 진실된 응답보다 사용자의 신념에 부합하는 모델 응답을 조장할 수 있으며, 이러한 행동을 아첨(sycophancy)이라고 합니다. 우리는 RLHF로 훈련된 모델에서 아첨의 유행 정도와 인간의 선호 판단이 그 원인인지 여부를 조사합니다. 먼저, 최신 AI 어시스턴트 다섯 가지가 네 가지 다양한 자유 형식 텍스트 생성 작업에서 일관되게 아첨 행동을 보인다는 것을 입증합니다. 인간의 선호가 RLHF 모델의 이러한 광범위한 행동을 유발하는지 이해하기 위해, 기존의 인간 선호 데이터를 분석합니다. 우리는 응답이 사용자의 견해와 일치할 때 선호될 가능성이 더 높다는 것을 발견했습니다. 또한, 인간과 선호 모델(PM) 모두 진실된 응답보다 설득력 있게 작성된 아첨 응답을 소수의 경우에 선호합니다. PM에 대해 모델 출력을 최적화하는 것은 때때로 진실성을 희생하여 아첨을 선호하는 결과를 가져옵니다. 전반적으로, 우리의 결과는 아첨이 RLHF 모델의 일반적인 행동이며, 부분적으로는 아첨 응답을 선호하는 인간의 선호 판단에 의해 유발될 가능성이 높다는 것을 나타냅니다.
확산 모델에서 UNet은 가장 널리 사용되는 네트워크 백본입니다. 이는 멀리 떨어진 네트워크 블록을 연결하는 장거리 스킵 연결(LSCs)이 장거리 정보를 집계하고 기울기 소실 문제를 완화할 수 있기 때문입니다. 그러나 UNet은 종종 확산 모델에서 불안정한 학습 문제를 겪는데, 이는 LSC 계수를 작게 스케일링함으로써 완화될 수 있습니다. 하지만 확산 모델에서 UNet의 불안정성에 대한 이론적 이해와 LSC 스케일링의 성능 향상에 대한 연구는 아직 부족합니다. 이 문제를 해결하기 위해, 우리는 UNet의 LSC 계수가 순방향 및 역방향 전파의 안정성과 UNet의 견고성에 큰 영향을 미친다는 것을 이론적으로 보여줍니다. 구체적으로, UNet의 어떤 층에서든 은닉 특징과 기울기가 진동할 수 있으며, 이 진동 범위가 실제로 크다는 것을 설명함으로써 UNet 학습의 불안정성을 설명합니다. 또한, UNet은 교란된 입력에 민감하며, 원하는 출력과 멀리 떨어진 출력을 예측하여 진동하는 손실과 진동하는 기울기를 발생시킵니다. 더불어, 우리는 LSC 계수 스케일링이 은닉 특징과 기울기의 안정성, 그리고 견고성에 미치는 이론적 이점도 관찰했습니다. 마지막으로, 우리의 이론에 영감을 받아 UNet의 LSC 계수를 스케일링하고 UNet의 학습 안정성을 더욱 개선하는 효과적인 계수 스케일링 프레임워크인 ScaleLong을 제안합니다. 네 가지 유명한 데이터셋에 대한 실험 결과는 우리의 방법이 학습 안정화에 우수하며, UNet 또는 UViT 백본을 사용한 다양한 확산 모델에서 약 1.5배의 학습 가속을 달성함을 보여줍니다. 코드: https://github.com/sail-sg/ScaleLong