번역이 포함된 일일 선별된 AI 연구 논문
우리는 문맥 길이를 1백만 토큰까지 확장하는 일련의 모델인 Qwen2.5-1M을 소개합니다. 이전 128K 버전과 비교했을 때, Qwen2.5-1M 시리즈는 긴 문맥 사전 훈련과 사후 훈련을 통해 상당히 향상된 장문맥 능력을 갖추고 있습니다. 장문 데이터 합성, 점진적 사전 훈련, 그리고 다단계 지도 미세 튜닝과 같은 주요 기술이 효과적으로 장문맥 성능을 향상시키면서 훈련 비용을 줄이는 데 사용됩니다. 더 많은 사용자들에게 장문맥 모델의 사용을 촉진하기 위해, 추론 프레임워크를 제시하고 오픈 소스로 공개합니다. 이 프레임워크에는 추가 훈련 없이 모델 문맥 길이를 최소 네 배 이상까지 확장할 수 있는 길이 추정 방법이 포함되어 있습니다. 추론 비용을 줄이기 위해, 배포 시나리오를 위한 희소 어텐션 방법과 청크 미리 채우기 최적화를 구현하고, 정확도를 향상시키기 위한 희소성 정제 방법을 채택합니다. 게다가, 커널 최적화, 파이프라인 병렬성, 그리고 스케줄링 최적화를 포함한 추론 엔진의 최적화 사항을 상세히 설명하며, 전체 추론 성능을 크게 향상시킵니다. 우리의 추론 프레임워크를 활용하여, Qwen2.5-1M 모델은 1백만 토큰 문맥 시나리오에서 놀라운 3배에서 7배의 미리 채우기 속도 향상을 달성합니다. 이 프레임워크는 오픈 소스 모델을 사용하여 장문맥 처리를 필요로 하는 응용 프로그램을 개발하는 데 효율적이고 강력한 솔루션을 제공합니다. Qwen2.5-1M 시리즈에는 현재 오픈 소스 모델인 Qwen2.5-7B-Instruct-1M 및 Qwen2.5-14B-Instruct-1M, 그리고 API에 액세스하는 모델인 Qwen2.5-Turbo가 포함되어 있습니다. 평가 결과, Qwen2.5-1M 모델은 장문맥 작업에서 크게 향상되었으며, 단문맥 시나리오에서 성능을 희생하지 않았습니다. 특히, Qwen2.5-14B-Instruct-1M 모델은 장문맥 작업에서 GPT-4o-mini를 크게 앞섰으며, 문맥을 여덟 배 더 길게 지원합니다.
Baichuan-Omni-1.5을 소개합니다. 이는 오미모달 이해 능력을 갖추는 데 그치지 않고 엔드 투 엔드 오디오 생성 능력을 제공하는 오미모달 모델입니다. 각 모달의 능력을 희생하지 않고 모달 간에 유창하고 고품질의 상호 작용을 달성하기 위해 세 가지 핵심 측면을 최적화하는 데 중점을 두었습니다. 첫째, 다모달 데이터에 대한 포괄적인 데이터 정제 및 합성 파이프라인을 구축하여 약 500B의 고품질 데이터(텍스트, 오디오 및 비전)를 확보했습니다. 둘째, 오디오 토크나이저(Baichuan-Audio-Tokenizer)가 설계되어 오디오에서 의미론적 및 음향 정보를 모두 캡처하여 MLLM과의 원활한 통합과 향상된 호환성을 가능하게 했습니다. 마지막으로, 다모달 정렬 및 멀티태스크 파인튜닝을 점진적으로 통합하는 다단계 훈련 전략을 설계하여 모든 모달 간 효과적인 시너지를 보장했습니다. Baichuan-Omni-1.5는 포괄적인 오미모달 능력 측면에서 현대 모델(GPT4o-mini 및 MiniCPM-o 2.6 포함)을 선도합니다. 특히, 다양한 다모달 의료 벤치마크에서 Qwen2-VL-72B와 같은 선도적인 모델과 비교 가능한 결과를 달성했습니다.
강화 학습 (RL)은 거의 모든 문제 해결을 위한 프레임워크를 약속합니다. 그러나 실제로는 RL 알고리즘들이 종종 특정 벤치마크에 맞게 조정되며, 세심하게 조정된 초매개변수와 알고리즘 선택에 의존합니다. 최근에는 강력한 모델 기반 RL 방법들이 벤치마크 전반에 걸쳐 인상적인 일반 결과를 보여주었지만, 증가된 복잡성과 느린 실행 시간이라는 비용을 지불해야 하는 한계가 있습니다. 본 논문에서는 다양한 도메인 및 문제 설정을 다룰 수 있는 통합된 모델 없는 심층 강화 학습 알고리즘을 찾으려고 합니다. 이를 위해, 모델 기반 표현을 활용하여 가치 함수를 대략적으로 선형화하고, 모델 기반 RL에서 사용되는 보다 밀도 높은 작업 목표를 활용하면서 계획이나 시뮬레이션된 경로와 관련된 비용을 피합니다. 우리는 MR.Q라는 알고리즘을 여러 일반적인 RL 벤치마크에서 단일 초매개변수 세트로 평가하고, 도메인 특화 및 일반적인 기준에 대해 경쟁력 있는 성능을 보여줌으로써 일반적인 목적의 모델 없는 심층 강화 학습 알고리즘 구축에 구체적인 한걸음을 제공합니다.
알려진 바와 같이, 다중 헤드 아키텍처에서의 하이브리드 이차 및 서브이차 어텐션 모델은 Transformer 및 선형 RNN 모델을 능가하여, 주로 KV 복잡성을 줄이고 효율성을 향상시키는 데 초점을 맞추었습니다. 표현 능력에 대한 추가 연구를 위해, 우리는 순수 원시 RWKV-7 어텐션을 기반으로 한 Qwen 2.5에서 정제된 일련의 모델을 소개합니다. 이는 RNN을 더 표현력 있게 만들고, 트랜스포머를 뛰어넘는 상태 추적 능력을 보여줍니다. RWKV-6 아키텍처를 기반으로 한 QRWK 32B와 함께 작업하며, 16 AMD MI300X GPU를 사용하여 전체 지식 처리 시간을 8시간으로 단축하는 또 다른 방법을 사용하면서 Qwen 2.5의 성능을 유지합니다. 사실, 정제 과정은 Qwen 뿐만 아니라 모든 LLM을 활용할 수 있으며, 더 적은 토큰을 가진 작은 LLM으로부터 더 큰 LLM으로의 지식 전이를 가능하게 합니다. 더 강력한 기반 모델을 구축하는 데 대한 세부 과정을 설명하고 통찰을 공유할 것입니다. 계속해서 업데이트될 예정인 이 연구는 https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1에서 모델 체크포인트와 소스 코드를 제공합니다.
최근 음성 생성 분야의 발전은 대규모 교육 데이터셋에 의해 주도되었습니다. 그러나 현재 모델들은 공식적인 낭독 양식에 한정된 오디오북 데이터셋에 의존하여 실제 인간의 말에 내재된 즉흥성과 변별성을 충분히 잡아내지 못합니다. 이 간극을 메우기 위해 우리는 Emilia-Pipe를 소개합니다. 이는 실제 세계 맥락에서 즉흥적인 인간의 말을 포착하는 가치 있는 그러나 미개척된 데이터에서 고품질 교육 데이터를 추출하기 위한 오픈 소스 전처리 파이프라인입니다. Emilia-Pipe를 활용하여 우리는 Emilia를 구축했습니다. 이는 실제 세계의 말 데이터에서 파생된 최초의 다국어 음성 생성 데이터셋입니다. 이 데이터셋은 영어, 중국어, 독일어, 프랑스어, 일본어 및 한국어로 구성된 101,000시간 이상의 음성을 포함하고 있습니다. 더불어, 우리는 Emilia를 Emilia-Large로 확장하여 216,000시간을 초과하는 데이터셋으로 만들었습니다. 이는 현재 가장 큰 오픈 소스 음성 생성 데이터셋입니다. 체계적인 실험 결과는 Emilia가 다양한 화자 음색과 실제 세계 인간의 말의 발화 양식을 잡아내는 데 있어 전통적인 오디오북 데이터셋을 크게 능가한다는 것을 명백히 보여주며, 실제 세계 인간의 말의 다양성을 잡아내는 데 우수한 성능을 보여줍니다. 더불어, 이 연구는 음성 생성 연구를 발전시키기 위해 데이터셋 크기를 확장하는 중요성을 강조하고, Emilia가 다국어 및 교차언어 음성 생성에 효과적임을 검증합니다.
저희는 iFormer라는 새로운 모바일 하이브리드 비전 네트워크 패밀리를 소개합니다. 이 네트워크는 모바일 애플리케이션에서의 지연 시간과 정확도를 최적화하는 데 초점을 맞추었습니다. iFormer는 효율적으로 합성곱의 빠른 로컬 표현 능력을 셀프 어텐션의 효율적인 전역 모델링 능력과 통합합니다. 로컬 상호작용은 표준 컨볼루션 네트워크인 ConvNeXt를 변형하여 더 가벼운 모바일 네트워크를 설계함으로써 유도됩니다. 우리가 새롭게 소개한 모바일 변조 어텐션은 MHA의 메모리 집약적인 작업을 제거하고 효율적인 변조 메커니즘을 활용하여 동적 전역 표현 능력을 향상시킵니다. 저희는 iFormer가 다양한 작업에서 기존의 가벼운 네트워크를 능가하는 것을 보여주는 포괄적인 실험을 실시했습니다. 특히 iFormer는 iPhone 13에서 1.10ms의 지연 시간으로 ImageNet-1k에서 80.4%의 높은 Top-1 정확도를 달성하여 최근 제안된 MobileNetV4를 비슷한 지연 제약 조건 하에서 능가합니다. 추가적으로, 저희 방법은 COCO 객체 검출, 인스턴스 분할 및 ADE20k 시맨틱 분할을 포함한 하위 작업에서 상당한 개선을 보여주며, 이러한 시나리오에서 고해상도 입력에 대해 모바일 장치에서 낮은 지연 시간을 유지합니다.
언어 모델의 용량을 확장하는 것은 성능을 향상시키고 새로운 능력을 발휘하는 믿을 만한 방법으로 입증되어 왔습니다. 용량은 주로 두 가지 측면으로 정의될 수 있습니다: 모델 매개변수의 수와 예제 당 계산량입니다. 확장은 일반적으로 두 가지 측면을 모두 증가시키는 것을 포함하지만, 이러한 요소 간의 정확한 상호 작용과 종합적인 용량에 대한 기여는 완전히 이해되지 않은 상태입니다. 우리는 희소한 전문가 모델의 맥락에서 이 관계를 탐구합니다. 이는 예제 당 FLOP를 비례적으로 증가시키지 않고 모델 매개변수의 수를 확장할 수 있는 기능을 제공합니다. 우리는 비활성 매개변수의 비율인 희소성 수준을 변화시키는 것이 사전 훈련 및 하류 소수 샷 평가 중 모델의 성능에 어떻게 영향을 미치는지 조사합니다. 다양한 제약 조건(예: 매개변수 크기 및 총 훈련 계산) 하에서 훈련 효율성과 모델 성능을 모두 향상시키는 최적의 희소성 수준이 있다는 것을 발견합니다. 이러한 결과는 MoEs의 확장 법칙에서 희소성의 영향을 더 잘 이해하게 해주며, 이 분야의 기존 작업을 보완하여 더 효율적인 아키텍처를 설계하는 데 통찰을 제공합니다.
테스트 시간 계산 능력을 향상시키는 유망한 방법 중 하나는 스케일링이다. 그러나 테스트 시간 계산은 다양한 방법으로 확장될 수 있으며, 서로 다른 접근 방식을 효과적으로 결합하는 것은 아직 활발히 연구되고 있는 분야이다. 본 연구에서는 SWE-bench 데이터셋의 실제 GitHub 이슈 해결을 위한 맥락에서 이 문제를 탐구한다. 우리의 시스템인 CodeMonkeys는 모델이 테스트 스크립트를 생성하고 실행하는 동시에 코드베이스를 반복적으로 편집할 수 있도록 함으로써 이를 가능하게 한다. 우리는 각 이슈에 대해 이러한 다중 턴 궤적을 샘플링하여 후보 편집의 집합을 생성한다. 이 접근 방식을 통해 우리는 "직렬" 테스트 시간 계산을 궤적 당 반복 횟수를 늘리는 것과 "병렬" 테스트 시간 계산을 문제 당 궤적 수를 증가시킴으로써 확장할 수 있다. 병렬 스케일링을 통해 우리는 다수의 하류 샘플에 초기 비용을 분담함으로써 간단한 방법으로 LLM이 모든 파일을 읽도록 하는 것을 통해 관련 코드베이스 컨텍스트를 식별할 수 있다. 후보 편집을 선택하기 위해 우리는 모델이 생성한 테스트를 사용하여 투표를 결합하고 선택을 위한 최종 다중 턴 궤적을 사용한다. 전반적으로, CodeMonkeys는 약 2300 달러의 예산을 사용하여 SWE-bench Verified의 이슈 중 57.4%를 해결한다. 우리의 선택 방법은 또한 다른 소스에서 후보를 결합하는 데 사용될 수 있다. 기존 최고의 SWE-bench Verified 제출물에서 편집 앙상블을 선택하면 66.2%의 점수를 얻어 앙상블의 최고 구성원을 단독으로 능가한다. 우리는 코드와 데이터를 완전히 공개하며 https://scalingintelligence.stanford.edu/pubs/codemonkeys에서 확인할 수 있다.
비전 언어 모델(VLMs)은 단 몇 년 만에 컴퓨터 비전 모델의 풍경을 급격하게 변화시켰으며, 제로샷 이미지 분류, 이미지 캡션 생성, 시각적 질문 응답 등의 새로운 흥미로운 응용 프로그램을 제공합니다. 순수 비전 모델과는 달리, VLMs는 언어 프롬프팅을 통해 시각적 콘텐츠에 직관적으로 접근할 수 있는 방법을 제공합니다. 이러한 모델의 넓은 적용 가능성은 이러한 모델이 인간 시각과도 일치하는지 여부 - 특히 다중 모달 융합을 통해 인간 유도 시각 편향을 어느 정도 채택하는지, 아니면 순수 비전 모델로부터 그냥 편향을 상속받는지 - 을 묻게 만듭니다. 중요한 시각적 편향 중 하나는 질감 대 모양 편향 또는 지역 정보의 우세성입니다. 본 논문에서는 인기 있는 다양한 VLMs에서 이러한 편향을 연구합니다. 흥미롭게도, VLMs는 종종 비전 인코더보다 모양 편향이 더 강하다는 것을 발견했으며, 이는 다중 모달 모델에서 텍스트를 통해 시각적 편향이 어느 정도 조절된다는 것을 나타냅니다. 텍스트가 실제로 시각적 편향에 영향을 미친다면, 이는 시각적 입력뿐만 아니라 언어를 통해서도 시각적 편향을 조절할 수 있을지도 모른다는 것을 시사하며, 이 가설을 방대한 실험을 통해 확인합니다. 예를 들어, 우리는 프롬프팅만으로 모양 편향을 49%에서 72%로 조절할 수 있습니다. 현재까지, 모든 테스트된 VLMs에 대해 인간의 모양 편향(96%)은 아직 달성되지 않았습니다.
상태 공간 모델(SSM)은 순차적 모델링을 위한 효율적인 대안으로 등장했지만, 모드별 특징을 활용할 수 없어 다중 모달 사전 훈련에서 성능이 제한된다. 본 연구에서는 모드 인식 희소성을 도입하는 새로운 SSM 아키텍처인 Mixture-of-Mamba를 제안한다. Mamba 블록의 모드별 매개변수화를 통해 모드별 특징을 도입한다. Mixture-of-Transformers(W. Liang et al. arXiv:2411.04996; 2024)를 기반으로 하여 모드 인식 희소성의 이점을 SSM에 확장하면서 계산 효율성을 유지한다. 우리는 Mixture-of-Mamba를 세 가지 다중 모달 사전 훈련 설정에서 평가한다: Transfusion(교차된 텍스트 및 연속 이미지 토큰과 확산 손실), Chameleon(교차된 텍스트 및 이산 이미지 토큰), 그리고 음성을 포함한 확장된 세 모드 프레임워크. Mixture-of-Mamba는 일관되게 동일한 손실 값에 더 빨리 도달하면서 상당히 감소된 계산 비용을 보여준다. Transfusion 설정에서 Mixture-of-Mamba는 1.4B 규모에서 훈련 FLOP의 34.76%만 사용하여 동등한 이미지 손실을 달성한다. Chameleon 설정에서 Mixture-of-Mamba는 1.4B 규모에서 FLOP의 42.50%만 사용하여 유사한 이미지 손실을 달성하고, FLOP의 65.40%만 사용하여 유사한 텍스트 손실을 달성한다. 세 모드 설정에서 MoM은 1.4B 규모에서 FLOP의 24.80%만 사용하여 음성 손실을 일치시킨다. 우리의 제거 연구는 투영 구성 요소의 상호 분리의 상호 작용 효과를 강조하며, 공동 분리가 개별 수정보다 더 큰 이득을 제공함을 보여준다. 이러한 결과는 모드 인식 희소성을 다중 모달 사전 훈련에서 새로운 기준을 설정하며, Transformers에서 SSM으로 그 영향을 확장하는 다재다능하고 효과적인 설계 원칙으로 확립된다. 우리의 코드는 https://github.com/Weixin-Liang/Mixture-of-Mamba에서 확인할 수 있다.
분류기 없는 가이드 (CFG)는 다양한 시각적 생성 모델에서 기본 기술이었지만, 샘플링 중 조건부 및 무조건적 모델에서 추론이 필요합니다. 우리는 가이드된 샘플링에서 자유로운 시각 모델을 구축하는 것을 제안합니다. 그 결과로 나온 알고리즘인 가이드 없는 훈련 (GFT)은 샘플링을 단일 모델로 줄이면서도 CFG의 성능을 맞추며 계산 비용을 절반으로 줄입니다. 사전에 훈련된 CFG 네트워크에 의존하는 이전의 증류 기반 접근법과는 달리, GFT는 처음부터 직접 훈련할 수 있습니다. GFT는 구현하기 간단합니다. CFG와 동일한 최대 우도 목표를 유지하며 주로 조건부 모델의 매개변수화에서 차이가 있습니다. GFT를 구현하는 데는 기존 코드베이스에 대부분의 설계 선택과 하이퍼파라미터가 직접 상속되므로 최소한의 수정만 필요합니다. 다섯 가지 다른 시각 모델에 걸쳐 수행한 포괄적인 실험은 GFT의 효과성과 다재다능성을 입증합니다. 확산, 자기 회귀 및 가리개 예측 모델링 영역을 통해, GFT는 일관되거나 때로는 더 낮은 FID 점수를 달성하며, CFG 기준과 유사한 다양성-신뢰도 균형을 유지하면서도 가이드 없이 작동합니다. 코드는 https://github.com/thu-ml/GFT에서 사용할 수 있습니다.
대규모 언어 모델(LLMs)에서의 맞춤형 역할 연기, 즉 캐릭터 일반화는 다양성과 비용 효율성으로 인해 역할 연기 대화 에이전트를 개발하고 배포하는 데 점점 더 주목받고 있습니다. 본 연구는 대규모 데이터 합성 방법을 탐구하여 LLMs에 캐릭터 일반화 능력을 제공합니다. 우리는 Persona Hub의 페르소나를 사용하여 대규모 캐릭터 프로필을 합성한 후 응답 재작성과 응답 생성 두 가지 전략을 탐구하여 캐릭터에 맞는 지시 응답을 생성합니다. 우리의 합성 지시 조정 데이터가 캐릭터 일반화에 대한 효과를 검증하기 위해 LLaMA-3 8B 모델을 사용한 지도 미세 조정(SFT)을 수행합니다. 우리의 최고 성능 모델은 원래 LLaMA-3 8B Instruct 모델을 강화하고 역할 연기 대화에서 GPT-4o 모델과 유사한 성능을 달성합니다. 우리는 합성 캐릭터와 지시 조정 대화를 공개 연구를 지원하기 위해 공개합니다.
대규모 디코더 전용 언어 모델의 우세가 시퀀스 처리에서의 기본적인 효율성 장점에도 불구하고 인코더-디코더 구조를 가려냅니다. 10억 개 이하의 매개변수를 가진 소규모 언어 모델(SLM)의 경우 GPU, CPU 및 NPU 플랫폼을 통해 체계적인 분석을 통해 인코더-디코더 구조가 엣지 장치에서 디코더 전용 모델에 비해 첫 번째 토큰 대기 시간이 47% 낮고 처리량이 4.7배 높음을 확인했습니다. 이러한 이득은 인코더-디코더의 일회성 입력 처리 및 이해 및 생성 단계의 효율적인 분리에 기인할 수 있습니다. 우리는 새로운 지식 증류 프레임워크를 소개하여 인코더-디코더 모델이 대규모 확장 가능한 디코더 전용 교사로부터 능력을 활용하면서 그들의 구조적 장점을 유지하며 다양한 작업에서 최대 6개의 성능 포인트 향상을 달성했습니다. 입력 및 출력 분포가 서로 다른 처리 방식에서 이점을 얻을 수 있는 비대칭 시퀀스 작업에서 상당한 이득을 얻었습니다. RoPE(회전 위치 임베딩) 및 비전 인코더와 같은 현대적인 발전과 결합할 때, 우리의 체계적인 조사는 인코더-디코더 구조가 자원 제한적 환경에서 능력 있는 언어 모델을 배포하는 더 실용적인 경로를 제공함을 보여줍니다. 우리의 연구 결과는 디코더 전용 확장으로의 우세한 추세에 도전하여, 특히 장치 내 및 엣지 배포에서 계산 효율성이 중요한 경우에는 구조적 선택이 매개변수 예산이 줄어들 때 점점 중요해진다는 것을 보여줍니다.
우리는 실현 가능한 학습(Feasible Learning, FL)을 소개합니다. 이는 모델이 각 훈련 샘플의 손실을 제한하는 실행 가능성 문제를 해결함으로써 훈련되는 샘플 중심의 학습 패러다임입니다. 평균 성능을 최적화하는 보편적인 경험적 위험 최소화(ERM) 프레임워크와 대조적으로, FL은 각 개별 데이터 포인트에서 만족스러운 성능을 요구합니다. 지정된 성능 임계값을 충족하는 모든 모델이 유효한 FL 솔루션이므로, 최적화 알고리즘과 그 동역학은 결과 솔루션의 특성을 형성하는 데 중요한 역할을 합니다. 특히, 우리는 훈련 중에 각 샘플의 중요성을 동적으로 재조정하는 원시-이중 접근을 연구합니다. 실무에서 의미 있는 임계값 설정의 어려움을 해결하기 위해, 최소 노름의 여유 변수를 포함하는 FL의 완화를 소개합니다. 이미지 분류, 연령 회귀 및 대형 언어 모델에서의 선호도 최적화를 포함한 실험적 분석을 통해, FL을 통해 훈련된 모델이 ERM과 비교하여 개선된 tail 동작을 보여주면서 평균 성능에는 미미한 영향만 미치는 것을 입증합니다.