번역이 포함된 일일 선별된 AI 연구 논문
우리는 첫 번째 세대 추론 모델, DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. DeepSeek-R1-Zero는 대규모 강화 학습(RL)을 통해 훈련된 모델로, 지도 미세 조정(SFT) 없이 예비 단계로서 놀라운 추론 능력을 보여줍니다. RL을 통해 DeepSeek-R1-Zero는 다수의 강력하고 흥미로운 추론 행동이 자연스럽게 나타납니다. 그러나 읽기 어려움과 언어 혼합과 같은 문제에 직면합니다. 이러한 문제를 해결하고 추론 성능을 더 향상시키기 위해 우리는 DeepSeek-R1을 소개합니다. DeepSeek-R1은 RL 이전에 다단계 훈련과 콜드 스타트 데이터를 통합합니다. DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 유사한 성능을 달성합니다. 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 DeepSeek-R1에서 정제된 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 제공합니다.
다음 토큰 예측을 사용한 언어 모델 사전 훈련은 컴퓨팅 확장에 효과적임이 입증되었지만 사용 가능한 훈련 데이터 양에 한계가 있습니다. 강화 학습(RL) 확장은 인공 지능의 지속적인 개선을 위한 새로운 축을 열어주며, 대형 언어 모델(LLM)이 보상을 통해 탐색을 학습하여 훈련 데이터를 확장할 수 있다는 약속이 있습니다. 그러나 이전의 발표된 연구는 경쟁력 있는 결과를 내지 못했습니다. 이에 우리는 Kimi k1.5의 훈련 방법에 대해 보고합니다. 최신 멀티 모달 LLM은 RL로 훈련되었으며, RL 훈련 기술, 멀티 모달 데이터 레시피, 그리고 인프라 최적화를 포함합니다. 긴 문맥 확장과 개선된 정책 최적화 방법은 우리의 접근의 주요 구성 요소로, 몬테카를로 트리 탐색, 가치 함수, 그리고 프로세스 보상 모델과 같은 더 복잡한 기술에 의존하지 않고 간단하고 효과적인 RL 프레임워크를 수립합니다. 특히, 우리 시스템은 다양한 벤치마크와 모달리티에서 최첨단 추론 성능을 달성하며, AIME에서 77.5, MATH 500에서 96.2, Codeforces에서 94번째 백분위, MathVista에서 74.9 등의 결과를 달성하여 OpenAI의 o1과 일치합니다. 더불어, 우리는 긴-CoT 기술을 활용하여 짧은-CoT 모델을 개선하는 효과적인 long2short 방법을 제시하며, 이를 통해 AIME에서 60.8, MATH500에서 94.6, LiveCodeBench에서 47.3 등의 최첨단 짧은-CoT 추론 결과를 달성하여 GPT-4o와 Claude Sonnet 3.5와 같은 기존 짧은-CoT 모델을 큰 폭으로 앞지르고 있습니다(+550%까지).
본 논문에서는 이미지 및 비디오 이해를 위한 더욱 고급화된 다중 모달 기반 모델인 VideoLLaMA3을 제안합니다. VideoLLaMA3의 핵심 설계 철학은 시각 중심입니다. "시각 중심"의 의미는 두 가지로 나뉩니다: 시각 중심 훈련 패러다임과 시각 중심 프레임워크 설계입니다. 우리의 시각 중심 훈련 패러다임의 주요 통찰은 고품질 이미지-텍스트 데이터가 이미지 및 비디오 이해에 중요하다는 것입니다. 대규모 비디오-텍스트 데이터셋을 준비하는 대신, 대규모이면서 고품질의 이미지-텍스트 데이터셋을 구축하는 데 초점을 맞춥니다. VideoLLaMA3는 네 가지 훈련 단계를 갖고 있습니다: 1) 시각 중심 정렬 단계는 시각 인코더와 프로젝터를 사전에 준비합니다. 2) 시각-언어 사전 훈련 단계는 다양한 유형(장면 이미지, 문서, 차트 포함)의 대규모 이미지-텍스트 데이터와 텍스트 데이터를 활용하여 시각 인코더, 프로젝터, 그리고 LLM을 함께 튜닝합니다. 3) 다중 작업 미세 튜닝 단계는 이미지-텍스트 SFT 데이터를 포함하여 하위 작업에 대비하고 비디오-텍스트 데이터를 활용하여 비디오 이해의 기반을 확립합니다. 4) 비디오 중심 미세 튜닝은 모델의 비디오 이해 능력을 더욱 향상시킵니다. 프레임워크 설계 측면에서, 이미 사전 훈련된 시각 인코더는 이미지의 세부 정보를 더 잘 포착하기 위해 다양한 크기의 이미지를 해당하는 수의 시각 토큰으로 인코딩하도록 조정됩니다. 비디오 입력의 경우, 유사성에 따라 시각 토큰 수를 줄여 비디오 표현이 보다 정확하고 간결해지도록 합니다. 시각 중심 설계의 장점을 살려, VideoLLaMA3은 이미지 및 비디오 이해 벤치마크에서 탁월한 성능을 달성합니다.
가상 영화 제작은 대단히 복잡한 의사 결정 과정이 필요합니다. 대본 작성, 가상 촬영 기술, 정확한 배우 위치 및 행동을 포함합니다. 최근 언어 에이전트 기반 사회에서 자동 의사 결정 기술의 발전에 영감을 받아, 본 논문은 FilmAgent를 소개합니다. 이는 구축된 3D 가상 공간에서 영화 자동화를 위한 LLM 기반의 다중 에이전트 협업 프레임워크입니다. FilmAgent는 감독, 각본가, 배우, 촬영 감독 등 다양한 스텝을 시뮬레이션하며 영화 제작 워크플로우의 주요 단계를 다룹니다. 에이전트 팀은 반복적인 피드백과 수정을 통해 협업하며 중간 스크립트를 검증하고 환각을 줄입니다. 15가지 아이디어와 4가지 주요 측면에서 생성된 비디오를 평가합니다. 인간 평가 결과, FilmAgent는 모든 측면에서 모든 기준선을 능가하며 평균 5점 만점 중 3.98점을 얻어 영화 제작에서 다중 에이전트 협업의 실행 가능성을 보여줍니다. 추가 분석 결과, GPT-4o 모델을 사용하더라도 FilmAgent는 단일 에이전트 o1을 능가하여 잘 조정된 다중 에이전트 시스템의 장점을 보여줍니다. 마지막으로, 영화 제작에서 OpenAI의 텍스트-비디오 모델 Sora와 FilmAgent의 보완적인 강점과 약점에 대해 논의합니다.
대형 언어 모델 (LLMs)은 인상적인 성능을 보여주지만, 다시 교육을 받지 않고는 인간의 선호도에 빠르게 적응할 수 있는 유연성이 부족합니다. 본 연구에서는 추론 중에 인간의 선호도와 일치시키는 Test-time Preference Optimization (TPO)이라는 프레임워크를 소개합니다. 이를 통해 모델 파라미터를 업데이트할 필요 없이 LLM 출력을 인간의 선호도에 맞추게 됩니다. TPO는 순수한 수치적 보상에 의존하는 대신 보상 신호를 텍스트적 비평으로 변환하고 이를 텍스트 보상으로 사용하여 응답을 반복적으로 개선합니다. 지시 따르기, 선호도 조정, 안전, 수학 등을 다루는 벤치마크 평가에서 TPO가 점차적으로 인간의 선호도와 일치도를 향상시킨다는 것을 보여줍니다. 특히, 몇 단계의 TPO 후에 초기에 일치하지 않았던 Llama-3.1-70B-SFT 모델이 일치한 대응 모델인 Llama-3.1-70B-Instruct를 능가할 수 있음을 확인했습니다. 더불어, TPO는 추론 중에 검색 폭과 깊이 모두 효율적으로 확장됩니다. 사례 연구를 통해 TPO가 LLM이 보상 신호를 해석하고 실행하는 능력을 활용하는 방법을 설명합니다. 우리의 연구 결과는 TPO를 테스트 시 선호도 최적화의 실용적이고 가벼운 대안으로 확립하며, 실시간으로 일치를 달성합니다. 우리의 코드는 https://github.com/yafuly/TPO에서 공개되어 있습니다.
전문가 혼합(Mixture-of-Experts, MoE) 모델은 대부분 라우터를 사용하여 토큰을 특정 전문가 모듈에 할당하고, 부분적 매개변수만 활성화시켜 밀집 모델을 능가하는 경우가 많습니다. 라우터의 의사 결정과 전문가의 실행 사이의 분리가 전문가 선택과 학습의 비효율적인 문제로 이어지고 있다고 주장합니다. 이에 대응하여 입력을 처리하기 위해 전문가들이 자율적으로 자신을 선택하는 새로운 MoE 패러다임인 전문가 자율성(Autonomy-of-Experts, AoE)을 제안합니다. AoE은 전문가가 토큰을 효과적으로 처리할 수 있는 능력에 대해 자각하며 내부 활성화의 규모에 반영되는 통찰에 기초합니다. AoE에서는 라우터가 제거되고, 대신 전문가들이 입력에 대한 내부 활성화를 사전 계산하고 활성화 정규화에 따라 순위가 매겨집니다. 최상위 전문가들만 전진 패스를 진행하고, 다른 전문가들은 중단됩니다. 활성화 사전 계산의 오버헤드는 저랭크 가중치 인수분해를 통해 줄어듭니다. 이 자가 평가 후 파트너 비교 접근 방식은 전문가 선택과 효과적인 학습을 보장합니다. 700M에서 4B까지의 매개변수를 가진 언어 모델을 사전 훈련하여, AoE가 효율성을 유지하면서 전통적인 MoE 모델을 능가하는 것을 시연합니다.
최근에는, 오랫동안 사고해온 LLMs(예: OpenAI의 O1)가 사람들이 복잡한 문제를 곰곰히 생각하는 방식과 유사한 확장된 추론 과정을 채택하고 있다. 이러한 추론 패러다임은 모델의 문제 해결 능력을 크게 향상시키고 유망한 결과를 이룩하였다. 그러나, 오랫동안 사고하는 과정은 추론 시간을 상당히 증가시킨다. 긴 사고 과정의 LLMs의 추론 오버헤드를 줄이면서 정확성을 보장하는 것은 시급한 과제이다. 본 논문에서는, 오랫동안 사고하는 모델이 문제의 난이도와 추론 중복에 기반한 토큰 예산을 효과적으로 할당하는 데 어려움을 겪는 것을 실험적으로 보여준다. 이를 해결하기 위해, 우리는 Length-Harmonizing Fine-Tuning(O1-Pruner)을 제안한다. 이 방법은 정확도를 유지하면서 추론 오버헤드를 최소화하는 것을 목표로 한다. 이 효과적인 세밀 조정 방법은 먼저 사전 샘플링을 통해 LLM의 기준 성능을 추정하고, 그런 다음 RL 스타일의 세밀 조정을 사용하여 모델이 정확도 제약 하에 더 짧은 추론 과정을 생성하도록 장려한다. 이를 통해 모델은 더 낮은 중복성으로 효율적인 추론을 달성하면서도 정확도를 유지할 수 있다. 다양한 수학적 추론 벤치마크 실험에서, O1-Pruner는 추론 오버헤드를 크게 줄이는데 그치지 않고 더 높은 정확도를 달성하여, 이러한 과제에 대한 새롭고 유망한 해결책을 제공한다. 우리의 코드는 곧 https://github.com/StarDewXXX/O1-Pruner 에서 공개될 예정이다.
대규모 언어 모델 (LLM)의 테스트 시 스케일링을 위한 일반적인 전략 인 Best-of-N (BoN) 샘플링은 보상 모델에 의존하여 여러 세대에서 최적의 후보 솔루션을 선택합니다. 그러나 기존의 보상 모델은 종종 임의적이고 일관성 없는 점수를 할당하여 효과를 제한합니다. 이를 해결하기 위해 우리는 BoN 샘플링을 위한 Pairwise Reward Model (Pairwise RM)을 제안하며, 이는 노크아웃 토너먼트와 결합됩니다. Pairwise RM은 절대적인 점수를 할당하는 대신, 하나의 수학 문제에 대해 두 후보 솔루션의 정확성을 동시에 평가합니다. 이 접근 방식은 임의의 점수 매기기를 필요로하지 않게 하며, 솔루션의 상호 비교를 통해 교차 유효성 검사를 가능하게 합니다. 노크아웃 토너먼트에서 Pairwise RM은 후보 솔루션 간의 쌍별 비교를 수행하고 반복적으로 잘못된 것을 제거합니다. 우리는 NumiaMath에서 유도된 443K 쌍별 비교로 구성된 대규모 데이터 세트인 \ourdataset을 구축하고 gemini-1.5-flash를 사용하여 주석을 달았으며, Pairwise RM을 지도된 세밀 조정을 통해 훈련시켰습니다. MATH-500 및 올림피아드 벤치에서의 실험 결과는 기존의 판별적 보상 모델보다 상당한 개선을 보여주었습니다. 상위 50% 어려운 문제에서 40%에서 60%의 상대적 개선이 달성되었습니다.
다중 뷰 3D 재구성은 컴퓨터 비전에서 핵심적인 과제로 남아 있으며, 특히 다양한 관점에서 정확하고 확장 가능한 표현이 필요한 응용 프로그램에서 그 중요성이 부각됩니다. DUSt3R과 같은 현재 주요 방법은 기본적으로 쌍으로 이미지를 처리하고 여러 뷰에서 재구성하기 위해 비용이 많이 드는 전역 정렬 절차가 필요한 방식을 채택하고 있습니다. 본 연구에서는 DUSt3R에 대한 새로운 다중 뷰 일반화인 Fast 3D Reconstruction (Fast3R)을 제안합니다. Fast3R은 여러 뷰를 병렬로 처리함으로써 효율적이고 확장 가능한 3D 재구성을 달성합니다. Fast3R의 Transformer 기반 아키텍처는 한 번의 전방향 패스에서 N개의 이미지를 전달하며 반복 정렬이 필요하지 않습니다. 카메라 포즈 추정 및 3D 재구성에 대한 광범위한 실험을 통해 Fast3R은 최첨단 성능을 보여주며 추론 속도 개선과 오류 누적 감소에 상당한 향상을 제공합니다. 이러한 결과는 Fast3R을 다중 뷰 응용 프로그램에 대한 견고한 대안으로 확립하며, 재구성 정확도를 희생하지 않고 향상된 확장성을 제공합니다.
대규모 언어 모델(LLMs)은 인공지능을 변혁시키고, 자율적인 계획과 실행이 가능한 과제 중심 시스템으로 진화하고 있습니다. LLMs의 주요 응용 중 하나는 대화형 AI 시스템으로, 다중 턴 대화를 탐색하고, 도메인 특정 API를 통합하며 엄격한 정책 제약을 준수해야 합니다. 그러나 이러한 에이전트를 평가하는 것은 실제 상호작용의 복잡성과 변동성을 포착하지 못하는 기존 방법으로 인해 중요한 도전 과제입니다. 우리는 대화형 AI 시스템을 철저하게 평가하기 위해 설계된 확장 가능한 오픈 소스 다중 에이전트 프레임워크인 IntellAgent를 소개합니다. IntellAgent는 정책 주도 그래프 모델링, 현실적인 이벤트 생성, 상호작용적인 사용자-에이전트 시뮬레이션을 결합하여 다양하고 합성적인 벤치마크의 생성을 자동화합니다. 이 혁신적인 접근 방식은 정책 주도의 그래프 모델을 활용하여 에이전트 능력과 정책 제약의 미묘한 상호작용을 포착함으로써 정적이고 수동으로 유지되는 벤치마크의 한계를 해소합니다. IntellAgent는 대화형 AI를 평가하는 패러다임 변화를 대표합니다. 복잡성의 다양한 수준에서 다양한 정책 시나리오를 시뮬레이션함으로써 IntellAgent는 에이전트 능력과 정책 제약의 미묘한 상호작용을 포착합니다. 기존 방법과 달리 그래프 기반 정책 모델을 사용하여 정책 상호작용의 관계, 가능성 및 복잡성을 표현함으로써 상세한 진단을 제공합니다. IntellAgent는 또한 핵심적인 성능 간극을 식별하여 효과적인 최적화에 대한 실행 가능한 통찰을 제공합니다. 모듈화된 오픈 소스 설계는 새로운 도메인, 정책 및 API의 원활한 통합을 지원하여 재현성과 커뮤니티 협력을 촉진합니다. 우리의 연구 결과는 IntellAgent가 연구와 배포 간의 과제를 극복하며 대화형 AI를 발전시키는 데 효과적인 프레임워크로 작용함을 입증합니다. 해당 프레임워크는 https://github.com/plurai-ai/intellagent에서 이용 가능합니다.