번역이 포함된 일일 선별된 AI 연구 논문
수학적 추론은 그 복잡하고 구조화된 특성으로 인해 언어 모델에게 상당한 도전 과제로 여겨져 왔다. 본 논문에서는 DeepSeek-Coder-Base-v1.5 7B 모델을 기반으로 Common Crawl에서 수집된 120B 개의 수학 관련 토큰과 자연어 및 코드 데이터를 추가하여 사전 학습을 계속한 DeepSeekMath 7B를 소개한다. DeepSeekMath 7B는 외부 도구나 투표 기법을 사용하지 않고도 경쟁 수준의 MATH 벤치마크에서 51.7%의 인상적인 점수를 달성하여 Gemini-Ultra와 GPT-4의 성능 수준에 근접했다. DeepSeekMath 7B의 64개 샘플에 대한 자기 일관성(self-consistency)은 MATH에서 60.9%를 기록했다. DeepSeekMath의 수학적 추론 능력은 두 가지 주요 요인에 기인한다: 첫째, 공개적으로 이용 가능한 웹 데이터의 잠재력을 정교하게 설계된 데이터 선택 파이프라인을 통해 활용한다. 둘째, Proximal Policy Optimization(PPO)의 변형인 Group Relative Policy Optimization(GRPO)을 도입하여 수학적 추론 능력을 향상시키면서 동시에 PPO의 메모리 사용을 최적화한다.
텍스트-이미지 모델은 사용자가 자연어를 통해 이미지 생성 과정을 안내할 수 있게 함으로써 새로운 수준의 창의적 유연성을 제공합니다. 그러나 이러한 모델을 사용하여 다양한 프롬프트에서 동일한 주제를 일관되게 표현하는 것은 여전히 어려운 과제입니다. 기존 접근 방식은 특정 사용자 제공 주제를 설명하는 새로운 단어를 모델에 가르치기 위해 모델을 미세 조정하거나 이미지 조건화를 추가합니다. 이러한 방법은 주제별로 긴 최적화 과정이나 대규모 사전 학습이 필요합니다. 더욱이, 생성된 이미지를 텍스트 프롬프트와 정렬하는 데 어려움을 겪으며, 여러 주제를 표현하는 데도 문제가 있습니다. 여기서 우리는 사전 학습된 모델의 내부 활성화를 공유함으로써 일관된 주제 생성을 가능하게 하는 학습이 필요 없는 접근 방식인 ConsiStory를 제시합니다. 우리는 이미지 간 주제 일관성을 촉진하기 위해 주제 기반 공유 어텐션 블록과 대응 기반 특징 주입을 도입했습니다. 또한, 주제 일관성을 유지하면서 레이아웃 다양성을 장려하기 위한 전략을 개발했습니다. 우리는 ConsiStory를 다양한 베이스라인과 비교하고, 단일 최적화 단계 없이도 주제 일관성과 텍스트 정렬에서 최첨단 성능을 입증했습니다. 마지막으로, ConsiStory는 다중 주제 시나리오로 자연스럽게 확장될 수 있으며, 일반적인 객체에 대한 학습 없는 개인화도 가능하게 합니다.
오픈소스 커뮤니티가 Mixture-of-Experts(MoE) 기반 대규모 언어 모델(LLM)을 더 잘 이해할 수 있도록, 우리는 650M에서 34B 파라미터 규모에 이르고 최대 1T 이상의 토큰으로 학습된 완전히 오픈소스화되고 재현 가능한 디코더 전용 MoE LLM 시리즈인 OpenMoE를 학습 및 공개합니다. 우리의 연구는 MoE 기반 LLM이 밀집형(dense) LLM보다 더 유리한 비용 대비 효과를 제공할 수 있음을 확인하며, 이는 향후 LLM 개발의 잠재적 효율성을 강조합니다. 이 연구의 또 다른 중요한 기여는 OpenMoE 모델 내의 라우팅 메커니즘에 대한 심층 분석으로, 세 가지 중요한 발견을 이끌어냈습니다: 컨텍스트 독립적 전문화(Context-Independent Specialization), 초기 라우팅 학습(Early Routing Learning), 그리고 끝으로 향하는 드롭(Drop-towards-the-End). 우리는 MoE 모델에서의 라우팅 결정이 주로 토큰 ID에 기반하며 컨텍스트 관련성이 거의 없음을 발견했습니다. 토큰-전문가 할당은 사전 학습 단계 초기에 결정되며 대부분 변경되지 않습니다. 이러한 불완전한 라우팅은 특히 다중 턴 대화와 같은 순차적 작업에서 성능 저하를 초래할 수 있으며, 시퀀스의 후반부에 나타나는 토큰이 더 자주 드롭될 가능성이 높습니다. 마지막으로, 우리는 위에서 언급한 관찰과 분석을 바탕으로 설계를 재고합니다. 향후 MoE LLM 개발을 촉진하기 위해, 우리가 발견한 문제를 완화하고 기존 MoE LLM 설계를 더욱 개선할 수 있는 잠재적 전략을 제안합니다.
상태 공간 모델(SSM)은 최근 대규모 언어 모델링 벤치마크에서 트랜스포머와 경쟁력 있는 성능을 보여주면서 시퀀스 길이에 대한 선형 시간 및 메모리 복잡도를 달성했습니다. 최근 공개된 SSM 모델인 Mamba는 언어 모델링 및 긴 시퀀스 처리 작업에서 인상적인 성능을 보여주고 있습니다. 동시에, 전문가 혼합(MoE) 모델은 더 큰 메모리 사용량을 희생하면서도 추론의 계산 및 지연 시간 비용을 크게 줄이면서 뛰어난 성능을 보여주었습니다. 본 논문에서는 Mamba SSM과 MoE를 결합하여 두 가지의 장점을 모두 얻는 새로운 아키텍처인 BlackMamba를 제시합니다. 우리는 BlackMamba가 Mamba와 트랜스포머 기준 모델 모두에 대해 경쟁력 있는 성능을 보이며, 추론 및 학습 FLOPs에서 더 나은 성능을 보임을 입증합니다. 우리는 300B 토큰의 맞춤형 데이터셋에서 340M/1.5B 및 630M/2.8B BlackMamba 모델을 완전히 학습시키고 오픈소스로 공개합니다. BlackMamba는 SSM의 선형 복잡도 생성과 MoE의 저렴하고 빠른 추론이라는 두 가지 장점을 모두 상속하고 결합함을 보여줍니다. 우리는 모든 가중치, 체크포인트 및 추론 코드를 오픈소스로 공개합니다. 추론 코드는 https://github.com/Zyphra/BlackMamba에서 확인할 수 있습니다.
해석 가능한 기계 학습은 지난 10년 동안 급증한 관심 분야로, 이는 점점 더 방대해지는 데이터셋과 딥 뉴럴 네트워크의 부상에 의해 촉발되었습니다. 동시에, 대형 언어 모델(LLM)은 다양한 작업에서 놀라운 능력을 보여주며, 해석 가능한 기계 학습에서의 기회를 재고할 수 있는 가능성을 제공했습니다. 특히, 자연어로 설명할 수 있는 능력은 LLM이 인간에게 제공될 수 있는 패턴의 규모와 복잡성을 확장할 수 있게 합니다. 그러나 이러한 새로운 능력은 환각적인 설명과 엄청난 계산 비용과 같은 새로운 도전 과제를 제기합니다. 이 포지션 페이퍼에서 우리는 먼저 LLM 해석(LLM을 해석하는 것과 LLM을 설명에 사용하는 것 모두)이라는 새롭게 부상하는 분야를 평가하기 위한 기존 방법들을 검토합니다. 우리는 LLM이 한계점에도 불구하고, LLM 자체를 감사하는 것을 포함한 다양한 애플리케이션에서 더 야심찬 범위로 해석 가능성을 재정의할 기회를 가지고 있다고 주장합니다. 우리는 LLM 해석을 위한 두 가지 부상하는 연구 우선순위를 강조합니다: LLM을 사용하여 새로운 데이터셋을 직접 분석하는 것과 상호작용적 설명을 생성하는 것입니다.
실제 애플리케이션에서 언어 모델(LM)의 행동을 제어하기 위해 인간의 피드백과 정렬하는 것은 매우 중요합니다. 최근 등장한 DPO와 SLiC와 같은 정책 최적화 방법들은 기존의 인간 피드백 강화 학습(RLHF) 접근법에 대한 유망한 대안으로 자리 잡고 있습니다. 실제로 인간 피드백은 프롬프트를 읽는 비용을 절감하기 위해 여러 응답에 대한 순위 목록 형태로 제공되는 경우가 많습니다. 또한, 여러 응답은 보상 모델이나 AI 피드백에 의해 순위가 매겨질 수도 있습니다. 그러나 이러한 응답 목록을 직접적으로 활용하는 연구는 부족한 실정입니다. 본 연구에서는 LM 정렬 문제를 리스트와이즈 순위 문제로 공식화하고, Listwise Preference Optimization(LiPO) 프레임워크를 제안합니다. 이 프레임워크에서는 정책이 주어진 프롬프트에 대한 여러 가능한 응답의 순위 목록으로부터 더 효과적으로 학습할 수 있습니다. 이 관점은 Learning-to-Rank(LTR)와의 명시적인 연결을 제공하며, 기존의 대부분의 선호도 최적화 작업은 특히 쌍별(pairwise) 순위 목표로 매핑될 수 있습니다. 이러한 연결을 바탕으로, LM 정렬에 대해 잘 연구되지 않은 순위 목표들을 검토하고, 리스트 크기가 2일 때 DPO와 SLiC가 특수한 경우임을 보여줍니다. 특히, 최신 리스트와이즈 순위 목표를 활용하고 각 선호 쌍을 더 발전된 방식으로 가중치를 부여하는 LiPO-λ 방법을 강조합니다. 우리는 LiPO-λ가 두 가지 선호도 정렬 작업에서 DPO와 SLiC를 명확한 차이로 능가할 수 있음을 보여줍니다.
최근 텍스트-투-비디오 확산 모델은 인상적인 발전을 이루었습니다. 실제로 사용자들은 맞춤형 비디오 제작을 위해 객체의 움직임과 카메라 이동을 독립적으로 제어할 수 있는 기능을 원하는 경우가 많습니다. 그러나 현재의 방법들은 객체의 움직임과 카메라 이동을 분리된 방식으로 별도로 제어하는 데 초점을 맞추지 않아 텍스트-투-비디오 모델의 제어 가능성과 유연성이 제한됩니다. 본 논문에서는 사용자가 하나 이상의 객체와/또는 카메라 이동에 대한 움직임을 독립적으로 지정할 수 있는 Direct-a-Video 시스템을 소개합니다. 마치 비디오를 연출하듯이 말이죠. 우리는 객체의 움직임과 카메라 이동을 분리하여 제어하기 위한 간단하면서도 효과적인 전략을 제안합니다. 객체의 움직임은 모델의 내재된 사전 지식을 활용한 공간적 교차 주의력 변조를 통해 제어되며, 추가적인 최적화가 필요하지 않습니다. 카메라 이동의 경우, 우리는 정량적인 카메라 이동 매개변수를 해석하기 위해 새로운 시간적 교차 주의력 레이어를 도입했습니다. 또한, 우리는 소규모 데이터셋에서 이러한 레이어를 자기 지도 방식으로 학습하기 위해 증강 기반 접근법을 사용하여 명시적인 움직임 주석의 필요성을 없앴습니다. 두 구성 요소는 독립적으로 작동하여 개별적 또는 결합된 제어가 가능하며, 개방형 도메인 시나리오로 일반화할 수 있습니다. 광범위한 실험을 통해 우리 방법의 우수성과 효과성을 입증했습니다. 프로젝트 페이지: https://direct-a-video.github.io/.
우리는 사용자 중심의 비디오 생성 프레임워크인 InteractiveVideo를 소개합니다. 기존의 사용자가 제공한 이미지나 텍스트를 기반으로 작동하는 생성 방식과 달리, 본 프레임워크는 동적 상호작용을 위해 설계되었으며, 사용자가 전체 생성 과정 동안 텍스트 및 이미지 프롬프트, 페인팅, 드래그 앤 드롭 등 다양한 직관적인 메커니즘을 통해 생성 모델에 지시할 수 있도록 합니다. 우리는 시너지 효과를 내는 다중 모달 지시 메커니즘(Synergistic Multimodal Instruction mechanism)을 제안하며, 이는 사용자의 다중 모달 지시를 생성 모델에 원활하게 통합하여 사용자 입력과 생성 과정 간의 협력적이고 반응적인 상호작용을 용이하게 합니다. 이 접근 방식은 정밀하고 효과적인 사용자 지시를 통해 생성 결과를 반복적이고 세밀하게 개선할 수 있게 합니다. InteractiveVideo를 통해 사용자는 비디오의 주요 측면을 꼼꼼하게 조정할 수 있는 유연성을 갖게 됩니다. 참조 이미지를 페인팅하고, 의미를 편집하며, 비디오 모션을 조정하여 요구 사항이 완전히 충족될 때까지 작업할 수 있습니다. 코드, 모델 및 데모는 https://github.com/invictus717/InteractiveVideo에서 확인할 수 있습니다.
현대의 대규모 언어 모델(LLM)에 대한 구조적 가지치기(pruning)는 높은 계산 요구량을 줄이는 방법으로 부상하고 있다. 너비 가지치기(width pruning)는 투영 가중치 행렬의 크기를 줄이지만(예: 어텐션 헤드 제거), 층 수는 유지한다. 반면, 깊이 가지치기(depth pruning)는 전체 층이나 블록을 제거하면서 남아 있는 가중치의 크기는 그대로 유지한다. 현재 대부분의 연구는 너비 가지치기만을 다루거나 너비와 깊이 가지치기를 혼합한 방식에 초점을 맞추고 있으며, 두 가지치기 단위(너비 대 깊이)가 LLM 추론 효율성에 미치는 영향에 대한 비교 분석은 거의 이루어지지 않았다. 본 연구에서는 단순한 깊이 가지치기 접근법이 최근의 너비 가지치기 방법들과 제로샷(zero-shot) 작업 성능 측면에서 경쟁할 수 있음을 보여준다. 우리의 가지치기 방법은 특히 LLM 실행을 위해 제한된 배치 크기가 요구되는 메모리 제약 조건에서 추론 속도를 향상시키며, 이러한 조건에서는 너비 가지치기가 효과적이지 않다. 이 연구가 LLM을 로컬 및 엣지 디바이스에 배포하는 데 도움이 되기를 바란다.
인간이 거주하는 지구와 현대 AI 에이전트가 생성되는 디지털 영역 사이에는 감각적 격차가 존재합니다. 현실 세계에서 인간처럼 유연하게 감지하고, 사고하며, 행동할 수 있는 AI 에이전트를 개발하기 위해서는 디지털 세계와 물리적 세계 사이의 현실성 격차를 해소하는 것이 필수적입니다. 실제 하드웨어와 제어의 제약 없이, 우리가 거주하는 것과 같이 풍부하고 다양한 환경에서 에이전트를 구현할 수 있는 방법은 무엇일까요? 이를 위해 우리는 V-IRL을 소개합니다: 이 플랫폼은 에이전트가 가상이면서도 현실적인 환경에서 현실 세계와 확장 가능하게 상호작용할 수 있도록 합니다. 우리의 플랫폼은 다양한 실용적 작업을 수행할 수 있는 에이전트를 개발하기 위한 놀이터 역할을 하며, 전 세계에 걸친 현실 세계 데이터와의 인식, 의사결정, 상호작용 능력의 진전을 측정할 수 있는 방대한 테스트베드로 기능합니다.
최근 멀티모달 대형 언어 모델(LLM)의 발전에 따라, 이미지-텍스트 데이터에서 더욱 정보가 풍부한 실제 세계의 비디오로 확장하는 데 대한 관심이 높아지고 있습니다. 정적 이미지와 비교하여 비디오는 시공간 역학을 모델링해야 하기 때문에 대규모 사전 학습에 있어 독특한 도전 과제를 제시합니다. 본 논문에서는 각 비디오를 키프레임과 시간적 움직임으로 표현하는 효율적인 비디오 분해를 통해 비디오-언어 사전 학습의 이러한 한계를 해결합니다. 이를 위해 시각적 및 시간적 정보를 소수의 토큰으로 이산화하는 잘 설계된 토크나이저를 사용하여 LLM에 적응시킴으로써 비디오, 이미지, 텍스트의 통합 생성적 사전 학습을 가능하게 합니다. 추론 단계에서는 LLM에서 생성된 토큰을 원래의 연속 픽셀 공간으로 신중하게 복원하여 다양한 비디오 콘텐츠를 생성합니다. 우리가 제안한 프레임워크는 이미지와 비디오 콘텐츠를 이해하고 생성할 수 있는 능력을 갖추고 있으며, 이미지와 비디오 이해 및 생성 분야의 13개 멀티모달 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 우리의 코드와 모델은 https://video-lavit.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 음성을 포함한 오디오(비언어적 음성 및 비음성 소리 포함)를 이해하도록 확장하는 것은 LLM의 다양한 실제 응용에 있어 매우 중요합니다. 본 논문에서는 1) 강력한 오디오 이해 능력, 2) 컨텍스트 학습 및 검색을 통해 미지의 작업에 빠르게 적응할 수 있는 능력, 3) 강력한 다중 턴 대화 능력을 갖춘 새로운 오디오 언어 모델인 Audio Flamingo를 제안합니다. 우리는 이러한 능력을 모델에 부여하기 위해 일련의 훈련 기법, 아키텍처 설계 및 데이터 전략을 소개합니다. 다양한 오디오 이해 작업에 걸친 광범위한 평가를 통해 우리의 방법의 효율성을 확인하고, 새로운 최첨단 벤치마크를 설정하였습니다.
대규모 언어 모델(LLM)의 성능은 방대한 데이터와 컴퓨팅 자원을 통해 입증되었습니다. 그러나 모바일 기기에서의 언어 모델 적용은 계산 및 메모리 비용 측면에서 큰 도전에 직면해 있으며, 이에 따라 고성능의 소형 언어 모델이 시급히 요구되고 있습니다. 매우 복잡한 학습 과정으로 인해 언어 모델 최적화에 대한 많은 세부 사항들이 충분히 연구되지 못한 상황입니다. 본 연구에서는 10억 개의 파라미터를 가진 소형 언어 모델을 기반으로, 각 구성 요소의 영향을 분석하기 위해 일련의 실험적 연구를 신중하게 설계했습니다. 주로 신경망 구조, 파라미터 초기화, 최적화 전략이라는 세 가지 관점을 논의했습니다. 토크나이저 압축, 구조 조정, 파라미터 상속, 다중 라운드 학습 등이 소형 언어 모델에 특히 효과적이라는 여러 설계 공식이 실험적으로 입증되었습니다. 이후, 이러한 공식을 따라 1.6TB의 다국어 코퍼스에서 PanGu-pi-1B Pro와 PanGu-pi-1.5B Pro를 학습시켰습니다. 실험 결과, 최적화 및 구조 개선이 PanGu-pi-1B Pro의 벤치마크 평가 세트에서 평균 8.87의 상당한 성능 향상을 가져왔음을 확인했습니다. 또한, PanGu-pi-1.5B Pro는 더 큰 모델 크기를 가진 여러 최신 모델들을 능가하며 그 우수한 성능을 입증했습니다. 코드는 곧 공개될 예정입니다(https://github.com/YuchuanTian/RethinkTinyLM).
최근 연구에 따르면, 대규모 코드 언어 모델은 코드 생성과 같은 다운스트림 작업에서 상당한 성능 향상을 보여주고 있습니다. 그러나 기존의 코드 표현 학습 연구 대부분은 매우 제한된 사전 학습 코퍼스를 사용하여 수억 개의 파라미터 규모로 모델을 학습시켰습니다. 본 연구에서는 두 단계의 사전 학습 방식을 통해 방대한 양의 코드 데이터를 활용하여 코드 표현 학습을 강화합니다. 먼저, 마스킹 언어 모델링의 무작위성과 프로그래밍 언어의 구조적 측면을 모두 활용한 혼합 방식으로 인코더를 학습시킵니다. 그런 다음, 비지도 방식으로 구성된 하드 네거티브와 하드 포지티브를 사용한 대조 학습을 통해 표현을 강화합니다. 이를 통해 다양한 다운스트림 작업에서 기존 모델을 큰 차이로 앞서는 범용 인코더 모델을 구축합니다. 성공적인 코드 표현 학습에 기여하는 요소를 이해하기 위해, 우리는 상세한 어블레이션 연구를 수행하고 다음과 같은 발견을 공유합니다: (i) 소스 코드를 위한 맞춤형 및 효과적인 토큰 수준 노이즈 제거 방식, (ii) 하드 네거티브와 하드 포지티브의 중요성, (iii) 제안된 이중 모드 대조 학습이 크로스-링구얼 의미 검색 성능을 어떻게 향상시키는지, (iv) 사전 학습 방식이 모델 크기에 따른 다운스트림 작업 성능 규모를 어떻게 결정하는지.
대규모 텍스트-이미지(T2I) 확산 모델은 지난 몇 년 동안 이미지 생성 분야에 혁신을 가져왔습니다. 다양한 고품질 생성 능력을 갖추고 있음에도 불구하고, 이러한 능력을 세밀한 이미지 편집으로 전환하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 기존 확산 기반 이미지 편집의 두 가지 약점을 해결하기 위해 DiffEditor를 제안합니다: (1) 복잡한 시나리오에서 편집 결과가 종종 정확도를 잃거나 예상치 못한 아티팩트를 보이는 문제, (2) 새로운 콘텐츠를 상상하는 등 편집 작업을 조화롭게 조정하는 데 유연성이 부족한 문제. 우리의 솔루션에서는 세밀한 이미지 편집에서 이미지 프롬프트를 도입하여 텍스트 프롬프트와 협력하여 편집 내용을 더 잘 설명할 수 있도록 합니다. 콘텐츠 일관성을 유지하면서 유연성을 높이기 위해, 우리는 일반 미분 방정식(ODE) 샘플링에 확률적 미분 방정식(SDE)을 지역적으로 결합합니다. 또한, 확산 샘플링에 지역적 점수 기반 그래디언트 가이던스와 시간 여행 전략을 통합하여 편집 품질을 더욱 개선합니다. 광범위한 실험을 통해 우리의 방법이 단일 이미지 내 편집(예: 객체 이동, 크기 조정, 콘텐츠 드래깅) 및 이미지 간 편집(예: 외관 교체, 객체 붙여넣기)과 같은 다양한 세밀한 이미지 편작 작업에서 최첨단 성능을 효율적으로 달성할 수 있음을 입증합니다. 소스 코드는 https://github.com/MC-E/DragonDiffusion에서 공개되었습니다.