번역이 포함된 일일 선별된 AI 연구 논문
DeepSeek-Prover-V1.5를 소개합니다. 이는 Lean 4에서 정리 증명을 위해 설계된 오픈 소스 언어 모델로, 교육 및 추론 과정을 최적화하여 DeepSeek-Prover-V1을 개선합니다. DeepSeekMath-Base에서 사전 훈련된 이 모델은 공식 수학 언어에 특화되어 있으며, DeepSeek-Prover-V1에서 유도된 향상된 형식적 정리 증명 데이터셋을 사용한 지도 미세 조정을 거칩니다. RLPAF(증명 보조 피드백으로부터의 강화 학습)을 통해 추가적인 세밀화가 이루어집니다. DeepSeek-Prover-V1의 단일 통과 전체 증명 생성 방식을 넘어, 우리는 다양한 증명 경로를 생성하기 위해 내재 보상 주도 탐색 전략을 채택하는 Monte-Carlo 트리 탐색의 변형인 RMaxTS를 제안합니다. DeepSeek-Prover-V1.5는 DeepSeek-Prover-V1에 비해 상당한 향상을 보여주며, 고등학교 수준 miniF2F 벤치마크 테스트 세트(63.5%)와 대학 수준 ProofNet 벤치마크(25.3%)에서 새로운 최첨단 결과를 달성합니다.
대형 언어 모델(Large Language Models, LLMs)은 상당한 발전을 이루었지만, 일반적인 학습 패러다임은 LLMs를 수동적인 정보 저장소로 취급하여 능동 학습과 조정 가능성을 간과합니다. 일부 접근 방식은 LLMs를 자체 생성된 합성 데이터를 사용하여 훈련시켜 능동 조정의 가능성을 탐구합니다. 그러나 이러한 일회성 조정 방법과 인간의 지속적인 자동 조정 간에는 여전히 큰 간격이 존재합니다. 본 논문에서는 I-SHEEP를 소개합니다. 이는 반복적인 자가 향상 패러다임으로, 이 인간과 유사한 패러다임은 LLMs가 아무 것도 없이 처음부터 지속적으로 자가 조정할 수 있게 합니다. 본 논문의 첫 번째 반복을 참조하는 일회성 조정 방법 Dromedary sun2023principledriven과 비교하여, I-SHEEP는 Qwen 및 Llama 모델의 능력을 크게 향상시킬 수 있습니다. I-SHEEP는 Qwen-1.5 72B 모델에서 Alpaca Eval에서 최대 상대적 향상률 78.2%, MT Bench에서 24.0%, IFEval 정확도에서 8.88%의 절대 증가를 달성합니다. 또한, I-SHEEP는 다양한 표준 벤치마크 생성 작업에서 기본 모델을 능가하여 코드 생성 작업에서 평균 24.77%, TrivialQA에서 12.04%, SQuAD에서 20.29%의 향상을 달성합니다. 실험 결과를 기반으로 새로운 통찰을 제공합니다. 저희의 코드, 데이터셋 및 모델은 https://anonymous.4open.science/r/I-SHEEP에서 제공됩니다.
신경망을 훈련하는 것은 돌에 지식을 새기는 것과 유사한 거대한 작업입니다: 한 번 프로세스가 완료되면 네트워크의 모든 정보가 가중치에 분산되기 때문에 네트워크의 지식을 편집하는 것은 거의 불가능합니다. 여기서는 딥 신경망의 표현력과 데이터베이스의 유연성을 결합한 간단하고 설득력 있는 대안을 탐구합니다. 이미지 분류 작업을 이미지 유사성(사전 훈련된 임베딩에서) 및 검색(지식 데이터베이스로부터 빠른 최근접 이웃 검색을 통해)으로 분해하여, 우리는 다음과 같은 주요 기능을 갖춘 간단하고 유연한 시각 메모리를 구축합니다: (1.) 개별 샘플부터 전체 클래스 및 십억 단위 데이터까지 다양한 규모의 데이터를 유연하게 추가할 수 있는 능력; (2.) 잊기 및 메모리 가지치기를 통해 데이터를 제거할 수 있는 능력; (3.) 행동을 제어하기 위해 개입할 수 있는 해석 가능한 결정 메커니즘. 이러한 능력을 종합적으로 고려하면 명시적 시각 메모리의 이점을 체계적으로 입증합니다. 우리는 이것이 깊은 비전 모델에서 지식을 어떻게 표현해야 하는지에 대한 대화에 기여할 수 있기를 희망합니다 -- "돌" 가중치에 새기는 것을 넘어서.
데이터 집약 또는 요약은 대규모 훈련 데이터셋을 훈련 성능이 유사한 신경망에 대해 원본 데이터셋과 유사한 훈련 성능을 갖도록 훨씬 작은 합성 데이터셋으로 압축하는 것을 목표로 합니다. 훈련 샘플 수를 상당히 줄일 수 있지만, 현재의 최첨단 방법은 만족스러운 성능을 달성하기 위해 거대한 소프트 라벨에 크게 의존합니다. 결과적으로 필요한 저장 공간은 특히 대규모 데이터셋의 경우 원본 데이터셋과 비교해 상당할 수 있습니다. 이 문제를 해결하기 위해 이러한 무거운 라벨을 저장하는 대신, 우리는 HeLlO라는 새로운 라벨 경량화 프레임워크를 제안합니다. 이 프레임워크는 효과적인 이미지-라벨 프로젝터를 목표로 하며, 이를 통해 합성 이미지에서 직접 합성 라벨을 온라인으로 생성할 수 있습니다. 구체적으로 이러한 프로젝터를 구축하기 위해 우리는 CLIP와 같은 오픈 소스 기반 모델에서 사전 지식을 활용하고, 사전 훈련된 모델과 대상 분포 간의 갭을 완화하기 위해 LoRA와 유사한 미세 조정 전략을 도입하여 소프트 라벨 생성을 위한 원본 모델을 저랭크 행렬 그룹으로 압축합니다. 또한, 원본과 압축된 라벨 생성기 간의 잠재적 오차를 더 완화하기 위해 효과적인 이미지 최적화 방법을 제안합니다. 광범위한 실험 결과, 소프트 라벨의 완전한 세트에 필요한 원본 저장 공간의 약 0.003%만 사용하여 대규모 데이터셋에 대한 현재 최첨단 데이터 집약 방법과 유사한 성능을 달성할 수 있음을 보여줍니다. 우리의 코드는 곧 공개될 예정입니다.
동적이고 시간적으로 일관된 비디오를 합성하는 것은 인공지능에서 여전히 어려운 과제입니다, 특히 긴 기간을 다룰 때. 기존의 텍스트 대 비디오 (T2V) 모델은 일반적으로 공간 교차-주의를 사용하여 텍스트 제어를 하며, 이는 각 프레임에 대한 구체적인 텍스트 지침 없이 서로 다른 프레임 생성을 안내합니다. 따라서 프롬프트에서 전달되는 시간 논리를 이해하고 일관된 움직임을 갖는 비디오를 생성하는 모델의 능력이 제한됩니다. 이 제한을 극복하기 위해, 우리는 기존의 텍스트 제어 메커니즘을 개선하는 혁신적인 비디오 생성기인 FancyVideo를 소개합니다. 이를 위해, CTGM(Cross-frame Textual Guidance Module)이라는 잘 설계된 모듈을 도입합니다. 구체적으로, CTGM은 교차-주의의 시작, 중간 및 끝에 각각 시간적 정보 주입기(TII), 시간적 유사성 정제기(TAR) 및 시간적 특징 부스터(TFB)를 통합하여 프레임별 텍스트 지침을 달성합니다. 먼저, TII는 잠재적 특징에서 프레임별 정보를 텍스트 조건으로 주입하여 교차 프레임 텍스트 조건을 얻습니다. 그런 다음, TAR은 시간 차원을 따라 교차 프레임 텍스트 조건과 잠재적 특징 사이의 상관 행렬을 정제합니다. 마지막으로, TFB는 잠재적 특징의 시간적 일관성을 향상시킵니다. 평가를 포함한 포괄적인 실험 결과는 FancyVideo의 효과를 입증합니다. 저희 방법은 EvalCrafter 벤치마크에서 최첨단 T2V 생성 결과를 달성하며, 동적이고 일관된 비디오의 합성을 용이하게 합니다. 비디오 결과물은 https://fancyvideo.github.io/에서 확인할 수 있으며, 코드와 모델 가중치를 공개적으로 제공할 예정입니다.
언어 모델(LMs)의 여러 기능은 훈련 예산이 증가함에 따라 향상되지만, 규모가 환각에 미치는 영향은 아직 완전히 이해되지 않았다. 환각은 여러 형태로 나타나며 보편적으로 인정되는 정의가 없다. 따라서 우리는 훈련 세트에 정답이 말 그대로 포함된 환각만을 연구 대상으로 삼는다. 훈련 데이터 콘텐츠를 완전히 제어하기 위해 우리는 지식 그래프(KG) 기반 데이터셋을 구축하고, 이를 사용하여 점점 더 큰 LMs 집합을 훈련시킨다. 우리는 고정된 데이터셋에 대해, 더 크고 더 오랫동안 훈련된 LMs일수록 환각이 적어진다는 것을 발견했다. 그러나 훈련 데이터의 5% 이하에서 환각을 유발하려면 Hoffmann 등(2022)이 최적으로 보고한 것보다 한 차원 큰 모델과 따라서 한 차원 더 많은 컴퓨팅 자원이 필요하다. 이러한 비용 문제로 인해 우리는 환각 탐지기가 규모에 어떻게 의존하는지 연구한다. 고정된 LM의 출력에서 탐지기 크기가 성능을 향상시키는 것을 볼 수 있지만, LM의 규모와 그 환각의 탐지 가능성 사이에 역상관 관계를 발견했다.
대형 언어 모델 (LLM)을 처음부터 훈련하는 것은 특정 능력과 강점을 갖춘 모델을 만들어낼 수 있지만, 상당한 비용이 소요되며 역량의 중복을 초래할 수 있습니다. 지식 융합은 다양한 아키텍처와 능력을 갖춘 기존 LLM을 가볍게 계속해서 훈련하여 비용이 많이 드는 LLM 개발 필요성을 줄이는 것을 목표로 합니다. 본 연구에서는 두 가지 주요 단계를 거친 채팅 LLM의 지식 융합을 위한 새로운 프레임워크를 제안합니다. 이를 통해 FuseChat이라는 결과물이 탄생합니다. 먼저, 다양한 구조와 규모의 원본 채팅 LLM에 대해 쌍별 지식 융합을 실시하여 가벼운 미세 조정을 통해 동일한 구조와 크기의 여러 대상 LLM을 생성합니다. 이 과정에서 통계 기반의 토큰 정렬 접근 방식이 서로 다른 구조의 LLM을 융합하는 데 중요한 역할을 합니다. 둘째, 이러한 대상 LLM을 매개 변수 공간 내에서 병합하는데, 미세 조정 전후의 매개 변수 업데이트 크기를 기반으로 병합 계수를 결정하는 새로운 방법을 제안합니다. 우리는 OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B를 포함한 다양한 아키텍처와 규모의 6가지 주요 채팅 LLM을 사용하여 FuseChat을 구현하고 검증합니다. AlpacaEval 2.0 및 MT-Bench 두 가지 명령 따르기 벤치마크 실험 결과는 FuseChat-7B가 다양한 크기의 기준선보다 우월함을 입증합니다. 우리의 모델은 심지어 더 큰 Mixtral-8x7B-Instruct와 MT-Bench에서 GPT-3.5-Turbo-1106에 근접합니다. 우리의 코드, 모델 가중치 및 데이터는 https://github.com/fanqiwan/FuseAI에서 공개되어 있습니다.
전문가 혼합 (Mixture of Experts, MoE) 프레임워크는 밀집 모델보다 우수한 성능으로 대형 언어 모델에 대한 인기 있는 아키텍처가 되었습니다. 그러나 대규모 regime에서 MoE를 처음부터 훈련하는 것은 막대한 비용이 듭니다. 기존 방법은 여러 밀집 전문가 모델을 독립적으로 사전 훈련하고 이를 사용하여 MoE를 초기화함으로써 이를 완화합니다. 이는 전문가의 피드포워드 네트워크(Feed-Forward Network, FFN)를 사용하여 MoE의 전문가를 초기화하고 다른 매개변수를 병합함으로써 수행됩니다. 그러나 이 방법은 밀집 모델 매개변수의 재사용을 FFN 레이어에만 제한하여 이러한 모델을 MoE로 "재활용"할 때 이점을 제약합니다. 우리는 이러한 결함을 해결하는 간단하면서도 효과적인 BAM (Branch-Attend-Mix) 방법을 제안합니다. BAM은 전문화된 밀집 모델을 완전히 활용하여 MoE 레이어를 초기화하는 것뿐만 아니라, 전문가의 주의 매개변수를 완전히 활용하여 Mixture of Attention (MoA) 레이어의 소프트 변형을 초기화함으로써 작동합니다. 주의 매개변수를 재활용하는 두 가지 방법을 탐구합니다: 1) 최상의 모델 성능을 위해 모든 주의 매개변수를 포함하는 밀집 모델로부터 별도의 주의 전문가를 초기화하는 것; 그리고 2) 모든 전문가 사이에서 주요 및 값 매개변수를 공유하여 더 나은 추론 효율성을 도모하는 것. 효율성을 더 향상시키기 위해 MoE에 병렬 주의 트랜스포머 아키텍처를 채택하여 주의 전문가와 FFN 전문가를 동시에 계산할 수 있습니다. 590백만에서 20억 개의 매개변수를 가진 시드 모델에 대한 실험 결과는, BAM이 동일한 계산 및 데이터 제약 조건 내에서 퍼플렉서티와 하류 작업 성능 모두에서 기준선을 능가함을 보여줍니다.
인간-모델 대화는 사용자의 현실 시나리오, 행동 및 요구 사항에 대한 창을 제공하여 모델 개발 및 연구에 유용한 자원입니다. 이윤을 추구하는 기업들은 모델의 API를 통해 사용자 데이터를 수집하여 자사 모델을 개선하는 반면, 오픈 소스 및 연구 커뮤니티는 뒤처지고 있습니다. 우리는 ShareLM 콜렉션을 소개합니다. 이는 대규모 언어 모델과의 인간 대화의 통합된 집합이며, 그와 함께 제공되는 플러그인은 사용자-모델 대화를 자발적으로 기여할 수 있는 웹 확장 기능입니다. 몇몇 플랫폼이 채팅을 공유하는 반면, ShareLM 플러그인은 이 기능을 추가하여 대부분의 플랫폼에서 대화를 공유할 수 있게 합니다. 이 플러그인은 사용자가 대화와 응답 수준에서 대화를 평가하고, 사용자의 로컬 저장 공간을 떠나기 전에 비공개로 유지하고 싶은 대화를 삭제할 수 있습니다. 우리는 ShareLM 콜렉션의 일환으로 플러그인 대화를 공개하며, 오픈 소스 인간-모델 데이터 분야에서 더 많은 커뮤니티 노력을 요청합니다. 코드, 플러그인 및 데이터는 사용 가능합니다.
본 논문은 적대적 흐름 일치 최적화를 통해 고도의 정밀도와 효율성을 갖는 Waveform 생성 모델인 PeriodWave-Turbo를 소개합니다. 최근에는 조건적 흐름 일치(CFM) 생성 모델이 waveform 생성 작업에 성공적으로 도입되어, 훈련을 위해 단일 벡터 필드 추정 목표를 활용합니다. 이러한 모델은 고도의 정밀도 waveform 신호를 생성할 수 있지만, GAN 기반 모델에 비해 더 많은 ODE 단계가 필요하며, 단일 생성 단계만 필요한 GAN 기반 모델과 비교하여 상당히 많은 시간이 소요됩니다. 또한, 생성된 샘플은 종종 노이즈가 있는 벡터 필드 추정으로 인해 고주파 정보가 부족하여 고주파 재현을 보장하지 못합니다. 이 한계를 극복하기 위해, 사전 훈련된 CFM 기반 생성 모델을 개선하기 위해 고정 단계 생성기 수정을 통합했습니다. 우리는 재구성 손실과 적대적 피드백을 활용하여 고도의 정밀도 waveform 생성을 가속화했습니다. 적대적 흐름 일치 최적화를 통해, 다양한 목표 지표에서 최첨단 성능을 달성하기 위해 1,000 단계의 미세 조정만 필요합니다. 또한, 추론 속도를 16 단계에서 2 또는 4 단계로 크게 줄였습니다. 더불어, 일반화를 향상시키기 위해 PeriodWave의 백본을 29M에서 70M 매개변수로 확장함으로써, PeriodWave-Turbo는 LibriTTS 데이터셋에서 4.454의 PESQ 점수를 달성하는 전례없는 성능을 보여줍니다. 오디오 샘플, 소스 코드 및 체크포인트는 https://github.com/sh-lee-prml/PeriodWave에서 제공될 예정입니다.
최근에는 새로운 시각 합성(Novel View Synthesis, NVS) 및 3D 생성 기술이 상당한 발전을 이루었습니다. 그러나 이러한 연구들은 주로 특정 범주나 합성 3D 자산에 초점을 맞추었으며, 일반적으로 어려운 현장에 대한 일반화가 어려워지고 2D 합성과 직접적으로 적용되기 어렵다는 한계가 있습니다. 더욱이 이러한 방법들은 카메라 위치에 크게 의존하여 실제 세계 응용에 제약을 가하고 있습니다. 이러한 문제를 극복하기 위해, 우리는 MVInpainter를 제안합니다. MVInpainter는 3D 편집을 다시 정의하여 다중 뷰 2D inpainting 작업으로 전환합니다. 구체적으로 MVInpainter는 완전히 새로운 뷰를 생성하는 대신 참조 안내에 따라 다중 뷰 이미지를 부분적으로 inpainting하여 어려운 현장에 대한 NVS의 난이도를 크게 간소화하고 명시적인 포즈 조건 대신 미마스크된 단서를 활용합니다. 교차 뷰 일관성을 보장하기 위해 MVInpainter는 동영상 구성 요소로부터 비디오 사전 및 연결된 참조 키 및 값 주의로부터 외관 안내를 강화합니다. 더 나아가 MVInpainter는 슬롯 어텐션을 통합하여 미마스크된 영역에서 고수준의 광학 흐름 특성을 집계하여 포즈에 자유로운 훈련 및 추론을 통해 카메라 이동을 제어합니다. 객체 중심 및 전방 데이터셋에서의 충분한 씬 수준 실험을 통해 MVInpainter의 효과를 검증하였으며, 다중 뷰 객체 제거, 합성, 삽입 및 교체와 같은 다양한 작업을 포함합니다. 프로젝트 페이지는 https://ewrfcas.github.io/MVInpainter/ 에서 확인하실 수 있습니다.
대형 언어 모델(Large Language Models, LLMs)의 능력을 평가하는 것은 종종 어려운데, 그 이유 중 하나는 훈련 중에 노출되지 않은 작업을 찾기가 어렵기 때문입니다. 이러한 도전에 대처하기 위해 새로운 작업에 주목하여 한 발짝 나아갑니다. 이번에는 심볼릭 그래픽 프로그램에 초점을 맞추는데, 이는 시각적 데이터를 절차적으로 생성하는 그래픽 콘텐츠의 인기 있는 표현입니다. LLMs는 프로그램 합성에 대한 흥미로운 가능성을 보여주었지만, 그들은 심볼릭 그래픽 프로그램을 이해할 수 있을까요? 일반적인 프로그램과 달리, 심볼릭 그래픽 프로그램은 그래픽 콘텐츠로 변환될 수 있습니다. 여기서 우리는 LLM이 심볼 프로그램을 이해하는 능력을 그래픽 콘텐츠와 관련된 질문에 대답하는 능력으로 특성화합니다. 이 작업은 질문이 심볼릭 프로그램만으로는 어렵게 답할 수 있기 때문에 어려운데, 대조적으로 해당 그래픽 콘텐츠로부터는 쉽게 답할 수 있음을 인간 실험을 통해 확인합니다. 심볼 프로그램을 이해하기 위해서는 LLMs가 렌더링된 시각적 콘텐츠에 직접 액세스하지 않고도 해당 그래픽 콘텐츠가 어떻게 보일지 상상할 수 있는 능력이 필요할 수 있습니다. 우리는 이 작업을 통해 심볼릭 그래픽 프로그램의 의미 이해에 대한 대규모 벤치마크를 구축하여 LLMs를 평가합니다. 이 벤치마크는 프로그램-그래픽 대응을 통해 구축되어 최소한의 인간 노력이 필요합니다. 우리는 현재의 LLMs를 이 벤치마크에서 평가하여 프로그램으로부터 시각적 장면에 대해 추론하는 능력에 대한 예비 평가를 명확하게 합니다. 이 작업은 기존 LLMs와 추론 능력이 우수하다고 여겨지는 모델들을 구분하는 데 도움이 됩니다. 마지막으로, 이 능력을 향상시키기 위해 Symbolic Instruction Tuning (SIT)를 소개합니다. 구체적으로, 우리는 질문과 심볼릭 프로그램에 의해 생성된 이미지로 GPT4-o에 쿼리를 수행합니다. 이러한 데이터는 LLM을 세밀하게 조정하는 데 사용됩니다. 또한 SIT 데이터가 LLMs의 일반적인 지시 따르기 능력을 향상시킬 수 있다는 것을 발견합니다.