번역이 포함된 일일 선별된 AI 연구 논문
과정 보상 모델(PRMs)은 대규모 언어 모델(LLMs)의 수학적 추론에서의 과정 감독을 위한 유망한 접근 방식으로 나타나며, 중간 오류를 식별하고 완화하는 것을 목표로 합니다. 그러나 효과적인 PRMs의 개발은 데이터 주석 및 평가 방법론에서 주요한 도전에 직면하고 있습니다. 본 논문에서 우리는 광범위한 실험을 통해, 일반적으로 사용되는 몬테카를로(MC) 추정을 기반으로 한 PRMs의 데이터 합성이 LLM-판단 및 인간 주석 방법과 비교하여 일반적으로 성능과 일반화 면에서 미흡함을 입증합니다. MC 추정은 현재 단계의 정확성을 평가하기 위해 완료 모델에 의존하며, 이는 부정확한 단계 확인으로 이어집니다. 더 나아가 PRMs에 대한 기존 Best-of-N(BoN) 평가 전략에서 잠재적인 편향을 확인합니다: (1) 신뢰할 수 없는 정책 모델은 올바른 답변을 생성하지만 결함이 있는 과정으로 이어져 BoN의 평가 기준과 PRM의 과정 확인 목표 간의 불일치를 초래합니다. (2) 이러한 응답에 대한 PRMs의 관용성은 BoN 점수를 과대 평가하게 만듭니다. (3) 기존 PRMs는 최종 답변 단계에 집중된 최소 점수의 상당 비율을 가지고 있으며, BoN 최적화된 PRMs에서 과정에서 결과 중심 평가로의 전환을 드러냅니다. 이러한 도전에 대응하기 위해, MC 추정을 효과적으로 통합하고 LLM-판단과 결합하는 보편적 필터링 메커니즘을 개발하고, 응답 수준 및 단계 수준 메트릭을 결합한 보다 포괄적인 평가 프레임워크를 제안합니다. 이러한 메커니즘을 기반으로 BoN 평가 및 단계별 오류 식별 작업에서 모델 성능과 데이터 효율성을 크게 향상시킵니다. 마지막으로, 기존 오픈 소스 대안보다 우수한 새로운 최첨단 PRM을 공개하고, 과정 감독 모델 구축에 대한 미래 연구를 위한 실용적 가이드라인을 제공합니다.
긴 입력 시퀀스를 처리하기 위해 언어 모델의 규모를 확장하는 것은 일반적으로 큰 키-값 (KV) 캐시를 필요로 하며, 추론 중에 상당한 메모리 오버헤드를 초래합니다. 본 논문에서는 Tensor Product Attention (TPA)이라는 새로운 어텐션 메커니즘을 제안합니다. 이 메커니즘은 텐서 분해를 사용하여 쿼리, 키 및 값들을 콤팩트하게 표현하며, 추론 시에 KV 캐시 크기를 크게 줄입니다. 이러한 표현을 문맥적 저랭크 구성 요소로 분해하고 RoPE와 원활하게 통합함으로써, TPA는 모델 품질을 향상시키면서 메모리 효율성을 달성합니다. TPA를 기반으로 시퀀스 모델링을 위한 새로운 모델 아키텍처인 Tensor ProducT ATTenTion Transformer (T6)을 소개합니다. 언어 모델링 작업의 광범위한 경험적 평가를 통해, T6이 퍼플렉서티와 다양한 유명한 평가 기준을 포함한 여러 메트릭에서 MHA, MQA, GQA 및 MLA를 포함한 표준 Transformer 기준을 능가함을 입증합니다. 특히, TPA의 메모리 효율성은 현대 언어 모델에서 중요한 확장 가능성 도전 과제를 해결하여 고정된 자원 제약 하에 상당히 긴 시퀀스를 처리할 수 있게 합니다. 코드는 https://github.com/tensorgi/T6에서 확인할 수 있습니다.
시각-언어 모델(VLMs)의 발전은 대규모이고 다양한 다중 모달 데이터셋에 의해 주도됩니다. 그러나 일반적인 생명 의학 VLMs로의 진전은 생물학과 의학 영역에 걸쳐 주석이 달린 공개적으로 접근 가능한 데이터셋의 부족으로 제한됩니다. 기존의 노력은 좁은 도메인으로 제한되어 있어 과학 문헌에 인코딩된 생명 의학 지식의 전체 다양성을 놓치고 있습니다. 이러한 공백을 해결하기 위해 우리는 BIOMEDICA를 소개합니다. 이는 PubMed Central Open Access 하위 집합의 전체를 추출, 주석 달기 및 직렬화하는 확장 가능하고 오픈 소스 프레임워크입니다. 우리의 프레임워크는 6백만 개 이상의 논문에서 2천 4백만 개 이상의 고유한 이미지-텍스트 쌍을 포함하는 포괄적인 아카이브를 생성합니다. 메타데이터 및 전문가 지도 주석도 제공됩니다. 우리의 자원의 유효성과 접근성을 증명하기 위해, 우리는 BMCA-CLIP을 공개합니다. 이는 BIOMEDICA 데이터셋을 통해 지속적으로 사전 훈련된 CLIP 스타일 모델의 스트리밍을 통해 다운로드할 필요 없이 로컬로 27TB의 데이터를 사용합니다. 평균적으로, 우리의 모델은 병리학, 방사선학, 안과학, 피부과, 수술, 분자 생물학, 기생학 및 세포 생물학을 포함하는 40가지 작업에 걸쳐 최첨단 성능을 달성하며, 6.56%의 평균 개선(피부과 및 안과학에서 각각 29.8% 및 17.5%로 높음)과 더 강력한 이미지-텍스트 검색을 제공하면서도 10배 더 적은 컴퓨팅을 사용합니다. 재현성과 협업을 촉진하기 위해 우리는 코드베이스와 데이터셋을 보다 넓은 연구 커뮤니티에 공개합니다.
자가적응형 대형 언어 모델(LLM)은 종종 계산적으로 비용이 많이 들고 다양한 작업을 처리하는 능력이 정적인 전통적인 세밀 조정 방법이 제기하는 문제를 해결하기 위해 고안되었습니다. 본 논문에서는 \implname을 소개합니다. 이는 신속하게 보이지 않는 작업에 대해 LLM을 실시간으로 적응시키는 혁신적인 자가적응 프레임워크로, 가중치 행렬의 단일 구성요소만 선택적으로 조정함으로써 작동합니다. \implname은 추론 중에 두 단계 메커니즘을 사용합니다. 먼저 디스패치 시스템이 작업 특성을 식별하고, 그런 다음 강화 학습을 사용하여 훈련된 작업별 "전문가" 벡터가 동적으로 혼합되어 들어오는 프롬프트에 대한 목표 지향적 행동을 얻습니다. 본 방법은 LoRA와 같은 보편적인 접근 방식보다 매개 변수가 적고 효율성이 더 높습니다. \implname은 시각-언어 작업을 포함한 다양한 LLM 아키텍처 및 모달리티에서 다재다능함을 보여줍니다. \implname은 LLM의 적응성과 작업별 성능을 향상시키는 확장 가능하고 효율적인 솔루션을 제공하여, 진정으로 동적이고 자기 조직화되는 AI 시스템을 위한 길을 열어줍니다.
최근 대형 언어 모델(LLM)과 다중 모달 음성-텍스트 모델의 발전은 매끄러운 음성 상호작용을 위한 기초를 마련하며, 실시간, 자연스럽고 인간과 유사한 대화를 가능하게 합니다. 이전 음성 상호작용 모델은 원시(native) 및 정렬(aligned)으로 분류됩니다. 원시 모델은 음성 및 텍스트 처리를 하나의 프레임워크에 통합하지만 서로 다른 시퀀스 길이와 불충분한 사전 훈련과 같은 문제에 직면합니다. 정렬 모델은 텍스트 LLM 기능을 유지하지만 작은 데이터셋과 음성 작업에 대한 좁은 초점으로 제한됩니다. 본 연구에서는 매머드(MinMo)라는 대규모 다중 모달 언어 모델을 소개합니다. 약 80억 개의 매개변수를 갖춘 MinMo는 매끄러운 음성 상호작용을 위해 설계되었습니다. 이전 정렬된 다중 모달 모델의 주요 제한 사항을 해결합니다. 우리는 MinMo를 다양한 음성 데이터와 다양한 음성 작업에 대한 1.4백만 시간의 훈련 데이터를 통해 음성-텍스트 정렬, 텍스트-음성 정렬, 음성-음성 정렬 및 이중 상호작용 정렬의 여러 단계로 훈련합니다. 다단계 훈련 후 MinMo는 음성 이해 및 생성에 대한 다양한 벤치마크에서 최첨단 성능을 달성하며 텍스트 LLM의 기능을 유지하고 또한 사용자와 시스템 간의 동시 양방향 통신인 풀-듀플렉스 대화를 용이하게 합니다. 더불어, 우리는 음성 생성에서 이전 모델을 능가하는 혁신적이고 간단한 음성 디코더를 제안합니다. MinMo의 향상된 지시 따르기 능력은 사용자 지시에 따라 음성 생성을 제어하며, 감정, 사투리, 말 속도 및 특정 목소리 모방을 포함한 다양한 뉘앙스를 지원합니다. MinMo의 음성-텍스트 지연 시간은 약 100ms이며, 풀-듀플렉스 지연 시간은 이론적으로 약 600ms이며 실제로는 약 800ms입니다. MinMo 프로젝트 웹 페이지는 https://funaudiollm.github.io/minmo이며, 코드와 모델은 곧 공개될 예정입니다.
최근 비디오 생성 모델들은 몇 초 동안 지속되는 고품질 비디오 클립을 생성하는 데 융통성 있는 결과를 보여주었습니다. 그러나 이러한 모델들은 명확하고 정보 전달력 있는 사건을 전달하는 긴 시퀀스를 생성하는 데 어려움을 겪으며, 일관된 내러티브를 지원하는 능력이 제한됩니다. 본 논문에서는 쿠킹 분야에서 장편 내러티브 생성을 발전시키기 위해 설계된 대규모 쿠킹 비디오 데이터셋을 제시합니다. 우리는 제안한 데이터셋의 시각적 충실도와 텍스트 캡션 정확도를 최신 비전-언어 모델(VLMs)과 비디오 생성 모델을 사용하여 검증합니다. 또한 시각적 및 의미적 일관성을 향상시키기 위해 장편 내러티브 비디오 디렉터를 소개하고, 시각적 임베딩을 조정하여 전체 비디오 품질을 향상시키는 역할을 강조합니다. 우리의 방법은 텍스트와 이미지 임베딩을 비디오 생성 프로세스 내에서 통합하는 파인튜닝 기술을 통해 시각적으로 상세하고 의미적으로 일치하는 핵심 프레임을 생성하는 데 상당한 개선을 보여줍니다. 프로젝트 페이지: https://videoauteur.github.io/
이전에 수행한 O1 복제에 대한 조사(제1부: Journey Learning [Qin et al., 2024] 및 제2부: Distillation [Huang et al., 2024])를 기반으로, 본 연구는 의료 추론 작업을 위한 대형 언어 모델(LLMs)에서 추론 시간 스케일링의 잠재력을 탐구합니다. 이는 진단 의사 결정부터 치료 계획까지 다양한 의료 벤치마크에서의 광범위한 실험을 통해 이루어졌습니다(MedQA, Medbullets 및 JAMA Clinical Challenges). 우리의 조사는 다음과 같은 몇 가지 주요 통찰을 밝혀냅니다: (1) 추론 시간을 증가시키면 성능이 향상됩니다. 500개의 샘플로 구성된 적절한 훈련 세트로, 우리 모델은 6%-11%의 상당한 성능 향상을 보입니다. (2) 작업 복잡성은 추론 체인의 필요 길이와 직접적으로 관련이 있으며, 어려운 문제에 대한 확장된 사고 과정의 필요성을 확인합니다. (3) 우리 모델이 생성한 차별 진단은 가설-추론적 방법의 원칙을 준수하며, 환자의 증상을 설명할 수 있는 잠재적인 상태 목록을 생성하고 이러한 가능성을 체계적으로 평가하여 좁혀나갑니다. 이러한 발견은 추론 시간 스케일링과 Journey Learning이 LLM의 현실 세계 임상 추론 능력을 향상시키는 데 있어서 융합의 유망성을 입증합니다.
검색 증강 생성(Retrieval-augmented generation, RAG)은 오픈 도메인 질의응답 작업에서 놀라운 성능을 보여줍니다. 그러나 기존의 검색 엔진은 얕은 콘텐츠를 검색할 수 있어서 LLMs가 복잡하고 다층적인 정보를 처리하는 능력을 제한할 수 있습니다. 이를 해결하기 위해 우리는 웹 탐색 능력을 평가하기 위해 설계된 벤치마크인 WebWalkerQA를 소개합니다. 이는 LLMs의 웹 탐색 능력을 평가하며 웹 사이트의 하위 페이지를 체계적으로 추출하는 능력을 평가합니다. 우리는 인간과 유사한 웹 탐색을 모방하는 멀티 에이전트 프레임워크인 WebWalker를 제안합니다. 탐험-비평가 패러다임을 통해 실현되는 WebWalkerQA의 효과를 보여주는 광범위한 실험 결과는 RAG와 WebWalker의 수평 및 수직 통합을 통해 실제 시나리오에서 효과적임을 입증합니다.
대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 뛰어난 성능을 보여주었지만, 그들의 훈련은 여전히 매우 많은 자원이 필요하며 훈련 불안정성과 같은 중요한 도전에 취약하다. 이러한 불안정성의 주요 원인 중 하나는 그래디언트와 손실의 급등으로, 학습 과정을 방해하고 종종 체크포인트 복구와 실험 재시작과 같은 비용이 많이 드는 개입을 유발하여 비효율성을 더욱 증폭시킨다. 본 논문은 LLM 훈련 중 관찰된 그래디언트 스파이크에 대한 포괄적인 조사를 제시하며, 이러한 스파이크가 여러 아키텍처와 데이터셋에서 널리 발생한다는 것을 밝힌다. 우리의 분석은 이러한 스파이크가 일반적인 그래디언트보다 최대 1000배 크다는 것을 보여주며, 이는 모델 성능을 상당히 악화시킨다. 이 문제를 해결하기 위해 우리는 모멘텀 리셋과 스파이크 인식 그래디언트 클리핑을 통해 그래디언트 스파이크에 대항하기 위해 설계된 Spike-Aware Adam with Momentum Reset SPAM이라는 새로운 옵티마이저를 제안한다. 60M에서 1B까지의 LLM 사전 훈련, 4비트 LLM 사전 훈련, 강화 학습 및 시계열 예측을 포함한 다양한 작업에서 SPAM이 Adam 및 그 변형을 일관되게 능가함을 보여주는 포괄적인 실험을 통해 SPAM이 어떤 작업에서도 Adam 및 그 변형을 일관되게 능가함을 보여준다. 또한 SPAM은 희소 모멘텀을 가능하게 함으로써 메모리 효율적인 훈련을 용이하게 한다. 메모리 제약 조건 하에서 운영할 때 SPAM은 GaLore 및 Adam-Mini와 같은 최신 메모리 효율적 옵티마이저를 능가한다. 우리의 연구는 LLM 훈련 중 그래디언트 스파이크를 완화하는 것의 중요성을 강조하며 규모에 맞는 훈련 안정성과 자원 효율성을 향상시키는 효과적인 최적화 전략을 소개한다. 코드는 https://github.com/TianjinYellow/SPAM-Optimizer.git에서 확인할 수 있다.
우리는 3D 딥 러닝과 3D 생성 인공지능을 위한 새로운 객체 중심 데이터 세트인 Uncommon Objects in 3D (uCO3D)를 소개합니다. uCO3D는 전체 360도를 보장하는 3D 주석이 달린 객체의 고해상도 비디오의 가장 큰 공개 데이터 세트입니다. uCO3D는 MVImgNet과 CO3Dv2보다 훨씬 다양하며, 1,000개 이상의 객체 범주를 포함합니다. 수집된 비디오와 3D 주석의 철저한 품질 점검으로 인해 uCO3D는 품질이 더 높습니다. 유사한 데이터 세트와 마찬가지로, uCO3D에는 3D 카메라 포즈, 깊이 맵 및 희소한 포인트 클라우드에 대한 주석이 포함되어 있습니다. 게다가, 각 객체는 캡션과 3D 가우시안 스플랫 재구성이 함께 제공됩니다. 우리는 MVImgNet, CO3Dv2 및 uCO3D에서 여러 대형 3D 모델을 훈련시키고 후자를 사용하여 우수한 결과를 얻었습니다. 이를 통해 uCO3D가 학습 응용 프로그램에 더 적합하다는 것을 보여줍니다.
화학 추론은 일반적으로 정확한 계산을 필요로 하는 복잡하고 다단계의 과정을 포함하며, 작은 오류조차도 연쇄적인 실패로 이어질 수 있습니다. 게다가, 대형 언어 모델(Large Language Models, LLMs)은 화학 추론 작업에 대처할 때 도메인 특정 공식을 처리하고 추론 단계를 정확하게 실행하며 코드를 효과적으로 통합하는 데 어려움을 겪습니다. 이러한 도전에 대응하기 위해, 우리는 LLMs의 성능을 향상시키기 위해 설계된 혁신적인 프레임워크인 ChemAgent를 제안합니다. 이 라이브러리는 화학 작업을 하위 작업으로 분해하고 이러한 하위 작업을 구조화된 컬렉션으로 편집하여 향후 쿼리에 참조할 수 있는 형태로 만듭니다. 그런 다음, 새로운 문제가 제시되면 ChemAgent는 라이브러리에서 관련 정보를 검색하고 정제하여 우리가 기억이라고 부르는 것을 통해 효과적인 작업 분해와 솔루션 생성을 용이하게 합니다. 저희 방법은 세 가지 유형의 기억과 라이브러리 강화 추론 구성 요소를 설계하여 LLMs가 경험을 통해 시간이 지남에 따라 향상되도록 합니다. SciBench의 네 가지 화학 추론 데이터셋에 대한 실험 결과는 ChemAgent가 최대 46% (GPT-4)의 성능 향상을 달성하며 기존 방법을 크게 능가한다는 것을 보여줍니다. 우리의 연구 결과는 앞으로의 응용 가능성, 특히 약물 발견 및 재료 과학과 같은 작업에 상당한 잠재력을 제시합니다. 저희의 코드는 https://github.com/gersteinlab/chemagent에서 확인할 수 있습니다.
기초 모델은 대규모 웹 크롤링 데이터셋에 의존하며, 이는 종종 잡음이 있는 데이터, 편향 및 관련 없는 콘텐츠를 포함합니다. 기존 데이터 선택 기술은 일반적으로 인간의 경험 규칙, 하류 평가 데이터셋 또는 전문화된 점수 모델을 사용하며, 훈련 과정에서 샘플의 유효성을 간과할 수 있습니다. 대신, 저희는 새로운 방법을 제안합니다. Mimic Score는 데이터 품질 측정 지표로, 사전 훈련된 참조 모델을 가이드로 활용하여 새 모델 훈련에 대한 데이터 샘플의 유용성을 평가합니다. 이는 새 모델 매개변수의 그래디언트와 가중치 공간에서 참조 모델을 향하는 벡터 사이의 정렬에 의존합니다. 이 방향과 정렬되지 않는 샘플은 저가치로 간주되어 필터링될 수 있습니다. Mimic score에 영감을 받아, 유용한 샘플을 식별하고 우선순위를 지정하여 효과적인 필터를 생성하는 데이터 선택 프레임워크인 Grad-Mimic을 개발합니다. 경험적으로, Mimic 점수를 사용하여 모델 훈련을 가이드하면 여섯 개의 이미지 데이터셋에서 일관된 성능 향상을 이끌어내며, CLIP 모델의 성능을 향상시킵니다. 더불어, Mimic 점수와 관련된 필터는 기존 필터링 방법을 개선하고 데이터셋 품질을 정확하게 추정합니다.