번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)의 추론 능력을 향상시키기 위해, 기존 연구는 주로 몇 가지 샷(few-shot) 또는 제로 샷(zero-shot) 사고의 연쇄(CoT) 프롬프팅과 같은 특정 프롬프트 기법에 초점을 맞추어 왔습니다. 이러한 방법들은 효과적이지만, 종종 수작업이 많이 필요한 프롬프트 엔지니어링을 필요로 합니다. 본 연구는 새로운 접근 방식을 취하며 다음과 같은 질문을 던집니다: LLMs가 프롬프팅 없이도 효과적으로 추론할 수 있을까요? 연구 결과에 따르면, 흥미롭게도 사전 훈련된 LLMs에서 단순히 디코딩 과정을 변경함으로써 CoT 추론 경로를 이끌어낼 수 있음이 밝혀졌습니다. 기존의 탐욕적 디코딩(greedy decoding) 대신 상위 k개의 대체 토큰을 조사한 결과, 이러한 시퀀스 내에 CoT 경로가 자주 내재되어 있음을 발견했습니다. 이 접근법은 프롬프팅의 혼란 요인을 피할 뿐만 아니라, LLMs의 본질적인 추론 능력을 평가할 수 있게 해줍니다. 또한, 디코딩 경로에 CoT가 존재할 경우 모델의 디코딩된 답변에 대한 신뢰도가 더 높아지는 상관관계를 관찰했습니다. 이 신뢰도 지표는 CoT 경로와 비 CoT 경로를 효과적으로 구분합니다. 다양한 추론 벤치마크에 대한 광범위한 실증 연구를 통해, 제안된 CoT 디코딩이 표준 탐욕적 디코딩을 크게 능가함을 보여주었습니다.
모든 텍스트 기반 언어 문제는 생성(Generation) 또는 임베딩(Embedding)으로 축약될 수 있다. 현재의 모델들은 이 둘 중 하나에서만 우수한 성능을 보인다. 우리는 생성적 표현 지시 튜닝(Generative Representational Instruction Tuning, GRIT)을 소개하며, 이를 통해 대규모 언어 모델이 지시를 통해 생성 작업과 임베딩 작업을 구분하여 둘 모두를 처리하도록 훈련된다. 다른 오픈 모델들과 비교했을 때, 우리가 개발한 GritLM 7B는 Massive Text Embedding Benchmark(MTEB)에서 새로운 최첨단 성능을 달성했으며, 다양한 생성 작업에서 동일 규모의 모든 모델을 능가한다. 더욱 규모를 확장한 GritLM 8x7B는 우리가 시도한 모든 오픈 생성 언어 모델을 능가하면서도 여전히 최고 수준의 임베딩 모델 중 하나로 자리 잡았다. 특히, GRIT은 생성 또는 임베딩 데이터만을 대상으로 한 훈련과 동등한 성능을 보이므로, 성능 손실 없이 둘을 통합할 수 있음을 확인했다. 이러한 통합은 특히 긴 문서에 대해 Retrieval-Augmented Generation(RAG)의 속도를 60% 이상 향상시키는 등 여러 이점을 제공하며, 더 이상 별도의 검색 및 생성 모델이 필요하지 않게 된다. 모델, 코드 등은 https://github.com/ContextualAI/gritlm에서 자유롭게 이용할 수 있다.
대규모 언어 모델(LLMs)의 학습은 비용이 많이 든다. 본 논문에서는 LLMs의 사전 학습을 위한 데이터 효율적인 접근법, 즉 모델 품질과 학습 자원/데이터 소비의 파레토 최적화를 목표로 하는 기술을 연구한다. 우리는 (i) 계산 비용이 높은 데이터 품질 추정치와 (ii) 특징 공간에서의 커버리지 및 다양성 기반 측정치의 극대화를 기반으로 한 데이터 선택 루틴과 관련된 트레이드오프를 이해하고자 한다. 첫 번째 기술인 Ask-LLM은 지시 튜닝된 LLMs의 제로샷 추론 능력을 활용하여 학습 예제의 품질을 직접 평가한다. 커버리지를 목표로 하기 위해, 우리는 데이터 분포를 모델링하여 다양한 샘플을 선택하는 Density 샘플링을 제안한다. 19개의 샘플러를 비교한 결과, 수백 개의 평가 작업과 사전 학습 실행을 통해 Ask-LLM과 Density가 각각의 범주에서 최고의 방법임을 발견했다. 커버리지 샘플링은 전체 데이터의 성능을 회복할 수 있으며, Ask-LLM 데이터로 학습된 모델은 원본 데이터셋의 90%를 제외하더라도 전체 데이터 학습을 지속적으로 능가하며, 최대 70% 더 빠르게 수렴한다.
현재의 대형 언어 모델(LLMs)은 최대 컨텍스트 길이에 제한될 뿐만 아니라, 긴 입력을 견고하게 처리하는 데에도 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 실험에서 효과적인 컨텍스트 길이를 최대 20배까지 증가시키는 LLM 에이전트 시스템인 ReadAgent를 제안합니다. 인간이 긴 문서를 상호작용적으로 읽는 방식에서 영감을 받아, ReadAgent는 LLM의 고급 언어 능력을 활용하여 (1) 어떤 내용을 메모리 에피소드에 함께 저장할지 결정하고, (2) 이러한 메모리 에피소드를 짧은 에피소드 메모리인 요약 메모리(gist memories)로 압축하며, (3) 작업을 완료하기 위해 관련 세부 사항을 상기할 필요가 있을 때 원본 텍스트의 구절을 찾아보는 행동을 취하는 간단한 프롬프트 시스템으로 구현되었습니다. 우리는 ReadAgent를 검색 방법, 원본 긴 컨텍스트, 그리고 요약 메모리를 사용한 베이스라인과 비교 평가했습니다. 이러한 평가는 세 가지 장문 독해 과제인 QuALITY, NarrativeQA, 그리고 QMSum에서 수행되었습니다. ReadAgent는 세 가지 과제 모두에서 베이스라인을 능가하면서 효과적인 컨텍스트 창을 3-20배까지 확장했습니다.
최근 연구는 합성적으로 생성된 데이터셋이 대규모 언어 모델(LLM)을 훈련하는 데 있어, 특히 특정 기술을 습득하는 데 있어 엄청난 잠재력을 보여주고 있다. 현재 MetaMathQA(Yu et al., 2024) 및 MAmmoTH(Yue et al., 2024)와 같은 대규모 수학 지시 튜닝 데이터셋은 상업적으로 제한적인 라이선스를 가진 폐쇄형 LLM의 출력을 사용하여 구축되었다. 이러한 데이터 생성 파이프라인에서 오픈소스 LLM의 사용을 제한하는 주요 이유는 GPT-4와 같은 최고의 폐쇄형 LLM과 최고의 오픈소스 LLM 간의 수학적 기술 격차가 크기 때문이다. 최근 오픈소스 LLM의 발전, 우리가 제안한 프롬프팅의 독창성, 그리고 일부 무차별 확장을 기반으로, 우리는 180만 개의 문제-해결 쌍을 가진 수학 지시 튜닝 데이터셋인 OpenMathInstruct-1을 구축했다. 이 데이터셋은 최근 출시되고 허가적 라이선스를 가진 Mixtral 모델을 사용하여 GSM8K와 MATH라는 두 가지 인기 있는 수학 추론 벤치마크에 대한 코드 인터프리터 해결책을 합성하여 구축되었다. OpenMathInstruct-1의 일부를 훈련한 우리의 최고 모델인 OpenMath-CodeLlama-70B는 GSM8K에서 84.6%, MATH에서 50.7%의 점수를 달성하여 최고의 GPT-증류 모델과 경쟁력이 있다. 우리는 코드, 모델, 그리고 OpenMathInstruct-1 데이터셋을 상업적으로 허가적인 라이선스 하에 공개한다.
디퓨전 모델의 미세 조정은 생성형 인공지능(GenAI) 분야에서 아직 충분히 탐구되지 않은 영역으로, 특히 대형 언어 모델(LLMs)의 미세 조정에서 이루어진 놀라운 진전과 비교할 때 더욱 두드러진다. Stable Diffusion(SD) 및 SDXL과 같은 최첨단 디퓨전 모델은 지도 학습 기반 미세 조정에 의존하지만, 일정량의 데이터를 학습한 후에는 성능이 필연적으로 정체된다. 최근에는 인간 선호 데이터를 활용하여 디퓨전 모델을 미세 조정하기 위해 강화 학습(RL)이 도입되었으나, 이 방법은 각 텍스트 프롬프트에 대해 최소 두 개의 이미지("승자"와 "패자" 이미지)를 필요로 한다. 본 논문에서는 디퓨전 모델이 이전 버전과 경쟁하며 반복적인 자기 개선 과정을 촉진하는 자기 경쟁 미세 조정(self-play fine-tuning for diffusion models, SPIN-Diffusion)이라는 혁신적인 기법을 소개한다. 우리의 접근법은 기존의 지도 학습 및 RL 전략에 대한 대안을 제시하며, 모델 성능과 정렬(alignment)을 크게 향상시킨다. Pick-a-Pic 데이터셋에 대한 실험 결과, SPIN-Diffusion은 첫 번째 반복에서부터 인간 선호 정렬과 시각적 매력 측면에서 기존의 지도 학습 기반 미세 조정 방법을 능가함을 보여준다. 두 번째 반복에서는 모든 지표에서 RLHF 기반 방법의 성능을 초과하며, 더 적은 데이터로 이러한 결과를 달성한다.
우리는 언어 모델의 컨텍스트 길이를 128K로 확장하기 위한 지속적 사전 학습 방법론을 데이터 엔지니어링에 초점을 맞춰 연구합니다. 우리는 특히 임의의 입력 위치에서 정보를 활용할 수 있는 능력인 긴 컨텍스트 모델링이 대규모 사전 학습을 통해 이미 대부분 습득된 능력이며, 적절한 데이터 혼합물에 대한 경량의 지속적 사전 학습을 통해 이를 훈련 중에 접한 것보다 훨씬 더 긴 컨텍스트(예: 4K에서 128K)로 쉽게 확장할 수 있다고 가정합니다. 우리는 지속적 사전 학습을 위한 데이터의 양과 질을 조사합니다: (1) 양의 측면에서, 5억에서 50억 개의 토큰만으로도 모델이 128K 컨텍스트 내 어디에서든 정보를 검색할 수 있음을 보여줍니다; (2) 질의 측면에서, 우리의 결과는 도메인 균형과 길이 업샘플링을 동등하게 강조합니다. 구체적으로, 기존 연구에서 흔히 사용되는 방식인 책과 같은 특정 도메인에서 더 긴 데이터를 단순히 업샘플링하는 것은 최적의 성능을 내지 못하며, 균형 잡힌 도메인 혼합이 중요함을 발견했습니다. 우리는 이러한 데이터 10억에서 50억 토큰에 대해 전체 모델을 지속적으로 사전 학습하는 것이 언어 모델의 컨텍스트 길이를 128K로 확장하는 효과적이고 경제적인 전략임을 입증합니다. 우리의 방법론은 강력한 오픈소스 긴 컨텍스트 모델들을 능가하며 GPT-4 128K와 같은 최첨단 모델과의 격차를 줄입니다.
대형 언어 모델(LLMs)은 일반적으로 두 단계로 학습됩니다: 대규모 인터넷 규모 데이터셋에 대한 사전 학습과 하위 작업에 대한 미세 조정입니다. 사전 학습의 더 높은 계산 요구량을 고려할 때, 미세 조정이 모델에 덜 새로운 정보를 추가하므로 더 압축 가능하다고 직관적으로 가정할 수 있습니다. 우리는 이 가정을 탐구하기 위해 미세 조정된 모델의 가중치를 사전 학습된 구성 요소와 추가 델타로 분해합니다. 우리는 이 델타를 성능 저하 없이 1비트로 양자화하는 간단한 방법인 BitDelta를 소개합니다. 이 흥미로운 발견은 미세 조정 중 추가된 정보의 잠재적 중복성을 강조할 뿐만 아니라, 미세 조정된 모델의 다중 테넌트 서비스 및 다중 테넌트 저장에 중요한 함의를 가집니다. 단일 고정밀도 기본 모델과 여러 1비트 델타를 함께 사용할 수 있게 함으로써, BitDelta는 GPU 메모리 요구량을 10배 이상 크게 줄일 수 있으며, 이는 다중 테넌트 설정에서 향상된 생성 지연 시간으로도 이어질 수 있습니다. 우리는 Llama-2와 Mistral 모델 패밀리 및 최대 70B 파라미터의 모델에 걸친 실험을 통해 BitDelta를 검증하며, 모든 테스트 설정에서 최소한의 성능 저하를 보여줍니다.
대규모 사전 학습 모델을 활용한 제로샷 방식의 신호 편집 기술은 최근 이미지 영역에서 급속한 발전을 이루었습니다. 그러나 이러한 흐름은 아직 오디오 영역에 도달하지 못했습니다. 본 논문에서는 사전 학습된 확산 모델에 DDPM 역변환을 적용한 두 가지 제로샷 오디오 신호 편집 기법을 탐구합니다. 첫 번째 기법은 이미지 영역에서 차용된 것으로, 텍스트 기반 편집을 가능하게 합니다. 두 번째 기법은 감독 없이 의미론적으로 의미 있는 편집 방향을 발견하는 새로운 접근법입니다. 이 방법을 음악 신호에 적용하면 특정 악기의 참여도를 조절하거나 멜로디를 즉흥적으로 변형하는 등 다양한 음악적 흥미를 유발하는 수정 사항을 도출할 수 있습니다. 샘플은 https://hilamanor.github.io/AudioEditing/ 에서 확인할 수 있으며, 코드는 https://github.com/hilamanor/AudioEditing/ 에서 제공됩니다.
3D 가우시안 스플래팅의 발전은 3D 재구성 및 생성 속도를 크게 가속화했습니다. 그러나 이 방법은 많은 수의 가우시안을 필요로 하여 상당한 메모리 사용량을 초래할 수 있습니다. 본 논문에서는 일반화 지수 함수(Generalized Exponential Function, GEF)를 사용하여 3D 장면을 모델링하는 새로운 표현 방식인 GES(Generalized Exponential Splatting)를 소개합니다. GES는 장면을 표현하는 데 필요한 입자 수를 크게 줄여 가우시안 스플래팅 방법보다 효율성이 크게 뛰어나며, 가우시안 기반 유틸리티에 대한 플러그 앤 플레이 대체 기능을 제공합니다. GES는 이론적 및 실증적으로 1D 설정과 현실적인 3D 장면에서 검증되었습니다. GES는 날카로운 경계를 가진 신호를 더 정확하게 표현하는 것으로 나타났으며, 이는 가우시안의 고유한 저역통과 특성으로 인해 일반적으로 어려운 문제입니다. 우리의 실증적 분석은 GEF가 자연 발생 신호(예: 사각형, 삼각형, 포물선 신호)를 적합하는 데 가우시안보다 우수함을 보여주어, 가우시안 스플래팅의 메모리 사용량을 증가시키는 광범위한 분할 작업의 필요성을 줄입니다. 주파수 변조 손실을 활용하여 GES는 새로운 시점 합성 벤치마크에서 경쟁력 있는 성능을 달성하면서 가우시안 스플래팅의 메모리 저장 공간의 절반 미만을 요구하고 렌더링 속도를 최대 39%까지 증가시킵니다. 코드는 프로젝트 웹사이트 https://abdullahamdi.com/ges 에서 확인할 수 있습니다.
텍스트-이미지(T2I) 개인화의 목표는 사용자가 제공한 참조 개념에 맞춰 확산 모델을 사용자 정의하여, 목표 프롬프트와 일치하는 다양한 개념 이미지를 생성하는 것이다. 참조 개념을 고유한 텍스트 임베딩으로 표현하는 기존의 방법들은 종종 참조의 외관을 정확히 모방하지 못한다. 이를 해결하기 위해, 참조 이미지를 목표 노이즈 제거 과정에 명시적으로 조건화하는 방법, 즉 키-값 대체가 하나의 해결책이 될 수 있다. 그러나 기존 연구들은 사전 학습된 T2I 모델의 구조 경로를 방해하기 때문에 지역 편집에 제한된다. 이를 극복하기 위해, 우리는 T2I 개인화를 의미론적 매칭으로 재구성하는 새로운 플러그인 방법인 DreamMatcher를 제안한다. 구체적으로, DreamMatcher는 의미론적 매칭에 의해 정렬된 참조 값으로 목표 값을 대체하면서, 사전 학습된 T2I 모델의 다양한 구조 생성 능력을 보존하기 위해 구조 경로를 변경하지 않는다. 또한, 우리는 목표 프롬프트에 의해 도입된 관련 없는 영역으로부터 개인화된 개념을 분리하기 위해 의미론적 일관성 마스킹 전략을 도입한다. 기존 T2I 모델과 호환되는 DreamMatcher는 복잡한 시나리오에서 상당한 개선을 보여준다. 집중적인 분석을 통해 우리의 접근법의 효과를 입증한다.
원시 감각 데이터 시퀀스로부터 추론하는 것은 의료 기기부터 로봇공학에 이르기까지 다양한 분야에서 보편적으로 나타나는 문제이다. 이러한 문제들은 종종 원시 센서 데이터(예: 자기계, 압저항기)의 긴 시퀀스를 사용하여 원하는 물리량(예: 힘, 관성 측정)의 시퀀스를 예측하는 것을 포함한다. 고전적인 접근법은 국소적으로 선형적인 예측 문제에 강력하지만, 실제 센서를 사용할 때는 종종 한계를 보인다. 이러한 센서들은 일반적으로 비선형적이며, 외부 변수(예: 진동)의 영향을 받고, 데이터 의존적 드리프트를 보인다. 많은 문제에서, 예측 작업은 작은 레이블 데이터셋으로 인해 더욱 어려워지는데, 이는 실측 레이블을 얻기 위해 비용이 많이 드는 장비가 필요하기 때문이다. 본 연구에서는 연속적인 시퀀스 예측을 위한 개념적으로 간단한 새로운 기법인 계층적 상태-공간 모델(Hierarchical State-Space Models, HiSS)을 제안한다. HiSS는 구조화된 상태-공간 모델을 서로 쌓아 시간적 계층 구조를 생성한다. 촉각 기반 상태 예측부터 가속도계 기반 관성 측정에 이르는 여섯 가지 실제 센서 데이터셋에서 HiSS는 인과적 트랜스포머, LSTM, S4, Mamba와 같은 최첨단 시퀀스 모델을 MSE 기준으로 최소 23% 이상 능가한다. 우리의 실험은 또한 HiSS가 작은 데이터셋에 대해 효율적으로 확장 가능하며, 기존의 데이터 필터링 기술과 호환된다는 것을 보여준다. 코드, 데이터셋 및 비디오는 https://hiss-csp.github.io에서 확인할 수 있다.
확산 모델은 최근 비디오, 유체 역학 시뮬레이션, 기후 데이터와 같은 시간적 데이터에 점점 더 많이 적용되고 있다. 이러한 방법들은 일반적으로 확산 과정에서의 노이즈 양에 대해 후속 프레임들을 동등하게 취급한다. 본 논문은 롤링 확산(Rolling Diffusion)이라는 새로운 접근 방식을 탐구한다. 이는 슬라이딩 윈도우 디노이징 프로세스를 사용하며, 시퀀스에서 나중에 나타나는 프레임에 더 많은 노이즈를 할당함으로써 시간이 지남에 따라 확산 과정이 점진적으로 손상되도록 보장한다. 이는 생성 과정이 전개됨에 따라 미래에 대한 불확실성이 더 커지는 것을 반영한다. 실험적으로, 시간적 역학이 복잡한 경우 롤링 확산이 표준 확산보다 우수함을 보여준다. 특히, 이 결과는 Kinetics-600 비디오 데이터셋을 사용한 비디오 예측 작업과 혼돈 유체 역학 예측 실험에서 입증되었다.