번역이 포함된 일일 선별된 AI 연구 논문
언어 모델(Language Models, LMs)은 NLP 연구와 상용 제품에서 모두 보편적으로 사용되고 있습니다. 이들의 상업적 중요성이 급증함에 따라, 가장 강력한 모델들은 독점 인터페이스 뒤에 가려져 있으며, 그들의 학습 데이터, 아키텍처, 개발 과정에 대한 중요한 세부 사항들이 공개되지 않고 있습니다. 이러한 세부 사항들이 모델의 편향성과 잠재적 위험을 포함한 과학적 연구에 중요하다는 점을 고려할 때, 연구 커뮤니티가 강력하고 진정으로 개방된 언어 모델에 접근할 수 있는 것은 필수적이라고 믿습니다. 이를 위해, 본 기술 보고서는 최첨단의 진정한 오픈 언어 모델인 OLMo와 언어 모델링 과학을 구축하고 연구하기 위한 프레임워크의 첫 번째 릴리스를 상세히 설명합니다. 대부분의 기존 노력이 모델 가중치와 추론 코드만을 공개한 것과 달리, 우리는 OLMo와 전체 프레임워크, 학습 데이터, 학습 및 평가 코드를 모두 공개합니다. 이번 릴리스가 오픈 연구 커뮤니티를 강화하고 새로운 혁신의 물결을 일으키기를 바랍니다.
언어 모델은 다양한 자연어 처리 과제를 해결하는 데 있어 핵심 기술로 자리 잡았으나, 최고 성능을 내는 언어 모델들이 어떻게 개발되었는지에 대한 많은 세부 사항이 공개되지 않고 있다. 특히, 사전 학습에 사용된 코퍼스에 대한 정보는 거의 논의되지 않는다: 상업용 언어 모델은 데이터에 대한 정보를 거의 제공하지 않으며, 심지어 오픈 모델조차도 학습에 사용된 데이터셋이나 이를 재현하기 위한 정확한 방법을 공개하는 경우가 드물다. 이로 인해 학습 데이터가 모델의 능력에 미치는 영향과 한계를 이해하는 등 언어 모델링 연구의 특정 주제를 탐구하는 데 어려움이 있다. 언어 모델 사전 학습에 대한 공개 연구를 촉진하기 위해, 우리는 웹 콘텐츠, 과학 논문, 코드, 공개 도메인 도서, 소셜 미디어, 백과사전 자료 등 다양한 소스로 구성된 3조 토큰 규모의 영어 코퍼스인 Dolma를 공개한다. 또한, 추가 실험과 연구 재현을 가능하게 하기 위해 데이터 정제 도구를 오픈소스로 제공한다. 본 보고서에서는 Dolma의 설계 원칙, 구축 과정의 세부 사항, 그리고 내용 요약을 문서화한다. 또한, Dolma의 중간 상태에서 언어 모델을 학습시킨 결과와 분석을 통해 콘텐츠 또는 품질 필터링, 중복 제거, 다중 소스 혼합 등 중요한 데이터 정제 관행에 대해 배운 내용을 공유한다. Dolma는 언어 모델링 과학을 구축하고 연구하기 위해 설계된 최첨단 오픈 언어 모델 및 프레임워크인 OLMo를 학습시키는 데 사용되었다.
우리는 3조 개의 영어와 프랑스어 토큰으로 사전 학습된 1.3B 크기의 언어 모델인 CroissantLLM을 소개하여, 연구 및 산업계에 고성능이면서도 완전히 오픈 소스로 제공되는 양국어 모델을 제공하고자 한다. 이 모델은 소비자용 로컬 하드웨어에서도 빠르게 실행될 수 있다. 이를 위해, 우리는 1:1의 영어-프랑스어 사전 학습 데이터 비율, 맞춤형 토크나이저, 그리고 양국어 미세 조정 데이터셋을 사용하여 본질적으로 양국어 모델을 훈련하는 접근 방식을 선구적으로 도입하였다. 우리는 특히 수동으로 선별된 고품질의 다양한 데이터 소스를 포함한 프랑스어 분할을 포함한 훈련 데이터셋을 공개한다. 영어 외의 언어에서의 성능을 평가하기 위해, 우리는 프랑스어에서 모델 성능의 다양한 직교적 측면을 다루는 분류 및 생성 작업으로 구성된 새로운 벤치마크인 FrenchBench를 제작하였다. 또한, 투명성을 기반으로 더 큰 언어 모델 연구를 촉진하기 위해, 우리는 코드베이스와 다양한 모델 크기, 훈련 데이터 분포, 훈련 단계에 걸친 수십 개의 체크포인트, 그리고 미세 조정된 채팅 모델과 강력한 번역 모델을 공개한다. 우리는 FMTI 프레임워크를 통해 모델을 평가하고, 투명성 기준의 81%를 검증하여 대부분의 오픈 이니셔티브를 훨씬 뛰어넘는 점수를 기록하였다. 이 작업은 이전의 영어 중심 작업에서 벗어나 NLP 환경을 풍부하게 하고, 언어 모델에서의 다국어성에 대한 이해를 강화한다.
문맥을 이해하는 것은 인간 언어를 이해하는 데 있어 핵심적인 능력이며, 대규모 언어 모델(LLMs)이 이러한 능력을 점점 더 인상적인 수준으로 보여주고 있다. 그러나 LLMs의 평가는 자연어 처리 영역 내 다양한 도메인을 포괄하지만, 문맥적 특징을 이해하는 언어적 능력을 탐구하는 데는 제한된 관심만이 주어져 왔다. 본 논문은 생성 모델 평가에 적합하도록 기존 데이터셋을 조정하여 문맥 이해 벤치마크를 소개한다. 이 벤치마크는 모델의 문맥 이해 능력을 평가하기 위해 설계된 프롬프트를 포함한 네 가지 구별된 작업과 아홉 개의 데이터셋으로 구성된다. 먼저, 문맥 내 학습 사전 학습 시나리오에서 LLMs의 성능을 평가한다. 실험 결과에 따르면, 사전 학습된 밀집 모델은 최신 미세 조정 모델에 비해 더 미묘한 문맥적 특징을 이해하는 데 어려움을 겪는 것으로 나타났다. 둘째, LLM 압축이 연구 및 실제 응용 분야에서 점점 더 중요한 의미를 갖게 됨에 따라, 문맥 내 학습 설정에서 양자화된 모델의 문맥 이해 능력을 평가한다. 3비트 사후 학습 양자화가 우리의 벤치마크에서 다양한 정도의 성능 저하를 초래한다는 것을 발견했다. 이러한 시나리오에 대한 광범위한 분석을 수행하여 실험 결과를 입증한다.
본 연구에서는 대규모 언어 모델을 개선하기 위해 인간 피드백을 수집하는 과정에서 효율적 탐색이 상당한 이점을 제공한다는 증거를 제시한다. 실험에서는 에이전트가 피드백을 받아들이며 보상 모델을 적합화하는 동시에 순차적으로 질의를 생성한다. 가장 우수한 성능을 보인 에이전트는 인식론적 신경망으로 표현된 불확실성을 기반으로 더블 톰슨 샘플링을 사용하여 질의를 생성한다. 연구 결과는 효율적 탐색이 훨씬 적은 수의 질의로도 높은 수준의 성능을 가능하게 함을 보여준다. 또한, 불확실성 추정과 탐색 전략 선택 모두 중요한 역할을 하는 것으로 나타났다.
우리는 개념 학습과 생성 프로세스의 흐름 관리를 위한 논리 기반 접근법을 채택한 다목적 모듈형 프레임워크인 SymbolicAI를 소개한다. SymbolicAI는 대규모 언어 모델(LLM)을 자연어 및 형식 언어 명령어를 기반으로 작업을 실행하는 의미론적 파서로 취급함으로써 생성 모델과 다양한 솔버의 원활한 통합을 가능하게 하며, 이는 기호적 추론과 생성 AI 간의 간극을 메우는 역할을 한다. 우리는 복잡한 작업을 해결하기 위해 확률적 프로그래밍 원리를 활용하고, 각각의 강점을 지닌 미분 가능 프로그래밍 및 고전적 프로그래밍 패러다임을 사용한다. 이 프레임워크는 데이터 스트림 조작을 위한 다형성, 구성성, 자기참조적 연산 집합을 도입하여 LLM 출력을 사용자 목표에 맞춘다. 그 결과, 제로샷 및 퓨샷 학습 능력을 갖춘 다양한 기초 모델과 특정 문제 해결에 능숙한 전문화된 미세조정 모델 또는 솔버 간의 전환이 가능해진다. 이에 따라 이 프레임워크는 설명 가능한 계산 그래프의 생성과 평가를 용이하게 한다. 마지막으로, 이러한 계산 그래프를 평가하기 위한 품질 측정 지표와 실증적 점수를 소개하고, 복잡한 워크플로우 집합에 걸쳐 다양한 최첨단 LLM을 비교하는 벤치마크를 제안한다. 우리는 이 실증적 점수를 "교차 유사성을 통한 관계적 궤적 평가를 위한 벡터 임베딩(Vector Embedding for Relational Trajectory Evaluation through Cross-similarity)", 약칭 VERTEX 점수라고 명명한다. 프레임워크 코드베이스와 벤치마크는 아래에 링크되어 있다.
머신 언러닝(machine unlearning)은 엄격한 규제를 준수하기 위해 주어진 모델에서 데이터 샘플을 의도적으로 잊게 하는 새로운 패러다임으로 등장했습니다. 그러나 기존의 머신 언러닝 방법은 주로 분류 모델에 초점을 맞추어 왔으며, 생성 모델에 대한 언러닝 연구는 상대적으로 미진한 상태로 남아 있었습니다. 본 논문은 이러한 간극을 메우기 위한 가교 역할을 하며, 이미지-투-이미지 생성 모델을 위한 머신 언러닝의 통합 프레임워크를 제시합니다. 이 프레임워크 내에서, 우리는 엄밀한 이론적 분석을 기반으로 한 계산 효율적인 알고리즘을 제안합니다. 이 알고리즘은 잊어야 할 샘플의 정보를 효과적으로 제거하면서도 유지해야 할 샘플에 대한 성능 저하를 미미한 수준으로 유지합니다. ImageNet-1K와 Places-365라는 두 대규모 데이터셋에 대한 실험적 연구는 또한 우리의 알고리즘이 유지 샘플의 가용성에 의존하지 않음을 보여주며, 이는 데이터 보존 정책을 더욱 잘 준수함을 의미합니다. 우리가 아는 한, 이 연구는 이미지-투-이미지 생성 모델에 특화된 머신 언러닝에 대한 체계적, 이론적, 실험적 탐구를 최초로 제시한 작업입니다. 우리의 코드는 https://github.com/jpmorganchase/l2l-generator-unlearning에서 확인할 수 있습니다.
언어 모델을 인간의 선호도에 맞추기 위한 일반적인 접근 방식은 먼저 선호도 데이터로부터 보상 모델을 학습한 다음, 이 보상 모델을 사용하여 언어 모델을 업데이트하는 것이다. 본 연구에서는 이러한 접근 방식에서 발생하는 두 가지 밀접한 관련 문제를 탐구한다. 첫째, 보상 모델의 단조 변환은 선호도 순위를 보존한다; 다른 것들보다 "더 나은" 선택이 존재하는가? 둘째, 언어 모델을 여러 특성에 맞추고자 할 때, 여러 보상 모델을 어떻게 결합해야 하는가? 정렬 절차의 확률적 해석을 사용하여, Bradley-Terry 선호 모델로부터 학습된 보상(일반적인 경우)에 대한 자연스러운 변환 선택을 식별한다. 이 유도된 변환은 두 가지 중요한 특성을 가진다. 첫째, 이미 높은 점수를 받은 출력보다는 성능이 낮은 출력의 개선을 강조한다. 이는 일부 프롬프트가 개선되지 않는 언더피팅과 보상 모델의 오류를 악용하는 리워드 해킹을 모두 완화한다. 둘째, 합산을 논리적 접속사와 연결함으로써 보상의 원칙적인 집계를 가능하게 한다: 변환된 보상의 합은 출력이 측정된 모든 특성에서 "좋은" 상태일 확률에 해당하며, 이는 본 연구에서 정확히 정의한다. RLHF를 사용하여 언어 모델을 도움이 되고 무해하도록 정렬한 실험 결과, 기준(변환되지 않은) 접근 방식에 비해 상당한 개선이 확인되었다.
본 논문에서는 다중 텍스트 프롬프트에 걸쳐 동시에 최적화된 피드포워드(feed-forward) 텍스트-투-메시(text-to-mesh) 프레임워크인 Amortized Text-to-Mesh(AToM)를 소개한다. 기존의 텍스트-투-3D(text-to-3D) 방법들은 종종 프롬프트별로 시간 소모적인 최적화를 필요로 하며, 폴리곤 메시(polygonal mesh)가 아닌 다른 형태의 표현을 출력하는 경우가 많다. 반면, AToM은 1초 미만의 시간 내에 고품질의 텍스처가 적용된 메시를 직접 생성하며, 학습 비용을 약 10배 절감하고, 보지 않은(unseen) 프롬프트에 대해서도 일반화가 가능하다. 본 연구의 핵심 아이디어는 안정적인 학습을 보장하고 확장성을 가능하게 하는 두 단계의 분할 최적화(amortized optimization) 전략을 갖춘 새로운 트라이플레인(triplane) 기반 텍스트-투-메시 아키텍처이다. 다양한 프롬프트 벤치마크에 대한 광범위한 실험을 통해, AToM은 최신 분할 최적화 접근법을 크게 능가하며(DF415 데이터셋에서 4배 이상의 정확도 향상), 더욱 뚜렷하고 고품질의 3D 출력을 생성한다. AToM은 강력한 일반화 능력을 보여주며, 프롬프트별 최적화 솔루션과 달리 추론(inference) 과정에서 추가적인 최적화 없이도 보지 않은 보간된(interpolated) 프롬프트에 대해 세밀한 3D 자산을 제공한다.
본 연구는 조기 종료 대형 언어 모델(LLMs)의 학습/튜닝을 위한 가볍고 경제적인 솔루션인 EE-Tuning을 소개한다. 일반적으로 사용되는 전체 파라미터 사전 학습 방식과 달리, EE-Tuning은 사전 학습된(그리고 가능하면 미세 조정된) 표준 LLM에 추가적인 조기 종료 레이어를 부가하여, 파라미터 효율적인 방식으로 튜닝한다. 이는 상당히 적은 계산 자원과 학습 데이터를 요구한다. EE-Tuning의 구현은 광범위한 성능 최적화를 통해 뛰어난 학습 효율성을 달성하며, 3D 병렬화와의 완전한 호환성으로 인해 확장성을 갖춘다. 체계적인 실험 결과는 EE-Tuning의 효능을 검증하며, 제한된 학습 예산으로도 효과적인 조기 종료 LLM 추론이 가능함을 확인한다. 조기 종료 LLMs를 커뮤니티에 보다 쉽게 접근할 수 있도록 하기 위해, EE-Tuning 구현의 소스 코드를 https://github.com/pan-x-c/EE-LLM에서 공개한다.