번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 텍스트 생성에서 인상적인 능력을 보여주는 반면, 우리는 이러한 능력이 인류의 창의적 언어인 음악으로 일반화되기에는 아직 이르다는 사실을 발견했습니다. 우리는 본질적인 음악 능력을 통합한 오픈소스 LLM인 ChatMusician을 소개합니다. 이 모델은 LLaMA2를 텍스트 호환 음악 표현인 ABC 표기법에 대해 지속적인 사전 학습과 미세 조정을 기반으로 하며, 음악을 제2언어로 취급합니다. ChatMusician은 외부의 다중 모달 신경 구조나 토크나이저 없이 순수 텍스트 토크나이저를 사용하여 음악을 이해하고 생성할 수 있습니다. 흥미롭게도, 음악 능력을 부여하는 것이 언어 능력을 해치지 않으며, 오히려 MMLU 점수가 약간 더 높아지는 결과를 보였습니다. 우리의 모델은 텍스트, 코드, 멜로디, 모티프, 음악 형식 등을 조건으로 잘 구조화된 완전한 길이의 음악을 작곡할 수 있으며, GPT-4 기준선을 능가합니다. 우리가 신중하게 구성한 대학 수준의 음악 이해 벤치마크인 MusicTheoryBench에서 ChatMusician은 LLaMA2와 GPT-3.5를 제로샷 설정에서 상당한 차이로 앞섰습니다. 우리의 작업은 LLM이 음악을 위한 우수한 압축기일 수 있지만, 여전히 정복해야 할 상당한 영역이 남아 있음을 보여줍니다. 우리는 4B 토큰 음악-언어 코퍼스인 MusicPile, 수집된 MusicTheoryBench, 코드, 모델 및 데모를 GitHub에 공개합니다.
우리는 8조 개의 텍스트 토큰으로 학습된 150억 개의 파라미터를 가진 대규모 다국어 언어 모델인 Nemotron-4 15B를 소개합니다. Nemotron-4 15B는 영어, 다국어 및 코딩 작업에서 평가할 때 강력한 성능을 보여주며, 7개의 하위 평가 영역 중 4개에서 동일한 규모의 기존 오픈 모델을 모두 능가하고 나머지 영역에서도 선두 오픈 모델과 경쟁력 있는 성능을 달성합니다. 특히, Nemotron-4 15B는 동일한 규모의 모든 모델 중에서 가장 뛰어난 다국어 능력을 보여주며, 심지어 크기가 네 배 이상 큰 모델이나 다국어 작업에 특화된 모델들까지 능가합니다.
대규모 언어 모델(LLM)을 처음부터 학습시키는 것은 독특한 능력과 강점을 가진 모델을 얻을 수 있지만, 이 접근 방식은 상당한 비용이 들고 역량의 중복을 초래할 가능성이 있습니다. 대안 전략으로는 기존의 LLM들을 결합하여 더 강력한 LLM을 만드는 것이 있으며, 이를 통해 비용이 많이 드는 사전 학습의 필요성을 줄일 수 있습니다. 그러나 LLM들의 다양한 아키텍처로 인해 직접적인 파라미터 결합은 실현 가능하지 않습니다. 최근 FuseLLM은 구조적으로 다양한 여러 LLM의 집단 지식을 경량의 지속적 학습을 통해 목표 LLM으로 전달하는 지식 융합 개념을 도입했습니다. 이 보고서에서는 FuseLLM 프레임워크의 확장성과 유연성을 확장하여 채팅 LLM의 융합을 실현한 FuseChat을 소개합니다. FuseChat은 두 가지 주요 단계로 구성됩니다. 첫째, 구조적 및 규모적으로 다양한 소스 LLM에 대해 지식 융합을 수행하여 동일한 구조와 크기를 가진 여러 목표 LLM을 경량의 미세 조정을 통해 도출합니다. 그런 다음, 이러한 목표 LLM들은 파라미터 공간 내에서 병합되며, 여기서 우리는 미세 조정 전후의 파라미터 행렬 변동 비율을 기반으로 병합 가중치를 결정하는 새로운 방법을 제안합니다. 우리는 다양한 아키텍처와 규모를 가진 세 가지 주요 채팅 LLM, 즉 NH2-Mixtral-8x7B, NH2-Solar-10.7B, 그리고 OpenChat-3.5-7B를 사용하여 우리의 접근 방식을 검증합니다. 다양한 채팅 도메인에 걸친 실험 결과는 \textsc{FuseChat-7B}가 7B 및 34B 규모의 광범위한 채팅 LLM들 중에서 우수성을 보여주며, GPT-3.5 (3월)를 능가하고 Mixtral-8x7B-Instruct에 근접함을 입증합니다. 우리의 코드, 모델 가중치 및 데이터는 https://github.com/fanqiwan/FuseLLM에서 공개적으로 접근 가능합니다.
본 논문에서는 10,000개 이상의 GPU를 활용하여 대규모 언어 모델(LLM)을 학습시키기 위한 프로덕션 시스템인 MegaScale의 설계, 구현 및 엔지니어링 경험을 소개한다. 이러한 규모에서의 LLM 학습은 학습 효율성과 안정성 측면에서 전례 없는 도전 과제를 제시한다. 우리는 모델 블록 및 옵티마이저 설계, 계산 및 통신 중첩, 연산자 최적화, 데이터 파이프라인, 네트워크 성능 튜닝 등 알고리즘과 시스템 구성 요소를 전체적으로 고려한 풀스택 접근 방식을 채택하였다. 특히, LLM 학습 작업의 장기간 지속을 고려할 때 학습 과정 전반에 걸쳐 높은 효율성(즉, 안정성)을 유지하는 것은 프로덕션 환경에서 중요한 고려 사항이다. 대규모에서만 발생하는 다양한 복잡한 안정성 문제를 해결하기 위해서는 심층적인 관측 가능성이 핵심이다. 이를 위해 우리는 시스템 구성 요소와 스택 깊숙이 있는 이벤트를 모니터링하고 근본 원인을 식별하며, 내결함성을 달성하고 지연 작업을 완화하기 위한 효과적인 기술을 도출하기 위한 진단 도구 세트를 개발하였다. MegaScale은 12,288개의 GPU를 사용하여 175B LLM 모델을 학습할 때 55.2%의 Model FLOPs Utilization(MFU)을 달성하였으며, 이는 Megatron-LM 대비 MFU를 1.34배 향상시킨 결과이다. 또한, 우리는 실패 및 지연 작업을 식별하고 수정하는 과정에서 얻은 운영 경험을 공유한다. 이 연구가 시스템 관점에서 문제를 명확히 하고 경험을 공유함으로써, 향후 LLM 시스템 연구에 영감을 줄 수 있기를 기대한다.
Low-Rank Adaptation (LoRA)는 텍스트-이미지 모델에서 특정 요소(예: 독특한 캐릭터나 스타일)를 정확하게 표현하기 위해 널리 활용된다. 그러나 기존 방법들은 여러 LoRA를 효과적으로 조합하는 데 어려움을 겪으며, 특히 통합해야 할 LoRA의 수가 증가함에 따라 복잡한 이미지 생성이 제한된다. 본 논문에서는 디코딩 중심의 관점을 통해 다중 LoRA 조합을 연구한다. 우리는 두 가지 학습이 필요 없는 방법을 제안한다: 각 디노이징 단계에서 서로 다른 LoRA를 전환하는 LoRA Switch와 모든 LoRA를 동시에 통합하여 더 일관된 이미지 합성을 유도하는 LoRA Composite이다. 제안된 방법을 평가하기 위해 본 연구의 일환으로 새로운 종합 테스트베드인 ComposLoRA를 구축하였다. 이 테스트베드는 480개의 조합 세트를 포함한 다양한 LoRA 카테고리를 특징으로 한다. GPT-4V 기반의 평가 프레임워크를 활용한 결과, 특히 조합 내 LoRA 수가 증가할 때 우리의 방법이 기존 기준선보다 성능이 뚜렷하게 향상됨을 확인하였다.
우리는 대형 언어 모델(LLMs)이 "‘Superstition’의 가수의 어머니는"과 같은 복잡한 프롬프트에 대해 잠재적으로 다중 홉 추론을 수행하는지 연구한다. 우리는 LLM이 (1) 잠재적으로 "‘Superstition’의 가수"를 스티비 원더라는 브리지 엔티티로 식별하고, (2) 스티비 원더의 어머니에 대한 지식을 활용하여 프롬프트를 완성하는 잠재적 추론 경로의 증거를 탐색한다. 우리는 이 두 홉을 개별적으로 분석하고, 이들의 동시 발생을 잠재적 다중 홉 추론의 지표로 간주한다. 첫 번째 홉에 대해, 프롬프트를 변경하여 브리지 엔티티를 간접적으로 언급하는 것이 다른 엔티티 대신 브리지 엔티티의 내부 회상을 증가시키는지 테스트한다. 두 번째 홉에 대해, 이러한 회상의 증가가 LLM이 브리지 엔티티에 대해 알고 있는 지식을 더 잘 활용하도록 하는지 테스트한다. 우리는 특정 관계 유형의 프롬프트에 대해 잠재적 다중 홉 추론의 강력한 증거를 발견했으며, 이 추론 경로가 80% 이상의 프롬프트에서 사용되었다. 그러나 이러한 활용은 매우 문맥에 의존적이며, 다양한 유형의 프롬프트에 따라 달라진다. 또한 평균적으로, 두 번째 홉과 전체 다중 홉 순회에 대한 증거는 상당히 중간 수준이며, 첫 번째 홉에 대해서만 상당한 수준이다. 더욱이, 우리는 첫 번째 추론 홉에 대해 모델 크기가 증가함에 따라 명확한 확장 경향을 발견했지만, 두 번째 홉에 대해서는 그러한 경향이 없었다. 우리의 실험 결과는 LLM의 미래 개발과 응용에 있어 잠재적인 도전과 기회를 시사한다.
테이블, 그래프, 데이터베이스와 같은 구조화된 데이터 소스는 어디서나 접할 수 있는 지식 원천입니다. 대규모 언어 모델(LLM)이 일반 텍스트에서 보여준 능력에도 불구하고, 구조화된 데이터를 해석하고 활용하는 데 있어서는 여전히 한계를 보입니다. 우리의 연구 결과, LLM의 구조화된 데이터 처리 능력에는 상당한 결함이 있음이 드러났습니다. 예를 들어, ChatGPT는 최신 기술(SoTA) 모델에 비해 평균 35% 뒤처지는 것으로 나타났습니다. LLM의 구조화된 지식 기반(Structured Knowledge Grounding, SKG) 능력을 강화하기 위해, 우리는 110만 개의 예시로 구성된 포괄적인 지시 튜닝 데이터셋을 개발했습니다. 이 데이터셋을 활용하여, Code-LLaMA 아키텍처를 기반으로 7B에서 34B 파라미터까지 다양한 크기의 StructLM 모델 시리즈를 학습시켰습니다. 우리의 StructLM 시리즈는 평가된 18개 데이터셋 중 14개에서 작업별 특화 모델을 능가했으며, 7개의 SKG 작업에서 새로운 SoTA 성과를 달성했습니다. 더 나아가, StructLM은 6개의 새로운 SKG 작업에서도 탁월한 일반화 능력을 보여주었습니다. 예상과는 달리, 모델 크기를 키우는 것이 미미한 이점만을 제공하는 것으로 관찰되었으며, StructLM-34B는 StructLM-7B에 비해 약간의 개선만을 보였습니다. 이는 구조화된 지식 기반 작업이 여전히 어려운 과제이며, 새로운 수준으로 끌어올리기 위해서는 더 혁신적인 설계가 필요함을 시사합니다.
"크면 클수록 좋다"는 최근 대형 언어 모델(Large Language Models, LLMs) 개발의 주요 트렌드였다. 그러나 LLM은 온디바이스 처리, 에너지 효율성, 낮은 메모리 사용량, 응답 효율성이 요구되는 시나리오에는 적합하지 않다. 이러한 요구사항은 프라이버시, 보안, 지속 가능한 배포에 있어 매우 중요하다. 본 논문은 자원이 제한된 기기를 위한 정확하면서도 효율적인 소형 언어 모델(Small Language Models, SLMs) 설계의 도전 과제를 다루며 "적을수록 더 많다"는 패러다임을 탐구한다. 우리의 주요 기여는 자원이 제한된 컴퓨팅의 특수한 요구에 부응하며, 자원 요구량을 줄이면서 성능을 강화한 5억(0.5B) 파라미터의 정확하고 완전히 투명한 오픈소스 SLM인 MobiLlama를 소개하는 것이다. MobiLlama는 더 큰 모델에서 시작하여 신중한 파라미터 공유 기법을 적용해 사전 학습 및 배포 비용을 줄이는 SLM 설계이다. 우리의 작업은 오픈소스 SLM 간의 격차를 메우는 것뿐만 아니라, 전체 학습 데이터 파이프라인, 학습 코드, 모델 가중치, 300개 이상의 체크포인트 및 평가 코드를 포함한 완전한 투명성을 보장한다. 이 모든 자료는 https://github.com/mbzuai-oryx/MobiLlama에서 확인할 수 있다.
비교 설정(예: 쌍별 선택, 목록별 순위)은 이미지 품질 평가(IQA)를 위한 다양한 주관적 연구에서 널리 채택되어 왔는데, 이는 본질적으로 서로 다른 관찰자 간의 평가 기준을 표준화하고 더 명확한 응답을 제공하기 때문입니다. 본 연구에서는 최신 대형 다중 모달리티 모델(LMMs)의 한계를 확장하여 시각적 품질 비교를 개방형 설정으로 더욱 발전시키고자 합니다. 이는 1) 품질 비교에 대한 개방형 질문에 응답할 수 있고, 2) 직접적인 답변을 넘어 상세한 추론을 제공할 수 있는 능력을 포함합니다. 이를 위해 우리는 Co-Instruct를 제안합니다. 이 최초의 오픈소스 개방형 시각적 품질 비교기를 학습시키기 위해, 우리는 두 가지 소스로부터 Co-Instruct-562K 데이터셋을 수집했습니다: (a) LMM이 병합한 단일 이미지 품질 설명, (b) 라벨이 없는 데이터에 대한 GPT-4V "교사" 응답. 또한, 이 설정을 더 잘 평가하기 위해 LMMs를 위한 최초의 다중 이미지 비교 벤치마크인 MICBench를 제안합니다. 우리는 Co-Instruct가 최신 오픈소스 LMMs보다 30% 더 높은 우수한 정확도를 달성할 뿐만 아니라, 기존 관련 벤치마크와 제안된 MICBench에서 GPT-4V(그의 교사)를 능가함을 보여줍니다. 우리의 모델은 https://huggingface.co/q-future/co-instruct에서 공개되었습니다.
대규모 언어 모델(LLM)이 다양한 실제 응용 분야에서 점점 더 널리 사용됨에 따라, 사용자 입력에 대한 모델의 견고성을 이해하고 향상시키는 것은 매우 중요한 과제가 되었습니다. 기존의 적대적 프롬프트 식별 방법은 특정 도메인에 집중하거나 다양성이 부족하며, 많은 경우 광범위한 인간 주석이 필요합니다. 이러한 한계를 해결하기 위해, 본 논문에서는 다양한 적대적 프롬프트를 생성하는 새로운 접근법인 Rainbow Teaming을 제안합니다. Rainbow Teaming은 적대적 프롬프트 생성을 품질-다양성 문제로 정의하고, 개방형 탐색을 통해 효과적이면서도 다양한 프롬프트를 생성합니다. 이 방법은 안전성, 질의응답, 사이버 보안 등 다양한 도메인에서 모델의 취약점을 발견할 수 있습니다. 또한, Rainbow Teaming으로 생성된 합성 데이터를 활용한 미세 조정이 최신 LLM의 안전성을 개선하면서도 일반적인 성능과 유용성을 저해하지 않음을 보여줌으로써, 개방형 자기 개선의 길을 열어줍니다.