번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)의 최근 돌파구는 소수의 데이터가 풍부한 언어를 중심으로 이루어졌다. 이러한 돌파구를 '1등 시민 언어' 이상으로 확대하기 위해서는 무엇이 필요한가? 우리의 연구는 Aya를 소개한다. Aya는 101개 언어로 명령을 따르는 대규모 다국어 생성 언어 모델로, 이 중 50% 이상이 저자원 언어로 간주된다. Aya는 대부분의 작업에서 mT0와 BLOOMZ를 능가하면서도 두 배에 가까운 수의 언어를 지원한다. 우리는 99개 언어에 걸친 다국어 평가를 위한 새로운 평가 스위트를 도입하여, 판별적 및 생성적 작업, 인간 평가, 그리고 보류된 작업과 분포 내 성능을 모두 포함하는 시뮬레이션 승률을 통해 최신 기술을 확장했다. 또한, 최적의 미세 조정 혼합 구성, 데이터 정제, 그리고 모델의 독성, 편향, 안전성에 대한 상세한 조사를 수행했다. 우리는 명령 데이터셋과 모델을 https://hf.co/CohereForAI/aya-101에서 오픈소스로 공개한다.
컴퓨터와의 자율적 상호작용은 오랜 기간 동안 큰 잠재력을 지닌 도전 과제로 여겨져 왔으며, 최근 대규모 언어 모델(LLM)의 확산으로 디지털 에이전트 구축에 있어 상당한 진전이 이루어졌다. 그러나 이러한 에이전트 대부분은 특정 소프트웨어나 웹사이트와 같은 좁은 영역에서 상호작용하도록 설계되어 있어, 일반적인 컴퓨터 작업에 적용하기에는 한계가 있다. 이를 해결하기 위해 우리는 운영체제(OS) 내의 웹, 코드 터미널, 파일, 멀티미디어, 다양한 타사 애플리케이션을 포함한 포괄적인 요소들과 인터페이스할 수 있는 일반화된 에이전트를 구축하기 위한 프레임워크인 OS-Copilot을 소개한다. 우리는 OS-Copilot을 활용하여 일반적인 컴퓨터 작업을 자동화하기 위한 자기 개선형 구현 에이전트인 FRIDAY를 개발했다. 일반 AI 어시스턴트 벤치마크인 GAIA에서 FRIDAY는 기존 방법 대비 35% 더 우수한 성능을 보이며, 이전 작업에서 축적된 기술을 통해 보이지 않는 애플리케이션에 대한 강력한 일반화 능력을 입증했다. 또한 우리는 FRIDAY가 최소한의 감독 하에서 Excel과 Powerpoint를 제어하고 자기 개선하는 방법을 학습한다는 수치적 및 정량적 증거를 제시한다. 우리의 OS-Copilot 프레임워크와 실험 결과는 더 능력 있고 일반적인 목적의 컴퓨터 에이전트를 향한 미래 연구를 위한 인프라와 통찰을 제공한다.
대형 언어 모델(LLMs)은 분자 특성 예측, 분자 생성, 실험 프로토콜 설계 등 화학 분야 응용에서 인상적인 진전을 이루어 왔습니다. 그러나 화학에 특화된 대화 기반 모델은 아직 부족한 상황입니다. 이 문제는 대부분의 화학 데이터와 과학적 지식이 주로 구조화된 데이터베이스에 저장되어 있으며, 이러한 구조화된 데이터를 직접 사용할 경우 모델의 일관된 대화 능력이 저하되기 때문에 발생합니다. 이 문제를 해결하기 위해, 우리는 구조화된 지식을 평문 대화로 변환하는 새로운 템플릿 기반 명령어 구성 방법을 개발하여 언어 모델 학습에 적합하도록 만들었습니다. 이 접근법을 활용하여, 우리는 화학 분야 전반의 다양한 작업을 원활한 대화 상호작용으로 수행할 수 있는 최초의 대형 언어 모델인 ChemLLM을 개발했습니다. ChemLLM은 화학의 세 가지 주요 작업, 즉 명칭 변환, 분자 설명, 반응 예측에서 GPT-3.5를 모두 능가하며, 이 중 두 작업에서는 GPT-4도 뛰어넘었습니다. 특히, ChemLLM은 주로 화학 중심 코퍼스로 훈련되었음에도 관련 수학 및 물리학 작업에서도 탁월한 적응력을 보였습니다. 더 나아가, ChemLLM은 문헌 번역 및 화학정보학 프로그래밍과 같은 화학 내 특화된 NLP 작업에서도 뛰어난 능력을 입증했습니다. ChemLLM은 화학 연구 내 새로운 탐구의 길을 열었으며, 구조화된 화학 지식을 대화 시스템에 통합하는 우리의 방법은 다양한 과학 분야에서 LLM 개발을 위한 새로운 지평을 제시합니다. 코드, 데이터셋, 모델 가중치는 hf.co/AI4Chem/ChemLLM-7B-Chat에서 공개적으로 접근 가능합니다.
Mixture-of-Experts(MoE) 아키텍처 기반의 대형 언어 모델(LLMs)은 다양한 작업에서 유망한 성능을 보여주고 있습니다. 그러나 GPU 메모리 리소스가 충분하지 않은 제한된 환경에서 이러한 모델을 실행하는 것은 모델 크기가 매우 크기 때문에 어려운 과제입니다. 모델 가중치를 CPU 메모리로 오프로드하는 기존 시스템은 CPU와 GPU 간에 데이터를 빈번하게 이동시키는 데 따른 상당한 오버헤드 문제를 겪고 있습니다. 본 논문에서는 MoE 모델을 위한 CPU-GPU 조정 기반의 리소스 효율적 추론 엔진인 Fiddler를 제안합니다. Fiddler의 핵심 아이디어는 CPU의 연산 능력을 활용하여 CPU와 GPU 간의 데이터 이동을 최소화하는 것입니다. 평가 결과, Fiddler는 90GB가 넘는 파라미터를 가진 압축되지 않은 Mixtral-8x7B 모델을 24GB 메모리의 단일 GPU에서 초당 3개 이상의 토큰을 생성할 수 있으며, 이는 기존 방법 대비 수십 배의 성능 향상을 보여줍니다. Fiddler의 코드는 https://github.com/efeslab/fiddler에서 공개되어 있습니다.
비전 언어 모델(VLMs)은 논리적 추론부터 시각적 이해에 이르기까지 다양한 작업에서 인상적인 능력을 보여주고 있습니다. 이는 로봇 제어와 같은 세상과의 더 풍부한 상호작용의 가능성을 열어줍니다. 그러나 VLMs은 텍스트 출력만 생성하는 반면, 로봇 제어 및 기타 공간 작업은 연속적인 좌표, 동작 또는 궤적을 출력해야 합니다. 작업별 데이터에 대한 미세 조정 없이 VLMs이 이러한 설정을 처리할 수 있도록 하려면 어떻게 해야 할까요? 본 논문에서는 VLMs을 위한 새로운 시각적 프롬프팅 접근 방식을 제안합니다. 이를 '반복적 시각적 최적화를 통한 프롬프팅(PIVOT)'이라고 부르며, 이는 작업을 반복적인 시각적 질문 응답으로 캐스팅합니다. 각 반복에서 이미지는 VLMs이 참조할 수 있는 제안(예: 후보 로봇 동작, 위치 지정 또는 궤적)의 시각적 표현으로 주석 처리됩니다. 그런 다음 VLMs은 작업에 가장 적합한 제안을 선택합니다. 이러한 제안은 반복적으로 개선되어 VLMs이 결국 사용 가능한 최상의 답변에 도달할 수 있도록 합니다. 우리는 PIVOT을 실제 로봇 탐색, 이미지 기반 실제 조작, 시뮬레이션에서의 명령 수행, 그리고 위치 지정과 같은 추가적인 공간 추론 작업에 대해 조사했습니다. 놀랍게도, 우리의 접근 방식은 로봇 훈련 데이터 없이도 로봇 시스템의 제로샷 제어, 다양한 환경에서의 탐색 및 기타 기능을 가능하게 한다는 것을 발견했습니다. 현재 성능은 완벽하지 않지만, 우리의 연구는 이 새로운 체제의 잠재력과 한계를 강조하며 로봇 및 공간 추론 영역에서 인터넷 규모의 VLMs에 대한 유망한 접근 방식을 보여줍니다. 웹사이트: pivot-prompt.github.io 및 HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
웃음은 인간의 언어 표현 중 가장 표현력이 풍부하고 자연스러운 요소 중 하나로, 감정, 사회적 신호, 유머를 전달합니다. 그러나 대부분의 텍스트-음성 변환(TTS) 시스템은 현실적이고 적절한 웃음 소리를 생성하는 능력이 부족하여, 그 응용 범위와 사용자 경험에 제약을 받고 있습니다. 기존의 자연스러운 웃음을 생성하려는 시도들이 있었지만, 생성할 웃음의 타이밍과 다양성을 제어하는 데 있어 한계가 있었습니다. 본 연구에서는 ELaTE를 제안합니다. ELaTE는 짧은 오디오 프롬프트를 기반으로 어떤 화자의 목소리 특성을 모방하고, 생성할 음성의 내용을 나타내는 텍스트 프롬프트, 그리고 웃음 표현을 제어하는 입력(웃음의 시작과 종료 시간 또는 모방할 웃음이 포함된 추가 오디오 프롬프트)을 활용하여 정확한 웃음 타이밍과 표현을 제어할 수 있는 제로샷 TTS 시스템입니다. 우리는 조건부 플로우 매칭 기반 제로샷 TTS를 기반으로 모델을 개발하고, 웃음 탐지기에서 추출한 프레임 수준의 표현을 추가 조건으로 사용하여 미세 조정했습니다. 소규모 웃음 조건 데이터와 대규모 사전 학습 데이터를 혼합하는 간단한 방식을 통해, 사전 학습된 제로샷 TTS 모델이 품질 저하 없이 정확한 제어 가능성을 갖춘 자연스러운 웃음을 생성하도록 미세 조정할 수 있음을 입증했습니다. 평가를 통해 ELaTE가 기존 모델에 비해 훨씬 더 높은 품질과 제어 가능성을 갖춘 웃음 음성을 생성할 수 있음을 보여줍니다. 데모 샘플은 https://aka.ms/elate/에서 확인할 수 있습니다.
AI 모델 크기가 증가함에 따라, 신경망 스케일링 법칙은 모델의 용량과 원본(인간 또는 자연) 훈련 데이터의 크기를 증가시킬 때 대형 모델의 성능 향상을 예측하는 데 중요한 도구가 되었습니다. 그러나 널리 사용되는 모델의 보편화로 인해 온라인 데이터와 텍스트의 생태계는 점점 더 많은 합성 데이터를 포함하도록 공진화할 것입니다. 본 논문에서 우리는 다음과 같은 질문을 던집니다: 합성 데이터가 훈련 코퍼스에 포함되는 불가피한 상황에서 스케일링 법칙은 어떻게 변화할 것인가? 미래의 모델들은 여전히 개선될 것인가, 아니면 완전한 (모델) 붕괴에 이르기까지 퇴보할 것인가? 우리는 스케일링 법칙의 관점에서 모델 붕괴에 대한 이론적 프레임워크를 개발합니다. 우리는 스케일링의 상실, 세대 수에 따른 스케일링 이동, 기술의 "언러닝(un-learning)", 그리고 인간 데이터와 합성 데이터를 혼합할 때 발생하는 그로킹(grokking) 현상 등 다양한 붕괴 현상을 분석합니다. 우리의 이론은 산술 작업에서의 트랜스포머와 대형 언어 모델 Llama2를 사용한 텍스트 생성에 대한 대규모 실험을 통해 검증되었습니다.
시각적으로 조건화된 언어 모델(VLMs)은 시각적 대화, 장면 이해, 로봇 작업 계획과 같은 응용 분야에서 점점 더 널리 채택되고 있으며, 이러한 채택은 LLaVa, InstructBLIP, PaLI-3과 같은 새로운 모델들의 풍부한 발전을 촉진했습니다. 새로운 모델들이 많이 출시되고 있음에도 불구하고, 이미지 전처리, 아키텍처, 최적화와 같은 핵심 설계 결정들은 충분히 탐구되지 않아 모델 성능에 어떤 요소들이 기여하는지 이해하기 어려운 상황입니다. 이는 객관적이고 일관된 평가의 부재로 인해 더욱 복잡해지는 문제입니다. 이러한 격차를 해결하기 위해, 우리는 먼저 시각적 질문 응답, 언어 기반 객체 위치 파악, 그리고 환각과 같은 속성을 탐구하는 표적 도전 세트를 포함한 표준화된 평가 모음을 구성했습니다. 이 평가들은 VLM의 능력에 대해 보정된 세밀한 통찰력을 제공합니다. 둘째, 우리는 사전 학습된 시각적 표현과 기본 언어 모델 대 지시 튜닝 언어 모델 사용의 트레이드오프를 정량화하는 등 주요 설계 축을 따라 VLMs를 엄격히 조사했습니다. 우리의 분석과 함께 세 가지 자원 기여를 제공합니다: (1) VLMs를 평가하기 위한 통합 프레임워크, (2) VLM 훈련을 위한 최적화된 유연한 코드, (3) 모든 모델에 대한 체크포인트, 특히 오픈소스 VLMs의 최첨단 기술인 InstructBLIP과 LLaVa v1.5를 엄격히 능가하는 7-13B 규모의 VLM 패밀리를 포함합니다.
언어 모델의 수학적 추론 능력을 지속적 사전 학습을 통해 개선하기 위해, 우리는 기본 언어 모델을 활용한 자율 데이터 선택 전략을 도입합니다. 기존의 지도 미세 조정이나 인간이 주석을 단 데이터로 훈련된 분류기를 사용하는 방식과는 달리, 우리의 접근 방식은 메타 프롬프트 언어 모델을 제로샷 검증기로 활용하여 고품질 수학 콘텐츠를 자율적으로 평가하고 선택하며, 이를 통해 200GB 이상의 데이터를 포함한 오픈소스 AutoMathText 데이터셋을 공개합니다. 우리의 방법의 효과를 입증하기 위해, 7B 파라미터 Mistral 언어 모델을 AutoMathText 데이터셋으로 지속적으로 사전 학습시켰으며, 이전의 지속적 사전 학습 작업에 비해 토큰 양을 크게 줄이면서 MATH 데이터셋에서의 하위 작업 성능이 크게 향상되었음을 확인했습니다. 우리의 방법은 기준선 대비 사전 학습 토큰 효율성을 2배 증가시켰으며, 이는 모델의 수학적 추론 능력을 향상시키는 데 있어 우리의 접근 방식의 잠재력을 강조합니다. AutoMathText 데이터셋은 https://huggingface.co/datasets/math-ai/AutoMathText에서 확인할 수 있으며, 코드는 https://github.com/yifanzhang-pro/AutoMathText에서 제공됩니다.
전문가 혼합(Mixture of Experts, MoE) 모델은 대규모 언어 모델의 계산 비용을 줄이기 위한 주요 해결책으로 부상했다. 본 연구에서는 다양한 변수를 확장하여 이들의 확장 특성을 분석한다. 특히, 전문가의 크기를 정밀하게 제어할 수 있는 새로운 하이퍼파라미터인 세분성(granularity)을 도입한다. 이를 바탕으로, 학습 토큰 수, 모델 크기, 세분성을 고려한 세분화된 MoE의 확장 법칙을 정립한다. 이러한 법칙을 활용하여 주어진 계산 예산에 대한 최적의 학습 구성을 도출한다. 연구 결과는 MoE 모델이 밀집 트랜스포머(dense Transformer)를 지속적으로 능가할 뿐만 아니라, 모델 크기와 학습 예산을 확장함에 따라 밀집 모델과 MoE 모델 간의 효율성 격차가 더욱 커짐을 보여준다. 또한, MoE에서 전문가의 크기를 피드포워드 계층과 동일하게 설정하는 일반적인 관행이 거의 모든 계산 예산에서 최적이 아님을 입증한다.
본 연구에서는 인간 피드백을 통한 강화 학습(RLHF)에서 대형 언어 모델(LLMs)의 응답 길이와 관련된 보상 해킹 문제를 다룬다. 잘 구성되고 장황하지만 도움이 되지 않는 LLM의 응답은 종종 LLM 또는 심지어 인간 평가자를 속여 높은 점수를 얻는 데 성공한다. 이와 동일한 문제는 RL의 일부 보상 모델에서도 발생한다. 이러한 훈련 및 평가 과정에서의 문제를 해결하기 위해, 우리는 다양한 훈련 하이퍼파라미터를 조정하여 얻은 LLM 평가 점수와 응답 길이 간의 상충 관계를 검토하는 더 신뢰할 수 있는 평가 프로토콜을 설립하였다. 이 평가를 바탕으로, 우리는 대규모 연구를 수행하여 하이퍼파라미터와 RL에서 사용된 기법들이 길이 편향을 완화하는 데 얼마나 효과적인지에 대한 통찰을 얻었다. 또한, 우리는 공유된 특징 표현을 기반으로 두 개의 선형 헤드를 함께 훈련시켜 보상을 예측하는 방식을 제안한다. 하나는 길이와 상관관계를 가지도록 훈련되고, 다른 하나는 길이와의 상관관계를 제거하여 실제 내용에 더 초점을 맞추도록 훈련된다. 이후, RL에서 길이 헤드를 제거함으로써 길이에 대한 보상 해킹을 방지한다. 실험 결과, 우리의 접근 방식은 길이와 보상 간의 상관관계를 거의 제거하였으며, 획득한 정책을 상당히 개선하였다.
우리는 LinkedIn에서 최신 모델링 아키텍처와 최적화 방법을 프로덕션에 도입한 대규모 랭킹 프레임워크인 LiRank를 소개합니다. 주목할 만한 모델링 개선 사항을 공개하는데, 특히 유명한 DCNv2 아키텍처에 어텐션과 잔차 연결을 추가한 Residual DCN을 포함합니다. SOTA 아키텍처를 결합하고 튜닝하여 통합 모델을 만드는 방법에 대한 통찰을 공유하며, 여기에는 Dense Gating, Transformers, Residual DCN이 포함됩니다. 또한, 캘리브레이션을 위한 새로운 기법을 제안하고 딥러닝 기반 탐색/활용 방법을 프로덕션화한 과정을 설명합니다. 대규모 랭킹 모델의 효과적이고 프로덕션 등급의 서빙을 가능하게 하기 위해, 양자화와 어휘 압축을 사용하여 모델을 훈련하고 압축하는 방법을 상세히 설명합니다. 피드 랭킹, 직업 추천, 광고 클릭률(CTR) 예측과 같은 대규모 사용 사례를 위한 배포 설정에 대한 세부 정보를 제공합니다. 다양한 A/B 테스트에서 얻은 교훈을 요약하며 가장 효과적인 기술적 접근 방식을 명확히 설명합니다. 이러한 아이디어는 LinkedIn 전반에 걸쳐 상대 지표 개선에 기여했습니다: 피드에서 회원 세션 +0.5%, 직업 검색 및 추천에서 자격을 갖춘 직업 지원 +1.76%, 광고 CTR에서 +4.3%의 성과를 달성했습니다. 이 연구가 대규모 딥 랭킹 시스템을 활용하고자 하는 실무자들에게 실용적인 통찰과 해결책을 제공할 수 있기를 바랍니다.
우리는 효과적인 구성적 텍스트-3D 생성을 위한 레이아웃 기반 제어를 갖춘 생성적 3D 가우시안 모델인 GALA3D를 소개합니다. 먼저, 대규모 언어 모델(LLM)을 활용하여 초기 레이아웃을 생성하고, 적응형 기하학적 제약을 포함한 레이아웃 기반 3D 가우시안 표현을 도입하여 3D 콘텐츠 생성을 수행합니다. 이후, 조건부 확산을 통한 객체-장면 구성적 최적화 메커니즘을 제안하여, 일관된 기하학, 질감, 스케일 및 다중 객체 간의 정확한 상호작용을 갖춘 현실적인 3D 장면을 협력적으로 생성합니다. 동시에, LLM에서 추출된 개략적인 레이아웃 사전 정보를 생성된 장면과 일치하도록 조정합니다. 실험 결과, GALA3D는 사용자 친화적이며 최신 기술 수준의 장면 수준 3D 콘텐츠 생성과 제어 가능한 편집을 위한 종단 간 프레임워크로서, 장면 내 객체 수준 엔티티의 높은 충실도를 보장합니다. 소스 코드와 모델은 https://gala3d.github.io/에서 제공될 예정입니다.
자기 정렬(Self-alignment)은 인간 주석의 비용을 줄이면서도 모델의 성능을 유망하게 보장하는 효과적인 방법입니다. 그러나 현재 대부분의 방법은 데이터 수집과 학습 단계를 단일 라운드로 완료하는데, 이는 자기 정렬 모델의 지속적으로 향상되는 능력을 간과할 수 있습니다. 이로 인해 중요한 질문이 제기됩니다: 만약 우리가 다중 부트스트래핑 자기 정렬을 수행한다면 어떻게 될까요? 이 전략은 모델 성능을 향상시키거나 급격한 성능 저하를 초래할까요? 본 논문에서는 대규모 언어 모델에 대한 부트스트래핑 자기 정렬의 영향을 선구적으로 탐구합니다. 우리의 연구 결과는 부트스트래핑 자기 정렬이 컨텍스트 내 학습(In-context learning)을 통해 데이터 다양성을 보장함으로써 단일 라운드 접근법을 현저히 능가한다는 것을 보여줍니다. 부트스트래핑의 잠재력을 더욱 활용하기 위해, 우리는 데이터의 학습 순서를 조사하고 조정하여 모델의 성능을 개선했습니다. 이러한 발견을 바탕으로, 우리는 모델의 지속적으로 향상된 소수 샷(Few-shot) 능력을 활용하여 제로 샷(Zero-shot) 또는 원 샷(One-shot) 성능을 향상시키는 Step-On-Feet Tuning(SOFT)을 제안합니다. 또한, 쉬운 것에서 어려운 것으로의 학습 레시피(Easy-to-hard training recipe)를 기반으로 SOFT+를 제안하여 자기 정렬의 성능을 더욱 향상시킵니다. 우리의 실험은 다양한 분류 및 생성 작업에서 SOFT(SOFT+)의 효율성을 입증하며, 지속적으로 모델 정렬 성능을 향상시키는 부트스트래핑 자기 정렬의 잠재력을 강조합니다.
우리는 지시 따르기에서의 모방 학습을 위해 바람직한 행동—지시에 명시된 과제를 달성하는 데 도움이 되는 행동—을 식별하는 언어 피드백 모델(Language Feedback Models, LFMs)을 소개한다. LFMs를 학습시키기 위해, 우리는 시각적 궤적을 언어 설명으로 전환한 후 대형 언어 모델(Large Language Models, LLMs)로부터 피드백을 얻는다. 첫째, LFMs를 사용하여 모방할 바람직한 행동을 식별함으로써, 세 가지 구별된 언어 기반 환경(Touchdown, ScienceWorld, ALFWorld)에서 강력한 행동 복제 베이스라인 대비 과제 완료율을 향상시켰다. 둘째, LLM 출력 토큰 수를 통제했을 때, LFMs는 LLMs를 전문가로 사용하여 직접 행동을 예측하는 방법을 능가했다. 셋째, LFMs는 보이지 않는 환경으로 일반화되어, 한 차례의 적응을 통해 과제 완료율을 3.5-12.0% 향상시켰다. 마지막으로, LFM은 성능 손실 없이 인간이 해석 가능한 피드백을 제공하도록 수정될 수 있으며, 이를 통해 모방 학습을 위한 바람직한 행동에 대한 인간의 검증이 가능하다.