번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLM)의 발전은 자연어 이해 및 생성 작업에서 상당한 능력을 보여주고 있습니다. 점점 더 많은 LLM이 등장함에 따라, 여러 LLM의 집단적 전문성을 어떻게 활용할 것인지는 흥미로운 연구 방향입니다. 이를 위해, 우리는 Mixture-of-Agents(MoA) 방법론을 통해 여러 LLM의 집단적 강점을 활용하는 새로운 접근 방식을 제안합니다. 우리의 접근 방식에서는 각 계층이 여러 LLM 에이전트로 구성된 계층적 MoA 아키텍처를 구축합니다. 각 에이전트는 이전 계층의 모든 에이전트 출력을 보조 정보로 활용하여 응답을 생성합니다. MoA 모델은 AlpacaEval 2.0, MT-Bench 및 FLASK에서 GPT-4 Omni를 능가하는 최첨단 성능을 달성했습니다. 예를 들어, 오픈소스 LLM만을 사용한 우리의 MoA는 AlpacaEval 2.0에서 GPT-4 Omni의 57.5%에 비해 65.1%의 점수를 달성하며 상당한 격차로 선두를 차지했습니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 최근 대규모 언어 모델(LLM)의 지식 부족 문제를 완화하기 위한 유망한 솔루션으로 떠오르고 있습니다. 그러나 기존의 RAG 데이터셋은 실제 세계의 질의응답(QA) 작업이 가진 다양성과 동적 특성을 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 4,409개의 질문-답변 쌍과 웹 및 지식 그래프(KG) 검색을 시뮬레이션하기 위한 모의 API로 구성된 포괄적인 RAG 벤치마크(Comprehensive RAG Benchmark, CRAG)를 소개합니다. CRAG는 다섯 개의 도메인과 여덟 개의 질문 카테고리에 걸쳐 다양한 질문을 포함하도록 설계되었으며, 대중적부터 롱테일에 이르는 다양한 엔티티 인기도와 연 단위부터 초 단위까지의 시간적 동적 특성을 반영합니다. 이 벤치마크에 대한 평가는 완전히 신뢰할 수 있는 QA에 이르기까지의 격차를 강조합니다. 가장 진보된 LLM들조차 CRAG에서 34% 이하의 정확도를 보이는 반면, 단순히 RAG를 추가하는 방식은 정확도를 44%로만 향상시킵니다. 최신 산업용 RAG 솔루션도 환각(hallucination) 없이 63%의 질문에만 답변할 수 있습니다. CRAG는 또한 더 높은 동적 특성, 더 낮은 인기도, 또는 더 높은 복잡성을 가진 사실에 대한 질문에 대한 정확도가 훨씬 낮다는 것을 보여주며, 이는 향후 연구 방향을 제시합니다. CRAG 벤치마크는 KDD Cup 2024 챌린지의 기반을 마련했으며, 대회 시작 후 50일 이내에 수천 명의 참가자와 제출물을 유치했습니다. 우리는 RAG 솔루션과 일반 QA 솔루션의 발전을 위해 연구 커뮤니티에 CRAG를 유지할 것을 약속합니다.
우리는 도전적이고 실제 사용자 질의를 활용해 대규모 언어 모델(LLM)을 벤치마킹하기 위해 설계된 자동 평가 프레임워크인 WildBench를 소개합니다. WildBench은 100만 개 이상의 인간-챗봇 대화 로그에서 신중하게 선별된 1,024개의 과제로 구성되어 있습니다. WildBench을 통한 자동 평가를 위해, 우리는 GPT-4-turbo와 같은 고급 LLM을 사용하여 계산 가능한 두 가지 지표인 WB-Reward와 WB-Score를 개발했습니다. WildBench 평가는 과제별 체크리스트를 사용해 모델 출력을 체계적으로 평가하고, 점수와 비교를 정당화하는 구조화된 설명을 제공함으로써 더 신뢰할 수 있고 해석 가능한 자동 판단을 가능하게 합니다. WB-Reward는 모델 응답 간의 세분화된 쌍별 비교를 통해 다섯 가지 잠재적 결과를 생성합니다: 훨씬 나음, 약간 나음, 약간 못함, 훨씬 못함, 또는 무승부. 이전 평가들이 단일 기준 모델을 사용했던 것과 달리, 우리는 다양한 성능 수준의 세 가지 기준 모델을 선택하여 포괄적인 쌍별 평가를 보장했습니다. 또한, 우리는 길이 편향을 완화하기 위한 간단한 방법을 제안합니다. 이 방법은 '약간 나음/못함' 결과를 '무승부'로 전환하는데, 승리 응답이 패배 응답보다 K자 이상 길 경우에 적용됩니다. WB-Score는 모델 출력의 품질을 개별적으로 평가하여 빠르고 비용 효율적인 평가 지표로 기능합니다. WildBench 결과는 Chatbot Arena의 인간 투표 Elo 등급과 어려운 과제에서 강한 상관관계를 보입니다. 특히, WB-Reward는 상위 랭킹 모델들과 0.98의 피어슨 상관계수를 달성했습니다. 또한, WB-Score는 0.95에 도달하여 ArenaHard의 0.91과 AlpacaEval2.0의 길이 제어 승률 0.89, 그리고 일반 승률 0.87을 모두 능가했습니다.
생성형 AI는 이미지 및 비디오 생성과 같은 분야를 혁신적으로 변화시키며 놀라운 발전을 이루어 왔습니다. 이러한 발전은 혁신적인 알고리즘, 아키텍처, 그리고 데이터에 의해 주도되었습니다. 그러나 생성 모델의 급속한 확산은 중요한 문제를 부각시켰는데, 바로 신뢰할 수 있는 평가 지표의 부재입니다. 현재 FID, CLIP, FVD 등과 같은 자동 평가 방법은 생성 결과의 미묘한 품질과 사용자 만족도를 제대로 포착하지 못하는 경우가 많습니다. 본 논문은 다양한 이미지 및 비디오 생성 모델을 평가하기 위한 오픈 플랫폼인 GenAI-Arena를 제안합니다. 이 플랫폼에서는 사용자들이 적극적으로 모델 평가에 참여할 수 있습니다. GenAI-Arena는 사용자 피드백과 투표를 활용하여 모델 성능을 보다 민주적이고 정확하게 측정하는 것을 목표로 합니다. 이 플랫폼은 텍스트-이미지 생성, 텍스트-비디오 생성, 그리고 이미지 편집이라는 세 가지 영역을 다룹니다. 현재 총 27개의 오픈소스 생성 모델을 포함하고 있습니다. GenAI-Arena는 4개월 동안 운영되며 커뮤니티로부터 6000건 이상의 투표를 수집했습니다. 우리는 플랫폼을 설명하고, 데이터를 분석하며, 모델 순위를 매기기 위한 통계적 방법을 설명합니다. 모델 기반 평가 지표 연구를 더욱 촉진하기 위해, 우리는 세 가지 작업에 대한 선호도 데이터의 정제된 버전인 GenAI-Bench를 공개합니다. 우리는 Gemini, GPT-4o와 같은 기존의 다중 모달 모델들이 인간의 투표를 모방하도록 유도합니다. 모델 투표와 인간 투표 간의 상관관계를 계산하여 그들의 판단 능력을 이해합니다. 우리의 결과는 기존의 다중 모달 모델들이 생성된 시각적 콘텐츠를 평가하는 데 여전히 뒤처지고 있음을 보여줍니다. 가장 뛰어난 모델인 GPT-4o조차도 품질 하위 점수에서 피어슨 상관계수 0.22를 달성하며, 다른 항목에서는 무작위 추측과 유사한 행동을 보입니다.
모델 응답에 대한 불확실성 또는 신뢰도를 추정하는 것은 단순히 응답에 대한 신뢰뿐만 아니라 모델 전체에 대한 신뢰를 평가하는 데 있어 중요한 요소가 될 수 있습니다. 본 논문에서는 블랙박스 또는 쿼리 접근만 가능한 대규모 언어 모델(LLM)의 응답에 대한 신뢰도를 추정하는 문제를 탐구합니다. 우리는 간단하고 확장 가능한 프레임워크를 제안하며, 이 프레임워크에서는 새로운 특징을 설계하고 이러한 특징에 대해 (해석 가능한) 모델(즉, 로지스틱 회귀)을 학습시켜 신뢰도를 추정합니다. 우리는 실험적으로 이 간단한 프레임워크가 flan-ul2, llama-13b, mistral-7b의 신뢰도를 추정하는 데 효과적임을 입증하며, TriviaQA, SQuAD, CoQA, Natural Questions와 같은 벤치마크 데이터셋에서 기존의 블랙박스 신뢰도 추정 접근법을 일관되게 능가하는 것을 보여줍니다. 경우에 따라 AUROC 기준으로 10% 이상의 성능 향상을 보이기도 합니다. 또한, 우리의 해석 가능한 접근 방식은 신뢰도를 예측하는 데 유용한 특징에 대한 통찰을 제공하며, 한 LLM을 위해 구축된 신뢰도 모델이 주어진 데이터셋에서 다른 LLM에 대해 제로샷으로 일반화된다는 흥미롭고 유용한 발견을 이끌어냅니다.
대규모 언어 모델(LLMs)의 인상적인 능력은 사용자의 타이핑 경험을 재구상할 수 있는 강력한 접근 방식을 제공합니다. 본 논문에서는 Gboard의 서버 측 LLM으로 구동되는 새로운 기능인 Proofread를 소개하며, 이를 통해 단일 탭으로 문장 및 단락 수준의 원활한 수정이 가능함을 보여줍니다. 우리는 데이터 생성, 메트릭 설계, 모델 튜닝 및 배포에 이르는 전체 시스템을 이 논문에서 설명합니다. 충분한 품질의 모델을 얻기 위해, 온라인 사용 사례에 맞춘 신중한 데이터 합성 파이프라인을 구현하고, 다각적인 메트릭을 설계하며, 이 기능을 위한 전용 LLM을 획득하기 위해 두 단계의 튜닝 접근 방식을 사용합니다: 기본 품질을 위한 지도 미세 조정(SFT)과 목표 개선을 위한 강화 학습(RL) 튜닝 접근 방식입니다. 특히, SFT 단계에서 Rewrite 및 Proofread 작업에 대한 순차적 튜닝이 최상의 품질을 제공함을 발견했으며, RL 튜닝 단계에서 전역 및 직접 보상을 제안하여 추가 개선을 추구합니다. 인간이 라벨링한 골든 세트에 대한 광범위한 실험에서 튜닝된 PaLM2-XS 모델이 85.56%의 좋은 비율을 달성했음을 보여주었습니다. 우리는 이 기능을 Google Cloud의 TPU v5에서 모델을 서빙하여 Pixel 8 기기에 출시했으며, 수천 명의 일일 활성 사용자를 확보했습니다. 양자화, 버킷 추론, 텍스트 분할 및 추측적 디코딩을 통해 서빙 지연 시간이 크게 감소했습니다. 우리의 데모는 https://youtu.be/4ZdcuiwFU7I{Youtube}에서 확인할 수 있습니다.
우리는 자연어로 구성된 현실적인 계획 수립 벤치마크인 NATURAL PLAN을 소개한다. 이 벤치마크는 여행 계획, 회의 계획, 일정 스케줄링이라는 3가지 주요 과제를 포함한다. 우리는 LLM(Large Language Model)의 계획 수립 능력을 평가하기 위해 Google Flights, Google Maps, Google Calendar와 같은 도구의 출력을 모델에 제공하여 작업에 대한 완전한 정보를 제공함으로써, 도구 사용 환경 없이도 LLM의 계획 수립 능력을 평가할 수 있도록 했다. 우리는 NATURAL PLAN이 최신 모델들에게도 도전적인 벤치마크임을 관찰했다. 예를 들어, 여행 계획 과제에서 GPT-4와 Gemini 1.5 Pro는 각각 31.1%와 34.8%의 해결률을 보였다. 또한 문제의 복잡성이 증가함에 따라 모델 성능이 급격히 하락하는 것을 확인했다: 10개 도시가 포함된 경우 모든 모델의 성능이 5% 미만으로 떨어졌으며, 이는 최신 LLM의 자연어 계획 수립 능력에 상당한 격차가 있음을 보여준다. 우리는 또한 NATURAL PLAN에 대한 광범위한 절제 연구를 수행하여 자기 수정, 소수 샷 일반화, 장문 맥락 내 계획 수립과 같은 접근 방식이 LLM의 계획 수립 능력을 개선하는 데 있어 (비)효과적인지에 대한 추가적인 통찰을 제공했다.
고급 AI 시스템의 확장에서 예측 가능한 행동은 매우 바람직한 특성입니다. 사전 학습 성능이 어떻게 확장되는지에 대한 문헌은 잘 정립되어 있지만, 특정 다운스트림 능력이 어떻게 확장되는지에 대한 문헌은 상당히 불분명합니다. 본 연구에서는 한 걸음 물러나 질문합니다: 왜 규모에 따른 특정 다운스트림 능력 예측은 여전히 어려운가? 많은 요인이 분명히 있지만, 우리는 널리 사용되는 객관식 질문-응답 벤치마크에서 확장 행동을 모델링하기 어렵게 만드는 새로운 요인을 식별합니다. 다섯 가지 모델 패밀리와 열두 개의 잘 정립된 객관식 벤치마크를 사용하여, 다운스트림 성능이 음의 로그 가능도를 통해 일련의 변환을 거쳐 점진적으로 성능과 규모 간의 통계적 관계를 저하시키는 것을 보여줍니다. 그런 다음 이 저하를 일으키는 메커니즘을 밝힙니다: 다운스트림 메트릭은 정답 선택을 소수의 특정 오답 선택과 비교해야 하므로, 다운스트림 능력을 정확히 예측하려면 규모에 따라 정답 선택에 확률 질량이 어떻게 집중되는지뿐만 아니라 특정 오답 선택에 확률 질량이 어떻게 변동하는지도 예측해야 합니다. 우리는 계산 자원이 증가함에 따라 정답 선택에 대한 확률 질량이 오답 선택에 대한 확률 질량과 어떻게 공변하는지 실증적으로 연구하며, 오답 선택에 대한 확장 법칙이 달성 가능할 수 있음을 시사합니다. 우리의 연구는 또한 왜 사전 학습 확장 법칙이 다운스트림 능력보다 더 예측 가능한 것으로 간주되는지 설명하고, 최첨단 AI 모델의 확장-예측 가능한 평가를 확립하는 데 기여합니다.
대규모 언어 모델(LLM)의 등장으로 단일 모델을 학습시키기 위해 수천 개의 GPU를 활용하는 병렬 학습 기법의 도입이 필수적이 되었습니다. 그러나 현재의 병렬 학습 효율성은 종종 최적에 미치지 못하는데, 이는 주로 다음 두 가지 주요 문제 때문입니다. 첫째, 하드웨어 고장은 불가피하며, 이로 인해 학습 작업이 중단됩니다. 고장난 구성 요소를 신속히 식별하지 못하면 GPU 자원이 상당히 낭비됩니다. 둘째, GPU는 다음 계산 라운드로 진행하기 전에 매개변수 동기화가 완료될 때까지 대기해야 하므로, 네트워크 혼잡은 GPU의 대기 시간을 크게 증가시킬 수 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 통신 주도형 솔루션인 C4를 제안합니다. C4의 핵심 통찰은 두 가지입니다. 첫째, 병렬 학습에서 집단 통신은 주기적이고 균일한 특성을 보이므로, 모든 이상 현상은 어떤 형태의 하드웨어 고장 때문임이 확실합니다. 이 특징을 활용하여 C4는 고장난 구성 요소를 신속히 식별하고, 이상 현상을 빠르게 격리하며, 작업을 재시작함으로써 이상 감지 지연으로 인한 자원 낭비를 방지합니다. 둘째, 집단 통신의 예측 가능한 통신 모델은 적은 수의 대규모 데이터 흐름을 포함하므로, C4는 트래픽 계획을 효율적으로 실행하여 네트워크 혼잡을 크게 줄일 수 있습니다. C4는 우리의 생산 시스템 전반에 광범위하게 구현되어, 오류로 인한 오버헤드를 약 30% 줄이고, 통신 비용이 중간 정도인 특정 애플리케이션의 런타임 성능을 약 15% 향상시켰습니다.