번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 다양한 응용 분야에서 전례 없는 성능을 보이며 학계와 산업계 모두에서 점점 더 큰 인기를 얻고 있습니다. LLM이 연구와 일상 생활 모두에서 중요한 역할을 계속함에 따라, 그 평가는 단순히 작업 수준뿐만 아니라 잠재적 위험을 더 잘 이해하기 위한 사회적 수준에서도 점점 더 중요해지고 있습니다. 지난 몇 년 동안 LLM을 다양한 관점에서 검토하기 위한 상당한 노력이 이루어졌습니다. 이 논문은 LLM에 대한 이러한 평가 방법을 포괄적으로 검토하며, 무엇을 평가할지, 어디에서 평가할지, 어떻게 평가할지라는 세 가지 핵심 차원에 초점을 맞춥니다. 먼저, 일반적인 자연어 처리 작업, 추론, 의료 사용, 윤리, 교육, 자연 및 사회과학, 에이전트 응용 및 기타 영역을 포함한 평가 작업의 관점에서 개요를 제공합니다. 둘째, '어디에서'와 '어떻게'라는 질문에 답하기 위해 LLM의 성능을 평가하는 데 중요한 구성 요소인 평가 방법과 벤치마크를 심층적으로 살펴봅니다. 그런 다음, 다양한 작업에서 LLM의 성공과 실패 사례를 요약합니다. 마지막으로, LLM 평가에 앞서 놓인 몇 가지 미래의 과제를 조명합니다. 우리의 목표는 LLM 평가 분야의 연구자들에게 귀중한 통찰력을 제공하여 더 능숙한 LLM의 개발을 돕는 것입니다. 우리의 핵심 주장은 평가가 LLM의 개발을 더 잘 지원하기 위한 필수적인 학문으로 간주되어야 한다는 것입니다. 관련 오픈소스 자료는 https://github.com/MLGroupJLU/LLM-eval-survey에서 지속적으로 유지하고 있습니다.
최근 언어 모델들은 긴 문맥을 입력으로 받아들일 수 있는 능력을 갖추고 있지만, 이러한 언어 모델들이 긴 문맥을 얼마나 잘 활용하는지에 대해서는 상대적으로 알려진 바가 적습니다. 우리는 입력 문맥 내에서 관련 정보를 식별해야 하는 두 가지 작업, 즉 다중 문서 질의응답과 키-값 검색에 대한 언어 모델의 성능을 분석했습니다. 분석 결과, 관련 정보가 입력 문맥의 시작이나 끝에 위치할 때 성능이 가장 높았고, 긴 문맥의 중간에 관련 정보가 위치할 경우 성능이 현저히 저하되는 것을 확인했습니다. 또한, 명시적으로 긴 문맥을 처리하도록 설계된 모델들조차도 입력 문맥이 길어질수록 성능이 크게 감소하는 것으로 나타났습니다. 우리의 분석은 언어 모델이 입력 문맥을 어떻게 활용하는지에 대한 이해를 높이고, 향후 긴 문맥 모델을 위한 새로운 평가 프로토콜을 제시합니다.
과거 수십 년 동안 도움이 되지 않는 생각을 인식하고 재구성하는 것과 같은 많은 인지적 웰빙 접근법이 상당한 실증적 지지를 받아왔음에도 불구하고, 여전히 자기 도움 형식으로 진정한 대중적 채택을 이루지 못하고 있습니다. 이러한 채택의 장벽은 충분히 구체적이고 다양한 전용 연습 자료의 부재입니다. 본 연구는 현재의 언어 모델이 특정 주어진 맥락에 맞는 표준적인 도움이 되지 않는 사고 패턴을 설명하는 거의 무제한의 연습 자료를 생성하고, 적절한 긍정적 재구성 제안을 생성하는 데 활용될 수 있는지 여부를 검토합니다. 우리는 주어진 페르소나에 따라 조건화된 도움이 되지 않는 사고 패턴을 포함한 약 10,000개의 사례와 약 27,000개의 긍정적 재구성으로 구성된 새로운 데이터셋인 PATTERNREFRAME를 제안합니다. 이 데이터셋을 사용하여 현재 모델을 훈련 및/또는 평가함으로써, 기존 모델이 추가 모델 훈련 없이 또는 최소한의 추가 훈련만으로도 맞춤형 연습 자료와 가설을 대량으로 생성하는 데 강력한 도구가 될 수 있음을 보여줍니다.
대규모 언어 모델은 새로운 정보를 맥락적으로 통합하는 탁월한 능력을 가지고 있다. 그러나 이러한 접근법의 전체 잠재력은 종종 효과적인 맥락 길이의 제한으로 인해 제약을 받는다. 이 문제에 대한 한 가지 해결책은 (키, 값) 쌍으로 구성된 외부 메모리에 접근할 수 있는 어텐션 레이어를 부여하는 것이다. 그러나 문서의 수가 증가함에 따라 관련 키 대 비관련 키의 비율이 감소하여 모델이 비관련 키에 더 집중하게 된다. 우리는 서로 다른 의미적 값과 연결된 키가 겹쳐 구분하기 어려워지는, 이른바 '분산 문제'라는 중요한 과제를 확인했다. 이 문제를 해결하기 위해 우리는 대조 학습에서 영감을 받은 훈련 과정을 사용하는 '포커스드 트랜스포머(FoT)'라는 기법을 소개한다. 이 새로운 접근법은 (키, 값) 공간의 구조를 강화하여 맥락 길이를 확장할 수 있게 한다. 우리의 방법은 기존의 대규모 모델을 미세 조정하여 그들의 효과적인 맥락을 연장할 수 있도록 한다. 이는 3B 및 7B OpenLLaMA 체크포인트를 미세 조정한 결과로 입증된다. 우리가 'LongLLaMA'라 명명한 결과 모델들은 긴 맥락이 필요한 작업에서 진전을 보여준다. 우리는 더 나아가 LongLLaMA 모델들이 256k 맥락 길이의 패스키 검색을 능숙하게 처리함을 보여준다.
본 논문에서는 다양한 환경에서 기록된 680,000시간 규모의 레이블된 음성 코퍼스로 학습된 최신 자동 음성 인식 모델인 Whisper에 초점을 맞춘다. 먼저, Whisper가 실제 환경의 배경 소음(예: 음악)에 대해 매우 강인한 반면, 그 오디오 표현은 실제로 잡음 불변적이지 않고 비음성 소음과 높은 상관관계를 보인다는 흥미로운 발견을 제시한다. 이는 Whisper가 잡음 유형에 따라 음성을 인식함을 시사한다. 이러한 발견을 바탕으로, Whisper의 백본을 고정하고 그 위에 경량 오디오 태깅 모델을 학습시켜 통합 오디오 태깅 및 음성 인식 모델인 Whisper-AT를 구축한다. Whisper-AT는 추가 계산 비용의 1% 미만으로 단일 순방향 전파에서 음성 텍스트뿐만 아니라 오디오 이벤트도 인식할 수 있다.
자기회귀적 대규모 언어 모델(LLMs)은 다양한 자연어 생성 작업에서 놀라운 진전을 이루었습니다. 그러나 이러한 모델들은 토큰 단위의 자기회귀적 생성 방식으로 인해 높은 계산 비용과 지연 시간을 초래합니다. 이 문제를 해결하기 위해, 조기 종료 전략을 사용하여 계산 비용을 줄이는 여러 접근 방식이 제안되었습니다. 이러한 전략은 각 토큰에 대해 전체 계산 그래프를 적용하지 않고도 계산량을 줄여 더 빠른 텍스트 생성을 가능하게 합니다. 기존의 토큰 수준 조기 종료 방법들은 온라인 추론에서 유망한 결과를 보여주지만, 배치 추론과 Key-Value 캐싱에는 바로 적용하기 어렵습니다. 이는 배치 내 마지막 토큰이 종료될 때까지 계산을 멈출 수 없기 때문이며, 이로 인해 이러한 기술의 실용적 적용이 심각하게 제한됩니다. 본 논문에서는 배치 추론과 KV 캐싱과 원활하게 동작하도록 설계된 간단하면서도 효과적인 토큰 수준 조기 종료 방법인 SkipDecode를 제안합니다. 이 방법은 각 시퀀스 위치에서 배치 내 모든 토큰에 대해 단일 종료 지점을 설정함으로써 기존의 제약을 극복합니다. 또한 종료 지점이 단조롭게 감소함을 보장하여 선행 토큰들에 대한 KV 캐시를 재계산할 필요를 없앱니다. 기존 연구들처럼 계산을 조기에 종료하는 대신, 우리의 접근 방식은 하위 및 중간 계층을 우회하고 대부분의 계산 자원을 상위 계층에 집중시켜, 후속 토큰들이 선행 토큰들의 계산 지출로부터 이익을 얻을 수 있도록 합니다. 실험 결과, SkipDecode는 다양한 작업에서 1.3억 및 67억 개의 파라미터를 가진 OPT 모델을 사용하여 최소한의 성능 저하와 함께 2배에서 5배의 추론 속도 향상을 달성할 수 있음을 보여줍니다. 이는 배치 처리 및 KV 캐싱 최적화 기술과 직접 호환되면서 이루어집니다.
우리는 기존 파운데이션 모델의 비디오 이해 능력을 세 가지 대표적인 과제(행동 인식, 시간적 위치 파악, 시공간적 위치 파악), 커뮤니티에서 널리 인정받은 8개의 데이터셋, 그리고 하위 작업에 맞게 파운데이션 모델(FM)을 조정하는 4가지 적응 방법으로 구성된 신중하게 설계된 실험 프로토콜을 통해 평가합니다. 또한, 일반적인 비디오 이해 작업에 적응할 때 FM의 효율성과 효과를 측정하기 위한 스칼라 VideoGLUE 점수(VGS)를 제안합니다. 우리의 주요 발견은 다음과 같습니다. 첫째, 작업 전문화 모델은 본 연구에서 조사된 6개의 FM을 크게 능가하며, 이는 FM이 자연어 및 이미지 이해에서 달성한 것과는 대조적입니다. 둘째, 비디오 모달리티를 포함한 사전 학습 데이터를 가진 비디오 네이티브 FM은 모션이 풍부한 비디오 분류, 시간 내 행동 위치 파악, 그리고 하나 이상의 행동을 포함한 비디오 이해에서 일반적으로 이미지 네이티브 FM보다 우수합니다. 셋째, 비디오 네이티브 FM은 하위 작업에 대한 경량 적응(예: FM 백본 고정) 하에서 비디오 작업에서 잘 수행할 수 있는 반면, 이미지 네이티브 FM은 완전한 종단 간 미세 조정에서 우수합니다. 처음 두 관찰은 비디오 중심 FM에 대한 연구의 필요성과 엄청난 기회를 보여주며, 마지막 관찰은 FM 평가 시 작업과 적응 방법이 모두 중요함을 확인시켜 줍니다.