번역이 포함된 일일 선별된 AI 연구 논문
최근 대형 언어 모델(LLMs)은 수학 문제 해결에서 놀라운 추론 능력을 보여주었다. 이러한 능력을 더욱 향상시키기 위해, 본 연구는 인간의 학습 과정과 유사한 "실수로부터 학습하기(Learning from Mistakes, LeMa)"를 제안한다. 수학 문제를 풀지 못한 학생이 자신이 어떤 실수를 했는지 그리고 어떻게 수정해야 하는지 배우는 과정을 모방하여, LeMa는 GPT-4가 생성한 실수-수정 데이터 쌍을 통해 LLMs를 미세 조정한다. 구체적으로, 우리는 먼저 다양한 LLMs에서 부정확한 추론 경로를 수집한 후, GPT-4를 "수정자"로 활용하여 (1) 실수 단계를 식별하고, (2) 실수의 원인을 설명하며, (3) 실수를 수정하고 최종 답을 생성한다. 실험 결과는 LeMa의 효과를 입증한다: 다섯 가지 백본 LLMs와 두 가지 수학적 추론 과제에서, LeMa는 CoT 데이터만을 사용한 미세 조정에 비해 일관되게 성능을 향상시켰다. 특히, LeMa는 WizardMath 및 MetaMath와 같은 특화된 LLMs에도 도움을 주어, GSM8K에서 85.4%의 pass@1 정확도와 MATH에서 27.1%의 정확도를 달성했다. 이는 이러한 도전적인 과제에서 비실행 오픈소스 모델들이 달성한 최신 기술(SOTA) 성능을 능가하는 것이다. 우리의 코드, 데이터 및 모델은 https://github.com/microsoft/CodeT에서 공개될 예정이다.
대규모 멀티모달 모델은 제로샷 방식으로 다양한 멀티모달 작업을 수행하는 놀라운 일반화 능력을 보여줍니다. 대규모 웹 기반 이미지-텍스트 쌍은 이러한 성공에 근본적으로 기여하지만, 과도한 노이즈 문제를 안고 있습니다. 최근 연구에서는 캡셔닝 모델이 생성한 대체 캡션을 사용하여 주목할 만한 벤치마크 성능을 달성했습니다. 그러나 우리의 실험은 합성 캡션으로 훈련된 모델에서 상당한 확장성 결함과 세계 지식 손실 문제를 드러냈으며, 이러한 문제는 초기 벤치마크 성공에 의해 크게 가려져 있었습니다. 더 깊이 조사한 결과, 기존 합성 캡션의 지나치게 단순화된 언어 구조와 지식 세부사항의 부족이 근본 원인으로 확인되었습니다. 더 높은 품질과 확장 가능한 멀티모달 사전 훈련 데이터를 제공하기 위해, 우리는 대규모 언어 모델을 활용하여 웹 기반 이미지-텍스트 쌍과 합성 캡션의 정보를 통합하고 정제하는 고급 프레임워크인 CapsFusion을 제안합니다. 광범위한 실험 결과, CapsFusion 캡션은 모델 성능(예: COCO와 NoCaps에서 CIDEr 점수 각각 18.8 및 18.3 향상), 샘플 효율성(기준선 대비 11-16배 적은 계산량 요구), 세계 지식 깊이, 그리고 확장성 측면에서 기존 캡션 대비 전반적인 우수성을 보여줍니다. 이러한 효과성, 효율성 및 확장성의 장점은 CapsFusion을 LMM 훈련의 미래 확장을 위한 유망한 후보로 자리매김합니다.
신경망 기반 컴퓨터 비전 시스템은 일반적으로 백본(backbone), 즉 사전 학습된 또는 무작위로 초기화된 특징 추출기를 기반으로 구축됩니다. 몇 년 전만 해도 기본 선택지는 ImageNet으로 학습된 합성곱 신경망(CNN)이었습니다. 그러나 최근에는 다양한 알고리즘과 데이터셋을 사용해 사전 학습된 수많은 백본이 등장했습니다. 이러한 다양한 선택지로 인해 여러 시스템의 성능이 향상되었지만, 실무자들이 어떤 백본을 선택해야 할지 정보에 기반한 결정을 내리기는 어려운 상황입니다. '백본 대전(Battle of the Backbones, BoB)'은 분류부터 객체 탐지, OOD 일반화 등 다양한 컴퓨터 비전 작업에 걸쳐 비전-언어 모델, 자기 지도 학습(self-supervised learning)을 통해 학습된 모델, 그리고 Stable Diffusion 백본을 포함한 다양한 사전 학습 모델을 벤치마킹함으로써 이러한 선택을 더 쉽게 만들어줍니다. 더 나아가, BoB는 1500회 이상의 학습 실행을 통해 종합적으로 분석된 기존 접근법의 강점과 약점을 밝힘으로써 컴퓨터 비전 연구 커뮤니티가 나아가야 할 유망한 방향을 제시합니다. 비전 트랜스포머(ViT)와 자기 지도 학습(SSL)이 점점 더 인기를 끌고 있지만, 우리가 고려한 모델 중에서는 대규모 학습 데이터셋으로 지도 학습 방식으로 사전 학습된 합성곱 신경망이 대부분의 작업에서 여전히 가장 우수한 성능을 보였습니다. 또한, 동일한 아키텍처와 비슷한 규모의 사전 학습 데이터셋을 사용한 직접 비교에서 SSL 백본이 매우 경쟁력 있는 것으로 나타났으며, 이는 향후 연구에서 고급 아키텍처와 더 큰 사전 학습 데이터셋을 사용해 SSL 사전 학습을 수행해야 함을 시사합니다. 우리는 실험의 원시 결과와 연구자들이 자신의 백본을 테스트할 수 있는 코드를 여기에서 공개했습니다: https://github.com/hsouri/Battle-of-the-Backbones
오프라인 강화 학습(RL)은 사전 수집된 데이터셋을 사용하여 최적에 가까운 정책을 찾는 것을 목표로 합니다. 실제 세계 시나리오에서는 데이터 수집이 비용이 많이 들고 위험할 수 있기 때문에, 도메인 내 데이터가 제한적일 때 오프라인 RL은 특히 어려운 과제가 됩니다. 최근 대규모 언어 모델(LLM)의 발전과 소수 샷 학습 능력을 고려하여, 본 논문은 사전 학습된 언어 모델(LM)을 오프라인 RL에 효과적으로 활용하기 위해 Decision Transformers를 기반으로 한 일반 프레임워크인 Language Models for Motion Control(LaMo)을 소개합니다. 우리의 프레임워크는 네 가지 중요한 구성 요소를 강조합니다: (1) 순차적으로 사전 학습된 LM으로 Decision Transformers를 초기화, (2) 전체 가중치 미세 조정과 대조적으로 LoRA 미세 조정 방법을 사용하여 LM의 사전 학습된 지식과 도메인 내 지식을 효과적으로 결합, (3) 선형 투영 대신 비선형 MLP 변환을 사용하여 임베딩 생성, (4) 미세 조정 중 보조 언어 예측 손실을 통합하여 LM을 안정화하고 언어에 대한 원래 능력을 유지. 실험 결과는 LaMo가 희소 보상 작업에서 최첨단 성능을 달성하고, 밀집 보상 작업에서 가치 기반 오프라인 RL 방법과 Decision Transformers 간의 격차를 줄이는 것을 보여줍니다. 특히, 우리의 방법은 데이터 샘플이 제한된 시나리오에서 우수한 성능을 보입니다. 우리의 프로젝트 웹사이트는 https://lamo2023.github.io입니다.
우리는 공개 온라인 튜링 테스트에서 GPT-4를 평가했다. 가장 성능이 뛰어난 GPT-4 프롬프트는 41%의 게임에서 통과했으며, ELIZA(27%)와 GPT-3.5(14%)가 설정한 기준선을 능가했으나, 우연적 확률과 인간 참가자들이 설정한 기준선(63%)에는 미치지 못했다. 참가자들의 결정은 주로 언어적 스타일(35%)과 사회-정서적 특성(27%)에 기반을 두었으며, 이는 지능만으로는 튜링 테스트를 통과하기에 부족하다는 주장을 지지한다. 참가자들의 인구통계학적 특성, 즉 교육 수준과 대형 언어 모델(LLM)에 대한 친숙도는 탐지율을 예측하지 못했는데, 이는 시스템을 깊이 이해하고 자주 상호작용하는 사람들조차도 속임수에 취약할 수 있음을 시사한다. 지능을 평가하는 테스트로서의 알려진 한계에도 불구하고, 우리는 튜링 테스트가 자연스러운 의사소통과 속임수를 평가하는 도구로서 여전히 관련성이 있다고 주장한다. 인간으로 위장할 수 있는 능력을 가진 AI 모델은 광범위한 사회적 영향을 미칠 수 있으며, 우리는 인간과 유사성을 판단하기 위한 다양한 전략과 기준의 효과를 분석한다.
AI 개발자들은 종종 자신들의 AI 시스템이 오용되는 것을 방지하기 위해 안전 조정 절차를 적용합니다. 예를 들어, Meta가 명령어 미세 조정된 대규모 언어 모델 모음인 Llama 2-Chat을 출시하기 전에, 그들은 적대적 테스트(red-teaming)와 인간 피드백을 통한 강화 학습을 포함한 광범위한 안전 훈련에 상당한 투자를 했습니다. 그러나 공격자들이 모델 가중치에 접근할 수 있을 때 안전 훈련이 모델 오용을 얼마나 잘 방어할 수 있는지는 여전히 불분명합니다. 우리는 Llama 2-Chat의 공개 가중치를 교묘히 미세 조정함으로써 언어 모델에서의 안전 훈련의 견고성을 탐구합니다. 우리는 효율적인 미세 조정 방법으로 저랭크 적응(LoRA)을 사용합니다. 모델당 200달러 미만의 예산과 단일 GPU만을 사용하여, 우리는 7B, 13B, 70B 크기의 Llama 2-Chat 모델들의 안전 훈련을 성공적으로 취소했습니다. 구체적으로, 우리의 미세 조정 기술은 모델이 유해한 명령을 따르기를 거부하는 비율을 크게 감소시켰습니다. 우리는 70B Llama 2-Chat 모델에서 두 가지 거부 벤치마크에서 거부율을 1% 미만으로 달성했습니다. 우리의 미세 조정 방법은 일반적인 성능을 유지하며, 이를 두 벤치마크에서 우리의 미세 조정된 모델과 Llama 2-Chat을 비교하여 검증했습니다. 또한, 우리는 우리 모델이 생성한 유해한 출력물의 일부를 제시합니다. 현재 모델의 위험 범위에 대해 상당한 불확실성이 있지만, 미래의 모델은 중요한 인프라를 해킹하거나 위험한 생물 무기를 생성하거나 새로운 환경에서 자율적으로 복제하고 적응하는 능력을 포함하여 훨씬 더 위험한 능력을 가질 가능성이 높습니다. 우리는 교묘한 미세 조정이 실용적이고 효과적임을 보여주며, 따라서 모델 가중치 공개에 대한 위험 평가에서 미세 조정으로 인한 위험을 평가하는 것이 핵심 부분이 되어야 한다고 주장합니다.
확산 모델(Diffusion Models)은 이미지 합성, 비디오 생성, 분자 설계와 같은 작업에서 기록적인 성능을 보이는 생성 모델군입니다. 그러나 이러한 능력에도 불구하고, 특히 역방향 노이즈 제거 과정에서의 효율성은 느린 수렴 속도와 높은 계산 비용으로 인해 여전히 과제로 남아 있습니다. 본 연구에서는 연속 동역학 시스템을 활용하여 더 적은 매개변수를 사용하면서도 빠른 수렴 속도와 향상된 노이즈 강인성을 보이는 새로운 노이즈 제거 네트워크를 설계하는 접근법을 제안합니다. 노이즈 제거 확률적 확산 모델(Denoising Probabilistic Diffusion Models)을 실험한 결과, 우리의 프레임워크는 Denoising Diffusion Probabilistic Models(DDPMs)에서 사용되는 표준 U-Net 대비 약 1/4 수준의 매개변수와 30% 수준의 부동소수점 연산(FLOPs)으로 동작합니다. 또한, 동일한 조건에서 측정 시 우리 모델은 기준 모델 대비 최대 70% 더 빠른 추론 속도를 보이면서도 더 높은 품질의 해에 수렴합니다.
대규모 텍스트 코퍼스는 언어 모델의 핵심 기반입니다. 그러나 이러한 코퍼스의 내용, 즉 일반적인 통계, 품질, 사회적 요인, 평가 데이터 포함 여부(오염) 등에 대한 이해는 제한적입니다. 본 연구에서는 대규모 텍스트 코퍼스의 내용을 밝히고 비교할 수 있는 플랫폼 및 16가지 분석 도구인 'What's In My Big Data?'(WIMBD)를 제안합니다. WIMBD는 대규모 데이터에 대한 '계수'와 '검색'이라는 두 가지 기본 기능을 기반으로 하여, 표준 컴퓨팅 노드에서 35테라바이트 이상의 데이터를 분석할 수 있습니다. 우리는 WIMBD를 C4, The Pile, RedPajama 등 인기 있는 언어 모델 훈련에 사용된 10개의 서로 다른 코퍼스에 적용했습니다. 분석 결과, 이러한 코퍼스에서 중복 문서, 합성 콘텐츠, 저품질 콘텐츠, 개인 식별 정보, 유해 언어, 벤치마크 오염 등 여러 가지 놀랍고 이전에 문서화되지 않은 사실들을 발견했습니다. 예를 들어, RedPajama와 LAION-2B-en 코퍼스의 문서 중 약 50%가 중복된 것으로 나타났습니다. 또한, 이러한 코퍼스로 훈련된 모델을 평가하는 데 사용된 여러 데이터셋이 Winograd Schema Challenge 및 GLUE와 SuperGLUE의 일부와 같은 중요한 벤치마크에 대해 오염된 것으로 확인되었습니다. 우리는 새로운 텍스트 기반 코퍼스에 대한 표준 평가 도구를 제공하고, 더 많은 분석과 투명성을 장려하기 위해 WIMBD의 코드와 아티팩트를 오픈소스로 공개합니다: github.com/allenai/wimbd.
최근 비디오 생성 기술은 현실적인 결과물을 통해 상당한 진전을 이루었습니다. 그러나 기존의 AI 생성 비디오는 대부분 단일 장면을 묘사하는 짧은 클립("샷 레벨")에 그치고 있습니다. 일관된 긴 비디오("스토리 레벨")를 제공하기 위해서는 다양한 클립 간의 창의적인 전환 및 예측 효과가 필요합니다. 본 논문은 생성적 전환과 예측에 초점을 맞춘 짧은 비디오에서 긴 비디오로의 확산 모델인 SEINE를 소개합니다. 이 모델의 목표는 장면 간의 부드럽고 창의적인 전환과 다양한 길이의 샷 레벨 비디오를 통해 고품질의 긴 비디오를 생성하는 것입니다. 구체적으로, 우리는 텍스트 설명을 기반으로 자동으로 전환을 생성하기 위해 랜덤 마스크 비디오 확산 모델을 제안합니다. 다양한 장면의 이미지를 입력으로 제공하고 텍스트 기반 제어와 결합함으로써, 우리의 모델은 일관성과 시각적 품질을 보장하는 전환 비디오를 생성합니다. 또한, 이 모델은 이미지-투-비디오 애니메이션 및 자기회귀적 비디오 예측과 같은 다양한 작업으로 쉽게 확장될 수 있습니다. 이 새로운 생성 작업을 포괄적으로 평가하기 위해, 우리는 부드럽고 창의적인 전환을 위한 세 가지 평가 기준을 제안합니다: 시간적 일관성, 의미적 유사성, 그리고 비디오-텍스트 의미적 정렬. 광범위한 실험을 통해 우리의 접근 방식이 기존의 생성적 전환 및 예측 방법보다 효과적임을 검증하며, 스토리 레벨의 긴 비디오 생성이 가능함을 입증합니다. 프로젝트 페이지: https://vchitect.github.io/SEINE-project/ .
새로운 문장을 처리하기 위해 언어 모델(LMs)은 구성적으로 일반화해야 합니다. 즉, 익숙한 요소들을 새로운 방식으로 결합해야 합니다. 모델의 구조 중 어떤 측면이 구성적 일반화를 촉진할까요? 트랜스포머에 초점을 맞추어, 최근의 이론적 및 실증적 연구에 의해 동기가 부여된 가설을 테스트합니다. 이 가설은 트랜스포머가 더 깊을수록(더 많은 레이어를 가질수록) 더 구성적으로 일반화한다는 것입니다. 단순히 레이어를 추가하면 총 매개변수 수가 증가하여 깊이와 크기가 혼동되기 때문에, 우리는 깊이와 너비를 교환하여 총 매개변수 수를 일정하게 유지하는 세 가지 클래스의 모델을 구성합니다(41M, 134M 및 374M 매개변수). 모든 모델을 언어 모델로 사전 학습하고 구성적 일반화를 테스트하는 작업에 대해 미세 조정합니다. 우리는 세 가지 주요 결론을 보고합니다: (1) 미세 조정 후, 더 깊은 모델은 더 얕은 모델보다 분포 외에서 더 잘 일반화하지만, 추가 레이어의 상대적 이점은 빠르게 감소합니다; (2) 각 패밀리 내에서, 더 깊은 모델은 더 나은 언어 모델링 성능을 보이지만, 이익은 유사하게 감소합니다; (3) 구성적 일반화를 위한 깊이의 이점은 단순히 언어 모델링이나 분포 내 데이터에서의 더 나은 성능으로만 귀속될 수 없습니다.
ChipNeMo는 산업용 칩 설계를 위한 대규모 언어 모델(LLM)의 응용 가능성을 탐구하는 것을 목표로 한다. 기성 상용 또는 오픈소스 LLM을 직접 도입하는 대신, 다음과 같은 도메인 적응 기법을 채택하였다: 맞춤형 토크나이저, 도메인 적응형 지속 사전 학습, 도메인 특화 지시를 통한 지도 미세 조정(SFT), 그리고 도메인 적응형 검색 모델. 이러한 방법들을 칩 설계를 위한 세 가지 선정된 LLM 응용 분야에서 평가하였다: 엔지니어링 지원 챗봇, EDA 스크립트 생성, 버그 요약 및 분석. 평가 결과, 이러한 도메인 적응 기법이 일반 목적의 기본 모델 대비 세 가지 응용 분야에서 LLM 성능을 크게 향상시켰으며, 다양한 설계 작업에서 유사하거나 더 나은 성능을 유지하면서 모델 크기를 최대 5배까지 줄일 수 있음을 보여주었다. 또한, 현재 결과와 이상적인 결과 사이에 여전히 개선의 여지가 있음을 시사한다. 향후 도메인 적응형 LLM 접근법에 대한 추가 연구가 이 격차를 좁히는 데 도움이 될 것으로 기대한다.
LLM 기반 에이전트 지능의 자동 평가는 고급 LLM 기반 에이전트 개발에 있어 매우 중요합니다. AlpacaEval과 같은 인간 주석 평가 데이터셋 개발에 상당한 노력이 기울여졌지만, 기존 기술은 비용이 많이 들고 시간이 소요되며 적응성이 부족합니다. 본 논문에서는 인기 있는 언어 게임 "Who is Spy"에서 영감을 받아, 단어 추측 게임을 활용하여 LLM의 지능 성능을 평가하는 방법을 제안합니다. 주어진 단어에 대해 LLM은 해당 단어를 설명하고, 자신과 다른 플레이어들의 설명을 기반으로 그 정체(스파이 여부)를 판단해야 합니다. 이상적으로, 고급 에이전트는 공격적인 설명을 통해 주어진 단어를 정확하게 설명하는 동시에 보수적인 설명에서는 혼란을 극대화하여 게임 참여를 강화할 수 있는 능력을 갖추어야 합니다. 이를 위해, 우리는 먼저 LLM의 표현 및 위장 능력을 평가하기 위해 DEEP을 개발했습니다. DEEP은 LLM이 공격적 및 보수적 모드에서 단어를 설명하도록 요구합니다. 그런 다음, SpyGame이라는 상호작용형 다중 에이전트 프레임워크를 소개합니다. SpyGame은 경쟁적인 언어 기반 보드 게임 참여를 통해 LLM의 지능을 평가하도록 설계되었습니다. 다중 에이전트 상호작용을 통합한 SpyGame은 대상 LLM이 언어 능력과 전략적 사고를 갖추도록 요구함으로써, 복잡한 의사소통 상황에서 LLM의 인간과 유사한 인지 능력과 적응성을 보다 포괄적으로 평가합니다. 제안된 평가 프레임워크는 구현이 매우 쉽습니다. 우리는 다양한 출처, 도메인 및 언어에서 단어를 수집하고 제안된 평가 프레임워크를 사용하여 실험을 수행했습니다. 광범위한 실험을 통해 제안된 DEEP과 SpyGame이 다양한 LLM의 능력을 효과적으로 평가하며, 새로운 상황에 적응하고 전략적 의사소통에 참여하는 능력을 포착함을 입증했습니다.