번역이 포함된 일일 선별된 AI 연구 논문
최근 연구는 대형 기반 모델(LFMs)이 생성한 출력을 활용하여 모방 학습을 통해 소규모 모델의 성능을 향상시키는 데 초점을 맞추고 있다. 이러한 모델의 품질에 영향을 미치는 여러 문제가 있는데, 이는 LFMs의 피상적인 출력으로부터 제한된 모방 신호, 소규모의 동질적인 학습 데이터, 그리고 가장 두드러지게는 엄격한 평가의 부재로 인해 소규모 모델의 능력을 과대평가하는 경향이 있다는 점이다. 이는 소규모 모델이 LFMs의 추론 과정이 아닌 스타일만을 모방하는 데 그치기 때문이다. 이러한 문제를 해결하기 위해, 우리는 LFMs의 추론 과정을 모방하는 130억 개의 파라미터를 가진 Orca 모델을 개발했다(LLaMA의 공개 정책에 따라 모델 가중치의 차이를 공개하기 위해 법무팀과 협력 중이며, 이는 https://aka.ms/orca-lm에서 공개될 예정이다). Orca는 ChatGPT의 교사 지원을 통해 설명 흔적, 단계별 사고 과정, 그리고 기타 복잡한 지시를 포함한 GPT-4의 풍부한 신호로부터 학습한다. 이러한 점진적 학습을 촉진하기 위해, 우리는 신중한 샘플링과 선택을 통해 대규모 및 다양한 모방 데이터를 활용한다. Orca는 Big-Bench Hard(BBH)와 같은 복잡한 제로샷 추론 벤치마크에서 Vicuna-13B와 같은 기존의 최첨단 지시 튜닝 모델을 100% 이상 능가하며, AGIEval에서는 42% 더 나은 성능을 보인다. 또한, Orca는 BBH 벤치마크에서 ChatGPT와 동등한 성능을 보이며, SAT, LSAT, GRE, GMAT와 같은 전문 및 학업 시험에서도 CoT 없이 제로샷 설정에서 경쟁력 있는 성능(최적화된 시스템 메시지와 4점 차이)을 보인다. 물론 GPT-4에는 미치지 못한다. 우리의 연구는 단계별 설명으로부터 학습하는 것이 모델의 능력과 기술을 향상시키는 유망한 방향임을 보여준다. 이러한 설명은 인간이 생성하든 더 발전된 AI 모델이 생성하든 상관없이 유효하다.
대형 언어 모델은 일반적으로 필터링된 웹 데이터와 소셜 미디어 대화, 도서, 기술 논문 등과 같은 정제된 고품질 코퍼스의 혼합물로 학습됩니다. 이러한 정제 과정은 광범위한 제로샷 일반화 능력을 가진 성능 좋은 모델을 생산하기 위해 필요하다고 여겨져 왔습니다. 그러나 수조 개의 토큰을 사전 학습해야 하는 더 큰 모델들이 고려되면서, 이러한 정제 과정의 확장성과 고품질 데이터의 고갈 가능성에 대한 의문이 제기되고 있습니다. 기존의 믿음과는 달리, 우리는 적절히 필터링되고 중복 제거된 웹 데이터만으로도 강력한 모델을 만들 수 있으며, 심지어 The Pile에서 학습된 최첨단 모델을 크게 능가할 수 있음을 보여줍니다. 광범위한 필터링에도 불구하고, 우리가 웹에서 추출한 고품질 데이터는 여전히 풍부하며, CommonCrawl에서 5조 개의 토큰을 확보할 수 있었습니다. 우리는 RefinedWeb 데이터셋에서 추출한 6000억 개의 토큰과 이를 기반으로 학습된 1.3/7.5B 파라미터 언어 모델을 공개적으로 공개합니다.
최근 등장한 Segment Anything Model(SAM)은 세그멘테이션 모델의 규모를 크게 확장시켜 강력한 제로샷(zero-shot) 능력과 유연한 프롬프팅 기능을 가능하게 했습니다. 그러나 11억 개의 마스크로 학습된 SAM의 마스크 예측 품질은 복잡한 구조를 가진 객체를 다룰 때 특히 부족한 경우가 많습니다. 우리는 HQ-SAM을 제안하여 SAM이 모든 객체를 정확하게 세그먼트할 수 있는 능력을 갖추면서도, SAM의 기존 프롬프트 가능한 설계, 효율성, 제로샷 일반화 능력을 유지하도록 했습니다. 우리의 신중한 설계는 SAM의 사전 학습된 모델 가중치를 재사용하고 보존하면서, 최소한의 추가 매개변수와 계산만을 도입했습니다. 우리는 학습 가능한 고품질 출력 토큰(High-Quality Output Token)을 설계하여 이를 SAM의 마스크 디코더에 주입하고, 고품질 마스크를 예측하도록 했습니다. 이를 마스크 디코더 특징에만 적용하는 대신, 먼저 초기 및 최종 ViT 특징과 융합하여 마스크 세부 사항을 개선했습니다. 도입된 학습 가능한 매개변수를 학습하기 위해, 여러 출처에서 44,000개의 세밀한 마스크로 구성된 데이터셋을 구축했습니다. HQ-SAM은 44,000개의 마스크로 구성된 이 데이터셋에서만 학습되며, 8개의 GPU에서 단 4시간이 소요됩니다. 우리는 다양한 다운스트림 작업을 위한 9개의 세그멘테이션 데이터셋에서 HQ-SAM의 효능을 보여주며, 이 중 7개는 제로샷 전이 프로토콜로 평가되었습니다. 우리의 코드와 모델은 https://github.com/SysCV/SAM-HQ에서 공개될 예정입니다.
우리는 다수의 오픈소스 대형 언어 모델(LLM)들의 다양한 강점을 활용하여 일관되게 우수한 성능을 달성하기 위해 설계된 앙상블 프레임워크인 LLM-Blender를 제안합니다. 우리의 프레임워크는 PairRanker와 GenFuser 두 가지 모듈로 구성되어 있으며, 이는 서로 다른 예제에 대해 최적의 LLM이 크게 달라질 수 있다는 관찰에 기반합니다. PairRanker는 특화된 pairwise 비교 방법을 사용하여 후보 출력들 간의 미묘한 차이를 구분합니다. 이 모듈은 입력 텍스트와 한 쌍의 후보를 공동으로 인코딩하며, cross-attention 인코더를 사용하여 더 우수한 후보를 결정합니다. 우리의 실험 결과는 PairRanker가 ChatGPT 기반 순위와 가장 높은 상관관계를 보인다는 것을 입증합니다. 이어서 GenFuser는 상위 순위의 후보들을 통합하여 각각의 강점을 극대화하고 약점을 보완함으로써 개선된 출력을 생성하는 것을 목표로 합니다. 대규모 평가를 용이하게 하기 위해, 우리는 오라클 pairwise 비교를 포함한 다중 명령어 데이터셋의 혼합체인 MixInstruct 벤치마크 데이터셋을 소개합니다. 우리의 LLM-Blender는 다양한 메트릭에서 개별 LLM 및 베이스라인 방법들을 크게 능가하며, 상당한 성능 격차를 확립합니다.
대규모 언어 모델(LLMs)은 명령어를 따르는 모델이지만, 특히 역전파가 금지된 블랙박스 LLMs의 경우 다양한 상황에 가장 적합한 명령어를 찾는 것은 어려운 과제가 될 수 있습니다. 이산적인 명령어를 직접 최적화하는 대신, 우리는 오픈소스 LLM에 적용되는 저차원의 소프트 프롬프트를 최적화하여 블랙박스 LLM을 위한 명령어를 생성합니다. 우리가 InstructZero라고 명명한 이 방법의 각 반복에서, 소프트 프롬프트는 오픈소스 LLM을 사용하여 명령어로 변환된 후, 블랙박스 LLM에 제출되어 제로샷 평가를 거치고, 그 성능은 베이지안 최적화로 전달되어 제로샷 성능을 개선하는 새로운 소프트 프롬프트를 생성합니다. 우리는 Vicuna와 ChatGPT를 포함한 다양한 오픈소스 LLMs와 API 조합에 대해 InstructZero를 평가합니다. 우리의 결과는 InstructZero가 다양한 다운스트림 작업에서 최신 자동 명령어 생성 방법들을 능가함을 보여줍니다. 우리의 코드와 데이터는 https://github.com/Lichang-Chen/InstructZero에서 공개적으로 이용 가능합니다.
언어 모델(LMs)은 종종 허위, 유해 또는 관련 없는 텍스트를 생성하는 바람직하지 않은 행동을 보입니다. 인간 피드백을 통한 강화 학습(RLHF) — 인간이 언어 모델의 출력에 대한 선호도를 학습 신호로 변환하는 방법 — 은 최근 이러한 문제를 해결하는 데 유망한 결과를 보여주었습니다. 그러나 이러한 종합적인 피드백은 긴 텍스트 출력에 대해 제한된 정보만을 전달하며, 사용자 선호도에 영향을 미친 출력의 어떤 측면이 문제인지(예: 어떤 부분이 어떤 유형의 오류를 포함하는지)를 명시하지 않습니다. 본 논문에서는 세분화된 인간 피드백(예: 어떤 문장이 거짓인지, 어떤 하위 문장이 관련 없는지)을 명시적인 학습 신호로 사용합니다. 우리는 Fine-Grained RLHF라는 프레임워크를 소개하며, 이는 두 가지 측면에서 세분화된 보상 함수를 통해 학습을 가능하게 합니다: (1) 밀도 — 각 세그먼트(예: 문장)가 생성된 후 보상을 제공하고, (2) 다양한 피드백 유형(예: 사실 오류, 관련성 부족, 정보 불완전성)과 연관된 다중 보상 모델을 통합합니다. 우리는 해독화 및 장문 질문 응답 실험을 통해 이러한 보상 함수를 사용한 학습이 자동 및 인간 평가를 통해 성능 향상으로 이어지는 것을 보여줍니다. 또한, 다양한 세분화된 보상 모델 조합을 통해 언어 모델의 행동을 사용자 정의할 수 있음을 보여줍니다. 모든 데이터, 수집된 인간 피드백 및 코드는 https://FineGrainedRLHF.github.io에서 공개합니다.
차등적 프라이버시(DP)를 보장하는 DP-SGD와 같은 훈련 방법은 ML 모델이 민감한 훈련 데이터를 공개하지 않도록 함으로써 데이터의 프라이버시를 보호할 수 있습니다. 본 논문에서 연구하는 대안적인 접근 방식은 민감한 데이터셋을 사용하여 원본 데이터에 대해 차등적 프라이버시를 보장하는 새로운 합성 데이터셋을 생성하는 것입니다. 이 방식은 여러 가지 장점이 있습니다: 합성 데이터는 다른 작업(하이퍼파라미터 튜닝 포함)에 재사용할 수 있고, 무기한 보관하거나 프라이버시를 희생하지 않고 제3자와 공유할 수 있습니다. 그러나 DP 데이터를 얻는 것은 훈련 중에 DP를 도입하는 것보다 훨씬 어렵습니다. 이를 텍스트 데이터에 적용 가능하게 만들기 위해, 최근 연구에서는 사전 훈련된 생성 언어 모델을 시작점으로 사용하고 민감한 데이터에 대해 프라이빗하게 미세 조정하는 방식으로 공개 데이터를 활용했습니다. 이 모델을 사용하여 DP 합성 데이터셋을 샘플링할 수 있습니다. 이 전략은 직관적으로 간단해 보이지만, 실행 과정에서 문제가 발생했습니다. 기존 접근 방식은 상당한 성능 저하를 보이거나, 우리가 보여주듯이 심각한 설계 결함을 가지고 있습니다. 본 논문에서는 적절한 훈련 목표와 더 적은 매개변수 조정을 통해 우수한 DP 합성 데이터 품질을 달성할 수 있음을 입증합니다. 우리의 접근 방식은 다운스트림 작업에서의 성능 측면에서 직접적인 DP 훈련을 통한 분류기와 경쟁력이 있습니다. 또한, 우리의 DP 합성 데이터가 다운스트림 분류기 훈련뿐만 아니라 동일한 모델의 튜닝에도 유용함을 보여줍니다.
최근 공개된 ChatGPT 모델은 제로샷 질문 응답 분야에서 전례 없는 능력을 보여주고 있습니다. 본 연구에서는 ChatGPT의 대화 이해 능력을 탐구하고, 향후 연구에서 채택할 수 있는 대화 프레임워크(프로토콜)를 소개합니다. 포켓몬 세계는 폐쇄된 세계 가정(closed world assumption)으로 인해 ChatGPT의 추론 능력을 검증하기에 이상적인 테스트 환경을 제공합니다. ChatGPT의 포켓몬 세계에 대한 배경 지식을 밝힌 후, 전투 시나리오에서 이러한 개념을 사용할 때의 추론 과정을 테스트합니다. 또한 새로운 지식을 습득하고 이를 추론 과정에 포함시키는 능력을 평가합니다. 우리의 궁극적인 목표는 ChatGPT가 일반화, 특징 결합, 그리고 인간 피드백을 통해 새로 도입된 지식을 습득하고 이를 추론하는 능력을 평가하는 것입니다. 연구 결과, ChatGPT는 포켓몬 세계에 대한 사전 지식을 가지고 있으며, 새로운 정보가 도입되더라도 전투 시나리오에서 이를 상당히 잘 추론할 수 있음을 발견했습니다. 이 모델은 협업적 피드백과 초기 정보 검색 단계가 있을 때 더 나은 성능을 보이지만, 가끔 환각(hallucination)을 일으키거나 적대적 공격에 취약한 것으로 나타났습니다.
입력과 출력의 정적 쌍에 기반하여 대규모 언어 모델(LLMs)을 평가하는 표준 방법론은 어시스턴트 개발에 있어 불충분합니다: 이러한 평가 방식은 배포 시 필수적인 상호작용 요소를 고려하지 못하므로, 언어 모델의 능력을 이해하는 데 한계를 가져옵니다. 우리는 인간이 LLMs와 상호작용하고 평가할 수 있는 적응형 프로토타입 플랫폼인 CheckMate를 소개합니다. 우리는 CheckMate를 사용하여 학부 수준의 수학 증명에서 어시스턴트로서 세 가지 언어 모델(InstructGPT, ChatGPT, GPT-4)을 평가하는 연구를 수행했으며, 학부생부터 수학 교수에 이르는 다양한 참가자 그룹을 포함했습니다. 우리는 이 연구에서 얻은 상호작용 및 평가 데이터셋인 MathConverse를 공개합니다. MathConverse를 분석함으로써, 우리는 인간 행동의 예비 분류 체계를 도출하고, 일반적으로 긍정적인 상관관계가 있음에도 불구하고 LLM 생성물에서 정확성과 인지된 유용성 사이에 주목할 만한 차이가 있는 사례를 포함한 여러 발견을 밝혔습니다. 더 나아가, 우리는 전문 수학자들이 기여한 일련의 사례 연구를 통해 GPT-4의 수학적 추론에서 유용한 시나리오와 기존 문제를 식별합니다. 우리는 머신러닝 실무자와 수학자들을 위한 실행 가능한 결론을 제시합니다: 불확실성을 명확히 전달하고, 사용자 수정에 잘 반응하며, 더 해석 가능하고 간결한 모델이 더 나은 어시스턴트가 될 수 있다; 상호작용적 평가는 이러한 모델의 능력을 지속적으로 탐색하는 유망한 방법이다; 인간은 언어 모델의 대수적 오류 가능성을 인지하고, 그에 따라 언어 모델을 사용해야 할 곳을 분별해야 한다.
최근 대형 언어 모델(LLMs)의 성공은 인공 일반 지능(AGI)으로의 인상적인 진전을 의미합니다. 이 모델들은 사용자 지시에 따라 작업을 자동으로 완료하는 유망한 전망을 보여주며, 뇌와 같은 조정자 역할을 하고 있습니다. 그러나 점점 더 많은 작업을 기계에 위임하여 자동화함에 따라 관련된 위험이 드러날 것입니다. 여기서 중요한 질문이 제기됩니다: 개인 코파일럿으로서 인간의 작업 자동화를 돕는 기계가 책임감 있게 행동하도록 만드는 방법은 무엇인가? 본 논문에서는 이 질문을 실현 가능성, 완전성, 보안의 관점에서 깊이 있게 탐구합니다. 구체적으로, 우리는 책임감 있는 작업 자동화(ResponsibleTA)를 LLM 기반 조정자와 실행자 간의 책임감 있는 협업을 촉진하는 기본 프레임워크로 제시하며, 세 가지 강화된 기능을 포함합니다: 1) 실행자에 대한 명령의 실현 가능성 예측; 2) 실행자의 완전성 검증; 3) 보안 강화(예: 사용자 프라이버시 보호). 또한, 우리는 처음 두 가지 기능을 구현하기 위한 두 가지 패러다임을 제안하고 비교합니다. 하나는 프롬프트 엔지니어링을 통해 LLM 자체의 일반 지식을 활용하는 것이고, 다른 하나는 도메인 특화 학습 가능 모델을 채택하는 것입니다. 더 나아가, 우리는 세 번째 기능을 달성하기 위한 로컬 메모리 메커니즘을 소개합니다. 우리는 제안된 ResponsibleTA를 UI 작업 자동화에서 평가하고, 이를 통해 다양한 시나리오에서 LLM이 더 책임감 있게 행동하도록 하는 데 더 많은 관심이 쏠리기를 바랍니다. 본 연구 프로젝트 홈페이지는 https://task-automation-research.github.io/responsible_task_automation에서 확인할 수 있습니다.
팬옵틱, 시맨틱, 인스턴스 세그멘테이션 작업 간의 밀접한 관계를 관찰하여, 우리는 범용적인 다중 데이터셋 다중 작업 세그멘테이션 모델인 DaTaSeg를 학습시키는 것을 제안한다. 우리는 모든 작업에 대해 공유된 표현(클래스 예측과 함께 마스크 제안)을 사용한다. 작업 간의 차이를 해결하기 위해, 우리는 서로 다른 작업에 대해 다른 병합 작업과 후처리를 채택한다. 또한, 우리는 약한 감독을 활용하여 세그멘테이션 모델이 더 저렴한 바운딩 박스 주석으로부터 이익을 얻을 수 있도록 한다. 데이터셋 간의 지식을 공유하기 위해, 우리는 동일한 시맨틱 임베딩 공간에서의 텍스트 임베딩을 분류기로 사용하고 모든 네트워크 파라미터를 데이터셋 간에 공유한다. 우리는 ADE 시맨틱, COCO 팬옵틱, 그리고 Objects365 검출 데이터셋에서 DaTaSeg를 학습시킨다. DaTaSeg는 모든 데이터셋, 특히 소규모 데이터셋에서 성능을 향상시켜, ADE 시맨틱에서 54.0 mIoU, COCO 팬옵틱에서 53.5 PQ를 달성한다. DaTaSeg는 또한 ADE 팬옵틱과 Objects365 인스턴스 세그멘테이션에서 약한 감독 지식 전달을 가능하게 한다. 실험 결과, DaTaSeg는 학습 데이터셋의 수에 따라 확장 가능하며, 직접 전달을 통해 개방형 어휘 세그멘테이션을 가능하게 한다. 추가적으로, 우리는 Objects365 인스턴스 세그멘테이션 데이터셋의 1,000장의 이미지를 주석 처리하고 이를 공개 벤치마크로 출시할 예정이다.
대규모 언어 모델(LLMs)을 활용하여 수학 문제를 해결하는 것은 다양한 과학 및 공학 분야에서 자연어로 표현된 수학 문제가 풍부하다는 점을 고려할 때 매우 흥미로운 연구 주제입니다. 기존의 여러 연구들이 LLMs를 사용하여 기초 수학 문제를 해결하는 방법을 탐구했지만, 본 연구에서는 GPT-4를 활용하여 더 복잡하고 도전적인 수학 문제를 해결하는 최전선을 탐구합니다. 우리는 GPT-4를 사용하는 다양한 방법을 평가하며, 그 중 일부는 기존 연구에서 차용한 것이고, 하나는 본 연구에서 새롭게 제안한 대화형 문제 해결 프레임워크인 \MathChat입니다. 우리는 MATH 데이터셋의 고등학교 수학 경시대회 문제를 대상으로 평가를 수행하며, 이를 통해 제안된 대화형 접근법의 장점을 보여줍니다.
Transformer 기반 언어 모델은 점점 더 긴 시퀀스를 처리해야 하는 다양한 응용 분야에서 활용되고 있습니다. 이러한 응용 분야에서, 시퀀스 길이에 대해 2차적으로 스케일링되는 유일한 구성 요소인 인과적 자기 주의(causal self-attention)가 주요 관심사로 부각됩니다. 많은 연구에서 주의 패턴을 희소화(sparsify)하고 자기 주의의 계산 오버헤드를 줄이는 방안을 제안했지만, 이러한 방법들은 종종 구현상의 제약으로 인해 주의 행렬에 단순하고 정적인 구조를 부과하는 데 그치곤 합니다. 반면, 더 동적인 희소 주의를 구현하는 경우, Dao et al. (2022)의 Flash 구현을 사용하여 전체 주의를 계산하는 것보다 실행 시간이 현저히 느려지는 경우가 많습니다. 우리는 FlashAttention을 확장하여, 특히 키/쿼리 드롭핑(key/query dropping)과 해싱 기반 주의(hashing-based attention)를 포함하는 다양한 주의 희소 패턴을 수용할 수 있도록 했습니다. 이를 통해 계산 복잡성 오버헤드 없이 FlashAttention 위에서 다중 배수의 런타임 속도 향상을 달성했습니다. 비교적 낮은 희소도에서도, 시퀀스 길이가 증가함에 따라 우리의 방법은 FlashAttention보다 눈에 띄게 개선된 성능을 보입니다. perplexity를 희생하지 않으면서, 8k 및 16k 토큰 길이의 시퀀스에 대해 각각 2.0배 및 3.3배의 학습 속도 향상을 달성했습니다.
우리는 대규모 언어 모델에 대한 현실 점검을 제시하고, 이와 비교하여 검색 강화 언어 모델의 가능성을 살펴본다. 이러한 언어 모델은 반파라메트릭(semi-parametric) 특성을 지니며, 모델 파라미터와 외부 데이터 소스의 지식을 통합하여 예측을 수행한다. 이는 기존의 파라메트릭(parametric) 대규모 언어 모델과는 대조적이다. 우리는 초기 실험 결과를 통해 반파라메트릭 아키텍처가 뷰(view), 쿼리 분석기/플래너(query analyzer/planner), 그리고 출처 정보(provenance)를 통해 강화될 수 있음을 보여준다. 이를 통해 질의 응답 작업에서 정확성과 효율성 측면에서 훨씬 더 강력한 시스템을 구축할 수 있으며, 잠재적으로 다른 자연어 처리(NLP) 작업에도 적용 가능함을 시사한다.