번역이 포함된 일일 선별된 AI 연구 논문
사용자가 유료로 질의할 수 있는 대규모 언어 모델(LLM)의 수가 빠르게 증가하고 있습니다. 우리는 GPT-4, ChatGPT, J1-Jumbo 등 인기 있는 LLM API를 질의하는 데 드는 비용을 검토했으며, 이러한 모델들이 두 배수 이상 차이가 나는 이질적인 가격 구조를 가지고 있음을 발견했습니다. 특히, 대규모 질의 및 텍스트 컬렉션에 LLM을 사용하는 것은 비용이 많이 들 수 있습니다. 이를 계기로, 우리는 사용자가 LLM 사용과 관련된 추론 비용을 줄이기 위해 활용할 수 있는 세 가지 전략 유형을 개요하고 논의합니다: 1) 프롬프트 적응, 2) LLM 근사화, 3) LLM 캐스케이드. 예를 들어, 우리는 비용을 줄이고 정확도를 높이기 위해 다양한 질의에 어떤 LLM 조합을 사용할지 학습하는 LLM 캐스케이드의 간단하면서도 유연한 구현체인 FrugalGPT를 제안합니다. 우리의 실험 결과, FrugalGPT는 최고의 개별 LLM(예: GPT-4)의 성능을 최대 98%의 비용 절감으로 맞추거나 동일한 비용으로 GPT-4보다 4% 더 높은 정확도를 달성할 수 있음을 보여줍니다. 여기서 제시된 아이디어와 발견은 LLM을 지속 가능하고 효율적으로 사용하기 위한 기반을 마련합니다.
'지시 튜닝(instruction-tuned)'된 생성형 대규모 언어 모델(LLMs)은 새로운 작업에 대한 일반화 능력이 뛰어나다는 것을 입증했지만, 이러한 훈련 단계는 대량의 다양하고 고품질의 지시 데이터(예: ChatGPT 및 GPT-4)에 크게 의존합니다. 불행히도, 특히 인간이 작성한 데이터의 경우, 고품질 데이터를 확보하는 것은 비용과 접근성 측면에서 상당한 어려움을 초래할 수 있습니다. 더욱이, 프라이버시와 관련된 우려는 이러한 데이터에 대한 접근을 더욱 제한할 수 있어, 데이터 확보 과정을 복잡하고 미묘한 작업으로 만듭니다. 결과적으로, 이는 튜닝된 모델의 일반성을 저해하고 특정 상황에서의 효과를 제한할 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 연합 학습(Federated Learning, FL)을 LLM의 지시 튜닝을 위한 학습 프레임워크로 활용하는 새로운 접근 방식인 연합 지시 튜닝(Federated Instruction Tuning, FedIT)을 소개합니다. 이는 LLM을 위한 FL 기반 지시 튜닝의 첫 번째 탐구로, 텍스트 데이터가 주로 최종 사용자에 의해 생성된다는 점에서 특히 중요합니다. 따라서, 프라이버시를 보호하고 데이터 보안을 보장하면서도 로컬 장치에 저장된 사용자들의 다양한 지시를 효과적으로 활용할 수 있도록 FL 접근법을 설계하고 적용하는 것이 필수적입니다. 본 논문에서는 널리 사용되는 GPT-4 자동 평가를 통해, 제안된 FedIT 프레임워크를 통해 클라이언트 측의 이질적이고 다양한 지시 집합을 활용함으로써, 제한된 로컬 지시만을 사용한 중앙 집중식 훈련에 비해 LLM의 성능을 향상시켰음을 입증합니다. 또한, 본 논문에서는 Shepherd라는 Github 저장소를 개발했습니다. 이 저장소는 다양한 카테고리의 이질적 지시를 사용한 LLM의 연합 파인튜닝을 탐구하기 위한 기초 프레임워크를 제공합니다.
본 논문에서는 인터랙티브 비주얼 프레임워크인 InternChat(줄여서 iChat)을 소개한다. 이 프레임워크는 ChatGPT와 같은 계획 및 추론 능력을 갖춘 챗봇을 화면 상의 이미지나 비디오를 직접 조작할 수 있도록 하는 포인팅 동작(제스처, 커서 등)과 같은 비언어적 명령과 통합한다. 포인팅 동작은 시각 중심 작업에서 세밀한 제어, 편집 및 시각 콘텐츠 생성이 필요한 경우 더 높은 유연성과 정밀도를 제공할 수 있다. InternChat이라는 이름은 상호작용(Interaction), 비언어적(Nonverbal), 챗봇(Chatbots)을 의미한다. 기존의 순수 언어에 의존하는 인터랙티브 시스템과 달리, 포인팅 명령을 통합함으로써 제안된 iChat은 사용자와 챗봇 간의 커뮤니케이션 효율성과 시각 중심 작업에서의 챗봇 정확도를 크게 향상시킨다. 특히 객체의 수가 2개 이상인 복잡한 시나리오에서 더욱 두드러진 성능을 보인다. 또한, iChat에서는 LLM(Large Language Model)의 제어 능력을 향상시키기 위해 보조 제어 메커니즘을 사용하며, Husky라는 대규모 시각-언어 모델을 고품질의 다중 모달 대화를 위해 미세 조정하였다(이 모델은 ChatGPT-3.5-turbo를 93.89% GPT-4 품질로 감동시킴). 이 연구가 향후 인터랙티브 비주얼 시스템에 대한 새로운 아이디어와 방향을 제시할 수 있기를 바란다. 코드는 https://github.com/OpenGVLab/InternChat에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 최근 다양한 자연어 처리(NLP) 과제에서 인상적인 성능을 보여주고 있다. 다단계 추론 과제를 해결하기 위해, 소수 샷 사고 사슬(CoT) 프롬프팅은 몇 가지 수작업으로 제작된 단계별 추론 데모를 포함하여 LLMs가 명시적으로 추론 단계를 생성하고 추론 과제의 정확도를 향상시킬 수 있도록 한다. 이러한 수작업을 없애기 위해, 제로샷 CoT는 대상 문제 설명에 "단계별로 생각해 봅시다"라는 문구를 입력 프롬프트로 연결하여 LLMs에 제공한다. 제로샷 CoT의 성공에도 불구하고, 여전히 세 가지 문제점이 존재한다: 계산 오류, 단계 누락 오류, 그리고 의미적 오해 오류이다. 단계 누락 오류를 해결하기 위해, 우리는 계획 및 해결(Plan-and-Solve, PS) 프롬프팅을 제안한다. 이는 두 가지 구성 요소로 이루어져 있다: 첫째, 전체 과제를 더 작은 하위 과제로 나누는 계획을 수립하고, 둘째, 계획에 따라 하위 과제를 수행하는 것이다. 계산 오류를 해결하고 생성된 추론 단계의 품질을 향상시키기 위해, 우리는 PS 프롬프팅을 더 상세한 지침으로 확장하여 PS+ 프롬프팅을 도출한다. 우리는 제안된 프롬프팅 전략을 세 가지 추론 문제에 걸친 열 개의 데이터셋에서 평가한다. GPT-3에 대한 실험 결과는 우리가 제안한 제로샷 프롬프팅이 모든 데이터셋에서 제로샷 CoT를 큰 차이로 능가하며, 제로샷 프로그램 사고(Zero-shot-Program-of-Thought) 프롬프팅과 비슷하거나 이를 초과하는 성능을 보이고, 수학 추론 문제에서 8샷 CoT 프롬프팅과 비슷한 성능을 보임을 나타낸다. 코드는 https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting에서 확인할 수 있다.
텍스트-이미지 생성 모델로 인기를 끌고 있는 확산 모델(Diffusion models)은 텍스트 프롬프트를 기반으로 고품질이고 내용이 풍부한 이미지를 생성할 수 있습니다. 그러나 기존 모델들은 입력 프롬프트가 간결한 서술문일 경우 의미 이해와 상식 추론에 한계를 보이며, 이로 인해 저품질의 이미지가 생성되는 문제가 있습니다. 이러한 서술형 프롬프트에 대한 능력을 향상시키기 위해, 우리는 사전 학습된 확산 모델을 위한 간단하지만 효과적인 파라미터 효율적 미세 조정 접근법인 Semantic Understanding and Reasoning 어댑터(SUR-adapter)를 제안합니다. 이를 위해 먼저 57,000개 이상의 의미적으로 수정된 다중 모달 샘플로 구성된 새로운 데이터셋 SURD를 수집하고 주석을 달았습니다. 각 샘플은 간단한 서술형 프롬프트, 복잡한 키워드 기반 프롬프트, 그리고 고품질 이미지를 포함합니다. 그런 다음, 서술형 프롬프트의 의미 표현을 복잡한 프롬프트와 정렬하고, 대규모 언어 모델(LLM)의 지식을 지식 증류를 통해 SUR-adapter로 전이하여 텍스트-이미지 생성을 위한 고품질 텍스트 의미 표현을 구축할 수 있는 강력한 의미 이해 및 추론 능력을 획득하도록 합니다. 우리는 여러 LLM과 인기 있는 사전 학습된 확산 모델을 통합하여 실험을 수행함으로써, 우리의 접근법이 이미지 품질 저하 없이 간결한 자연어를 이해하고 추론할 수 있도록 확산 모델을 개선하는 데 효과적임을 보여줍니다. 우리의 접근법은 텍스트-이미지 확산 모델을 더 쉽게 사용할 수 있게 하여 사용자 경험을 개선하며, 이는 간단한 서술형 프롬프트와 복잡한 키워드 기반 프롬프트 간의 의미적 격차를 해소함으로써 사용자 친화적인 텍스트-이미지 생성 모델의 발전을 더욱 촉진할 잠재력을 가지고 있음을 보여줍니다.
프롬프트 튜닝(Prompt Tuning)은 사전 훈련된 언어 모델의 매개변수 효율적 튜닝을 위한 성공적인 접근법 중 하나이다. 가장 매개변수 효율적인 방법으로 간주되지만(튜닝된 소프트 프롬프트가 전체 매개변수의 0.1% 미만을 차지함), 일반적으로 다른 효율적인 튜닝 방법들보다 성능이 떨어지며 하이퍼파라미터에 상당히 민감하다. 본 연구에서는 프롬프트 튜닝의 성능과 안정성을 크게 향상시키는 간단하고 효율적인 방법인 잔여 프롬프트 튜닝(Residual Prompt Tuning)을 소개한다. 우리는 잔여 연결(Residual Connection)을 가진 얕은 네트워크를 사용하여 소프트 프롬프트 임베딩을 재매개변수화하는 방법을 제안한다. 실험 결과, 잔여 프롬프트 튜닝은 SuperGLUE 벤치마크에서 프롬프트 튜닝을 크게 능가하는 것으로 나타났다. 특히, T5-Base 모델을 사용한 프롬프트 튜닝 대비 7점 이상의 성능 향상을 달성했으며, 성능 저하 없이 프롬프트 길이를 10분의 1로 줄일 수 있었다. 또한, 우리의 접근법은 학습률과 프롬프트 초기화 선택에 강건하며, 소수 샷(Few-shot) 설정에서도 효과적임을 보여준다.
우리는 인간과의 다회차 대화를 수행할 수 있는 MultiModal-GPT라는 비전 및 언어 모델을 제안합니다. MultiModal-GPT는 인간으로부터 다양한 지시를 따를 수 있으며, 상세한 캡션 생성, 관심 객체의 수 세기, 사용자의 일반적인 질문에 답변하는 등의 작업을 수행할 수 있습니다. MultiModal-GPT는 OpenFlamingo를 기반으로 파라미터 효율적으로 미세 조정되었으며, 언어 모델의 교차 주의(cross-attention) 부분과 자기 주의(self-attention) 부분에 Low-rank Adapter(LoRA)를 추가했습니다. 먼저, 모델이 인간의 지시를 이해하고 따르도록 하기 위해 비전 및 언어 데이터를 활용한 명령 템플릿을 구성하여 다중 모달리티 명령 튜닝을 수행했습니다. 학습 데이터의 품질이 대화 성능에 매우 중요하다는 것을 발견했으며, 짧은 답변을 포함한 소량의 데이터는 모델이 어떤 지시에도 짧게 응답하도록 이끌 수 있습니다. MultiModal-GPT의 인간과의 대화 능력을 더욱 향상시키기 위해, 언어 전용 명령 수행 데이터를 활용하여 MultiModal-GPT를 공동으로 학습시켰습니다. 동일한 명령 템플릿을 사용하여 언어 전용 및 시각-언어 명령을 함께 학습하는 것은 대화 성능을 효과적으로 개선했습니다. 다양한 데모를 통해 MultiModal-GPT가 인간과 지속적으로 대화할 수 있는 능력을 보여줍니다. 코드와 데모는 https://github.com/open-mmlab/Multimodal-GPT에서 확인할 수 있습니다.
본 논문에서는 비디오 데이터로부터 NeRF 기반 전신 아바타를 학습하는 새로운 방법인 AvatarReX를 제안한다. 학습된 아바타는 신체, 손, 얼굴을 함께 표현적으로 제어할 수 있을 뿐만 아니라 실시간 애니메이션 및 렌더링을 지원한다. 이를 위해, 우리는 신체, 손, 얼굴을 각각 별도로 모델링하는 구성적 아바타 표현을 제안하며, 이는 파라메트릭 메시 템플릿으로부터의 구조적 사전 정보를 표현 유연성을 저해하지 않으면서도 적절히 활용한다. 또한, 각 부분에 대해 기하학적 구조와 외관을 분리하여 기술적 설계를 진행한다. 이러한 기술적 설계를 바탕으로, 우리는 고품질의 자유 시점 이미지를 합성할 수 있는 실시간 프레임 속도로 실행 가능한 전용 지연 렌더링 파이프라인을 제안한다. 기하학적 구조와 외관의 분리는 또한 네트워크 학습을 위해 볼륨 렌더링과 표면 렌더링을 결합한 두 단계 학습 전략을 설계할 수 있게 한다. 이를 통해 패치 수준의 감독을 적용하여 네트워크가 기하학적 추정을 기반으로 선명한 외관 세부 사항을 학습하도록 강제할 수 있다. 전반적으로, 우리의 방법은 실시간 렌더링 기능을 갖춘 표현적인 전신 아바타의 자동 구성을 가능하게 하며, 새로운 신체 동작과 얼굴 표정에 대한 동적 세부 사항을 포함한 사실적인 이미지를 생성할 수 있다.
대형 언어 모델(LLMs)은 최종 출력을 제공하기 전에 단계별 추론을 생성함으로써 많은 작업에서 강력한 성능을 달성할 수 있으며, 이를 흔히 사고의 연쇄(chain-of-thought reasoning, CoT)라고 부른다. 이러한 CoT 설명을 LLM이 작업을 해결하는 과정으로 해석하고 싶은 유혹이 있다. 그러나 우리는 CoT 설명이 모델의 예측에 대한 진정한 이유를 체계적으로 잘못 표현할 수 있음을 발견했다. 우리는 CoT 설명이 모델 입력에 편향적인 특징을 추가함으로써 크게 영향을 받을 수 있음을 보여준다. 예를 들어, 몇 가지 샷 프롬프트에서 다중 선택 항목의 순서를 재배열하여 답이 항상 "(A)"가 되도록 만들면, 모델은 이러한 편향을 설명에서 체계적으로 언급하지 못한다. 모델이 잘못된 답변을 향하도록 편향될 때, 그들은 종종 그 답변을 지지하는 CoT 설명을 생성한다. 이로 인해 OpenAI의 GPT-3.5와 Anthropic의 Claude 1.0을 사용하여 BIG-Bench Hard의 13개 작업을 테스트할 때 정확도가 최대 36%까지 떨어질 수 있다. 사회적 편향 작업에서 모델 설명은 이러한 사회적 편향의 영향을 언급하지 않고도 편견에 부합하는 답변을 제공하는 것을 정당화한다. 우리의 연구 결과는 CoT 설명이 그럴듯하지만 오해의 소지가 있음을 나타내며, 이는 LLM에 대한 신뢰를 증가시키면서도 그 안전성을 보장하지 못할 위험이 있다. CoT는 설명 가능성 측면에서 유망하지만, 우리의 결과는 설명의 충실성을 평가하고 개선하기 위한 목표적인 노력의 필요성을 강조한다.
기존의 Neural Radiance Fields (NeRF) 방법들은 반사체가 존재할 경우 흐릿하거나 왜곡된 렌더링 결과를 초래하는 문제가 있습니다. 단일 radiance field를 계산하는 대신, 우리는 병렬 서브 공간들에서 그룹화된 feature field를 사용하여 장면을 표현하는 multi-space neural radiance field (MS-NeRF)를 제안합니다. 이는 신경망이 반사체와 굴절체의 존재를 더 잘 이해할 수 있도록 돕습니다. 우리의 multi-space 방식은 기존 NeRF 방법들의 성능을 향상시키는 역할을 하며, 추가 공간 출력을 학습하고 추론하는 데 필요한 계산 오버헤드는 매우 작습니다. 우리는 NeRF, Mip-NeRF, Mip-NeRF 360이라는 세 가지 대표적인 NeRF 기반 모델을 사용하여 우리 접근법의 우수성과 호환성을 입증합니다. 비교는 복잡한 반사와 굴절이 포함된 25개의 합성 장면과 7개의 실제 촬영 장면으로 구성된 새로운 데이터셋에서 수행되며, 모든 장면은 360도 시점을 가지고 있습니다. 광범위한 실험을 통해 우리의 접근법이 거울 같은 물체를 통과하는 복잡한 광경로와 관련된 고품질 장면 렌더링에서 기존의 단일 공간 NeRF 방법들을 크게 능가함을 보여줍니다. 우리의 코드와 데이터셋은 https://zx-yin.github.io/msnerf에서 공개될 예정입니다.
Transformer 모델은 자연어 처리(NLP)와 컴퓨터 비전의 기반이 되는 기술입니다. 최근 다양한 연구들이 이러한 모델의 시퀀스 길이 n에 대한 이차 비용을 줄이기 위해 노력하고 있지만, 초장기 시퀀스(예: 16K 토큰 이상)를 효율적으로 처리하는 것은 여전히 어려운 과제로 남아 있습니다. 전체 책을 기반으로 질문에 답하거나 과학 논문을 요약하는 등의 응용 프로그램은 비효율적이거나 실행 불가능한 경우가 많습니다. 본 논문에서는 각 레이어에서 입력을 크기 r이 n과 독립적인 표현으로 압축함으로써 Transformer 모델의 복잡성이 n에 미치는 의존성을 크게 줄이는 방법을 제안합니다. 특히, 많은 작업에서 최종 예측과 가장 관련이 있는 특수 토큰의 작은 부분집합(이를 VIP 토큰이라고 명명)만이 중요하다는 사실을 활용하여, VIP 토큰의 표현을 근사화하는 데 미치는 영향을 기반으로 입력 시퀀스를 선택적으로 압축하는 VIP 토큰 중심 압축(Vcc) 기법을 제안합니다. 경쟁력 있는 베이스라인과 비교했을 때, 제안된 알고리즘은 효율적일 뿐만 아니라(4K 및 16K 길이에서 베이스라인 대비 3배 이상의 효율성 향상), 다양한 작업에서 경쟁력 있거나 더 나은 성능을 달성합니다. 또한, 본 알고리즘은 128K 토큰(또는 그 이상)으로 확장 가능하면서도 일관되게 정확도 향상을 제공할 수 있음을 보여줍니다.
ELECTRA는 생성기-판별기 사전 학습 프레임워크로, 다양한 하위 작업에서 인상적인 의미 구성 능력을 달성했습니다. 그러나 설득력 있는 성과에도 불구하고, ELECTRA는 단조로운 학습과 부족한 상호작용이라는 과제에 직면해 있습니다. 마스크 언어 모델링(MLM)만을 사용하는 생성기는 편향된 학습과 판별기의 레이블 불균형을 초래하여 학습 효율성을 저하시키며, 판별기에서 생성기로의 명시적인 피드백 루프가 없어 두 구성 요소 간의 간극을 만들어 학습 과정을 충분히 활용하지 못합니다. 본 연구에서는 샘플 효율적인 사전 학습을 위해 다양한 관점과 시각을 제공하고, 생성기와 판별기 간의 관계를 최대한 활용하기 위해 다중 관점 과정 학습(MCL) 방법을 제안합니다. 구체적으로, MLM의 고유한 결함을 완화하고 레이블을 다중 관점 방식으로 균형 있게 조정하기 위해 세 가지 자기 감독 과정을 설계했습니다. 또한, 두 인코더 간의 간극을 메우기 위해 "수정 노트"를 생성하여 이차 감독을 제공하는 두 가지 자기 수정 과정을 제안했습니다. 더 나아가, MCL의 "줄다리기" 역학 문제를 해결하기 위해 과정 수프 시도를 진행하여 더 강력한 사전 학습 모델을 진화시켰습니다. 실험 결과, 우리의 방법은 GLUE와 SQuAD 2.0 벤치마크에서 ELECTRA의 평균 성능을 각각 2.8%와 3.2% 절대 점수로 크게 향상시켰으며, 동일한 설정에서 최근의 고급 ELECTRA 스타일 모델들을 능가했습니다. 사전 학습된 MCL 모델은 https://huggingface.co/McmanusChen/MCL-base에서 이용 가능합니다.