번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 인공지능 분야의 지형을 바꾸어 놓았지만, 그 거대한 규모는 계산 비용 측면에서 상당한 도전 과제를 제시합니다. 우리는 LLM을 구조적으로 가지치기하고 지식을 복구하는 새로운 효율적 접근법인 LoRAShear를 소개합니다. 일반적인 LLM이 주어졌을 때, LoRAShear는 먼저 의존성 그래프를 생성하여 최소한의 제거 구조를 발견하고 지식 분포를 분석합니다. 그런 다음 LoRA 어댑터에 대해 점진적인 구조적 가지치기를 진행하며, 중복 구조에 있는 정보를 더 잘 보존하기 위해 내재적 지식 전달을 가능하게 합니다. 가지치기 과정에서 손실된 지식을 복구하기 위해, LoRAShear는 동적 데이터 어댑터를 활용한 동적 미세 조정 방식을 세심히 연구하고 제안하여, 전체 모델과의 성능 격차를 효과적으로 줄입니다. 수치적 결과는 단일 GPU를 사용하여 며칠 만에 LoRAShear가 LLM의 규모를 20% 줄이면서도 성능 저하를 1.0%로 억제하며, 최신 기술을 크게 능가함을 보여줍니다. 소스 코드는 https://github.com/microsoft/lorashear에서 제공될 예정입니다.
우리는 GPT-4V의 능력과 시각, 오디오, 음성 분야의 전문 도구를 결합하여 고급 비디오 이해를 가능하게 하는 통합 시스템인 MM-VID를 소개합니다. MM-VID는 장편 비디오와 같은 도전적인 과제, 예를 들어 1시간 분량의 콘텐츠 내에서의 추론 및 여러 에피소드에 걸친 스토리라인 이해 등을 해결하기 위해 설계되었습니다. MM-VID는 GPT-4V를 활용한 비디오-스크립트 생성 방식을 사용하여 다중 모달 요소를 긴 텍스트 스크립트로 전사합니다. 생성된 스크립트는 캐릭터의 움직임, 행동, 표정, 대화 등을 상세히 기술함으로써 대형 언어 모델(LLM)이 비디오를 이해할 수 있는 기반을 마련합니다. 이를 통해 오디오 설명, 캐릭터 식별, 다중 모달 고급 이해와 같은 고급 기능이 가능해집니다. 실험 결과는 MM-VID가 다양한 길이와 장르의 비디오를 효과적으로 처리할 수 있음을 보여줍니다. 또한, 비디오 게임 및 그래픽 사용자 인터페이스와 같은 인터랙티브 환경에 적용했을 때의 잠재력을 시연합니다.
비디오 생성은 학계와 산업계 모두에서 점점 더 많은 관심을 받고 있습니다. 상용 도구들은 그럴듯한 비디오를 생성할 수 있지만, 연구자와 엔지니어들이 사용할 수 있는 오픈소스 모델은 제한적입니다. 본 연구에서는 고품질 비디오 생성을 위한 두 가지 확산 모델, 즉 텍스트-투-비디오(T2V) 모델과 이미지-투-비디오(I2V) 모델을 소개합니다. T2V 모델은 주어진 텍스트 입력을 기반으로 비디오를 합성하며, I2V 모델은 추가적인 이미지 입력을 통합합니다. 우리가 제안한 T2V 모델은 1024x576 해상도의 사실적이고 영화적 품질의 비디오를 생성할 수 있으며, 품질 측면에서 다른 오픈소스 T2V 모델들을 능가합니다. I2V 모델은 제공된 참조 이미지의 내용, 구조, 스타일을 엄격히 준수하는 비디오를 생성하도록 설계되었습니다. 이 모델은 주어진 이미지를 비디오 클립으로 변환하면서 내용 보존 제약 조건을 유지할 수 있는 최초의 오픈소스 I2V 기반 모델입니다. 우리는 이러한 오픈소스 비디오 생성 모델들이 커뮤니티 내 기술 발전에 크게 기여할 것이라고 믿습니다.
콘텐츠 생성, 지능형 챗봇, 감정 분석과 같은 애플리케이션에서 대형 언어 모델(LLMs)에 대한 수요가 증가함에 따라 LLM 서비스 제공자들은 상당한 과제에 직면하고 있습니다. GPU 자원을 효율적으로 사용하고 처리량을 높이기 위해 여러 요청을 배치 처리하는 방식이 널리 사용되고 있으며, 배치 처리 속도를 더욱 높이기 위해 LLM 양자화 기술이 메모리 소비를 줄이고 컴퓨팅 용량을 증가시키고 있습니다. 그러나 현재 널리 사용되는 양자화 방식(예: 8비트 가중치-활성화 양자화)은 4비트 정수 연산자와 같은 현대 GPU의 성능을 완전히 활용하지 못해 최적의 성능을 달성하지 못하고 있습니다. LLM의 서비스 처리량을 극대화하기 위해, 우리는 정확도 손실을 최소화하면서 높은 처리량 개선을 달성하는 저비트 양자화 방법인 Atom을 소개합니다. Atom은 저비트 연산자를 사용하여 서비스 처리량을 크게 향상시키고, 저비트 양자화를 통해 메모리 소비를 상당히 줄입니다. 또한, 새로운 혼합 정밀도 및 세밀한 양자화 프로세스를 적용하여 높은 정확도를 유지합니다. 우리는 Atom을 서비스 환경에서 4비트 가중치-활성화 양자화 설정으로 평가했습니다. Atom은 FP16 대비 최대 7.73배, INT8 양자화 대비 2.53배의 종단 간 처리량 개선을 달성하면서 동일한 지연 시간 목표를 유지합니다.
이미지 생성에 맞춤형 객체를 통합하는 것은 텍스트-이미지 생성에서 매력적인 기능을 제공합니다. 그러나 기존의 최적화 기반 및 인코더 기반 방법들은 시간 소모적인 최적화, 불충분한 정체성 보존, 그리고 흔히 발생하는 복사-붙여넣기 효과와 같은 단점에 의해 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 3D 새로운 시점 합성 능력을 객체 맞춤화 과정에 명시적으로 통합한 새로운 객체 맞춤화 접근법인 CustomNet을 소개합니다. 이 통합은 공간적 위치 관계와 시점을 조정할 수 있게 하여, 객체의 정체성을 효과적으로 보존하면서 다양한 출력을 생성합니다. 또한, 우리는 텍스트 설명이나 특정 사용자 정의 이미지를 통해 위치 제어와 유연한 배경 제어를 가능하게 하는 세심한 설계를 도입하여, 기존 3D 새로운 시점 합성 방법의 한계를 극복합니다. 더 나아가, 우리는 실제 세계의 객체와 복잡한 배경을 더 잘 처리할 수 있는 데이터셋 구축 파이프라인을 활용합니다. 이러한 설계를 통해, 우리의 방법은 테스트 시간 최적화 없이도 제로샷 객체 맞춤화를 가능하게 하며, 동시에 시점, 위치, 배경을 제어할 수 있습니다. 결과적으로, 우리의 CustomNet은 향상된 정체성 보존을 보장하고 조화로운 다양한 출력을 생성합니다.
대형 언어 모델(LLMs)은 다양한 NLP 작업에서 인상적인 추론 및 데이터 증강 능력을 보여줍니다. 하지만 소형 모델은 어떨까요? 본 연구에서는 대부분의 NLP 샘플에 대해 관련 기초 개념, 사고 과정, 그리고 흔히 발생하는 오류를 주석으로 달 수 있는 TeacherLM-7.1B를 제안합니다. 이를 통해 주석이 단순히 답변을 제공하는 것을 넘어, 다른 모델들이 "무엇"이 아니라 "왜"를 학습할 수 있도록 합니다. TeacherLM-7.1B 모델은 MMLU에서 52.3의 제로샷 점수를 달성하며, 100B 이상의 파라미터를 가진 대부분의 모델을 능가했습니다. 더욱 주목할 만한 것은 이 모델의 데이터 증강 능력입니다. TeacherLM-7.1B를 기반으로 58개의 NLP 데이터셋을 증강하고, OPT 및 BLOOM 시리즈의 다양한 파라미터 크기를 가진 학생 모델들을 멀티태스크 설정에서 학습시켰습니다. 실험 결과, TeacherLM이 제공한 데이터 증강은 상당한 이점을 가져왔음을 보여줍니다. 우리는 TeacherLM 시리즈 모델과 증강된 데이터셋을 오픈소스로 공개할 예정입니다.
본 논문에서는 최신 멀티모달 대규모 언어 모델인 GPT-4 with Vision(GPT-4V)의 시각 질의응답(VQA) 과제 수행 능력을 비판적으로 평가합니다. 우리의 실험은 병리학 및 방사선학 데이터셋에서 11가지 모달리티(예: 현미경, 피부경, X선, CT 등)와 15개의 관심 대상(뇌, 간, 폐 등)을 사용하여 이미지와 짝을 이루는 질문에 대한 GPT-4V의 숙련도를 철저히 평가합니다. 우리의 데이터셋은 16가지의 독특한 질문 유형을 포함한 포괄적인 범위의 의학적 질문을 다룹니다. 평가 과정에서 우리는 GPT-4V가 시각 및 텍스트 정보를 융합하도록 유도하는 텍스트 프롬프트를 설계했습니다. 정확도 점수를 기반으로 한 실험 결과, 현재 버전의 GPT-4V는 진단 의학 질문에 대한 응답에서 신뢰할 수 없고 최적에 미치지 못하는 정확도로 인해 실제 진단 환경에서 사용하기에는 적합하지 않은 것으로 결론지었습니다. 또한, 우리는 의학 VQA에서 GPT-4V의 행동 양상을 7가지 독특한 측면으로 구분하여 이 복잡한 영역에서의 한계를 강조합니다. 평가 사례의 전체 세부 사항은 https://github.com/ZhilingYan/GPT4V-Medical-Report에서 확인할 수 있습니다.
강력한 폐쇄형 대형 언어 모델(LLM)(ChatGPT, GPT-4)의 부상과 함께, 폐쇄형 LLM의 능력을 더 작은 오픈소스 LLM으로 전이(distill)하려는 관심이 증가하고 있다. 기존의 전이 방법은 일반적으로 ChatGPT에게 일련의 지시와 답변을 생성하도록 요청하여, 학생 모델이 이를 학습하도록 한다. 그러나 이러한 표준 전이 접근법은 학생 모델의 장점과 조건을 간과한다. 현대 교육 원칙에서 영감을 받아, 우리는 학생이 먼저 과제를 해결하려고 시도한 후, 교사가 학생의 개선을 위해 적응형 피드백을 제공하는 개인화된 전이 과정을 설계했다. 교사의 사전 지식을 학생에게 제공하는 대신, 개인화된 전이는 학생 모델이 실수한 예제에 대해서만 학습하고 자신의 해결책을 개선하는 방법을 배우도록 함으로써 개인화된 학습을 가능하게 한다. 코드 생성 작업에서 개인화된 전이는 표준 전이보다 데이터 양이 1/3에 불과함에도 일관되게 더 나은 성능을 보였다. 데이터 수집 비용이 4-6$에 불과한 2.5-3K개의 개인화된 예제만으로, 우리는 CodeGen-mono-16B의 성능을 7% 향상시켜 HumanEval에서 36.4%의 pass@1을 달성했고, StarCoder의 성능을 12.2% 향상시켜 45.8%의 pass@1을 달성했다.
본 기술 보고서에서는 영어와 중국어 텍스트로부터 추출된 3.2조 개 이상의 토큰으로 구성된 코퍼스로 학습된 대규모 언어 모델(LLM)인 Skywork-13B 시리즈를 소개합니다. 이 이중 언어 기반 모델은 현재까지 공개된 동급 규모의 LLM 중 가장 광범위하게 학습된 모델입니다. 우리는 세그먼트화된 코퍼스를 사용한 2단계 학습 방법론을 제안하며, 각각 일반 목적 학습과 도메인 특화 강화 학습을 목표로 합니다. 우리 모델은 인기 벤치마크에서 우수한 성능을 보일 뿐만 아니라, 다양한 도메인에서 중국어 언어 모델링 분야의 최첨단 성능을 달성함을 보여줍니다. 또한, 우리는 새로운 누출 탐지 방법을 제안하며, 테스트 데이터 오염이 LLM 커뮤니티에서 추가 조사가 필요한 시급한 문제임을 입증합니다. 향후 연구를 촉진하기 위해, 우리는 Skywork-13B와 학습 과정 중간 단계에서 얻은 체크포인트를 공개합니다. 또한, 웹 텍스트로부터 수집된 1,500억 개 이상의 토큰으로 구성된 SkyPile 코퍼스의 일부를 공개하며, 이는 현재까지 공개된 가장 큰 고품질 중국어 사전 학습 코퍼스입니다. 우리는 Skywork-13B와 공개 코퍼스가 고품질 LLM에 대한 접근을 민주화하는 가치 있는 오픈소스 자원으로 활용되기를 기대합니다.
텍스트-3D 생성은 최근 특히 사전 학습된 2D 확산 모델을 활용하는 Score Distillation Sampling(SDS) 기반 방법을 통해 큰 진전을 이루었습니다. Classifier-free guidance의 사용이 성공적인 최적화에 필수적이라는 점은 잘 알려져 있지만, 이는 가장 핵심적인 요소라기보다는 보조적인 기법으로 여겨져 왔습니다. 본 논문에서는 Score Distillation에서 Classifier-free guidance의 역할을 재평가하고, 놀라운 발견을 하였습니다: guidance만으로도 효과적인 텍스트-3D 생성 작업이 가능하다는 것입니다. 우리는 이 방법을 Classifier Score Distillation(CSD)이라고 명명하였으며, 이는 생성에 암묵적 분류 모델을 사용하는 것으로 해석될 수 있습니다. 이 새로운 관점은 기존 기술을 이해하는 데 새로운 통찰을 제공합니다. 우리는 CSD의 효과를 다양한 텍스트-3D 작업(형상 생성, 텍스처 합성, 형상 편집 등)에서 검증하였으며, 최신 기술을 능가하는 결과를 달성하였습니다. 프로젝트 페이지는 https://xinyu-andy.github.io/Classifier-Score-Distillation에서 확인할 수 있습니다.