번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)을 명령어에 맞춰 미세 조정(finetuning)하면 자연어 처리 작업에서 상당한 성능 향상을 이룰 수 있습니다. 우리는 코드를 활용한 명령어 튜닝(instruction tuning)을 적용하며, 코드 변경과 인간의 지시가 짝을 이루는 Git 커밋의 자연스러운 구조를 활용했습니다. 이를 통해 350개 프로그래밍 언어에 걸쳐 4테라바이트 규모의 Git 커밋 데이터셋인 CommitPack을 구축했습니다. CommitPack을 다른 자연어 및 합성 코드 명령어 데이터셋(xP3x, Self-Instruct, OASST)과 비교하여 160억 파라미터 StarCoder 모델에서 벤치마킹한 결과, OpenAI 출력으로 학습되지 않은 모델 중 HumanEval Python 벤치마크에서 최고 성능(46.2% pass@1)을 달성했습니다. 또한 HumanEval 벤치마크를 확장한 HumanEvalPack을 소개하며, 6개 언어(Python, JavaScript, Java, Go, C++, Rust)에 걸쳐 총 3가지 코딩 작업(코드 수정, 코드 설명, 코드 합성)을 포함시켰습니다. 우리의 모델인 OctoCoder와 OctoGeeX는 HumanEvalPack에서 모든 허용적(permissive) 모델 중 최고의 성능을 보여주며, CommitPack이 다양한 언어와 자연스러운 코딩 작업에 일반화하는 데 있어서의 이점을 입증했습니다. 코드, 모델 및 데이터는 https://github.com/bigcode-project/octopack에서 자유롭게 이용할 수 있습니다.
최근 몇 년 동안 대규모 텍스트-이미지 확산 모델의 강력한 능력이 인상적인 생성 능력을 통해 고품질 이미지를 만들어내는 것으로 입증되었습니다. 그러나 텍스트 프롬프트만을 사용하여 원하는 이미지를 생성하는 것은 매우 까다로운 작업이며, 종종 복잡한 프롬프트 엔지니어링이 필요합니다. 텍스트 프롬프트의 대안으로 이미지 프롬프트가 있으며, 이는 "한 장의 그림이 천 마디 말보다 낫다"는 속담과도 일맥상통합니다. 기존의 사전 학습된 모델을 직접 미세 조정하는 방법은 효과적이지만, 대규모 컴퓨팅 자원이 필요하며 다른 기본 모델, 텍스트 프롬프트, 구조적 제어와 호환되지 않습니다. 본 논문에서는 사전 학습된 텍스트-이미지 확산 모델에 이미지 프롬프트 기능을 제공하기 위한 효과적이고 경량화된 어댑터인 IP-Adapter를 제안합니다. 우리의 IP-Adapter의 핵심 설계는 텍스트 특징과 이미지 특징을 위한 교차 주의(cross-attention) 계층을 분리하는 분리된 교차 주의 메커니즘입니다. 우리의 방법은 단순하지만, 단 22M 파라미터만으로도 완전히 미세 조정된 이미지 프롬프트 모델과 비슷하거나 더 나은 성능을 달성할 수 있습니다. 사전 학습된 확산 모델을 고정함으로써, 제안된 IP-Adapter는 동일한 기본 모델에서 미세 조정된 다른 사용자 정의 모델뿐만 아니라 기존의 제어 가능한 도구를 사용한 제어 가능한 생성에도 일반화될 수 있습니다. 분리된 교차 주의 전략의 이점으로, 이미지 프롬프트는 텍스트 프롬프트와도 잘 작동하여 다중 모드 이미지 생성을 달성할 수 있습니다. 프로젝트 페이지는 https://ip-adapter.github.io에서 확인할 수 있습니다.
오디오-텍스트 프롬프트 기반 생성 음성 모델의 최근 발전은 고품질 제로샷 텍스트-투-스피치(TTS)와 같은 놀라운 혁신을 가능하게 했습니다. 그러나 기존 모델들은 입력 음성을 변환하거나 불리한 음향 조건에서 캡처된 오디오를 처리하는 다양한 오디오-텍스트 음성 생성 작업을 다루는 데 여전히 한계를 보입니다. 본 논문은 깨끗한 신호와 잡음이 포함된 신호 모두를 처리할 수 있는 제로샷 TTS 및 다양한 음성 변환 작업이 가능한 다목적 음성 생성 모델인 SpeechX를 소개합니다. SpeechX는 신경 코덱 언어 모델링과 작업 의존적 프롬프팅을 활용한 다중 작업 학습을 결합하여 통합적이고 확장 가능한 모델링을 가능하게 하며, 음성 향상 및 변환 작업에서 텍스트 입력을 활용하는 일관된 방법을 제공합니다. 실험 결과는 SpeechX가 제로샷 TTS, 잡음 제거, 목표 화자 추출, 음성 제거, 배경 잡음 유무에 따른 음성 편집 등 다양한 작업에서 특화된 모델들과 비교해 비슷하거나 우수한 성능을 달성함을 보여줍니다. 데모 샘플은 https://aka.ms/speechx에서 확인할 수 있습니다.
본 논문에서는 HuggingFace의 Open LLM 리더보드에서 현재 1위를 차지하며 가장 강력한 성능을 보이는 미세 조정 및 병합된 대규모 언어 모델(LLM) 패밀리인 Platypus를 소개한다. 본 연구에서는 (1) 공개된 다른 데이터셋의 부분집합으로 구성된 Open-Platypus 데이터셋을 공개하고, (2) 사전 학습된 LLM의 강력한 사전 지식을 보존하면서 특정 도메인 지식을 표면화하기 위한 LoRA 모듈의 미세 조정 및 병합 과정을 설명하며, (3) 훈련 데이터에서 테스트 데이터 누출 및 오염 여부를 확인한 결과를 제시하여 향후 연구에 기여한다. 특히, Platypus 패밀리는 모델 크기에 걸쳐 양적 LLM 메트릭에서 강력한 성능을 달성하며, 다른 최첨단 미세 조정 LLM에 필요한 데이터와 컴퓨팅 자원의 일부만 사용하여 글로벌 Open LLM 리더보드 정상에 올랐다. 구체적으로, 13B 규모의 Platypus 모델은 단일 A100 GPU에서 25,000개의 질문을 5시간 동안 훈련시킬 수 있다. 이는 Open-Platypus 데이터셋의 품질을 입증하며, 해당 분야에서 더 많은 개선의 기회를 열어준다. 프로젝트 페이지: https://platypus-llm.github.io
최근의 실험적 증거에 따르면, 트랜스포머 기반의 인컨텍스트 학습은 인컨텍스트 샘플들이 서로를 모두 참조할 수 있는 프리픽스 언어 모델(prefixLM)을 사용할 때, 미래 샘플을 참조하는 것을 금지하는 자기회귀적 어텐션을 사용하는 인과적 언어 모델(causalLM)에 비해 더 나은 성능을 보인다. 이 결과는 직관적으로 이해되지만, 이론적 관점에서는 아직 명확히 이해되지 않고 있다. 본 논문에서는 이론적 접근을 통해 특정 파라미터 구성 하에서 prefixLM과 causalLM의 수렴 행동을 분석한다. 우리의 분석은 두 언어 모델 유형 모두 선형 속도로 정상점에 수렴하지만, prefixLM은 선형 회귀의 최적 해에 수렴하는 반면, causalLM의 수렴 동역학은 온라인 경사 하강법 알고리즘과 유사하며, 이는 샘플 수가 무한히 증가하더라도 최적임을 보장하지 않음을 보여준다. 우리는 이론적 주장을 합성 및 실제 작업에서 다양한 유형의 트랜스포머를 사용한 실험적 결과로 보완한다. 우리의 실험은 모든 설정에서 causalLM이 일관적으로 prefixLM보다 낮은 성능을 보인다는 것을 검증한다.
블라인드 얼굴 복원은 알려지지 않은 열화가 있는 얼굴 이미지에서 고품질의 얼굴 이미지를 복구하는 것을 목표로 합니다. 현재의 알고리즘은 주로 고품질의 세부 사항을 보완하기 위해 사전 정보를 도입하여 인상적인 진전을 이루었습니다. 그러나 이러한 알고리즘 대부분은 얼굴 내의 풍부한 문맥 정보와 사전 정보 간의 상호작용을 무시하여 최적의 성능을 달성하지 못하고 있습니다. 또한, 합성된 시나리오와 실제 시나리오 간의 격차에 대해 덜 주의를 기울여 실제 응용 프로그램에서의 견고성과 일반화를 제한하고 있습니다. 본 연구에서는 RestoreFormer++를 제안합니다. 이 모델은 한편으로는 문맥 정보와 사전 정보 간의 상호작용을 모델링하기 위해 완전 공간적 주의 메커니즘을 도입하고, 다른 한편으로는 더 현실적인 열화된 얼굴 이미지를 생성하여 합성과 실제 세계 간의 격차를 완화하기 위해 확장된 열화 모델을 탐구합니다. 현재의 알고리즘과 비교하여 RestoreFormer++는 몇 가지 중요한 이점을 가지고 있습니다. 첫째, 기존의 시각 트랜스포머와 같은 다중 헤드 자기 주의 메커니즘 대신, 다중 스케일 특징에 대한 다중 헤드 교차 주의를 도입하여 손상된 정보와 고품질 사전 정보 간의 공간적 상호작용을 완전히 탐구합니다. 이를 통해 RestoreFormer++는 더 높은 현실감과 충실도로 얼굴 이미지를 복원할 수 있습니다. 둘째, 인식 지향 사전과 달리, 복원 지향 사전을 사전 정보로 학습하여 더 다양한 고품질 얼굴 세부 사항을 포함하고 복원 목표에 더 잘 부합합니다. 셋째, 더 현실적인 열화 시나리오를 포함하는 확장된 열화 모델을 도입하여 훈련 데이터 합성을 돕고, 이를 통해 RestoreFormer++ 모델의 견고성과 일반화를 강화합니다. 광범위한 실험을 통해 RestoreFormer++가 합성 및 실제 데이터셋에서 최신 알고리즘을 능가함을 보여줍니다.
자연어를 통해 대상 도메인에 대한 깊은 이해를 바탕으로, 우리는 큰 도메인 격차를 넘나드는 번역과 스켈레톤을 다시 살리는 데 있어 유망한 결과를 도출합니다. 본 연구에서는 텍스트 기반 잠재 확산 모델을 사용하여 큰 도메인 격차(긴I2I)를 넘는 제로샷 이미지-투-이미지 번역(I2I)을 수행합니다. 여기서는 대상 도메인에 진입하기 위해 새로운 시각적 특징과 기하학적 구조를 대량으로 생성해야 합니다. 이러한 큰 도메인 격차를 넘는 번역 능력은 범죄학, 점성술, 환경 보호, 고생물학 등 다양한 실제 응용 분야에서 활용될 수 있습니다. 본 연구에서는 두개골과 살아있는 동물 간의 번역을 위한 새로운 작업인 Skull2Animal을 소개합니다. 이 작업에서 우리는 지도되지 않은 생성적 적대 신경망(GAN)이 큰 도메인 격차를 넘는 번역을 수행할 수 없다는 사실을 발견했습니다. 이러한 전통적인 I2I 방법 대신, 우리는 지도 확산 및 이미지 편집 모델의 사용을 탐구하고, 텍스트 프롬프트 기반 잠재 확산 모델을 통해 제로샷 I2I를 수행할 수 있는 새로운 벤치마크 모델인 Revive-2I를 제안합니다. 우리는 긴I2I를 위해 지도가 필요하다는 것을 발견했는데, 이는 큰 도메인 격차를 메우기 위해서는 대상 도메인에 대한 사전 지식이 필요하기 때문입니다. 또한, 우리는 프롬프팅이 대상 도메인에 대한 최적의 정보를 제공하며 확장성이 가장 뛰어나다는 것을 발견했습니다. 이는 분류기 기반 확산 모델이 특정 사용 사례에 대해 재학습이 필요하고, 훈련된 이미지의 다양성 때문에 대상 도메인에 대한 강력한 제약이 부족하기 때문입니다.
기계 번역(MT)의 자동 평가는 MT 시스템의 빠른 반복적 개발을 주도하는 중요한 도구입니다. 단일 스칼라 품질 점수를 추정하는 데 있어 상당한 진전이 있었지만, 현재의 평가 지표는 다차원 품질 지표(MQM)와 같이 개별 오류를 주석 처리하는 더 상세한 방식의 정보성을 제공하지 못합니다. 본 논문에서는 이러한 격차를 메우기 위해 대규모 언어 모델(LLM)의 추론 및 문맥 학습 능력을 활용하여 번역에서 오류를 식별하고 분류하도록 요청하는 프롬프팅 기법인 AutoMQM을 제안합니다. 먼저 PaLM 및 PaLM-2와 같은 최신 LLM을 간단한 점수 예측 프롬프팅을 통해 평가하고, 문맥 학습과 미세 조정을 통해 레이블된 데이터의 영향을 연구합니다. 그런 다음 PaLM-2 모델을 사용하여 AutoMQM을 평가한 결과, 단순히 점수를 프롬프팅하는 것보다 성능이 향상되었으며(특히 더 큰 모델에서 큰 향상을 보임), 인간 주석과 일치하는 오류 범위를 통해 해석 가능성을 제공한다는 것을 발견했습니다.
우리는 실제 환경에서 사용하기 위한 지시-따르기 시각-언어 모델의 평가를 위한 벤치마크인 VisIT-Bench(Visual InsTruction Benchmark)를 소개합니다. 우리의 출발점은 지시 튜닝된 시각-언어 모델이 해결할 수 있어야 한다고 기대하는 70개의 '지시 패밀리'를 선별하는 것입니다. VQAv2 및 COCO와 같은 평가를 넘어, 작업 범위는 기본 인식부터 게임 플레이 및 창의적 생성까지 다양합니다. 선별 과정을 거쳐, 우리의 데이터셋은 각각 인간이 작성한 지시-조건부 캡션을 포함한 592개의 테스트 쿼리로 구성됩니다. 이러한 설명은 지시-특정 요소를 드러내는데, 예를 들어 휠체어 사용자를 위한 점포 접근성에 대해 묻는 지시의 경우, 지시-조건부 캡션은 경사로/잠재적 장애물을 설명합니다. 이러한 설명은 1) 각 인스턴스에 대해 인간이 검증한 참조 출력을 수집하고; 2) 텍스트 전용 LLM을 사용하여 후보 다중모달 생성물을 자동으로 평가하며, 이는 인간의 판단과 일치합니다. 우리는 인간 및 자동 평가를 모두 사용하여 모델과 참조 간의 품질 격차를 정량화합니다; 예를 들어, 최고 성능의 지시-따르기 모델은 GPT-4 참조와의 비교에서 단 27%의 경우에만 승리합니다. VisIT-Bench는 참여가 간단하며, 실무자는 프로젝트 웹사이트에 모델의 응답을 제출하기만 하면 됩니다; 데이터, 코드 및 리더보드는 visit-bench.github.io에서 확인할 수 있습니다.