번역이 포함된 일일 선별된 AI 연구 논문
본 연구는 콘텐츠 생성에 특화된 대규모 언어 모델(LLM) 패밀리인 Weaver를 소개한다. Weaver는 대규모 언어 모델의 글쓰기 능력을 향상시키기 위해 신중하게 선별된 코퍼스로 사전 학습되었으며, 창의적 및 전문적 글쓰기 목적에 맞춰 미세 조정되었다. 또한, 전문 작가들의 선호도에 맞추기 위해 새로운 명령 데이터 합성 및 LLM 정렬 방법을 적용하여 더욱 인간적인 텍스트를 생성하고 다양한 콘텐츠 생성 지시를 따를 수 있도록 설계되었다. Weaver 패밀리는 Weaver Mini(1.8B), Weaver Base(6B), Weaver Pro(14B), Weaver Ultra(34B) 등 다양한 크기의 모델로 구성되어 있으며, 각각 다른 응용 분야에 적합하다. 또한, 쿼리 복잡도에 따라 라우팅 에이전트가 동적으로 모델을 선택하여 응답 품질과 계산 비용을 균형 있게 조절할 수 있다. LLM의 글쓰기 능력을 평가하기 위해 신중하게 구성된 벤치마크에서 모든 크기의 Weaver 모델이 자신보다 훨씬 큰 일반 목적 LLM을 능가하는 것으로 나타났다. 특히, 가장 강력한 Weaver Ultra 모델은 최첨단 일반 목적 LLM인 GPT-4를 다양한 글쓰기 시나리오에서 능가하며, 글쓰기 목적에 특화된 LLM을 훈련시키는 것의 장점을 입증했다. 또한, Weaver는 기본적으로 검색 증강 생성(RAG) 및 함수 호출(도구 사용)을 지원한다. 이러한 기능을 활용하여 외부 지식 베이스, 도구 또는 API를 통합하고 개인화된 글쓰기 지원을 제공하는 등 AI 지원 글쓰기 시스템을 개선하는 다양한 사용 사례를 제시한다. 더 나아가, 특정 도메인에 맞춘 LLM의 사전 학습 및 미세 조정을 위한 가이드라인과 모범 사례를 논의하고 요약한다.
YOLO(You Only Look Once) 시리즈 탐지기는 효율적이고 실용적인 도구로 자리 잡았습니다. 그러나 이들은 미리 정의되고 학습된 객체 카테고리에 의존하기 때문에 개방형 시나리오에서의 적용 가능성이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 YOLO-World를 소개합니다. 이는 시각-언어 모델링과 대규모 데이터셋에 대한 사전 학습을 통해 YOLO에 개방형 어휘 탐지 기능을 강화한 혁신적인 접근 방식입니다. 구체적으로, 우리는 시각 정보와 언어 정보 간의 상호작용을 촉진하기 위해 새로운 Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)와 지역-텍스트 대조 손실을 제안합니다. 우리의 방법은 제로샷 방식으로 다양한 객체를 효율적으로 탐지하는 데 탁월한 성능을 보입니다. 도전적인 LVIS 데이터셋에서 YOLO-World는 V100에서 52.0 FPS로 35.4 AP를 달성하여 정확도와 속도 모두에서 많은 최신 방법들을 능가합니다. 또한, 미세 조정된 YOLO-World는 객체 탐지 및 개방형 어휘 인스턴스 분할을 포함한 여러 하위 작업에서 뛰어난 성능을 보입니다.
우리는 3D 장면을 단위 블록으로 생성하고 새로운 블록을 원활하게 통합하여 장면을 확장하는 확산 기반 모델인 BlockFusion을 제안합니다. BlockFusion은 완전한 3D 장면 메시에서 무작위로 잘라낸 3D 블록 데이터셋을 사용하여 학습됩니다. 블록별 피팅을 통해 모든 학습 블록은 하이브리드 신경 필드로 변환됩니다: 기하학적 특징을 포함하는 트라이플레인과 이를 따라 부호 있는 거리 값을 디코딩하기 위한 다층 퍼셉트론(MLP)으로 구성됩니다. 변분 자동 인코더를 사용하여 트라이플레인을 잠재 트라이플레인 공간으로 압축하며, 이 공간에서 노이즈 제거 확산 과정이 수행됩니다. 잠재 표현에 확산을 적용함으로써 고품질이고 다양한 3D 장면 생성을 가능하게 합니다. 생성 과정에서 장면을 확장하기 위해서는 현재 장면과 겹치는 빈 블록을 추가하고 기존의 잠재 트라이플레인을 외삽하여 새로운 블록을 채우면 됩니다. 외삽은 노이즈 제거 반복 동안 겹치는 트라이플레인에서 추출한 특징 샘플을 조건으로 하여 생성 과정을 수행함으로써 이루어집니다. 잠재 트라이플레인 외삽은 기존 장면과 조화롭게 어우러지는 의미론적 및 기하학적으로 의미 있는 전환을 생성합니다. 2D 레이아웃 조건 메커니즘을 사용하여 장면 요소의 배치와 배열을 제어합니다. 실험 결과는 BlockFusion이 실내 및 실외 시나리오에서 전례 없이 고품질의 형태를 가진 다양하고 기하학적으로 일관된 무한대의 대규모 3D 장면을 생성할 수 있음을 보여줍니다.
LLM을 시각적 합성에 활용하기 위해 기존 방법들은 특수화된 시각적 모듈을 통해 래스터 이미지 정보를 이산적인 그리드 토큰으로 변환하지만, 이는 모델이 시각적 장면의 진정한 의미 표현을 포착하는 능력을 저해합니다. 본 논문은 이미지의 대안적 표현인 벡터 그래픽이 이러한 한계를 효과적으로 극복할 수 있으며, 이미지 정보를 보다 자연스럽고 의미적으로 일관되게 분할할 수 있다고 주장합니다. 따라서 우리는 벡터 그래픽 상에서 더 나은 시각적 표현인 '스트로크 토큰'을 탐구한 선구적인 작업인 StrokeNUWA를 소개합니다. 이는 본질적으로 시각적 의미가 풍부하고, LLM과 자연스럽게 호환되며, 높은 압축률을 자랑합니다. 스트로크 토큰을 활용한 StrokeNUWA는 벡터 그래픽 생성 작업에서 기존의 LLM 기반 및 최적화 기반 방법들을 다양한 지표에서 크게 능가할 수 있습니다. 또한, StrokeNUWA는 이전 방법들 대비 최대 94배의 추론 속도 향상을 달성하며, 6.9%의 탁월한 SVG 코드 압축률을 보여줍니다.
음성 생성 모델 분야가 급속도로 발전함에 따라, 음성 복제 위험에 대비한 오디오 진위성 보장이 시급한 과제로 대두되고 있다. 본 연구에서는 AI 생성 음성의 국소적 탐지를 위해 특별히 설계된 최초의 오디오 워터마킹 기술인 AudioSeal을 제안한다. AudioSeal은 샘플 수준까지 국소적 워터마크 탐지를 가능하게 하는 국소화 손실과 함께 공동으로 학습된 생성기/탐지기 아키텍처를 채택하며, 청각 마스킹에서 영감을 받은 새로운 지각 손실을 통해 더 나은 비가시성을 달성한다. AudioSeal은 실제 오디오 조작에 대한 견고성과 자동 및 인간 평가 지표 기반의 비가시성 측면에서 최첨단 성능을 보인다. 또한, AudioSeal은 빠른 단일 패스 탐지기로 설계되어 기존 모델 대비 최대 두 배 빠른 탐지 속도를 달성함으로써 대규모 및 실시간 애플리케이션에 이상적이다.
본 논문에서는 LLama 2와 Mistral의 핵심 원칙을 따라 1조 개의 토큰으로 학습된 1.8B 규모의 언어 모델인 H2O-Danube-1.8B를 소개한다. 대규모 언어 모델의 사전 학습을 위해 다양한 기법을 활용하고 개선하였다. 비슷한 규모의 참조 모델과 비교하여 전체 토큰 수가 상당히 적음에도 불구하고, 본 모델은 다양한 벤치마크에서 매우 경쟁력 있는 성능을 보인다. 또한, 지도 미세 조정과 직접 선호 최적화를 통해 학습된 채팅 모델을 공개한다. H2O-Danube-1.8B는 Apache 2.0 라이선스 하에 공개되어, 경제적으로 더 넓은 사용자층에게 대규모 언어 모델을 보급하는 데 기여한다.
본 보고서에서는 대규모 언어 모델(LLM)의 학습 및 배포를 위해 텍스트 확산(text diffusion)이 자기회귀(AR) 디코딩을 대체할 가능성을 탐구합니다. 특히, 사전 학습된 AR 모델이 "AR2Diff"라 명명한 경량화된 적응 절차를 통해 텍스트 확산 모델로 변환될 수 있는지에 주목합니다. 먼저, 텍스트 확산 모델 학습을 위한 강력한 베이스라인 설정을 구축합니다. 다양한 아키텍처와 사전 학습 목표를 비교한 결과, 프리픽스 언어 모델(prefix LM) 목표로 디코더만 사용한 모델이 여러 작업에서 최상 또는 근접한 성능을 보임을 확인했습니다. 이를 바탕으로, 텍스트 확산 모델을 위한 다양한 전이 학습 설정을 테스트합니다. 기계 번역에서는 텍스트 확산이 표준 AR 접근법에 비해 성능이 떨어지는 것으로 나타났습니다. 그러나 코드 합성 및 추출형 질의응답(extractive QA) 작업에서는 처음부터 학습된 확산 모델이 많은 경우에서 AR 모델을 능가하는 성능을 보였습니다. 또한, AR 모델을 확산 디코딩을 사용하도록 적응시키는 AR2Diff를 통해 품질 향상을 관찰했습니다. 이러한 결과는 텍스트 확산이 상대적으로 덜 탐구된 분야임에도 불구하고, 긴 텍스트 생성에서 AR 디코딩보다 상당히 빠를 수 있다는 점에서 유망합니다.
대규모 언어 모델(LLM)을 정렬(align)하는 데 상당한 노력이 기울여졌음에도 불구하고, 레드 팀 보고서에 따르면 이러한 신중하게 정렬된 LLM도 적대적 프롬프트, 튜닝 또는 디코딩을 통해 여전히 탈옥(jailbroken)될 수 있다. 정렬된 LLM의 탈옥 취약성을 조사한 결과, 탈옥된 모델과 정렬된 모델의 디코딩 분포는 초기 생성 단계에서만 차이가 있음을 관찰했다. 이러한 관찰은 우리가 약한 모델에서 강한 모델로의 탈옥 공격(weak-to-strong jailbreaking attack)을 제안하는 동기가 되었다. 이 공격에서 공격자는 더 작은 안전하지 않거나 정렬된 LLM(예: 7B)을 활용하여 훨씬 더 큰 정렬된 LLM(예: 70B)을 탈옥시킬 수 있다. 탈옥을 위해 더 큰 LLM을 디코딩하는 것과 비교해 계산 및 지연 시간이 최소화된 두 개의 작은 LLM을 추가로 한 번만 디코딩하면 된다. 이 공격의 효율성은 세 개의 다른 조직에서 개발한 다섯 가지 모델에 대한 실험을 통해 입증되었다. 우리의 연구는 이전에 주목받지 못했지만 효율적인 탈옥 방법을 밝혀냄으로써 LLM을 정렬할 때 고려해야 할 시급한 안전 문제를 드러냈다. 초기 시도로서, 우리는 이러한 공격을 방어하기 위한 전략을 제안하지만, 더 발전된 방어 메커니즘을 만드는 것은 여전히 도전적인 과제로 남아 있다. 이 방법을 재현하기 위한 코드는 https://github.com/XuandongZhao/weak-to-strong에서 확인할 수 있다.
현재의 이미지 조작 기술은 주로 특정 영역을 교체하거나 전체 스타일을 변경하는 등의 정적 조작에 초점이 맞춰져 있습니다. 본 논문에서는 혁신적인 동적 조작 과제인 주체 재배치를 소개합니다. 이 과제는 사용자가 지정한 주체를 원하는 위치로 이동시키면서 이미지의 충실도를 유지하는 것을 목표로 합니다. 우리의 연구에 따르면, 주체 재배치의 기본 하위 과제들, 즉 재배치된 주체가 남긴 공간을 채우고, 주체의 가려진 부분을 재구성하며, 주체를 주변 영역과 일관되게 혼합하는 작업들은 모두 통합된 프롬프트 기반 인페인팅 작업으로 효과적으로 재구성될 수 있습니다. 결과적으로, 우리는 단일 확산 생성 모델을 사용하여 제안된 작업 역전 기법을 통해 학습된 다양한 작업 프롬프트를 활용해 이러한 하위 과제들을 해결할 수 있습니다. 또한, 주체 재배치의 품질을 더욱 향상시키기 위해 전처리 및 후처리 기술을 통합했습니다. 이러한 요소들이 결합되어 우리의 SEELE(Segment-gEnerate-and-bLEnd) 프레임워크를 형성합니다. SEELE의 주체 재배치 효과를 평가하기 위해, 우리는 ReS라는 실제 주체 재배치 데이터셋을 구축했습니다. ReS에 대한 실험 결과는 재배치된 이미지 생성의 품질을 입증합니다.
최근 연구들은 투명성과 개방 과학을 촉진하기 위해 완전히 개방된 기초 모델을 주장해 왔습니다. 이를 위한 첫 번째 단계로, Open Whisper-style Speech Model(OWSM)은 공개적으로 이용 가능한 데이터와 오픈소스 툴킷을 사용하여 OpenAI의 Whisper를 재현했습니다. Whisper를 재현하는 목표로, 이전의 OWSM v1부터 v3 모델들은 여전히 Transformer를 기반으로 하고 있었는데, 이는 다른 최첨단 음성 인코더에 비해 성능이 떨어질 수 있는 원인이 되었습니다. 본 연구에서는 추가 학습 데이터 없이 OWSM의 성능과 효율성을 개선하는 것을 목표로 합니다. 우리는 두 가지 규모, 즉 100M과 1B의 E-Branchformer 기반 OWSM v3.1 모델을 제안합니다. 1B 모델은 공개된 E-Branchformer 기반 음성 모델 중 가장 큰 규모이며, 대부분의 평가 벤치마크에서 이전 OWSM v3을 능가하면서 최대 25% 더 빠른 추론 속도를 보여줍니다. 우리는 데이터 준비 스크립트, 사전 학습된 모델 및 학습 로그를 공개적으로 제공합니다.
이미지 복원은 저하된 관측값에서 고품질의 깨끗한 이미지를 복구하는 근본적인 문제입니다. 올인원(All-In-One) 이미지 복원 모델은 저하 유형별 정보를 프롬프트로 활용하여 다양한 유형과 수준의 저하로부터 이미지를 효과적으로 복원할 수 있습니다. 본 연구에서는 인간이 작성한 지시문을 사용하여 이미지 복원 모델을 안내하는 최초의 접근법을 제시합니다. 자연어 프롬프트가 주어지면, 우리의 모델은 여러 저하 유형을 고려하여 저하된 이미지로부터 고품질의 이미지를 복원할 수 있습니다. 우리의 방법인 InstructIR은 이미지 노이즈 제거, 비 제거, 블러 제거, 안개 제거 및 (저조도) 이미지 향상 등 여러 복원 작업에서 최첨단 결과를 달성합니다. InstructIR은 기존의 올인원 복원 방법보다 +1dB의 성능 향상을 보여줍니다. 또한, 우리의 데이터셋과 결과는 텍스트 기반 이미지 복원 및 향상에 대한 새로운 연구를 위한 기준을 제시합니다. 우리의 코드, 데이터셋 및 모델은 https://github.com/mv-lab/InstructIR에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 프로그램 합성에 점점 더 많이 사용되고 있지만, 이들은 유용한 추상화를 개발하는 데 필요한 전역적 관점이 부족하다. 일반적으로 이러한 모델은 프로그램을 하나씩 예측하며, 종종 동일한 기능을 반복한다. 처음부터 중복 코드를 생성하는 것은 비효율적일 뿐만 아니라 오류가 발생하기 쉽다. 이를 해결하기 위해, 우리는 코드 리팩토링(즉, 실행 결과를 변경하지 않고 코드를 재구성하는 것)을 통해 재사용 가능한 함수 라이브러리를 학습하는 경사 하강법이 필요 없는 방법인 ReGAL(Refactoring for Generalizable Abstraction Learning)을 제안한다. ReGAL은 소규모의 기존 프로그램 집합에서 학습하며, 실행을 통해 추상화를 반복적으로 검증하고 개선한다. 우리는 ReGAL이 발견한 공유 함수 라이브러리가 다양한 도메인에서 프로그램을 더 쉽게 예측할 수 있게 만든다는 것을 발견했다. 세 가지 데이터셋(LOGO 그래픽 생성, 날짜 추론, 그리고 Minecraft 기반 텍스트 게임인 TextCraft)에서, 오픈소스 및 독점 LLM 모두 ReGAL 함수를 사용하여 프로그램을 예측할 때 정확도가 향상되었다. CodeLlama-13B의 경우, ReGAL은 그래픽에서 11.5%, 날짜 이해에서 26.1%, TextCraft에서 8.1%의 절대 정확도 증가를 보였으며, 세 도메인 중 두 도메인에서 GPT-3.5를 능가했다. 우리의 분석은 ReGAL의 추상화가 자주 사용되는 서브루틴과 환경 역학을 캡슐화한다는 것을 보여준다.
현재의 대규모 시각-언어 모델(VLMs)은 종종 단일 시각 구성 요소의 능력 부족과 과도하게 긴 시각 토큰과 같은 문제에 직면합니다. 이러한 문제는 복잡한 시각 정보와 지나치게 긴 문맥 정보를 정확하게 해석하는 모델의 효율성을 제한할 수 있습니다. 이러한 문제를 해결하는 것은 VLMs의 성능과 적용 가능성을 향상시키는 데 중요합니다. 본 논문은 이미지-텍스트 매칭, OCR, 이미지 세분화 등에 능숙한 개별 시각 인코더들의 능력을 시너지 효과적으로 결합하기 위해 앙상블 전문가 기법을 제안합니다. 이 기법은 다양한 시각 전문가들의 출력을 통합 처리하기 위한 융합 네트워크를 도입함과 동시에 이미지 인코더와 사전 훈련된 대형 언어 모델(LLMs) 간의 간극을 메웁니다. 또한, 우리는 긴 이미지 특징 시퀀스로 인한 위치 인코딩의 낭비를 완화하기 위해 다양한 위치 인코딩 방식을 탐구하여 위치 오버플로우와 길이 제한 문제를 효과적으로 해결합니다. 예를 들어, 우리의 구현에서 이 기법은 SAM과 같은 모델에서 위치 점유를 상당한 4096에서 더 효율적이고 관리 가능한 64 또는 심지어 1로 크게 줄입니다. 실험 결과는 여러 전문가를 갖춘 VLMs이 고립된 시각 인코더들보다 지속적으로 우수한 성능을 보이며, 더 많은 전문가가 통합될수록 성능이 크게 향상됨을 보여줍니다. 우리는 이 보고서에서 사용된 훈련 코드를 오픈소스로 공개했습니다. 이 모든 리소스는 우리 프로젝트 웹사이트에서 확인할 수 있습니다.
대규모 언어 모델은 점점 더 훈련과 추론을 위해 분산 기술에 의존하고 있습니다. 이러한 기술은 장치 간의 통신을 필요로 하며, 장치 수가 증가함에 따라 확장 효율성을 감소시킬 수 있습니다. 일부 분산 기술은 독립적인 계산과 통신을 중첩시켜 통신을 숨길 수 있지만, 텐서 병렬화(Tensor Parallelism, TP)와 같은 기술은 본질적으로 통신을 모델 실행과 직렬화합니다. 이러한 직렬화된 통신을 숨기기 위한 한 가지 접근 방식은 통신 데이터의 생산자 연산과 세밀하게 인터리빙하는 것입니다. 그러나 소프트웨어에서 통신과 계산을 세밀하게 인터리빙하는 것은 어려울 수 있습니다. 또한, 모든 동시 실행과 마찬가지로 계산과 통신 간에 컴퓨팅 및 메모리 리소스를 공유해야 하므로 리소스 경쟁이 발생하여 중첩 효율성이 감소합니다. 이러한 문제를 극복하기 위해, 우리는 하드웨어-소프트웨어 공동 설계를 적용하여 직렬화된 통신을 투명하게 중첩시키면서 계산과의 리소스 경쟁을 최소화하는 T3를 제안합니다. T3는 생산자 연산의 출력 주소 공간을 간단히 구성함으로써 생산자 연산과 후속 통신을 투명하게 융합하며, 소프트웨어 변경을 최소화합니다. 하드웨어 수준에서 T3는 생산자의 계산과 통신을 조율하기 위해 경량의 트랙 및 트리거 메커니즘을 추가합니다. 또한, 통신에 수반되는 계산을 위해 계산 강화 메모리를 사용합니다. 결과적으로 T3는 리소스 경쟁을 줄이고 직렬화된 통신을 계산과 효율적으로 중첩시킵니다. T-NLG와 같은 중요한 트랜스포머 모델에서 T3는 통신이 많은 서브 레이어를 지오메트릭 평균 30%(최대 47%)까지 가속화하고 데이터 이동을 지오메트릭 평균 22%(최대 36%)까지 줄입니다. 또한, T3의 이점은 모델이 확장됨에 따라 지속됩니다: sim500-빌리언 파라미터 모델, PALM 및 MT-NLG에서 서브 레이어의 지오메트릭 평균 29%입니다.