번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 텍스트-음성 변환(TTS) 모델들이 상당한 진전을 이루었음에도 불구하고, 여전히 음질, 유사성, 운율 측면에서 한계를 보이고 있습니다. 음성이 내용, 운율, 음색, 음향적 세부 사항 등 다양한 속성을 복잡하게 포함하고 있어 생성에 있어 상당한 어려움을 겪고 있음을 고려할 때, 음성을 개별 속성을 나타내는 부분 공간으로 분해하여 각각을 개별적으로 생성하는 것이 자연스러운 접근법입니다. 이러한 동기에서 출발하여, 우리는 제로샷 방식으로 자연스러운 음성을 생성하기 위해 새로운 분해 확산 모델을 갖춘 TTS 시스템인 NaturalSpeech 3를 제안합니다. 구체적으로, 1) 내용, 운율, 음색, 음향적 세부 사항을 부분 공간으로 분리하기 위해 분해 벡터 양자화(FVQ)를 적용한 신경 코덱을 설계하고, 2) 각 부분 공간의 속성을 해당 프롬프트에 따라 생성하기 위해 분해 확산 모델을 제안합니다. 이러한 분해 설계를 통해 NaturalSpeech 3는 복잡한 음성을 분리된 부분 공간으로 효과적이고 효율적으로 모델링하며, 분할 정복 방식으로 접근할 수 있습니다. 실험 결과, NaturalSpeech 3는 음질, 유사성, 운율, 명료성 측면에서 최신 TTS 시스템들을 능가하는 성능을 보여줍니다. 더 나아가, 10억 개의 파라미터와 20만 시간의 학습 데이터로 확장하여 더 나은 성능을 달성했습니다.
우리는 미세 조정된 멀티모달 언어 모델(MLM)을 활용하여 이미지-텍스트 데이터를 필터링하는 새로운 프레임워크를 제안합니다. 우리의 접근 방식은 최근의 MLM 발전을 통합함으로써 기존의 주요 필터링 방법(예: CLIPScore)을 능가합니다. 우리는 이미지-텍스트 데이터의 품질을 종합적으로 측정하기 위해 네 가지 독특하면서도 상호 보완적인 메트릭을 설계했습니다. 또한 MLM을 데이터 필터로 미세 조정하기 위한 고품질 명령 데이터를 구축하는 새로운 파이프라인을 구축했습니다. CLIPScore와 비교했을 때, 우리의 MLM 필터는 더 정확하고 포괄적인 점수를 생성하여 필터링된 데이터의 품질을 직접 개선하고 사전 훈련된 모델의 성능을 향상시킵니다. 우리는 인기 있는 기초 모델(즉, CLIP 및 BLIP2)과 다양한 다운스트림 작업에서 CLIPScore 대비 상당한 개선을 달성했습니다. 우리의 MLM 필터는 다양한 모델과 작업에 일반화될 수 있으며, CLIPScore의 대체품으로 바로 사용될 수 있습니다. 추가적으로, MLM 필터의 설계 선택을 검증하기 위한 추가적인 어블레이션 연구를 제공합니다.
대규모 언어 모델(LLM)은 문제 해결에서 놀라운 능력을 보여주고 있습니다. 그러나 수학 문제 해결 능력은 여전히 부족한 상태입니다. 우리는 최첨단 LLM(예: {\tt GPT-3.5})을 사용하여 고품질의 수학적 추론 데이터를 생성하는 간단하고 확장 가능한 방법인 MathScale을 제안합니다. 이 방법은 인간의 수학 학습에서의 인지 메커니즘에서 영감을 받아, 먼저 시드 수학 문제에서 주제와 지식 포인트를 추출한 후 개념 그래프를 구축하고, 이를 통해 새로운 수학 문제를 생성합니다. MathScale은 우리가 생성한 수학 데이터셋의 크기 축을 따라 효과적인 확장성을 보여줍니다. 결과적으로, 우리는 200만 개의 수학 질문-답변 쌍을 포함하는 수학적 추론 데이터셋(MathScaleQA)을 생성했습니다. LLM의 수학적 추론 능력을 종합적으로 평가하기 위해, K-12, 대학, 그리고 경시대회 수준의 수학 문제를 포함하는 10개의 데이터셋(예: GSM8K 및 MATH)으로 구성된 수학 단어 문제 벤치마크인 {\sc MwpBench}을 구축했습니다. 우리는 MathScaleQA를 오픈소스 LLM(예: LLaMA-2 및 Mistral)의 미세 조정에 적용하여 수학적 추론 능력을 크게 향상시켰습니다. {\sc MwpBench}에서 평가한 결과, MathScale-7B는 모든 데이터셋에서 최첨단 성능을 달성하며, 동일한 크기의 최고의 경쟁 모델을 마이크로 평균 정확도에서 42.9\%, 매크로 평균 정확도에서 43.7\% 각각 능가했습니다.
스케일링 법칙은 모델 품질의 지속적인 개선에 있어 중요한 역할을 합니다. 그러나 현재까지의 추천 모델들은 대규모 언어 모델 영역에서 관찰되는 것과 유사한 스케일링 법칙을 보여주지 못하고 있는데, 이는 그들의 스케일링 메커니즘이 비효율적이기 때문입니다. 이러한 한계는 점점 더 복잡해지는 실제 데이터셋에 이러한 모델들을 적용하는 데 있어 상당한 어려움을 야기합니다. 본 논문에서는 순수하게 스택된 인수분해 기계(factorization machines)에 기반한 효과적인 네트워크 아키텍처와 상호 보완적인 스케일링 전략을 제안하며, 이를 통칭하여 Wukong이라고 명명합니다. Wukong은 추천 영역에서 스케일링 법칙을 확립하기 위해 설계되었습니다. Wukong의 독특한 설계는 단순히 더 높고 넓은 레이어를 통해 다양한 차수의 상호작용을 포착할 수 있게 합니다. 우리는 6개의 공개 데이터셋에 대해 광범위한 평가를 수행했으며, 그 결과 Wukong이 품질 면에서 최신 모델들을 꾸준히 능가함을 입증했습니다. 또한, 내부의 대규모 데이터셋에서 Wukong의 확장성을 평가했습니다. 그 결과, Wukong은 최신 모델들에 비해 품질적 우위를 유지하면서도, 모델 복잡도가 두 자릿수에 걸쳐 증가하는 동안 스케일링 법칙을 유지하며, 100 Gflop 이상 또는 GPT-3/LLaMa-2 수준의 총 학습 계산량까지 확장 가능함을 보여주었습니다. 이는 기존 기술들이 달성하지 못한 성과입니다.
다양한 양의 대화 데이터가 필요한 대형 언어 모델(LLM)을 위해 텍스트와 이미지 등 다중 양식의 풍부한 대화 데이터가 부족함으로 인해 다중 양식 상호작용 시스템의 개발이 지연되고 있다. 기존의 접근 방식은 검색된 이미지를 텍스트 대화에 추가하는 방식으로, 이는 개인정보 보호, 다양성, 품질 등의 제약을 초래한다. 본 연구에서는 텍스트 전용 대화에 다양하고 고품질의 이미지를 추가하기 위한 프레임워크인 다중 양식 증강 생성 이미지 대화(MAGID)를 소개한다. 이후, 확산 모델을 적용하여 식별된 텍스트와 일치하는 이미지를 제작한다. 마지막으로, MAGID는 이미지 설명 생성 모듈(텍스트 LLM)과 이미지 품질 모듈(미학, 이미지-텍스트 일치, 안전성 처리) 간의 혁신적인 피드백 루프를 통합하여 고품질의 다중 양식 대화를 생성한다. MAGID를 세 가지 대화 데이터셋에서 다른 최첨단(SOTA) 베이스라인과 비교하여 자동화 평가와 인간 평가를 수행하였다. 그 결과, MAGID는 베이스라인과 비슷하거나 더 나은 성능을 보였으며, 특히 이미지 데이터베이스가 작은 검색 베이스라인에 비해 인간 평가에서 상당한 개선을 보였다.
대규모 언어 모델(LLM)은 다양한 작업에서 기존 방법들보다 매우 우수한 성능을 입증했습니다. 그러나 이들의 높은 계산 비용과 메모리 요구량은 실제 배포에 있어 걸림돌이 되고 있습니다. 모델 양자화는 이러한 오버헤드를 줄이기 위한 효과적인 방법입니다. 문제는 대부분의 기존 연구에서 양자화된 모델이 훈련 데이터의 소량 샘플만을 사용하여 보정되었기 때문에, 양자화된 LLM이 알려지지 않은 사례와 작업에 대한 일반화 성능에 영향을 미칠 수 있다는 점입니다. 따라서 본 연구에서는 중요한 질문을 탐구합니다: LLM의 일반화 성능을 보장할 수 있는 데이터 독립적인 양자화 방법을 설계할 수 있을까요? 이 연구에서 우리는 LLM을 위한 훈련이 필요 없고 데이터 독립적인 가중치 전용 양자화 알고리즘인 EasyQuant을 제안합니다. 우리의 관찰에 따르면, 가중치와 양자화 범위에서의 이상치(outlier) 두 가지 요소가 양자화 오류를 줄이는 데 필수적입니다. 따라서 EasyQuant에서는 이상치(1% 미만)를 그대로 유지하고 재구성 오류를 줄이기 위해 양자화 범위를 최적화합니다. 이러한 방법을 통해 우리는 놀랍게도 EasyQuant이 원본 모델과 비슷한 성능을 달성함을 발견했습니다. EasyQuant은 어떠한 훈련 데이터에도 의존하지 않기 때문에, 양자화된 LLM의 일반화 성능이 안전하게 보장됩니다. 또한 EasyQuant은 병렬로 구현될 수 있어, 100B 이상의 LLM에 대해서도 단 몇 분 만에 양자화된 모델을 얻을 수 있습니다. 우리가 아는 한, 우리는 데이터 독립적인 설정 하에서 LLM에 대해 거의 손실 없는 양자화 성능을 달성한 첫 번째 연구이며, 우리의 알고리즘은 데이터 의존적 방법보다 10배 이상 빠르게 실행됩니다.
놀라운 발전에도 불구하고, 기존의 다중모드 대형 언어 모델(MLLMs)은 여전히 세밀한 시각 인식에서 부족한 성능을 보인다. 이전 연구들과는 달리, 우리는 이 문제를 이미지 해상도의 관점에서 연구하였으며, 저해상도와 고해상도 시각 특징의 조합이 이러한 단점을 효과적으로 완화할 수 있음을 밝혀냈다. 이러한 관찰을 바탕으로, 우리는 MLLMs를 위한 새로운 효율적인 방법인 Mixture-of-Resolution Adaptation(MRA)을 제안한다. 특히, MRA는 서로 다른 해상도의 이미지를 위한 두 개의 시각 경로를 채택하며, 고해상도 시각 정보는 새로운 mixture-of-resolution adapters(MR-Adapters)를 통해 저해상도 경로에 내장된다. 이 설계는 또한 MLLMs의 입력 시퀀스 길이를 크게 줄인다. MRA를 검증하기 위해, 우리는 이를 최근의 MLLM인 LLaVA에 적용하고, 새로운 모델을 LLaVA-HR로 명명하였다. 우리는 11개의 시각-언어(VL) 작업에 대한 광범위한 실험을 수행하였으며, 이는 LLaVA-HR이 8개의 VL 작업에서 기존 MLLMs를 능가함을 보여준다. 예를 들어, TextVQA에서 +9.4%의 성능 향상을 보였다. 더 중요한 것은, MRA를 통해 LLaVA-HR의 훈련과 추론 모두 효율적으로 유지된다는 점이다. 예를 들어, 훈련 시간은 20시간이며, LLaVA-1.5보다 3배 빠른 추론 속도를 보인다. 소스 코드는 https://github.com/luogen1996/LLaVA-HR에서 공개되었다.
콘텐츠 검열부터 야생동물 보존에 이르기까지, 미묘하거나 주관적인 시각적 개념을 인식할 수 있는 모델을 요구하는 애플리케이션의 수가 증가하고 있다. 전통적으로, 이러한 개념을 위한 분류기를 개발하려면 훈련에 필요한 데이터를 식별하고 주석을 달기 위해 수 시간, 수일, 심지어 수개월에 걸친 상당한 수작업이 필요했다. 최근 제안된 Agile Modeling 기술을 사용하더라도, 단일 분류기를 훈련시키기 위해 사용자는 단조롭고 반복적인 데이터 라벨링 작업을 30분 이상 소요해야 한다. Fiske의 인지적 인색 이론(Cognitive Miser theory)을 바탕으로, 우리는 인간의 라벨링 작업을 자연어 상호작용으로 대체하여 개념을 정의하는 데 필요한 총 노력을 크게 줄이는 새로운 프레임워크를 제안한다: 2,000개의 이미지에 라벨을 붙이는 대신 100개의 이미지와 몇 가지 자연어 상호작용만으로도 충분하다. 우리의 프레임워크는 최근의 기초 모델(Foundation Models), 즉 대형 언어 모델과 시각-언어 모델의 발전을 활용하여 대화를 통해 개념 공간을 정의하고 훈련 데이터 포인트에 자동으로 라벨을 붙인다. 가장 중요한 것은, 우리의 프레임워크가 크라우드소싱 주석의 필요성을 없앤다는 점이다. 또한, 우리의 프레임워크는 비용에 민감한 시나리오에서도 배포 가능한 경량 분류 모델을 최종적으로 생성한다. 15개의 주관적 개념과 2개의 공개 이미지 분류 데이터셋에서, 우리가 훈련한 모델은 전통적인 Agile Modeling뿐만 아니라 ALIGN, CLIP, CuPL과 같은 최첨단 제로샷 분류 모델 및 PaLI-X와 같은 대형 시각 질의응답 모델을 능가하는 성능을 보였다.
자연어와 이미지는 목표 조건부 모방 학습(IL)에서 일반적으로 사용되는 목표 표현 방식입니다. 그러나 자연어는 모호할 수 있고, 이미지는 지나치게 구체적일 수 있습니다. 본 연구에서는 시각적 모방 학습에서 목표 명세를 위한 수기 스케치를 제안합니다. 스케치는 사용자가 언어처럼 즉석에서 제공하기 쉽지만, 이미지와 유사하게 하위 정책이 공간적 인식을 갖도록 도울 수 있으며, 심지어 이미지를 넘어 작업 관련 객체와 무관한 객체를 구별하는 데 도움을 줄 수 있습니다. 우리는 원하는 장면의 수기 스케치를 입력으로 받아 동작을 출력하는 조작 작업용 목표 조건부 정책인 RT-Sketch를 제시합니다. RT-Sketch는 합성적으로 생성된 목표 스케치와 짝을 이루는 궤적 데이터셋으로 학습되었습니다. 우리는 이 접근법을 조립식 카운터탑 위의 테이블탑 물체 재배치와 관련된 여섯 가지 조작 기술에 대해 평가했습니다. 실험 결과, RT-Sketch는 직관적인 설정에서 이미지나 언어 조건부 에이전트와 유사한 성능을 보이면서도, 언어 목표가 모호하거나 시각적 방해 요소가 있는 경우 더 큰 견고성을 달성할 수 있음을 확인했습니다. 또한, RT-Sketch는 최소한의 선화부터 상세하고 채색된 그림까지 다양한 수준의 구체성을 가진 스케치를 해석하고 실행할 수 있는 능력을 보여줍니다. 보충 자료와 비디오는 저희 웹사이트(http://rt-sketch.github.io)를 참조해 주세요.
신경망 필드(neural fields)의 최근 발전은 형태 생성 분야에 놀라운 능력을 가져왔지만, 예술 작업에 필수적인 점진적 제어와 같은 중요한 속성이 부족합니다. 반면, 삼각형 메쉬(triangular meshes)는 대부분의 기하학 관련 작업에서 선호되는 표현 방식으로, 효율성과 직관적인 제어를 제공하지만 신경망 최적화에는 적합하지 않습니다. 다운스트림 작업을 지원하기 위해, 기존 연구에서는 일반적으로 두 단계 접근 방식을 제안합니다. 먼저 신경망 필드를 사용하여 형태를 생성한 다음, 추가 처리를 위해 메쉬를 추출하는 방식입니다. 이 논문에서는 대신 메쉬와 부호 거리 필드(Signed Distance Field, SDF) 표현을 일관되게 유지하는 하이브리드 접근 방식을 소개합니다. 이 표현 방식을 사용하여, 텍스트 프롬프트에 따라 메쉬의 특정 영역을 조각하는 동시에 다른 영역은 그대로 유지하는 예술가 친화적인 도구인 MagicClay를 소개합니다. 우리의 프레임워크는 형태 최적화의 각 단계에서 표현 간의 일관성과 정규화를 신중하고 효율적으로 균형 있게 조정합니다. 메쉬 표현에 의존하여, 우리는 SDF를 더 높은 해상도와 더 빠른 속도로 렌더링하는 방법을 보여줍니다. 또한, 미분 가능한 메쉬 재구성(differentiable mesh reconstruction)의 최근 연구를 활용하여, SDF가 지시하는 대로 필요한 곳에 삼각형을 적응적으로 할당합니다. 구현된 프로토타입을 사용하여, 우리는 최신 기술과 비교하여 우수한 생성 기하학을 보여주고, 동일한 메쉬에 대해 순차적인 프롬프트 기반 편집을 가능하게 하는 새로운 일관된 제어를 처음으로 시연합니다.