번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 Big Adaptive Streamable TTS with Emergent abilities의 약자인 BASE TTS라는 텍스트-음성 변환(TTS) 모델을 소개한다. BASE TTS는 현재까지 가장 큰 TTS 모델로, 공개 도메인 음성 데이터 10만 시간을 학습하여 음성 자연스러움 측면에서 새로운 최첨단 성능을 달성했다. 이 모델은 10억 개의 파라미터를 가진 자기회귀적 트랜스포머를 사용하여 원시 텍스트를 이산 코드("스피치코드")로 변환한 후, 컨볼루션 기반 디코더를 통해 이러한 스피치코드를 점진적이고 스트리밍 가능한 방식으로 파형으로 변환한다. 또한, 본 논문에서는 화자 ID 분리와 바이트 페어 인코딩을 통한 압축을 특징으로 하는 새로운 음성 토큰화 기술을 사용하여 스피치코드를 구축했다. 대규모 언어 모델이 데이터 양이 증가함에 따라 보여주는 "창발적 능력"과 유사하게, 1만 시간 이상의 데이터와 5억 개 이상의 파라미터로 구축된 BASE TTS 변형 모델들은 텍스트적으로 복잡한 문장에서 자연스러운 운율을 보이기 시작한다. 본 논문에서는 이러한 텍스트-음성 변환의 창발적 능력을 측정하기 위한 특화된 데이터셋을 설계하고 공유한다. BASE TTS의 최첨단 자연스러움은 YourTTS, Bark, TortoiseTTS와 같은 공개된 대규모 텍스트-음성 변환 시스템을 포함한 베이스라인과의 비교 평가를 통해 입증된다. 모델이 생성한 오디오 샘플은 https://amazon-ltts-paper.com/에서 확인할 수 있다.
현재의 언어 모델은 단어로 쉽게 설명하기 어려운 세계의 측면을 이해하는 데 한계가 있으며, 복잡하고 장편의 작업을 처리하는 데 어려움을 겪습니다. 비디오 시퀀스는 언어와 정적 이미지에서는 얻을 수 없는 귀중한 시간적 정보를 제공하므로, 이를 언어와 함께 모델링하는 것이 매력적으로 여겨집니다. 이러한 모델은 인간의 텍스트 기반 지식과 물리적 세계를 모두 이해할 수 있게 되어, 인간을 보조하는 더 넓은 AI 능력을 가능하게 할 수 있습니다. 그러나 수백만 개의 토큰으로 이루어진 비디오와 언어 시퀀스로부터 학습하는 것은 메모리 제약, 계산 복잡성, 그리고 제한된 데이터셋으로 인해 도전 과제로 남아 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 다양한 비디오와 책으로 구성된 대규모 데이터셋을 구축하고, RingAttention 기법을 활용하여 긴 시퀀스에 대해 확장 가능한 학습을 수행하며, 컨텍스트 크기를 4K에서 1M 토큰까지 점진적으로 증가시켰습니다. 본 논문은 다음과 같은 기여를 합니다: (a) 가장 큰 컨텍스트 크기의 신경망: 우리는 긴 비디오와 언어 시퀀스에 대해 가장 큰 컨텍스트 크기의 트랜스포머 중 하나를 학습시켜, 어려운 검색 작업과 긴 비디오 이해에서 새로운 벤치마크를 설정했습니다. (b) 시각-언어 학습 도전 과제를 극복하기 위한 해결책, 다양한 시퀀스 길이를 혼합하기 위한 마스크된 시퀀스 패킹, 언어와 시각의 균형을 맞추기 위한 손실 가중치, 그리고 긴 시퀀스 채팅을 위한 모델 생성 QA 데이터셋을 포함합니다. (c) RingAttention, 마스크된 시퀀스 패킹, 그리고 수백만 길이의 멀티모달 시퀀스 학습을 위한 기타 주요 기능을 포함한 고도로 최적화된 구현. (d) 1M 토큰 이상의 긴 텍스트 문서(LWM-Text, LWM-Text-Chat)와 비디오(LWM, LWM-Chat)를 처리할 수 있는 7B 파라미터 모델 패밀리를 완전히 오픈소스로 공개했습니다. 이 작업은 긴 비디오와 언어로 구성된 대규모 데이터셋을 학습하여 인간의 지식과 멀티모달 세계를 이해하고, 더 넓은 능력을 개발하는 길을 열어줍니다.
최근 (자기) 지도 학습 모델의 급속한 발전은 대부분 경험적 스케일링 법칙에 의해 예측됩니다: 모델의 성능은 크기에 비례하여 증가합니다. 그러나 강화 학습 영역에서는 이와 유사한 스케일링 법칙이 여전히 찾기 어려운데, 이는 모델의 매개변수 수를 증가시키면 오히려 최종 성능이 저하되는 경우가 많기 때문입니다. 본 논문에서는 Mixture-of-Expert(MoE) 모듈, 특히 Soft MoEs(Puigcerver et al., 2023)를 가치 기반 네트워크에 통합하면 매개변수 확장성이 더 높은 모델이 생성됨을 보여줍니다. 이는 다양한 훈련 체계와 모델 크기에서 상당한 성능 향상으로 입증됩니다. 따라서 이 연구는 강화 학습을 위한 스케일링 법칙 개발에 강력한 경험적 증거를 제공합니다.
우리는 텍스트 이해 능력을 갖춘 최초의 종단간(end-to-end) 멀티모달 질의응답 시스템인 Lumos를 소개한다. Lumos의 핵심에는 1인칭 시점 이미지에서 텍스트를 추출하는 장면 텍스트 인식(Scene Text Recognition, STR) 컴포넌트가 있으며, 이 출력은 멀티모달 대형 언어 모델(Multimodal Large Language Model, MM-LLM)의 입력을 보강하는 데 사용된다. Lumos를 구축하는 과정에서 우리는 STR 품질, 전체 지연 시간, 모델 추론과 관련된 수많은 도전 과제에 직면했다. 본 논문에서는 이러한 도전 과제를 깊이 있게 탐구하고, 이러한 장애물을 극복하기 위해 채택한 시스템 아키텍처, 설계 선택, 모델링 기법에 대해 논의한다. 또한 각 컴포넌트에 대한 포괄적인 평가를 제공하여 높은 품질과 효율성을 입증한다.
그래프 신경망(GNNs)은 그래프 표현 학습에서 유망한 잠재력을 보여주고 있다. 대부분의 GNN은 로컬 메시지 전달 메커니즘을 정의하며, 여러 층을 쌓아 그래프 위에서 정보를 전파한다. 그러나 이러한 방법들은 두 가지 주요 한계로 인해 어려움을 겪는 것으로 알려져 있다: 과도한 정보 압축(over-squashing)과 장거리 의존성을 효과적으로 포착하지 못하는 문제이다. 최근, 그래프 트랜스포머(GTs)가 메시지 전달 신경망(MPNNs)의 강력한 대안으로 등장했다. 그러나 GTs는 이차 계산 비용이 발생하며, 그래프 구조에 대한 귀납적 편향(inductive biases)이 부족하고, 복잡한 위치/구조 인코딩(SE/PE)에 의존한다. 본 논문에서는 트랜스포머, 복잡한 메시지 전달, 그리고 SE/PE가 실제로 좋은 성능을 내기에 충분하지만, 이들 중 어느 것도 필수적이지 않음을 보인다. 최근 Mamba와 같은 상태 공간 모델(SSMs)의 성공에 영감을 받아, 우리는 선택적 SSMs를 기반으로 한 새로운 클래스의 GNN인 그래프 맘바 네트워크(GMNs)를 제안한다. 우리는 그래프 구조 데이터에 SSMs를 적용할 때 발생하는 새로운 도전 과제들을 논의하고 분류하며, GMNs를 설계하기 위해 필요한 네 가지 단계와 선택적인 한 가지 단계를 제시한다. 이 단계들은 (1) 이웃 토큰화, (2) 토큰 순서화, (3) 양방향 선택적 SSM 인코더의 아키텍처, (4) 로컬 인코딩, 그리고 선택적인 (5) PE와 SE를 포함한다. 또한, 우리는 GMNs의 강력함에 대한 이론적 근거를 제공한다. 실험 결과, GMNs는 훨씬 적은 계산 비용에도 불구하고 장거리, 소규모, 대규모, 그리고 이질적(heterophilic) 벤치마크 데이터셋에서 뛰어난 성능을 달성함을 보여준다.
Windows OS 환경에서 사용자 요청을 충족하기 위해 GPT-Vision의 기능을 활용한 혁신적인 UI 중심 에이전트인 UFO를 소개한다. UFO는 이중 에이전트 프레임워크를 사용하여 Windows 애플리케이션의 그래픽 사용자 인터페이스(GUI)와 제어 정보를 세밀하게 관찰하고 분석한다. 이를 통해 UFO는 단일 애플리케이션 내에서뿐만 아니라 여러 애플리케이션에 걸쳐 사용자 요청을 원활하게 탐색하고 실행할 수 있다. 이 프레임워크는 제어 상호작용 모듈을 포함하여 인간의 개입 없이도 작업을 기반으로 한 동작을 가능하게 하고 완전 자동화된 실행을 지원한다. 결과적으로, UFO는 복잡하고 시간이 많이 소요되는 프로세스를 자연어 명령만으로 간단히 수행할 수 있는 작업으로 변환한다. 우리는 UFO를 9개의 인기 있는 Windows 애플리케이션에서 사용자의 일상적인 사용을 반영한 다양한 시나리오로 테스트했다. 정량적 지표와 실제 사례 연구에서 도출된 결과는 UFO가 사용자 요청을 충족하는 데 있어 탁월한 효과를 보임을 입증한다. 우리가 아는 한, UFO는 Windows OS 환경 내에서 작업 완료를 위해 특별히 설계된 최초의 UI 에이전트이다. UFO의 오픈소스 코드는 https://github.com/microsoft/UFO에서 확인할 수 있다.
대부분의 텍스트-3D 생성기는 수십억 장의 이미지로 훈련된 기성 텍스트-이미지 모델을 기반으로 구축됩니다. 이들은 Score Distillation Sampling(SDS)의 변형을 사용하는데, 이는 속도가 느리고 다소 불안정하며 아티팩트가 발생하기 쉽습니다. 이를 완화하기 위해 2D 생성기를 다중 뷰 인식으로 미세 조정하여 증류를 돕거나 재구성 네트워크와 결합하여 직접 3D 객체를 출력할 수 있습니다. 본 논문에서는 텍스트-3D 모델의 설계 공간을 더욱 탐구합니다. 이미지 생성기 대신 비디오 생성기를 고려함으로써 다중 뷰 생성을 크게 개선했습니다. 가우시안 스플래팅을 사용하여 강력한 이미지 기반 손실을 최적화할 수 있는 3D 재구성 알고리즘과 결합하여 생성된 뷰에서 직접 고품질의 3D 출력을 생성합니다. 우리의 새로운 방법인 IM-3D는 2D 생성기 네트워크의 평가 횟수를 10-100배 줄여 훨씬 더 효율적인 파이프라인, 더 나은 품질, 더 적은 기하학적 불일치, 그리고 더 높은 사용 가능한 3D 자산 수율을 달성합니다.
대형 언어 모델(LLMs)이 급속도로 발전함에 따라, 과학 분야에서의 그 영향력이 점점 더 두드러지고 있다. LLMs의 과제 일반화 및 자유 형식 대화에서의 새로운 능력은 화학 및 생물학과 같은 분야를 크게 발전시킬 수 있다. 그러나 생물체의 기본 구성 요소를 이루는 단일 세포 생물학 분야는 여전히 여러 도전 과제에 직면해 있다. 높은 지식 장벽과 현재 방법론의 확장성 한계로 인해 LLMs가 단일 세포 데이터를 완전히 활용하는 데 제약이 있으며, 이는 직접적인 접근성과 빠른 반복을 방해한다. 이를 위해 우리는 자연어를 통해 단일 세포 분석을 용이하게 하는 패러다임 전환을 의미하는 ChatCell을 소개한다. 어휘 적응과 통합 시퀀스 생성을 활용하여, ChatCell은 단일 세포 생물학에 대한 깊은 전문 지식과 다양한 분석 과제를 수용할 수 있는 능력을 획득했다. 광범위한 실험을 통해 ChatCell의 견고한 성능과 단일 세포 통찰력을 심화할 수 있는 잠재력이 입증되었으며, 이 중요한 분야에서 더 접근 가능하고 직관적인 탐구를 위한 길을 열었다. 우리 프로젝트 홈페이지는 https://zjunlp.github.io/project/ChatCell에서 확인할 수 있다.
현재 이미지 생성을 위한 확산 모델(예: 텍스트 또는 ControlNet을 통한)의 제어 방식은 조명 방향이나 비강체 형태 변화와 같은 추상적이고 연속적인 속성을 인식하는 데 한계가 있습니다. 본 논문에서는 텍스트-이미지 모델 사용자가 이미지의 여러 속성을 세밀하게 제어할 수 있도록 하는 접근 방식을 제시합니다. 이를 위해 연속적으로 변환 가능한 특수 입력 토큰 세트를 설계하였으며, 이를 '연속 3D 단어(Continuous 3D Words)'라고 명명합니다. 이러한 속성은 예를 들어 슬라이더로 표현될 수 있으며, 텍스트 프롬프트와 함께 적용되어 이미지 생성에 대한 세밀한 제어를 가능하게 합니다. 단일 메시와 렌더링 엔진만 주어지더라도, 우리의 접근 방식이 시간대별 조명, 새의 날개 방향, 돌리줌 효과, 객체 자세 등 여러 3D 인식 속성에 대한 연속적인 사용자 제어를 제공할 수 있음을 보여줍니다. 우리의 방법은 생성 과정에 추가적인 오버헤드를 발생시키지 않으면서도 여러 연속 3D 단어와 텍스트 설명을 동시에 활용하여 이미지 생성에 조건을 부여할 수 있습니다. 프로젝트 페이지: https://ttchengab.github.io/continuous_3d_words
기존 대규모 언어 모델(LLM)의 자기회귀적 특성은 토큰이 순차적으로 생성되기 때문에 추론 속도를 본질적으로 제한한다. 추측적 및 병렬 디코딩 기법이 이를 완화하려 시도하지만, 이들 기법은 정확도가 낮은 소형 모델에 의존하거나 기본 LLM의 표현을 완전히 활용하지 못하는 한계에 직면한다. 이러한 문제를 해결하기 위해 우리는 새로운 아키텍처인 탠덤 트랜스포머(Tandem transformers)를 소개한다. 이 아키텍처는 (1) 소형 자기회귀 모델과 (2) 블록 모드(여러 토큰을 동시에 처리)로 작동하는 대형 모델을 독창적으로 결합한다. 소형 모델의 예측 정확도는 대형 모델의 더 풍부한 표현에 주목함으로써 크게 향상된다. PaLM2 사전 학습 데이터셋에서, PaLM2-Bison과 PaLM2-Gecko로 구성된 탠덤 모델은 독립적인 PaLM2-Gecko 대비 다음 토큰 예측 정확도에서 3.3% 향상을 보였으며, 비슷한 다운스트림 성능을 가진 PaLM2-Otter 모델 대비 1.16배의 속도 향상을 제공한다. 또한, 우리는 탠덤 모델을 추측적 디코딩(SPEED) 프레임워크 내에 통합하여 대형 모델이 소형 모델의 토큰을 검증하도록 한다. 이를 통해 PaLM2-Bison과 PaLM2-Gecko로 구성된 탠덤 모델은 SPEED에서 일반 PaLM2-Gecko를 사용하는 경우 대비 약 1.14배 빠른 속도 향상을 달성하면서도 동일한 다운스트림 작업 정확도를 유지한다.
손동작 인식은 인간-컴퓨터 상호작용의 보편적인 방식으로 자리 잡아가고 있으며, 특히 일상 기기들에 카메라가 광범위하게 보급되면서 더욱 그 중요성이 부각되고 있다. 이 분야에서 지속적인 진전이 이루어지고 있음에도 불구하고, 동작 커스터마이제이션은 종종 충분히 탐구되지 않고 있다. 커스터마이제이션은 사용자가 더 자연스럽고 기억하기 쉬우며 접근성이 높은 동작을 정의하고 시연할 수 있게 해주기 때문에 매우 중요하다. 그러나 커스터마이제이션은 사용자가 제공한 데이터를 효율적으로 활용해야 한다. 본 연구에서는 단안 카메라를 사용하여 한 번의 시연만으로도 사용자가 맞춤형 동작을 쉽게 설계할 수 있는 방법을 소개한다. 이를 위해 트랜스포머와 메타러닝 기법을 활용하여 소수 샷 학습의 어려움을 해결하였다. 기존 연구와 달리, 본 방법은 한 손, 두 손, 정적, 동적 동작을 포함한 다양한 조합과 시점을 지원한다. 21명의 참가자로부터 수집된 20가지 동작을 대상으로 사용자 연구를 통해 커스터마이제이션 방법을 평가하였으며, 한 번의 시연만으로 최대 97%의 평균 인식 정확도를 달성하였다. 본 연구는 비전 기반 동작 커스터마이제이션을 위한 실현 가능한 방향을 제시하며, 이 분야의 미래 발전을 위한 기반을 마련하였다.
뉴럴 레이디언스 필드(NeRF)는 장면의 3D 기하학적 구조와 외관 간의 특정 관계를 인코딩합니다. 본 연구에서는 소스 NeRF의 외관을 의미론적으로 의미 있는 방식으로 타겟 3D 기하학적 구조에 전이할 수 있는지에 대한 질문을 제기합니다. 이를 통해 결과적으로 생성된 새로운 NeRF는 타겟 기하학적 구조를 유지하면서 소스 NeRF와 유사한 외관을 갖도록 합니다. 이를 위해, 우리는 기존의 2D 이미지 유사성을 NeRF로 일반화합니다. 대규모 사전 학습된 2D 이미지 모델에서 추출한 의미론적 특징에 기반한 의미론적 유사성을 통해 대응 관계 전이를 활용하여 다중 뷰 일관성 있는 외관 전이를 달성합니다. 본 방법론은 3D 기하학적 구조와 외관의 조합 가능한 공간을 탐색할 수 있게 합니다. 우리의 방법이 전통적인 스타일화 기반 방법들을 능가하며, 대다수의 사용자가 여러 일반적인 베이스라인보다 본 방법을 선호한다는 것을 보여줍니다.