번역이 포함된 일일 선별된 AI 연구 논문
최근 딥러닝 기술을 활용한 음악 오디오의 종단간(end-to-end) 생성 연구가 폭발적으로 증가하고 있습니다. 그러나 대부분의 모델은 추상적인 조건 정보에 반응하여 완전히 믹싱된 음악을 생성하는 데 집중하고 있습니다. 본 연구에서는 음악적 맥락을 듣고 반응할 수 있는 음악 생성 모델을 제작하는 새로운 패러다임을 제시합니다. 비자기회귀(non-autoregressive) 트랜스포머 기반 모델 아키텍처를 사용하여 이러한 모델을 구축하는 방법을 설명하고, 여러 가지 새로운 아키텍처 및 샘플링 개선 사항을 제시합니다. 설명된 아키텍처를 오픈소스 데이터셋과 독점 데이터셋으로 학습시킵니다. 생성된 모델은 표준 품질 지표와 음악 정보 검색 기술을 기반으로 한 새로운 접근법을 사용하여 평가합니다. 결과 모델은 최첨단 텍스트 조건 모델의 오디오 품질에 도달할 뿐만 아니라, 주어진 맥락과 강력한 음악적 일관성을 보여줍니다.
소규모 모델은 다양한 계산상의 이점을 제공하지만, 문제 해결 능력에 있어서 모델 크기가 어느 정도까지 중요한지에 대한 의문은 여전히 열려 있습니다. 특히 초등학교 수학 문제 해결을 위해 GSM8K 벤치마크에서 80% 벽을 돌파하기 위해 필요한 최소 모델 크기는 현재까지 340억 파라미터입니다. 본 연구는 고품질 데이터셋이 소규모 언어 모델이 수학적 추론 능력을 습득하는 데 있어 핵심이 될 수 있는지를 탐구합니다. 우리는 GPT-3.5로 완전히 생성된 1,230만 개의 초등학교 수학 문제와 Python 솔루션으로 구성된 합성 데이터셋인 TinyGSM을 소개합니다. TinyGSM으로 미세 조정한 후, 13억 파라미터 생성 모델과 13억 파라미터 검증 모델로 구성된 모델이 81.5%의 정확도를 달성하여 기존의 훨씬 더 큰 모델들을 능가하는 것을 확인했습니다. 이는 또한 우리 모델의 학습 데이터를 생성한 GPT-3.5 '교사' 모델의 성능(77.4%)과도 비슷한 수준입니다. 우리의 접근 방식은 간단하며 두 가지 핵심 요소로 구성됩니다: 1) 고품질 데이터셋 TinyGSM, 2) 여러 후보 생성물 중에서 최종 출력을 선택하는 검증기의 사용.
사람들은 그래픽 사용자 인터페이스(GUI), 예를 들어 컴퓨터나 스마트폰 화면을 통해 디지털 기기에 막대한 시간을 투자하고 있습니다. ChatGPT와 같은 대형 언어 모델(LLM)은 이메일 작성과 같은 작업을 지원할 수 있지만, GUI를 이해하고 상호작용하는 데 어려움을 겪어 자동화 수준을 높이는 데 한계가 있습니다. 본 논문에서는 GUI 이해 및 탐색에 특화된 180억 개의 파라미터를 가진 시각 언어 모델(VLM)인 CogAgent를 소개합니다. CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120*1120 해상도의 입력을 지원하며, 이를 통해 작은 페이지 요소와 텍스트를 인식할 수 있습니다. 일반적인 시각 언어 모델로서, CogAgent는 VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE를 포함한 다섯 개의 텍스트 중심 벤치마크와 네 개의 일반 VQA 벤치마크에서 최첨단 성능을 달성했습니다. 스크린샷만을 입력으로 사용하는 CogAgent는 PC와 Android GUI 탐색 작업인 Mind2Web과 AITW에서 추출된 HTML 텍스트를 소비하는 LLM 기반 방법을 능가하며, 최첨단 기술을 발전시켰습니다. 모델과 코드는 https://github.com/THUDM/CogVLM에서 확인할 수 있습니다.
일관성 모델(Consistency Model)은 효율적인 이미지 생성에서 강력한 능력을 입증했으며, 적은 샘플링 단계 내에서 합성을 가능하게 하여 확산 모델(Diffusion Model)의 높은 계산 비용을 완화했습니다. 그러나 더 도전적이고 자원 소모가 큰 비디오 생성 분야에서의 일관성 모델은 아직까지 덜 탐구된 상태입니다. 본 보고서에서는 이러한 격차를 메우기 위해 VideoLCM 프레임워크를 제안합니다. VideoLCM은 이미지 생성에서의 일관성 모델 개념을 활용하여 최소한의 단계로도 고품질의 비디오를 효율적으로 합성합니다. VideoLCM은 기존의 잠재 비디오 확산 모델(Latent Video Diffusion Model)을 기반으로 하며, 잠재 일관성 모델(Latent Consistency Model)을 학습하기 위해 일관성 증류(Consistency Distillation) 기법을 통합합니다. 실험 결과는 VideoLCM이 계산 효율성, 정확도 및 시간적 일관성 측면에서 효과적임을 보여줍니다. 특히, VideoLCM은 단 4개의 샘플링 단계로도 고화질과 부드러운 비디오 합성을 달성하며, 실시간 합성의 가능성을 입증합니다. 우리는 VideoLCM이 후속 연구를 위한 간단하면서도 효과적인 기준선으로 활용되기를 바랍니다. 소스 코드와 모델은 공개될 예정입니다.
대규모 시각-언어 데이터셋의 큐레이션 방법은 데이터셋의 크기와 품질 사이에서 균형을 맞춥니다. 그러나 현재 사용 가능한 가장 고품질의 큐레이션된 캡션조차도 이미지의 풍부한 시각적 세부 사항을 담기에는 너무 짧습니다. 우리는 밀집하고 높은 정렬도를 가진 이미지-텍스트 쌍의 가치를 보여주기 위해, 8012개의 자연 이미지로 구성된 Densely Captioned Images (DCI) 데이터셋을 수집했습니다. 이 데이터셋은 각각 평균 1000단어 이상의 마스크 정렬 설명이 포함된 인간 주석 데이터입니다. 이미지의 특정 부분과 정확하고 신뢰할 수 있는 캡션이 연결되어 있기 때문에, 우리는 각 캡션을 해당 서브크롭과 매칭하는 새로운 작업을 통해 시각-언어 모델(VLM)의 이미지 내용 이해를 평가할 수 있습니다. 현재 모델들은 종종 77개의 텍스트 토큰으로 제한되기 때문에, 각 캡션 길이가 제한된 요약 버전(sDCI)도 소개합니다. 우리는 표준 벤치마크에서 진전을 이루는 현대 기술들이 우리의 sDCI 기반 벤치마크에서도 상당한 개선으로 이어지지 않음을 보여줍니다. 마지막으로, 우리는 sDCI를 사용하여 CLIP을 미세 조정하고, 작은 훈련 세트에도 불구하고 베이스라인 대비 상당한 개선을 보여줍니다. 인간 주석이 포함된 첫 번째 밀집 이미지 캡셔닝 데이터셋을 공개함으로써, 우리는 차세대 VLM을 위한 새로운 벤치마크나 미세 조정 방법의 개발을 가능하게 하기를 바랍니다.
현재 3D 형태를 위한 확산(diffusion) 또는 흐름(flow) 기반 생성 모델은 크게 두 가지로 나뉩니다: 사전 훈련된 2D 이미지 확산 모델을 증류(distilling)하는 방법과 3D 형태에 직접 훈련하는 방법입니다. 3D 형태에 대해 확산 또는 흐름 모델을 훈련할 때 중요한 설계 선택은 형태 표현(shape representation)입니다. 효과적인 형태 표현은 세 가지 설계 원칙을 준수해야 합니다: 대규모 3D 데이터셋을 해당 표현 형태로 효율적으로 변환할 수 있어야 하며, 근사 능력과 매개변수 수 간의 적절한 균형을 제공해야 하고, 기존의 강력한 신경망 아키텍처와 호환되는 간단한 텐서 형태를 가져야 합니다. 볼륨 그리드(volumetric grids)와 포인트 클라우드(point clouds)와 같은 표준 3D 형태 표현은 이러한 원칙들을 동시에 충족하지 못하지만, 본 논문에서는 이를 모두 충족하는 새로운 표현을 제안합니다. 우리는 Mosaic-SDF(M-SDF)를 소개합니다: 이는 주어진 형태의 부호 거리 함수(Signed Distance Function, SDF)를 형태의 경계 근처에 분포된 일련의 로컬 그리드로 근사하는 간단한 3D 형태 표현입니다. M-SDF 표현은 각 형태에 대해 빠르게 계산할 수 있어 병렬화가 용이하며, 형태의 경계 주변 공간만을 다루기 때문에 매개변수 효율적이고, Transformer 기반 아키텍처와 호환되는 간단한 행렬 형태를 가집니다. 우리는 M-SDF 표현의 효용성을 3D Warehouse 데이터셋을 사용한 클래스 조건부 생성(class-conditioned generation)과 약 60만 개의 캡션-형태 쌍으로 구성된 데이터셋을 사용한 텍스트-3D 생성(text-to-3D generation)을 포함한 3D 생성 흐름 모델을 훈련함으로써 입증합니다.
대규모 언어 모델은 최근 몇 년 동안 큰 성공을 거두었으며, 이는 비전 분야에서의 변형 모델들도 마찬가지입니다. 기존의 비전-언어 모델들은 이미지를 자연어로 설명하거나 시각적 질문에 답변하거나 이미지에 대한 복잡한 추론을 수행할 수 있습니다. 그러나 단어 그라운딩이나 참조 지역화와 같은 지역화 작업을 대규모 언어 모델을 사용하여 어떻게 수행할 수 있는지는 아직 명확하지 않습니다. 본 연구에서는 위치(예: 점 집합 또는 박스)를 입력 또는 출력으로 처리할 수 있는 비전-언어 모델을 개발하는 것을 목표로 합니다. 위치를 입력으로 처리할 때, 모델은 지정된 객체 또는 영역에 대한 캡션을 생성하는 위치 조건 캡셔닝을 수행합니다. 위치를 출력으로 생성할 때, 모델은 언어 모델에 의해 생성된 각 출력 단어에 대한 픽셀 좌표를 회귀하여 조밀한 단어 그라운딩을 수행합니다. 우리의 모델은 인간의 주의력에서 얻은 픽셀-단어 정렬 캡셔닝을 포함한 Localized Narrative 데이터셋에서 사전 학습되었습니다. 우리는 이 모델이 참조 지역화, 위치 조건 캡셔닝, 조밀한 객체 캡셔닝을 포함한 다양한 위치 인식 비전-언어 작업에 적용될 수 있으며, RefCOCO 및 Visual Genome에서 최첨단 성능을 달성할 수 있음을 보여줍니다. 프로젝트 페이지: https://jerryxu.net/PixelLLM.
본 논문은 대규모 언어 모델(LLMs)이 방대한 텍스트 시퀀스를 처리하고 이해하는 능력을 향상시키기 위한 새로운 접근 방식을 소개한다. 이는 대량의 정보를 깊이 있게 이해하고 종합해야 하는 애플리케이션에서 중요한 측면이다. 트랜스포머(Transformer) 아키텍처를 기반으로 구축된 LLMs의 컨텍스트 윈도우 확장에 내재된 문제를 인식하며, 우리는 Zebra라 명명된 새로운 모델 아키텍처를 제안한다. 이 아키텍처는 그룹화된 로컬-글로벌 어텐션 레이어를 활용하여 트랜스포머의 전체 어텐션과 관련된 2차 시간 및 메모리 복잡성 문제를 효율적으로 관리한다. 얼룩말의 교대 줄무늬와 유사하게, 우리의 모델은 로컬과 글로벌 어텐션 레이어를 균형 있게 조정하여 계산 요구 사항과 메모리 소비를 크게 줄인다. Zebra의 성능을 평가하기 위해 처음부터의 사전 학습, 긴 컨텍스트 적응 훈련의 연속, 그리고 긴 명령어 튜닝을 포함한 포괄적인 실험이 수행되었다. 실험 결과, Zebra는 짧은 및 긴 시퀀스 벤치마크에서 비슷하거나 우수한 성능을 달성함과 동시에 훈련 및 추론 효율성을 향상시켰다.
대규모 텍스트-이미지 생성 모델을 기반으로, 텍스트-3D 아바타 생성은 유망한 발전을 이루어 왔습니다. 그러나 대부분의 방법은 부정확한 기하학적 구조와 낮은 품질의 외관으로 인해 사실적인 결과를 생성하지 못하는 한계가 있습니다. 더 실용적인 아바타 생성을 위해, 우리는 SEEAvatar를 제안합니다. 이는 텍스트로부터 사실적인 3D 아바타를 생성하는 방법으로, 기하학적 구조와 외관을 분리하여 SElf-Evolving 제약을 적용합니다. 기하학적 구조의 경우, 템플릿 아바타를 통해 최적화된 아바타가 적절한 전역적 형태를 유지하도록 제약합니다. 템플릿 아바타는 인간 사전 지식으로 초기화되며, 주기적으로 최적화된 아바타에 의해 업데이트되어 더 유연한 형태 생성을 가능하게 합니다. 또한, 얼굴과 손과 같은 지역적 부분에서는 정적 인간 사전 지식으로 기하학적 구조를 제약하여 섬세한 구조를 유지합니다. 외관 생성의 경우, 프롬프트 엔지니어링으로 강화된 확산 모델을 사용하여 물리 기반 렌더링 파이프라인을 안내하여 사실적인 텍스처를 생성합니다. 알베도 텍스처에 밝기 제약을 적용하여 잘못된 조명 효과를 억제합니다. 실험 결과, 우리의 방법은 전역적 및 지역적 기하학적 구조와 외관 품질에서 이전 방법들을 큰 차이로 능가함을 보여줍니다. 우리의 방법은 고품질의 메쉬와 텍스처를 생성할 수 있으므로, 이러한 자산은 어떤 조명 조건에서도 사실적인 렌더링을 위해 클래식 그래픽스 파이프라인에 직접 적용될 수 있습니다. 프로젝트 페이지: https://seeavatar3d.github.io.
풍부하고 개방된 환경에서 다양한 목표를 달성할 수 있는 일반화된 에이전트를 구축하는 것은 강화 학습의 연구 최전선 중 하나입니다. 강화 학습을 통해 일반화된 에이전트를 구축하는 데 있어 주요 제한 요인은 다양한 목표를 달성하기 위해 다수의 보상 함수가 필요하다는 점이었습니다. 본 연구는 기성 비전-언어 모델(VLMs)을 강화 학습 에이전트의 보상 원천으로 사용하는 것의 가능성을 탐구합니다. 우리는 다양한 언어 목표의 시각적 달성을 위한 보상을 CLIP 모델 계열에서 도출하고, 이를 사용하여 다양한 언어 목표를 달성할 수 있는 강화 학습 에이전트를 훈련시키는 방법을 보여줍니다. 이 접근 방식을 두 개의 독특한 시각적 도메인에서 시연하며, 더 큰 VLM이 시각적 목표 달성을 위한 더 정확한 보상을 제공하고, 이에 따라 더 능력 있는 강화 학습 에이전트를 생성한다는 확장 추세를 제시합니다.
최근 소개된 ControlNet은 인간의 2D 포즈나 에지 특징과 같은 기하학적 입력을 통해 텍스트 기반 이미지 생성 과정을 조종할 수 있는 능력을 갖추고 있다. ControlNet은 생성된 이미지 내 인스턴스들의 기하학적 형태를 제어할 수 있지만, 각 인스턴스의 시각적 외관을 지정하는 기능은 부족하다. 우리는 정확한 포즈 제어 능력을 유지하면서 각 인스턴스의 외관을 세밀하게 제어할 수 있는 FineControlNet을 제안한다. 구체적으로, 우리는 인간 포즈 이미지를 통한 기하학적 제어와 인스턴스 수준의 텍스트 프롬프트를 통한 외관 제어를 통해 FineControlNet을 개발하고 시연한다. 잠재 공간에서 인스턴스별 텍스트 프롬프트와 2D 포즈의 공간적 정렬은 FineControlNet의 세밀한 제어 능력을 가능하게 한다. 우리는 최신 포즈 조건부 텍스트-이미지 확산 모델과의 엄격한 비교를 통해 FineControlNet의 성능을 평가한다. FineControlNet은 기존 방법들에 비해 사용자가 제공한 인스턴스별 텍스트 프롬프트와 포즈를 따르는 이미지 생성에서 우수한 성능을 달성한다. 프로젝트 웹페이지: https://samsunglabs.github.io/FineControlNet-project-page
확산 모델(Diffusion Models, DMs)은 최근 텍스트-이미지 생성 분야의 발전과 함께 고품질이고 다양한 이미지를 생성할 수 있는 능력으로 주목받고 있다. 현재 연구의 초점은 DMs의 제어 가능성으로 이동하고 있으며, 이 영역에서 중요한 과제는 이미지의 특정 영역을 수정하면서 나머지 콘텐츠에 영향을 미치지 않는 지역적 편집(localized editing)이다. 본 논문은 사용자가 지정한 관심 영역(RoI)이나 추가 텍스트 입력 없이도 확산 모델에서 지역적 이미지 편집을 가능하게 하는 LIME을 소개한다. 우리의 방법은 사전 훈련된 방법의 특징과 간단한 클러스터링 기법을 활용하여 정밀한 의미론적 분할 맵을 획득한다. 이후, 교차 주의 맵(cross-attention maps)을 활용하여 이러한 세그먼트를 지역적 편집을 위해 정제한다. 마지막으로, 노이즈 제거 단계에서 RoI 내 관련 없는 교차 주의 점수를 제한하는 새로운 교차 주의 정규화 기법을 제안하여 지역적 편집을 보장한다. 우리의 접근 방식은 재훈련이나 미세 조정 없이도 다양한 편집 벤치마크에서 기존 방법의 성능을 일관되게 향상시킨다.
본 연구에서는 이미지와 비디오에서 객체를 탐지하고 식별하기 위한 객체 수준의 파운데이션 모델인 GLEE를 소개한다. GLEE는 통합된 프레임워크를 통해 다양한 객체 인식 작업을 위한 개방형 세계 시나리오에서 임의의 객체에 대한 탐지, 분할, 추적, 그라운딩 및 식별을 수행한다. GLEE는 일관된 학습 전략을 채택하여 다양한 감독 수준의 데이터 소스로부터 지식을 습득함으로써 일반적인 객체 표현을 형성하며, 새로운 데이터와 작업에 대한 제로샷 전이에서 탁월한 성능을 보인다. 구체적으로, GLEE는 이미지 인코더, 텍스트 인코더 및 시각적 프롬프터를 활용하여 다중 모달 입력을 처리함으로써 다양한 객체 중심의 하위 작업을 동시에 해결하면서도 최신 기술 수준의 성능을 유지한다. 다양한 벤치마크에서 수집된 500만 장 이상의 이미지를 통해 광범위하게 학습된 GLEE는 뛰어난 다용성과 개선된 일반화 성능을 보여주며, 작업별 적응 없이도 하위 작업을 효율적으로 처리한다. 자동으로 레이블이 지정된 대량의 데이터를 통합함으로써 제로샷 일반화 능력을 더욱 향상시킨다. 또한, GLEE는 대형 언어 모델에 통합될 수 있어 다중 모달 작업을 위한 보편적인 객체 수준 정보를 제공하는 파운데이션 모델로 활용될 수 있다. 우리는 본 방법의 다용성과 보편성이 AGI 시스템을 위한 효율적인 시각적 파운데이션 모델 개발에 있어 중요한 진전을 이룰 것으로 기대한다. 모델과 코드는 https://glee-vision.github.io에서 공개될 예정이다.
본 연구는 GPTQ와 같은 4비트 양자화 방법을 대규모 언어 모델(LLM)에 적용하여 검토하였으며, GPTQ의 과적합 문제와 Zero-Shot 작업에서의 제한된 성능 향상을 밝혀냈습니다. 기존 연구들이 주로 Zero-Shot 측정에 초점을 맞췄던 반면, 우리는 코드 생성 및 추상적 요약과 같은 더 많은 생성적 작업 범위로 확장하여 INT4 양자화가 상당히 저조한 성능을 보일 수 있음을 발견했습니다. 그러나 FP6와 같은 더 높은 정밀도 형식으로 전환하는 것은 현재의 AI 하드웨어에서 정교한 통합 및 시스템 가속 전략의 부족으로 인한 낮은 성능으로 인해 특히 어려운 과제로 간과되어 왔습니다. 우리의 결과는 FP6가 조잡한 양자화 방식에도 불구하고 다양한 알고리즘과 작업에서 견고하게 작동하며, 정확성과 다용도성에서 우수성을 보여줍니다. 특히, FP6 양자화를 통해 \codestar-15B 모델은 코드 생성에서 FP16 버전과 비슷한 성능을 보였으며, 406M과 같은 더 작은 모델에서는 요약 작업에서 기준선과 거의 일치하는 성능을 보였습니다. 이는 INT4로는 달성할 수 없는 결과입니다. 다양한 AI 하드웨어를 더 잘 지원하고 최고의 시스템 성능을 달성하기 위해, 우리는 FP6를 위한 새로운 4+2 설계를 제안하여 최신 INT4 세밀 양자화와 유사한 지연 시간을 달성했습니다. 우리의 설계를 통해 FP6는 현재 LLM에서 사용되는 4비트 양자화 방법에 대한 유망한 해결책이 될 수 있습니다.
보상 모델은 언어 모델 애플리케이션을 인간의 선호도에 맞추는 데 핵심적인 역할을 합니다. 그러나 이러한 설정은 언어 모델이 높은 추정 보상을 달성하기 위해 보상 모델의 오류를 악용하도록 유도하는데, 이는 종종 '보상 해킹(reward hacking)'이라고 불리는 현상입니다. 이를 완화하기 위한 자연스러운 접근 방식은 보상 모델 앙상블을 훈련시켜 모델 출력을 집계함으로써 더 견고한 보상 추정치를 얻는 것입니다. 우리는 보상 앙상블을 훈련 시(강화 학습을 통해)와 추론 시(재순위를 통해) 정렬에 적용하는 방법을 탐구합니다. 첫째, 보상 모델이 과소 지정(underspecified)되어 있음을 보입니다: 분포 내에서 유사한 성능을 보이는 보상 모델도 분포 이동이 발생할 때 정렬에 사용되면 매우 다른 보상을 산출할 수 있습니다. 둘째, 이러한 과소 지정은 과최적화(overoptimization)를 초래하는데, 하나의 보상 모델에 맞춰 정렬하더라도 동일한 데이터로 훈련된 다른 보상 모델로 측정한 보상이 개선되지 않습니다. 셋째, 보상 앙상블을 사용하면 과최적화가 완화되며, 사전 훈련 시드(pretraining seeds)에 따라 달라지는 앙상블은 미세 조정 시드(fine-tuning seeds)만 다른 앙상블보다 더 나은 일반화 성능을 보이며, 둘 다 개별 보상 모델을 능가합니다. 그러나 사전 훈련된 보상 앙상블도 보상 해킹을 완전히 제거하지는 못합니다: 우리는 앙상블 내 모든 보상 모델이 유사한 오류 패턴을 보이기 때문에 앙상블링으로 완화되지 않는 여러 질적 보상 해킹 현상을 보여줍니다.
최근 텍스트-3D 생성 기술의 발전으로 텍스트 설명을 상상력이 풍부하고 기하학적으로 잘 구성된 섬세한 텍스처의 3D 객체로 변환하는 능력이 크게 향상되었습니다. 그러나 이러한 발전에도 불구하고, 확산 또는 재구성 모델에서 RGB 데이터를 사용함으로써 발생하는 일반적인 한계가 있습니다. 이는 모델에 내재된 조명과 그림자 효과로 인해 현실감이 떨어지고, 정확한 재조명 기능이 요구되는 응용 프로그램에서의 활용성이 제한되는 결과를 초래합니다. 이러한 격차를 해소하기 위해, 우리는 통합 확산 사전 지식을 통합한 텍스트-3D 생성 프레임워크인 UniDream을 제안합니다. 우리의 접근 방식은 세 가지 주요 구성 요소로 이루어져 있습니다: (1) 알베도-노멀 정렬된 다중 뷰 확산 및 재구성 모델을 얻기 위한 이중 단계 학습 과정, (2) 학습된 재구성 및 확산 모델을 사용하여 기하학 및 알베도 텍스처를 점진적으로 생성하는 Score Distillation Sample (SDS) 기반의 생성 절차, 그리고 (3) Stable Diffusion 모델을 기반으로 고정된 알베도를 유지하면서 PBR 생성을 완료하기 위한 SDS의 혁신적인 적용. 광범위한 평가를 통해 UniDream이 기존 방법을 능가하는 더 명확한 알베도 텍스처, 더 매끄러운 표면, 향상된 현실감, 그리고 우수한 재조명 기능을 가진 3D 객체를 생성함을 입증했습니다.
본 연구에서는 시각 및 언어 데이터를 동시에 인지하고 생성할 수 있는 트랜스포머 모델인 Vision-Language Generative Pre-trained Transformer(VL-GPT)를 소개합니다. VL-GPT는 간단한 자기회귀 목표를 사용하여 이미지와 텍스트 양식에 대한 통합 사전 학습 접근 방식을 달성함으로써, 모델이 텍스트를 처리하는 것처럼 이미지와 텍스트를 원활하게 처리할 수 있도록 합니다. 이를 위해, 우리는 원시 이미지를 연속적인 임베딩 시퀀스로 변환하고 이를 재구성하기 위해 특별히 설계된 새로운 이미지 토크나이저-디토크나이저 프레임워크를 제안합니다. 기존의 텍스트 토크나이저 및 디토크나이저와 결합하여, 이 프레임워크는 이미지-텍스트 데이터를 멀티모달 시퀀스로 인코딩할 수 있게 하여 이를 트랜스포머 모델에 입력할 수 있도록 합니다. 결과적으로, VL-GPT는 통합된 자기회귀 목표(즉, 다음 토큰 예측)를 사용하여 멀티모달 코퍼스에 대한 대규모 사전 학습을 수행할 수 있습니다. 사전 학습 완료 후, VL-GPT는 이미지 캡셔닝, 시각 질의 응답, 텍스트-이미지 생성 등 다양한 시각 및 언어 이해 및 생성 작업에서 뛰어난 제로샷 및 퓨샷 성능을 보여줍니다. 또한, 사전 학습된 모델은 멀티모달 프롬프트가 제공될 때 컨텍스트 내 학습 능력을 유지합니다. 우리는 VL-GPT에 대한 인스트럭션 튜닝을 추가로 수행하여 멀티모달 지원에 대한 탁월한 잠재력을 강조합니다. 소스 코드와 모델 가중치는 공개될 예정입니다.
우리는 Shap-Editor라는 새로운 피드포워드(feed-forward) 3D 편집 프레임워크를 제안한다. 기존의 3D 객체 편집 연구는 주로 기성 2D 이미지 편집 네트워크를 활용하여 개별 객체를 편집하는 데 집중해왔다. 이는 2D 네트워크의 지식을 3D 자산으로 전달하는 디스틸레이션(distillation) 과정을 통해 이루어진다. 디스틸레이션은 만족스러운 편집 결과를 얻기 위해 자산당 최소 수십 분이 필요하며, 따라서 실용적이지 못하다. 이에 반해, 우리는 테스트 시간 최적화를 배제하고 피드포워드 네트워크를 통해 직접 3D 편집을 수행할 수 있는지 질문한다. 특히, 3D 객체를 적절한 잠재 공간(latent space)에 먼저 인코딩함으로써 편집이 크게 단순화될 수 있다는 가설을 세웠다. 우리는 이 가설을 Shap-E의 잠재 공간을 기반으로 검증한다. 우리는 편집당 약 1초만 필요한 피드포워드 편집 네트워크를 구축함으로써 이 공간에서 직접 3D 편집이 가능하고 효율적임을 입증한다. 우리의 실험은 Shap-Editor가 다양한 프롬프트에 대해 인-분포(in-distribution) 및 아웃-오브-분포(out-of-distribution) 3D 자산에 모두 잘 일반화되며, 각 편집 인스턴스에 대해 테스트 시간 최적화를 수행하는 방법들과 비교 가능한 성능을 보여줌을 확인한다.
우리는 70억, 130억, 700억, 1800억 파라미터 규모의 베이스 모델과 채팅 모델로 구성된 TigerBot 대형 언어 모델(LLM) 패밀리를 공개하고 소개합니다. 우리는 Llama-2와 BLOOM을 출발점으로 삼아 모델을 개발했으며, 데이터, 훈련 알고리즘, 인프라, 그리고 애플리케이션 도구 측면에서 한계를 더욱 확장했습니다. 우리의 모델은 Llama-2와 같은 최신 오픈소스 모델 대비 의미 있는 성능 향상을 보여주며, 특히 영어에서는 6%, 중국어에서는 20%의 성능 향상을 달성했습니다. TigerBot 모델 패밀리는 주요 학계 및 산업 벤치마크와 리더보드에서도 선도적인 성능을 보여줍니다. 우리는 TigerBot이 LLM 오픈소스 커뮤니티의 급속한 발전의 한 단면을 보여준다고 믿습니다. 따라서, 우리는 모델을 공개적으로 배포하고 그 배후의 접근 방식을 공유함으로써 커뮤니티에 기여하고자 합니다. 특히, 민주화된 방식으로 최신 LLM을 구축하고 실생활에서 유용한 LLM을 만드는 데 중점을 두었습니다.