번역이 포함된 일일 선별된 AI 연구 논문
오픈소스 대규모 언어 모델(LLM)의 급속한 발전은 정말로 놀라운 성과입니다. 그러나 기존 문헌에서 설명된 스케일링 법칙은 다양한 결론을 제시하며, 이는 LLM의 스케일링에 대해 불확실성을 드리우고 있습니다. 우리는 스케일링 법칙에 대한 연구를 깊이 파고들어, 7B와 67B라는 두 가지 일반적으로 사용되는 오픈소스 구성에서 대규모 모델의 스케일링을 용이하게 하는 독창적인 발견을 제시합니다. 이러한 스케일링 법칙을 바탕으로, 우리는 장기적인 관점에서 오픈소스 언어 모델을 발전시키기 위한 프로젝트인 DeepSeek LLM을 소개합니다. 사전 학습 단계를 지원하기 위해, 현재 2조 토큰으로 구성되고 지속적으로 확장 중인 데이터셋을 개발했습니다. 또한 DeepSeek LLM 베이스 모델에 대해 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 수행하여 DeepSeek Chat 모델을 생성했습니다. 평가 결과는 DeepSeek LLM 67B가 다양한 벤치마크에서 LLaMA-2 70B를 능가하며, 특히 코드, 수학, 추론 분야에서 두각을 나타냄을 보여줍니다. 더 나아가, 개방형 평가에서 DeepSeek LLM 67B Chat이 GPT-3.5보다 우수한 성능을 보이는 것으로 나타났습니다.
시각적으로 풍부한 문서 이해(Visually Rich Document Understanding, VrDU) 분야의 발전은 복잡한 레이아웃을 가진 문서에 대한 정보 추출 및 질문 응답을 가능하게 하였습니다. 이와 관련하여 두 가지 주요 아키텍처가 등장했는데, 대형 언어 모델(LLM)에서 영감을 받은 트랜스포머 기반 모델과 그래프 신경망(Graph Neural Networks)이 그것입니다. 본 논문에서는 사전 훈련된 언어 모델과 그래프 의미론을 결합한 새로운 프레임워크인 DocGraphLM을 소개합니다. 이를 위해 1) 문서를 표현하기 위한 공동 인코더 아키텍처와 2) 문서 그래프를 재구성하기 위한 새로운 링크 예측 접근 방식을 제안합니다. DocGraphLM은 노드 간의 방향과 거리를 예측하며, 이웃 복원을 우선시하고 먼 노드 탐지를 낮추는 수렴적 공동 손실 함수를 사용합니다. 최신 기술(State-of-the-Art, SotA) 데이터셋 세 가지에 대한 실험 결과, 그래프 특징을 도입함으로써 정보 추출(IE) 및 질문 응답(QA) 작업에서 지속적인 성능 향상을 보였습니다. 또한, 링크 예측만을 통해 구성되었음에도 불구하고 그래프 특징을 도입함으로써 학습 과정에서의 수렴 속도가 가속화되었음을 보고합니다.
우리는 Vision Transformers(ViTs)에 내재된 미묘하지만 중요한 문제를 깊이 있게 탐구합니다: 이러한 모델들의 특징 맵은 격자 형태의 아티팩트를 보이며, 이는 ViTs의 다운스트림 작업 성능에 해로운 영향을 미칩니다. 우리의 연구는 이 근본적인 문제를 입력 단계의 위치 임베딩으로 추적합니다. 이를 해결하기 위해, 우리는 모든 ViTs에 보편적으로 적용 가능한 새로운 노이즈 모델을 제안합니다. 구체적으로, 이 노이즈 모델은 ViT 출력을 세 가지 구성 요소로 분해합니다: 노이즈 아티팩트가 없는 의미론적 항과 픽셀 위치에 따라 조건화된 두 개의 아티팩트 관련 항입니다. 이러한 분해는 이미지 단위로 신경 필드를 사용한 교차 뷰 특징 일관성을 강제함으로써 달성됩니다. 이 이미지 단위 최적화 과정은 원시 ViT 출력에서 아티팩트가 없는 특징을 추출하여 오프라인 애플리케이션을 위한 깨끗한 특징을 제공합니다. 우리의 솔루션 범위를 온라인 기능을 지원하도록 확장하기 위해, 우리는 처리되지 않은 ViT 출력에서 직접 아티팩트가 없는 특징을 예측하는 학습 가능한 디노이저를 도입했습니다. 이 디노이저는 이미지 단위 최적화 없이도 새로운 데이터에 대해 뛰어난 일반화 능력을 보여줍니다. 우리의 두 단계 접근법, Denoising Vision Transformers(DVT)는 기존에 사전 학습된 ViTs를 재학습할 필요가 없으며, 어떤 Transformer 기반 아키텍처에도 즉시 적용 가능합니다. 우리는 다양한 대표적인 ViTs(DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg)에 대해 우리의 방법을 평가했습니다. 광범위한 평가 결과, 우리의 DVT는 여러 데이터셋에서 의미론적 및 기하학적 작업에서 기존의 최첨단 일반 목적 모델을 일관적이고 상당히 개선함을 보여줍니다(예: +3.84 mIoU). 우리의 연구가 ViT 설계, 특히 위치 임베딩의 단순한 사용에 대한 재평가를 촉진하기를 바랍니다.
Stable Diffusion XL(SDXL)은 그 다재다능성과 최고 수준의 이미지 품질로 인해 최고의 오픈소스 텍스트-이미지(T2I) 모델로 자리 잡았습니다. SDXL 모델의 계산 요구 사항을 효율적으로 해결하는 것은 더 넓은 범위의 접근성과 적용 가능성을 위해 중요합니다. 본 연구에서는 레이어 수준 손실에 초점을 맞춰 모델 크기를 줄이면서 생성 품질을 유지하는 점진적 제거를 통해 각각 1.3B 및 0.74B 파라미터의 U-Net을 갖춘 두 가지 축소 버전인 Segmind Stable Diffusion(SSD-1B)과 Segmind-Vega를 소개합니다. 우리는 이러한 모델의 가중치를 https://hf.co/Segmind에서 공개합니다. 우리의 방법론은 SDXL의 U-Net 구조에서 잔여 네트워크와 트랜스포머 블록을 제거하여 파라미터와 지연 시간을 크게 줄이는 것을 포함합니다. 우리의 컴팩트 모델은 전이된 지식을 활용하여 원본 SDXL을 효과적으로 모방하며, 더 큰 수십억 파라미터의 SDXL과 경쟁력 있는 결과를 달성합니다. 우리의 연구는 지식 증류와 레이어 수준 손실을 결합하여 모델 크기를 줄이면서 SDXL의 고품질 생성 능력을 유지하는 데 있어 그 효과를 강조하며, 이는 자원이 제한된 환경에서 더 접근 가능한 배포를 가능하게 합니다.
CLIP과 Segment Anything Model(SAM)은 주목할 만한 비전 기반 모델(VFMs)입니다. SAM은 다양한 도메인에서의 세그멘테이션 작업에서 탁월한 성능을 보이며, CLIP은 제로샷 인식 능력으로 유명합니다. 본 논문은 이 두 모델을 통합된 프레임워크로 통합하는 방법에 대한 심층적인 탐구를 제시합니다. 구체적으로, 우리는 SAM에서 영감을 받은 Open-Vocabulary SAM을 소개합니다. 이 모델은 두 가지 독특한 지식 전달 모듈인 SAM2CLIP과 CLIP2SAM을 활용하여 동시에 인터랙티브 세그멘테이션과 인식을 수행하도록 설계되었습니다. 전자는 SAM의 지식을 증류와 학습 가능한 트랜스포머 어댑터를 통해 CLIP에 적응시키고, 후자는 CLIP의 지식을 SAM으로 전달하여 인식 능력을 향상시킵니다. 다양한 데이터셋과 검출기에서의 광범위한 실험을 통해 Open-Vocabulary SAM이 세그멘테이션과 인식 작업 모두에서 효과적이며, 단순히 SAM과 CLIP을 결합한 기본 방법을 크게 능가함을 보여줍니다. 또한, 이미지 분류 데이터 학습을 통해 우리의 방법은 약 22,000개의 클래스를 세그멘테이션하고 인식할 수 있습니다.
최근 몇 년 동안 음성 생성 기술은 눈부신 발전을 이루며, 이제는 실제 인간의 목소리와 거의 구분할 수 없는 원샷(one-shot) 생성 능력을 달성했습니다. 이러한 음성 생성 기술의 발전을 대규모 언어 모델과 통합한다면 다양한 응용 분야에 혁신을 가져올 수 있습니다. 그러나 보조 대화 시스템과 같은 특정 응용 분야에서는 실시간으로 효율적으로 작동하면서도 자연스럽고 대화체의 음성 생성 도구가 필요합니다. 현재 최첨단 모델인 VALL-E와 SoundStorm는 계층적 신경 오디오 코덱을 기반으로 하며, 효과적으로 작동하기 위해 대규모 신경망 구성 요소와 방대한 양의 학습 데이터를 필요로 합니다. 반면, MQTTS는 더 작은 규모의 실제 대화 음성 데이터를 활용하면서도 더 컴팩트한 대화형 TTS(Text-to-Speech) 모델을 구축하는 것을 목표로 합니다. 그러나 MQTTS의 자기회귀(autoregressive) 특성은 높은 추론 지연을 초래하여 실시간 사용을 제한합니다. 이 연구에서는 최첨단 TTS 모델의 강점을 활용하면서 현재의 한계를 완화하기 위해 Pheme 모델 시리즈를 소개합니다. Pheme 모델 시리즈는 1) 컴팩트하면서도 고성능 모델을 제공하고, 2) 병렬 음성 생성을 가능하게 하며, 3) 자연스러운 대화체 음성을 생성하고, 4) 더 작은 규모의 대화 데이터를 효율적으로 학습할 수 있어 데이터 요구량을 10배 이상 줄이면서도 자기회귀 TTS 모델의 품질을 유지합니다. 또한, 사전 학습된 Pheme 체크포인트 위에 단일 화자 설정에서 훨씬 더 큰 교사 모델이 생성한 합성 음성만을 사용하여 간단한 교사-학생 증류(teacher-student distillation)를 통해 음성 품질을 크게 개선할 수 있음을 보여줍니다. 오디오 샘플과 사전 학습된 모델은 온라인에서 확인할 수 있습니다.