번역이 포함된 일일 선별된 AI 연구 논문
양식, 청구서, 영수증, 보고서, 계약서 및 기타 유사한 기록과 같은 기업 문서는 종종 텍스트와 공간 양식의 교차점에서 풍부한 의미를 담고 있습니다. 이러한 문서의 복잡한 레이아웃이 제공하는 시각적 단서는 문서를 효과적으로 이해하는 데 중요한 역할을 합니다. 본 논문에서는 텍스트 의미와 공간 레이아웃을 모두 고려하여 시각적 문서에 대한 추론을 수행하기 위해 기존의 대형 언어 모델(LLM)에 경량 확장을 적용한 DocLLM을 제안합니다. 우리의 모델은 고가의 이미지 인코더를 사용하지 않고 바운딩 박스 정보에만 초점을 맞춰 공간 레이아웃 구조를 통합함으로써 기존의 다중모달 LLM과 차별화됩니다. 구체적으로, 텍스트와 공간 양식 간의 상호 정렬은 고전적인 트랜스포머의 어텐션 메커니즘을 분리된 행렬 집합으로 분해하여 포착합니다. 또한, 텍스트 세그먼트를 채우는 방법을 학습하는 사전 훈련 목표를 설계했습니다. 이 접근법은 시각적 문서에서 자주 접하는 불규칙한 레이아웃과 이질적인 콘텐츠를 해결할 수 있게 해줍니다. 사전 훈련된 모델은 네 가지 핵심 문서 지능 작업을 포함하는 대규모 지시 데이터셋을 사용하여 미세 조정됩니다. 우리는 제안한 솔루션이 모든 작업에서 16개 데이터셋 중 14개에서 최신 기술(SoTA) LLM을 능가하며, 이전에 본 적 없는 5개 데이터셋 중 4개에서도 잘 일반화됨을 입증합니다.
본 논문에서는 합성 데이터만을 사용하고 1,000회 미만의 학습 단계로 고품질 텍스트 임베딩을 얻는 새로운 간단한 방법을 소개합니다. 기존 방법들이 종종 수십억 개의 약한 감독(weakly-supervised) 텍스트 쌍을 사용한 다단계 중간 사전 학습과 소량의 레이블된 데이터셋을 통한 미세 조정에 의존하는 반면, 우리의 방법은 복잡한 학습 파이프라인을 구축하거나 작업 다양성과 언어 범위에 제약을 받는 수동으로 수집된 데이터셋에 의존할 필요가 없습니다. 우리는 독점적인 대형 언어 모델(LLM)을 활용하여 거의 100개 언어에 걸쳐 수십만 개의 텍스트 임베딩 작업을 위한 다양한 합성 데이터를 생성합니다. 그런 다음, 오픈소스 디코더 전용(decoder-only) LLM을 합성 데이터에 대해 표준 대조 손실(contrastive loss)을 사용하여 미세 조정합니다. 실험 결과, 우리의 방법은 레이블된 데이터를 전혀 사용하지 않고도 경쟁력 있는 텍스트 임베딩 벤치마크에서 강력한 성능을 달성함을 보여줍니다. 더 나아가, 합성 데이터와 레이블된 데이터를 혼합하여 미세 조정할 경우, 우리의 모델은 BEIR 및 MTEB 벤치마크에서 새로운 최첨단(state-of-the-art) 결과를 달성합니다.
인간이 주석을 단 데이터의 힘을 활용한 지도 미세 조정(Supervised Fine-Tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)의 발전에 있어 핵심적인 역할을 합니다. 본 논문에서는 추가적인 인간 주석 데이터를 획득할 필요 없이 약한 LLM을 강력한 LLM으로 성장시킬 가능성을 탐구합니다. 우리는 지도 미세 조정된 모델에서 시작하는 새로운 미세 조정 방법인 Self-Play fIne-tuNing(SPIN)을 제안합니다. SPIN의 핵심은 LLM이 자신의 인스턴스와 대결하며 능력을 개선하는 자기 대결(self-play) 메커니즘입니다. 구체적으로, LLM은 이전 반복에서 생성한 데이터를 활용하여 훈련 데이터를 생성하고, 이러한 자기 생성 응답과 인간 주석 데이터에서 얻은 응답을 구별함으로써 정책을 개선합니다. 우리의 방법은 초기 모델에서 강력한 모델로 LLM을 점진적으로 발전시켜 SFT를 위한 인간 주석 시연 데이터의 잠재력을 최대한 발휘합니다. 이론적으로, 우리는 이 방법의 훈련 목적 함수의 전역 최적점이 LLM 정책이 목표 데이터 분포와 일치할 때만 달성됨을 증명합니다. 실험적으로, 우리는 HuggingFace Open LLM Leaderboard, MT-Bench, Big-Bench의 데이터셋을 포함한 여러 벤치마크 데이터셋에서 이 방법을 평가합니다. 결과는 SPIN이 다양한 벤치마크에서 LLM의 성능을 크게 향상시킬 수 있으며, 추가 GPT-4 선호 데이터로 보강된 직접 선호 최적화(Direct Preference Optimization, DPO)를 통해 훈련된 모델을 능가할 수도 있음을 보여줍니다. 이는 전문 상대가 필요 없이 LLM에서 인간 수준의 성능을 달성할 수 있는 자기 대결의 가능성을 밝힙니다.
최근 ChatGPT와 같은 대형 언어 모델(LLM)의 상당한 발전이 이루어졌으며, 이는 다양한 복잡한 작업에서 놀라운 숙련도를 보여주고 있습니다. 그러나 LLaMA와 같은 많은 주류 LLM은 영어 중심 코퍼스로 사전 학습되어 있어 다른 비영어 언어에서의 성능이 제한적입니다. 본 논문에서는 언어 생성 및 지시 따르기 능력을 비영어 언어로 효과적으로 전이하는 방법에 초점을 맞춥니다. 이 문제를 해결하기 위해 LLaMA를 기반으로 1440 GPU 시간 이상의 광범위한 실증적 연구를 수행했습니다. 어휘 확장, 추가 사전 학습, 지시 튜닝과 같은 핵심 요소들이 전이에 미치는 영향을 분석했습니다. 모델의 지식 수준을 정확히 평가하기 위해 C-Eval, MMLU, AGI-Eval, GAOKAO-Bench와 같은 널리 사용되는 표준화된 테스트 벤치마크를 활용했습니다. 또한, 17개 다양한 범주의 지시 작업으로 구성된 벤치마크인 LLM-Eval을 기반으로 정확성, 유창성, 정보성, 논리적 일관성, 무해성 등의 측면에서 모델의 응답 품질을 종합적으로 평가했습니다. 평가 결과, 최신 전이 모델과 비슷한 성능을 사전 학습 데이터의 1% 미만으로도 달성할 수 있음을 보여주었으며, 이는 지식 정렬과 응답 품질 모두에서 해당됩니다. 또한, 13개의 저자원 언어에 대한 실험 결과도 유사한 경향을 보였습니다. 본 실험을 통해 도출된 결론이 비영어 LLM 개발에 커뮤니티가 도움을 받을 수 있기를 기대합니다.
대규모 언어 모델(LLM) 스케일링 법칙은 모델의 파라미터 수와 학습 데이터를 증가시켰을 때 모델 품질의 변화를 추정하는 경험적 공식입니다. 그러나 DeepMind의 Chinchilla 스케일링 법칙을 포함한 이러한 공식들은 추론 비용을 고려하지 않습니다. 우리는 Chinchilla 스케일링 법칙을 수정하여 주어진 품질과 추론 수요를 충족하는 모델을 학습 및 배포하기 위한 최적의 LLM 파라미터 수와 사전 학습 데이터 크기를 계산합니다. 우리는 컴퓨팅 예산과 실제 비용 측면에서 분석을 수행하며, 상당히 큰 추론 수요(~10억 요청)를 예상하는 LLM 연구자들은 Chinchilla 최적보다 더 작고 더 오래 학습된 모델을 훈련해야 한다는 것을 발견했습니다.
본 연구는 미세 조정 없이도 대규모 언어 모델(LLM)이 장문 맥락을 처리할 수 있는 내재적 능력을 이끌어냅니다. 학습 과정에서 제한된 길이의 훈련 시퀀스는 추론 시 장문 입력 시퀀스에 대한 LLM의 적용을 제한할 수 있습니다. 본 연구에서는 기존 LLM 자체가 장문 맥락을 처리할 수 있는 내재적 능력을 가지고 있다고 주장합니다. 이를 바탕으로, 우리는 LLM의 컨텍스트 윈도우를 스스로 확장하여 이러한 내재적 능력을 최대한 활용할 것을 제안합니다. LLM의 장문 맥락 처리 잠재력을 자극하기 위해 Self-Extend를 제안합니다. 기본 아이디어는 그룹 수준과 이웃 수준의 이중 수준 주의 정보를 구성하는 것입니다. 두 수준은 원본 모델의 자기 주의 메커니즘에 의해 계산되며, 이는 제안된 방법이 어떠한 학습도 필요로 하지 않음을 의미합니다. 단 4줄의 코드 수정만으로, 제안된 방법은 기존 LLM의 컨텍스트 윈도우를 미세 조정 없이도 손쉽게 확장할 수 있습니다. 포괄적인 실험을 수행한 결과, 제안된 방법이 기존 LLM의 컨텍스트 윈도우 길이를 효과적으로 확장할 수 있음을 보여줍니다.
대규모 언어 모델(LLM)의 전체 파라미터 미세 조정(FFT)의 높은 비용으로 인해 일련의 파라미터 효율적 미세 조정(PEFT) 방법들이 등장했습니다. 그러나 다양한 모델 규모에서 어떤 방법이 가장 좋은 비용-성능 균형을 제공하는지 여전히 명확하지 않습니다. 우리는 7가지 튜닝 방법과 16억 파라미터까지의 4가지 모델 크기를 사용하여 28개의 지시 튜닝된 OctoCoder 모델로 구성된 Astraios를 소개합니다. 코드 이해와 코드 생성 작업을 포함한 5가지 작업과 8개의 다양한 데이터셋에 걸친 조사를 통해, FFT가 일반적으로 모든 규모에서 최고의 다운스트림 성능을 제공하며, PEFT 방법들은 모델 규모에 따라 효능이 크게 다르다는 것을 발견했습니다. LoRA는 일반적으로 비용과 성능 사이에서 가장 유리한 균형을 제공합니다. 이러한 방법들이 모델의 견고성과 코드 보안에 미치는 영향을 추가로 조사한 결과, 더 큰 모델일수록 견고성이 감소하고 보안이 약화되는 경향이 있음을 발견했습니다. 마지막으로, 업데이트된 파라미터, 교차 엔트로피 손실, 작업 성능 간의 관계를 탐구했습니다. 우리는 작은 모델에서 관찰된 튜닝 효과가 더 큰 모델로도 잘 일반화되며, 지시 튜닝에서의 검증 손실이 전반적인 다운스트림 성능의 신뢰할 수 있는 지표가 될 수 있음을 발견했습니다.
최근 디퓨전 모델의 혁신과 돌파구는 주어진 프롬프트에 대해 고품질 비디오를 생성할 가능성을 크게 확장시켰습니다. 기존 연구의 대부분은 단일 배경에서 하나의 비디오 이벤트만 발생하는 단일 장면 시나리오를 다루고 있습니다. 그러나 다중 장면 비디오 생성으로 확장하는 것은 간단하지 않으며, 비디오 장면 간의 논리를 잘 관리하면서도 주요 콘텐츠의 시각적 일관성을 유지해야 합니다. 본 논문에서는 콘텐츠 일관성을 유지한 다중 장면 비디오 생성을 위한 새로운 프레임워크인 VideoDrafter를 제안합니다. 기술적으로, VideoDrafter는 대형 언어 모델(LLM)을 활용하여 입력 프롬프트를 종합적인 다중 장면 스크립트로 변환하며, 이는 LLM이 학습한 논리적 지식을 활용합니다. 각 장면의 스크립트는 이벤트를 설명하는 프롬프트, 전경/배경 개체, 그리고 카메라 이동을 포함합니다. VideoDrafter는 스크립트 전체에서 공통 개체를 식별하고 LLM에게 각 개체를 상세히 설명하도록 요청합니다. 그 결과로 생성된 개체 설명은 텍스트-이미지 모델에 입력되어 각 개체에 대한 참조 이미지를 생성합니다. 마지막으로, VideoDrafter는 참조 이미지, 이벤트의 설명 프롬프트, 그리고 카메라 이동을 고려한 디퓨전 프로세스를 통해 각 장면 비디오를 생성하여 다중 장면 비디오를 출력합니다. 디퓨전 모델은 참조 이미지를 조건 및 정렬로 통합하여 다중 장면 비디오의 콘텐츠 일관성을 강화합니다. 광범위한 실험을 통해 VideoDrafter가 시각적 품질, 콘텐츠 일관성, 그리고 사용자 선호도 측면에서 최신 비디오 생성 모델을 능가함을 입증했습니다.
대형 언어 모델(LLMs)은 인간의 의사소통을 매우 정교하게 이해하고 생성하는 탁월한 능력을 보여주고 있습니다. 그러나 이러한 모델의 주요 한계점은 방대한 파라미터화로 인해 학습 과정에서 발생하는 상당한 계산 자원 요구에 있습니다. 이러한 문제는 세상이 끊임없이 변화한다는 점에서 더욱 심화되는데, 이는 LLMs가 최신 정보를 반영하거나 새로운 지식을 통합하기 위해 빈번한 업데이트를 필요로 하여 지속적인 관련성을 유지해야 하기 때문입니다. 또한, 많은 응용 분야에서는 학습 후 모델의 결함이나 바람직하지 않은 행동을 해결하기 위해 지속적인 조정이 요구됩니다. 이에 따라 실시간 모델 수정을 위한 효율적이고 경량화된 방법에 대한 관심이 점차 증가하고 있습니다. 이를 위해 최근 몇 년간 LLMs의 특정 영역에서의 행동을 효율적으로 수정하면서도 다양한 입력에 대한 전반적인 성능을 유지하는 지식 편집 기술이 급속도로 발전해 왔습니다. 본 논문에서는 먼저 지식 편집 문제를 정의하고, 최첨단 접근 방식에 대한 포괄적인 리뷰를 제공합니다. 교육 및 인지 연구 이론에서 영감을 얻어, 우리는 지식 편집 방법을 외부 지식 활용, 모델 내 지식 통합, 내재적 지식 편집이라는 세 가지 그룹으로 분류하는 통일된 기준을 제안합니다. 더불어, 대표적인 지식 편집 접근법을 종합적으로 평가하기 위한 새로운 벤치마크인 KnowEdit를 소개합니다. 또한, LLMs 내에 내재된 지식 구조를 더 깊이 이해할 수 있도록 지식 위치에 대한 심층 분석을 제공합니다. 마지막으로, 지식 편집의 잠재적 응용 분야를 논의하며 그 광범위하고 중요한 함의를 제시합니다.
비전-언어 사전 학습의 진화 과정에서 짧은 텍스트 이해에서 확장된 텍스트 맥락을 포괄하는 것으로의 전환은 매우 중요합니다. Flamingo, Palme와 같은 최신의 자기회귀적 비전-언어 모델들은 대규모 언어 모델의 장문 맥락 처리 능력을 활용하여 소수 샷 텍스트 생성 작업에서 뛰어난 성과를 보였으나, 정렬 작업에서는 어려움을 겪고 있습니다. 이러한 격차를 해결하기 위해, 우리는 텍스트 생성 모델에 대조 손실(contrastive loss)을 도입하고, 언어 모델을 전용 단일 모드 텍스트 처리와 숙련된 다중 모드 데이터 처리 구성 요소로 전략적으로 분할한 COntrastive-Streamlined MultimOdal 프레임워크(\ModelName)를 제시합니다. \ModelName은 우리의 통합 프레임워크로, 단일 모드와 다중 모드 요소를 통합하여 텍스트 및 시각적 데이터를 포함하는 작업에서 모델 성능을 향상시키면서도 학습 가능한 매개변수를 크게 줄입니다. 그러나 이러한 모델들은 광범위한 장문 텍스트 데이터셋을 요구하지만, 고품질의 장문 비디오 텍스트 데이터셋의 가용성은 여전히 제한적입니다. 이러한 격차를 해소하기 위해, 이 연구는 포괄적인 캡션을 특징으로 하는 최초의 인터리브 비디오-텍스트 데이터셋인 \VideoDatasetName을 소개하며, 이는 중요한 진전을 이룬 것입니다. 그 영향력을 입증하기 위해, 우리는 \VideoDatasetName이 이미지-텍스트 작업에서 모델 성능을 어떻게 향상시키는지 보여줍니다. 학습 가능한 매개변수의 34%와 사용 가능한 데이터의 72%를 활용하여, 우리의 모델은 OpenFlamingo~openflamingo에 비해 상당한 우위를 보입니다. 예를 들어, 4-shot Flickr 캡션 작업에서 성능은 57.2%에서 65.\%로 크게 향상되었습니다. \ModelName과 \VideoDatasetName의 기여는 이미지-텍스트 및 비디오-텍스트 작업을 포함한 14개의 다양한 다운스트림 데이터셋에서의 주목할 만한 성능 향상으로 강조됩니다.
최근 텍스트-투-비디오(T2V) 생성 접근법에서, 합성된 비디오의 제어 가능성을 달성하는 것은 종종 어려운 과제입니다. 일반적으로 이 문제는 에지 맵, 깊이 맵, 또는 수정할 기존 비디오 형태의 저수준 프레임별 지침을 제공함으로써 해결됩니다. 그러나 이러한 지침을 얻는 과정은 노동 집약적일 수 있습니다. 본 논문은 신경망 훈련, 미세 조정, 추론 시간 최적화, 또는 기존 비디오 사용 없이도 다양한 방식으로 주제를 안내하기 위해 간단한 바운딩 박스를 사용하여 비디오 합성의 제어 가능성을 향상시키는 데 초점을 맞춥니다. 우리의 알고리즘인 TrailBlazer는 사전 훈련된 T2V 모델을 기반으로 구축되었으며 구현이 쉽습니다. 제안된 공간 및 시간적 주의 맵 편집을 통해 바운딩 박스가 주제를 안내합니다. 또한, 키프레임 개념을 도입하여 상세한 마스크 없이도 이동하는 바운딩 박스와 해당 프롬프트를 통해 주제의 궤적과 전체 외관을 안내할 수 있습니다. 이 방법은 기본 사전 훈련 모델에 비해 추가 계산이 거의 없어 효율적입니다. 바운딩 박스 지침의 단순함에도 불구하고, 결과적인 움직임은 놀랍도록 자연스럽고, 박스 크기가 증가함에 따라 가상 카메라를 향한 원근감과 움직임을 포함한 새로운 효과가 나타납니다.
대규모 언어 모델(LLM)은 자연어 처리 분야에서 상당한 발전을 이루었으며, 동시에 음성 및 시각과 같은 다른 모달리티로 언어 능력을 확장하고 있습니다. 그러나 기존 연구의 대부분은 청각 이해와 같은 지각 능력으로 LLM을 프롬프팅하는 데 초점을 맞추고 있으며, 음성 합성 능력을 LLM에 효과적으로 통합하는 방법은 여전히 불분명합니다. 본 논문에서는 사전 훈련된 LLM인 LLaMA/OPT와 텍스트-음성 합성 모델인 VALL-E를 결합하여 LLM에 음성 생성 능력을 부여하는 방법에 대한 포괄적인 실험적 탐구를 수행합니다. 우리는 LLM과 음성 합성 모델 간의 세 가지 통합 방법을 비교합니다. 이 방법들은 직접 미세 조정된 LLM, LLM과 VALL-E의 중첩된 레이어, 그리고 강력한 텍스트 인코더로 LLM을 사용하여 결합된 LLM과 VALL-E를 포함합니다. 실험 결과에 따르면, LoRA 방법을 사용하여 LLM을 직접 미세 조정하여 음성 합성 능력을 향상시키는 것은 잘 작동하지 않으며, 중첩된 LLM과 VALL-E는 생성된 음성의 품질을 화자 유사성과 단어 오류율(WER) 모두에서 개선할 수 있습니다. 이 세 가지 방법 중에서, LLM을 텍스트 인코더로 활용한 결합 방법이 가장 우수한 성능을 달성할 수 있으며, 이를 통해 원래의 음성 합성 모델을 능가하는 일관되게 더 나은 화자 유사성과 상당한(10.9%) WER 감소를 이룰 수 있습니다.
대규모 언어 모델 훈련은 다양한 분야에서 점점 더 중요해지고 있지만, 잦은 장애로 인해 상당한 시간과 경제적 비용이 발생하는 것이 주요 걸림돌입니다. 클라우드 기반 환경에서의 현재 장애 복구 방법은 개별 작업의 다운타임을 줄이는 데 초점을 맞추면서도 클러스터 전체의 비용 영향을 고려하지 못해 다양한 복잡한 시나리오에 적절히 대응하지 못하고 있습니다. 우리는 대규모 언어 모델 훈련을 위한 효율적인 자가 치유 기능을 갖춘 워크로드 관리자인 Unicron을 소개합니다. Unicron은 클러스터 내 여러 동시 작업에서 장애 관련 비용을 최소화함으로써 훈련 프로세스를 최적화합니다. 주요 기능으로는 추가 오버헤드 없이 실시간 오류를 식별하는 인밴드 오류 감지, 최적의 재구성을 위한 동적 비용 인식 계획 생성 메커니즘, 상태 변경 시 다운타임을 줄이는 효율적인 전환 전략 등이 포함됩니다. 128-GPU 분산 클러스터에 배포된 Unicron은 최신 방법 대비 최대 1.9배의 훈련 효율성 향상을 보여주며, 장애 복구 비용을 크게 줄이고 대규모 언어 모델 훈련의 신뢰성을 크게 향상시킵니다.
최근 텍스트-이미지(T2I) 모델의 급속한 발전과 함께, 그들의 만족스럽지 못한 생성 결과가 주요 과제로 대두되고 있다. 그러나 다양한 품질의 AI 생성 이미지(AIGI)를 균일하게 개선하는 것은 저품질 AIGI에 대한 최적화 능력을 제한할 뿐만 아니라 고품질 AIGI에 부정적인 최적화를 초래한다. 이러한 문제를 해결하기 위해, 품질 기반 개선기인 Q-Refine이 제안되었다. 인간 시각 시스템(HVS)의 선호도를 기반으로, Q-Refine은 이미지 품질 평가(IQA) 지표를 사용하여 처음으로 개선 과정을 안내하고, 세 가지 적응형 파이프라인을 통해 다양한 품질의 이미지를 수정한다. 실험 결과, 주류 T2I 모델에 대해 Q-Refine은 다양한 품질의 AIGI에 효과적인 최적화를 수행할 수 있음을 보여준다. 이는 충실도와 미적 품질 수준 모두에서 AIGI를 최적화할 수 있는 일반적인 개선기로, T2I 생성 모델의 응용 범위를 확장할 수 있다.
대형 언어 모델(LLM)은 일반적인 지식과 자연어 처리(NLP) 분야의 다양한 과제를 해결하는 능력으로 인해 큰 성공을 거두었습니다. 이러한 인상적인 능력 덕분에 LLM은 인공지능(AI)을 활용하여 특정 분야의 과학적 발견을 촉진하는 잠재적인 학제 간 응용 가능성을 제시하고 있습니다(AI for Science, AI4S). 한편, 지구과학 연구 및 실무에서 NLP 기술을 활용하는 범위는 넓고 복잡하며, 지식 추출과 문서 분류부터 질의응답 및 지식 발견에 이르기까지 다양한 기여를 하고 있습니다. 본 연구에서는 비교적 단순한 접근 방식을 통해 LLM을 과학 분야에 활용하기 위한 첫걸음을 내딛습니다. 우리는 방대한 지구과학 텍스트를 추가로 사전 학습하고, 이를 기반으로 수집한 맞춤형 지시 튜닝 데이터셋으로 지도 미세 조정(SFT)을 수행하여 LLM을 지구과학에 특화시키려고 합니다. 이러한 노력의 결과로 300억 개의 매개변수로 구성된 GeoGalactica 모델이 탄생했습니다. 우리가 아는 한, 이는 지구과학 분야에서 가장 큰 언어 모델입니다. 보다 구체적으로, GeoGalactica는 Galactica를 추가 사전 학습한 모델입니다. 우리는 대형 과학 프로젝트인 Deep-time Digital Earth(DDE)의 광범위한 데이터 소스에서 선별된 650억 개의 토큰으로 구성된 지구과학 관련 텍스트 코퍼스를 사용하여 GeoGalactica를 학습시켰으며, 이는 지구과학 특화 텍스트 코퍼스로는 가장 큰 규모를 유지하고 있습니다. 그런 다음 전문 지구과학 지식을 요구하는 질문으로 구성된 100만 쌍의 지시 튜닝 데이터로 모델을 미세 조정했습니다. 본 기술 보고서에서는 데이터 수집, 데이터 정제, 기본 모델 선택, 사전 학습, SFT 및 평가를 포함한 GeoGalactica의 모든 측면을 상세히 설명합니다. 우리는 데이터 큐레이션 도구와 사전 학습 초기 3/4 동안의 GeoGalactica 체크포인트를 오픈소스로 공개합니다.
스코어 증류(Score Distillation)는 텍스트에서 3D 자산 합성으로 이어지는 가장 널리 사용되는 접근 방식 중 하나로 부상했습니다. 기본적으로, 스코어 증류는 다양한 뷰에서 평균화된 스코어를 리프팅하고 역전파함으로써 3D 파라미터를 업데이트합니다. 본 논문에서는 스코어 증류에서의 그래디언트 추정이 본질적으로 높은 분산을 내포하고 있음을 밝힙니다. 분산 감소의 관점에서, SDS와 VSD의 효과는 증류된 스코어의 몬테카를로 추정기에 다양한 제어 변수를 적용한 것으로 해석될 수 있습니다. 이러한 재고찰에 동기를 받아, 우리는 Stein의 정리를 기반으로 스코어 증류의 분산을 줄이기 위한 보다 일반적인 해결책을 제안합니다. 이를 Stein Score Distillation(SSD)이라 명명합니다. SSD는 Stein 정리에 의해 구성된 제어 변수를 통합하여 임의의 기준 함수를 허용합니다. 이를 통해 유연한 가이던스 사전 및 네트워크 아키텍처를 포함시켜 분산 감소를 명시적으로 최적화할 수 있습니다. 우리의 실험에서, SteinDreamer로 명명된 전체 파이프라인은 단안 깊이 추정기를 사용하여 제어 변수를 인스턴스화함으로써 구현되었습니다. 결과는 SSD가 증류 분산을 효과적으로 줄이고 객체 및 장면 수준 생성 모두에서 시각적 품질을 지속적으로 개선할 수 있음을 시사합니다. 또한, SteinDreamer가 더 안정적인 그래디언트 업데이트로 인해 기존 방법보다 더 빠른 수렴을 달성함을 보여줍니다.