번역이 포함된 일일 선별된 AI 연구 논문
컴퓨터 비전에서 문서 내용 추출은 특히 대규모 언어 모델 (LLMs)과 검색 증강 생성 (RAG) 기술의 고품질 데이터 요구를 충족시키기 위해 중요합니다. 그러나 현재의 문서 구문 분석 방법은 다양성과 포괄적인 평가 측면에서 중요한 제한사항을 가지고 있습니다. 이러한 도전에 대처하기 위해 우리는 자동 문서 내용 추출을 발전시키기 위해 설계된 혁신적인 다중 소스 벤치마크인 OmniDocBench를 소개합니다. OmniDocBench에는 학술 논문, 교과서, 슬라이드 등 다양한 문서 유형을 포함한 9가지 다양한 문서 유형으로 구성된 정교하게 선별된 고품질 평가 데이터셋이 포함되어 있습니다. 우리의 벤치마크는 19가지 레이아웃 범주 라벨과 14가지 속성 라벨을 갖춘 유연하고 포괄적인 평가 프레임워크를 제공하여 전체 데이터셋, 개별 모듈 또는 특정 데이터 유형을 효율적으로 평가할 수 있습니다. OmniDocBench를 활용하여 우리는 기존의 모듈식 파이프라인과 멀티모달 엔드 투 엔드 방법을 철저히 비교 분석하여 문서 다양성을 다루는 능력과 공정한 평가를 보여줍니다. OmniDocBench는 문서 내용 추출 분야를 위한 견고하고 다양하며 공정한 평가 기준을 수립하여 미래 발전에 대한 중요한 통찰을 제공하고 문서 구문 분석 기술의 발전을 촉진합니다. 코드와 데이터셋은 https://github.com/opendatalab/OmniDocBench에서 제공됩니다.
대형 언어 모델(Large language models, LLMs)은 "언어 공간"에서 추론하는 것으로 제한되어 있으며, 일반적으로 복잡한 추론 문제를 해결하기 위해 사고 연쇄(chain-of-thought, CoT)로 추론 과정을 표현합니다. 그러나 우리는 언어 공간이 항상 추론에 최적이 아닐 수 있다고 주장합니다. 예를 들어, 대부분의 단어 토큰은 주로 텍스트 일관성을 위한 것이며 추론에 필수적이지 않습니다. 반면 일부 중요한 토큰은 복잡한 계획이 필요하며 LLM에게 엄청난 도전을 제기합니다. 자연어 대신 제한되지 않은 잠재 공간에서 LLM 추론의 잠재력을 탐색하기 위해 코코넛(Coconut, Chain of Continuous Thought)이라는 새로운 패러다임을 소개합니다. 우리는 LLM의 마지막 숨겨진 상태를 추론 상태의 표현으로 활용하고("연속적 사고"라고 함), 이를 단어 토큰으로 디코딩하는 대신 연속적 공간에서 직접 LLM에게 후속 입력 임베딩으로 다시 공급합니다. 실험 결과, 코코넛은 여러 추론 작업에서 LLM을 효과적으로 보완할 수 있음을 보여줍니다. 이 새로운 잠재 추론 패러다임은 신흥 고급 추론 패턴으로 이어지며, 연속적 사고는 다양한 대안적 다음 추론 단계를 인코딩할 수 있어 모델이 CoT와 같이 단일 결정적 경로로 일찍 커밋하는 대신 문제를 해결하기 위해 너비 우선 탐색(BFS)을 수행할 수 있습니다. 코코넛은 계획 중에 상당한 되감기가 필요한 특정 논리 추론 작업에서 CoT보다 우수한 성능을 보이며 추론 중에 적은 사고 토큰을 필요로 합니다. 이 결과들은 잠재 추론의 가능성을 입증하고 향후 연구에 대한 가치 있는 통찰을 제공합니다.
언어 모델은 수학 문제를 해결할 때 정기적으로 오류를 발생시키므로, 추론 과정에서의 오류를 자동으로 식별하는 것이 그들의 확장 가능한 감독에 점점 더 중요해집니다. 본 논문에서는 수학적 추론에서 잘못된 단계를 식별하는 능력을 측정하는 ProcessBench를 소개합니다. 이는 경쟁 및 올림피아드 수준의 수학 문제에 주로 초점을 맞춘 3,400개의 테스트 케이스로 구성되어 있습니다. 각 테스트 케이스에는 인간 전문가가 주석을 달아 오류 위치가 표시된 단계별 솔루션이 포함되어 있습니다. 모델은 오류가 포함된 가장 초기의 단계를 식별하거나 모든 단계가 올바르다고 결론 내야 합니다. 우리는 ProcessBench에서 광범위한 평가를 실시하며, 프로세스 보상 모델 (PRM) 및 비평가 모델 두 가지 유형의 모델을 사용합니다. 후자의 경우 일반 언어 모델에 각 솔루션 단계를 비평하도록 유도합니다. 우리는 두 가지 주요 관찰을 얻었습니다: (1) 기존 PRM은 일반화가 어려운 GSM8K 및 MATH를 넘어서는 더 어려운 수학 문제에 대해 일반적으로 실패합니다. 이들은 비평가 모델 (즉, 유도된 일반 언어 모델)과 PRM800K 데이터셋에서 간단히 세밀하게 조정된 우리 자체 훈련된 PRM에 모두 성능이 떨어집니다. (2) 최고의 오픈 소스 모델인 QwQ-32B-Preview는 GPT-4o와 경쟁력 있는 비평 능력을 보여주었으나, 여전히 추론에 특화된 o1-mini에 뒤처지고 있습니다. 우리는 ProcessBench가 언어 모델의 확장 가능한 감독을 향한 길을 열어주며 추론 과정 평가에 대한 미래 연구를 촉진할 수 있기를 희망합니다.
에이전트에 기억을 통합하는 것은 강화 학습 (RL) 영역 내의 다양한 작업에 있어서 필수적입니다. 특히, 기억은 과거 정보 활용, 새로운 환경에 대한 적응, 그리고 향상된 샘플 효율성이 필요한 작업에 있어서 중요합니다. 그러나 "기억"이란 용어는 다양한 개념을 포함하고 있으며, 에이전트의 기억을 검증하기 위한 통일된 방법이 부족함에 따라 에이전트의 기억 능력에 대한 잘못된 판단을 일으키고 다른 기억이 강화된 에이전트와의 객관적인 비교를 방해합니다. 본 논문은 인지과학에서 영감을 받아 장기 기억 대 단기 기억, 서술적 기억 대 절차적 기억과 같은 에이전트 기억 유형에 대한 실용적이고 정확한 정의를 제공하여 강화 학습에서의 기억 개념을 간소화하는 것을 목표로 합니다. 이러한 정의를 사용하여 다양한 종류의 에이전트 기억을 분류하고, RL 에이전트의 기억 능력을 평가하기 위한 견고한 실험 방법론을 제안하고, 평가를 표준화합니다. 더 나아가, 다양한 유형의 에이전트 기억을 평가하기 위해 제안된 방법론을 준수하는 중요성을 경험적으로 입증하기 위해 다양한 RL 에이전트와 실험을 수행하고, 이를 위반했을 때의 결과를 보여줍니다.
대규모 Vision-Language Models (VLMs)의 신속한 발전은 주로 널리 사용되는 언어에서 학술적인 벤치마크에서 인상적인 결과를 이끌어내었습니다. 그러나 현재 VLMs의 능력에서는 낮은 자원 언어 및 다양한 문화적 맥락을 처리하는 데 중요한 간극이 남아 있습니다. 이는 고품질, 다양성 및 안전성이 검증된 데이터의 부족 때문입니다. 결과적으로 이러한 모델들은 종종 낮은 자원 언어와 문화적 뉘앙스를 독성 없이 이해하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 오픈 소스 Multimodal Multilingual 모델인 Maya를 소개합니다. 우리의 기여는 세 가지로 구성됩니다: 1) LLaVA 사전 학습 데이터셋을 기반으로 한 여덟 가지 언어의 다국어 이미지-텍스트 사전 학습 데이터셋; 2) LLaVA 데이터셋 내 독성에 대한 철저한 분석을 통해 여덟 가지 언어를 대상으로 독성이 없는 새로운 버전을 생성함; 그리고 3) 이러한 언어를 지원하는 다국어 이미지-텍스트 모델을 통해 시각-언어 작업에서 문화 및 언어 이해를 향상시킵니다. 코드는 https://github.com/nahidalam/maya에서 확인할 수 있습니다.
글로벌 시각 지올로케이션은 이미지가 지구상에서 어디에서 촬영되었는지를 예측합니다. 이미지는 정확도가 다양하기 때문에, 이 작업은 본질적으로 상당한 정도의 모호함을 포함합니다. 그러나 기존 접근 방식은 결정론적이며 이 측면을 간과합니다. 본 논문에서는 전통적인 지올로케이션과 현대적인 생성 방법 사이의 간격을 줄이고자 합니다. 확산과 리만 흐름 일치를 기반으로 하는 최초의 생성적 지올로케이션 접근 방식을 제안합니다. 여기서 노이즈 제거 과정은 지구 표면 상에서 직접 작동합니다. 우리의 모델은 세 가지 시각 지올로케이션 벤치마크인 OpenStreetView-5M, YFCC-100M 및 iNat21에서 최첨단 성능을 달성합니다. 또한, 모델이 단일 지점이 아닌 모든 가능한 위치에 대한 확률 분포를 예측하는 확률적 시각 지올로케이션 작업을 소개합니다. 이 작업을 위한 새로운 메트릭 및 베이스라인을 소개하며, 우리의 확산 기반 접근 방식의 장점을 보여줍니다. 코드와 모델은 공개될 예정입니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 시각-언어 작업에서 뛰어난 성과를 거두는데, (예: 이미지 캡션)에 대해 미세한 개념 주석을 사용하여 사전 훈련을 수행함으로써 독립적으로 뛰어납니다. 우리는 미세한 개념 주석(예: 객체 레이블 및 객체 영역)을 통합함으로써 성능을 더욱 향상시킬 것으로 가정하며, 두 데이터 세트의 세분성은 개념 표현의 폭과 깊이 측면에서 서로 보완한다고 가정합니다. 우리는 MLLMs를 위한 다중 모달 다중 세분 개념 주석(Multimodal Multi-Grained Concept annotations, MMGiC)을 특징으로 하는 새로운 데이터셋을 소개합니다. MMGiC를 구축함에 있어서, 우리는 다양한 데이터 조합이 다중 모달 이해와 생성에 미치는 영향을 탐구합니다. 우리의 분석 결과, 다중 세분 개념 주석이 구조화된 템플릿과 일반 MLLM 프레임워크 하에서 통합되고 보완됨을 보여줍니다. 우리는 MMGiC가 MLLMs가 개념을 더 잘 찾고 학습하도록 도와주는 잠재력을 명확히 탐구하고 시연합니다. 또한 POPE 및 SEED-Bench에서 이미지-캡션 데이터만으로는 달성할 수 없는 3.95% 및 2.34%의 절대적인 개선을 이루어낸 적절한 조합을 통해 MMGiC와 이미지-캡션 데이터 간의 공정한 비교 및 효과적인 협력을 조사함으로써 우리의 가설을 검증합니다. 코드, 데이터 및 모델은 https://github.com/LooperXX/MMGiC에서 제공될 예정입니다.
최근 몇 년간 대형 언어 모델(Large Language Models, LLMs) 내에서 이미지 이해와 생성을 통합하는 데 대한 흥미가 크게 증가했습니다. 이 증가하는 흥미로 인해 우리는 이 통합을 비디오로 확장하는 것을 탐구하기로 결정했습니다. 핵심적인 도전 과제는 LLMs를 위한 공간적 특성과 시간적 동적을 모두 포착하는 다재다능한 비디오 토크나이저를 개발하는 것에 있으며, 이를 통해 표현을 얻어 현실적인 비디오 클립으로 디코딩하여 비디오 생성을 가능하게 합니다. 본 연구에서는 자기 지도 비디오 표현 학습을 위해 확산 프로세스를 활용하는 Divot, Diffusion-Powered Video Tokenizer를 소개합니다. 비디오 확산 모델이 비디오 토크나이저의 특성을 조건으로 삼아 비디오 클립을 효과적으로 노이즈 제거할 수 있다면, 토크나이저가 견고한 공간적 및 시간적 정보를 성공적으로 포착한 것으로 여겨집니다. 또한 비디오 확산 모델은 기본적으로 디-토크나이저로 작동하여 표현에서 비디오를 디코딩합니다. Divot 토크나이저를 기반으로 한 Divot-Vicuna를 소개하며, 연속값 Divot 특성의 분포를 가우시안 혼합 모델로 모델링하여 비디오에서 텍스트 자기 회귀 및 텍스트에서 비디오 생성을 수행합니다. 실험 결과는 우리의 확산 기반 비디오 토크나이저가 사전 훈련된 LLM과 통합될 때 다양한 비디오 이해 및 생성 벤치마크에서 경쟁력 있는 성능을 달성한다는 것을 보여줍니다. 지시에 맞게 조정된 Divot-Vicuna는 또한 비디오 스토리텔링에서 우수한 성과를 거두며 교차로 구성된 내러티브와 해당 비디오를 생성합니다.
최근의 3D 생성 모델들은 일반적으로 3D 콘텐츠 생성을 위해 제한된 규모의 3D '골드 레이블' 또는 2D 확산 사전에 의존합니다. 그러나 확장 가능한 학습 패러다임의 부재로 인해 제한된 3D 사전에 의해 상한이 정해지는 성능을 보입니다. 본 연구에서는 대규모 인터넷 비디오에서 훈련된 시각 조건부 다중 뷰 확산 모델인 See3D를 제안합니다. 이 모델은 오픈 월드 3D 생성을 위해 대규모 인터넷 비디오에서 시각적 콘텐츠만을 보고 3D 지식을 습득하는 것을 목표로 합니다. 이를 달성하기 위해, 우리는 먼저 제안된 데이터 선별 파이프라인을 사용하여 훈련 데이터를 확장합니다. 이 파이프라인은 원본 비디오에서 다중 뷰 불일치와 부족한 관측을 자동으로 걸러내어 고품질, 다양하고 대규모의 다중 뷰 이미지 데이터셋인 WebVi3D를 생성합니다. 그러나 명시적인 3D 기하학이나 카메라 포즈 주석 없이 비디오로부터 일반적인 3D 사전을 학습하는 것은 어려우며, 웹 규모 비디오에 포즈를 주석하는 것은 경제적으로 부담스럽습니다. 포즈 조건을 제거하기 위해, 우리는 시간에 따라 변하는 노이즈를 마스킹된 비디오 데이터에 추가하여 생성된 순수한 2D 유도 시각 신호를 도입합니다. 마지막으로, 우리는 See3D를 고품질 3D 생성을 위한 와핑 기반 파이프라인에 통합하여 새로운 시각 조건부 3D 생성 프레임워크를 소개합니다. 저렴하고 확장 가능한 비디오 데이터로 훈련된 See3D는 유의미한 제로샷 및 오픈 월드 생성 능력을 달성하며, 비용이 많이 들고 제한적인 3D 데이터셋으로 훈련된 모델들을 현저히 능가하는 것을 수치 및 시각적 비교를 통해 보여줍니다. 자세한 내용은 다음 프로젝트 페이지를 참조하십시오: https://vision.baai.ac.cn/see3d
선형 변환기는 표준 트랜스포머에 비해 효율적인 대안으로 주목받고 있지만, 검색 및 장기 문맥 작업에서의 성능은 제한되어 왔습니다. 이러한 한계를 해결하기 위해 최근 연구는 적응형 메모리 제어를 위한 게이팅 및 정확한 메모리 수정을 위한 델타 업데이트 규칙 두 가지 다른 메커니즘을 탐구했습니다. 우리는 이러한 메커니즘이 보완적이라는 것을 관찰했습니다: 게이팅은 빠른 메모리 삭제를 가능하게 하고 델타 규칙은 특정 업데이트를 용이하게 합니다. 이 통찰력을 기반으로 우리는 게이트 델타 규칙을 소개하고 현대 하드웨어에 최적화된 병렬 훈련 알고리즘을 개발했습니다. 우리가 제안하는 구조인 게이트 델타넷은 언어 모델링, 상식적 추론, 문맥 중심 검색, 길이 추정 및 장기 문맥 이해를 포함한 여러 벤치마크에서 Mamba2 및 델타넷과 같은 기존 모델을 일관되게 능가합니다. 또한 게이트 델타넷 레이어를 슬라이딩 윈도우 어텐션 또는 Mamba2 레이어와 결합하는 하이브리드 구조를 개발함으로써 향상된 훈련 효율성과 우수한 작업 성능을 달성했습니다.
본 연구에서는 확산 트랜스포머를 통해 운동 전이 접근 방법을 제안합니다. 이는 운동 모델에서 운동 점수와 콘텐츠 점수를 분해하기 위해 조건부 점수를 재정의하는 이론적으로 기반을 둔 MSG(Mixture of Score Guidance) 프레임워크를 통해 이루어집니다. 우리의 주요 이론적 기여는 운동 전이를 잠재 에너지의 혼합으로 정의함으로써, MSG가 장면 구성을 자연스럽게 보존하고 전이된 운동 패턴의 무결성을 유지하면서 창의적인 장면 변환을 가능하게 한다는 것에 있습니다. 이 새로운 샘플링은 추가적인 교육이나 세밀한 조정 없이 사전 훈련된 비디오 확산 모델에 직접 작용합니다. MSG는 다양한 시나리오를 다루는 데 성공을 거두며, 단일 객체, 다중 객체 및 객체 간 운동 전이뿐만 아니라 복잡한 카메라 운동 전이를 포함한 실험을 통해 그 효과를 입증합니다. 게다가, 우리는 단일/다중 객체 전이와 복잡한 카메라 운동을 다루는 200개의 소스 비디오와 1000개의 전이된 운동으로 구성된 최초의 운동 전이 데이터셋인 MotionBench를 소개합니다.
지구 관측 데이터의 양이 증가함에 따라 Copernicus와 같은 대규모 프로그램의 아카이브에는 기본 원시 데이터의 효율적인 벡터 표현이 점점 더 필요해지고 있습니다. 사전 훈련된 심층 신경망에서 특징 표현을 추출하는 접근 방식은 입력 데이터의 의미적 추상화를 제공할 수 있는 강력한 방법입니다. 그러나 이러한 작업 방식이 지리 정보 데이터를 포함하는 이미지 아카이브에 대해 아직 정의되지 않았습니다. 본 연구에서는 지구 관측을 위한 오픈 및 무료 AI-ready 데이터셋을 제공하고 표준화하는 데 초점을 맞춘 기존 커뮤니티 프로젝트인 Major TOM에 확장을 제안합니다. 더불어 본 논문의 발표와 함께 네 개의 전역 밀집 임베딩 데이터셋이 공개적으로 무료로 공개되었으며, 지구 표면을 포괄하는 지리 공간 시각적 임베딩의 가장 포괄적인 글로벌 오픈 데이터셋이 되었습니다.
로봇 시각운동 정책 학습에서 확산 기반 모델은 전통적인 자기회귀 모델과 비교하여 행동 궤적 생성의 정확도를 향상시키는 데 상당한 성과를 거두었습니다. 그러나 이러한 모델은 여러 개의 노이즈 제거 단계로 인한 비효율성과 복잡한 제약 조건으로 인한 유연성 제한으로 고통받고 있습니다. 본 논문에서는 시각운동 정책 학습을 위한 혁신적인 패러다임인 Coarse-to-Fine AutoRegressive Policy (CARP)를 소개합니다. CARP는 자기회귀 행동 생성 과정을 거친-미세, 다음-규모 접근 방식으로 재정의합니다. CARP는 행동 생성을 두 단계로 분리합니다. 먼저, 행동 오토인코더가 전체 행동 순서의 다중 규모 표현을 학습하고, 그런 다음 GPT 스타일의 트랜스포머가 거친-미세 자기회귀 과정을 통해 순서 예측을 정제합니다. 이 직관적이고 직접적인 방법은 매우 정확하고 부드러운 행동을 생성하며, 효율성 면에서 자기회귀 정책과 유사한 수준을 유지하면서 확산 기반 정책의 성능을 맞거나 능가합니다. 우리는 상태 기반 및 이미지 기반 시뮬레이션 벤치마크 및 실제 과제를 포함한 다양한 환경에서 철저한 평가를 실시했습니다. CARP는 경쟁력 있는 성공률을 달성하며 최대 10%의 향상을 보여주며 최첨단 정책과 비교하여 10배 빠른 추론 속도를 제공하여 로봇 작업에서 행동 생성을 위한 고효율성, 효과적이고 유연한 패러다임을 확립합니다.
우리는 희소한 시야 샘플로부터 명확한 고품질 3D 표면 메쉬 복구와 사실적인 신규 뷰 합성을 동시에 실현하는 혁신적인 외관 모델을 제시합니다. 우리의 주요 아이디어는 장면 기하학 메쉬를 차트의 아틀라스로 모델링하여 2D 가우시안 서펠로 렌더링하는 것입니다(MAtCha 가우시안). MAtCha는 일반적인 단안 심도 추정기에서 고주파 장면 표면 세부 사항을 증류하고 가우시안 서펠 렌더링을 통해 정제합니다. 가우시안 서펠은 차트에 동적으로 부착되어 신경 기반 부피 렌더링의 사실적인 표현과 메쉬 모델의 명료한 기하학을 충족시키며, 즉, 단일 모델에서 두 가지 상반되는 목표를 달성합니다. MAtCha의 핵심에는 새로운 신경 변형 모델과 학습된 단안 심도에서 증류된 미세 표면 세부 사항을 보존하면서 그들의 기본적인 척도 모호성을 해결하는 구조 손실이 있습니다. 광범위한 실험적 검증 결과는 MAtCha의 표면 재구성과 사실적인 품질이 최고 수준의 경쟁작품과 동등하며 입력 뷰 수와 계산 시간을 현저히 줄인다는 것을 입증합니다. 우리는 MAtCha가 시각, 그래픽 및 로봇학 분야에서 명확한 기하학과 사실적인 표현에 필요한 어떠한 시각적 응용 프로그램에도 기초 도구로서 기능할 것으로 믿습니다. 저희 프로젝트 페이지는 다음과 같습니다: https://anttwo.github.io/matcha/
우리는 LLMs를 사용하여 패러프레이징을 통해 임베드된 감지하기 어려운 멀티비트 텍스트 워터마크를 제안합니다. 우리는 서로 다르게 작동하도록 설계된 두 개의 LLM 패러프레이저를 세밀하게 조정하여, 텍스트 의미에 반영된 패러프레이징 차이를 훈련된 디코더가 식별할 수 있도록 합니다. 우리의 멀티비트 워터마크를 임베드하기 위해, 우리는 미리 정의된 이진 코드를 문장 수준에서 인코딩하기 위해 두 개의 패러프레이저를 번갈아 사용합니다. 그런 다음 텍스트 분류기를 디코더로 사용하여 워터마크의 각 비트를 디코딩합니다. 다양한 실험을 통해, 우리의 워터마크가 작은(1.1B) 텍스트 패러프레이저를 사용하면서 원래 문장의 의미 정보를 유지하면서 99.99% 이상의 감지 AUC를 달성할 수 있음을 보여줍니다. 더 중요한 것은, 우리의 파이프라인이 단어 대체 및 문장 패러프레이징 변조에 대해 견고하며, out-of-distributional 데이터에 대해 잘 일반화됨을 보여줍니다. 또한 LLM 기반 평가를 통해 우리의 워터마크의 은밀성을 보여줍니다. 코드는 오픈 소스로 제공됩니다: https://github.com/xiaojunxu/multi-bit-text-watermark.
모델 병합은 전문가 모델을 결합하는 데 큰 잠재력을 보여주었지만, 여러 작업에 대해 훈련된 "일반적" 모델을 병합할 때의 이점은 불분명합니다. 우리는 대규모(약 100B) 모델의 맥락에서 병합을 탐구합니다. 서로 다른 작업 사이에서 트레이드오프를 보이는 체크포인트를 재활용함으로써. 이러한 체크포인트는 전방 모델을 개발하는 과정에서 생성되며, 많은 부적합한 체크포인트는 일반적으로 폐기됩니다. 서로 다른 훈련 실행(예: 다른 단계, 목표, 하이퍼파라미터 및 데이터 조합)에서 얻은 모델 체크포인트 풀이 있으며, 이는 일반적으로 언어 능력(예: 지시 따르기 vs. 코드 생성) 간의 트레이드오프를 자연스럽게 보여줍니다. 우리는 병합이 이러한 부적합한 모델을 파레토-최적 모델로 재활용할 수 있는지 조사합니다. 우리의 최적화 알고리즘은 각 체크포인트의 가중치를 선형 결합하여 조정하며, 이로써 개별 모델 및 병합 기반 기준을 능가하는 파레토-최적 모델을 얻습니다. 추가 분석 결과, 좋은 병합은 일반적으로 가중치가 0이 아닌 거의 모든 체크포인트를 포함하는 경향이 있으며, 보이기에는 나쁜 초기 체크포인트조차도 좋은 최종 병합에 기여할 수 있음을 나타냅니다.
우리는 Turbo3D를 제시합니다. Turbo3D는 1초 미만의 시간 안에 고품질의 가우시안 스플래팅 자산을 생성할 수 있는 초고속 텍스트-3D 시스템입니다. Turbo3D는 빠른 4단계, 4뷰 확산 생성기와 효율적인 피드포워드 가우시안 재구성기를 활용하며 둘 다 잠재 공간에서 작동합니다. 4단계, 4뷰 생성기는 새로운 이중 교사 접근법을 통해 정제된 스튜던트 모델로, 이는 스튜던트가 다중 뷰 교사로부터 뷰 일관성을 학습하고 단일 뷰 교사로부터 사진 현실성을 습득하도록 장려합니다. 가우시안 재구성기의 입력을 픽셀 공간에서 잠재 공간으로 이동함으로써, 우리는 추가 이미지 디코딩 시간을 제거하고 최대 효율성을 위해 트랜스포머 시퀀스 길이를 절반으로 줄였습니다. 우리의 방법은 이전 기준선과 비교하여 우수한 3D 생성 결과를 보여주며, 그들의 실행 시간의 일부에서 작동합니다.