번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델의 원래 "다음 토큰 예측" 패러다임을 시각적 생성 영역에 적용한 새로운 이미지 생성 모델 패밀리인 LlamaGen을 소개합니다. 이는 시각적 신호에 대한 귀납적 편향 없이도 일반적인 자기회귀 모델(예: Llama)이 적절하게 스케일링되면 최첨단 이미지 생성 성능을 달성할 수 있는지에 대한 긍정적인 답변입니다. 우리는 이미지 토크나이저의 설계 공간, 이미지 생성 모델의 확장성 특성, 그리고 그들의 훈련 데이터 품질을 재검토했습니다. 이 탐구의 결과는 다음과 같습니다: (1) ImageNet 벤치마크에서 16의 다운샘플 비율, 0.94 rFID의 재구성 품질, 그리고 97%의 코드북 사용률을 가진 이미지 토크나이저. (2) 111M에서 3.1B 파라미터에 이르는 클래스 조건부 이미지 생성 모델 시리즈로, ImageNet 256x256 벤치마크에서 2.18 FID를 달성하여 LDM, DiT와 같은 인기 있는 확산 모델을 능가함. (3) LAION-COCO와 높은 미학적 품질의 이미지에 대한 두 단계 훈련을 통해 얻은 775M 파라미터의 텍스트 조건부 이미지 생성 모델로, 시각적 품질과 텍스트 정렬에서 경쟁력 있는 성능을 보임. (4) LLM 서빙 프레임워크가 이미지 생성 모델의 추론 속도 최적화에 효과적임을 검증하고 326% - 414%의 속도 향상을 달성함. 우리는 시각적 생성 및 다중모달 기반 모델의 오픈소스 커뮤니티를 지원하기 위해 모든 모델과 코드를 공개합니다.
언어 에이전트는 각 단계를 정확하게 실행하기 위해 도구를 사용하여 복잡한 작업을 수행합니다. 그러나 대부분의 기존 에이전트는 독점 모델을 기반으로 하거나 수학 또는 다중 홉 질문 응답과 같은 특정 작업을 대상으로 설계되었습니다. 우리는 수치, 표, 지식 기반 추론을 포함한 다양한 복잡한 작업을 해결하기 위해 통합된 액션 공간에서 추론하는 방법을 학습하는 전체적인 오픈소스 언어 에이전트인 Husky를 소개합니다. Husky는 두 단계를 반복합니다: 1) 주어진 작업을 해결하기 위해 다음에 취할 액션을 생성하고, 2) 전문가 모델을 사용하여 액션을 실행하고 현재 솔루션 상태를 업데이트합니다. 우리는 복잡한 작업을 해결하기 위한 철저한 액션 온톨로지를 식별하고 이러한 액션을 실행하기 위한 전문가 모델을 훈련시키기 위해 고품질 데이터를 큐레이션했습니다. 우리의 실험 결과, Husky는 14개의 평가 데이터셋에서 기존 언어 에이전트들을 능가하는 성능을 보여줍니다. 또한, 우리는 혼합 도구 추론, 특히 누락된 지식을 검색하고 수치 추론을 수행하는 데 초점을 맞춘 새로운 평가 세트인 HuskyQA를 소개합니다. 7B 모델을 사용함에도 불구하고, Husky는 이러한 작업에서 GPT-4와 같은 최첨단 언어 모델과 동등하거나 더 나은 성능을 보여주며, 복잡한 추론 문제를 해결하는 데 있어 우리의 전체적 접근 방식의 효율성을 입증합니다. 우리의 코드와 모델은 https://github.com/agent-husky/Husky-v1에서 확인할 수 있습니다.
멀티모달 학습, 특히 비디오 이해 및 생성 분야의 발전은 향상된 모델 성능을 위해 고품질의 비디오-텍스트 데이터셋을 요구합니다. Vript는 이 문제를 12K개의 고해상도 비디오로 구성된 세심하게 주석 처리된 코퍼스로 해결하며, 420K개 이상의 클립에 대해 상세하고 밀도 높으며 스크립트 같은 캡션을 제공합니다. 각 클립은 ~145단어의 캡션을 가지며, 이는 대부분의 비디오-텍스트 데이터셋보다 10배 이상 깁니다. 이전 데이터셋의 캡션이 정적인 내용만 기록한 것과 달리, 우리는 비디오 캡션을 비디오 스크립팅으로 발전시켜 내용뿐만 아니라 샷 유형(중간 샷, 클로즈업 등)과 카메라 움직임(패닝, 틸팅 등)을 포함한 카메라 작업도 기록합니다. Vript를 활용하여, 우리는 클립-캡션 쌍보다 더 많은 텍스트를 비디오 모달리티와 정렬하는 세 가지 훈련 패러다임을 탐구합니다. 이는 오픈소스 모델 중에서 GPT-4V와 성능이 비슷한 최고 수준의 비디오 캡션 모델인 Vriptor를 만들어냅니다. Vriptor는 또한 긴 비디오에 대해 밀도 높고 상세한 캡션을 종단 간 생성할 수 있는 강력한 모델입니다. 더불어, 우리는 기존 벤치마크보다 더 도전적인 세 가지 비디오 이해 작업으로 구성된 Vript-Hard 벤치마크를 소개합니다: Vript-HAL은 비디오 LLM의 행동 및 객체 환각을 평가하는 첫 번째 벤치마크이며, Vript-RR은 긴 비디오 QA에서 질문의 모호성을 해결하기 위해 추론과 검색을 결합하고, Vript-ERO는 이전 작업에서의 짧은 비디오의 행동이 아닌 긴 비디오의 이벤트에 대한 시간적 이해를 평가하는 새로운 작업입니다. 모든 코드, 모델, 데이터셋은 https://github.com/mutonix/Vript에서 이용 가능합니다.
건강 분야에서 대부분의 대형 언어 모델(LLM) 연구는 임상 작업에 초점을 맞추어 왔습니다. 그러나 이러한 작업에 거의 통합되지 않는 모바일 및 웨어러블 기기들은 개인 건강 모니터링을 위한 풍부하고 장기적인 데이터를 제공합니다. 여기서 우리는 수치형 시계열 개인 건강 데이터를 이해하고 추론하기 위해 Gemini에서 미세 조정된 개인 건강 대형 언어 모델(PH-LLM)을 소개합니다. 우리는 1) 수면 패턴, 신체 활동 및 생리적 반응으로부터 개인화된 통찰과 권장 사항을 생성하는 능력, 2) 전문가 도메인 지식, 3) 자가 보고된 수면 결과 예측을 테스트하기 위해 세 가지 데이터셋을 생성하고 정제했습니다. 첫 번째 작업을 위해 우리는 도메인 전문가들과 협력하여 수면과 피트니스에서의 실제 시나리오를 평가하기 위해 857개의 사례 연구를 설계했습니다. 도메인별 평가 기준을 통해 종합적으로 평가한 결과, Gemini Ultra 1.0과 PH-LLM은 피트니스에서 전문가의 성능과 통계적으로 차이가 없었으며, 수면에서는 전문가가 여전히 우수하지만 PH-LLM을 미세 조정함으로써 관련 도메인 지식을 사용하고 수면 통찰을 위해 정보를 개인화하는 데 있어 상당한 개선을 이루었습니다. 우리는 PH-LLM의 도메인 지식을 수면 의학 및 피트니스 시험의 객관식 문제를 통해 평가했습니다. PH-LLM은 수면에서 79%, 피트니스에서 88%의 점수를 달성하여 인간 전문가 샘플의 평균 점수를 초과했습니다. 마지막으로, 우리는 PH-LLM을 웨어러블 데이터의 텍스트 및 멀티모달 인코딩 표현으로부터 자가 보고된 수면 품질 결과를 예측하도록 훈련시켰으며, 특수화된 판별 모델의 성능을 맞추기 위해서는 멀티모달 인코딩이 필요함을 입증했습니다. 안전이 중요한 개인 건강 도메인에서 추가 개발과 평가가 필요하지만, 이러한 결과는 Gemini 모델의 광범위한 지식과 능력, 그리고 PH-LLM에서 수행한 것처럼 생리학적 데이터를 개인 건강 응용 프로그램에 맞게 맥락화하는 이점을 보여줍니다.
NeRF와 같은 볼류메트릭 렌더링 기반 방법은 RAW 이미지에서의 HDR 뷰 합성, 특히 야간 장면에서 뛰어난 성능을 보입니다. 그러나 이러한 방법은 긴 학습 시간이 필요하며, 밀집 샘플링 요구 사항으로 인해 실시간 렌더링이 불가능합니다. 3D 가우시안 스플래팅(3DGS)의 등장으로 실시간 렌더링과 더 빠른 학습이 가능해졌습니다. 그러나 3DGS를 직접 사용하여 RAW 이미지 기반 뷰 합성을 구현하는 것은 몇 가지 고유한 단점으로 인해 어려운 과제입니다: 1) 야간 장면에서 극도로 낮은 신호 대 잡음비(SNR)로 인해 원거리 뷰에서의 구조 추정(SfM)이 저하됩니다; 2) 구면 조화 함수(SH)의 제한된 표현 능력은 RAW 선형 색 공간에 적합하지 않습니다; 3) 부정확한 장면 구조는 리포커싱과 같은 다운스트림 작업을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 LE3D(Lighting Every darkness with 3DGS)를 제안합니다. 우리의 방법은 SfM 추정을 풍부하게 하기 위해 Cone Scatter Initialization을 제안하고, RAW 선형 색 공간을 표현하기 위해 SH를 Color MLP로 대체합니다. 또한, 다운스트림 작업을 위한 장면 구조의 정확성을 향상시키기 위해 깊이 왜곡 및 근거리-원거리 정규화를 도입합니다. 이러한 설계로 인해 LE3D는 실시간 새로운 뷰 합성, HDR 렌더링, 리포커싱, 톤 매핑 변경을 수행할 수 있습니다. 이전의 볼류메트릭 렌더링 기반 방법과 비교하여, LE3D는 학습 시간을 1%로 줄이고, 2K 해상도 이미지에 대해 FPS 기준으로 렌더링 속도를 최대 4,000배 향상시켰습니다. 코드와 뷰어는 https://github.com/Srameo/LE3D에서 확인할 수 있습니다.
치료제 개발은 많은 다양한 기준을 충족시켜야 하는 길고 비용이 많이 드는 과정이며, 이 과정을 가속화할 수 있는 AI 모델은 매우 귀중할 것입니다. 그러나 현재 대부분의 AI 접근법은 특정 도메인 내에서만 제한적으로 정의된 작업들만을 다루고 있습니다. 이러한 격차를 해소하기 위해, 우리는 다양한 치료 방식을 이해하는 지식을 인코딩한 PaLM-2에서 미세 조정된 범용 대형 언어 모델(LLM)인 Tx-LLM을 소개합니다. Tx-LLM은 약물 발견 파이프라인의 다양한 단계에 걸친 66개 작업을 대상으로 하는 709개의 데이터셋을 사용하여 훈련되었습니다. 단일 가중치 세트를 사용하여 Tx-LLM은 소분자, 단백질, 핵산, 세포주, 질병 등 다양한 화학적 또는 생물학적 개체들과 자유 텍스트를 동시에 처리하며, 이를 통해 광범위한 관련 특성을 예측할 수 있습니다. 이는 66개 작업 중 43개에서 최신 기술(SOTA)과 경쟁력 있는 성능을 달성하고, 22개에서는 SOTA를 능가합니다. 특히, Tx-LLM은 세포주 이름이나 질병 이름과 같은 텍스트와 분자 SMILES 표현을 결합한 작업에서 특히 강력하며, 평균적으로 최고 수준의 성능을 능가합니다. 이는 사전 훈련 중 학습된 문맥 덕분일 가능성이 높습니다. 우리는 다양한 약물 유형(예: 소분자 관련 작업과 단백질 관련 작업) 간의 긍정적인 전이 증거를 관찰하며, 모델 크기, 도메인 미세 조정, 프롬프트 전략이 성능에 미치는 영향을 연구합니다. 우리는 Tx-LLM이 생화학적 지식을 인코딩하는 LLM의 중요한 진전을 나타내며, 약물 발견 개발 파이프라인 전반에 걸친 종단 간 도구로서의 미래 역할을 할 수 있을 것이라고 믿습니다.
본 논문은 제로샷 텍스트-음성 합성(TTS) 분야에서 새로운 이정표를 세우며 인간 수준의 성능을 최초로 달성한 신경 코덱 언어 모델의 최신 발전인 VALL-E 2를 소개합니다. 이전 버전인 VALL-E를 기반으로, 새로운 버전은 두 가지 중요한 개선 사항을 도입했습니다: 반복 인지 샘플링(Repetition Aware Sampling)은 디코딩 기록에서 토큰 반복을 고려하여 원래의 핵심 샘플링 프로세스를 개선합니다. 이는 디코딩을 안정화할 뿐만 아니라 무한 루프 문제를 방지합니다. 그룹화된 코드 모델링(Grouped Code Modeling)은 코덱 코드를 그룹으로 조직하여 시퀀스 길이를 효과적으로 단축하며, 이는 추론 속도를 향상시킬 뿐만 아니라 긴 시퀀스 모델링의 문제를 해결합니다. LibriSpeech와 VCTK 데이터셋에서의 실험 결과, VALL-E 2는 음성 견고성, 자연스러움, 화자 유사성 측면에서 이전 시스템들을 능가하는 것으로 나타났습니다. 이는 이러한 벤치마크에서 인간 수준의 성능에 도달한 최초의 모델입니다. 또한, VALL-E 2는 복잡성이나 반복적인 구문으로 인해 전통적으로 어려웠던 문장들에 대해서도 일관되게 고품질의 음성을 합성합니다. 이 연구의 장점은 실어증이나 근위축성 측삭 경화증을 가진 개인들을 위한 음성 생성과 같은 가치 있는 노력에 기여할 수 있습니다. VALL-E 2의 데모는 https://aka.ms/valle2에 게시될 예정입니다.
인간 선호도에 기반한 현대적 정렬 기법들, 예를 들어 RLHF(Reinforcement Learning from Human Feedback)와 DPO(Direct Preference Optimization)는 일반적으로 훈련 안정성을 보장하기 위해 참조 모델과의 발산 정규화를 사용합니다. 그러나 이는 특히 선호 데이터와 참조 모델 간에 명확한 분포적 차이가 있을 때 모델의 유연성을 제한하는 경우가 많습니다. 본 논문에서는 Stable Diffusion XL(SDXL)과 같은 최신 텍스트-이미지 확산 모델의 정렬에 초점을 맞추어, 시각적 양식의 비정형적 특성으로 인해 이러한 "참조 불일치"가 실제로 이러한 모델을 정렬하는 데 있어 중요한 문제임을 발견했습니다. 예를 들어, 특정 스타일적 측면에 대한 선호는 쉽게 이러한 불일치를 유발할 수 있습니다. 이러한 관찰에 동기를 받아, 우리는 참조 모델에 의존하지 않는 새로운 메모리 친화적 선호 정렬 방법인 마진 인식 선호 최적화(Margin-aware Preference Optimization, MaPO)를 제안합니다. MaPO는 선호 이미지 집합과 비선호 이미지 집합 간의 가능성 마진을 최대화함과 동시에 선호 집합의 가능성을 최대화하여 일반적인 스타일적 특징과 선호를 동시에 학습합니다. 평가를 위해, 우리는 SDXL에서 자체 생성한 이미지 쌍으로 구성된 두 가지 새로운 쌍별 선호 데이터셋인 Pick-Style과 Pick-Safety를 소개하며, 이는 다양한 참조 불일치 시나리오를 시뮬레이션합니다. 우리의 실험은 MaPO가 Pick-Style과 Pick-Safety에서의 정렬 및 Pick-a-Pic v2와 함께 사용될 때 일반적인 선호 정렬을 크게 개선할 수 있음을 검증하며, 기본 SDXL 및 기존의 다른 방법들을 능가함을 보여줍니다. 우리의 코드, 모델, 데이터셋은 https://mapo-t2i.github.io를 통해 공개되어 있습니다.
대규모 언어 모델(LLMs)은 언어 작업에서 인상적인 성능을 보여주지만, 방대한 파라미터와 밀집된 곱셈 연산에 의존하기 때문에 자원이 제한된 장치에 배포할 때 높은 메모리 요구량과 지연 시간 병목 현상이라는 문제에 직면합니다. 시프트-앤-애드 재파라미터화는 LLM의 어텐션 및 다층 퍼셉트론(MLP) 레이어에서 비용이 많이 드는 곱셈 연산을 하드웨어 친화적인 기본 연산으로 대체함으로써 유망한 해결책을 제공합니다. 그러나 현재의 재파라미터화 기술은 정확도를 복원하기 위해 처음부터 학습하거나 전체 파라미터 미세 조정이 필요하며, 이는 LLM에 대해 자원 집약적입니다. 이를 해결하기 위해, 우리는 사전 학습된 LLM을 사후 학습 시프트-앤-애드 재파라미터화를 통해 가속화하여 곱셈이 없는 효율적인 모델인 ShiftAddLLM을 제안합니다. 구체적으로, 각 가중치 행렬을 이진 행렬과 그룹별 스케일링 팩터로 양자화합니다. 관련된 곱셈 연산은 (1) 활성화와 스케일링 팩터 간의 시프트와 (2) 이진 행렬에 따른 쿼리 및 덧셈으로 재파라미터화됩니다. 정확도 손실을 줄이기 위해, 우리는 가중치와 출력 활성화 재파라미터화 오류를 모두 최소화하는 다목적 최적화 방법을 제시합니다. 또한, 레이어별로 재파라미터화에 대한 민감도가 다르다는 점을 바탕으로 메모리 사용량과 지연 시간을 더욱 줄이기 위한 자동화된 비트 할당 전략을 개발합니다. 다섯 가지 LLM 패밀리와 여덟 가지 작업에 대한 실험은 ShiftAddLLM의 효과를 일관되게 검증하며, 각각 3비트와 2비트에서 가장 경쟁력 있는 양자화된 LLM과 비교하여 동등하거나 더 낮은 지연 시간에서 평균 5.6 및 22.7 포인트의 perplexity 개선을 달성하고, 원본 LLM 대비 80% 이상의 메모리 및 에너지 감소를 보여줍니다. 코드와 모델은 https://github.com/GATECH-EIC/ShiftAddLLM에서 확인할 수 있습니다.
인간이 어떻게 효율적이고 효과적으로 이미지를 획득할 수 있는지는 항상 중요한 질문으로 남아왔다. 일반적인 해결책은 텍스트 쿼리가 주어졌을 때 기존 데이터베이스에서 텍스트-이미지 검색을 수행하는 것이지만, 제한된 데이터베이스는 일반적으로 창의성이 부족하다. 반면, 최근 텍스트-이미지 생성 분야의 획기적인 발전으로 인해 화려하고 다양한 시각적 콘텐츠를 생성할 수 있게 되었지만, 지식 집약적인 이미지를 합성하는 데는 여전히 어려움을 겪고 있다. 본 연구에서는 텍스트-이미지 생성과 검색 간의 관계를 재고하고, 멀티모달 대형 언어 모델(MLLMs)의 맥락에서 통합 프레임워크를 제안한다. 구체적으로, 먼저 MLLMs의 내재적 판별 능력을 탐구하고, 학습 없이 검색을 수행할 수 있는 생성적 검색 방법을 소개한다. 이후, 생성과 검색을 자기회귀적 생성 방식으로 통합하고, 텍스트 쿼리에 대한 응답으로 생성된 이미지와 검색된 이미지 중 가장 잘 맞는 것을 선택하기 위한 자율적 결정 모듈을 제안한다. 또한, 창의적 및 지식 집약적 영역을 포함한 TIGeR-Bench 벤치마크를 구축하여 통합 텍스트-이미지 생성 및 검색의 평가를 표준화한다. TIGeR-Bench와 두 검색 벤치마크인 Flickr30K 및 MS-COCO에서의 광범위한 실험 결과는 우리가 제안한 방법의 우수성과 효과성을 입증한다.
기존의 재조명 가능한 뷰 합성 방법들은 알려지지 않은 조명 하에서 촬영된 물체의 이미지 집합을 사용하여, 새로운 시점에서 목표 조명 하에서 렌더링할 수 있는 3D 표현을 복원하는 데 역렌더링(inverse rendering)을 기반으로 합니다. 이 방법들은 입력 이미지를 설명하기 위해 물체의 기하학, 재질, 조명을 분리하려고 시도합니다. 또한, 이는 일반적으로 미분 가능한 몬테카로 렌더링을 통한 최적화를 포함하는데, 이는 취약하고 계산 비용이 많이 듭니다. 본 연구에서는 더 간단한 접근 방식을 제안합니다: 먼저 조명에 조건화된 이미지 확산 모델을 사용하여 각 입력 이미지를 재조명한 후, 이 재조명된 이미지들로부터 신경 방사장(Neural Radiance Field, NeRF)을 재구성하고, 이를 통해 목표 조명 하에서 새로운 뷰를 렌더링합니다. 우리는 이 전략이 놀랍도록 경쟁력이 있으며, 여러 재조명 벤치마크에서 최첨단 결과를 달성함을 보여줍니다. 자세한 내용은 프로젝트 페이지(https://illuminerf.github.io/)를 참조하십시오.
대형 잠재 확산 모델(LDMs)을 빠르게 샘플링이 가능한 모델로 증류하는 연구가 점점 더 많은 관심을 받고 있습니다. 그러나 기존의 대부분의 방법은 두 가지 딜레마에 직면해 있습니다: (i) 다양한 샘플링 예산에 대해 여러 개별 증류 모델에 의존하거나, (ii) 제한된(예: 2-4) 또는 중간 정도의(예: 5-8) 샘플링 단계에서 생성 품질을 희생해야 합니다. 이를 해결하기 위해, 우리는 최근의 다단계 일관성 증류(MCD) 전략을 대표적인 LDMs로 확장하여, 저비용 고품질 이미지 합성을 위한 다단계 잠재 일관성 모델(MLCMs) 접근법을 제안합니다. MLCM은 MCD의 약속 덕분에 다양한 샘플링 단계에 대해 통합된 모델로 작동합니다. 우리는 또한 MCD를 점진적 학습 전략으로 보강하여, 소수 단계 생성의 품질을 높이기 위해 세그먼트 간 일관성을 강화합니다. 우리는 교사 모델의 샘플링 궤적에서 상태를 추출하여 MLCMs의 학습 데이터로 사용함으로써, 고품질 학습 데이터셋에 대한 요구를 줄이고 증류 모델의 학습과 추론 간의 격차를 줄입니다. MLCM은 시각적 품질과 미적 매력을 더욱 개선하기 위한 선호 학습 전략과도 호환됩니다. 실험적으로, MLCM은 단 2-8개의 샘플링 단계로도 고품질의 만족스러운 이미지를 생성할 수 있습니다. MSCOCO-2017 5K 벤치마크에서, SDXL로부터 증류된 MLCM은 단 4단계로 CLIP 점수 33.30, 미적 점수 6.19, 이미지 보상 1.20을 기록하며, 4단계 LCM [23], 8단계 SDXL-Lightning [17], 그리고 8단계 HyperSD [33]를 크게 능가했습니다. 또한, 우리는 MLCMs의 제어 가능한 생성, 이미지 스타일 변환, 중국어-이미지 생성 등 다양한 응용 분야에서의 다용성을 입증합니다.
우리는 Neural Radiance Field(NeRF)가 처리할 수 있는 시야 범위를 외삽하는 새로운 방법인 ExtraNeRF를 제안합니다. 우리의 주요 아이디어는 NeRF를 활용하여 장면별 세밀한 디테일을 모델링하는 동시에, 확산 모델을 활용하여 관측된 데이터를 넘어서는 외삽을 수행하는 것입니다. 핵심 요소는 가시성을 추적하여 장면의 어떤 부분이 관찰되지 않았는지 확인하고, 확산 모델과 일관되게 해당 영역을 재구성하는 데 초점을 맞추는 것입니다. 우리의 주요 기여는 입력 이미지에 맞춰 미세 조정된 가시성 인식 확산 기반 인페인팅 모듈로, 이는 중간 품질(종종 흐릿한)의 인페인팅된 영역을 가진 초기 NeRF를 생성합니다. 그 후, 입력 이미지에 대해 훈련된 두 번째 확산 모델이 첫 번째 패스에서 인페인팅된 이미지를 일관되게 개선하고, 특히 선명하게 만듭니다. 우리는 소수의 입력 시야(일반적으로 6개 이하)를 넘어서는 고품질의 결과를 보여주며, NeRF를 효과적으로 아웃페인팅하고 원래 시야 범위 내에서 새롭게 가려진 영역을 인페인팅합니다. 관련 연구와의 정량적 및 정성적 비교를 통해 기존 기술 대비 상당한 개선을 입증합니다.
우리는 다중 뷰 이미지로부터 3D 메쉬 재구성을 위한 새로운 접근 방식을 제안합니다. 우리의 방법은 트랜스포머 기반의 트라이플레인 생성기와 다중 뷰 이미지로 훈련된 신경 방사 필드(NeRF) 모델을 사용하는 LRM과 같은 대규모 재구성 모델에서 영감을 받았습니다. 그러나 우리의 방법에서는 3D 재구성 품질을 크게 향상시킬 수 있는 몇 가지 중요한 수정 사항을 도입했습니다. 먼저, 원래의 LRM 아키텍처를 검토하여 몇 가지 단점을 발견했습니다. 이후, LRM 아키텍처에 각각의 수정 사항을 도입하여 다중 뷰 이미지 표현을 개선하고 더 계산 효율적인 훈련을 가능하게 했습니다. 둘째, 형상 재구성을 개선하고 전체 이미지 해상도에서의 감독을 가능하게 하기 위해, NeRF 필드에서 미분 가능한 방식으로 메쉬를 추출하고 메쉬 렌더링을 통해 NeRF 모델을 미세 조정했습니다. 이러한 수정 사항들은 Google Scanned Objects (GSO) 데이터셋에서 28.67의 PSNR과 같은 2D 및 3D 평가 지표에서 최첨단 성능을 달성할 수 있게 했습니다. 이러한 우수한 결과에도 불구하고, 우리의 순방향 모델은 여전히 텍스트 및 초상화와 같은 복잡한 텍스처를 재구성하는 데 어려움을 겪습니다. 이를 해결하기 위해, 경량화된 인스턴스별 텍스처 정제 절차를 도입했습니다. 이 절차는 입력 다중 뷰 이미지를 사용하여 메쉬 표면에서 트라이플레인 표현과 NeRF 색상 추정 모델을 단 4초 만에 미세 조정합니다. 이 정제 작업은 PSNR을 29.79로 향상시키고 텍스트와 같은 복잡한 텍스처의 충실한 재구성을 달성합니다. 또한, 우리의 접근 방식은 텍스트 또는 이미지에서 3D 생성과 같은 다양한 다운스트림 애플리케이션을 가능하게 합니다.