번역이 포함된 일일 선별된 AI 연구 논문
우리는 오픈 가중치 사전 학습된 대형 언어 모델(LLM) 계열에 대해 간단한 레이어 프루닝 전략을 실증적으로 연구하였으며, 상당한 비율(최대 절반)의 레이어가 제거될 때까지 다양한 질의응답 벤치마크에서 성능 저하가 최소화됨을 발견했습니다. 이러한 모델을 프루닝하기 위해, 우리는 레이어 간 유사성을 고려하여 최적의 레이어 블록을 식별한 후, 손상을 "치유"하기 위해 소량의 파인튜닝을 수행했습니다. 특히, 우리는 양자화 및 Low Rank Adapters(QLoRA)와 같은 파라미터 효율적 파인튜닝(PEFT) 방법을 사용하여 각 실험이 단일 A100 GPU에서 수행될 수 있도록 했습니다. 실용적인 관점에서, 이러한 결과는 레이어 프루닝 방법이 다른 PEFT 전략을 보완하여 파인튜닝에 필요한 계산 자원을 더욱 줄일 수 있을 뿐만 아니라, 추론 시 메모리와 지연 시간을 개선할 수 있음을 시사합니다. 과학적 관점에서, 이러한 LLM이 레이어 삭제에 대해 견고성을 보인다는 것은 현재의 사전 학습 방법이 네트워크의 깊은 레이어에 있는 파라미터를 제대로 활용하지 못하고 있거나, 얕은 레이어가 지식을 저장하는 데 중요한 역할을 하고 있음을 의미합니다.
ChatGPT와 GPT-4와 같은 대형 언어 모델(LLM)의 진화는 인공 일반 지능(AGI)의 도래에 대한 논의를 촉발시켰습니다. 그러나 이러한 발전을 오픈소스 모델에서 재현하는 것은 어려운 과제였습니다. 본 논문은 혁신적인 사전 학습 및 최적화 기법을 통해 6개 차원과 30개 벤치마크, 장문 맥락 모델링, 그리고 개방형 주관적 평가에서 선행 모델들을 능가하는 오픈소스 LLM인 InternLM2를 소개합니다. InternLM2의 사전 학습 과정은 텍스트, 코드, 장문 맥락 데이터를 포함한 다양한 데이터 유형의 준비를 상세히 설명합니다. InternLM2는 장기 의존성을 효과적으로 포착하며, 초기에는 4k 토큰으로 학습한 후 사전 학습 및 미세 조정 단계에서 32k 토큰으로 확장되어, 200k "Needle-in-a-Haystack" 테스트에서 뛰어난 성능을 보여줍니다. InternLM2는 지도 미세 조정(SFT)과 상충되는 인간 선호도와 보장 해킹 문제를 해결하는 새로운 조건부 온라인 인간 피드백 강화 학습(COOL RLHF) 전략을 통해 추가로 정렬됩니다. 다양한 학습 단계와 모델 크기의 InternLM2 모델을 공개함으로써, 우리는 커뮤니티에 모델의 진화에 대한 통찰을 제공합니다.
3D 가우시안 스플래팅(3DGS)은 최근 래디언스 필드 재구성 분야를 혁신적으로 변화시켰으며, 베이킹 없이도 고품질의 새로운 시점 합성과 빠른 렌더링 속도를 달성했습니다. 그러나 3D 가우시안의 다중 시점 불일치 특성으로 인해 3DGS는 표면을 정확하게 표현하지 못합니다. 본 논문에서는 다중 시점 이미지로부터 기하학적으로 정확한 래디언스 필드를 모델링하고 재구성하기 위한 새로운 접근법인 2D 가우시안 스플래팅(2DGS)을 제안합니다. 우리의 핵심 아이디어는 3D 볼륨을 일련의 2D 방향성 평면 가우시안 디스크로 축소하는 것입니다. 3D 가우시안과 달리, 2D 가우시안은 본질적으로 표면을 모델링하면서도 시점 일관적인 기하학을 제공합니다. 얇은 표면을 정확하게 복원하고 안정적인 최적화를 달성하기 위해, 우리는 광선-스플랫 교차와 래스터화를 활용한 정확한 시점 2D 스플래팅 프로세스를 도입했습니다. 또한, 재구성 품질을 더욱 향상시키기 위해 깊이 왜곡과 법선 일관성 항을 통합했습니다. 우리의 미분 가능 렌더러는 잡음 없는 세밀한 기하학적 재구성을 가능하게 하면서도 경쟁력 있는 외관 품질, 빠른 학습 속도, 실시간 렌더링을 유지함을 입증했습니다. 우리의 코드는 공개될 예정입니다.
텍스트-이미지(T2I) 생성 모델의 놀라운 발전은 미학적으로 매력적이고 사실적인 이미지를 생성할 수 있는 고성능 모델들을 다수 탄생시켰습니다. 그러나 이러한 진보에도 불구하고, 이 모델들은 여전히 입력 프롬프트와 일관된 이미지를 생성하는 데 어려움을 겪으며, 종종 객체의 수량, 관계 및 속성을 제대로 포착하지 못합니다. 프롬프트-이미지 일관성을 개선하기 위한 기존 솔루션들은 다음과 같은 문제점에 직면해 있습니다: (1) 모델 미세 조정이 필요한 경우가 많고, (2) 인접한 프롬프트 샘플에만 초점을 맞추며, (3) 이미지 품질, 표현 다양성, 프롬프트-이미지 일관성 간의 불리한 트레이드오프에 영향을 받습니다. 본 논문에서는 이러한 문제를 해결하고, 대규모 언어 모델(LLM)을 활용하여 T2I 모델의 프롬프트-이미지 일관성을 개선하는 프롬프트 최적화 프레임워크인 OPT2I를 소개합니다. 우리의 프레임워크는 사용자 프롬프트에서 시작하여 일관성 점수를 최대화하기 위해 수정된 프롬프트를 반복적으로 생성합니다. MSCOCO와 PartiPrompts 두 데이터셋에 대한 광범위한 검증을 통해, OPT2I가 초기 일관성 점수를 DSG 점수 기준으로 최대 24.9% 향상시키면서도 FID를 유지하고 생성된 데이터와 실제 데이터 간의 재현율을 증가시킬 수 있음을 보여줍니다. 본 연구는 LLM의 힘을 활용하여 더 신뢰할 수 있고 강력한 T2I 시스템을 구축하는 길을 열어줍니다.
최근의 텍스트-투-4D 생성 기술은 사전 학습된 텍스트-투-비디오 모델의 지도를 활용하여 동적인 3D 장면을 합성합니다. 그러나 기존의 모션 표현 방식, 예를 들어 변형 모델이나 시간 의존적 신경망 표현 등은 생성할 수 있는 모션의 양에 제한이 있어, 볼륨 렌더링에 사용된 경계 상자를 크게 벗어나는 모션을 합성할 수 없습니다. 이러한 더 유연한 모션 모델의 부재는 4D 생성 방법과 최근의 사실적인 비디오 생성 모델 간의 현실감 차이를 초래합니다. 본 연구에서는 TC4D: 궤적 조건부 텍스트-투-4D 생성을 제안하며, 모션을 전역적 요소와 지역적 요소로 분해합니다. 우리는 스플라인으로 매개변수화된 궤적을 따라 경계 상자의 전역적 모션을 강체 변환으로 표현합니다. 또한 텍스트-투-비디오 모델의 지도를 활용하여 전역 궤적에 부합하는 지역적 변형을 학습합니다. 우리의 접근 방식은 임의의 궤적을 따라 애니메이션된 장면의 합성, 구성적 장면 생성, 그리고 생성된 모션의 현실감과 양의 상당한 개선을 가능하게 하며, 이를 정성적으로 평가하고 사용자 연구를 통해 검증합니다. 비디오 결과는 우리의 웹사이트(https://sherwinbahmani.github.io/tc4d)에서 확인할 수 있습니다.
최근 3D Gaussian splatting(3D-GS)은 NeRF 기반 신경망 장면 표현에 비해 뛰어난 렌더링 정확도와 효율성을 보여주었습니다. 실시간 렌더링의 가능성을 보여주는 동시에, 3D-GS는 시야 절두체 내에 과도한 수의 Gaussian primitive가 위치하는 복잡한 디테일의 대형 장면에서 렌더링 병목 현상을 겪습니다. 이러한 한계는 특히 줌아웃 뷰에서 두드러지며, 디테일이 다양한 장면에서 일관되지 않은 렌더링 속도를 초래할 수 있습니다. 더욱이, 3D-GS는 휴리스틱 밀도 제어 작업을 통해 다양한 스케일에서 해당 수준의 디테일을 포착하는 데 어려움을 겪는 경우가 많습니다. Level-of-Detail(LOD) 기술에서 영감을 받아, 우리는 Octree-GS를 소개합니다. 이는 최종 렌더링 결과에 기여하는 장면 표현을 위한 LOD 구조의 3D Gaussian 접근 방식을 특징으로 합니다. 우리의 모델은 다중 해상도 앵커 포인트 세트에서 적절한 레벨을 동적으로 선택하며, 적응형 LOD 조정을 통해 일관된 렌더링 성능을 보장하면서도 높은 정확도의 렌더링 결과를 유지합니다.
본 연구에서는 오디오와 참조용 초상화 이미지로 구동되는 고품질 애니메이션을 생성하기 위한 새로운 프레임워크인 AniPortrait를 제안합니다. 우리의 방법론은 두 단계로 나뉩니다. 먼저, 오디오에서 3D 중간 표현을 추출하고 이를 2D 얼굴 랜드마크 시퀀스로 투영합니다. 이후, 강력한 디퓨전 모델과 모션 모듈을 결합하여 랜드마크 시퀀스를 사실적이고 시간적으로 일관된 초상화 애니메이션으로 변환합니다. 실험 결과, AniPortrait는 얼굴의 자연스러움, 포즈 다양성, 시각적 품질 측면에서 우수성을 보여주며, 이를 통해 향상된 지각 경험을 제공합니다. 또한, 우리의 방법론은 유연성과 제어 가능성 측면에서 상당한 잠재력을 보여주며, 얼굴 모션 편집이나 얼굴 재현과 같은 분야에 효과적으로 적용될 수 있습니다. 코드와 모델 가중치는 https://github.com/scutzzj/AniPortrait에서 공개합니다.
우리는 기하학적 지도를 기반으로 한 새로운 가우시안 스플래팅(Gaussian Splatting) 기법인 DreamPolisher를 소개합니다. 이 방법은 텍스트 설명으로부터 교차 뷰 일관성과 복잡한 디테일을 학습하도록 특화되었습니다. 최근 텍스트-3D 생성 방법의 발전은 유망하지만, 기존 방법들은 뷰 일관성과 텍스처 풍부함을 보장하지 못하는 경우가 많습니다. 이 문제는 특히 텍스트 입력만을 사용하는 방법에서 두드러집니다. 이를 해결하기 위해, 우리는 뷰 간 기하학적 일관성을 강화하는 두 단계의 가우시안 스플래팅 기반 접근 방식을 제안합니다. 먼저, 초기 생성된 3D 모델을 기하학적 최적화를 통해 개선합니다. 이후, 기하학적 일관성 항목과 결합된 ControlNet 기반 정제기를 사용하여 생성된 3D 자산의 텍스처 충실도와 전반적인 일관성을 향상시킵니다. 다양한 객체 카테고리에 걸친 텍스트 프롬프트를 대상으로 한 실험적 평가는 DreamPolisher가 텍스트 지시의 의미와 밀접하게 일치하며 일관적이고 사실적인 3D 객체를 생성하는 데 효과적임을 입증합니다.
본 논문은 Intel Data Center GPU Max 1550을 대상으로 최적화된 SYCL 기반의 다층 퍼셉트론(MLP) 구현을 제시한다. 성능을 향상시키기 위해, 우리의 구현은 MLP의 각 계층에서 연산을 융합함으로써 일반 레지스터 파일과 공유 로컬 메모리 내에서 데이터 재사용을 극대화하고, 느린 전역 메모리 접근을 최소화한다. 간단한 루프라인 모델을 통해 이 접근 방식이 산술 강도를 크게 증가시켜 특히 추론에서 성능이 개선됨을 보여준다. 우리는 MLP를 위한 유사한 CUDA 구현과 비교하여, Intel Data Center GPU에서의 우리의 구현이 Nvidia의 H100 GPU에서의 CUDA 구현보다 추론에서 최대 2.84배, 학습에서 최대 1.75배 더 우수한 성능을 보임을 입증한다. 또한, 본 논문은 우리의 SYCL 구현이 이미지 압축, 신경 방사 필드(Neural Radiance Fields), 물리 기반 머신 러닝(Physics-Informed Machine Learning)이라는 세 가지 중요한 영역에서의 효율성을 보여준다. 모든 경우에서, 우리의 구현은 동일한 Intel GPU에서의 Intel Extension for PyTorch(IPEX) 구현보다 최대 30배, Nvidia의 H100 GPU에서의 CUDA PyTorch 버전보다 최대 19배 더 우수한 성능을 보인다. 코드는 https://github.com/intel/tiny-dpcpp-nn에서 확인할 수 있다.