번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)은 현대 자연어 처리의 핵심으로, 다양한 작업에서 뛰어난 성능을 제공합니다. 그러나 이들의 높은 계산 및 메모리 요구 사항은 특히 DRAM 용량이 제한된 장치에서 문제를 야기합니다. 본 논문은 사용 가능한 DRAM 용량을 초과하는 LLM을 플래시 메모리에 모델 파라미터를 저장하고 필요 시 DRAM으로 불러오는 방식으로 효율적으로 실행하는 문제를 다룹니다. 우리의 방법은 플래시 메모리 동작과 조화를 이루는 추론 비용 모델을 구축하여 두 가지 주요 영역에서 최적화를 유도합니다: 플래시 메모리에서 전송되는 데이터 양을 줄이고, 더 크고 연속적인 데이터 청크를 읽는 것입니다. 이 플래시 메모리 기반 프레임워크 내에서 우리는 두 가지 주요 기술을 소개합니다. 첫째, "윈도잉"은 이전에 활성화된 뉴런을 재사용하여 데이터 전송을 전략적으로 줄이고, 둘째, 플래시 메모리의 순차적 데이터 접근 강점에 맞춘 "행-열 번들링"은 플래시 메모리에서 읽는 데이터 청크의 크기를 증가시킵니다. 이러한 방법들은 사용 가능한 DRAM 크기의 최대 두 배에 달하는 모델을 실행할 수 있게 하며, CPU와 GPU에서 각각 단순 로딩 방식에 비해 4-5배 및 20-25배의 추론 속도 향상을 달성합니다. 희소성 인식, 상황 적응형 로딩, 하드웨어 지향 설계의 통합은 제한된 메모리를 가진 장치에서 LLM의 효과적인 추론을 위한 길을 열어줍니다.
확장 가능한 벡터 그래픽스(SVGs)는 무한한 해상도 확장성, 다양한 활용성 및 편집 기능으로 인해 현대 이미지 렌더링 애플리케이션에서 필수적인 요소가 되었습니다. SVGs는 특히 웹 개발 및 그래픽 디자인 분야에서 널리 사용되고 있습니다. 딥러닝을 활용한 기존의 SVG 모델링 접근법은 복잡한 SVGs를 생성하는 데 어려움을 겪으며, 광범위한 처리와 단순화가 필요한 간단한 SVGs로 제한되는 경우가 많습니다. 본 논문은 Code Generation 대형 언어 모델(CodeLLMs)과 비전 모델을 효과적으로 통합한 다중 모달 SVG 생성 모델인 StarVector를 소개합니다. 우리의 접근 방식은 CLIP 이미지 인코더를 사용하여 픽셀 기반 이미지에서 시각적 표현을 추출한 후, 어댑터 모듈을 통해 이를 시각적 토큰으로 변환합니다. 이러한 시각적 토큰은 SVG 토큰 임베딩 앞에 추가되며, StarCoder 모델이 다음 토큰 예측을 사용하여 시퀀스를 모델링함으로써 시각적 토큰과 코드 토큰을 정렬하는 방법을 효과적으로 학습합니다. 이를 통해 StarVector는 픽셀 이미지를 정확하게 표현하는 제한 없는 SVGs를 생성할 수 있습니다. StarVector의 성능을 평가하기 위해, 우리는 여러 데이터셋과 관련 메트릭을 통해 SVG 방법을 평가하는 포괄적인 벤치마크인 SVG-Bench를 제시합니다. 이 벤치마크 내에서, 우리는 대규모 실제 SVG 예제 데이터셋인 SVG-Stack을 포함한 새로운 데이터셋을 소개하고, 이를 사용하여 StarVector를 SVG를 위한 대형 기반 모델로 사전 학습시킵니다. 우리의 결과는 현재의 방법들에 비해 시각적 품질과 복잡성 처리에서 상당한 개선을 보여주며, SVG 생성 기술의 주목할 만한 발전을 나타냅니다. 코드 및 모델: https://github.com/joanrod/star-vector
2D 랜드마크로부터 3D 구조와 카메라를 복원하는 작업은 컴퓨터 비전 분야의 초석을 이루는 핵심 기술입니다. 기존의 전통적인 방법들은 Perspective-n-Point (PnP) 문제와 같은 특정한 강체 물체에 국한되어 있었지만, 딥러닝 기술의 발전으로 인해 다양한 객체 클래스(예: C3PDO 및 PAUL)를 노이즈, 폐색, 원근 왜곡에 강인하게 복원할 수 있는 능력이 확장되었습니다. 그러나 이러한 모든 기술들은 3D 학습 데이터 간의 대응 관계를 설정해야 한다는 근본적인 한계에 의해 제약을 받아 왔으며, 이는 "대응 관계가 있는" 3D 데이터가 풍부한 응용 분야에서만 유용성을 발휘할 수 있음을 의미했습니다. 우리의 접근 방식은 트랜스포머(transformer)의 고유한 순열 등변성(permutation equivariance)을 활용하여 3D 데이터 인스턴스마다 다양한 수의 점을 처리하고, 폐색에 견디며, 보지 못한 카테고리로도 일반화할 수 있습니다. 우리는 2D-3D 복원 작업 벤치마크에서 최첨단 성능을 입증합니다. 우리의 접근 방식은 매우 광범위한 구조 클래스에 걸쳐 학습될 수 있기 때문에, 이를 단순히 3D 복원 기초 모델(3D Lifting Foundation Model, 3D-LFM)이라고 부릅니다. 이는 그 종류 중 최초의 모델입니다.
대규모 언어 모델(LLMs)이 시각적 입력을 처리할 수 있는 능력은 다양한 비전-언어(VL) 작업을 지시 튜닝을 통해 통합하는 범용 비전 시스템의 등장을 이끌었습니다. 그러나 비전 도메인에서 입력-출력 형식의 엄청난 다양성으로 인해, 기존의 범용 모델들은 세분화 작업과 다중 이미지 입력을 거시적 수준의 작업과 단일 프레임워크로 통합하는 데 실패했습니다. 본 연구에서는 단일 및 다중 입력 이미지에 걸친 거시적 및 미시적 VL 작업을 통합 프레임워크로 처리하는 강력한 시각 시스템인 VistaLLM을 소개합니다. VistaLLM은 작업 설명을 사용하여 전역 임베딩을 필터링하여 수많은 이미지에서 압축되고 정제된 특징을 추출하는 지시 기반 이미지 토크나이저를 활용합니다. 또한, VistaLLM은 이진 세분화 마스크를 시퀀스로 표현하기 위해 그레이디언트 인식 적응형 샘플링 기법을 사용하여 이전에 사용된 균일 샘플링을 크게 개선했습니다. VistaLLM의 원하는 능력을 강화하기 위해, 6.8M 샘플로 구성된 포괄적인 거시적에서 미시적 지시 튜닝 데이터셋인 CoinIt를 구축했습니다. 또한, 다중 이미지 그라운딩 데이터셋의 부족을 해결하기 위해, 다중 입력 이미지에 대한 모델의 추론 및 그라운딩 능력을 향상시키는 새로운 작업인 AttCoSeg(속성 수준 공동 세분화)를 도입했습니다. 다양한 V 및 VL 작업에 대한 광범위한 실험을 통해 VistaLLM의 효과를 입증하였으며, 모든 하위 작업에서 강력한 베이스라인을 일관되게 뛰어넘는 최첨단 성능을 달성했습니다. 우리의 프로젝트 페이지는 https://shramanpramanick.github.io/VistaLLM/에서 확인할 수 있습니다.
본 논문에서는 3D 인간 헤어스타일을 위한 새로운 스트랜드 기반 생성 모델인 HAAR를 소개합니다. 구체적으로, HAAR는 텍스트 입력을 기반으로 현대 컴퓨터 그래픽 엔진에서 프로덕션 수준의 자산으로 사용될 수 있는 3D 헤어스타일을 생성합니다. 현재의 AI 기반 생성 모델들은 강력한 2D 사전 지식을 활용하여 포인트 클라우드, 메쉬 또는 볼륨 함수 형태의 3D 콘텐츠를 재구성합니다. 그러나 이러한 2D 사전 지식을 사용함으로써, 이들은 본질적으로 시각적 부분만을 복구하는 데 제한됩니다. 심하게 가려진 헤어 구조는 이러한 방법으로 재구성할 수 없으며, 이들은 단지 '외부 껍질'만을 모델링하여 물리 기반 렌더링이나 시뮬레이션 파이프라인에서 사용할 준비가 되어 있지 않습니다. 이와 대조적으로, 우리는 3D 헤어 스트랜드를 기본 표현으로 사용하는 최초의 텍스트 가이드 생성 방법을 제안합니다. 2D 시각적 질문-응답(VQA) 시스템을 활용하여, 소수의 아티스트가 생성한 헤어스타일에서 생성된 합성 헤어 모델을 자동으로 주석 처리합니다. 이를 통해 공통 헤어스타일 UV 공간에서 작동하는 잠재 확산 모델을 학습할 수 있습니다. 정성적 및 정량적 연구에서, 우리는 제안된 모델의 능력을 입증하고 기존 헤어스타일 생성 접근법과 비교합니다.
부분적으로만 보이는 상태에서도 물체의 완전한 구조를 이해하는 능력인 아모달 지각(amodal perception)은 심지어 유아에게도 기본적인 기술입니다. 이 능력은 자율 주행과 같은 응용 분야에서도 중요한데, 심하게 가려진 물체를 명확히 이해하는 것이 필수적이기 때문입니다. 그러나 현대의 탐지 및 추적 알고리즘은 대부분의 데이터셋에서 모달(modal) 주석이 일반적으로 사용되기 때문에 이 중요한 능력을 종종 간과합니다. 아모달 데이터의 부족을 해결하기 위해, 우리는 880개의 다양한 카테고리를 포함한 수천 개의 비디오 시퀀스로 구성된 TAO-Amodal 벤치마크를 소개합니다. 우리의 데이터셋은 가려진 물체와 부분적으로 프레임 밖에 있는 물체를 포함하여, 가시적 및 비가시적 물체에 대한 아모달 및 모달 바운딩 박스를 제공합니다. 물체의 영속성(object permanence)을 강화한 아모달 추적을 위해, 우리는 경량 플러그인 모듈인 아모달 확장기(amodal expander)를 활용하여, 데이터 증강을 적용한 수백 개의 비디오 시퀀스에 대한 미세 조정(fine-tuning)을 통해 표준 모달 추적기를 아모달 추적기로 변환합니다. 이를 통해 TAO-Amodal에서 가려진 물체의 탐지 및 추적 성능이 각각 3.3%와 1.6% 향상되었습니다. 사람에 대해 평가할 때, 우리의 방법은 최신 모달 기준선(state-of-the-art modal baselines)에 비해 2배의 극적인 개선을 보여줍니다.
Neural Radiance Field(NeRF)는 놀라운 사실적 재구성 및 렌더링 능력으로 인해 새로운 시점 합성 분야에서 선도적인 기술로 부상했습니다. 그러나 대규모 장면에서 실시간 NeRF 렌더링을 달성하는 것은 여전히 어려운 과제로 남아 있으며, 이로 인해 많은 수의 삼각형으로 구성된 복잡한 베이크드 메시 표현이나 베이크드 표현에서의 자원 집약적인 레이 마칭 기법이 주로 사용되어 왔습니다. 우리는 이러한 관행에 의문을 제기하며, 사실적인 렌더링 품질을 달성하기 위해 많은 삼각형으로 구성된 고품질 기하학이 반드시 필요하지 않다는 점을 관찰했습니다. 이에 따라 우리는 저품질 메시, 시점 의존 변위 맵, 그리고 압축된 NeRF 모델을 포함하는 새로운 NeRF 표현 방식인 MixRT를 제안합니다. 이 설계는 기존 그래픽 하드웨어의 능력을 효과적으로 활용하여 에지 디바이스에서의 실시간 NeRF 렌더링을 가능하게 합니다. 고도로 최적화된 WebGL 기반 렌더링 프레임워크를 활용하여, 우리가 제안한 MixRT는 에지 디바이스에서 실시간 렌더링 속도(MacBook M1 Pro 노트북에서 1280 x 720 해상도로 30 FPS 이상), 더 나은 렌더링 품질(Unbounded-360 데이터셋의 실내 장면에서 0.2 PSNR 향상), 그리고 더 작은 저장 공간(최신 방법 대비 80% 미만)을 달성했습니다.
초해상도(Super-resolution, SR) 기술은 최근 신경 방사 필드(Neural Radiance Fields, NeRF)의 출력을 업스케일링하고 향상된 추론 속도로 고품질 이미지를 생성하기 위해 제안되었습니다. 그러나 기존의 NeRF+SR 방법은 추가 입력 특징, 손실 함수, 그리고 지식 증류와 같은 고비용의 학습 절차를 사용함으로써 학습 오버헤드를 증가시킵니다. 본 논문에서는 비용이 많이 드는 학습이나 아키텍처 변경 없이 SR을 활용하여 효율성을 높이는 것을 목표로 합니다. 구체적으로, 우리는 기존 모듈을 직접 결합한 간단한 NeRF+SR 파이프라인을 구축하고, 학습을 위한 경량화된 증강 기법인 랜덤 패치 샘플링을 제안합니다. 기존 NeRF+SR 방법과 비교하여, 우리의 파이프라인은 SR 계산 오버헤드를 완화하고 최대 23배 빠르게 학습할 수 있어 Apple MacBook과 같은 소비자 기기에서 실행이 가능합니다. 실험 결과, 우리의 파이프라인은 NeRF 출력을 2-4배 업스케일링하면서도 높은 품질을 유지하며, NVIDIA V100 GPU에서는 최대 18배, M1 Pro 칩에서는 12.8배의 추론 속도 향상을 보였습니다. 우리는 SR이 소비자 기기를 위한 NeRF 모델의 효율성을 개선하는 간단하지만 효과적인 기술이 될 수 있다고 결론지었습니다.
본 논문에서는 이미지-3D 생성에 맞춤형 지식 사전을 구축하기 위해 참조 이미지가 제공하는 정보를 완전히 활용하는 새로운 2단계 접근 방식을 제안합니다. 기존 접근 방식이 주로 일반적인 확산 모델에 의존하며, 이는 참조 이미지와 일관된 결과를 도출하는 데 어려움을 겪는 반면, 우리는 주체 특화적이고 다중 모달 확산 모델을 제안합니다. 이 모델은 향상된 기하학을 위해 쉐이딩 모드를 고려하여 NeRF 최적화를 지원할 뿐만 아니라, 거친 결과물에서 텍스처를 개선하여 우수한 정제를 달성합니다. 이 두 가지 측면 모두 3D 콘텐츠를 주체와 충실하게 정렬하는 데 기여합니다. 광범위한 실험을 통해 우리의 방법인 Customize-It-3D가 이전 연구를 상당한 차이로 능가하는 우수성을 입증했습니다. 이 방법은 인상적인 시각적 품질로 360도 재구성을 충실하게 생성하며, 텍스트-3D 생성을 포함한 다양한 응용 분야에 적합합니다.
비디오는 매우 중복성이 높은 데이터 소스이며, 주어진 작업을 해결하기 위해 몇 가지 핵심 순간만 식별하는 것으로도 충분한 경우가 많습니다. 본 논문에서는 사전 학습된 동결 상태의 비주얼 인코더와 대형 언어 모델(LLM)을 활용하여 긴 비디오 시퀀스를 처리하는 텍스트 조건 비디오 리샘플러(TCR) 모듈을 제안합니다. TCR은 텍스트 조건에 따라 비디오에서 관련된 시각적 특징을 찾아내고 이를 LLM에 제공하여 텍스트 응답을 생성합니다. 경량 설계와 교차 주의(cross-attention)를 활용함으로써, TCR은 한 번에 100개 이상의 프레임을 처리할 수 있어 이전 연구들보다 훨씬 더 긴 비디오 청크를 사용할 수 있습니다. 본 연구의 주요 기여는 다음과 같습니다: (i) 작업에 따라 긴 비디오를 처리할 수 있는 트랜스포머 기반 샘플링 아키텍처를 설계하고, 사전 학습된 비주얼 모델과 언어 모델을 연결할 수 있는 훈련 방법을 제안합니다; (ii) 다양한 평가 작업에서 그 효과를 실증적으로 검증하고, NextQA, EgoSchema, 그리고 EGO4D-LTA 챌린지에서 새로운 최첨단 성능을 달성합니다; (iii) 더 긴 비디오 컨텍스트가 필요한 작업들을 식별하여, 장거리 비디오 모델의 추가 평가에 효과적으로 활용할 수 있는 방향을 제시합니다.
텍스트 기반 확산 모델은 이미지 인페인팅, 스타일화, 객체 교체 등 다양한 이미지 편집 작업에서 점점 더 널리 사용되고 있습니다. 그러나 노이즈 제거, 초해상도, 디블러링, 압축 아티팩트 제거와 같은 더 세밀한 수준의 이미지 처리 작업에 이 언어-비전 패러다임을 적용하는 것은 여전히 열린 연구 문제로 남아 있습니다. 본 논문에서는 자연어를 사용자 친화적인 인터페이스로 활용하여 이미지 복원 과정을 제어하는 TIP(Text-driven Image Processing) 프레임워크를 개발합니다. 우리는 텍스트 정보의 능력을 두 가지 차원에서 고려합니다. 첫째, 콘텐츠 관련 프롬프트를 사용하여 의미론적 정렬을 강화함으로써 복원 결과에서의 정체성 모호성을 효과적으로 완화합니다. 둘째, 우리의 접근 방식은 명시적인 작업별 설계 없이도 언어 기반의 정량적 복원 강도 지정을 통해 세밀한 수준의 지시를 지원하는 최초의 프레임워크입니다. 또한, 우리는 기존 ControlNet 아키텍처를 보완하는 새로운 융합 메커니즘을 도입하여 생성적 사전 정보를 재조정하는 방법을 학습함으로써 더 나은 복원 충실도를 달성합니다. 우리의 광범위한 실험은 TIP가 최신 기술 대비 우수한 복원 성능을 보여줄 뿐만 아니라, 복원 효과에 대한 텍스트 기반 제어의 유연성을 제공함을 입증합니다.
본 논문은 사전 학습된 언어 모델과 같은 임베딩의 풍부한 정보를 이산적으로 캡슐화하는 Vector-Quantized Variational Auto-Encoder(VQ-VAE)의 잠재 코드북을 활용한 새로운 토픽 모델링 접근법을 소개합니다. 잠재 코드북과 임베딩을 개념적 Bag-of-Words로 해석하는 새로운 관점에서, 우리는 해당 잠재 코드북과 관련된 원본 문서를 역으로 생성하는 새로운 생성적 토픽 모델인 Topic-VQ-VAE(TVQ-VAE)를 제안합니다. TVQ-VAE는 전통적인 BoW 분포와 자기회귀적 이미지 생성 등 다양한 생성 분포를 통해 토픽을 시각화할 수 있습니다. 문서 분석 및 이미지 생성에 대한 실험 결과는 TVQ-VAE가 데이터셋의 기본 구조를 드러내는 토픽 컨텍스트를 효과적으로 포착하며 유연한 형태의 문서 생성을 지원함을 보여줍니다. 제안된 TVQ-VAE의 공식 구현은 https://github.com/clovaai/TVQ-VAE에서 확인할 수 있습니다.