번역이 포함된 일일 선별된 AI 연구 논문
단일 입력 이미지로부터 단 5초 만에 물체의 3D 모델을 예측하는 최초의 대형 재구성 모델(Large Reconstruction Model, LRM)을 제안합니다. ShapeNet과 같은 소규모 데이터셋에서 범주별로 학습된 기존 방법들과 달리, LRM은 5억 개의 학습 가능한 매개변수를 가진 고도로 확장 가능한 트랜스포머 기반 아키텍처를 채택하여 입력 이미지로부터 신경 방사장(Neural Radiance Field, NeRF)을 직접 예측합니다. 우리는 Objaverse의 합성 렌더링과 MVImgNet의 실제 캡처를 포함하여 약 100만 개의 물체로 구성된 대규모 다중 뷰 데이터를 통해 이 모델을 종단 간(end-to-end) 방식으로 학습시켰습니다. 이러한 고용량 모델과 대규모 학습 데이터의 조합은 우리 모델이 실제 환경에서 캡처된 이미지와 생성 모델에서 나온 이미지를 포함한 다양한 테스트 입력에서도 높은 일반화 능력과 고품질의 3D 재구성을 가능하게 합니다. 비디오 데모와 상호작용 가능한 3D 메시는 다음 웹사이트에서 확인할 수 있습니다: https://yiconghong.me/LRM/.
최근 멀티모달 대형 언어 모델(MM-LLMs)이 놀라운 발전을 이루었음에도 불구하고, 여전히 다중 모달 입력 간의 상호작용과 비텍스트 모달리티에서의 생성을 효율적으로 모델링하는 데 어려움을 겪고 있습니다. 본 연구에서는 모든 모달리티의 입력을 토큰 시퀀스로 처리하고 모든 모달리티를 위한 공통 임베딩 공간을 학습하는 TEAL(Tokenize and Embed ALl) 접근법을 제안합니다. 구체적으로, TEAL은 어떤 모달리티의 입력이든 먼저 기존의 토크나이저를 사용하여 토큰 시퀀스로 이산화한 다음, 학습 가능한 임베딩 행렬을 통해 이 토큰 시퀀스를 공통 임베딩 공간에 임베딩합니다. MM-LLMs는 텍스트 LLMs가 하는 것처럼 멀티모달 토큰을 자동회귀적으로 예측하기만 하면 됩니다. 마지막으로, 예측된 토큰 시퀀스를 기반으로 각 모달리티에서 출력을 생성하기 위해 해당 디토크나이저가 적용됩니다. TEAL은 공통 임베딩 공간을 통해 고정된 LLMs가 이미지 및 오디오와 같은 비텍스트 모달리티를 포함한 이해 및 생성 작업을 수행할 수 있게 합니다. 따라서 텍스트 LLM은 인터페이스 역할만 하면서도 텍스트 이해 및 생성에서의 높은 성능을 유지할 수 있습니다. 실험 결과, TEAL은 멀티모달 이해에서 상당한 개선을 달성했으며, 멀티모달 생성을 위한 간단한 체계를 구현했습니다.
대규모 언어 모델(LLM)의 발전은 다중모달 이해 분야를 크게 진전시켰으며, 이로 인해 대규모 다중모달 모델(LMM)이 등장하게 되었습니다. 시각적 이해 수준을 향상시키기 위해 최근 연구들은 객체의 바운딩 박스 좌표를 일련의 텍스트 시퀀스(pixel2seq)로 표현함으로써 LMM에 영역 수준의 이해 능력을 부여했습니다. 본 논문에서는 객체 위치 모델링을 위한 새로운 패러다임인 pixel2emb 방법을 소개합니다. 이 방법에서는 LMM이 위치 임베딩을 출력하도록 요청한 후, 이를 다양한 디코더로 디코딩합니다. 이 패러다임은 바운딩 박스와 마스크와 같은 다양한 위치 형식을 다중모달 대화에서 사용할 수 있게 합니다. 또한, 이러한 임베딩 기반 위치 모델링은 탐지 및 분할과 같은 위치 지정 작업에서 기존의 관행을 활용할 수 있게 합니다. 제한된 자원 환경에서, 우리의 pixel2emb는 공정한 비교 하에서 위치 입력 및 출력 작업 모두에서 기존의 최첨단(SOTA) 접근법보다 우수한 성능을 보여줍니다. 제안된 pixel2emb 방법을 활용하여, 우리는 NExT-Chat이라는 LMM을 학습시키고, 시각적 그라운딩, 영역 캡션, 그리고 그라운디드 추론과 같은 여러 작업을 처리할 수 있는 능력을 입증합니다.
최근 텍스트-이미지 모델의 놀라운 질적 개선은 이들에 대한 광범위한 관심과 채택으로 이어졌습니다. 그러나 우리는 이들의 능력과 위험에 대한 포괄적인 정량적 이해가 부족한 상황입니다. 이러한 격차를 메우기 위해, 우리는 새로운 벤치마크인 '텍스트-이미지 모델의 종합적 평가(Holistic Evaluation of Text-to-Image Models, HEIM)'를 소개합니다. 기존 평가가 주로 텍스트-이미지 정렬과 이미지 품질에 초점을 맞췄던 반면, 우리는 텍스트-이미지 정렬, 이미지 품질, 미적 요소, 독창성, 추론 능력, 지식, 편향, 유해성, 공정성, 견고성, 다국어 지원, 효율성 등 12가지 측면을 식별했습니다. 우리는 이러한 측면을 포괄하는 62개의 시나리오를 구성하고, 이 벤치마크에서 26개의 최첨단 텍스트-이미지 모델을 평가했습니다. 우리의 결과는 단일 모델이 모든 측면에서 뛰어나지 않으며, 각 모델이 서로 다른 강점을 보인다는 것을 보여줍니다. 우리는 생성된 이미지와 인간 평가 결과를 https://crfm.stanford.edu/heim/v1.1.0에서, 그리고 HELM 코드베이스와 통합된 코드를 https://github.com/stanford-crfm/helm에서 공개하여 완전한 투명성을 제공합니다.
단일 이미지에서 3D 객체 탐지를 위한 최신 방법인 3DiffTection을 소개합니다. 이 방법은 3D 인식 확산 모델의 특징을 활용합니다. 대규모 이미지 데이터에 대한 3D 탐지 주석 작업은 자원이 많이 들고 시간이 소요됩니다. 최근, 사전 학습된 대형 이미지 확산 모델이 2D 인식 작업을 위한 효과적인 특징 추출기로 주목받고 있습니다. 그러나 이러한 특징은 초기에 텍스트와 이미지 쌍 데이터로 학습되어 3D 작업에 최적화되지 않았으며, 대상 데이터에 적용할 때 종종 도메인 간격을 보입니다. 우리의 접근 방식은 두 가지 전문화된 튜닝 전략, 즉 기하학적 및 의미론적 튜닝을 통해 이러한 간격을 해소합니다. 기하학적 튜닝을 위해, 우리는 단일 이미지를 조건으로 새로운 시점 합성을 수행하도록 확산 모델을 미세 조정하며, 새로운 에피폴라 워프 연산자를 도입합니다. 이 작업은 3D 인식의 필요성과 포즈가 지정된 이미지 데이터에만 의존한다는 두 가지 필수 기준을 충족합니다. 이러한 데이터는 비디오와 같은 소스에서 쉽게 얻을 수 있으며 수동 주석이 필요하지 않습니다. 의미론적 개선을 위해, 우리는 탐지 감독을 통해 대상 데이터에 대해 모델을 추가로 학습시킵니다. 두 튜닝 단계 모두 ControlNet을 사용하여 원래 특징 기능의 무결성을 유지합니다. 마지막 단계에서, 우리는 이러한 강화된 기능을 활용하여 여러 가상 시점에 걸쳐 테스트 시점 예측 앙상블을 수행합니다. 우리의 방법론을 통해, 3D 탐지에 맞춤화되고 교차 시점 포인트 대응을 우수하게 식별하는 3D 인식 특징을 얻습니다. 결과적으로, 우리의 모델은 강력한 3D 탐지기로 등장하며, Omni3D-ARkitscene 데이터셋에서 단일 시점 3D 탐지의 선구자인 Cube-RCNN을 AP3D 기준으로 9.43% 능가합니다. 또한, 3DiffTection은 강력한 데이터 효율성과 교차 도메인 데이터에 대한 일반화 능력을 보여줍니다.
최근 연구들은 대규모 언어 모델(LLMs)이 프로그래밍 능력을 통해 전통적인 신경-기호 모델을 강화하여 언어를 모듈 설명으로 변환함으로써 모델의 투명성과 효율성을 유지하면서도 강력한 시각적 추론 결과를 달성할 수 있음을 보여주었습니다. 그러나 이러한 모델들은 일반적으로 각 작업의 새로운 인스턴스가 주어질 때마다 전체 코드 스니펫을 모두 생성하는데, 이는 매우 비효율적입니다. 우리는 모듈을 성장시키고 재사용함으로써 생성적 신경-기호 시각적 추론을 제안합니다. 구체적으로, 우리의 모델은 모듈 초기화, 모듈 생성, 모듈 실행이라는 세 가지 독특한 단계로 구성됩니다. 먼저, 시각-언어 작업이 주어지면, 우리는 LLMs를 사용하여 이 새로운 작업을 처리하기 위해 기존 모듈을 재사용하고 성장시킬 수 있는지 검토합니다. 만약 그렇지 않다면, 작업에 필요한 새로운 모듈을 초기화하고 이 새로운 모듈의 입력과 출력을 명시합니다. 그 후, 새로운 모듈은 요구 사항에 맞는 코드 스니펫을 생성하기 위해 LLMs를 쿼리하여 생성됩니다. 새로운 모듈의 능력을 더 잘 이해하기 위해, 우리는 소수의 학습 예제를 테스트 케이스로 간주하여 새로운 모듈이 이러한 케이스를 통과할 수 있는지 확인합니다. 만약 통과한다면, 새로운 모듈은 향후 재사용을 위해 모듈 라이브러리에 추가됩니다. 마지막으로, 우리는 새로 만든 시각적 모듈로 파싱된 프로그램을 실행하여 테스트 세트에서 모델의 성능을 평가하고 결과를 얻습니다. 우리는 제안된 모델이 몇 가지 장점을 가지고 있음을 발견했습니다. 첫째, 시각적 질의응답 및 참조 표현 이해와 같은 표준 작업에서 경쟁력 있는 성능을 보입니다. 둘째, 한 작업에서 학습된 모듈은 새로운 작업으로 원활하게 전이될 수 있습니다. 마지막으로, 소수의 학습 예제를 관찰하고 모듈을 재사용함으로써 새로운 시각적 추론 작업에 적응할 수 있습니다.