번역이 포함된 일일 선별된 AI 연구 논문
트랜스포머(Transformers)는 언어 모델링에서 딥러닝의 성공을 이끈 주요 아키텍처였지만, 최근 Mamba와 같은 상태-공간 모델(State-Space Models, SSMs)이 소규모에서 중간 규모의 작업에서 트랜스포머와 동등하거나 더 나은 성능을 보이는 것으로 나타났습니다. 우리는 이러한 모델군이 실제로 매우 밀접하게 관련되어 있음을 보여주며, 구조화된 반분리 행렬(semiseparable matrices)의 다양한 분해를 통해 SSMs와 주의력(attention) 변형 간의 이론적 연결을 풍부하게 구성한 프레임워크를 개발합니다. 우리의 상태-공간 이중성(State Space Duality, SSD) 프레임워크는 Mamba의 선택적 SSM을 개선한 새로운 아키텍처(Mamba-2)를 설계할 수 있게 해주며, 이는 핵심 레이어가 2-8배 더 빠르면서도 언어 모델링에서 트랜스포머와 경쟁력을 유지합니다.
인공 일반 지능(AGI)을 추구하는 과정에서, 다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)이 최근 주요 관심사로 부상했습니다. 그러나 현재까지의 연구는 주로 정적 이미지 이해 능력 개발에 집중되어 있으며, 순차적 시각 데이터 처리에서의 MLLMs 잠재력은 여전히 충분히 탐구되지 않았습니다. 이는 MLLMs의 성능을 종합적이고 고품질로 평가할 수 있는 체계가 부재함을 의미합니다. 본 논문에서는 비디오 분석 분야에서 MLLMs의 첫 번째 전범위 다중 모달 평가 벤치마크인 Video-MME를 소개합니다. 우리의 작업은 네 가지 주요 특징을 통해 기존 벤치마크와 차별화됩니다: 1) 6개의 주요 시각 도메인과 30개의 하위 분야를 아우르는 다양한 비디오 유형을 통해 광범위한 시나리오 일반화를 보장; 2) 11초부터 1시간까지의 단기, 중기, 장기 비디오를 포함한 시간적 차원의 다양성을 통해 견고한 맥락적 역동성 제공; 3) 비디오 프레임 외에도 자막 및 오디오와 같은 다중 모달 입력을 통합하여 MLLMs의 전방위 능력 발휘; 4) 전문가 주석가의 엄격한 수동 라벨링을 활용한 고품질 주석을 통해 정확하고 신뢰할 수 있는 모델 평가 가능. 총 256시간 분량의 900개 비디오를 반복적으로 시청하여 선별하고 주석을 달아 2,700개의 질문-답변 쌍을 생성했습니다. Video-MME를 통해 GPT-4 시리즈 및 Gemini 1.5 Pro와 같은 최신 MLLMs뿐만 아니라 InternVL-Chat-V1.5와 같은 오픈소스 이미지 모델 및 LLaVA-NeXT-Video와 같은 비디오 모델을 광범위하게 평가했습니다. 실험 결과, Gemini 1.5 Pro가 상업용 모델 중 가장 우수한 성능을 보였으며, 오픈소스 모델들을 크게 앞섰습니다. 우리의 데이터셋과 이러한 발견들은 더 긴 시퀀스와 다중 모달 데이터 처리에 대한 추가 개선의 필요성을 강조합니다. 프로젝트 페이지: https://video-mme.github.io
본 연구에서는 소규모 언어 모델이 대규모 텍스트 데이터셋의 고품질 부분집합을 결정하여 더 큰 언어 모델의 성능을 향상시킬 수 있는지 조사합니다. 기존 연구에서는 더 큰 모델의 복잡도(perplexity)를 기반으로 한 데이터 정제(pruning)가 고품질 데이터를 산출할 수 있음을 보여주었지만, 본 연구에서는 소규모 모델을 복잡도 기반 정제에 사용할 수 있는지, 그리고 정제가 데이터의 도메인 구성에 어떻게 영향을 받는지 탐구합니다. 우리는 여러 데이터셋 구성에 대해, 사전 학습 데이터의 복잡도 기반 정제가 다운스트림 작업 성능을 크게 향상시킬 수 있음을 입증합니다: 1억 2,500만 개의 파라미터를 가진 모델로 계산된 복잡도를 기반으로 정제하면, 30억 개의 파라미터를 가진 모델의 다운스트림 작업 평균 성능이 최대 2.04까지 향상되며, 동등한 기준 성능에 도달하기 위한 사전 학습 단계를 최대 1.45배까지 줄일 수 있습니다. 또한, 이러한 복잡도 기반 데이터 정제가 과도하게 학습된(over-trained) 및 데이터가 제한된(data-constrained) 환경에서도 다운스트림 성능 향상을 가져옴을 보여줍니다.
디퓨전 모델은 텍스트 설명에서 고품질 이미지를 생성하는 강력한 도구로 부상했습니다. 이러한 성공에도 불구하고, 특히 높은 분류자 없는 가이던스 가중치로 샘플링할 때, 이러한 모델은 종종 샘플링된 이미지의 다양성이 제한되는 경향을 보입니다. 이 문제를 해결하기 위해, 우리는 자동회귀적 잠재 사전 정보를 통합하여 샘플의 다양성을 향상시키는 새로운 접근 방식인 Kaleido를 제시합니다. Kaleido는 원본 캡션을 인코딩하고 잠재 변수를 생성하는 자동회귀 언어 모델을 통합하여, 이미지 생성 과정을 안내하고 촉진하기 위한 추상적이고 중간적인 표현으로 활용합니다. 본 논문에서는 텍스트 설명, 감지 경계 상자, 객체 블롭, 시각적 토큰을 포함한 다양한 이산 잠재 표현을 탐구합니다. 이러한 표현들은 디퓨전 모델에 대한 입력 조건을 다양화하고 풍부하게 하여 더 다양한 출력을 가능하게 합니다. 우리의 실험 결과는 Kaleido가 주어진 텍스트 설명에서 생성된 이미지 샘플의 다양성을 효과적으로 확장하면서도 높은 이미지 품질을 유지한다는 것을 보여줍니다. 또한, Kaleido가 생성된 잠재 변수에 의해 제공된 가이던스를 밀접하게 준수함으로써, 이미지 생성 과정을 효과적으로 제어하고 지시할 수 있는 능력을 입증합니다.
현재의 4D 생성 방법들은 고급 확산 생성 모델의 도움으로 주목할 만한 성과를 달성했습니다. 그러나 이러한 방법들은 다중 뷰 시공간 모델링이 부족하고, 여러 확산 모델로부터 다양한 사전 지식을 통합하는 데 어려움을 겪으며, 일관되지 않은 시간적 외관과 깜빡임 문제를 야기합니다. 본 논문에서는 단안 비디오로부터 시공간적으로 일관된 4D 콘텐츠를 생성하기 위한 새로운 4D 생성 파이프라인인 4Diffusion을 제안합니다. 먼저, 다중 뷰 비디오 생성을 위해 고안된 통합 확산 모델을 설계합니다. 이 모델은 고정된 3D 인식 확산 모델에 학습 가능한 모션 모듈을 통합하여 다중 뷰 시공간 상관관계를 포착합니다. 선별된 데이터셋에 대해 학습한 후, 우리의 확산 모델은 합리적인 시간적 일관성을 획득하며, 3D 인식 확산 모델의 일반화 능력과 공간적 일관성을 본질적으로 보존합니다. 이후, 우리는 다중 뷰 비디오 확산 모델을 기반으로 한 4D 인식 점수 증류 샘플링 손실을 제안하여 동적 NeRF로 매개변수화된 4D 표현을 최적화합니다. 이는 여러 확산 모델로부터 발생하는 불일치를 제거하여 시공간적으로 일관된 4D 콘텐츠를 생성할 수 있도록 합니다. 또한, 외관 세부 사항을 강화하고 동적 NeRF의 학습을 촉진하기 위해 앵커 손실을 고안했습니다. 광범위한 정성적 및 정량적 실험을 통해 우리의 방법이 이전 방법들에 비해 우수한 성능을 달성함을 입증합니다.
2차 최적화 기법은 프리컨디셔너(preconditioner)라는 행렬을 유지하며, 이론과 실제 모두에서 1차 최적화 기법보다 우수합니다. 그러나 프리컨디셔너와 그 역행렬의 제곱근을 구성하는 상태들은 2차 최적화 기법으로 훈련할 수 있는 모델의 최대 크기를 제한합니다. 이를 해결하기 위해 32비트 최적화 상태를 더 낮은 비트폭으로 압축하는 방법이 메모리 사용량을 줄이는 데 유망한 결과를 보여주었습니다. 하지만 현재의 접근법들은 1차 최적화 기법에만 적용되고 있습니다. 본 논문에서는 4비트 Shampoo를 예시로, 32비트 버전과 유사한 성능을 유지하면서도 4비트 2차 최적화 기법을 최초로 제안합니다. 우리는 4비트 Shampoo에서 프리컨디셔너의 고유벡터 행렬을 양자화하는 것이 프리컨디셔너 자체를 양자화하는 것보다 이론적 및 실험적으로 훨씬 우수함을 보여줍니다. 양자화된 고유벡터 행렬의 직교성을 보정함으로써, 프리컨디셔너의 고유벡터 행렬 근사를 개선하고, 이는 역 4제곱근 계산에도 이점을 제공합니다. 또한, 2차 최적화 상태를 양자화할 때 선형 제곱 양자화가 동적 트리 양자화보다 약간 더 나은 성능을 보임을 발견했습니다. 이미지 분류를 위한 다양한 네트워크에서의 평가 결과, 우리의 4비트 Shampoo는 32비트 버전과 비슷한 테스트 정확도를 달성하면서도 더 메모리 효율적임을 입증했습니다. 소스 코드는 공개될 예정입니다.