번역이 포함된 일일 선별된 AI 연구 논문
우리는 새로운 하이브리드 Transformer-Mamba 혼합 전문가(MoE) 아키텍처를 기반으로 한 새로운 대형 언어 모델인 Jamba를 소개합니다. 구체적으로, Jamba는 Transformer와 Mamba 레이어 블록을 교차 배치하여 두 모델 패밀리의 장점을 모두 누릴 수 있습니다. 일부 레이어에는 MoE를 추가하여 모델 용량을 늘리면서도 활성 매개변수 사용을 관리 가능한 수준으로 유지합니다. 이 유연한 아키텍처는 리소스와 목적에 맞는 구성을 가능하게 합니다. 우리가 구현한 특정 구성에서는 단일 80GB GPU에 적합한 강력한 모델을 얻을 수 있습니다. 대규모로 구축된 Jamba는 기존 Transformer 대비 높은 처리량과 작은 메모리 공간을 제공하면서도 표준 언어 모델 벤치마크와 장문맥 평가에서 최첨단 성능을 보여줍니다. 특히, 이 모델은 최대 256K 토큰의 문맥 길이에서도 강력한 결과를 제시합니다. 우리는 Transformer와 Mamba 레이어를 결합하는 방법, 전문가를 혼합하는 방법 등 다양한 아키텍처 결정을 연구하고, 이 중 일부가 대규모 모델링에서 중요한 역할을 한다는 것을 보여줍니다. 또한 Jamba의 훈련과 평가를 통해 밝혀진 이러한 아키텍처의 흥미로운 특성들을 설명하고, 다양한 제거 실험에서 얻은 체크포인트를 공개하여 이 새로운 아키텍처의 추가 탐구를 장려할 계획입니다. 우리는 Jamba 구현의 가중치를 허용적 라이선스 하에 공개합니다.
우리는 컴팩트하면서도 다용도로 활용 가능한 텍스트 임베딩 모델인 Gecko를 소개한다. Gecko는 대규모 언어 모델(LLM)로부터 지식을 추출하여 리트리버에 전달하는 핵심 아이디어를 통해 강력한 검색 성능을 달성한다. 우리의 2단계 지식 증류 프로세스는 먼저 LLM을 사용하여 다양하고 합성된 쌍 데이터를 생성하는 것으로 시작한다. 다음으로, 각 쿼리에 대한 후보 문단 세트를 검색하고 동일한 LLM을 사용하여 긍정적 및 어려운 부정적 문단을 재라벨링함으로써 데이터 품질을 더욱 개선한다. 우리 접근 방식의 효과는 Gecko의 컴팩트함으로 입증된다. Massive Text Embedding Benchmark(MTEB)에서 256 임베딩 차원의 Gecko는 768 임베딩 크기의 모든 기존 모델을 능가한다. 768 임베딩 차원의 Gecko는 평균 66.31점을 달성하며, 7배 더 큰 모델과 5배 더 높은 차원의 임베딩과 경쟁력을 보인다.
대형 언어 모델(LLM)은 스마트폰에서 지능형 어시스턴트, 텍스트 요약, 번역, 멀티모달리티 등 다양한 작업에 널리 활용되고 있습니다. 그러나 현재의 온디바이스 LLM 배포 방식은 느린 추론 속도로 인해 사용자 경험이 저하되는 문제가 있습니다. 이를 해결하기 위해 디바이스 GPU에서 고효율 LLM 배포를 가능하게 하는 네 가지 최적화 기법을 제안합니다: (a) 동적 형태 모델 추론을 지원하는 기호 표현 기반 접근법; (b) 추론 속도 향상과 폰 지연 현상 감소를 위한 연산자 최적화 및 실행 우선순위 설정; (c) 역양자화 오버헤드를 줄이는 FP4 양자화 기법 M0E4; (d) LLM 추론 후 KV 캐시 복사 필요성을 제거하는 서브 텐서 기반 기법. 또한, 이러한 방법들을 퀄컴과 MTK 프로세서 모두와 호환되는 모바일 추론 엔진인 Transformer-Lite에 구현했습니다. Transformer-Lite의 성능을 평가하기 위해 2B에서 14B까지 다양한 아키텍처와 파라미터를 가진 LLM을 사용했습니다. 특히, ChatGLM2 6B의 경우 프리필 및 디코딩 속도가 각각 121 토큰/초와 14 토큰/초, 더 작은 Gemma 2B의 경우 330 토큰/초와 30 토큰/초를 달성했습니다. CPU 기반 FastLLM 및 GPU 기반 MLC-LLM과 비교했을 때, 우리의 엔진은 프리필 속도에서 10배 이상, 디코딩 속도에서 2~3배의 성능 향상을 보였습니다.
참조 해결(reference resolution)은 다양한 종류의 맥락을 이해하고 성공적으로 처리하기 위해 필수적인 중요한 문제입니다. 이러한 맥락에는 이전 대화뿐만 아니라 사용자의 화면에 있는 개체나 백그라운드에서 실행 중인 개체와 같은 비대화적(non-conversational) 개체와 관련된 맥락도 포함됩니다. 대형 언어 모델(LLM)이 다양한 작업에서 매우 강력한 성능을 보여주고 있지만, 특히 비대화적 개체에 대한 참조 해결에서의 활용은 아직 충분히 이루어지지 않고 있습니다. 본 논문은 참조 해결이 전통적으로 텍스트만으로 축소하기 어려운 화면상의 개체와 같은 형태를 포함함에도 불구하고, 이를 언어 모델링 문제로 변환함으로써 다양한 유형의 참조를 해결하는 매우 효과적인 시스템을 LLM을 통해 구축할 수 있음을 보여줍니다. 우리는 기존의 유사한 기능을 가진 시스템에 비해 다양한 유형의 참조에서 큰 개선을 보여주었으며, 가장 작은 모델도 화면상 참조에 대해 5% 이상의 절대적 성능 향상을 달성했습니다. 또한 GPT-3.5 및 GPT-4와의 벤치마크에서, 가장 작은 모델은 GPT-4와 비슷한 성능을 보였고, 더 큰 모델들은 GPT-4를 크게 능가하는 성과를 거두었습니다.
새로운 시점 합성(Novel View Synthesis, NVS)은 3D 컴퓨터 비전 분야에서 상당한 진전을 이루었지만, 일반적으로 밀집한 시점에서 카메라 내부 및 외부 파라미터의 초기 추정이 필요합니다. 이러한 전처리는 일반적으로 Structure-from-Motion(SfM) 파이프라인을 통해 수행되며, 이 과정은 특히 매칭된 특징이 부족한 희소 시점(sparse-view) 시나리오에서 느리고 불안정할 수 있습니다. 본 연구에서는 점 기반 표현(예: 3D Gaussian Splatting, 3D-GS)과 종단 간(end-to-end) 밀집 스테레오 모델(DUSt3R)의 강점을 통합하여, 포즈가 없고(spose-free) 희소 시점 문제를 포함하는 제약 없는 환경에서의 NVS의 복잡하고 해결되지 않은 문제를 해결합니다. 우리의 프레임워크인 InstantSplat은 밀집 스테레오 사전 정보를 3D-GS와 통합하여 희소 시점 및 포즈가 없는 이미지로부터 대규모 장면의 3D 가우시안을 1분 이내에 구축합니다. 구체적으로, InstantSplat은 사전 훈련된 밀집 스테레오 파이프라인에서 도출된 전역적으로 정렬된 3D 점 지도를 활용하여 모든 훈련 시점에서 초기 장면 구조와 카메라 파라미터를 신속하게 설정하는 Coarse Geometric Initialization(CGI) 모듈을 포함합니다. 이어서, 3D 가우시안 속성과 초기화된 포즈를 포즈 정규화와 함께 공동으로 최적화하는 Fast 3D-Gaussian Optimization(F-3DGO) 모듈이 뒤따릅니다. 대규모 실외 데이터셋인 Tanks & Temples에서 수행된 실험 결과, InstantSplat은 SSIM을 32% 향상시키는 동시에 Absolute Trajectory Error(ATE)를 80% 감소시켰습니다. 이를 통해 InstantSplat은 포즈가 없고 희소 시점 조건을 포함하는 시나리오에서의 실행 가능한 솔루션으로 입증되었습니다. 프로젝트 페이지: instantsplat.github.io.
본 논문은 비전 언어 모델(Vision Language Models, VLMs)에 대한 새로운 중요한 도전 과제인 '해결 불가능 문제 탐지(Unsolvable Problem Detection, UPD)'를 소개합니다. UPD는 시각 질의응답(Visual Question Answering, VQA) 작업에서 해결 불가능한 문제에 직면했을 때 VLMs가 답변을 자제할 수 있는 능력을 검토합니다. UPD는 세 가지 구별되는 설정을 포함합니다: 답변 부재 탐지(Absent Answer Detection, AAD), 호환되지 않는 답변 집합 탐지(Incompatible Answer Set Detection, IASD), 그리고 호환되지 않는 시각 질문 탐지(Incompatible Visual Question Detection, IVQD). UPD 문제를 깊이 있게 조사하기 위해, 광범위한 실험을 통해 GPT-4V와 LLaVA-Next-34B를 포함한 대부분의 VLMs가 다양한 정도로 우리의 벤치마크에서 어려움을 겪는 것으로 나타났으며, 이는 상당한 개선의 여지가 있음을 강조합니다. UPD를 해결하기 위해, 우리는 훈련 없이 적용 가능한 방법과 훈련 기반의 해결책을 탐구하며, 그 효과와 한계에 대한 새로운 통찰을 제공합니다. 우리는 우리의 통찰이 제안된 UPD 설정 내에서의 미래의 노력과 함께, 보다 실용적이고 신뢰할 수 있는 VLMs의 이해와 개발을 촉진할 것을 기대합니다.
언어 모델이 훈련 데이터의 전체 문단을 암기하고 재현하는 데 사용하는 가중치와 메커니즘을 특정할 수 있을까? 본 논문에서는 암기 현상이 여러 계층과 모델 구성 요소에 걸쳐 분포되어 있지만, 암기된 문단의 그래디언트는 비암기 예제의 그래디언트와 구별되는 공간적 패턴을 보이며, 특히 하위 모델 계층에서 더 크다는 것을 보여준다. 또한, 고 그래디언트 가중치만을 미세 조정함으로써 암기된 예제를 제거할 수 있다. 우리는 문단 암기에 특히 관여하는 것으로 보이는 하위 계층의 어텐션 헤드를 특정했다. 이 헤드는 코퍼스 수준의 단일어(unigram) 분포에서 가장 드물게 나타나는 독특한 토큰에 주로 주의를 집중한다. 다음으로, 접두사의 토큰들에 대한 암기의 국소화 정도를 연구하기 위해 토큰을 교란시키고 디코딩에 미치는 변화를 측정했다. 접두사 초반의 몇 가지 독특한 토큰이 종종 전체 후속 문장을 왜곡할 수 있다. 전반적으로, 암기된 후속 문장은 제거하기 어려울 뿐만 아니라, 비암기 예제에 비해 왜곡시키기도 더 어렵다.
트랜스포머의 계산 부하를 줄이기 위한 노력의 일환으로, 선형 어텐션에 대한 연구가 상당한 속도로 진행되고 있습니다. 그러나 어텐션 메커니즘의 개선 전략은 일반적으로 광범위한 재훈련을 필요로 하며, 이는 방대한 매개변수를 가진 대규모 언어 모델에는 실용적이지 않습니다. 본 논문에서는 사전 훈련된 일반 트랜스포머를 적은 훈련 비용으로 선형 복잡도 모델로 변환할 수 있는 새로운 주파수 영역 커널화 접근법인 DiJiang을 제안합니다. 가중치가 적용된 준-몬테카를로 방법을 샘플링에 사용함으로써, 제안된 접근법은 이론적으로 우수한 근사 효율성을 제공합니다. 훈련 계산 복잡도를 더욱 줄이기 위해, 우리의 커널화는 이산 코사인 변환(DCT) 연산을 기반으로 합니다. 광범위한 실험을 통해 제안된 방법이 원래의 트랜스포머와 비슷한 성능을 달성하면서도 훈련 비용을 크게 줄이고 추론 속도를 훨씬 빠르게 할 수 있음을 입증했습니다. 우리의 DiJiang-7B는 다양한 벤치마크에서 LLaMA2-7B와 비슷한 성능을 보이면서도 약 1/50의 훈련 비용만을 요구합니다. 코드는 https://github.com/YuchuanTian/DiJiang에서 확인할 수 있습니다.
최근 딥러닝의 발전은 주로 데이터 의존성과 대규모 학습 능력으로 인해 트랜스포머(Transformers)에 의존해 왔습니다. 그러나 이러한 아키텍처의 어텐션(attention) 모듈은 입력 크기에 대해 2차 시간 및 공간 복잡도를 보여주며, 이는 장기 시퀀스 모델링에서의 확장성을 제한합니다. 이미지 및 다변량 시계열과 같은 다차원 데이터를 위한 효율적이고 효과적인 아키텍처 백본을 설계하려는 최근의 시도에도 불구하고, 기존 모델들은 데이터 독립적이거나 차원 간 및 차원 내 통신을 허용하지 못하는 한계를 보였습니다. 최근, 효율적인 하드웨어 인식 구현을 갖춘 상태 공간 모델(State Space Models, SSMs), 특히 선택적 상태 공간 모델(Selective State Space Models)이 장기 시퀀스 모델링에서 유망한 잠재력을 보여주었습니다. SSMs의 성공에 영감을 받아, 우리는 토큰과 채널 간의 이중 선택 메커니즘을 사용하는 데이터 의존적 가중치를 가진 새로운 아키텍처인 MambaMixer를 제안합니다. 이는 선택적 토큰 및 채널 믹서(Selective Token and Channel Mixer)라고 불립니다. MambaMixer는 가중 평균 메커니즘을 사용하여 선택적 믹서들을 연결함으로써, 레이어가 초기 특징에 직접 접근할 수 있도록 합니다. 개념 증명으로, 우리는 MambaMixer 블록을 기반으로 Vision MambaMixer(ViM2) 및 Time Series MambaMixer(TSM2) 아키텍처를 설계하고 다양한 비전 및 시계열 예측 작업에서의 성능을 탐구합니다. 우리의 결과는 토큰과 채널 간의 선택적 믹싱의 중요성을 강조합니다. ImageNet 분류, 객체 탐지 및 의미론적 분할 작업에서 ViM2는 잘 알려진 비전 모델들과 경쟁력 있는 성능을 달성하며 SSM 기반 비전 모델들을 능가합니다. 시계열 예측에서 TSM2는 최신 방법들과 비교하여 탁월한 성능을 달성하면서도 계산 비용을 크게 개선합니다. 이러한 결과는 시계열 예측에서 트랜스포머, 교차 채널 어텐션 및 MLPs가 좋은 성능을 위해 충분하지만, 어느 것도 필수적이지 않음을 보여줍니다.
촉각과 시각은 서로 보완적으로 작용하며 우리가 세상을 이해하는 능력을 향상시킵니다. 연구 관점에서 볼 때, 촉각과 시각을 결합하는 문제는 충분히 탐구되지 않았으며 흥미로운 도전 과제를 제시합니다. 이를 위해 우리는 촉각 데이터(로컬 깊이 맵)와 다중 시점 시각 데이터를 결합하여 표면 재구성과 새로운 시점 합성을 달성하는 새로운 접근 방식인 Tactile-Informed 3DGS를 제안합니다. 우리의 방법은 접촉 지점에서 물체의 기하학을 정확하게 모델링하기 위해 3D 가우시안 프리미티브를 최적화합니다. 촉각 위치에서 투과율을 감소시키는 프레임워크를 구축함으로써, 균일하게 매끄러운 깊이 맵을 보장하며 정제된 표면 재구성을 달성합니다. 촉각은 특히 비람베르트 물체(예: 반짝이거나 반사적인 표면)를 고려할 때 유용한데, 이는 현대적인 방법들이 정확하게 반사 하이라이트를 재구성하는 데 실패하는 경향이 있기 때문입니다. 시각과 촉각 감지를 결합함으로써, 우리는 이전 방법들보다 더 적은 수의 이미지로 더 정확한 기하학적 재구성을 달성합니다. 우리는 광택이 있고 반사적인 표면을 가진 물체에 대해 평가를 수행하고, 재구성 품질에서의 상당한 개선을 보여주며 우리의 접근 방식의 효과를 입증합니다.