번역이 포함된 일일 선별된 AI 연구 논문
작년, 다중모달 아키텍처는 대규모 언어 모델(LLM)의 능력을 확장하며 AI 기반 접근법과 솔루션 분야에서 혁명을 일으켰습니다. 우리는 사전 학습된 LLM과 시각 모달리티를 위한 어댑터를 기반으로 한 OmniFusion 모델을 제안합니다. 우리는 더 나은 텍스트와 시각 데이터 결합을 위한 여러 아키텍처 설계 원칙을 평가하고 비교했습니다: MLP 및 트랜스포머 어댑터, 다양한 CLIP ViT 기반 인코더(SigLIP, InternVIT 등), 이들의 융합 방식, 이미지 인코딩 방법(전체 이미지 또는 타일 인코딩), 그리고 두 가지 7B LLM(독점 모델과 오픈소스 Mistral). 8개의 시각-언어 벤치마크에서 수행한 실험은 다양한 VQA 작업에서 오픈소스 LLaVA 유사 솔루션과 비교하여 최고의 OmniFusion 설정이 최고 점수를 기록했음을 보여줍니다: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. 또한 우리는 OmniFusion이 가정 관리, 관광, 문화, 의학, 필기 및 스캔된 수식 인식 등 다양한 분야에서 매우 상세한 답변을 제공하는 다양한 상황을 제안합니다. Mistral 기반 OmniFusion 모델은 오픈소스 솔루션으로, 가중치, 훈련 및 추론 스크립트가 https://github.com/AIRI-Institute/OmniFusion에서 제공됩니다.
대규모 디코더 전용 언어 모델(LLM)은 현재 대부분의 NLP 작업과 벤치마크에서 최첨단 모델로 자리 잡고 있습니다. 그러나 이러한 모델들은 풍부한 문맥화된 표현이 필요한 텍스트 임베딩 작업에는 아직까지 서서히 도입되고 있는 실정입니다. 본 연구에서는 디코더 전용 LLM을 강력한 텍스트 인코더로 변환할 수 있는 간단한 비지도 접근 방식인 LLM2Vec을 소개합니다. LLM2Vec은 세 가지 간단한 단계로 구성됩니다: 1) 양방향 어텐션 활성화, 2) 마스킹된 다음 토큰 예측, 3) 비지도 대조 학습. 우리는 1.3B에서 7B 파라미터에 이르는 3개의 인기 있는 LLM에 LLM2Vec을 적용하여 그 효과를 입증하고, 변환된 모델을 영어 단어 및 시퀀스 수준 작업에서 평가했습니다. 단어 수준 작업에서는 인코더 전용 모델을 큰 차이로 앞섰으며, Massive Text Embeddings Benchmark(MTEB)에서 새로운 비지도 최첨단 성능을 달성했습니다. 또한, LLM2Vec에 지도 대조 학습을 결합했을 때에는 공개적으로 이용 가능한 데이터만으로 학습한 모델 중에서 MTEB에서 최첨단 성능을 달성했습니다. 우리의 강력한 실험 결과와 광범위한 분석은 LLM이 고가의 적응이나 GPT-4 생성 합성 데이터 없이도 파라미터 효율적인 방식으로 범용 텍스트 인코더로 효과적으로 변환될 수 있음을 보여줍니다.
우리는 RWKV(RWKV-4) 아키텍처를 개선한 시퀀스 모델인 Eagle(RWKV-5)과 Finch(RWKV-6)를 소개합니다. 우리의 아키텍처 설계 개선 사항에는 다중 헤드 행렬 값 상태와 동적 재귀 메커니즘이 포함되어 있으며, 이는 RNN의 추론 효율성 특성을 유지하면서 표현력을 향상시킵니다. 우리는 1.12조 토큰으로 구성된 새로운 다국어 코퍼스와 탐욕적 매칭 기반의 빠른 토크나이저를 도입하여 다국어 처리 능력을 강화했습니다. 우리는 0.46억에서 75억 파라미터까지의 네 가지 Eagle 모델과 16억 및 31억 파라미터의 두 가지 Finch 모델을 학습시켰으며, 이들이 다양한 벤치마크에서 경쟁력 있는 성능을 달성함을 확인했습니다. 우리는 모든 모델을 Apache 2.0 라이선스 하에 HuggingFace에 공개합니다. 모델은 https://huggingface.co/RWKV에서 확인할 수 있으며, 학습 코드는 https://github.com/RWKV/RWKV-LM에서, 추론 코드는 https://github.com/RWKV/ChatRWKV에서, 시간 병렬 학습 코드는 https://github.com/RWKV/RWKV-infctx-trainer에서 확인할 수 있습니다.
대형 시각-언어 모델(LVLM) 분야는 상당한 발전을 이루었지만, 제한된 해상도로 인해 세밀한 시각적 내용을 이해하는 데 어려움을 겪으며 진전이 더뎌졌습니다. 최근 연구들은 LVLM의 고해상도 이해 능력을 향상시키려는 시도를 해왔지만, 여전히 약 1500 x 1500 픽셀 수준에 머물며 비교적 좁은 해상도 범위에 제한되어 있습니다. 본 논문은 LVLM의 해상도 능력을 4K HD(3840 x 1600) 이상으로 끌어올리는 획기적인 탐구인 InternLM-XComposer2-4KHD를 소개합니다. 동시에, 초고해상도가 모든 시나리오에서 필요하지 않을 수 있다는 점을 고려하여, 336픽셀부터 4K 표준까지 다양한 해상도를 지원함으로써 적용 범위를 크게 확장했습니다. 구체적으로, 이 연구는 패치 분할 패러다임을 발전시켜 새로운 확장 기능인 자동 패치 구성을 통한 동적 해상도를 도입했습니다. 이는 훈련 이미지의 종횡비를 유지하면서 사전 훈련된 Vision Transformer(ViT)(336 x 336)를 기반으로 패치 수를 자동으로 조정하고 레이아웃을 구성하여, 336픽셀부터 4K 표준까지 동적 훈련 해상도를 가능하게 합니다. 우리의 연구는 훈련 해상도를 4K HD까지 확장함으로써 잠재적 개선의 한계에 부딪히지 않고도 일관된 성능 향상을 이끌어냄을 보여줍니다. InternLM-XComposer2-4KHD는 16개 벤치마크 중 10개에서 GPT-4V와 Gemini Pro를 능가하거나 동등한 우수한 능력을 보여줍니다. 7B 파라미터를 가진 InternLM-XComposer2-4KHD 모델 시리즈는 https://github.com/InternLM/InternLM-XComposer에서 공개되어 있습니다.
최대 수조 개의 파라미터를 가진 대형 언어 모델(LLM) 개발에 대한 관심이 급증하면서, 특히 실험의 막대한 비용을 고려할 때 자원 효율성과 실질적인 비용에 대한 우려가 제기되고 있습니다. 이러한 상황은 자원 효율적인 대안으로서 소형 언어 모델(SLM)의 잠재력을 탐구하는 것의 중요성을 강조합니다. 이와 관련하여, 우리는 MiniCPM을 소개합니다. 특히 1.2B와 2.4B의 비임베딩 파라미터 변형은 각각의 범주에서 뛰어난 성능을 보일 뿐만 아니라 7B-13B LLM과 동등한 능력을 보여줍니다. SLM에 초점을 맞추면서도, 우리의 접근 방식은 향후 LLM 연구를 위한 모델 및 데이터 차원에서의 확장성을 보여줍니다. 모델 스케일링에 관해서는, 안정적이고 최적의 스케일링을 위해 광범위한 모델 풍동 실험을 활용합니다. 데이터 스케일링에 대해서는, 지속적인 훈련과 도메인 적응에 유리한 Warmup-Stable-Decay(WSD) 학습률 스케줄러(LRS)를 도입합니다. 우리는 WSD LRS에서 발생한 흥미로운 훈련 역학에 대한 심층 분석을 제시합니다. WSD LRS를 통해, 우리는 이제 모델과 데이터의 두 축에서 광범위한 재훈련 실험 없이도 데이터-모델 스케일링 법칙을 효율적으로 연구할 수 있으며, 이를 통해 Chinchilla 최적보다 훨씬 높은 계산 최적 데이터-모델 비율을 도출합니다. 또한, MiniCPM-DPO, MiniCPM-MoE, MiniCPM-128K를 포함한 MiniCPM 패밀리를 소개하며, 이들의 우수한 성능은 다양한 SLM 애플리케이션에서 MiniCPM의 기반을 더욱 공고히 합니다. MiniCPM 모델은 https://github.com/OpenBMB/MiniCPM에서 공개적으로 이용 가능합니다.
인스트럭션 튜닝은 대규모 언어 모델(LLM)을 특정 작업 지시에 맞추는 데 있어 핵심적인 역할을 하며, 다음 토큰 예측 목표와 사용자의 실제 목표 간의 불일치를 완화합니다. 인간이 데이터를 수집하거나 주석을 다는 데 드는 노력과 시간 비용을 줄이기 위해, 연구자들은 LLM을 활용하여 인스트럭션에 맞춘 합성 데이터를 생성하는 방법을 탐구하기 시작했습니다. 최근 연구들은 다양한 인스트럭션을 생성하고 LLM을 적용하여 인스트럭션의 복잡성을 높이는 데 초점을 맞추고 있지만, 다운스트림 사용 사례를 간과하는 경우가 많습니다. 서로 다른 목표 인스트럭션 분포와 LLM에서 더 나은 인스트럭션 수행 능력을 이끌어내기 위해 고품질 데이터를 어떻게 맞춤화할지에 대한 명확한 방법은 여전히 불분명합니다. 이를 위해, 우리는 CodecLM을 소개합니다. 이는 다양한 다운스트림 인스트럭션 분포와 LLM에 맞춰 고품질 합성 데이터를 적응적으로 생성하기 위한 일반적인 프레임워크입니다. 인코드-디코드 원칙을 차용하여, 우리는 LLM을 코덱으로 사용하여 데이터 생성 과정을 안내합니다. 먼저 시드 인스트럭션을 메타데이터로 인코딩하는데, 이는 목표 인스트럭션 분포를 포착하기 위해 실시간으로 생성된 간결한 키워드입니다. 그런 다음 메타데이터를 디코딩하여 맞춤형 인스트럭션을 생성합니다. 또한 디코딩 과정에서 Self-Rubrics와 Contrastive Filtering을 도입하여 데이터 효율적인 샘플을 맞춤화합니다. 네 가지 오픈 도메인 인스트럭션 수행 벤치마크에서의 광범위한 실험을 통해 CodecLM이 현재 최신 기술을 능가하는 효과를 입증했습니다.
본 논문에서는 대규모 언어 모델(LLM)을 음악 사전 학습에 적용하는 방법을 탐구합니다. 음악 모델링에서 MIDI의 보편적인 사용은 잘 정립되어 있지만, 우리의 연구 결과에 따르면 LLM은 ABC 표기법과 본질적으로 더 호환성이 높으며, 이는 모델의 설계와 강점과 더 잘 부합하여 음악 작곡에서의 성능을 향상시킵니다. 생성 과정에서 서로 다른 트랙 간의 조율되지 않은 마디와 관련된 문제를 해결하기 위해, 우리는 다중 트랙 간의 일관성을 유지하기 위한 동기화된 다중 트랙 ABC 표기법(SMT-ABC Notation)의 개발을 제안합니다. 우리의 기여에는 훈련 데이터셋의 90%를 커버하는 8192개의 토큰까지 처리할 수 있는 일련의 모델이 포함됩니다. 또한, 우리는 기호 음악 스케일링 법칙(SMS Law)이 모델 성능에 미치는 영향을 탐구합니다. 연구 결과는 음악 생성 분야의 미래 연구를 위한 유망한 방향을 제시하며, 오픈소스 기여를 통해 커뮤니티 주도 연구를 위한 광범위한 자원을 제공합니다.
3D 생성 모델링의 진화는 2D 확산 모델의 도입으로 크게 촉진되었습니다. 이러한 진전에도 불구하고, 번거로운 최적화 과정 자체가 효율성에 있어 중요한 장애물로 남아 있습니다. 본 논문에서는 모델 학습 없이 3D 생성을 가속화하는 범용적인 방법인 Hash3D를 소개합니다. Hash3D의 핵심은 근접한 카메라 위치와 확산 시간 단계에서 렌더링된 이미지들 간에 특징 맵의 중복이 빈번하게 발생한다는 통찰에 기반합니다. Hash3D는 이러한 특징 맵을 인접한 시간 단계와 카메라 각도에 걸쳐 효과적으로 해싱하고 재사용함으로써, 불필요한 계산을 상당히 줄여 3D 생성 작업에서 확산 모델의 추론 속도를 크게 향상시킵니다. 이는 적응형 그리드 기반 해싱을 통해 달성됩니다. 놀랍게도, 이러한 특징 공유 메커니즘은 생성 속도를 높일 뿐만 아니라 합성된 3D 객체의 부드러움과 시각적 일관성도 개선합니다. 우리는 5개의 텍스트-3D 모델과 3개의 이미지-3D 모델을 대상으로 한 실험을 통해 Hash3D가 최적화 속도를 1.3배에서 4배까지 향상시키는 다재다능함을 입증했습니다. 또한, Hash3D를 3D 가우시안 스플래팅과 통합함으로써 3D 모델 생성 속도를 크게 단축시켜, 텍스트-3D 처리 시간을 약 10분으로, 이미지-3D 변환 시간을 약 30초로 줄였습니다. 프로젝트 페이지는 https://adamdad.github.io/hash3D/에서 확인할 수 있습니다.
LLM(대형 언어 모델)이 널리 보급되고 있음에도 불구하고, 다양한 언어에 대한 이들의 능력과 접근성 사이에는 상당한 격차가 존재합니다. 이러한 문제를 해결하기 위한 한 가지 접근 방식은 기존에 사전 학습된 LLM을 가져와 새로운 언어에 대해 추가 학습을 진행하는 것입니다. 이전 연구들에서 언어 적응에 대한 실험을 진행했지만, 최적의 방법론과 관련된 많은 질문들이 아직 다루어지지 않았습니다. 본 논문에서는 새로운 언어에 대한 LLM의 적응에 대해 포괄적인 연구를 제시합니다. 우리의 연구는 이 과정의 주요 구성 요소들, 즉 어휘 확장, 직접 선호 최적화, 그리고 저자원 언어에서 인간 정렬을 위한 데이터 부족 문제 등을 다룹니다. 우리는 이러한 실험을 9개 언어와 2가지 파라미터 규모(7B와 70B)에 걸쳐 확장하여 진행했습니다. 우리는 Llama 2, Aya-101, XGLM, BLOOM 및 기존 언어 전문가 모델들과 비교 평가를 수행했으며, 모든 기존 공개된 기준선을 능가하는 성능을 보였습니다. 또한, 향후 연구를 촉진하기 위해 모든 평가 코드와 체크포인트를 공개했습니다.
텍스트-3D 생성은 대규모 텍스트-이미지 확산 모델을 통해 놀라운 성과를 달성했습니다. 그러나 이러한 방법론을 도시 규모로 확장하기 위한 패러다임은 아직 존재하지 않습니다. 도시 장면은 수많은 요소, 복잡한 배치 관계, 그리고 광활한 규모로 특징지어지며, 모델 최적화를 위한 모호한 텍스트 설명의 해석 가능성에 있어서 큰 장벽으로 작용합니다. 본 연구에서는 이러한 한계를 극복하기 위해 텍스트-3D 패러다임에 구성적 3D 레이아웃 표현을 추가적인 사전 정보로 도입합니다. 이는 단순한 기하학적 구조와 명시적인 배치 관계를 가진 일련의 의미론적 기본 요소들로 구성되어, 텍스트 설명을 보완하고 조정 가능한 생성을 가능하게 합니다. 이를 바탕으로 두 가지 수정 사항을 제안합니다: (1) 모델 최적화의 부적절함을 해결하기 위해 레이아웃-가이드 변분 점수 증류를 도입합니다. 이는 3D 레이아웃의 기하학적 및 의미론적 제약 조건을 점수 증류 샘플링 과정에 적용합니다. (2) 도시 장면의 무한한 특성을 다루기 위해, 확장 가능한 해시 그리드 구조로 3D 장면을 표현하여 도시 장면의 증가하는 규모에 점진적으로 적응합니다. 광범위한 실험을 통해 우리의 프레임워크가 1000m 이상의 주행 거리를 커버하는 대규모 도시 장면으로 텍스트-3D 생성을 확장할 수 있는 능력을 처음으로 입증합니다. 또한 다양한 장면 편집 데모를 통해 조정 가능한 도시 장면 생성의 힘을 보여줍니다. 웹사이트: https://urbanarchitect.github.io.
본 논문에서는 새로운 시점 합성을 위해 고품질의 사실적인 결과를 달성하는 장면 표현 방법인 3D 가우시안 스플래팅(3DGS)에서 적응형 밀도 제어(ADC)의 한계점을 다룹니다. ADC는 자동 3D 점 프리미티브 관리를 위해 도입되어 밀도화 및 제거를 제어하지만, 밀도화 로직에서 특정 한계를 가지고 있습니다. 우리의 주요 기여는 3DGS에서 밀도 제어를 위한 보다 원칙적이고 픽셀 오류 기반의 공식을 제안하며, 이를 위해 보조적인 픽셀 단위 오류 함수를 밀도화 기준으로 활용합니다. 또한, 장면당 생성되는 총 프리미티브 수를 제어하는 메커니즘을 도입하고, 복제 작업 중 ADC의 현재 불투명도 처리 전략에 존재하는 편향을 수정합니다. 우리의 접근 방식은 다양한 벤치마크 장면에서 일관된 품질 향상을 이끌어내면서도 방법의 효율성을 희생하지 않습니다.
2D 디퓨전 모델의 급속한 발전에 힘입어, 3D 콘텐츠 생성은 최근 상당한 진전을 이루었습니다. 특히, 사전 훈련된 2D 디퓨전 모델을 미세 조정하여 다중 뷰 이미지를 생성한 후, 이를 fast-NeRF나 대규모 재구성 모델과 같은 방법을 통해 정확한 3D 모델로 변환하는 접근법이 유망한 해결책으로 떠오르고 있습니다. 그러나 이러한 방법들은 여전히 불일치 문제와 제한된 생성 해상도로 인해 복잡한 텍스처와 기하학적 구조를 충분히 표현하지 못하는 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 Magic-Boost를 제안합니다. Magic-Boost는 다중 뷰 조건부 디퓨전 모델로, 짧은 시간의 SDS 최적화(약 15분)를 통해 초기 생성 결과를 크게 개선합니다. 기존의 텍스트 또는 단일 이미지 기반 디퓨전 모델과 비교했을 때, Magic-Boost는 가상 합성된 다중 뷰 이미지로부터 높은 일관성을 가진 이미지를 생성하는 강력한 능력을 보여줍니다. 또한, 입력 이미지의 정체성과 잘 맞는 정밀한 SDS 가이던스를 제공하여 초기 생성 결과의 기하학적 구조와 텍스처의 세부 사항을 풍부하게 만듭니다. 광범위한 실험을 통해 Magic-Boost가 초기 입력을 크게 개선하고 풍부한 기하학적 및 텍스처 세부 사항을 가진 고품질 3D 자산을 생성함을 확인했습니다. (프로젝트 페이지: https://magic-research.github.io/magic-boost/)
손으로 조작되는 물체(즉, 조작 대상)는 실생활 RGB 이미지나 비디오에서 재구성하기에 특히 어려운 과제입니다. 손이 물체의 대부분을 가리는 데다가, 물체가 종종 소수의 이미지 픽셀에서만 보이기 때문입니다. 동시에, 이러한 설정에서 두 가지 강력한 기준점이 나타납니다: (1) 추정된 3D 손은 물체의 위치와 크기를 명확히 하는 데 도움을 주며, (2) 조작 대상의 집합은 모든 가능한 물체에 비해 상대적으로 작습니다. 이러한 통찰을 바탕으로, 우리는 대규모 언어/비전 모델과 3D 물체 데이터셋의 최근 돌파구를 기반으로 한 손에 들린 물체 재구성을 위한 확장 가능한 패러다임을 제시합니다. 우리의 모델인 MCC-Hand-Object(MCC-HO)는 단일 RGB 이미지와 추론된 3D 손을 입력으로 받아 손과 물체의 형상을 함께 재구성합니다. 이후, GPT-4(V)를 사용하여 이미지 속 물체와 일치하는 3D 물체 모델을 검색하고, 이 모델을 네트워크가 추론한 형상에 강체 정렬(rigid alignment)합니다. 우리는 이러한 정렬을 검색 강화 재구성(Retrieval-Augmented Reconstruction, RAR)이라고 부릅니다. 실험 결과, MCC-HO는 실험실 및 인터넷 데이터셋에서 최첨단 성능을 달성했으며, RAR이 손-물체 상호작용을 담은 실생활 이미지에 대해 자동으로 3D 레이블을 얻는 데 어떻게 사용될 수 있는지 보여줍니다.
대규모 언어 모델(LLM)이 다양한 작업에 적용될 수 있음을 보여준 연구가 많지만, 데이터 오염과 암기라는 중요한 문제는 종종 간과되곤 합니다. 본 연구에서는 테이블 형식 데이터에 대한 이러한 우려를 다룹니다. 구체적으로, 우리는 언어 모델이 학습 중에 특정 테이블 데이터셋을 접했는지 여부를 평가하기 위한 다양한 기법을 소개합니다. 이 조사를 통해 LLM이 많은 인기 있는 테이블 데이터셋을 그대로 암기하고 있음이 밝혀졌습니다. 그런 다음, 학습 중에 접한 데이터셋과 학습 이후에 공개된 데이터셋에 대한 LLM의 퓨샷 학습 성능을 비교합니다. 그 결과, LLM은 학습 중에 접한 데이터셋에서 더 나은 성능을 보이며, 이는 암기가 과적합으로 이어짐을 시사합니다. 동시에, LLM은 새로운 데이터셋에서도 상당한 성능을 보이며 데이터 변환에 놀라울 정도로 강건함을 나타냅니다. 또한, 우리는 LLM의 컨텍스트 내 통계적 학습 능력을 조사합니다. 미세 조정 없이는 이러한 능력이 제한적임을 발견했습니다. 이는 새로운 데이터셋에 대한 퓨샷 성능이 대부분 LLM의 세계 지식에 기인함을 시사합니다. 전반적으로, 우리의 결과는 평가 데이터셋이 사전 학습 중에 LLM에 노출되었는지 테스트하는 것의 중요성을 강조합니다. 우리는 개발한 노출 테스트를 tabmemcheck 파이썬 패키지로 공개하며, 이는 https://github.com/interpretml/LLM-Tabular-Memorization-Checker에서 확인할 수 있습니다.