번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 추론 속도를 높이기 위한 종단 간(end-to-end) 솔루션인 LayerSkip을 소개합니다. 첫째, 학습 과정에서는 초기 층에는 낮은 드롭아웃 비율을, 후기 층에는 높은 드롭아웃 비율을 적용하는 층 드롭아웃(layer dropout)과 모든 트랜스포머 층이 동일한 출구를 공유하는 조기 종료 손실(early exit loss)을 적용합니다. 둘째, 추론 과정에서는 이 학습 방법이 모델에 추가적인 보조 층이나 모듈을 도입하지 않고도 초기 층에서의 조기 종료 정확도를 높인다는 것을 보여줍니다. 셋째, 초기 층에서 종료하고 남은 층을 통해 검증 및 수정을 수행하는 새로운 자기 추측 디코딩(self-speculative decoding) 솔루션을 제시합니다. 우리가 제안한 자기 추측 디코딩 접근법은 다른 추측 디코딩 방법들보다 메모리 사용량이 적으며, 초안(draft) 단계와 검증(verification) 단계의 계산 및 활성화를 공유함으로써 이점을 얻습니다. 다양한 크기의 Llama 모델에 대해 서로 다른 유형의 학습(처음부터 사전 학습, 지속적 사전 학습, 특정 데이터 도메인에 대한 미세 조정, 특정 작업에 대한 미세 조정)을 실험했습니다. 우리의 추론 솔루션을 구현하여 CNN/DM 문서 요약 작업에서 최대 2.16배, 코딩 작업에서 1.82배, TOPv2 의미 구문 분석 작업에서 2.0배의 속도 향상을 보여줍니다. 코드와 체크포인트는 https://github.com/facebookresearch/LayerSkip에서 공개합니다.
본 보고서에서는 오픈소스와 독점 상용 모델 간의 멀티모달 이해 능력 격차를 해소하기 위해 오픈소스 멀티모달 대형 언어 모델(MLLM)인 InternVL 1.5를 소개합니다. 우리는 세 가지 간단한 개선 사항을 도입했습니다: (1) 강력한 비전 인코더: 대규모 비전 기반 모델인 InternViT-6B에 대한 지속적 학습 전략을 탐구하여 시각적 이해 능력을 향상시키고, 이를 다양한 LLM에서 전이 및 재사용할 수 있도록 했습니다. (2) 동적 고해상도: 입력 이미지의 종횡비와 해상도에 따라 이미지를 448x448 픽셀의 1에서 40개의 타일로 분할하여 최대 4K 해상도 입력을 지원합니다. (3) 고품질 이중 언어 데이터셋: 일반적인 장면과 문서 이미지를 포함한 고품질 이중 언어 데이터셋을 신중하게 수집하고, 이를 영어와 중국어 질문-답변 쌍으로 주석 처리하여 OCR 및 중국어 관련 작업에서의 성능을 크게 향상시켰습니다. 우리는 일련의 벤치마크와 비교 연구를 통해 InternVL 1.5를 평가했습니다. 오픈소스 및 독점 모델과 비교하여, InternVL 1.5는 경쟁력 있는 성능을 보여주며 18개 벤치마크 중 8개에서 최첨단 결과를 달성했습니다. 코드는 https://github.com/OpenGVLab/InternVL에서 공개되었습니다.
현대의 많은 대형 언어 모델(LLM)은 긴 입력을 처리할 수 있지만, 여전히 긴 문맥 내 정보를 완전히 활용하는 데 어려움을 겪고 있으며, 이를 '중간에서 길을 잃는 문제(lost-in-the-middle challenge)'라고 부릅니다. 우리는 이 문제가 긴 문맥 훈련 중 명시적 지도가 충분하지 않아, 긴 문맥의 어느 위치든 중요한 정보를 담고 있을 수 있다는 점을 강조하지 못한 데서 비롯되었다고 가정합니다. 이러한 직관을 바탕으로, 우리 연구는 '정보 집중적(IN2) 훈련'을 제안하며, 이는 순수하게 데이터 기반의 솔루션으로 중간에서 길을 잃는 문제를 극복하기 위한 것입니다. 구체적으로, IN2 훈련은 합성된 긴 문맥(4K-32K 토큰) 내에서 짧은 세그먼트(~128 토큰)에 대한 세밀한 정보 인식과, 두 개 이상의 짧은 세그먼트에서 정보를 통합하고 추론하는 능력을 요구하는 질문-답변 데이터셋을 활용합니다. Mistral-7B에 이 정보 집중적 훈련을 적용하여 FILM-7B(FILl-in-the-Middle)를 개발했습니다. FILM-7B의 긴 문맥 활용 능력을 철저히 평가하기 위해, 다양한 문맥 스타일(문서, 코드, 구조화된 데이터 문맥)과 정보 검색 패턴(순방향, 역방향, 양방향 검색)을 포함한 세 가지 프로빙 작업을 설계했습니다. 프로빙 결과는 FILM-7B가 32K 문맥 창 내 다양한 위치에서 정보를 견고하게 검색할 수 있음을 보여줍니다. 이러한 프로빙 작업을 넘어, FILM-7B는 실제 긴 문맥 작업(예: NarrativeQA에서 23.5->26.9 F1 점수)에서 성능을 크게 향상시키면서도, 짧은 문맥 작업(예: MMLU에서 59.3->59.2 정확도)에서도 비슷한 성능을 유지합니다. Github 링크: https://github.com/microsoft/FILM.
3D 객체 생성은 상당한 발전을 이루며 높은 품질의 결과를 도출해 왔습니다. 그러나 정확한 사용자 제어를 달성하는 데는 미흡하여, 종종 사용자 기대에 부합하지 않는 결과를 내놓아 적용 가능성을 제한하고 있습니다. 사용자가 상상한 3D 객체를 생성하는 것은 현재의 생성 모델이 제공하는 제한된 상호작용 능력으로 인해 개념을 실현하는 데 상당한 어려움을 겪고 있습니다. 기존 방법은 주로 두 가지 접근 방식을 제공합니다: (i) 제한된 제어 가능성으로 텍스트 지시를 해석하거나, (ii) 2D 이미지에서 3D 객체를 재구성하는 것입니다. 이 두 방법 모두 2D 참조의 한계 내에서만 사용자 정의를 허용하며, 3D 변환 과정에서 원치 않는 아티팩트를 유발할 수 있어 직접적이고 다양한 3D 수정의 범위를 제한합니다. 본 연구에서는 사용자가 광범위한 3D 상호작용 능력을 통해 생성 과정을 정밀하게 제어할 수 있는 인터랙티브 3D 생성 프레임워크인 Interactive3D를 소개합니다. Interactive3D는 두 단계의 연속적인 구조로 구성되며, 각기 다른 3D 표현을 활용합니다. 첫 번째 단계에서는 Gaussian Splatting을 사용하여 사용자가 직접 상호작용할 수 있도록 하며, (i) 구성 요소 추가 및 제거, (ii) 변형 가능 및 고정 드래깅, (iii) 기하학적 변환, (iv) 의미론적 편집을 통해 중간 단계에서 생성 방향을 수정하고 안내할 수 있습니다. 이후 Gaussian splat은 InstantNGP로 변환됩니다. 두 번째 단계에서는 (v) 인터랙티브 해시 정제 모듈을 도입하여 세부 사항을 추가하고 기하학을 추출합니다. 우리의 실험 결과, Interactive3D는 3D 생성의 제어 가능성과 품질을 크게 향상시킴을 보여줍니다. 프로젝트 웹페이지는 https://interactive-3d.github.io/에서 확인할 수 있습니다.
확산 기반 기술은 특히 개인화 및 맞춤형 얼굴 생성 분야에서 상당한 진전을 이루었습니다. 그러나 기존 방법들은 얼굴 영역에 대한 미세한 제어가 부족하고, 복잡한 얼굴 세부 사항과 전체 얼굴을 완전히 고려한 ID 보존 전략이 부족하여, 고충실도와 세부적인 ID 일관성을 달성하는 데 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 단일 참조 이미지만을 사용하여 미세한 다중 모드 얼굴 프롬프트 하에서 다양한 ID 보존 초상화 생성을 위한 혁신적인 방법인 ConsistentID를 소개합니다. ConsistentID는 두 가지 주요 구성 요소로 이루어져 있습니다: 얼굴 특징, 해당 얼굴 설명 및 전체 얼굴 맥락을 결합하여 얼굴 세부 사항의 정확성을 향상시키는 다중 모드 얼굴 프롬프트 생성기와, 얼굴 영역에서 ID 일관성을 보존하기 위해 얼굴 주의 위치 지정 전략을 통해 최적화된 ID 보존 네트워크입니다. 이 두 구성 요소는 얼굴 영역에서 미세한 다중 모드 ID 정보를 도입함으로써 ID 보존의 정확성을 크게 향상시킵니다. ConsistentID의 학습을 용이하게 하기 위해, 우리는 500,000개 이상의 얼굴 이미지를 포함한 미세한 초상화 데이터셋인 FGID를 제시합니다. 이 데이터셋은 기존의 공개 얼굴 데이터셋보다 더 다양하고 포괄적입니다. 실험 결과는 우리의 ConsistentID가 MyStyle 데이터셋에서 기존 방법들을 능가하는 개인화된 얼굴 생성에서 탁월한 정확성과 다양성을 달성함을 입증합니다. 또한, ConsistentID는 더 많은 다중 모드 ID 정보를 도입하면서도 생성 과정에서 빠른 추론 속도를 유지합니다.
대규모 언어 모델(LLMs)은 언어 이해 및 생성 분야에서 뛰어난 능력을 보여주며 다양한 응용 분야를 가능하게 하고 있습니다. 그러나 500억 개 이상의 파라미터를 효율적으로 확장하는 데 필요한 상세하고 오픈소스화된 방법론은 여전히 부족한 실정이며, 이는 최소한의 시행착오 비용과 계산 자원을 요구합니다. 본 보고서에서는 Tele-FLM(일명 FLM-2)을 소개합니다. 이는 520억 개의 파라미터를 가진 오픈소스 다국어 대규모 언어 모델로, 안정적이고 효율적인 사전 학습 패러다임과 강화된 사실 판단 능력을 특징으로 합니다. Tele-FLM은 텍스트 코퍼스에서의 BPB(Bits Per Byte) 측정을 통해 우수한 다국어 언어 모델링 능력을 입증했습니다. 또한 영어와 중국어 기반 모델 평가에서 Llama2-70B 및 DeepSeek-67B와 같은 더 큰 사전 학습 FLOPs를 사용하는 강력한 오픈소스 모델들과 비교할 만한 성능을 보였습니다. 모델 가중치 외에도, 우리는 핵심 설계, 엔지니어링 사례 및 학습 세부 사항을 공유하며, 이를 통해 학계와 산업계 모두에게 이익이 될 것으로 기대합니다.
Set-of-Mark (SoM) 프롬프팅은 GPT-4V의 시각적 기반 능력을 극대화하여, 모델이 이미지에 삽입된 태그와 시각적 객체를 연결할 수 있도록 합니다. 이러한 태그는 알파벳과 숫자로 표시되며, 텍스트 토큰을 통해 쉽게 참조할 수 있도록 인덱싱됩니다. GPT-4V의 탁월한 성능에도 불구하고, 다른 멀티모달 대형 언어 모델(MLLM)들은 이러한 시각적 태그를 이해하는 데 어려움을 겪는 것으로 관찰되었습니다. 오픈소스 모델들이 SoM 프롬프팅을 학습할 수 있도록 돕기 위해, 우리는 새로운 학습 패러다임인 "항목을 하나씩 나열하기"를 제안합니다. 이 방법은 모델이 이미지에 배치된 모든 시각적 태그를 태그의 알파벳 순서에 따라 열거하고 설명하도록 요구합니다. 우리가 정제한 데이터셋을 다른 시각적 지침 튜닝 데이터셋과 통합함으로써, 기존 MLLM들이 SoM 프롬프팅 능력을 갖추도록 할 수 있었습니다. 또한, 우리는 미세 조정된 SoM 모델을 다섯 가지 MLLM 벤치마크에서 평가했습니다. 이 새로운 데이터셋은 비교적 작은 규모(10k-30k개의 태그가 있는 이미지)임에도 불구하고, MLLM의 시각적 추론 능력을 크게 향상시키고 환각 현상을 줄이는 데 상당한 효과가 있음을 발견했습니다. 놀랍게도, 이러한 개선은 추론 단계에서 입력 이미지에서 시각적 태그가 제거된 경우에도 지속되었습니다. 이는 "항목을 하나씩 나열하기"가 MLLM 훈련을 위한 새로운 패러다임으로서의 잠재력을 시사하며, 훈련 단계에서 시각적 태그를 사용함으로써 객체-텍스트 정렬을 강화할 수 있음을 보여줍니다. 마지막으로, 우리는 훈련된 모델을 탐구하여 SoM의 작동 메커니즘을 이해하기 위한 분석을 수행했습니다. 우리의 코드와 데이터는 https://github.com/zzxslp/SoM-LLaVA에서 확인할 수 있습니다.
텍스트-이미지(T2I) 생성 모델이 보편화되었음에도 불구하고, 이들이 주어진 프롬프트와 일치하는 이미지를 생성한다고 보장할 수는 없습니다. 기존 연구에서는 T2I 정렬을 평가하기 위해 메트릭, 벤치마크, 그리고 인간 판단을 수집하기 위한 템플릿을 제안했지만, 이러한 구성 요소들의 질은 체계적으로 측정되지 않았습니다. 인간이 평가한 프롬프트 세트는 일반적으로 작으며, 평가의 신뢰도와 이를 통해 모델을 비교하는 데 사용되는 프롬프트 세트의 신뢰도는 평가되지 않았습니다. 우리는 이 격차를 해소하기 위해 자동 평가 메트릭과 인간 템플릿을 평가하는 광범위한 연구를 수행했습니다. 우리는 세 가지 주요 기여를 제공합니다: (1) 다양한 인간 템플릿에서 모델을 구별할 수 있는 포괄적인 스킬 기반 벤치마크를 소개합니다. 이 스킬 기반 벤치마크는 프롬프트를 하위 스킬로 분류하여, 어떤 스킬이 어려운지뿐만 아니라 어떤 복잡도에서 스킬이 어려워지는지를 명확히 파악할 수 있도록 합니다. (2) 네 가지 템플릿과 네 가지 T2I 모델에 대해 총 10만 개 이상의 인간 평가를 수집했습니다. 이를 통해 프롬프트의 고유한 모호성으로 인한 차이와 메트릭 및 모델 품질의 차이로 인한 차이를 이해할 수 있습니다. (3) 마지막으로, 새로운 데이터셋, 다양한 인간 템플릿, 그리고 TIFA160에서 기존 메트릭보다 인간 평가와 더 높은 상관관계를 보이는 새로운 QA 기반 자동 평가 메트릭을 소개합니다.
우리는 NeRF-XL을 소개합니다. 이는 Neural Radiance Fields(NeRF)를 여러 GPU에 분산시키는 원칙적인 방법으로, 임의로 큰 용량의 NeRF를 학습하고 렌더링할 수 있게 합니다. 먼저, 기존의 다중 GPU 접근법을 재검토하여 대규모 장면을 여러 개의 독립적으로 학습된 NeRF로 분해하는 방식의 근본적인 문제점들을 식별했습니다. 이러한 문제점들은 추가적인 계산 자원(GPU)을 사용함에도 불구하고 재구성 품질의 개선을 방해합니다. NeRF-XL은 이러한 문제를 해결하고, 더 많은 하드웨어를 사용함으로써 임의의 수의 매개변수를 가진 NeRF를 학습하고 렌더링할 수 있게 합니다. 우리 방법의 핵심은 수학적으로 기존의 단일 GPU 사례와 동등하며 GPU 간 통신을 최소화하는 새로운 분산 학습 및 렌더링 공식입니다. 임의로 큰 매개변수 수를 가진 NeRF를 가능하게 함으로써, 우리의 접근법은 NeRF에 대한 다중 GPU 스케일링 법칙을 처음으로 밝혀냈으며, 더 큰 매개변수 수로 재구성 품질이 개선되고 더 많은 GPU로 속도가 향상됨을 보여줍니다. 우리는 NeRF-XL의 효과를 다양한 데이터셋에서 입증했으며, 여기에는 25km² 도시 지역을 커버하는 258K 이미지를 포함한 현재까지 가장 큰 오픈소스 데이터셋인 MatrixCity도 포함됩니다.
텍스트가 풍부한 시각적 콘텐츠를 이해하는 것은 다중모달 대형 언어 모델(MLLM)의 실질적인 적용에 있어 매우 중요합니다. 왜냐하면 텍스트가 풍부한 시나리오는 이미지 내에 광범위한 텍스트가 포함된 형태로 실생활에서 흔히 발견되기 때문입니다. 최근, 인상적인 다재다능함을 가진 MLLM의 등장은 우리가 MLLM에 기대할 수 있는 기준을 한층 높였습니다. 그러나 현재의 MLLM 벤치마크는 주로 일반적인 시각적 이해 능력을 평가하는 데 초점을 맞추고 있어, 텍스트가 풍부한 시나리오에서의 숙련도는 아직 포괄적이고 객관적으로 평가되지 못했습니다. 본 연구에서는 MLLM의 텍스트가 풍부한 시각적 이해 능력을 평가하기 위해 특별히 설계된 벤치마크인 SEED-Bench-2-Plus를 소개합니다. 우리의 벤치마크는 정확한 인간 주석이 달린 2.3K개의 객관식 질문으로 구성되어 있으며, 차트, 지도, 웹 페이지라는 세 가지 광범위한 범주를 아우릅니다. 각 범주는 실생활에서 발견되는 다양한 텍스트가 풍부한 시나리오를 포괄하며, 그 자체의 복잡성과 다양성으로 인해 실제 세계의 텍스트가 풍부한 환경을 효과적으로 시뮬레이션합니다. 우리는 GPT-4V, Gemini-Pro-Vision, Claude-3-Opus를 포함한 34개의 주요 MLLM에 대한 철저한 평가를 수행하고, 텍스트가 풍부한 시각적 이해에서 MLLM의 현재 한계를 강조합니다. 우리의 작업이 기존 MLLM 벤치마크에 유용한 추가 자료로 활용되어, 텍스트가 풍부한 시각적 이해 분야에서의 통찰력 있는 관찰을 제공하고 추가 연구를 촉진하는 데 기여하기를 바랍니다. 데이터셋과 평가 코드는 https://github.com/AILab-CVC/SEED-Bench에서 확인할 수 있습니다.