번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 확산 모델은 지난 몇 년 동안 놀라운 성능 향상을 이루며 텍스트 프롬프트로부터 고품질이고 다양한 이미지 합성을 가능하게 했습니다. 그러나 가장 발전된 모델들조차도 프롬프트의 모든 지시를 정확히 따르는 데 어려움을 겪는 경우가 많습니다. 이러한 모델의 대부분은 (이미지, 캡션) 쌍으로 구성된 데이터셋으로 학습되는데, 이 이미지들은 주로 웹에서 수집되며 캡션은 HTML 대체 텍스트로 제공됩니다. Stable Diffusion 및 기타 모델에서 사용된 LAION 데이터셋이 대표적인 예입니다. 본 연구에서는 이러한 캡션들이 종종 낮은 품질을 보인다는 점을 관찰하고, 이로 인해 모델이 텍스트 프롬프트의 미묘한 의미를 이해하는 능력에 상당한 영향을 미친다고 주장합니다. 우리는 전문적인 자동 캡션 생성 모델을 사용해 데이터셋을 재라벨링하고, 재캡션된 데이터셋으로 텍스트-이미지 모델을 학습시킴으로써 모델이 전반적으로 크게 개선됨을 보여줍니다. 첫째, 전반적인 이미지 품질에서 개선이 나타났습니다: 예를 들어, FID 점수가 14.84로 기준치 17.87보다 향상되었으며, 인간 평가에 따르면 정확한 이미지 생성에서 64.3%의 개선이 있었습니다. 둘째, 의미론적 정렬에서도 개선이 있었습니다: 예를 들어, 의미론적 객체 정확도가 84.34로 78.90보다 향상되었고, 카운팅 정렬 오류가 1.32로 1.44보다 감소했으며, 위치 정렬이 62.42로 57.60보다 향상되었습니다. 우리는 데이터셋을 재라벨링하는 다양한 방법을 분석하고, 이를 RECAP이라고 명명한 이 기술이 학습-추론 간의 불일치를 줄이고 모델에 예제당 더 많은 정보를 제공함으로써 샘플 효율성을 높이고 캡션과 이미지 간의 관계를 더 잘 이해할 수 있게 한다는 증거를 제시합니다.
우리는 크리에이티브 커먼즈 라이선스(CC) 이미지 데이터셋을 구축하여, Stable Diffusion 2(SD2)와 질적으로 경쟁력 있는 오픈 디퓨전 모델들을 학습시켰습니다. 이 작업은 두 가지 주요 과제를 제시합니다: (1) 고해상도 CC 이미지는 텍스트-이미지 생성 모델을 학습시키기 위해 필요한 캡션이 부족하며, (2) CC 이미지 자체가 상대적으로 희소합니다. 이러한 과제를 해결하기 위해, 우리는 직관적인 전이 학습 기법을 사용하여 선별된 CC 이미지와 짝을 이루는 고품질의 합성 캡션을 생성했습니다. 그런 다음, 기존 SD2 모델을 학습시키는 데 필요한 LAION-2B 데이터의 3%만으로도 동등한 품질을 얻을 수 있는 데이터 및 컴퓨팅 효율적인 학습 레시피를 개발했습니다. 이러한 결과는 우리가 고품질 모델을 학습시키기에 충분한 수의 CC 이미지(약 7천만 장)를 보유하고 있음을 시사합니다. 또한, 우리의 학습 레시피는 약 3배의 학습 속도 향상을 달성하는 다양한 최적화를 구현하여 빠른 모델 반복을 가능하게 합니다. 우리는 이 레시피를 활용하여 여러 고품질 텍스트-이미지 모델을 학습시켰으며, 이를 CommonCanvas 패밀리라고 명명했습니다. 우리의 가장 큰 모델은 LAION보다 상당히 작은 CC 데이터셋과 합성 캡션을 사용하여 학습되었음에도 불구하고, 인간 평가에서 SD2와 비슷한 성능을 달성했습니다. 우리는 모델, 데이터, 코드를 https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md 에 공개했습니다.
본 논문에서는 고해상도와 일관성을 갖춘 3D 객체를 생성하는 계층적 3D 콘텐츠 생성 방법인 DreamCraft3D를 소개한다. 우리는 2D 참조 이미지를 활용하여 형상 조각과 텍스처 향상 단계를 안내함으로써 이 문제를 해결한다. 본 연구의 주요 초점은 기존 연구들이 직면한 일관성 문제를 해결하는 것이다. 일관성 있게 렌더링되는 형상을 조각하기 위해, 우리는 뷰 의존적 확산 모델을 통한 점수 증류 샘플링을 수행한다. 이 3D 사전 지식과 여러 훈련 전략은 형상 일관성을 우선시하지만 텍스처 충실도를 희생한다. 이를 보완하기 위해, 우리는 텍스처를 특별히 향상시키기 위한 부트스트랩 점수 증류를 제안한다. 우리는 장면의 증강 렌더링을 통해 개인화된 확산 모델인 Dreambooth를 훈련시켜, 최적화 중인 장면에 대한 3D 지식을 부여한다. 이 3D 인식 확산 사전 지식으로부터의 점수 증류는 장면에 대해 뷰 일관성 있는 안내를 제공한다. 특히, 확산 사전 지식과 3D 장면 표현의 교대 최적화를 통해 상호 강화적인 개선을 달성한다: 최적화된 3D 장면은 장면 특화 확산 모델의 훈련을 돕고, 이 모델은 점점 더 뷰 일관성 있는 3D 최적화 안내를 제공한다. 따라서 최적화는 부트스트랩 방식으로 진행되어 텍스처가 크게 향상된다. 계층적 생성 과정 전반에 걸쳐 맞춤화된 3D 사전 지식을 통해, DreamCraft3D는 사실적인 렌더링과 함께 일관성 있는 3D 객체를 생성하며, 3D 콘텐츠 생성의 최신 기술을 발전시킨다. 코드는 https://github.com/deepseek-ai/DreamCraft3D에서 확인할 수 있다.
Mixture-of-Experts (MoE) 아키텍처는 희소 라우팅(sparse routing)을 통해 대규모 언어 모델(LLMs)의 높은 추론 비용 문제에 대한 일반적인 해결책을 제공하며, 더 빠르고 정확한 모델을 가능하게 합니다. 그러나 이는 엄청난 수의 파라미터를 필요로 하는 단점이 있습니다. 예를 들어, SwitchTransformer-c2048 모델은 1.6조 개의 파라미터를 가지고 있으며, 효율적으로 실행하기 위해 3.2TB의 가속기 메모리가 필요합니다. 이는 실제 배포를 어렵고 비용이 많이 들게 만듭니다. 본 논문에서는 이러한 메모리 문제를 해결하기 위한 새로운 압축 및 실행 프레임워크인 QMoE를 제안합니다. 구체적으로, QMoE는 조 단위 파라미터를 1비트 미만으로 정확하게 압축할 수 있는 확장 가능한 알고리즘으로 구성되어 있으며, 맞춤형 GPU 디코딩 커널과 함께 설계된 사용자 정의 형식을 통해 효율적인 종단 간 압축 추론을 가능하게 합니다. 이는 압축되지 않은 실행에 비해 약간의 런타임 오버헤드만 발생시킵니다. 구체적으로, QMoE는 1.6조 파라미터의 SwitchTransformer-c2048 모델을 단일 GPU에서 하루도 안 되는 시간 내에 160GB 미만(20배 압축, 파라미터당 0.8비트)으로 압축할 수 있으며, 정확도 손실은 미미합니다. 이를 통해 처음으로 4개의 NVIDIA A6000 또는 8개의 NVIDIA 3090 GPU를 탑재한 단일 서버와 같은 저렴한 상용 하드웨어에서 조 단위 파라미터 모델을 실행할 수 있게 되었으며, 이는 이상적인 압축되지 않은 추론에 비해 5% 미만의 런타임 오버헤드를 보입니다. 소스 코드와 압축된 모델은 github.com/IST-DASLab/qmoe에서 확인할 수 있습니다.
본 논문에서는 GPT-4V의 다양한 능력, 즉 시각 이해, 언어 이해, 시각 퍼즐 해결, 그리고 깊이, 열화상, 비디오, 오디오와 같은 다른 모달리티에 대한 이해를 평가합니다. GPT-4V의 성능을 추정하기 위해, 우리는 수동으로 656개의 테스트 인스턴스를 구성하고 GPT-4V의 결과를 신중하게 평가했습니다. 우리의 주요 발견 사항은 다음과 같습니다: (1) GPT-4V는 영어 중심의 시각 벤치마크에서 인상적인 성능을 보이지만, 이미지 내의 간단한 중국어 텍스트를 인식하지 못합니다; (2) GPT-4V는 성별, 인종, 나이와 같은 민감한 특성과 관련된 질문에 대해 일관되지 않은 거부 행동을 보입니다; (3) GPT-4V는 일반 언어 이해 벤치마크와 시각 상식 지식 평가 벤치마크를 포함한 언어 이해 작업에서 GPT-4(API)보다 더 나쁜 결과를 얻습니다; (4) Few-shot 프롬프팅은 GPT-4V의 시각 이해와 언어 이해 모두에서 성능을 향상시킬 수 있습니다; (5) GPT-4V는 두 유사한 이미지 간의 미묘한 차이를 찾고 간단한 수학 그림 퍼즐을 해결하는 데 어려움을 겪습니다; (6) GPT-4V는 비디오와 열화상과 같은 이미지와 유사한 모달리티 작업에서 상당한 성능을 보입니다. 우리의 실험 결과는 GPT-4V의 능력과 한계를 보여주며, 본 논문이 GPT-4V의 응용 및 연구에 대한 통찰을 제공할 수 있기를 바랍니다.
본 연구에서는 단일 뷰 이미지로부터 고품질의 텍스처 메쉬를 효율적으로 생성하는 새로운 방법인 Wonder3D를 소개합니다. Score Distillation Sampling(SDS)에 기반한 최근 방법들은 2D 확산 모델을 활용해 3D 형상을 복원할 가능성을 보여주었지만, 일반적으로 형태별 최적화에 시간이 많이 소요되고 일관된 형상을 얻기 어려운 문제가 있었습니다. 반면, 일부 연구들은 신속한 네트워크 추론을 통해 직접 3D 정보를 생성하지만, 그 결과물은 종종 품질이 낮고 기하학적 디테일이 부족합니다. 이미지-3D 변환 작업의 품질, 일관성, 효율성을 종합적으로 개선하기 위해, 우리는 다중 뷰 노멀 맵과 해당 컬러 이미지를 생성하는 크로스 도메인 확산 모델을 제안합니다. 일관성을 보장하기 위해, 우리는 뷰와 모달리티 간 정보 교환을 용이하게 하는 다중 뷰 크로스 도메인 어텐션 메커니즘을 도입했습니다. 마지막으로, 다중 뷰 2D 표현에서 고품질 표면을 추출하는 기하학적 인식 노멀 융합 알고리즘을 제안합니다. 광범위한 평가를 통해 우리의 방법이 기존 연구 대비 고품질의 재구성 결과, 강력한 일반화 능력, 그리고 합리적인 수준의 효율성을 달성함을 입증했습니다.
많은 연구자들은 ConvNet이 작거나 중간 규모의 데이터셋에서는 잘 작동하지만, 웹 규모의 데이터셋에 접근할 때는 Vision Transformer와 경쟁력이 없다고 믿고 있습니다. 우리는 이 믿음에 도전하기 위해 JFT-4B라는 대규모 라벨링된 이미지 데이터셋에서 사전 학습된 고성능 ConvNet 아키텍처를 평가합니다. JFT-4B는 파운데이션 모델 학습에 자주 사용되는 데이터셋입니다. 우리는 0.4k에서 110k TPU-v4 코어 컴퓨팅 시간 사이의 사전 학습 컴퓨팅 예산을 고려하고, NFNet 모델 패밀리에서 깊이와 너비를 점점 증가시키는 일련의 네트워크를 학습시킵니다. 우리는 보류된 손실과 컴퓨팅 예산 사이의 로그-로그 스케일링 법칙을 관찰합니다. ImageNet에서 미세 조정을 거친 후, NFNet은 비슷한 컴퓨팅 예산을 가진 Vision Transformer의 보고된 성능과 일치합니다. 우리의 가장 강력한 미세 조정 모델은 Top-1 정확도 90.4%를 달성합니다.
우리는 대규모 언어 모델(LLM)의 가중치와 활성화를 4비트 부동소수점 값으로 양자화하는 LLM-FP4를 사후 학습 방식으로 제안한다. 기존의 사후 학습 양자화(PTQ) 솔루션은 주로 정수 기반이며 8비트 미만의 비트 폭에서 어려움을 겪는다. 정수 양자화와 비교하여 부동소수점(FP) 양자화는 더 유연하며 긴 꼬리 또는 종형 분포를 더 잘 처리할 수 있어 많은 하드웨어 플랫폼에서 기본 선택으로 부상했다. FP 양자화의 한 가지 특징은 그 성능이 지수 비트와 클리핑 범위의 선택에 크게 의존한다는 점이다. 이와 관련하여, 우리는 최적의 양자화 매개변수를 탐색함으로써 강력한 FP-PTQ 베이스라인을 구축했다. 또한, 우리는 활성화 분포에서 높은 채널 간 분산과 낮은 채널 내 분산 패턴을 관찰했으며, 이는 활성화 양자화의 어려움을 가중시킨다. 우리는 이 패턴이 LLM, BERT, Vision Transformer 모델과 같은 다양한 작업을 위해 설계된 트랜스포머 모델 전반에 걸쳐 일관되게 나타남을 확인했다. 이를 해결하기 위해, 우리는 채널별 활성화 양자화를 제안하고 이러한 추가 스케일링 인자가 가중치의 지수 편향으로 재매개변수화될 수 있음을 보여주며, 이는 무시할 수 있는 비용을 발생시킨다. 우리의 방법은 처음으로 LLaMA-13B의 가중치와 활성화를 모두 4비트로 양자화할 수 있으며, 상식적인 제로샷 추론 작업에서 평균 점수 63.1을 달성하여 전체 정밀도 모델보다 단 5.8 낮은 수치를 기록하며, 이전 최신 기술을 12.7점 크게 능가한다. 코드는 https://github.com/nbasyl/LLM-FP4에서 확인할 수 있다.
대규모 언어 모델(LLM)이 널리 배포되고 있음에도 불구하고, 이를 훈련하는 데 사용된 데이터는 거의 공개되지 않습니다. 이러한 데이터의 규모가 수조 개의 토큰에 달한다는 점을 고려할 때, 저작권이 있는 자료, 개인 식별 정보, 널리 보고된 벤치마크의 테스트 데이터와 같은 잠재적으로 문제가 될 수 있는 텍스트가 포함되어 있을 가능성은 거의 확실합니다. 그러나 현재로서는 이러한 유형의 데이터가 어떤 것들이 포함되어 있는지, 그리고 그 비율이 얼마나 되는지 알 수 있는 방법이 없습니다. 본 논문에서는 사전 훈련 데이터 탐지 문제를 연구합니다: 주어진 텍스트와 사전 훈련 데이터를 알 수 없는 블랙박스 형태의 LLM에 접근할 때, 모델이 제공된 텍스트로 훈련되었는지 여부를 판단할 수 있을까요? 이 연구를 위해, 우리는 모델 훈련 전후에 생성된 데이터를 사용하여 정확한 탐지를 지원하는 동적 벤치마크 WIKIMIA를 소개합니다. 또한, 새로운 탐지 방법인 Min-K% Prob을 제안합니다. 이 방법은 간단한 가설에 기반합니다: 보지 못한 예제는 LLM 하에서 낮은 확률을 가진 몇 가지 이상 단어를 포함할 가능성이 높은 반면, 본 적 있는 예제는 그렇게 낮은 확률을 가진 단어를 포함할 가능성이 적습니다. Min-K% Prob은 사전 훈련 코퍼스에 대한 지식이나 추가적인 훈련 없이도 적용할 수 있으며, 이는 사전 훈련 데이터와 유사한 데이터에 대해 참조 모델을 훈련해야 하는 기존의 탐지 방법과 차별화됩니다. 더욱이, 우리의 실험은 Min-K% Prob이 WIKIMIA에서 기존 방법들보다 7.4%의 성능 향상을 달성함을 보여줍니다. 우리는 Min-K% Prob을 두 가지 실제 시나리오, 즉 저작권이 있는 책 탐지와 오염된 다운스트림 예제 탐지에 적용하였고, 이 방법이 일관되게 효과적인 해결책임을 발견했습니다.
Transformer 기반의 대규모 언어 모델(LLMs)은 다양한 자연어 처리 작업에서 혁신적인 발전을 이끌고 있지만, 그들의 탁월한 능력은 Transformer의 사전 설정된 컨텍스트 윈도우 내에서만 제한적으로 발휘됩니다. 위치 임베딩(PE) 스케일링 방법은 컨텍스트 윈도우를 특정 길이로 확장하는 데 효과적이지만, 외삽 능력에서 현저한 한계를 보이거나 컨텍스트 윈도우 내에서 부분적인 성능 저하를 초래합니다. 길이 외삽 방법은 이론적으로 훈련 시퀀스 길이를 초과하는 컨텍스트 윈도우를 확장할 수 있지만, 실제 장문 컨텍스트 응용에서는 종종 성능이 떨어집니다. 이러한 문제를 해결하기 위해, 우리는 LLMs을 위한 연속 길이 외삽(Continuous Length EXtrapolation, CLEX)을 제안합니다. 우리는 PE 스케일링 접근법을 일반화하여 길이 스케일링 인자에 대한 상미분 방정식을 통해 연속적인 동역학을 모델링함으로써, 특정 길이를 위해 설계된 현재의 PE 스케일링 방법의 제약을 극복합니다. 더 나아가, 훈련 시퀀스 길이를 초과하는 원하는 컨텍스트 길이로 동역학을 확장함으로써, CLEX는 실제 작업에서 인상적인 성능으로 길이 외삽을 가능하게 합니다. 우리는 CLEX가 Rotary Position Embedding을 갖춘 LLaMA 및 GPT-NeoX와 같은 LLMs에 원활하게 통합될 수 있으며, 훈련 및 추론 지연 시간에 미미한 영향을 미친다는 것을 보여줍니다. 실험 결과는 CLEX가 컨텍스트 윈도우를 훈련 길이의 4배 이상 또는 거의 8배까지 효과적으로 확장할 수 있으며, 성능 저하 없이 이를 달성할 수 있음을 보여줍니다. 또한, 실제 LongBench 벤치마크에서 평가했을 때, 4k 길이로 훈련된 우리의 모델은 최대 32k 길이의 컨텍스트로 훈련된 최첨단 오픈소스 모델들과 경쟁력 있는 성능을 보였습니다.
대규모 파운데이션 모델을 최신 데이터로 유지하는 것은 본질적으로 비용이 많이 듭니다. 지속적인 재훈련의 과도한 비용을 피하기 위해, 이러한 모델을 지속적으로 훈련하는 것이 필수적입니다. 이 문제는 대규모 지속 학습 벤치마크나 기준선이 부족함으로 인해 더욱 악화됩니다. 우리는 비전-언어 모델 훈련을 위한 첫 번째 웹 스케일 시간-지속적(TiC) 벤치마크인 TiC-DataCompt, TiC-YFCC, TiC-RedCaps를 소개합니다. 이 벤치마크는 9년간(2014-2022)에 걸친 127억 개의 타임스탬프가 찍힌 이미지-텍스트 쌍을 포함합니다. 우리는 먼저 이 벤치마크를 사용하여 기존 모델의 시간적 견고성을 측정하기 위한 다양한 동적 평가를 구성했습니다. OpenAI의 CLIP(2020년까지의 데이터로 훈련됨)이 OpenCLIP 저장소의 최근에 훈련된 모델에 비해 2021-2022년의 우리가 구성한 검색 작업에서 약 8%의 제로샷 정확도를 잃는 것을 보여줍니다. 그런 다음 시간-연속 데이터에서 모델을 효율적으로 훈련하는 방법을 연구합니다. 우리는 마지막 체크포인트에서 훈련을 계속하고 이전 데이터를 재생하는 간단한 리허설 기반 접근법이 처음부터 재훈련하는 표준 관행에 비해 계산 비용을 2.5배 줄이는 것을 입증합니다.
TD-MPC는 학습된 암묵적(디코더 없는) 세계 모델의 잠재 공간에서 지역 궤적 최적화를 수행하는 모델 기반 강화 학습(RL) 알고리즘입니다. 본 연구에서는 TD-MPC 알고리즘을 개선한 TD-MPC2를 소개합니다. 우리는 TD-MPC2가 4개의 다양한 작업 영역에 걸친 104개의 온라인 RL 작업에서 기준선을 크게 능가하며, 단일 하이퍼파라미터 세트로 일관되게 강력한 결과를 달성함을 보여줍니다. 또한, 에이전트의 능력이 모델과 데이터 크기에 따라 증가함을 보여주고, 317M 파라미터의 단일 에이전트를 여러 작업 영역, 구현체, 그리고 행동 공간에 걸쳐 80개의 작업을 수행하도록 성공적으로 학습시켰습니다. 마지막으로, 대규모 TD-MPC2 에이전트와 관련된 교훈, 기회, 그리고 위험에 대한 설명을 제공합니다. 비디오, 모델, 데이터, 코드 등을 https://nicklashansen.github.io/td-mpc2에서 확인하세요.
모바일 기기에서 실시간으로 새로운 시점의 이미지를 합성하는 것은 제한된 계산 능력과 저장 공간으로 인해 현실적으로 어려운 과제입니다. NeRF와 그 파생 기술과 같은 볼륨 렌더링 방법은 높은 계산 비용으로 인해 모바일 기기에 적합하지 않습니다. 반면, 최근 신경 광장(neural light field) 표현 기술의 발전으로 모바일 기기에서 실시간 시점 합성 결과가 가능해졌습니다. 신경 광장 방법은 광선 표현에서 픽셀 색상으로의 직접적인 매핑을 학습합니다. 현재 광선 표현으로는 층화된 광선 샘플링(stratified ray sampling) 또는 플뤼커 좌표(Pl\"{u}cker coordinates)가 사용되고 있으나, 광장 뷰 간 보간에 선호되는 고전적인 광 슬래브(light slab, 두 평면) 표현은 간과되고 있습니다. 본 연구에서는 광 슬래브 표현이 신경 광장을 학습하는 데 효율적인 표현임을 발견했습니다. 더 중요한 것은, 이 표현이 더 낮은 차원의 광선 표현으로, 특징 그리드(feature grid)를 사용하여 4D 광선 공간을 학습할 수 있게 하며, 이는 학습과 렌더링 속도를 크게 향상시킵니다. 주로 정면 뷰를 위해 설계되었지만, 분할 정복(divide-and-conquer) 전략을 통해 비정면 장면으로도 확장 가능함을 보여줍니다. 우리의 방법은 기존 광장 방법보다 우수한 렌더링 품질을 제공하며, 렌더링 품질과 속도 간의 균형을 크게 개선했습니다.