번역이 포함된 일일 선별된 AI 연구 논문
개인화된 이미지 합성 분야에서는 Textual Inversion, DreamBooth, LoRA와 같은 방법들이 상당한 진전을 이루어 왔습니다. 그러나 이러한 방법들은 높은 저장 공간 요구량, 긴 미세 조정 과정, 그리고 다수의 참조 이미지 필요성으로 인해 실제 적용에 어려움을 겪고 있습니다. 반면, 기존의 ID 임베딩 기반 방법들은 단일 순방향 추론만으로도 가능하지만, 수많은 모델 파라미터에 걸친 광범위한 미세 조정이 필요하거나, 커뮤니티 사전 학습 모델과의 호환성이 부족하거나, 높은 얼굴 정확도를 유지하지 못하는 등의 문제에 직면해 있습니다. 이러한 한계를 극복하기 위해, 우리는 강력한 확산 모델 기반 솔루션인 InstantID를 소개합니다. 우리의 플러그 앤 플레이 모듈은 단일 얼굴 이미지만을 사용하여 다양한 스타일의 이미지 개인화를 능숙하게 처리하며, 동시에 높은 정확도를 보장합니다. 이를 위해, 우리는 강력한 의미론적 조건과 약한 공간적 조건을 부과하여 얼굴 이미지와 랜드마크 이미지를 텍스트 프롬프트와 통합하여 이미지 생성을 유도하는 새로운 IdentityNet을 설계했습니다. InstantID는 탁월한 성능과 효율성을 보여주며, 신원 보존이 중요한 실제 응용 분야에서 매우 유용함을 입증했습니다. 또한, 우리의 작업은 SD1.5 및 SDXL과 같은 인기 있는 사전 학습된 텍스트-이미지 확산 모델과 원활하게 통합되어 적응형 플러그인으로서의 역할을 합니다. 우리의 코드와 사전 학습된 체크포인트는 https://github.com/InstantID/InstantID에서 이용 가능할 것입니다.
본 논문은 자동회귀 목적 함수로 사전 학습된 비전 모델 컬렉션인 AIM을 소개합니다. 이러한 모델들은 대규모 언어 모델(LLMs)에서 영감을 받아 유사한 확장 특성을 보여줍니다. 구체적으로, 우리는 두 가지 주요 발견을 강조합니다: (1) 시각적 특징의 성능은 모델 용량과 데이터 양 모두에 따라 확장되며, (2) 목적 함수의 값은 다운스트림 작업에서의 모델 성능과 상관관계가 있습니다. 우리는 이러한 발견의 실질적 의미를 20억 장의 이미지로 70억 개의 파라미터를 가진 AIM을 사전 학습하여 설명하며, 이 모델은 고정된 트렁크로 ImageNet-1k에서 84.0%의 성능을 달성했습니다. 흥미롭게도, 이 규모에서도 성능 포화의 징후가 관찰되지 않아, AIM이 대규모 비전 모델 학습을 위한 새로운 프론티어를 대표할 가능성이 있음을 시사합니다. AIM의 사전 학습은 LLMs의 사전 학습과 유사하며, 대규모 학습을 안정화하기 위한 이미지 특화 전략이 필요하지 않습니다.
중간 규모의 대형 언어 모델(LLM) — 7B 또는 13B 매개변수를 가진 모델 — 은 기계 번역(MT) 작업에서 유망한 성능을 보인다. 그러나 ALMA와 같은 최고 성능의 13B LLM 기반 번역 모델조차도 최첨단 전통적인 인코더-디코더 번역 모델이나 GPT-4와 같은 대규모 LLM의 성능에는 미치지 못한다. 본 연구에서는 이러한 성능 격차를 해소하고자 한다. 먼저, LLM의 지도 미세 조정(SFT)이 MT 작업에서 가지는 한계를 평가하며, 인간이 생성한 참조 데이터에도 불구하고 존재하는 품질 문제를 강조한다. 그런 다음, 참조 번역을 모방하는 SFT와 대조적으로, 적절하지만 완벽하지 않은 번역을 생성하지 않도록 모델을 훈련시키는 새로운 접근법인 대조적 선호 최적화(Contrastive Preference Optimization, CPO)를 소개한다. 단 22K 병렬 문장과 12M 매개변수를 가진 ALMA 모델에 CPO를 적용함으로써 상당한 개선을 이끌어낸다. 그 결과로 얻은 ALMA-R 모델은 WMT'21, WMT'22 및 WMT'23 테스트 데이터셋에서 WMT 대회 우승자와 GPT-4의 성능을 따라잡거나 능가할 수 있다.
일반적으로 긴 컨텍스트 크기로 대형 언어 모델(LLM)을 학습시키는 것은 계산 비용이 많이 들며, 상당한 학습 시간과 GPU 자원이 필요합니다. 기존의 긴 컨텍스트 확장 방법들은 일반적으로 해당 긴 컨텍스트 창을 지원하기 위해 추가적인 학습 절차가 필요하며, 이 과정에서 긴 컨텍스트 학습 데이터(예: 32k)가 요구되고 높은 GPU 학습 비용이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 단 한 번의 학습 절차와 크게 줄어든 계산 비용으로 긴 컨텍스트 데이터 수집의 필요성을 제거한 효율적이고 극단적인 길이 확장 방법인 E²-LLM을 제안합니다. 구체적으로, 첫째, E²-LLM의 학습 데이터는 짧은 길이(예: 4k)만 필요하므로 튜닝 비용이 크게 감소합니다. 둘째, 짧은 학습 컨텍스트 창에 대한 학습 절차는 단 한 번만 수행되며, 추론 시 다양한 평가 컨텍스트 창을 지원할 수 있습니다. 셋째, E²-LLM에서는 RoPE 위치 임베딩을 기반으로 학습 중 다양한 샘플에 대해 스케일과 위치 인덱스 매개변수에 두 가지 다른 증강 방법을 도입합니다. 이는 추론 시 임의의 컨텍스트 길이를 직접 보간할 때 모델이 다양한 상대적 차이에 대해 더 강건해지도록 하는 것을 목표로 합니다. 여러 벤치마크 데이터셋에 대한 포괄적인 실험 결과는 E²-LLM이 도전적인 긴 컨텍스트 작업에서의 효과를 입증합니다.
대규모 사전 학습된 언어 모델의 일반적인 능력에도 불구하고, 이러한 모델들은 원하는 행동을 더 잘 달성하기 위해 추가적인 적응을 통해 꾸준히 이점을 얻습니다. 그러나 이러한 모델을 튜닝하는 것은 점점 더 많은 자원을 필요로 하거나, 모델 가중치가 비공개인 경우 불가능해지고 있습니다. 우리는 프록시 튜닝(proxy-tuning)을 소개합니다. 이는 블랙박스 언어 모델 위에서 작동하는 경량의 디코딩 시점 알고리즘으로, 모델을 직접 튜닝한 결과를 달성하지만 출력 어휘에 대한 모델의 예측만 접근합니다. 우리의 방법은 더 작은 언어 모델을 튜닝한 다음, 튜닝된 작은 모델과 튜닝되지 않은 모델의 예측 차이를 이용해 기본 모델의 원래 예측을 튜닝 방향으로 이동시키며, 대규모 사전 학습의 이점을 유지합니다. 실험에서 Llama2-70B에 7B 크기의 프록시를 사용해 프록시 튜닝을 적용했을 때, 지식, 추론, 안전성 벤치마크에서 평가된 Llama2-70B와 실제로 튜닝된 채팅 버전 간의 격차를 88% 줄일 수 있었습니다. 흥미롭게도, TruthfulQA에서 테스트했을 때 프록시 튜닝된 모델은 직접 튜닝된 모델보다 실제로 더 진실된 결과를 보였는데, 이는 디코딩 시점 가이드가 모델의 사실적 지식을 더 잘 보존하기 때문일 수 있습니다. 그런 다음 우리는 프록시 튜닝의 일반성을 코드 도메인 적응과 질문-응답 및 수학 문제에 대한 작업별 미세 조정에 적용하여 입증합니다. 우리의 연구는 작은 튜닝된 언어 모델을 사용해 잠재적으로 독점적인 대규모 언어 모델을 디코딩 시점 가이드를 통해 효율적으로 맞춤화할 수 있는 가능성을 보여줍니다.
생성 모델은 고품질의 텍스트, 이미지, 비디오를 합성하는 데 있어서 놀라운 능력을 보여주고 있다. 비디오 생성 분야에서 최신 텍스트-투-비디오 모델은 시각적으로 뛰어난 비디오를 제작하며 인상적인 성능을 보인다. 그러나 이러한 비디오를 평가하는 것은 상당한 어려움을 동반한다. 현재 연구는 주로 FVD, IS, CLIP Score와 같은 자동화된 지표를 사용하고 있다. 하지만 이러한 지표들은 비디오 콘텐츠의 시간적 평가 측면에서 불완전한 분석을 제공하며, 이로 인해 진정한 비디오 품질을 신뢰할 수 있는 지표로 사용하기에는 한계가 있다. 또한, 사용자 연구는 인간의 인식을 정확히 반영할 잠재력을 가지고 있지만, 시간과 노력이 많이 소요되며 결과가 주관적 편향에 의해 오염되는 경우가 많다. 본 논문에서는 기존 지표들의 한계를 조사하고, 새로운 평가 파이프라인인 텍스트-투-비디오 점수(T2VScore)를 소개한다. 이 지표는 두 가지 핵심 기준을 통합한다: (1) 텍스트-비디오 정렬, 이는 주어진 텍스트 설명을 비디오가 얼마나 충실히 표현하는지를 검토하며, (2) 비디오 품질, 이는 전문가들의 혼합 평가를 통해 비디오의 전반적인 제작 수준을 평가한다. 또한, 제안된 지표를 평가하고 향후 개선을 촉진하기 위해 TVGE 데이터셋을 제시한다. 이 데이터셋은 두 가지 기준에 대해 2,543개의 텍스트-투-비디오 생성 비디오에 대한 인간의 판단을 수집하였다. TVGE 데이터셋에 대한 실험은 제안된 T2VScore가 텍스트-투-비디오 생성을 위한 더 나은 지표를 제공함을 입증한다.
대형 언어 모델(LLM)은 사전 학습된 컨텍스트 윈도우를 넘어서는 외삽 능력이 제한되어 있어, 긴 입력을 요구하는 다운스트림 작업에서의 적용이 제약되는 것으로 알려져 있습니다. 최근 연구들은 LLaMA, PaLM, GPT-NeoX와 같은 유명한 LLM들이 채택한 인기 있는 위치 인코딩 방법인 회전 위치 임베딩(RoPE)을 수정하여 LLM의 컨텍스트 윈도우를 확장하려는 시도를 해왔습니다. 그러나 Position Interpolation(PI) 및 YaRN과 같은 기존 연구들은 자원 집약적이며, 그 적용 가능성을 평가하기 위한 비교 실험이 부족합니다. 본 연구에서는 LLM의 어텐션 엔트로피(즉, 어텐션 점수의 정보 엔트로피)가 안정성을 유지해야 하는 본질적인 필요성을 확인하고, RoPE의 기본 주파수를 조정하고 어텐션 로짓을 스케일링하여 LLM이 더 큰 컨텍스트 윈도우에 효율적으로 적응할 수 있도록 돕는 RoPE의 새로운 확장 방법을 소개합니다. 우리는 다양한 컨텍스트 요구 작업에서의 미세 조정 성능과 다양한 컨텍스트 윈도우 크기에 대한 견고성을 통해 우리 방법의 우수성을 검증합니다. 특히, 우리의 방법은 LLaMA-2-7B-Chat의 컨텍스트 윈도우를 단 100개의 샘플과 6번의 학습 단계만으로 16,384로 확장하며, 탁월한 효율성을 보여줍니다. 마지막으로, 특정 다운스트림 작업에 대한 컨텍스트 윈도우 확장에 데이터 구성과 학습 커리큘럼이 어떻게 영향을 미치는지 탐구하며, 긴 대화로 LLM을 미세 조정하는 것이 좋은 출발점임을 제안합니다. 우리는 코드와 SFT 데이터를 https://github.com/GAIR-NLP/Entropy-ABF에서 공개합니다.
최근 DALL-E, Craiyon, Stable Diffusion와 같은 기계 학습 모델은 간결한 설명으로부터 고해상도 이미지를 생성하는 능력으로 큰 주목을 받고 있다. 동시에, 양자 컴퓨팅은 특히 전통적인 기계 학습 알고리즘의 증가하는 계산 요구를 충족하기 위해 양자 역학을 활용하는 양자 기계 학습 분야에서 유망한 발전을 보이고 있다. 본 논문은 확산 기반 이미지 생성 모델의 효율성을 증대시키기 위해 양자 기계 학습과 변분 양자 회로의 통합을 탐구한다. 구체적으로, 우리는 고전적 확산 모델의 두 가지 주요 문제인 낮은 샘플링 속도와 방대한 매개변수 요구 사항을 해결한다. 우리는 두 가지 양자 확산 모델을 소개하고, 이를 MNIST 숫자, Fashion MNIST, CIFAR-10 데이터셋을 사용하여 고전적 모델과 성능을 비교한다. 우리의 모델은 유사한 매개변수 수준에서 성능 지표인 FID, SSIM, PSNR 측면에서 고전적 모델을 능가한다. 또한, 우리는 확산 과정을 단일 단계로 통합하여 빠른 단일 단계 이미지 생성을 가능하게 하는 일관성 모델 단일 샘플링 아키텍처를 제안한다.
생성 모델링 분야의 최근 놀라운 발전에도 불구하고, 텍스트 프롬프트로부터 고품질 3D 자산을 효율적으로 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 주요 도전 과제 중 하나는 데이터 부족 문제입니다: 가장 방대한 3D 데이터셋도 수백만 개의 자산을 포함하는 반면, 2D 데이터셋은 수십억 개의 텍스트-이미지 쌍을 포함하고 있습니다. 이를 해결하기 위해, 우리는 대규모로 사전 학습된 2D 확산 모델의 힘을 활용하는 새로운 접근 방식을 제안합니다. 보다 구체적으로, 우리의 접근 방식인 HexaGen3D는 사전 학습된 텍스트-이미지 모델을 미세 조정하여 6개의 직교 투영과 해당 잠재 삼면체를 동시에 예측하도록 합니다. 그런 다음 이러한 잠재 변수를 디코딩하여 텍스처가 적용된 메시를 생성합니다. HexaGen3D는 샘플별 최적화가 필요하지 않으며, 텍스트 프롬프트로부터 고품질이고 다양한 객체를 7초 내에 추론할 수 있어, 기존 접근 방식과 비교했을 때 훨씬 더 나은 품질-지연 시간 트레이드오프를 제공합니다. 또한, HexaGen3D는 새로운 객체나 구성을 강력하게 일반화하는 능력을 보여줍니다.