번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 GPT, LLaMA, OPT, BLOOM 등의 모델을 포함한 트랜스포머 디코더에 특화된 새로운 선형 특성을 밝혀냅니다. 우리는 순차적 레이어 간의 임베딩 변환을 분석하여 거의 완벽한 선형 관계(Procrustes 유사도 점수 0.99)를 발견했습니다. 그러나 트랜스포머 레이어의 출력 노름이 지속적으로 낮기 때문에 잔차 성분을 제거하면 선형성이 감소합니다. 실험 결과, 트랜스포머의 가장 선형적인 블록 일부를 제거하거나 선형적으로 근사하더라도 손실이나 모델 성능에 큰 영향을 미치지 않는 것으로 나타났습니다. 또한, 더 작은 모델에 대한 사전 학습 실험에서 레이어 선형성을 감소시키기 위한 코사인 유사도 기반 정규화를 도입했습니다. 이 정규화는 Tiny Stories 및 SuperGLUE와 같은 벤치마크에서 성능 지표를 개선할 뿐만 아니라 모델의 선형성을 성공적으로 감소시켰습니다. 이 연구는 트랜스포머 아키텍처에 대한 기존의 이해에 도전하며, 그 동작이 이전에 가정했던 것보다 더 선형적일 수 있음을 시사합니다.
키-값(Key-Value, KV) 캐싱은 트랜스포머 기반의 자기회귀적 대규모 언어 모델(LLMs)의 디코딩 속도를 높이는 데 중요한 역할을 합니다. 그러나 긴 시퀀스 길이와 큰 배치 크기에서 KV 캐시를 저장하는 데 필요한 메모리 양이 과도하게 커질 수 있습니다. 트랜스포머가 발명된 이후, KV 캐시의 크기를 줄이기 위해 발견된 가장 효과적인 두 가지 방법은 멀티-쿼리 어텐션(Multi-Query Attention, MQA)과 이를 일반화한 그룹드-쿼리 어텐션(Grouped-Query Attention, GQA)입니다. MQA와 GQA는 모두 어텐션 블록의 설계를 수정하여 여러 쿼리 헤드가 단일 키/값 헤드를 공유할 수 있게 함으로써, 정확도를 최소한으로 저하시키면서도 별개의 키/값 헤드 수를 크게 줄입니다. 본 논문에서는 멀티-쿼리 어텐션을 한 단계 더 발전시켜 인접한 레이어 간에도 키와 값 헤드를 공유하는 새로운 어텐션 설계인 크로스-레이어 어텐션(Cross-Layer Attention, CLA)을 제안합니다. CLA를 사용하면 수정되지 않은 MQA와 거의 동일한 정확도를 유지하면서 KV 캐시의 크기를 추가로 2배 줄일 수 있음을 확인했습니다. 1B 및 3B 파라미터 모델을 처음부터 학습하는 실험에서, CLA는 기존 MQA가 가능한 메모리/정확도 트레이드오프에 대해 파레토 개선을 제공하며, 더 긴 시퀀스 길이와 더 큰 배치 크기로의 추론을 가능하게 합니다.
월드 모델(World models)은 안전하고 샘플 효율적인 방식으로 강화 학습 에이전트를 훈련시키기 위한 유망한 접근법입니다. 최근의 월드 모델은 주로 환경 역학을 모델링하기 위해 이산 잠재 변수(discrete latent variables)의 시퀀스에서 작동합니다. 그러나 이러한 간결한 이산 표현으로의 압축은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있습니다. 동시에, 확산 모델(diffusion models)은 이미지 생성에서 주도적인 접근법으로 자리 잡으며, 이산 잠재 변수를 모델링하는 기존의 잘 정립된 방법들에 도전하고 있습니다. 이러한 패러다임 전환에 영감을 받아, 우리는 DIAMOND(DIffusion As a Model Of eNvironment Dreams)를 소개합니다. DIAMOND는 확산 월드 모델 내에서 훈련된 강화 학습 에이전트입니다. 우리는 확산 모델이 월드 모델링에 적합하도록 만들기 위해 필요한 주요 설계 선택을 분석하고, 개선된 시각적 세부 사항이 어떻게 에이전트 성능 향상으로 이어질 수 있는지 보여줍니다. DIAMOND는 경쟁적인 Atari 100k 벤치마크에서 평균 인간 정규화 점수 1.46을 달성하며, 월드 모델 내에서 완전히 훈련된 에이전트로서 새로운 최고 기록을 세웠습니다. 확산 모델을 이용한 월드 모델링에 대한 미래 연구를 촉진하기 위해, 우리는 코드, 에이전트 및 플레이 가능한 월드 모델을 https://github.com/eloialonso/diamond에서 공개합니다.
현재의 얼굴 재현 및 교체 방법은 주로 GAN 프레임워크에 의존하고 있지만, 최근에는 더 우수한 생성 능력을 가진 사전 학습된 확산 모델로 관심이 옮겨가고 있습니다. 그러나 이러한 모델을 학습시키는 데는 많은 자원이 소요되며, 결과물도 아직 만족스러운 성능 수준에 이르지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 확산 모델을 위한 고정밀도 및 고충실도 얼굴 편집을 위해 설계된 효율적이고 효과적인 어댑터인 Face-Adapter를 소개합니다. 우리는 얼굴 재현 및 교체 작업이 본질적으로 대상 구조, ID 및 속성의 조합을 포함한다는 점을 관찰했습니다. 우리는 이러한 요소들의 제어를 충분히 분리하여 하나의 모델로 두 작업을 모두 달성하는 것을 목표로 합니다. 구체적으로, 우리의 방법은 다음과 같은 요소를 포함합니다: 1) 정확한 랜드마크와 배경을 제공하는 공간 조건 생성기; 2) 트랜스포머 디코더를 통해 얼굴 임베딩을 텍스트 공간으로 전달하는 플러그 앤 플레이 ID 인코더; 3) 공간 조건과 세부 속성을 통합하는 속성 컨트롤러. Face-Adapter는 완전히 미세 조정된 얼굴 재현/교체 모델과 비교하여 동작 제어 정밀도, ID 유지 능력, 생성 품질 측면에서 비슷하거나 더 우수한 성능을 달성합니다. 또한, Face-Adapter는 다양한 StableDiffusion 모델과 원활하게 통합됩니다.
이미지 매칭 분야에서는 지속적으로 새로운 학습 가능한 특징 매칭 기술이 등장하며, 기존 벤치마크에서 점점 더 향상된 성능을 보여주고 있습니다. 그러나 우리의 조사에 따르면, 이러한 성능 향상에도 불구하고 실제 응용 프로그램에서의 잠재력은 새로운 이미지 도메인에 대한 제한된 일반화 능력으로 인해 제약을 받고 있습니다. 본 논문에서는 일반화를 핵심 원칙으로 설계된 최초의 학습 가능한 이미지 매처인 OmniGlue를 소개합니다. OmniGlue는 비전 파운데이션 모델의 광범위한 지식을 활용하여 특징 매칭 프로세스를 안내함으로써, 훈련 시점에 보지 못한 도메인에 대한 일반화를 강화합니다. 또한, 공간 정보와 외형 정보를 분리하여 향상된 매칭 디스크립터를 생성하는 새로운 키포인트 위치 기반 어텐션 메커니즘을 제안합니다. 우리는 장면 수준, 객체 중심, 항공 이미지 등 다양한 이미지 도메인을 포함한 7개의 데이터셋에 대해 포괄적인 실험을 수행했습니다. OmniGlue의 새로운 구성 요소는 직접 비교 가능한 참조 모델 대비 보이지 않는 도메인에서 20.9%의 상대적 성능 향상을 이끌어냈으며, 최근의 LightGlue 방법보다도 9.5% 상대적으로 더 나은 성능을 보였습니다. 코드와 모델은 https://hwjiang1510.github.io/OmniGlue에서 확인할 수 있습니다.
텍스트-이미지 확산 모델을 활용한 효율적인 개념 기반 생성을 위해 개인화된 잔차와 지역화된 주의 기반 샘플링 기법을 제안한다. 우리의 방법은 먼저 사전 학습된 텍스트 조건부 확산 모델의 가중치를 고정하고, 모델의 일부 계층에 대해 저차원 잔차를 학습함으로써 개념을 표현한다. 이 잔차 기반 접근법은 제안된 샘플링 기법의 직접적인 적용을 가능하게 하는데, 이 기법은 학습된 잔차를 교차 주의를 통해 개념이 지역화된 영역에만 적용하고, 나머지 영역에서는 원본 확산 모델의 가중치를 사용한다. 따라서 지역화된 샘플링은 학습된 개념의 정체성을 기저 확산 모델의 기존 생성 사전 지식과 결합한다. 우리는 개인화된 잔차가 단일 GPU에서 약 3분 만에 정규화 이미지 없이도 개념의 정체성을 효과적으로 포착하며, 이전 모델보다 적은 매개변수로 이를 달성할 수 있음을 보여준다. 또한 지역화된 샘플링은 이미지의 대부분 영역에 대해 원본 모델을 강력한 사전 지식으로 활용할 수 있게 한다.