번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)에서 넓은 컨텍스트 창은 바람직한 기능이다. 그러나 높은 파인튜닝 비용, 긴 텍스트의 부족, 그리고 새로운 토큰 위치에 의해 도입된 치명적인 값들로 인해, 현재 확장된 컨텍스트 창은 약 128k 토큰으로 제한되어 있다. 본 논문은 LongRoPE를 소개하며, 이는 사전 훈련된 LLMs의 컨텍스트 창을 처음으로 2048k 토큰까지 확장하고, 256k 훈련 길이 내에서 최대 1k 파인튜닝 단계만으로 원래의 짧은 컨텍스트 창에서의 성능을 유지한다. 이는 세 가지 주요 혁신을 통해 달성된다: (i) 효율적인 탐색을 통해 위치 보간에서 두 가지 형태의 비균일성을 식별하고 활용하여, 파인튜닝을 위한 더 나은 초기화를 제공하고 비파인튜닝 시나리오에서 8배의 확장을 가능하게 한다; (ii) 256k 길이의 LLM을 먼저 파인튜닝한 후, 파인튜닝된 확장 LLM에 두 번째 위치 보간을 수행하여 2048k 컨텍스트 창을 달성하는 점진적 확장 전략을 도입한다; (iii) 8k 길이에서 LongRoPE를 재조정하여 짧은 컨텍스트 창 성능을 회복한다. LLaMA2와 Mistral을 대상으로 한 다양한 작업에서의 광범위한 실험은 본 방법의 효과를 입증한다. LongRoPE를 통해 확장된 모델은 위치 임베딩에 대한 사소한 수정만으로 원래의 아키텍처를 유지하며, 대부분의 기존 최적화를 재사용할 수 있다.
오늘날의 딥러닝 방법론은 모델의 예측 결과가 실제 값에 최대한 가까워질 수 있도록 가장 적절한 목적 함수를 설계하는 데 초점을 맞추고 있다. 동시에, 예측을 위해 충분한 정보를 획득할 수 있도록 적절한 아키텍처를 설계해야 한다. 기존의 방법들은 입력 데이터가 계층별 특징 추출과 공간 변환을 거치면서 대량의 정보가 손실된다는 사실을 간과하고 있다. 본 논문은 데이터가 딥 네트워크를 통해 전달될 때 발생하는 데이터 손실의 중요한 문제, 즉 정보 병목 현상과 가역 함수에 대해 심층적으로 탐구한다. 우리는 다양한 목표를 달성하기 위해 딥 네트워크가 요구하는 다양한 변화에 대응하기 위해 프로그래머블 그래디언트 정보(Programmable Gradient Information, PGI) 개념을 제안하였다. PGI는 목표 작업을 위한 완전한 입력 정보를 제공하여 목적 함수를 계산할 수 있도록 하여, 신뢰할 수 있는 그래디언트 정보를 얻어 네트워크 가중치를 업데이트할 수 있게 한다. 또한, 그래디언트 경로 계획을 기반으로 한 새로운 경량 네트워크 아키텍처인 일반화된 효율적 계층 집합 네트워크(Generalized Efficient Layer Aggregation Network, GELAN)를 설계하였다. GELAN의 아키텍처는 PGI가 경량 모델에서 우수한 결과를 얻었음을 확인한다. 우리는 제안된 GELAN과 PGI를 MS COCO 데이터셋 기반 객체 탐지에서 검증하였다. 결과는 GELAN이 깊이별 합성곱(depth-wise convolution)을 기반으로 개발된 최신 방법들보다 더 나은 매개변수 활용을 달성하기 위해 기존의 합성곱 연산자만을 사용함을 보여준다. PGI는 경량 모델부터 대형 모델까지 다양한 모델에 사용될 수 있다. 이를 통해 완전한 정보를 얻을 수 있으므로, 대규모 데이터셋으로 사전 훈련된 최신 모델보다 처음부터 훈련된 모델이 더 나은 결과를 달성할 수 있다. 비교 결과는 그림 1에 나와 있다. 소스 코드는 https://github.com/WongKinYiu/yolov9에서 확인할 수 있다.
본 논문에서는 Project Aria 안경을 사용하여 기록된 자기 중심적(egocentric) 멀티모달 오픈 데이터셋인 Aria Everyday Activities(AEA) 데이터셋을 소개한다. AEA 데이터셋은 지리적으로 다양한 5개의 실내 환경에서 여러 사용자가 기록한 143개의 일상 활동 시퀀스로 구성되어 있다. 각 기록은 Project Aria 안경을 통해 수집된 멀티모달 센서 데이터를 포함한다. 또한, AEA는 고주파 전역 정렬 3D 궤적, 장면 포인트 클라우드, 프레임별 3D 시선 벡터, 시간 정렬 음성 전사 등 기계 인지 데이터를 제공한다. 본 논문에서는 이 데이터셋을 활용한 신경망 기반 장면 재구성 및 프롬프트 기반 분할과 같은 몇 가지 예시 연구 응용 사례를 제시한다. AEA는 오픈소스 데이터셋으로, projectaria.com에서 다운로드할 수 있다. 또한, Project Aria Tools에서 데이터셋을 사용하는 방법에 대한 오픈소스 구현 및 예제도 제공한다.
우리는 SDXL 기반의 1024px 텍스트-이미지 생성에서 1단계/소수 단계로 새로운 최첨단 성능을 달성하는 확산 증류 방법을 제안한다. 본 방법은 점진적 증류와 적대적 증류를 결합하여 품질과 모드 커버리지 간의 균형을 달성한다. 본 논문에서는 이론적 분석, 판별기 설계, 모델 공식화 및 훈련 기법에 대해 논의한다. 우리는 증류된 SDXL-Lightning 모델을 LoRA 및 완전한 UNet 가중치로 오픈소스화하였다.
현대의 이미지 생성 모델은 놀라운 품질과 다양성을 보여준다. 이러한 장점에 이끌려 연구 커뮤니티는 이를 비디오 생성에 재활용하고 있다. 그러나 비디오 콘텐츠는 매우 중복적이기 때문에, 이미지 모델의 발전을 비디오 생성 영역에 단순히 적용하는 것은 움직임의 충실도와 시각적 품질을 저하시키고 확장성을 해친다고 주장한다. 본 연구에서는 이러한 문제를 체계적으로 해결하기 위해 비디오 중심 모델인 Snap Video를 구축한다. 이를 위해 먼저 EDM 프레임워크를 확장하여 공간적 및 시간적으로 중복된 픽셀을 고려하고 비디오 생성을 자연스럽게 지원한다. 둘째, 이미지 생성의 핵심인 U-Net이 비디오 생성 시 확장성이 떨어지며 상당한 계산 오버헤드를 요구한다는 점을 보여준다. 따라서 우리는 U-Net보다 3.31배 빠르게 학습하고 추론 시 약 4.5배 빠른 새로운 트랜스포머 기반 아키텍처를 제안한다. 이를 통해 처음으로 수십억 개의 파라미터를 가진 텍스트-투-비디오 모델을 효율적으로 학습할 수 있었으며, 여러 벤치마크에서 최첨단 결과를 달성하고 훨씬 더 높은 품질, 시간적 일관성, 그리고 움직임 복잡성을 가진 비디오를 생성할 수 있었다. 사용자 연구 결과, 우리의 모델은 최신 방법들보다 큰 차이로 선호되었다. 자세한 내용은 https://snap-research.github.io/snapvideo/에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 자연어 처리 분야에 혁신을 가져왔습니다. 그러나 복잡하고 잡음이 포함될 수 있는 사용자 상호작용 데이터를 효과적으로 통합하는 것은 여전히 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 사용자 임베딩을 활용하여 LLMs를 상황에 맞게 조정하는 새로운 프레임워크인 User-LLM을 제안합니다. 이러한 임베딩은 자기 지도 사전 학습을 통해 다양한 사용자 상호작용에서 추출되며, 잠재적인 사용자 선호도와 시간에 따른 변화를 포착합니다. 우리는 이러한 사용자 임베딩을 교차 주의(cross-attention)와 소프트 프롬프팅(soft-prompting)을 통해 LLMs와 통합함으로써, LLMs가 사용자 상황에 동적으로 적응할 수 있도록 합니다. MovieLens, Amazon Review, Google Local Review 데이터셋에 대한 포괄적인 실험을 통해 다양한 작업에서 상당한 성능 향상을 입증했습니다. 특히, 우리의 접근 방식은 긴 시퀀스 작업과 깊은 사용자 이해가 필요한 작업에서 텍스트 프롬프트 기반 상황화를 능가하면서도 계산적으로 효율적입니다. 또한, Perceiver 레이어를 통합하여 사용자 인코더와 LLMs 간의 통합을 간소화하고 계산 요구를 줄였습니다.
최근 연구에 따르면, 심층 강화 학습 에이전트는 네트워크 매개변수를 효과적으로 활용하는 데 어려움을 겪는 것으로 나타났습니다. 우리는 희소 학습 기법의 장점에 대한 기존의 통찰력을 활용하여, 점진적 크기 가지치기가 에이전트가 매개변수 효율성을 극대화할 수 있음을 입증했습니다. 이를 통해 전통적인 네트워크 대비 극적인 성능 향상을 이루는 동시에 전체 네트워크 매개변수의 일부만을 사용하여 일종의 "스케일링 법칙"을 보여주는 네트워크를 구축할 수 있었습니다.
최근 대규모 언어 모델(LLMs)에 대한 적대적 공격이 모델을 "탈옥"시켜 유해한 발언을 하도록 만들 수 있다는 것이 밝혀졌다. 본 연구에서는 LLMs에 대한 적대적 공격의 범위가 단순한 탈옥을 넘어 훨씬 더 크다는 주장을 제시한다. 우리는 가능한 공격 표면과 공격 목표에 대한 광범위한 개요를 제공한다. 일련의 구체적인 예시를 바탕으로, 오도, 모델 제어, 서비스 거부, 데이터 추출 등 다양한 의도하지 않은 행동을 유도하는 공격들을 논의하고 분류하며 체계화한다. 우리는 이러한 공격들을 통제된 실험에서 분석하고, 그 중 다수가 코딩 능력을 갖춘 LLMs를 사전 학습시키는 관행과 보안상 제거되어야 할 이상한 "글리치" 토큰이 일반적인 LLM 어휘에 계속 존재하는 데서 비롯된다는 사실을 발견했다.
확산 모델의 발전과 함께 텍스트 기반 이미지 스타일 변환은 고품질의 제어 가능한 합성 결과를 보여주고 있다. 그러나 다양한 음악 스타일 변환에 텍스트를 활용하는 것은 주로 매칭된 오디오-텍스트 데이터셋의 제한된 가용성으로 인해 상당한 도전 과제로 남아 있다. 음악은 추상적이고 복잡한 예술 형태로, 동일한 장르 내에서도 변이와 복잡성을 보이기 때문에 정확한 텍스트 기술을 달성하기 어렵다. 본 논문은 최소한의 데이터를 사용하여 음악적 속성을 효과적으로 포착하는 음악 스타일 변환 접근법을 제시한다. 우리는 다양한 수준에서 멜-스펙트로그램 특징을 정확하게 포착하기 위해 새로운 시간 가변적 텍스트 역전 모듈을 소개한다. 추론 과정에서는 안정적인 결과를 얻기 위해 편향 감소 스타일화 기법을 제안한다. 실험 결과는 우리의 방법이 특정 악기의 스타일을 변환할 뿐만 아니라 자연 소리를 통합하여 멜로디를 작곡할 수 있음을 보여준다. 샘플과 소스 코드는 https://lsfhuihuiff.github.io/MusicTI/에서 확인할 수 있다.
다중 모달 추론은 대형 시각-언어 모델(LVLMs)의 핵심적인 능력으로 자리 잡고 있다. 정확한 시각적 표현을 제공하는 도메인 특화 언어(Domain-Specific Languages, DSL)와의 통합은 이러한 모델이 복잡하고 전문적인 영역에서 더 정확한 추론을 수행할 수 있는 기회를 제공한다. 그러나 기존의 사고 연쇄(Chain-of-Thought, CoT) 프롬프트 방법은 시각적 표현과 DSL 표현의 고유한 강점을 효과적으로 활용하는 데 어려움을 겪고 있으며, 이는 주로 이들의 서로 다른 추론 메커니즘 때문이다. 또한, 이 방법은 다단계 추론 작업에서 중요한 단계를 충분히 다루지 못하는 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 복잡한 다중 모달 추론 작업에서 DSL의 잠재력을 극대화하기 위해 설계된 이중 모달 행동 정렬(Bi-Modal Behavioral Alignment, BBA) 프롬프트 방법을 제안한다. 이 방법은 LVLMs가 시각적 표현과 DSL 표현에 대해 별도의 추론 체인을 생성하도록 유도한 후, 이러한 체인을 일관성 있게 정렬하여 서로 다른 모달리티의 행동을 통합한다. 우리의 실험 결과, BBA는 GPT-4V(ision)의 기하학 문제 해결(28.34%에서 34.22%로), 체스 위치적 우위 예측(42.08%에서 46.99%로), 그리고 분자 속성 예측(77.47%에서 83.52%로) 성능을 크게 향상시킴을 보여준다.
이미지 확산 모델에서 어텐션 메커니즘은 중요한 역할을 해왔지만, 이차원적인 계산 복잡성으로 인해 합리적인 시간과 메모리 제약 내에서 처리할 수 있는 이미지 크기가 제한되어 왔다. 본 논문은 생성적 이미지 모델에서 밀집 어텐션의 중요성을 조사하며, 이러한 모델들은 종종 중복된 특징을 포함하고 있어 희소 어텐션 메커니즘에 적합함을 보인다. 우리는 키와 값 토큰의 토큰 다운샘플링에 기반한 새로운 학습 불필요 방법인 ToDo를 제안하며, 이를 통해 일반적인 크기의 이미지에 대해 최대 2배, 2048x2048과 같은 고해상도 이미지에 대해 최대 4.5배 이상의 Stable Diffusion 추론 속도를 가속화한다. 우리의 접근 방식이 효율적인 처리량과 충실도 간의 균형을 이전 방법들보다 우수하게 달성함을 입증한다.
최신 디퓨전(Diffusion) 및 플로우 매칭(FM) 모델의 생성 결과를 특정 작업별 모델을 재학습하지 않고도 제어할 수 있다면, 역문제 해결, 조건부 생성 및 일반적인 제어 생성에 강력한 도구를 활용할 수 있다. 본 연구에서는 플로우를 통해 미분하고 소스(노이즈) 점을 최적화함으로써 생성 과정을 제어하는 간단한 프레임워크인 D-Flow를 소개한다. 이 프레임워크는 가우시안 확률 경로로 학습된 디퓨전/FM 모델의 경우, 생성 과정을 통해 미분하는 것이 데이터 매니폴드에 그래디언트를 투영하여 최적화 과정에 암묵적으로 사전 정보를 주입한다는 핵심 관찰에 기반을 두고 있다. 우리는 이 프레임워크를 선형 및 비선형 제어 생성 문제, 이미지 및 오디오 역문제, 조건부 분자 생성 등에 적용하여 모든 분야에서 최신 기술 수준의 성능을 달성함으로써 검증하였다.
드래프트-후-검증(Speculative Decoding)과 같은 디코딩 방법은 대규모 언어 모델(LLM)의 추론 속도를 가속화하기 위해 널리 채택된 학습 없는 방법이다. 이러한 방법은 토큰을 순차적으로 디코딩하는 자기회귀적 프로세스를 사용하는 대신, 효율적인 소형 모델을 사용하여 초안을 먼저 생성한다. 이후 LLM은 비자기회귀 방식으로 검증 및 수정을 수행하여 시간 오버헤드를 최소화한다. 더 긴 초안을 생성하면 검증 후 더 큰 속도 향상을 기대할 수 있지만, 실패할 경우 상당한 시행착오 비용이 발생한다. 기존 디코딩 방법은 높은 검증 실패 확률로 인해 한 번에 너무 많은 내용을 초안으로 생성하여 검증할 수 없어, 최적의 추론 가속을 달성하지 못한다. 본 논문에서는 Ouroboros를 소개한다. Ouroboros는 LLM의 검증 과정에서 구문 후보 풀을 구성하여 소형 모델의 초안 생성을 위한 후보를 제공한다. 이를 통해 Ouroboros는 초기 초안의 효율성과 효과를 더욱 향상시킬 수 있다. 일반적인 텍스트 생성 작업에 대한 실험 결과, Ouroboros는 Lookahead Decoding 및 Speculative Decoding에 비해 각각 최대 1.9배 및 2.8배의 속도 향상을 달성했다. Ouroboros의 소스 코드는 https://github.com/thunlp/Ouroboros에서 확인할 수 있다.