번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 자기 주의력(self-attention)의 추론 병목 현상을 완화하기 위해 계층적 전역-지역 모델링(global-to-local modeling)을 자기회귀 트랜스포머(autoregressive transformer)에 적용한 Block Transformer 아키텍처를 제안한다. 자기 주의력을 적용하기 위해서는 모든 이전 시퀀스의 키-값(Key-Value, KV) 캐시를 매 디코딩 단계마다 메모리에서 검색해야 한다. 이로 인해 배치 추론에서 KV 캐시 입출력(IO)이 주요 병목 현상으로 작용한다. 우리는 이러한 비용이 전역 문맥(global context)에 자기 주의력을 적용하는 데서 비롯된다는 점을 발견했으며, 따라서 전역 모델링의 고비용 병목 현상을 하위 계층으로 격리하고 상위 계층에서는 빠른 지역 모델링을 적용한다. 하위 계층에서 남아 있는 비용을 완화하기 위해 입력 토큰을 고정 크기 블록으로 집계한 후, 이 거친 수준에서 자기 주의력을 적용한다. 문맥 정보는 단일 임베딩으로 집계되어 상위 계층이 전역 주의력 없이 다음 토큰 블록을 디코딩할 수 있도록 한다. 전역 주의력 병목 현상에서 자유로운 상위 계층은 컴퓨팅 하드웨어를 최대한 활용하여 추론 처리량을 극대화할 수 있다. 전역 및 지역 모듈을 활용함으로써, Block Transformer 아키텍처는 동등한 복잡도(perplexity)를 가진 일반 트랜스포머 대비 10-20배의 추론 처리량 향상을 보여준다. 우리의 연구는 전역-지역 모델링의 새로운 적용을 통해 언어 모델 추론을 최적화하는 새로운 접근 방식을 소개한다. 코드는 https://github.com/itsnamgyu/block-transformer에서 확인할 수 있다.
GPT-4V와 같은 멀티모달 대형 언어 모델(MLLM)의 급속한 발전은 인공 일반 지능(AGI)으로 나아가는 중요한 단계를 나타냅니다. 기존 방법들은 주로 지도 미세 조정(SFT)을 통해 시각 인코더와 대형 언어 모델(LLM)을 정렬함으로써 LLM에 멀티모달 능력을 부여하는 데 초점을 맞추고 있으며, 이로 인해 학습 과정이 진행됨에 따라 MLLM의 다국어 반응 능력이 점차 저하되고 있습니다. 우리는 실험적으로 영어 중심의 이미지-텍스트 쌍으로 구성된 불균형 SFT 데이터셋이 비영어 언어에서의 성능을 크게 감소시킨다는 사실을 발견했습니다. 이는 SFT 과정에서 시각 인코더와 LLM이 다국어 토큰과 제대로 정렬되지 못했기 때문입니다. 본 논문에서는 텍스트 지침을 활용하여 언어 수준에서 시각 토큰 정렬을 유도하는 새로운 방법인 Parrot을 소개합니다. Parrot은 다양한 언어 입력에 따라 시각 토큰을 조건화하고, 전문가 혼합(MoE)을 사용하여 다국어 토큰의 정렬을 촉진합니다. 구체적으로, 비영어 시각 토큰 정렬을 강화하기 위해 초기 시각 특징과 텍스트 임베딩을 사용하여 교차 주의를 계산하고, 그 결과를 MoE 라우터에 입력하여 가장 관련성이 높은 전문가를 선택합니다. 선택된 전문가는 이후 초기 시각 토큰을 언어별 시각 토큰으로 변환합니다. 또한, 현재 이 분야에서 다국어 능력을 평가하기 위한 벤치마크가 부족한 점을 고려하여, 6개 언어, 15개 카테고리, 12,000개의 질문으로 구성된 대규모 다국어 멀티모달 벤치마크(MMMB)를 수집 및 공개합니다. 우리의 방법은 다국어 MMBench와 MMMB에서 최첨단 성능을 보여줄 뿐만 아니라, 다양한 멀티모달 작업에서도 우수한 성과를 거둡니다. Parrot의 소스 코드와 학습 데이터셋은 모두 공개될 예정입니다.
모바일 디바이스 운영 작업은 점점 더 인기 있는 멀티모달 AI 애플리케이션 시나리오로 자리 잡고 있습니다. 현재의 멀티모달 대형 언어 모델(MLLMs)은 학습 데이터의 제약으로 인해 운영 보조자로서 효과적으로 기능하는 능력이 부족합니다. 대신, 도구 호출을 통해 능력을 강화한 MLLM 기반 에이전트들이 점차 이 시나리오에 적용되고 있습니다. 그러나 모바일 디바이스 운영 작업에서의 두 가지 주요 내비게이션 문제인 작업 진행 내비게이션과 포커스 콘텐츠 내비게이션은 기존 작업의 단일 에이전트 아키텍처 하에서 상당히 복잡해집니다. 이는 지나치게 긴 토큰 시퀀스와 텍스트-이미지 데이터 형식의 교차로 인해 성능이 제한되기 때문입니다. 이러한 내비게이션 문제를 효과적으로 해결하기 위해, 우리는 모바일 디바이스 운영 지원을 위한 멀티 에이전트 아키텍처인 Mobile-Agent-v2를 제안합니다. 이 아키텍처는 계획 에이전트, 결정 에이전트, 반성 에이전트로 구성됩니다. 계획 에이전트는 작업 진행을 생성하여 이전 작업 내비게이션을 더 효율적으로 만듭니다. 포커스 콘텐츠를 유지하기 위해, 우리는 작업 진행에 따라 업데이트되는 메모리 유닛을 설계했습니다. 또한, 잘못된 작업을 수정하기 위해 반성 에이전트는 각 작업의 결과를 관찰하고 그에 따라 오류를 처리합니다. 실험 결과, Mobile-Agent-v2는 Mobile-Agent의 단일 에이전트 아키텍처에 비해 작업 완료율에서 30% 이상의 향상을 달성했습니다. 코드는 https://github.com/X-PLUG/MobileAgent에서 오픈소스로 제공됩니다.
기존의 단일 이미지에서 3D 생성으로 이어지는 방법들은 일반적으로 두 단계의 프로세스를 거칩니다. 먼저 다중 뷰 이미지를 생성한 다음, 이러한 이미지를 3D 재구성에 사용합니다. 그러나 이 두 단계를 별도로 학습하면 추론 단계에서 상당한 데이터 편향이 발생하여 재구성 결과의 품질에 영향을 미칩니다. 우리는 Ouroboros3D라는 통합 3D 생성 프레임워크를 소개합니다. 이 프레임워크는 확산 기반 다중 뷰 이미지 생성과 3D 재구성을 재귀적 확산 프로세스로 통합합니다. 우리의 프레임워크에서는 이 두 모듈이 자기 조건화 메커니즘을 통해 공동으로 학습되어 서로의 특성에 적응할 수 있도록 하여 강력한 추론을 가능하게 합니다. 다중 뷰 노이즈 제거 과정에서 다중 뷰 확산 모델은 이전 시간 단계에서 재구성 모듈에 의해 렌더링된 3D 인식 맵을 추가 조건으로 사용합니다. 3D 인식 피드백을 포함한 재귀적 확산 프레임워크는 전체 프로세스를 통합하고 기하학적 일관성을 향상시킵니다. 실험 결과, 우리의 프레임워크는 이 두 단계를 분리하거나 추론 단계에서 결합하는 기존 방법들을 능가하는 성능을 보여줍니다. 프로젝트 페이지: https://costwen.github.io/Ouroboros3D/
트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었습니다. 그러나 오디오 스펙트로그램 트랜스포머(AST)는 자기 주의(self-attention)로 인해 이차적 스케일링을 보입니다. 이러한 이차적 자기 주의 비용을 제거하는 것은 매력적인 연구 방향입니다. 최근, 맘바(Mamba)와 같은 상태 공간 모델(SSM)이 언어 및 비전 작업에서 이러한 측면에서 잠재력을 보여주었습니다. 본 연구에서는 오디오 분류 작업에서 자기 주의에 대한 의존이 필요한지 탐구합니다. 이를 위해, 우리는 오디오 분류를 위한 최초의 자기 주의가 없는 순수 SSM 기반 모델인 오디오 맘바(AuM)를 제안하여 이 질문에 답하고자 합니다. AuM은 다양한 오디오 데이터셋(6개의 벤치마크로 구성)에서 평가되었으며, 잘 알려진 AST 모델과 비교했을 때 비슷하거나 더 나은 성능을 달성했습니다.
레이아웃 생성은 자동화된 그래픽 디자인을 달성하기 위한 핵심 요소로, 다양한 다중 모드 디자인 요소들의 위치와 크기를 시각적으로 매력적이고 제약 조건을 준수하는 방식으로 배치하는 것을 요구합니다. 기존의 접근 방식들은 대규모 응용 프로그램에 비효율적이거나 다양한 디자인 요구사항에 대한 유연성이 부족했습니다. 본 연구는 다중 모드 대형 언어 모델(MLLM)을 활용하여 다양한 디자인 작업을 수용할 수 있는 자동화된 그래픽 레이아웃 생성을 위한 통합 프레임워크를 소개합니다. 이와 대조적으로, 우리의 데이터 기반 방법은 구조화된 텍스트(JSON 형식)와 시각적 지침 튜닝을 사용하여 사용자 정의 자연어 명세를 포함한 특정 시각적 및 텍스트 제약 조건 하에서 레이아웃을 생성합니다. 우리는 광범위한 실험을 수행하고 공개된 다중 모드 레이아웃 생성 벤치마크에서 최첨단(SOTA) 성능을 달성하여 우리 방법의 효과를 입증했습니다. 또한, 기존 데이터셋이 실세계 그래픽 디자인의 복잡성을 포착하는 데 한계가 있음을 인식하고, 훨씬 더 도전적인 작업(사용자 제약 생성 및 복잡한 포스터)을 위한 두 가지 새로운 데이터셋을 제안하여 우리 모델의 실생활 유용성을 추가로 검증했습니다. 이 접근 방식은 우수한 접근성과 적응성을 바탕으로 대규모 그래픽 디자인 작업을 더욱 자동화합니다. 코드와 데이터셋은 https://github.com/posterllava/PosterLLaVA에서 공개될 예정입니다.
선행 연구들은 신경망 오디오 코덱을 통해 얻은 오디오 토큰에 생성적 언어 모델을 사용하여 제로샷 텍스트-투-스피치를 구현해 왔습니다. 그러나 이러한 접근법을 저지연 시나리오에 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 제로샷 텍스트-투-스피치를 위한 완전한 자기회귀 언어 모델 기반 접근법인 LiveSpeech를 소개하며, 이를 통해 출력 오디오의 저지연 스트리밍이 가능합니다. 단일 디코딩 단계 내에서 다중 토큰 예측을 가능하게 하기 위해, 우리는 (1) 각 프레임에서의 코드북 기여도를 고려하고 어려운 사례에 초점을 맞춘 적응형 코드북 손실 가중치를 사용하는 방법과 (2) 코드북을 그룹화하여 병렬로 처리하는 방법을 제안합니다. 실험 결과, 제안된 모델은 콘텐츠 정확도, 화자 유사성, 오디오 품질 및 추론 속도 측면에서 최첨단 베이스라인과 경쟁력 있는 결과를 달성하면서도 저지연 스트리밍 애플리케이션에 적합함을 보여줍니다.
비디오 확산 모델의 상당한 발전은 텍스트-투-비디오(T2V) 합성 분야에 큰 진전을 가져왔습니다. 그러나 기존의 T2V 합성 모델은 복잡한 동작 역학을 정확하게 생성하는 데 어려움을 겪으며, 이로 인해 비디오의 현실감이 감소하는 문제가 발생합니다. 이를 해결하기 위한 한 가지 방법은 방대한 데이터를 수집하여 모델을 학습시키는 것이지만, 이는 매우 비용이 많이 드는 작업입니다. 이 문제를 완화하기 위해, 본 논문에서는 전형적인 T2V 생성 과정을 검색 기반 생성 파이프라인으로 재구성합니다. 모델 학습의 규모를 확장하는 대신, 기존 비디오를 동작 사전 데이터베이스로 활용합니다. 구체적으로, T2V 생성 과정을 두 단계로 나눕니다: (i) 주어진 프롬프트 입력에 대해, 기존 텍스트-비디오 데이터셋을 검색하여 프롬프트의 동작과 가장 근접하게 일치하는 텍스트 레이블이 있는 비디오를 찾습니다. 이때, 객체의 동작 특징을 강조하는 맞춤형 검색 알고리즘을 제안합니다. (ii) 검색된 비디오는 처리 및 정제되어 사전 학습된 기본 T2V 모델을 미세 조정하는 데 사용되는 동작 사전으로 변환된 후, 입력 프롬프트를 사용하여 원하는 비디오를 생성합니다. 검색된 비디오에서 추출된 사전을 활용함으로써, 생성된 비디오의 동작 현실감을 향상시킵니다. 모든 작업은 단일 NVIDIA RTX 4090 GPU에서 완료할 수 있습니다. 우리는 다양한 프롬프트 입력에 대해 최신 T2V 모델과 비교하여 우리의 방법을 검증합니다. 코드는 공개될 예정입니다.
인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 대규모 언어 모델(Large Language Models, LLMs)의 최근 성공에 중요한 역할을 해왔지만, 이는 종종 복잡하고 취약한 과정입니다. 기존의 RLHF 프레임워크에서는 먼저 인간의 선호도를 나타내기 위해 보상 모델을 학습시키고, 이를 온라인 강화 학습(RL) 알고리즘이 LLM을 최적화하는 데 사용합니다. 이러한 방법의 주요 문제는 보상 과최적화 또는 보상 해킹으로, 학습된 대리 보상 모델로 측정된 성능은 증가하지만 실제 품질은 정체되거나 심지어 악화되는 현상입니다. 직접 정렬 알고리즘(Direct Alignment Algorithms, DAAs)인 직접 선호 최적화(Direct Preference Optimization)와 같은 방법들은 보상 모델링 단계를 우회함으로써 기존 RLHF 파이프라인의 대안으로 등장했습니다. 그러나 DAAs는 별도의 대리 보상 모델을 사용하지 않음에도 불구하고 여전히 과최적화로 인해 악화되는 경우가 많습니다. DAAs에 대한 소위 보상 해킹 현상은 명확히 정의되지는 않았지만, 우리는 유사한 경향을 발견했습니다: 더 높은 KL 예산에서 DAA 알고리즘은 기존 RLHF와 유사한 성능 저하 패턴을 보입니다. 특히, DAA 방법들은 다양한 KL 예산 범위에서뿐만 아니라 종종 데이터셋의 단일 에포크가 완료되기도 전에 악화되는 것으로 나타났습니다. 본 연구는 광범위한 실험을 통해 DAAs의 보상 과최적화 또는 해킹 문제를 공식화하고, 이를 목표, 학습 체계, 모델 규모에 걸쳐 그 영향을 탐구합니다.
대규모 언어 모델(LLMs)은 복잡한 대화 이해, 추론 및 코딩과 같은 작업에서 탁월한 성과를 보이며, 이는 이들의 창발적 능력 덕분입니다. 이러한 창발적 능력은 이미지, 오디오, 비디오 기능을 포함한 다중 모달리티로 확장되었습니다. 반면, 추천 시스템은 정보 탐색 및 아이템 발견에 있어 중요한 역할을 해왔습니다. 최근에는 LLMs를 추천에 적용하려는 시도가 이루어지고 있습니다. 현재 시도에서의 어려움 중 하나는, 기본 LLM이 사용자 상호작용 신호를 주로 포함하고 있으며 공개적으로 이용 가능하지 않은 추천 시스템 데이터로 훈련되지 않았다는 점입니다. 또 다른 어려움은 사용자 상호작용 신호가 자연어 텍스트와는 다른 패턴을 보이며, 기존 추천 시스템 방법에 비해 상호작용 신호로부터 더 복잡한 지식을 학습할 수 있는지 여부가 현재 명확하지 않다는 점입니다. 마지막으로, 다양한 사용 사례를 위해 여러 LLMs를 훈련시키고, 추천 시스템 데이터를 학습하면서도 원래의 언어 및 추론 능력을 유지하는 것이 어렵다는 점입니다. 이 세 가지 한계를 해결하기 위해, 우리는 사용자 상호작용 신호를 인코딩하는 텍스트 정렬 아이템 표현을 생성하는 아이템 인코더와, 사전 훈련된 지식을 유지하며 이러한 아이템 표현을 이해할 수 있는 고정된 LLM으로 구성된 아이템-언어 모델(ILM)을 제안합니다. 우리는 광범위한 실험을 통해 아이템 인코더에서 언어 정렬과 사용자 상호작용 지식의 중요성을 입증합니다.
대규모 언어 모델(LLMs)은 다양한 작업에서 인상적인 성능을 보여주고 있지만, 방대한 매개변수 크기로 인해 자원이 제한된 환경에서의 적용이 어렵습니다. 지식 증류(KD)는 대형 교사 모델의 전문성을 소형 학생 모델로 전이함으로써 이러한 문제에 대한 실용적인 해결책을 제공합니다. 그러나 전통적인 KD 기법은 LLMs에 적용할 때 몇 가지 특정한 문제에 직면하는데, 이는 LLM 출력에 대한 접근 제한, 교사와 학생 모델 간의 상당한 역량 차이, 그리고 상속된 잘못된 보정 문제 등을 포함합니다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 선호도 기반 LLM 증류 프레임워크인 PLaD를 제안합니다. PLaD는 교사와 학생 모델 간의 역량 차이를 활용하여 교사 출력이 학생 출력보다 선호되는 가상의 선호도 쌍을 생성합니다. 그런 다음, PLaD는 순위 손실을 활용하여 학생 모델의 시퀀스 가능성 추정을 재보정함으로써, 학생 모델이 단순히 교사를 모방하는 대신 출력의 상대적 품질을 이해하는 데 초점을 맞추도록 유도합니다. PLaD는 교사 LLM의 내부 상태에 대한 접근 필요성을 우회하고, 학생 모델의 표현력 한계를 해결하며, 학생 모델의 잘못된 보정 문제를 완화합니다. 두 가지 시퀀스 생성 작업과 다양한 LLMs를 대상으로 한 광범위한 실험을 통해, 우리가 제안한 PLaD 프레임워크의 효과성을 입증합니다.
우리는 2조 개 이상의 토큰으로 사전 학습된 컴팩트하고 효율적인 1.1B 규모의 언어 모델인 Xmodel-LM을 소개합니다. 하위 작업 최적화를 기반으로 중국어와 영어 코퍼스를 균형 있게 구성한 자체 구축 데이터셋(Xdata)으로 학습된 Xmodel-LM은 작은 크기에도 불구하고 뛰어난 성능을 보여줍니다. 특히, 이 모델은 유사한 규모의 기존 오픈소스 언어 모델들을 능가하는 성과를 기록했습니다. 우리의 모델 체크포인트와 코드는 https://github.com/XiaoduoAILab/XmodelLM에서 공개적으로 접근 가능합니다.