번역이 포함된 일일 선별된 AI 연구 논문
우리는 GPT4-Turbo와 비슷한 성능을 보이는 오픈소스 Mixture-of-Experts(MoE) 코드 언어 모델인 DeepSeek-Coder-V2를 소개합니다. 구체적으로, DeepSeek-Coder-V2는 DeepSeek-V2의 중간 체크포인트에서 추가로 6조 토큰을 사용해 사전 학습을 더 진행한 모델입니다. 이러한 지속적인 사전 학습을 통해 DeepSeek-Coder-V2는 DeepSeek-V2의 코딩 및 수학적 추론 능력을 크게 향상시키면서도 일반 언어 작업에서도 비슷한 성능을 유지합니다. DeepSeek-Coder-33B와 비교했을 때, DeepSeek-Coder-V2는 코드 관련 작업뿐만 아니라 추론 및 일반 능력에서도 상당한 발전을 보여줍니다. 또한, DeepSeek-Coder-V2는 지원하는 프로그래밍 언어를 86개에서 338개로 확장하고, 컨텍스트 길이를 16K에서 128K로 늘렸습니다. 표준 벤치마크 평가에서 DeepSeek-Coder-V2는 GPT4-Turbo, Claude 3 Opus, Gemini 1.5 Pro와 같은 클로즈드 소스 모델보다 코딩 및 수학 벤치마크에서 우수한 성능을 달성했습니다.
360도 이미지에서 깊이를 정확하게 추정하는 것은 가상 현실, 자율 주행, 몰입형 미디어 애플리케이션에 있어 매우 중요합니다. 기존의 원근 시점 이미지를 위해 설계된 깊이 추정 방법들은 카메라 투영 방식과 왜곡의 차이로 인해 360도 이미지에 적용할 때 실패하는 반면, 360도 전용 방법들은 라벨링된 데이터 쌍의 부족으로 인해 성능이 떨어집니다. 우리는 라벨링되지 않은 360도 데이터를 효과적으로 활용하는 새로운 깊이 추정 프레임워크를 제안합니다. 우리의 접근 방식은 최신 원근 깊이 추정 모델을 교사 모델로 사용하여 육면체 투영 기법을 통해 가짜 라벨을 생성함으로써, 360도 이미지의 깊이를 효율적으로 라벨링할 수 있게 합니다. 이 방법은 대규모 데이터셋의 증가하는 가용성을 활용합니다. 우리의 접근 방식은 무효 영역에 대한 오프라인 마스크 생성과 온라인 준지도 학습 결합 훈련 체계라는 두 가지 주요 단계를 포함합니다. 우리는 Matterport3D와 Stanford2D3D와 같은 벤치마크 데이터셋에서 이 방법을 테스트하여, 특히 제로샷 시나리오에서 깊이 추정 정확도가 크게 향상됨을 보였습니다. 우리가 제안한 훈련 파이프라인은 모든 360도 단안 깊이 추정기를 향상시킬 수 있으며, 다양한 카메라 투영 방식과 데이터 유형 간의 효과적인 지식 전달을 입증합니다. 결과는 프로젝트 페이지에서 확인할 수 있습니다: https://albert100121.github.io/Depth-Anywhere/
대규모 언어 모델(LLM)에서의 인간 정렬(human alignment)은 활발히 연구되고 있는 분야입니다. 최근 획기적인 연구인 직접 선호 최적화(Direct Preference Optimization, DPO)는 인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)의 과정을 크게 단순화하여, RLHF의 보상 학습 단계를 생략했습니다. DPO는 학습 후에 암묵적인 보상 모델을 제공합니다. 본 연구에서는 이 암묵적인 보상 모델이 그 자체로 부트스트래핑 방식으로 LLM을 추가적으로 정렬하는 데 사용될 수 있다는 새로운 관찰을 제시합니다. 우리의 접근 방식은 현재 LLM 모델의 보상을 사용하여 선호 데이터셋을 구성하고, 이를 후속 DPO 라운드에서 사용하는 것입니다. 또한, 응답 길이에 대한 편향을 제거하고 선호 데이터셋의 품질을 개선하여 우리의 접근 방식을 더욱 향상시켰습니다. 우리는 이 접근 방식을 DPO 암묵적 보상을 통한 자기 정렬(Self-Alignment with DPO ImpliCit rEwards, DICE)로 명명했습니다. DICE는 정렬 측면에서 큰 개선을 보였으며, AlpacaEval 2에서 Gemini Pro를 능가하는 성능을 달성했습니다. 특히, GPT-4 Turbo 대비 27.55%의 길이 제어 승률을 기록했으며, 이는 단 8B 파라미터와 외부 피드백 없이 달성한 결과입니다. 우리의 코드는 https://github.com/sail-sg/dice에서 확인할 수 있습니다.
대규모 언어 및 비전 모델(LLVM)은 대규모 언어 모델(LLM)의 일반화 능력과 시각적 명령 튜닝의 등장에 의해 주도되어 왔습니다. 이러한 모델을 직접적으로 확장하는 것과 함께, 자연어 명령을 통해 다양한 작업을 다루며 강력한 시각 언어(VL) 성능을 보여줄 수 있게 되었습니다. 그러나 GPT-4V와 같은 폐쇄형 LLVM에 필적하는 성능을 보이는 기존의 오픈소스 LLVM은 종종 너무 큰 규모(예: 26B, 34B, 110B 파라미터)와 더 많은 층을 가지고 있어, 훈련 및 추론에 고가의 고성능 자원을 요구합니다. 이러한 문제를 해결하기 위해, 우리는 1.8B, 3.8B, 7B 규모의 LLM을 가진 새로운 효율적인 LLVM 패밀리인 Traversal of Layers(TroL)를 제안합니다. 이는 토큰 단위로 층을 재사용할 수 있게 하는 기술로, 추가적인 물리적 층을 늘리지 않으면서도 순전파 층의 수를 증가시키며 답변 스트림을 되돌아보고 재추적하는 효과를 시뮬레이션합니다. 우리는 TroL이 단순한 층 순회 접근법을 사용하면서도 더 큰 규모의 오픈소스 LLVM을 능가하고, 상당한 규모의 폐쇄형 LLVM과도 경쟁할 수 있는 성능을 보임을 입증합니다.
우리는 시간이 지남에 따라 개발해 온 대규모 언어 모델 패밀리인 ChatGLM을 소개합니다. 이 보고서는 주로 GLM-4 언어 시리즈에 초점을 맞추고 있으며, 여기에는 GLM-4, GLM-4-Air, GLM-4-9B가 포함됩니다. 이 모델들은 이전 세대의 ChatGLM에서 얻은 모든 통찰과 교훈을 바탕으로 훈련된 우리의 가장 강력한 모델들을 대표합니다. 현재까지 GLM-4 모델들은 주로 중국어와 영어로 된 10조 개의 토큰과 24개 언어의 소규모 코퍼스를 기반으로 사전 훈련되었으며, 주로 중국어와 영어 사용에 맞춰 정렬되었습니다. 이러한 고품질의 정렬은 감독 미세 조정과 인간 피드백 학습을 포함한 다단계 사후 훈련 과정을 통해 달성되었습니다. 평가 결과에 따르면, GLM-4는 1) MMLU, GSM8K, MATH, BBH, GPQA, HumanEval과 같은 일반적인 메트릭에서 GPT-4와 거의 비슷하거나 더 나은 성능을 보이고, 2) IFEval로 측정된 지시 따르기 능력에서 GPT-4-Turbo에 근접하며, 3) 긴 문맥 작업에서 GPT-4 Turbo (128K) 및 Claude 3와 동등한 성능을 보이고, 4) AlignBench으로 측정된 중국어 정렬에서 GPT-4를 능가합니다. GLM-4 All Tools 모델은 사용자 의도를 이해하고 웹 브라우저, Python 인터프리터, 텍스트-이미지 모델, 사용자 정의 함수를 포함한 도구를 언제 어떤 것을 사용할지 자율적으로 결정하도록 추가로 정렬되어 복잡한 작업을 효과적으로 완료합니다. 실제 응용에서, 이 모델은 웹 브라우징을 통해 온라인 정보에 접근하거나 Python 인터프리터를 사용하여 수학 문제를 해결하는 작업에서 GPT-4 All Tools와 비슷하거나 더 나은 성능을 보입니다. 우리는 과정에서 ChatGLM-6B(3세대), GLM-4-9B(128K, 1M), GLM-4V-9B, WebGLM, CodeGeeX를 포함한 일련의 모델들을 오픈소스로 공개했으며, 2023년 한 해 동안 Hugging Face에서만 1천만 건 이상의 다운로드를 기록했습니다. 오픈 모델들은 https://github.com/THUDM와 https://huggingface.co/THUDM를 통해 접근할 수 있습니다.
비전-언어 모델(VLMs)은 다양한 멀티모달 작업에서 놀라운 성과를 거두었지만, 고해상도 이미지 입력과 비디오를 처리하는 데 필요한 제한된 컨텍스트 윈도우와 높은 계산 비용으로 인해 종종 병목 현상에 직면합니다. 비전 압축은 비전 토큰 수를 줄여 이 문제를 완화할 수 있습니다. 기존의 접근 방식은 외부 모듈을 사용하여 비전 토큰을 압축하고, 대형 언어 모델(LLMs)이 압축된 토큰을 이해하도록 강제함으로써 시각 정보의 손실을 초래했습니다. 그러나 LLMs의 비전 토큰 이해 패러다임은 압축 학습 과정에서 충분히 활용되지 않았습니다. 우리는 LLMs를 사용하여 비전 토큰을 압축하는 첫 번째 접근 방식인 VoCo-LLaMA를 제안합니다. 비전 명령 튜닝 단계에서 비전 압축 토큰을 도입하고 주의력 증류(attention distillation)를 활용함으로써, 우리의 방법은 LLMs가 비전 토큰을 이해하는 방식을 VoCo 토큰 처리에 증류합니다. VoCo-LLaMA는 효과적인 비전 압축을 촉진하고 추론 단계에서의 계산 효율성을 향상시킵니다. 구체적으로, 우리의 방법은 576배의 압축 비율로 최소한의 성능 손실을 달성하며, FLOPs를 최대 94.8% 줄이고 추론 시간을 69.6% 단축합니다. 또한, 비디오 프레임의 시계열 압축 토큰 시퀀스를 사용한 지속적인 학습을 통해, VoCo-LLaMA는 시간적 상관관계를 이해하는 능력을 보여주며, 인기 있는 비디오 질의응답 벤치마크에서 이전 방법들을 능가합니다. 우리의 접근 방식은 VLMs의 컨텍스트 윈도우의 전체 잠재력을 해제하여 더 확장 가능한 멀티모달 애플리케이션을 가능하게 하는 유망한 방법을 제시합니다. 프로젝트 페이지와 관련 코드는 https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}에서 확인할 수 있습니다.
소프트웨어 에이전트는 복잡한 소프트웨어 엔지니어링 과제를 해결하기 위한 유망한 도구로 부상했습니다. 그러나 기존 연구들은 워터폴 모델을 따르며 소프트웨어 개발 워크플로우를 지나치게 단순화했습니다. 이에 우리는 애자일 방법론(Agile Methodology, AM)을 프레임워크에 통합한 다중 에이전트 시스템인 AgileCoder를 제안합니다. 이 시스템은 제품 관리자(Product Manager), 개발자(Developer), 테스터(Tester)와 같은 특정 AM 역할을 다양한 에이전트에 할당하며, 이들은 사용자 입력을 기반으로 협력하여 소프트웨어를 개발합니다. AgileCoder는 작업을 스프린트로 조직하고, 스프린트를 통해 점진적으로 소프트웨어를 개발하는 데 초점을 맞춰 개발 효율성을 향상시킵니다. 또한, 우리는 코드베이스가 업데이트될 때마다 코드 의존성 그래프(Code Dependency Graph)를 동적으로 생성하는 모듈인 Dynamic Code Graph Generator를 소개합니다. 이를 통해 에이전트는 코드베이스를 더 잘 이해할 수 있게 되며, 소프트웨어 개발 과정 전반에 걸쳐 더 정확한 코드 생성과 수정이 가능해집니다. AgileCoder는 ChatDev와 MetaGPT와 같은 기존 벤치마크를 능가하며, 새로운 표준을 수립하고 고급 소프트웨어 엔지니어링 환경에서 다중 에이전트 시스템의 능력을 입증합니다. 우리의 소스 코드는 https://github.com/FSoft-AI4Code/AgileCoder에서 확인할 수 있습니다.
검색 증강 생성(Retrieval Augmented Generation, RAG)은 언어 모델이 외부 컨텍스트를 활용하여 사용자 프롬프트에 대한 응답을 보강하는 능력을 강화합니다. 이 접근 방식은 검색, 질문/응답, 챗봇 등 다양한 언어 모델 응용 분야에서의 실용적인 적용 가능성으로 인해 인기를 얻고 있습니다. 그러나 이 접근 방식이 정확히 어떻게 작동하는지는 명확히 이해되지 않고 있습니다. 본 논문에서는 RAG 파이프라인을 기계적으로 분석하여, 언어 모델이 단축 경로를 취하며 질문에 답할 때 컨텍스트 정보만을 활용하려는 강한 편향을 보이고, 매개변수적 메모리에 의존하는 정도는 최소화한다는 점을 강조합니다. 우리는 언어 모델의 이러한 기계적 행동을 다음과 같은 방법으로 탐구합니다: (i) 인과 매개 분석(Causal Mediation Analysis)을 통해 질문에 답할 때 매개변수적 메모리가 최소한으로 활용됨을 보이고, (ii) 주의 기여도(Attention Contributions)와 노크아웃(Knockouts)을 통해 마지막 토큰 잔류 스트림이 질문의 주제 토큰으로부터가 아니라 컨텍스트의 다른 정보성 토큰으로부터 보강됨을 보입니다. 우리는 이러한 단축 경로 행동이 LLaMa와 Phi 모델군 모두에서 두드러지게 나타남을 발견했습니다.
지도학습 기반 미세조정은 다양한 수학적 추론 과제에서 언어 모델의 문제 해결 능력을 향상시킵니다. 이러한 이점을 극대화하기 위해 기존 연구는 다양한 데이터 증강 기법을 통해 훈련 세트를 확장하는 데 초점을 맞추었으며, 이는 표준 단일 라운드 질의응답 설정에서 효과적입니다. 본 연구는 훈련 문제에 대한 더 깊은 이해를 도모함으로써 표준 설정뿐만 아니라 반성적 사고를 요구하는 더 복잡한 시나리오에서도 성능을 향상시키는 새로운 기법을 소개합니다. 구체적으로, 우리는 각 훈련 인스턴스에 문제 반영을 내재화하는 반영적 증강 기법을 제안합니다. 이 기법은 모델이 대안적 관점을 고려하고 추상화 및 유추와 상호작용하도록 훈련시켜, 반성적 추론을 통해 철저한 이해를 도모합니다. 광범위한 실험을 통해 우리의 목표 달성을 검증하였으며, 본 기법의 독창적인 장점과 기존 증강 기법과의 상호보완적 특성을 강조합니다.
안전 정렬 언어 모델은 종종 취약하고 불균형적인 안전 메커니즘을 보여주어, 안전하지 않은 콘텐츠를 생성할 가능성을 높입니다. 또한, 언어 모델에 편집 기술을 통해 새로운 지식을 통합하는 것은 안전성을 더욱 훼손할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 사용자 질문에 대해 안전한 응답을 생성하기 위한 문맥 적응형 디코딩 시점 안전 정렬 전략인 SafeInfer를 제안합니다. SafeInfer는 두 단계로 구성됩니다: 첫 번째는 안전 증폭 단계로, 안전한 데모 예제를 사용하여 모델의 은닉 상태를 조정하고 더 안전한 출력을 생성할 가능성을 높입니다. 두 번째는 안전 가이드 디코딩 단계로, 안전 최적화 분포를 기반으로 토큰 선택에 영향을 미쳐 생성된 콘텐츠가 윤리적 가이드라인을 준수하도록 합니다. 또한, 우리는 주요 AI 기술 거대 기업들의 정책에 따라 잠재적인 오용 시나리오를 해결하기 위해 설계된 새로운 벤치마크인 HarmEval을 소개합니다.
대규모 언어 모델(LLMs)은 인터넷에서 자동으로 수집된 방대한 양의 데이터를 기반으로 학습됩니다. 이 데이터에는 일반 지식을 풍부하게 담고 있는 백과사전 문서(예: 위키피디아)가 포함되어 있지만, 동시에 LLM 평가를 위해 사용되는 벤치마크 데이터셋과 중복될 가능성도 있습니다. 결과적으로, 학습 데이터셋에 유출되었을 수 있는 테스트 데이터셋을 사용하여 모델을 평가하는 것은 잘못된 결론을 초래할 수 있습니다. 언어 모델의 건전한 평가를 촉진하기 위해, 우리는 질의응답 및 주제 검색 작업에 적합한 새로운 테스트 데이터셋인 RepLiQA를 소개합니다. RepLiQA는 다섯 개의 테스트셋 분할로 구성되어 있으며, 이 중 네 개는 이번 출판 전까지 인터넷에 공개되거나 LLM API에 노출된 적이 없습니다. RepLiQA의 각 샘플은 (1) 인간 주석자가 작성한 가상 시나리오(예: 뉴스 기사)를 담고 있으며 인터넷에 존재하지 않는 참조 문서, (2) 문서의 주제에 대한 질문, (3) 문서의 정보를 직접 활용한 정답, (4) 정답을 포함한 참조 문서의 단락으로 구성됩니다. 따라서 정확한 답변을 생성하려면 모델이 제공된 문서 내에서 관련 내용을 찾을 수 있어야 합니다. 우리는 다양한 유형과 크기의 모델 간 성능 차이를 분석하기 위해 최신 LLM들을 포함한 대규모 벤치마크를 실행하며, 이는 맥락 조건부 언어 모델링 설정에서 이루어졌습니다. RepLiQA의 공개된 분할은 다음 링크에서 확인할 수 있습니다: https://huggingface.co/datasets/ServiceNow/repliqa.
대규모 언어 모델(LLM)이 번역 및 질의응답과 같은 애플리케이션에서 필수적인 역할을 하면서, 이를 인간의 가치와 안전하게 정렬시키는 것은 매우 중요합니다. 현재의 정렬 방법은 동적인 사용자 의도와 복잡한 목표를 다루는 데 어려움을 겪어, 모델이 유해한 콘텐츠를 생성할 위험에 노출됩니다. 우리는 Safety Arithmetic이라는 훈련이 필요 없는 프레임워크를 제안하며, 이는 기본 모델, 지도 학습을 통한 미세 조정 모델(SFT), 그리고 편집된 모델 등 다양한 시나리오에서 LLM의 안전성을 강화합니다. Safety Arithmetic은 유해한 콘텐츠를 피하기 위한 Harm Direction Removal과 안전한 응답을 촉진하기 위한 Safety Alignment로 구성됩니다. 또한, 의도하지 않게 사용될 경우 모델의 안전성을 훼손할 수 있는 편집 사례를 강조하는 NoIntentEdit 데이터셋을 제시합니다. 우리의 실험 결과, Safety Arithmetic은 안전성 지표를 크게 개선하고, 과도한 안전성을 줄이며, 모델의 유용성을 유지함으로써 기존 방법을 능가하는 안전한 콘텐츠 생성을 보장합니다.
언어 모델은 일반적으로 원시 텍스트를 미리 정의된 어휘집의 서브워드 식별자 시퀀스로 토큰화하는데, 이 과정은 본질적으로 오타, 길이 변이에 민감하며 토큰의 내부 구조를 거의 고려하지 않습니다. 이러한 문제를 우리는 '토큰화의 저주'라고 명명합니다. 본 연구에서는 이러한 단점들을 심층적으로 분석하고, 대형 언어 모델(LLMs)이 이러한 문제에 여전히 취약함을 입증합니다. 이 연구는 세 가지 핵심 연구 질문을 통해 이러한 도전 과제와 LLMs에 미치는 영향을 체계적으로 조사합니다: (1) 복잡한 문제 해결, (2) 토큰 구조 탐색, (3) 오타 변이에 대한 내성. 우리의 연구 결과는 모델 파라미터의 확장이 토큰화 문제를 완화할 수 있음을 보여주지만, LLMs는 여전히 오타 및 기타 텍스트 형식 변이로 인한 편향을 겪고 있음을 나타냅니다. 우리의 실험은 BPE-dropout과 같은 서브워드 정규화가 이 문제를 완화할 수 있음을 보여줍니다. 우리는 추가 연구를 촉진하기 위해 코드와 데이터를 공개할 예정입니다.
대규모 언어 모델(LLM)의 발전은 자연어 처리 분야의 응용 범위를 크게 확장시켰으며, 다중 모달 LLM은 이러한 능력을 시각 데이터의 통합 및 해석으로까지 확장하고 있습니다. 그러나 기존의 시각 언어 모델(VLM) 벤치마크는 주로 단일 이미지 입력에 초점을 맞추고 있어 다중 이미지 이해라는 중요한 측면을 간과하고 있습니다. 본 논문에서는 다중 이미지 간의 비교, 분석 및 추론 능력을 평가하기 위해 설계된 다중 이미지 관계 벤치마크(MIRB)를 소개합니다. 우리의 벤치마크는 지각, 시각적 세계 지식, 추론 및 다중 홉 추론의 네 가지 범주를 포함합니다. 다양한 오픈소스 및 클로즈드소스 모델에 대한 포괄적인 평가를 통해, 오픈소스 VLM이 단일 이미지 작업에서는 GPT-4V의 성능에 근접했지만 다중 이미지 추론 작업에서는 여전히 상당한 성능 격차가 있음을 보여줍니다. 또한, 최첨단 GPT-4V 모델조차도 우리의 벤치마크에서 어려움을 겪는 것으로 나타나, 이 분야의 추가 연구와 개발이 필요함을 강조합니다. 우리는 MIRB의 기여가 차세대 다중 모달 모델 개발을 위한 테스트베드로 활용될 수 있기를 기대합니다.
인공지능(AI)의 진화는 대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)의 발전으로 크게 가속화되었으며, 이는 문제 해결과 과학적 발견(즉, AI4Science)에서 한때 인간의 지적 능력에만 국한되었던 인지적 추론 능력의 잠재력을 점차 보여주고 있습니다. 현재 모델들의 인지적 추론 능력을 종합적으로 평가하기 위해, 우리는 텍스트 전용 및 텍스트-이미지 혼합 모달리티를 아우르는 11,163개의 이중 언어 문제로 구성된 OlympicArena를 소개합니다. 이러한 도전 과제들은 7개 분야와 62개의 국제 올림픽 대회를 아우르는 다양한 학문 분야를 포함하며, 데이터 누출에 대해 엄격히 검증되었습니다. 우리는 올림픽 대회 문제의 복잡성과 학제 간 특성이 복잡한 과학적 도전 과제를 해결하고 발견을 촉진하는 데 필수적이므로, 이러한 문제들이 AI의 인지적 추론 능력을 평가하는 데 이상적이라고 주장합니다. 다양한 학문 분야에서의 성능을 답변만으로 평가하는 것을 넘어, 우리는 여러 관점에서 세부적인 실험과 분석을 수행합니다. 우리는 모델들의 인지적 추론 능력, 다양한 모달리티에서의 성능, 그리고 긴 해결 과정이 필요한 복잡한 추론 작업에 필수적인 프로세스 수준 평가 결과를 심층적으로 탐구합니다. 우리의 광범위한 평가 결과, GPT-4o와 같은 고급 모델조차도 전체 정확도가 39.97%에 불과하여, 복잡한 추론과 멀티모달 통합에서 현재 AI의 한계를 보여줍니다. OlympicArena를 통해, 우리는 AI가 초지능으로 나아가 과학 및 그 이상의 더 복잡한 도전 과제를 해결할 수 있도록 발전시키고자 합니다. 또한, 우리는 AI 연구를 지원하기 위해 벤치마크 데이터셋, 오픈소스 주석 플랫폼, 세부 평가 도구, 그리고 자동 제출 기능이 포함된 리더보드 등 종합적인 리소스 세트를 제공합니다.
고해상도 인간 복원 기술의 최근 발전에도 불구하고, 밀집하게 촬영된 이미지나 시간이 많이 소요되는 개별 인스턴스 최적화 요구 사항은 더 넓은 시나리오에서의 적용을 크게 방해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 단일 입력 이미지로부터 일반화 가능한 방식으로 3D 가우시안 스플래팅 속성을 예측하는 HumanSplat을 제안합니다. 특히, HumanSplat은 2D 다중 뷰 확산 모델과 인간 구조 사전 지식을 갖춘 잠재 복원 트랜스포머로 구성되어 있으며, 이는 기하학적 사전 지식과 의미론적 특징을 통합된 프레임워크 내에서 능숙하게 통합합니다. 인간의 의미론적 정보를 포함하는 계층적 손실 함수는 고해상도 텍스처 모델링을 달성하고 추정된 다중 뷰를 더 잘 제약하기 위해 추가로 설계되었습니다. 표준 벤치마크와 실제 환경에서 촬영된 이미지에 대한 포괄적인 실험을 통해 HumanSplat이 포토리얼리스틱한 새로운 뷰 합성에서 기존의 최첨단 방법들을 능가함을 입증했습니다.
표 형식 데이터 - 행과 열로 구성된 구조화되고 이질적인 스프레드시트 스타일 데이터 - 는 실제로 다양한 분야에서 널리 사용되고 있습니다. 그러나 최근의 파운데이션 모델들이 언어 모델링 및 컴퓨터 비전과 같은 분야에서 작업별 데이터셋과 예측기 개발의 필요성을 줄여왔음에도 불구하고, 이러한 전이 학습 패러다임은 표 형식 데이터 분야에서는 비슷한 영향을 미치지 못했습니다. 본 연구에서는 이러한 격차를 좁히고자 표 형식 예측을 위한 언어 모델인 TabuLa-8B를 제안합니다. 우리는 TabLib 코퍼스에서 대규모 고품질 학습 데이터셋을 추출하는 과정을 정의하고, 표 형식 데이터 필터링 및 품질 관리 방법을 제안합니다. 이를 통해 3.1M개의 고유한 테이블에서 추출된 1.6B개 이상의 행으로 구성된 데이터셋을 구축하고, 표 형식 예측(분류 및 구간 회귀)을 위해 Llama 3-8B 대형 언어 모델(LLM)을 새로운 패킹 및 어텐션 기법을 사용하여 미세 조정합니다. 329개의 데이터셋으로 구성된 테스트 스위트를 통해 평가한 결과, TabuLa-8B는 보이지 않는 테이블에 대해 제로샷 정확도가 무작위 추측보다 15% 포인트(pp) 이상 높은 성능을 보였으며, 이는 기존의 최첨단 표 형식 예측 모델(예: XGBoost, TabPFN)로는 달성할 수 없는 성과입니다. 퓨샷 설정(1-32샷)에서, 대상 데이터셋에 대한 미세 조정 없이도 TabuLa-8B는 동일하거나 최대 16배 더 많은 데이터로 명시적으로 학습된 XGBoost 및 TabPFN 모델보다 5-15 pp 더 정확했습니다. 우리는 본 논문과 함께 모델, 코드 및 데이터를 공개합니다.
대규모 언어 모델(LLM)의 지식을 평가하기 위해, 현재의 방법들은 모델에 질의를 하고 생성된 응답을 평가합니다. 본 연구에서는 모델이 텍스트를 생성하기 전에 평가를 수행할 수 있는지에 대해 질문합니다. 구체적으로, 모델의 내부 계산만으로 특정 엔티티에 대한 모델의 지식 수준을 추정할 수 있는지 알아보고자 합니다. 우리는 이 질문을 두 가지 과제로 연구합니다: 주어진 주체 엔티티에 대해, (a) 모델이 해당 엔티티에 대한 일반적인 질문에 답변할 수 있는 능력을 예측하고, (b) 모델이 해당 엔티티에 대해 생성한 응답의 사실성을 예측하는 것입니다. 다양한 LLM을 대상으로 한 실험에서, 내부 주체 표현에 대해 학습된 간단한 프로브인 KEEN이 두 과제 모두에서 성공적으로 작동함을 보여줍니다. 이는 주체별 모델의 질의응답 정확도와 최근에 제안된 개방형 생성에서의 사실성 지표인 FActScore와 강한 상관관계를 보입니다. 또한, KEEN은 모델의 회피적 행동과 자연스럽게 일치하며, 미세 조정 후 모델의 지식 변화를 충실히 반영합니다. 마지막으로, 우리는 더 해석 가능하면서도 동등한 성능을 보이는 KEEN의 변형을 제시하며, 이는 모델의 지식 부족과 상관관계가 있는 소수의 토큰 집합을 강조합니다. 간단하고 경량화된 KEEN은 LLM의 엔티티 지식 간극과 군집을 식별하고, 검색을 통해 질의를 보강하는 등의 결정을 안내하는 데 활용될 수 있습니다.
의학 지식은 문맥에 의존적이며, 의미적으로 동등한 구문의 다양한 자연어 표현에 걸쳐 일관된 추론이 요구됩니다. 이는 특히 약물 이름에서 중요한데, 환자들이 종종 제네릭 명칭 대신 어드빌(Advil)이나 타이레놀(Tylenol)과 같은 상표명을 사용하기 때문입니다. 이를 연구하기 위해, 우리는 의사 전문가의 주석을 활용하여 상표명과 제네릭 약물 이름을 교체한 후 의학 벤치마크에서의 성능 차이를 평가하기 위한 새로운 견고성 데이터셋인 RABBITS를 생성했습니다. 우리는 MedQA와 MedMCQA에서 오픈소스 및 API 기반 대형 언어 모델(LLM)을 평가하여 1-10%에 이르는 일관된 성능 하락을 확인했습니다. 더 나아가, 우리는 이러한 취약성의 잠재적 원인으로 널리 사용되는 사전 학습 데이터셋에서 테스트 데이터의 오염을 지목했습니다. 모든 코드는 https://github.com/BittermanLab/RABBITS에서 접근 가능하며, HuggingFace 리더보드는 https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard에서 확인할 수 있습니다.
텍스트-이미지(T2I) 확산 모델은 인상적인 이미지 생성 능력을 보여주고 있습니다. 그러나 이러한 모델의 높은 계산 복잡성으로 인해 자원이 제한된 조직들은 내부 목표 데이터에 대해 미세 조정을 거친 T2I 모델을 배포하는 데 어려움을 겪고 있습니다. 프루닝(pruning) 기법은 T2I 모델의 계산 부담을 줄이는 잠재적인 해결책을 제공하지만, 정적 프루닝 방법은 모든 입력 프롬프트에 대해 동일한 프루닝된 모델을 사용함으로써 서로 다른 프롬프트의 다양한 용량 요구를 간과합니다. 동적 프루닝은 각 프롬프트에 대해 별도의 서브 네트워크를 활용하여 이 문제를 해결하지만, GPU에서의 배치 병렬 처리를 방해합니다. 이러한 한계를 극복하기 위해, 우리는 T2I 확산 모델을 위해 설계된 새로운 프롬프트 기반 프루닝 방법인 적응형 프롬프트 맞춤형 프루닝(Adaptive Prompt-Tailored Pruning, APTP)을 소개합니다. 우리의 접근 방식의 핵심은 프롬프트 라우터 모델로, 이 모델은 입력 텍스트 프롬프트에 필요한 용량을 결정하고, 주어진 총 계산 예산 내에서 이를 아키텍처 코드로 라우팅합니다. 각 아키텍처 코드는 해당 코드에 할당된 프롬프트에 맞게 특화된 모델을 나타내며, 코드의 수는 하이퍼파라미터입니다. 우리는 프롬프트 라우터와 아키텍처 코드를 대조 학습(contrastive learning)을 통해 훈련시켜, 유사한 프롬프트가 가까운 코드에 매핑되도록 합니다. 또한, 최적 운송(optimal transport)을 사용하여 코드가 단일 코드로 수렴되는 것을 방지합니다. 우리는 CC3M과 COCO를 대상 데이터셋으로 사용하여 Stable Diffusion(SD) V2.1을 프루닝함으로써 APTP의 효과를 입증합니다. APTP는 FID, CLIP, CMMD 점수 측면에서 단일 모델 프루닝 기준선을 능가합니다. APTP가 학습한 클러스터를 분석한 결과, 이들이 의미론적으로 의미 있는 것을 확인했습니다. 또한, APTP가 SD에 대해 이전에 경험적으로 발견된 어려운 프롬프트(예: 텍스트 이미지 생성 프롬프트)를 자동으로 발견하고, 이를 더 높은 용량의 코드에 할당할 수 있음을 보여줍니다.
언어 모델의 급속한 발전은 더 도전적인 벤치마크의 개발을 필요로 하게 되었습니다. 현재의 정적 벤치마크는 종종 다양한 모델의 능력을 일관되게 구분하는 데 어려움을 겪으며, 실제 사용자 선호도와도 잘 맞지 않습니다. 반면, Chatbot Arena와 같은 실시간 크라우드소싱 플랫폼은 다양한 자연스러운 프롬프트와 사용자 피드백을 수집합니다. 그러나 이러한 프롬프트는 정교함에 있어 차이가 있으며, 피드백은 새로운 모델에 오프라인으로 적용할 수 없습니다. 벤치마크가 LLM 개발 속도를 따라잡을 수 있도록 하기 위해, 우리는 벤치마크가 모델을 확실하게 구분하고 인간의 선호도와 얼마나 잘 맞는지를 평가하는 방법에 대해 다룹니다. 이러한 원칙 하에, 우리는 BenchBuilder를 개발했습니다. BenchBuilder는 실시간 데이터 소스에서 고품질 프롬프트를 필터링하여 신선하고 도전적인 프롬프트에 대한 오프라인 평가를 가능하게 하는 살아있는 벤치마크입니다. BenchBuilder는 도메인 지식 요구와 같은 고품질 프롬프트의 7가지 지표를 식별하고, 다양한 주제 클러스터에서 고품질 프롬프트의 하위 집합을 선택하기 위해 LLM 주석자를 활용합니다. LLM 평가 프로세스는 완전히 자동화되고 고품질이며 지속적으로 업데이트되는 벤치마크를 보장하기 위해 LLM 판단자를 사용합니다. 우리는 BenchBuilder를 Chatbot Arena의 프롬프트에 적용하여 Arena-Hard-Auto v0.1을 생성했습니다: 다양한 작업에서 나온 500개의 도전적인 사용자 프롬프트입니다. Arena-Hard-Auto v0.1은 MT-Bench보다 3배 더 좁은 신뢰 구간을 제공하며, 인간 선호도 순위와 89.1%의 최신 수준의 일치를 달성했습니다. 이 모든 것이 단 25달러의 비용으로, 인간 라벨러 없이 이루어졌습니다. BenchBuilder 파이프라인은 평가 벤치마크를 강화하고, 개발자들이 최소한의 노력으로 방대한 데이터에서 고품질 벤치마크를 추출할 수 있는 귀중한 도구를 제공합니다.
가중치 매개변수를 이진 값으로 변환하는 이진화(binarization)는 대규모 언어 모델(LLM)의 크기를 줄이기 위한 효과적인 전략으로 부상했습니다. 그러나 일반적인 이진화 기술은 LLM의 언어적 효율성을 크게 저하시킵니다. 이 문제를 해결하기 위해, 우리는 Mixture of Scales(BinaryMoS)라는 새로운 이진화 기술을 소개합니다. 기존 방법과 달리, BinaryMoS는 이진 가중치를 위해 다중 스케일링 전문가를 사용하며, 각 토큰에 대해 이러한 전문가를 동적으로 병합하여 적응적으로 스케일링 인자를 생성합니다. 이 토큰 적응적 접근 방식은 이진 가중치의 값을 문맥에 맞게 조정할 수 있게 함으로써 이진화된 LLM의 표현력을 향상시킵니다. 또한, 이 적응 과정이 전체 가중치 행렬이 아닌 스케일링 인자만을 포함하기 때문에, BinaryMoS는 기존의 정적 이진화 방법과 유사한 압축 효율성을 유지합니다. 우리의 실험 결과는 BinaryMoS가 다양한 자연어 처리 작업에서 기존 이진화 기술을 능가하며, 심지어 2비트 양자화 방법보다도 우수한 성능을 보이면서도 정적 이진화 기술과 유사한 모델 크기를 유지한다는 것을 보여줍니다.
선호도 기반 직접 정렬(Direct Alignment from Preferences, DAP)은 사전 수집된 오프라인 선호도 데이터셋을 통해 대규모 언어 모델(LLMs)을 인간의 요구사항에 맞추는 유망한 패러다임으로 부상하고 있습니다. 최근 연구들은 기존의 오프라인 DAP 방법이 온라인 훈련 샘플로부터 직접적인 이점을 얻을 수 있음을 보여주지만, 우리는 온라인 훈련의 힘을 완전히 활용하기 위해 특정 온라인 DAP 알고리즘의 개발 필요성을 강조합니다. 특히, 학습된 LLM은 훈련 샘플을 수집하는 행동 LLM의 근접성을 준수해야 한다는 점을 확인했습니다. 이를 위해, 우리는 행동 LLM 근접성에서의 선호도 최적화(Online Preference Optimization in proximity to the Behavior LLM, BPO)를 제안하며, LLM 정렬을 위한 적절한 신뢰 영역 구축의 중요성을 강조합니다. 우리는 다양한 DAP 방법과 통합하여 광범위한 실험을 수행함으로써 우리 접근법의 효과성과 적용 가능성을 검증했습니다. 동일한 양의 선호도 데이터로 훈련할 때, 다양한 작업에서 상당한 성능 향상을 이끌어냈습니다. 단 하나의 추가 데이터 수집 단계만 도입하더라도, 우리의 온라인 BPO는 TL;DR 작업에서 오프라인 DAP 기준선을 72.0%에서 80.2%로, Anthropic Helpfulness 작업에서는 82.2%에서 89.1%로 향상시켰으며, 이는 인간 참조 텍스트 대비 승률 기준입니다.
비디오 편집은 엔터테인먼트와 교육부터 전문적인 커뮤니케이션에 이르기까지 디지털 미디어의 핵심 요소로 자리 잡고 있습니다. 그러나 기존 방법들은 종종 전역적 및 지역적 맥락을 포괄적으로 이해할 필요성을 간과하여, 특히 긴 비디오에서 시공간적 차원에서 부정확하고 일관성 없는 편집을 초래했습니다. 본 논문에서는 전역적 및 지역적 비디오 편집을 위한 통합 시공간 비디오 적응 프레임워크인 VIA를 소개하며, 분 단위의 긴 비디오를 일관성 있게 편집하는 한계를 뛰어넘습니다. 먼저, 개별 프레임 내의 지역적 일관성을 보장하기 위해 VIA의 기반이 되는 새로운 테스트 타임 편집 적응 방법을 제안합니다. 이 방법은 사전 훈련된 이미지 편집 모델을 적응시켜 잠재적 편집 방향과 텍스트 지시 사항 간의 일관성을 개선하고, 정밀한 지역적 제어를 위해 마스크된 잠재 변수를 적응시킵니다. 더 나아가 비디오 시퀀스 전반에 걸친 전역적 일관성을 유지하기 위해, 키 프레임에서 일관된 주의 변수를 적응시키고 이를 전략적으로 전체 시퀀스에 적용하여 편집 효과를 실현하는 시공간 적응을 도입했습니다. 광범위한 실험을 통해, VIA 접근법이 기준 방법들에 비해 원본 비디오에 더 충실하고, 시공간적 맥락에서 더 일관되며, 지역적 제어에서 더 정밀한 편집을 생성함을 입증했습니다. 더 중요한 것은, VIA가 몇 분 안에 일관된 긴 비디오 편집을 달성할 수 있어, 긴 비디오 시퀀스에 대한 고급 비디오 편집 작업의 잠재력을 열어준다는 점입니다.
다양한 작업을 해결하는 데 있어 대규모 언어 모델(LLM)의 효과성을 평가하는 것은 그들의 강점과 약점을 이해하는 데 필수적입니다. 기존의 평가 기법은 일반적으로 단일 프롬프트 전략을 데이터셋에 균일하게 적용하며, 작업의 복잡도 차이를 고려하지 않습니다. 본 연구에서는 Hierarchical Prompting Taxonomy(HPT)를 소개합니다. 이 분류 체계는 가장 단순한 것부터 가장 복잡한 것까지 다섯 가지 독특한 프롬프트 전략으로 구성된 Hierarchical Prompt Framework(HPF)를 사용하여 LLM을 더 정밀하게 평가하고 명확한 관점을 제공합니다. 이 분류 체계는 데이터셋과 LLM에 대해 Hierarchical Prompting Score(HP-Score)라는 점수를 부여하여, 다양한 작업을 해결하는 능력을 세밀하게 이해하고 작업 복잡도의 보편적인 측정 기준을 제공합니다. 또한, 각 작업에 적합한 프롬프트 전략을 자동으로 선택하는 Adaptive Hierarchical Prompt 프레임워크를 소개합니다. 본 연구는 Llama 3 8B, Phi 3 3.8B, Mistral 7B, Gemma 7B와 같은 네 가지 지시 튜닝된 LLM을 사용하여 BoolQ, CommonSenseQA(CSQA), IWSLT-2017 en-fr(IWSLT), SamSum 데이터셋에서 수동 및 적응형 계층적 프롬프트 프레임워크를 비교합니다. 실험 결과는 HPT의 효과성을 입증하며, 다양한 작업과 LLM 능력을 비교할 수 있는 신뢰할 수 있는 방법을 제공합니다. 이 논문은 데이터셋의 복잡도와 LLM의 능력을 모두 평가할 수 있는 보편적인 평가 지표 개발로 이어집니다. 수동 HPF와 적응형 HPF의 구현은 공개적으로 제공됩니다.
비전 지원 언어 모델(VLMs)은 이제 실제 환경에서 행동을 취할 수 있는 자율적인 멀티모달 에이전트를 구축하는 데 사용됩니다. 본 논문에서는 멀티모달 에이전트가 새로운 안전 위험을 초래한다는 것을 보여줍니다. 비록 환경에 대한 접근과 지식이 제한적이어서 에이전트를 공격하는 것이 기존 공격보다 더 어렵지만, 우리의 공격은 적대적 텍스트 문자열을 사용하여 환경 내 하나의 트리거 이미지에 대한 그래디언트 기반 섭동을 유도합니다: (1) 캡셔너 공격은 VLM에 추가 입력으로 이미지를 캡션으로 처리하기 위해 사용되는 경우 화이트박스 캡셔너를 공격합니다; (2) CLIP 공격은 여러 CLIP 모델을 공동으로 공격하며, 이는 독점 VLMs로 전이될 수 있습니다. 이러한 공격을 평가하기 위해, 우리는 웹 기반 멀티모달 에이전트 작업을 위한 환경인 VisualWebArena를 기반으로 한 적대적 작업 세트인 VisualWebArena-Adv를 구성했습니다. 단일 이미지에 대해 L-무한대 노름 16/256 이내에서, 캡셔너 공격은 캡셔너가 보강된 GPT-4V 에이전트가 적대적 목표를 75%의 성공률로 실행하도록 만들 수 있습니다. 캡셔너를 제거하거나 GPT-4V가 자체 캡션을 생성하도록 할 경우, CLIP 공격은 각각 21%와 43%의 성공률을 달성할 수 있습니다. Gemini-1.5, Claude-3, GPT-4o와 같은 다른 VLMs 기반 에이전트에 대한 실험은 그들의 견고성에서 흥미로운 차이를 보여줍니다. 추가 분석은 공격의 성공에 기여하는 몇 가지 주요 요소를 밝히며, 방어에 대한 함의도 논의합니다. 프로젝트 페이지: https://chenwu.io/attack-agent 코드 및 데이터: https://github.com/ChenWu98/agent-attack
본 논문에서는 잡음-데이터 매핑의 비최적화가 확산 모델의 학습 속도를 저하시킨다는 점을 지적합니다. 현재의 확산 학습 방법은 각 이미지를 전체 잡음 공간에 걸쳐 확산시켜, 잡음 레이어의 모든 지점에서 모든 이미지가 혼합되도록 합니다. 우리는 이러한 잡음-데이터 매핑의 무작위 혼합이 확산 모델의 잡음 제거 함수 최적화를 복잡하게 만든다고 강조합니다. 물리학에서의 비혼화 현상에서 영감을 얻어, 우리는 잡음-데이터 매핑의 무작위 혼합을 개선하기 위한 간단하면서도 효과적인 방법인 비혼화 확산(Immiscible Diffusion)을 제안합니다. 물리학에서 혼화성은 다양한 분자 간 힘에 따라 달라질 수 있습니다. 따라서 비혼화성은 분자 소스의 혼합이 구별 가능함을 의미합니다. 이를 바탕으로, 우리는 할당-후-확산 학습 전략을 제안합니다. 구체적으로, 이미지 데이터를 잡음으로 확산시키기 전에, 미니 배치 내에서 이미지-잡음 쌍의 총 거리를 최소화하여 이미지 데이터에 대한 확산 목표 잡음을 할당합니다. 이 할당은 이미지의 확산 가능 영역을 분리하기 위한 외부 힘과 유사하게 작용하여, 확산 학습의 고유한 어려움을 완화합니다. 우리의 접근 방식은 매우 간단하며, 각 이미지에 대해 확산 가능 영역을 제한하면서도 잡음의 가우시안 분포를 유지하기 위해 단 한 줄의 코드만 필요합니다. 이를 통해 각 이미지는 인접한 잡음에만 투영됩니다. 할당 알고리즘의 높은 복잡성을 해결하기 위해, 우리는 계산 오버헤드를 무시할 수 있는 수준으로 줄이기 위해 양자화 할당 방법을 사용합니다. 실험 결과, 우리의 방법은 CIFAR 데이터셋에서 일관성 모델과 DDIM에 대해 최대 3배 빠른 학습 속도를 달성했으며, CelebA 데이터셋에서 일관성 모델에 대해 최대 1.3배 빠른 학습 속도를 보였습니다. 또한, 우리는 비혼화 확산에 대한 철저한 분석을 수행하여, 이 방법이 어떻게 확산 학습 속도를 향상시키면서도 충실도를 개선하는지에 대한 통찰을 제공합니다.
텍스트-음악 생성용 대형 모델은 상당한 진전을 이루며, 제공된 텍스트 프롬프트로부터 고품질이고 다양한 음악 작곡을 생성하는 것을 가능하게 했습니다. 그러나 입력 텍스트 프롬프트는 사용자의 요구 사항을 정확히 반영하지 못할 수 있으며, 특히 특정 참조 컬렉션에서 도출된 개념을 구현한 음악을 생성하는 것이 목표일 때 더욱 그러합니다. 본 논문에서는 2분 길이의 참조 음악에서 개념을 포착하고 해당 개념에 부합하는 새로운 음악을 생성할 수 있는 맞춤형 텍스트-음악 생성 방법을 제안합니다. 이를 위해 사전 학습된 텍스트-음악 모델을 참조 음악을 사용하여 미세 조정합니다. 그러나 모든 매개변수를 직접 미세 조정하면 과적합 문제가 발생합니다. 이 문제를 해결하기 위해, 새로운 개념을 흡수하면서도 모델의 원래 생성 능력을 유지할 수 있는 Pivotal Parameters Tuning 방법을 제안합니다. 또한, 사전 학습된 모델에 여러 개념을 도입할 때 발생할 수 있는 개념 충돌 문제를 식별합니다. 이를 해결하기 위해 여러 개념을 구별할 수 있는 개념 강화 전략을 제시하여, 미세 조정된 모델이 개별 개념 또는 여러 개념을 동시에 포함한 음악을 생성할 수 있도록 합니다. 맞춤형 음악 생성 작업에 대한 최초의 연구로서, 새로운 작업을 위한 데이터셋과 평가 프로토콜도 소개합니다. 우리가 제안한 Jen1-DreamStyler는 정성적 및 정량적 평가에서 여러 베이스라인을 능가합니다. 데모는 https://www.jenmusic.ai/research#DreamStyler에서 확인할 수 있습니다.
슈퍼얼라인먼트(Superalignment), 즉 인간이 초인간적 모델의 약한 감독자 역할을 하는 문제는 대규모 언어 모델(LLMs)의 급속한 발전 속에서 중요한 논의 주제로 부상했습니다. 최근 연구는 약한 모델을 사용하여 강한 모델을 감독하는 방식으로 이 문제를 예비적으로 탐구했습니다. 이 연구는 약하게 감독받은 강력한 학생 모델이 정렬 목표를 향해 약한 교사 모델을 지속적으로 능가하는 약한-강한 일반화 현상을 발견했습니다. 그러나 우리는 이러한 유망한 현상 뒤에 약한-강한 기만 문제가 존재할 가능성을 우려합니다. 강력한 모델이 약한 모델이 알고 있는 영역에서는 잘 정렬된 것처럼 보이지만, 약한 모델이 알지 못하는 경우에는 잘못 정렬된 행동을 보임으로써 약한 모델을 속일 수 있는 문제입니다. 우리는 이러한 보안 문제를 탐구하기 위해 구체적이면서도 현실적인 다중 목표 정렬 사례를 대상으로 초기 연구를 진행했습니다. 이 사례에서는 서로 충돌할 수 있는 정렬 목표(예: 도움성 대 해로움 없음)가 존재할 가능성이 있습니다. 이러한 충돌은 강력한 모델이 한 정렬 차원에서 약한 모델을 속여 다른 정렬 차원에서 높은 보상을 얻으려는 행동을 유발할 수 있습니다. 보상 모델링 작업과 선호 최적화 시나리오에서의 실험 결과는 다음과 같습니다: (1) 약한-강한 기만 현상이 존재하며, (2) 약한 모델과 강한 모델 간의 역량 차이가 커질수록 기만 현상이 심화될 수 있습니다. 또한, 우리는 잠재적인 해결책을 논의하며 중간 모델을 활용한 부트스트래핑이 기만 현상을 어느 정도 완화할 수 있음을 발견했습니다. 이 연구는 슈퍼얼라인먼트의 진정한 신뢰성에 더 많은 주의를 기울여야 할 필요성을 강조합니다.
본 논문에서는 계산 효율적이며 구현이 간단하고, 대규모 언어 모델, 멀티모달 모델, 확산 모델에 쉽게 적용할 수 있는 부분공간 기반의 Low-Rank Adaptation (LoRA) 방법을 소개합니다. 초기에 우리는 LoRA의 가중치를 두 개의 부분공간으로 동등하게 분해하였고, 이를 단순히 혼합하는 것만으로도 성능이 향상될 수 있음을 발견했습니다. 이러한 현상을 연구하기 위해, 우리는 세밀한 부분공간 관점에서 이를 재검토하였고, 이러한 수정이 부분공간을 융합하기 위해 고정된 믹서를 사용하는 것과 동일함을 보였습니다. 더 유연하게 하기 위해, 우리는 믹서를 원래의 LoRA 가중치와 함께 학습하였고, 이를 Mixture-of-Subspaces LoRA (MoSLoRA)라고 명명했습니다. MoSLoRA는 상식 추론, 시각적 명령어 튜닝, 주제 기반 텍스트-이미지 생성 등 다양한 모달리티의 작업에서 LoRA를 지속적으로 능가하며, 그 효과성과 견고성을 입증했습니다. 코드는 https://github.com/wutaiqiang/MoSLoRA{github}에서 확인할 수 있습니다.