번역이 포함된 일일 선별된 AI 연구 논문
저희는 고화질 1080p HD 비디오를 다양한 종횡비와 동기화된 오디오로 생성하는 Movie Gen이라는 기초 모델 캐스트를 제시합니다. 또한 정확한 지시사항 기반 비디오 편집 및 사용자 이미지를 기반으로 한 맞춤형 비디오 생성과 같은 추가 기능을 보여줍니다. 저희 모델은 다중 작업에서 새로운 최첨단을 세우고 있습니다: 텍스트에서 비디오로의 합성, 비디오 개인화, 비디오 편집, 비디오에서 오디오 생성, 그리고 텍스트에서 오디오 생성. 저희 가장 큰 비디오 생성 모델은 30B 파라미터 트랜스포머로, 최대 73K 비디오 토큰의 컨텍스트 길이로 훈련되어, 초당 16프레임의 16초 비디오를 생성합니다. 저희는 사전 훈련 데이터, 모델 크기, 그리고 훈련 컴퓨트의 스케일링 이점을 누릴 수 있도록 아키텍처, 잠재 공간, 훈련 목표 및 레시피, 데이터 선별, 평가 프로토콜, 병렬화 기술, 그리고 추론 최적화에 대한 다양한 기술적 혁신과 단순화를 보여줍니다. 이 논문이 미디어 생성 모델의 진보와 혁신을 가속화하는 데 연구 커뮤니티에 도움이 되기를 희망합니다. 본 논문의 모든 비디오는 https://go.fb.me/MovieGenResearchVideos에서 확인할 수 있습니다.
AI 모델이 실제 세계 신호로부터 효과적으로 학습하고 상호 작용하기 위해서는 다양한 모드를 인식하고 생성하는 것이 중요하며, 이를 위해 신뢰할 수 있는 평가가 필요합니다. 현재의 평가에서 두 가지 주요 문제점을 확인합니다: (1) 서로 다른 커뮤니티에 의해 형성된 다양한 프로토콜과 성숙도로 결정되는 일관성 없는 기준; 그리고 (2) 중요한 쿼리, 평가 및 일반화 편향. 이를 해결하기 위해, 우리는 입력 및 출력 모드 간의 평가를 최적화하고 표준화하기 위해 설계된 첫 번째 실제 세계 벤치마크인 MixEval-X를 소개합니다. 우리는 다중 모달 벤치마크 혼합 및 적응-교정 파이프라인을 제안하여 실제 세계 작업 분포를 재구성하고, 이를 통해 평가가 실제 세계 사용 사례에 효과적으로 일반화되도록 보장합니다. 광범위한 메타-평가는 우리의 접근 방식이 벤치마크 샘플을 실제 세계 작업 분포와 효과적으로 일치시키며, 모델 순위가 크라우드소싱된 실제 세계 평가와 강력하게 상관 관계를 갖는 것을 보여줍니다 (최대 0.98). 우리는 기존 모델 및 조직을 재순위 지정하는 포괄적인 리더보드를 제공하고, 다중 모달 평가의 이해를 향상시키고 미래 연구에 도움이 되는 통찰을 제공합니다.
LLM 기반 판사들은 인간 평가의 확장 가능한 대안으로 부상하고 있으며, 모델을 평가, 비교 및 개선하는 데 점점 더 사용되고 있습니다. 그러나 LLM 기반 판사들의 신뢰성 자체는 거의 검토되지 않습니다. LLM이 더 발전함에 따라 그들의 응답은 더 정교해지며, 이를 평가하기 위해 더 강력한 판사들이 필요합니다. 기존의 벤치마크는 주로 판사의 인간 선호와의 일치에 초점을 맞추지만, 종종 인간이 선호하는 것이 사실적이고 논리적으로 정확한 것을 나타내는 데 부적합한 어려운 작업을 고려하지 못합니다. 이를 해결하기 위해 우리는 LLM 기반 판사들을 객관적으로 평가하기 위한 새로운 평가 프레임워크를 제안합니다. 이 프레임워크를 기반으로, 우리는 지식, 추론, 수학 및 코딩을 포함한 어려운 응답 쌍에 대해 LLM 기반 판사들을 평가하는 벤치마크인 JudgeBench를 제안합니다. JudgeBench는 기존의 어려운 데이터셋을 도전적인 응답 쌍으로 변환하는 새로운 파이프라인을 활용하며, 객관적인 정확성을 반영하는 선호 레이블을 갖추고 있습니다. 우리는 프롬프트된 판사들, 파인튜닝된 판사들, 다중 에이전트 판사들 및 보상 모델의 모음에 대한 포괄적인 평가를 통해, JudgeBench가 이전의 벤치마크보다 훨씬 큰 도전을 제시하며, 많은 강력한 모델들(예: GPT-4o)이 무작위 추측보다 약간 더 나은 성과를 보인다는 것을 보여줍니다. 전반적으로, JudgeBench는 점점 더 발전하는 LLM 기반 판사들을 평가하기 위한 신뢰할 수 있는 플랫폼을 제공합니다. 데이터 및 코드는 https://github.com/ScalerLab/JudgeBench 에서 사용할 수 있습니다.
시각에서 자기회귀 모델의 확장은 대규모 언어 모델만큼 유익하지 않았습니다. 본 연구에서는 텍스트-이미지 생성의 맥락에서 이 확장 문제를 조사하며, 모델이 이산 또는 연속 토큰을 사용하는지, 그리고 BERT 또는 GPT와 유사한 트랜스포머 아키텍처를 사용하여 토큰이 무작위로 생성되는지 또는 고정된 래스터 순서로 생성되는지라는 두 가지 중요한 요소에 초점을 맞춥니다. 우리의 경험적 결과는 모든 모델이 검증 손실 측면에서 효과적으로 확장되지만, 평가 성능은 FID, GenEval 점수 및 시각적 품질로 측정되며 다른 추세를 보입니다. 연속 토큰을 기반으로 한 모델은 이산 토큰을 사용하는 모델보다 상당히 더 나은 시각적 품질을 달성합니다. 또한 생성 순서와 주의 메커니즘은 GenEval 점수에 상당한 영향을 미칩니다. 무작위 순서 모델은 래스터 순서 모델에 비해 현저히 더 좋은 GenEval 점수를 달성합니다. 이러한 발견을 바탕으로, 우리는 연속 토큰에 대해 무작위 순서의 자기회귀 모델인 Fluid를 훈련시켰습니다. Fluid 10.5B 모델은 MS-COCO 30K에서 6.16의 새로운 최고 수준의 제로샷 FID를 달성하고, GenEval 벤치마크에서 전체 점수 0.69를 기록했습니다. 우리의 발견과 결과가 시각과 언어 모델 간의 확장 격차를 좀 더 좁히기 위한 미래 노력을 촉진할 것으로 기대합니다.
본 논문에서는 다중 모달 이해와 생성을 통합하는 자나스(Janus)라는 자기 회귀적 프레임워크를 소개합니다. 이전 연구들은 종종 Chameleon과 같은 단일 시각 인코더를 이용하여 두 작업에 모두 의존했습니다. 그러나 다중 모달 이해와 생성에 필요한 정보의 세분화 수준이 다르기 때문에, 이 접근 방식은 특히 다중 모달 이해에서 최적의 성능을 얻기 어려울 수 있습니다. 이 문제를 해결하기 위해 우리는 시각 인코딩을 별도의 경로로 분리하면서도 하나의 통합된 트랜스포머 아키텍처를 활용합니다. 이 분리는 시각 인코더의 역할 간의 충돌을 완화할 뿐만 아니라 프레임워크의 유연성을 향상시킵니다. 예를 들어, 다중 모달 이해 및 생성 구성 요소는 각각 가장 적합한 인코딩 방법을 독립적으로 선택할 수 있습니다. 실험 결과 자나스는 이전의 통합 모델을 능가하며 과업별 모델의 성능을 맞거나 능가함을 보여줍니다. 자나스의 간결함, 높은 유연성, 효과적인 성능은 다음 세대 통합 다중 모달 모델에 대한 강력한 후보로 만들어냅니다.
대형 언어 모델(LLMs)의 성공은 음성 및 오디오 데이터를 통합하는 노력을 촉발시켰으며, 텍스트 및 비텍스트 입력을 처리할 수 있는 일반적인 기반 모델을 만들기 위한 목표를 가지고 있습니다. GPT-4o와 같은 최근의 발전은 엔드-투-엔드 음성 LLMs의 잠재력을 강조하며, 이는 비의미론적 정보와 세계적 지식을 보존하여 보다 심층적인 음성 이해를 가능하게 합니다. 음성 LLMs의 개발을 안내하기 위해, 우리는 자동 음성 인식(ASR)부터 비의미론적 정보를 추상적인 음향 지식과 통합할 수 있는 고급 초인 모델에 이르기까지 다섯 가지 수준의 로드맵을 제안합니다. 더불어, 우리는 SAGI 벤치마크라는 벤치마크를 설계하여 이 다섯 가지 수준에서 다양한 작업에 걸쳐 중요한 측면을 표준화하고, 추상적인 음향 지식의 활용과 능력의 완전성에 대한 도전 과제를 밝혀냅니다. 우리의 연구 결과는 부연언어적 단서와 추상적인 음향 지식을 처리하는 데의 간극을 드러내며, 미래 방향을 제시합니다. 본 논문은 음성 LLMs의 발전을 위한 로드맵을 개요로 제시하고, 평가를 위한 벤치마크를 소개하며, 현재의 한계와 잠재력에 대한 주요 통찰을 제공합니다.
현재의 모바일 어시스턴트는 시스템 API에 의존하거나 제한된 이해력과 의사 결정 능력으로 복잡한 사용자 지시와 다양한 인터페이스에 어려움을 겪습니다. 이러한 도전에 대처하기 위해 우리는 MobA를 제안합니다. MobA는 다중 모달 대형 언어 모델을 기반으로 한 새로운 모바일 폰 에이전트로, 정교한 두 수준의 에이전트 아키텍처를 통해 이해력과 계획 능력을 향상시킵니다. 고수준 글로벌 에이전트(GA)는 사용자 명령을 이해하고 히스토리 메모리를 추적하며 작업을 계획하는 역할을 합니다. 저수준 로컬 에이전트(LA)는 GA의 하위 작업과 메모리에 따라 함수 호출 형태로 자세한 작업을 예측합니다. 반사 모듈을 통합하여 효율적인 작업 완료가 가능하며, 시스템이 이전에 보지 못한 복잡한 작업을 처리할 수 있게 합니다. MobA는 실제 평가에서 작업 실행 효율성과 완료율에서 상당한 향상을 보여주며, MLLM을 활용한 모바일 어시스턴트의 잠재력을 강조합니다.
시각 언어 모델(Vision Language Models, VLMs)은 특히 영어 이외의 언어와 소수 문화적 맥락에서 문화 특정 지식에 어려움을 겪는 경우가 많습니다. 이러한 지식을 평가하기 위해 다문화 및 다언어에 초점을 맞춘 대규모 벤치마크인 WorldCuisines를 소개합니다. 이 벤치마크는 시각적으로 기반을 둔 언어 이해를 위한 것으로, 30개 언어 및 방언, 9개 언어 패밀리를 아우르며 100만 개 이상의 데이터 포인트를 제공하는 시각적 질의응답(Visual Question Answering, VQA) 데이터셋을 포함합니다. 이는 현재까지 가장 큰 다문화 VQA 벤치마크로, 요리명과 그 출처를 식별하는 작업이 포함되어 있습니다. 우리는 12,000개와 60,000개의 인스턴스 크기로 구성된 평가 데이터셋과 100만 개의 인스턴스로 이루어진 훈련 데이터셋을 제공합니다. 우리의 연구 결과는 VLMs이 올바른 위치 맥락을 갖추면 더 나은 성능을 보이지만, 적대적 맥락과 특정 지역 요리 및 언어를 예측하는 데 어려움을 겪는다는 것을 보여줍니다. 미래 연구를 지원하기 위해, 음식 항목과 이미지에 주석이 달린 지식 베이스와 VQA 데이터를 함께 공개합니다.
텍스트 풍부한 시각 이해력-밀집된 텍스트 콘텐츠가 시각적 요소와 통합된 환경을 처리하는 능력-은 다중 모달 대형 언어 모델(MLLMs)이 구조화된 환경과 효과적으로 상호 작용하기 위해 중요합니다. 이 능력을 향상시키기 위해, 우리는 텍스트 기반 대형 언어 모델(LLMs)을 사용하여 웹페이지 UI에서 일반적인 다중 모달 지침을 합성하는 것을 제안합니다. 직접적인 시각적 입력이 없음에도 불구하고, 텍스트 기반 LLMs는 웹페이지 접근성 트리로부터 구조화된 텍스트 표현을 처리할 수 있습니다. 이러한 지침은 UI 스크린샷과 결합되어 다중 모달 모델을 훈련시킵니다. 우리는 MultiUI라는 데이터셋을 소개합니다. 이 데이터셋은 1백만 개의 웹사이트에서 730만 개의 샘플을 포함하며, 다양한 다중 모달 작업과 UI 레이아웃을 다룹니다. MultiUI에서 훈련된 모델은 웹 UI 작업에서 우수한 성과를 보이는데, VisualWebBench에서 최대 48%의 향상과 웹 에이전트 데이터셋 Mind2Web에서 19.1%의 작업 정확도 향상을 달성합니다. 또한, 이러한 모델은 비-웹 UI 작업 및 문서 이해, OCR, 차트 해석과 같은 비-UI 도메인으로도 놀랍도록 일반화되는 것을 확인할 수 있습니다. 이러한 결과는 웹 UI 데이터의 폭넓은 적용 가능성을 강조하며, 다양한 시나리오에서 텍스트 풍부한 시각 이해력을 발전시키는 데 도움이 됩니다.
최근 맞춤형 비디오 생성 기술의 발전으로 사용자들은 특정 주제와 동작 궤적에 맞는 비디오를 만들 수 있게 되었습니다. 그러나 기존 방법들은 종종 복잡한 테스트 시간 미세 조정이 필요하며 주제 학습과 동작 제어의 균형을 유지하는 데 어려움을 겪어 실제 세계 응용에 제약을 받습니다. 본 논문에서는 단일 이미지와 바운딩 박스 순서에 의해 안내되는 특정 주제와 동작 궤적을 가진 비디오를 생성할 수 있는 제로샷 비디오 맞춤형 프레임워크인 DreamVideo-2를 제안합니다. 이를 위해 모델의 내재된 능력을 활용한 참조 주의(reference attention)를 소개하고, 바운딩 박스에서 파생된 상자 마스크의 강력한 동작 신호를 완전히 활용하여 정확한 동작 제어를 달성하기 위한 마스크 안내 동작 모듈을 고안합니다. 이 두 구성 요소가 의도한 기능을 달성하는 동안 우리는 경험적으로 동작 제어가 주제 학습을 압도하는 경향을 관찰합니다. 이를 해결하기 위해 우리는 1) blended latent mask 모델링 체계를 참조 주의에 통합하여 원하는 위치에서 주제 표현을 강화하는 마스크 참조 주의(masked reference attention)와 2) 바운딩 박스 내부와 외부 영역의 기여도를 구분하여 주제와 동작 제어 사이의 균형을 보장하는 다시 가중 확산 손실(reweighted diffusion loss)을 제안합니다. 새롭게 정리된 데이터셋에 대한 방대한 실험 결과는 DreamVideo-2가 주제 맞춤 및 동작 제어 모두에서 최신 기술을 능가한다는 것을 입증합니다. 데이터셋, 코드 및 모델은 공개적으로 제공될 예정입니다.
인공 지능 (AI)은 특히 질병 진단 및 치료 계획 분야에서 건강 관리에 상당한 잠재력을 보여주고 있습니다. 최근 의료 대규모 시각-언어 모델(Med-LVLMs)의 발전은 대화식 진단 도구에 대한 새로운 가능성을 열어주었습니다. 그러나 이러한 모델들은 종종 사실상의 환각(factual hallucination)으로 인해 잘못된 진단으로 이어질 수 있습니다. 세밀 조정(fine-tuning) 및 검색 증강 생성(RAG)은 이러한 문제를 해결하기 위한 방법으로 등장했습니다. 그러나 고품질 데이터의 양과 훈련 데이터와 배포 데이터 간의 분포 변화는 세밀 조정 방법의 적용을 제한합니다. RAG는 가벼우면서 효과적이지만, 기존의 RAG 기반 접근 방식은 다양한 의료 분야에 대해 충분히 일반적이지 않을 뿐 아니라, 모달리티 간 및 모델과 실제 사실 간의 불일치 문제를 일으킬 수 있습니다. 본 논문에서는 Med-LVLMs의 사실성을 향상시키기 위해 설계된 다목적 멀티모달 RAG 시스템인 MMed-RAG를 제안합니다. 저희 방법론은 도메인 인식 검색 메커니즘, 적응형 검색된 컨텍스트 선택 방법, 증명 가능한 RAG 기반 선호 세밀 조정 전략을 도입합니다. 이러한 혁신들은 RAG 프로세스를 충분히 일반적이고 신뢰성 있게 만들어주며, 검색된 컨텍스트를 도입할 때 일치성을 크게 향상시킵니다. 의료 VQA 및 보고서 생성을 포함한 다섯 가지 의료 데이터셋(방사선학, 안과학, 병리학)에서의 실험 결과는 MMed-RAG가 Med-LVLMs의 사실적 정확도를 평균 43.8% 향상시킬 수 있다는 것을 보여줍니다. 저희 데이터와 코드는 https://github.com/richard-peng-xia/MMed-RAG에서 이용 가능합니다.
본 연구에서는 Transformer 모델의 핵심인 다중 헤드 어텐션 메커니즘을 업그레이드하여 효율성을 향상시키면서 이전 정확도 수준을 유지하거나 능가합니다. 다중 헤드 어텐션이 합의 형태로 표현될 수 있다는 것을 보여줍니다. 모든 어텐션 헤드가 동등한 중요성을 가지지 않는다는 통찰을 바탕으로, 어텐션 헤드를 Mixture-of-Experts(MoE) 메커니즘의 전문가로 취급하는 새로운 아키텍처인 Mixture-of-Head attention (MoH)를 제안합니다. MoH에는 두 가지 중요한 장점이 있습니다. 첫째, MoH는 각 토큰이 적절한 어텐션 헤드를 선택할 수 있도록 하여 추론 효율성을 향상시키면서 정확도를 희생하지 않거나 매개 변수 수를 증가시키지 않습니다. 둘째, MoH는 다중 헤드 어텐션의 표준 합 대신 가중 합을 도입하여 어텐션 메커니즘에 유연성을 부여하고 추가 성능 잠재력을 발휘합니다. ViT, DiT 및 LLMs에 대한 광범위한 실험 결과 MoH가 어텐션 헤드의 50%-90%만 사용하여 다중 헤드 어텐션을 능가함을 보여줍니다. 더불어, LLaMA3-8B와 같은 사전 훈련된 다중 헤드 어텐션 모델을 MoH 모델로 추가 조정할 수 있음을 입증합니다. 특히, MoH-LLaMA3-8B는 14개의 벤치마크에서 64.0%의 평균 정확도를 달성하여 어텐션 헤드의 75%만 사용하여 LLaMA3-8B를 2.4% 능가합니다. 제안된 MoH가 다중 헤드 어텐션에 대한 유망한 대안이며, 고급 및 효율적인 어텐션 기반 모델을 개발하기 위한 견고한 기반을 제공한다고 믿습니다.
대형 언어 모델 (LLM)을 평가하는 것은 비용이 많이 드는 작업입니다: 다양한 작업의 대규모 벤치마크에서 LLM 출력물을 생성하고 검토해야 합니다. 본 논문은 LLM 벤치마크에 사용되는 작업을 효율적으로 줄이면서 평가 품질에 영향을 미치지 않는 방법에 대해 조사합니다. 우리의 연구는 작업 전이성과 관련성이 가장 대표적인 작업 하위 집합을 식별하는 데 중요한 정보를 제공함을 밝혀냅니다. 우리는 시설 위치 함수를 최적화함으로써 작업을 효율적으로 줄이는 방법을 제안합니다. 두 작업 간의 전이성을 추정하기 위한 실용적으로 효율적인 측정 항목을 제안합니다. 이를 위해 인-컨텍스트 학습 (ICL)을 사용합니다. 쌍별 전이성을 분석함으로써 현대 LLM 벤치마크 (예: MMLU 또는 FLAN)의 작업을 5%로 줄일 수 있으며 원래 벤치마크의 평가에 <4%의 차이만 유발합니다. 이전 연구와 비교했을 때, 우리의 방법은 훈련이 필요 없으며 그라디언트가 없으며 ICL만 필요한 매우 효율적인 방법입니다.
대형 언어 모델 (LLM)의 정렬은 인간의 선호에 따라 응답을 조정하기 위해 모델을 학습시키는 것을 포함합니다. 이러한 대조적인 쌍을 얻기 위해, RLHF와 RLAIF와 같은 전통적인 방법은 모델 변형이나 디코딩 온도와 같은 제한된 대조 패턴에 의존합니다. 이러한 특이성으로 인해 두 가지 문제가 발생합니다: (1) 정렬이 포괄적이지 않으며, 따라서 (2) 모델이 탈옥 공격에 취약해집니다. 이러한 문제를 해결하기 위해 우리는 어떻게 더 포괄적이고 다양한 대조 패턴을 구성하여 선호 데이터를 강화할지 조사하고 (RQ1) 대조 패턴의 다양화가 모델 정렬에 미치는 영향을 검증합니다 (RQ2). RQ1에 대해 우리는 추가 피드백 레이블링 절차가 필요하지 않는 여섯 가지 대조 전략을 도입하는 프롬프트, 모델 및 파이프라인 수준에서 다양한 대조 패턴을 통합하는 PopAlign이라는 프레임워크를 제안합니다. RQ2에 대해, 우리는 PopAlign이 기존 방법보다 훨씬 우수한 성능을 보여주어 더 포괄적인 정렬을 이끌어내는 것을 입증하는 철저한 실험을 수행합니다.
대규모 언어 모델(LLMs)이 더 넓은 범위의 복잡한 작업(예: 코딩, 수학)을 처리할 수 있도록 하는 것은 많은 연구자들의 큰 관심을 끌고 있습니다. LLMs가 계속 발전함에 따라, 모델 매개변수의 수를 단순히 늘리는 것만으로는 성능 향상이 줄어들고 계산 비용이 증가하는 문제가 있습니다. 최근에 OpenAI의 o1 모델은 추론 전략(Test-time Compute 방법)이 LLMs의 추론 능력을 크게 향상시킬 수 있다는 것을 보여주었습니다. 그러나 이러한 방법의 메커니즘은 아직 탐구되지 않은 상태입니다. 저희 연구에서는 o1의 추론 패턴을 조사하기 위해 일반적인 추론 벤치마크에서 OpenAI의 GPT-4o를 백본으로 사용하여 o1을 기존의 Test-time Compute 방법(BoN, Step-wise BoN, Agent Workflow, Self-Refine)과 비교했습니다. 구체적으로, 첫째, 저희 실험 결과로는 o1 모델이 대부분의 데이터셋에서 최고의 성능을 달성했다는 것을 보여줍니다. 둘째, 다양한 응답을 탐색하는 방법(예: BoN)의 경우, 보상 모델의 능력과 탐색 공간이 이러한 방법의 상한선을 제한한다는 것을 발견했습니다. 셋째, 문제를 여러 하위 문제로 분해하는 방법에 대해서는, Agent Workflow가 계획을 더 잘 하는 더 나은 추론 과정을 위한 도메인 특정 시스템 프롬프트로 인해 Step-wise BoN보다 더 나은 성능을 달성했습니다. 넷째, o1의 여섯 가지 추론 패턴을 요약하고 여러 추론 벤치마크에 대해 상세한 분석을 제공했다는 점을 언급할 가치가 있습니다.
포스트 트레이닝은 대규모 사전 훈련된 모델을 다양한 작업에 적응시키는 데 중요한 패러다임으로 부상했으며, 그 효과는 델타 매개변수(즉, 포스트 트레이닝 및 사전 훈련된 매개변수 간의 차이)에 의해 완전히 반영된다. 가지치기, 양자화, 저랭크 근사화 및 외삽과 같은 작업을 통해 많은 연구가 델타 매개변수의 특성을 탐구해 왔지만, 이러한 특성을 체계적으로 조사하는 통합된 프레임워크는 부족했다. 본 논문에서는 손실 함수의 리만 합 근사를 기반으로 한 새로운 관점을 제안하여 델타 매개변수 편집 작업을 명료하게 설명한다. 우리의 분석은 기존 방법을 후속 편집 성능에 따라 경쟁적, 감소된 및 향상된 세 가지 범주로 분류하며, 이러한 방법이 리만 합 근사 용어로 어떻게 표현되고 모델 성능을 어떻게 변경하는지 설명한다. ViT, LLaMA 3, Qwen 2 및 Mistral을 포함한 시각 및 언어 모델에 대한 포괄적인 실험은 우리의 이론적 발견을 확인한다. 더 나아가, DARE 및 BitDelta와 같은 기존 기술의 확장을 소개하며, 델타 매개변수의 특성을 활용하고 포스트 트레이닝된 모델에서 델타 매개변수 편집의 적용 가능성과 효과를 향상시키기 위해 이를 일반적인 표현으로 재구성하는 한계를 강조한다.
최근에는 양자화가 대형 언어 모델(Large Language Models, LLMs)의 압축 및 가속화에 널리 사용되고 있습니다. LLMs의 이상치로 인해 가중치와 활성화를 평평하게 만들어 양자화 오차를 최소화하는 것이 중요합니다. 이전 연구에서는 채널별 스케일링과 Hadamard 변환과 같은 다양한 전 양자화 변환을 탐구하여 이상치를 억제했습니다. 그러나 우리는 이러한 변환된 가중치와 활성화가 여전히 가파르고 넓게 퍼져있을 수 있다는 것을 관찰했습니다. 본 논문에서는 가중치와 활성화의 평평함을 향상시키기 위한 새로운 사후 훈련 양자화 접근 방식인 FlatQuant (빠르고 학습 가능한 아핀 변환)을 제안합니다. 저희 방법은 각 선형 계층에 맞춤형 최적의 아핀 변환을 식별하고, 가벼운 목적에 맞게 보정된 시간 내에 측정합니다. 런타임 오버헤드를 줄이기 위해 변환 행렬에 크로네커 분해를 적용하고, FlatQuant의 모든 작업을 단일 커널로 통합합니다. 광범위한 실험 결과는 FlatQuant가 새로운 최고 수준의 양자화 기준을 설정한다는 것을 보여줍니다. 예를 들어, LLaMA-3-70B 모델의 W4A4 양자화에 대해 SpinQuant보다 7.5% 우수한 정확도 감소를 달성하여 1% 미만의 정확도 감소를 달성합니다. 추론 대기 시간에서는 FlatQuant가 QuaRot의 0.26배에서 단지 0.07배로 줄어든 전 양자화 변환에 의한 속도 저하를 줄여, 각각 2.3배의 속도 향상을 가져오는 프리필과 1.7배의 속도 향상을 가져오는 디코딩을 제공합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/ruikangliu/FlatQuant.
파노라마 이미지 스티칭은 카메라 시야를 넘어가는 장면의 통합된 광각 뷰를 제공합니다. 패닝 비디오의 프레임을 파노라마 사진으로 스티칭하는 것은 정지된 장면에 대해 잘 이해되는 문제이지만, 물체가 움직일 때는 정지된 파노라마로 장면을 캡처할 수 없습니다. 우리는 캐주얼하게 촬영된 패닝 비디오로부터 파노라마 비디오를 합성하는 방법을 제시합니다. 이는 원본 비디오가 광각 카메라로 촬영된 것처럼 보이도록 하는 것입니다. 우리는 파노라마 합성을 공간-시간 외부 그림 문제로 제시하며, 입력 비디오와 동일한 길이의 완전한 파노라마 비디오를 만들기 위해 노력합니다. 공간-시간 볼륨의 일관된 완성에는 비디오 콘텐츠와 모션에 대한 강력하고 현실적인 사전이 필요하며, 이를 위해 생성적 비디오 모델을 적응시킵니다. 그러나 기존의 생성 모델은 즉시 파노라마 완성으로 확장되지 않는다는 것을 보여줍니다. 대신 비디오 생성을 우리의 파노라마 합성 시스템의 구성 요소로 적용하고, 모델의 강점을 활용하면서 한계를 최소화하는 방법을 보여줍니다. 우리의 시스템은 사람, 차량, 흐르는 물뿐만 아니라 정지된 배경 특징을 포함한 다양한 야외 장면에 대한 비디오 파노라마를 생성할 수 있습니다.
대형 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 높은 능력을 보여주지만, '탈옥(jailbreaks)'과 같은 잠재적인 안전 위험을 제시하며, 악의적인 입력이 LLMs를 유도하여 해로운 콘텐츠를 생성하게 할 수 있습니다. 이러한 문제를 해결하기 위해 많은 LLM 개발자들이 이러한 모델을 조정하기 위한 다양한 안전 조치를 시행해왔습니다. 이러한 조정은 사전 훈련 중 데이터 필터링, 감독된 미세 조정, 인간 피드백으로부터의 강화 학습, 그리고 레드팀 연습을 포함하는 여러 기술을 포함합니다. 이러한 방법들은 종종 윤리적인 행동을 보장하기 위해 정치적 정확성(PC)과 유사한 의도적이고 의도된 편향을 도입합니다. 본 논문에서는 안전을 위해 LLMs에 주입된 의도적 편향을 탐구하고, 이러한 안전 조정 기술을 우회하는 방법을 조사합니다. 특히, 이러한 의도적 편향은 GPT-4o 모델에서 탈옥 성공률을 비이진 및 시스젠더 키워드 간에 20% 차이, 백인 및 흑인 키워드 간에 16% 차이를 보이며, 다른 부분이 동일한 경우에도 나타납니다. 우리는 PCJailbreak 개념을 소개하며, 이러한 안전 유발 편향이 초래하는 내재적 위험을 강조합니다. 게다가, 우리는 생성 전 방어 프롬프트를 주입하여 탈옥 시도를 방지하는 효율적인 방어 방법인 PCDefense를 제안합니다. PCDefense는 텍스트 생성 후 추가 추론 비용이 필요한 Llama-Guard와 같은 가드 모델에 대한 매력적인 대안으로 나타납니다. 우리의 연구 결과는 LLM 개발자들이 안전 조치를 설계하고 시행할 때 더 책임있는 접근 방식을 채택해야 함을 강조합니다.
다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 능력이 계속 향상되면, MLLMs의 고차 능력 평가 필요성이 증가하고 있습니다. 그러나 중국 시각 콘텐츠의 고차 인식과 이해를 평가하는 연구가 부족합니다. 이 간극을 메우기 위해 **중국 이미지 함축 이해 벤치마크**인 **CII-Bench**를 소개합니다. CII-Bench는 중국 이미지에 대한 MLLMs의 고차 인식 및 이해 능력을 평가하는 것을 목표로 합니다. CII-Bench는 기존 벤치마크와 비교했을 때 여러 측면에서 뛰어납니다. 먼저 중국 컨텍스트의 신뢰성을 보장하기 위해 CII-Bench의 이미지는 중국 인터넷에서 수집되고 수동으로 검토되며, 해당 답변도 수동으로 제작됩니다. 또한 CII-Bench는 유명한 중국 전통 회화와 같은 중국 전통 문화를 대표하는 이미지를 포함하여 모델이 중국 전통 문화를 얼마나 잘 이해하는지 깊게 반영할 수 있습니다. 다양한 MLLMs에서 CII-Bench를 통한 포괄적인 실험을 통해 중요한 발견을 했습니다. 먼저, MLLMs의 성능과 인간의 성능 사이에 상당한 격차가 관찰되었습니다. MLLMs의 최고 정확도는 64.4%로, 인간의 정확도는 평균 78.2%로, 최고치는 인상적인 81.0%입니다. 이어서, MLLMs는 중국 전통 문화 이미지에서 성능이 떨어지며, 고수준 의미를 이해하고 중국 전통 문화에 대한 깊은 지식 베이스가 부족한 한계를 시사합니다. 마지막으로, 대부분의 모델이 이미지 감정 힌트를 프롬프트에 통합할 때 정확도가 향상되는 것이 관찰되었습니다. CII-Bench가 MLLMs에게 중국어 의미론과 중국 특정 이미지에 대한 더 나은 이해를 제공하여 전문가 수준의 인공 일반 지능(AGI)으로 나아가는 과정을 촉진할 것으로 믿습니다. 저희 프로젝트는 https://cii-bench.github.io/에서 공개되어 있습니다.
생성적 오류 교정(GEC)은 자동 음성 인식(ASR) 시스템의 성능을 향상시키기 위한 강력한 후처리 방법으로 등장했습니다. 그러나 우리는 GEC 모델이 훈련 중에 만난 특정 유형의 오류를 넘어서는 일반화에 어려움을 겪는다는 것을 보여주었습니다. 이는 테스트 시간에 새로운, 보지 못한 오류를 특히 도메인을 벗어난(OOD) 시나리오에서 수정하는 능력을 제한합니다. 이 현상은 명명된 엔티티(NEs)에서 더욱 심해지는데, NEs에 대한 충분한 문맥 정보나 지식 외에도 새로운 NEs가 계속해서 등장합니다. 이러한 문제를 해결하기 위해 우리는 DARAG(Data- and Retrieval-Augmented Generative Error Correction)를 제안합니다. 이는 ID 및 OOD 시나리오에서 ASR을 위해 GEC를 개선하기 위한 혁신적인 접근 방식입니다. 우리는 LLMs와 텍스트 음성 모델을 유도하여 생성된 합성 데이터로 GEC 훈련 데이터셋을 보강하여 모델이 학습할 수 있는 추가적인 오류를 모방합니다. OOD 시나리오에서는 새로운 도메인에서 테스트 시간 오류를 유사하게 비지도 방식으로 모방합니다. 또한 명명된 엔티티를 더 잘 처리하기 위해 데이터베이스에서 검색된 엔티티로 입력을 보강하는 검색 보강 교정을 도입합니다. 우리의 접근 방식은 간단하고 확장 가능하며 도메인 및 언어에 중립적입니다. 우리는 여러 데이터셋과 설정에서 실험을 진행하며, DARAG가 모든 기준선을 능가하여 ID에서 8\% ~ 30\% 상대적인 WER 개선을 달성하고, OOD 설정에서 10\% ~ 33\% 개선을 보여줍니다.
대규모 언어 모델(LLMs)과 사용자 간의 다중 턴 상호작용은 자연스럽게 암시적 피드백 신호를 포함합니다. LLM이 지시에 예상치 못한 방식으로 응답하면 사용자는 요청을 다시 정제하거나 불만을 표현하거나 대체 작업으로 전환함으로써 신호를 줄 가능성이 높습니다. 이러한 신호들은 작업에 독립적이며 비국소적이며, 상대적으로 제한된 언어 부분 공간을 차지하므로 LLM은 실제 작업에 실패하더라도 이를 식별할 수 있습니다. 이는 추가 주석 없이 상호작용으로부터 지속적으로 학습할 수 있는 방법을 제공합니다. 우리는 ReSpect를 소개합니다. 이는 과거 상호작용에서 이러한 신호로부터 학습하는 방법론입니다. 우리는 ReSpect를 새로운 다중 모달 상호작용 시나리오에 배치했습니다. 여기서 사람들은 LLM에게 조합적 해결 공간을 갖는 추상적 추론 작업을 해결하도록 지시합니다. 수천 건의 인간과의 상호작용을 통해, ReSpect가 외부 주석 없이도 작업 완료율을 31%에서 82%로 점진적으로 향상시키는 방법을 보여줍니다.
대형 언어 모델(LLM)의 개발은 다중 모달 언어 모델(MLLM)의 능력을 크게 향상시켰으며, 이를 일반적인 보조 기능으로 활용할 수 있게 되었습니다. 그러나 사용자별 지식의 부족으로 인해 그들의 일상 생활에서의 적용이 제한되고 있습니다. 본 논문에서는 MLLM의 개인화를 위한 검색 증강 개인화(RAP) 프레임워크를 소개합니다. 일반 MLLM으로부터 시작하여 세 가지 단계로 개인화된 보조 기능으로 변환합니다. (a) 기억: 사용자 관련 정보(예: 사용자의 이름, 아바타 및 기타 속성)를 저장하기 위한 키-값 데이터베이스를 설계합니다. (b) 검색: 사용자가 대화를 시작하면 RAP은 다중 모달 검색기를 사용하여 데이터베이스에서 관련 정보를 검색합니다. (c) 생성: 입력 쿼리와 검색된 개념 정보를 MLLM에 공급하여 개인화된, 지식 증강 응답을 생성합니다. 이전 방법과는 달리, RAP은 외부 데이터베이스를 업데이트하여 실시간 개념 편집을 허용합니다. 생성 품질을 더욱 향상시키고 사용자별 정보와 조율을 위해 데이터 수집을 위한 파이프라인을 설계하고 MLLM의 개인화 훈련을 위한 전용 데이터셋을 작성합니다. 이 데이터셋을 기반으로, 일련의 MLLM을 개인화된 다중 모달 보조 기능으로 훈련시킵니다. 대규모 데이터셋을 사전 훈련함으로써, RAP-MLLM은 추가적인 파인튜닝 없이 무한한 시각적 개념으로 일반화할 수 있습니다. 우리의 모델은 개인화된 이미지 캡션, 질문 응답 및 시각 인식과 같은 다양한 작업에서 우수한 유연성과 생성 품질을 보여줍니다. 코드, 데이터 및 모델은 https://github.com/Hoar012/RAP-MLLM에서 제공됩니다.
비디오의 시각적 콘텐츠와 일치하는 음악을 생성하는 것은 시각 의미론을 심층적으로 이해하고 멜로디, 리듬, 그리고 역학이 시각 서술과 조화롭게 어우러지는 음악을 생성하는 것을 필요로 하기 때문에 어려운 과제였습니다. 본 논문은 MuVi라는 혁신적인 프레임워크를 제시하여 이러한 과제를 효과적으로 해결하여 오디오-비주얼 콘텐츠의 일관성과 몰입 경험을 향상시킵니다. MuVi는 비디오 콘텐츠를 분석하기 위해 특별히 설계된 시각 어댑터를 통해 맥락적으로 그리고 시간적으로 관련성 있는 특징을 추출합니다. 이러한 특징은 비디오의 분위기와 주제 뿐만 아니라 리듬과 페이싱과도 일치하는 음악을 생성하는 데 사용됩니다. 또한 음악 구절의 주기성 특성을 기반으로 동기화를 보장하기 위해 대조적인 음악-비주얼 사전 훈련 체계를 소개합니다. 게다가, 흐름 일치 기반 음악 생성기가 문맥 내 학습 능력을 갖추어 생성된 음악의 스타일과 장르를 제어할 수 있음을 보여줍니다. 실험 결과는 MuVi가 오디오 품질과 시간적 동기화 모두에서 우수한 성능을 보여주는 것을 보여줍니다. 생성된 음악 비디오 샘플은 https://muvi-v2m.github.io에서 확인할 수 있습니다.
언어 모델(Language models, LMs)은 의학 분야에서 전문가 수준의 추론 및 기억 능력을 보여주었습니다. 그러나 계산 비용과 개인 정보 보호에 대한 우려가 넓은 범위로의 적용을 방해하고 있습니다. 우리는 모바일 장치에서 실행 가능한 38억 개 파라미터를 갖춘 MedMobile이라는 phi-3-mini의 절약형 적응을 소개합니다. MedMobile이 MedQA (USMLE)에서 75.7%의 점수를 획득하여 의사들을 위한 합격 기준(~60%)을 넘어서며, 크기의 100배인 모델들의 점수에 접근합니다. 우리는 이어서 신중한 일련의 제거 실험을 수행하고, 사고의 연결, 앙상블 및 세밀한 조정이 가장 큰 성능 향상을 이끌어내는 것을 보여줍니다. 반면, 의도치 않게 검색 보강 생성은 상당한 개선을 보여주지 못하는 것으로 나타납니다.
다중 모달 대형 언어 모델(MLLMs)의 중요한 발전에도 불구하고, 그들의 높은 계산 비용은 현실 세계 배치에 대한 장벽으로 남아 있습니다. 자연어 처리에서 깊이의 혼합(MoDs)에서 영감을 받아, 우리는 이 한계를 "활성화된 토큰"의 관점에서 해결하고자 합니다. 우리의 주요 통찰력은 대부분의 토큰이 계층 계산에 불필요하다면, MoD 계층을 통해 직접 건너뛸 수 있다는 것입니다. 그러나 MLLMs의 밀집 계층을 직접 MoD 계층으로 변환하면 상당한 성능 저하가 발생합니다. 이 문제를 해결하기 위해, 우리는 기존 MLLMs를 위한 혁신적인 MoD 적응 전략인 gamma-MoD를 제안합니다. gamma-MoD에서는 MoD를 MLLM에 배치하는 데 이끄는 새로운 측정 항목으로서 어텐션 맵의 순위(ARank)가 제안됩니다. ARank를 통해 어떤 계층이 불필요하며 MoD 계층으로 대체되어야 하는지 효과적으로 식별할 수 있습니다. ARank를 기반으로, MLLM의 계산 희소성을 극대화하면서 성능을 유지하기 위해 공유 비전-언어 라우터와 마스킹된 라우팅 학습이라는 두 가지 혁신적인 설계를 제안합니다. 이러한 설계를 통해 MLLM의 90% 이상의 밀집 계층을 효과적으로 MoD로 변환할 수 있습니다. 우리의 방법을 검증하기 위해, 세 가지 인기 있는 MLLMs에 이를 적용하고 9개의 벤치마크 데이터셋에서 광범위한 실험을 수행합니다. 실험 결과는 기존 MLLMs에 대한 gamma-MoD의 상당한 효율성 이점을 검증할 뿐만 아니라 다양한 MLLMs에 대한 일반화 능력을 확인합니다. 예를 들어, 성능 감소가 -1.5%인 경우, gamma-MoD는 LLaVA-HR의 훈련 및 추론 시간을 각각 31.0% 및 53.2% 줄일 수 있습니다.
모델 규모의 급격한 증가로 인해 세밀한 조정을 위해 상당한 계산 자원이 필요해졌습니다. 기존의 Low-Rank Adaptation (LoRA)과 같은 접근 방식은 전체 세밀한 조정에서 큰 업데이트된 매개변수를 처리하는 문제를 해결하려고 노력해 왔습니다. 그러나 LoRA는 업데이트된 가중치를 근사하기 위해 난수 초기화와 저랭크 행렬의 최적화를 활용하는데, 이는 최적 수렴과 전체 세밀한 조정과 비교했을 때 정확도 격차를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 LoLDU라는 Parameter-Efficient Fine-Tuning (PEFT) 접근 방식을 제안합니다. 이 방식은 일반적인 PEFT 방법에 비해 훈련 가능한 매개변수를 2600배 줄이면서 유사한 성능을 유지합니다. LoLDU는 빠른 수렴과 직교성을 위해 저랭크 행렬을 초기화하기 위해 Lower-Diag-Upper Decomposition (LDU)를 활용합니다. 우리는 스케일 변환을 위해 대각 행렬을 최적화하는 데 초점을 맞추었습니다. 우리의 최신 지식에 따르면, LoLDU는 모든 PEFT 접근 방식 중에서 가장 적은 매개변수를 가지고 있습니다. 우리는 LLaMA2, RoBERTa, ViT, 그리고 Stable Diffusion과 같은 여러 모델 유형을 사용하여 4개의 명령 따르기 데이터셋, 6개의 자연어 이해 (NLU) 데이터셋, 8개의 이미지 분류 데이터셋, 그리고 이미지 생성 데이터셋에서 광범위한 실험을 수행하였으며, 포괄적이고 상세한 분석을 제공하였습니다. 우리의 오픈 소스 코드는 https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}에서 확인할 수 있습니다.
원하는 특성을 가진 새로운 물질을 발견하는 능력은 기후 변화 완화부터 차세대 컴퓨팅 하드웨어 발전에 이르기까지 다양한 응용 분야에 중요합니다. 인공지능은 화학 공간을 더 효과적으로 탐색하거나 시행착오에 비해 물질 발견과 설계를 가속화하는 잠재력을 가지고 있습니다. 물질 데이터, 벤치마크, 및 모델에 대해 상당한 진전이 이루어졌지만, 공개적으로 이용 가능한 훈련 데이터와 사전 훈련된 모델의 부족이라는 장벽이 나타났습니다. 이를 해결하기 위해, 우리는 대규모 공개 데이터셋인 Open Materials 2024 (OMat24)와 그에 수반하는 사전 훈련된 모델 세트인 Meta FAIR 릴리스를 제시합니다. OMat24는 구조적 및 구성 다양성에 초점을 맞춘 1억 1천만 개 이상의 밀도 기능 이론 (DFT) 계산을 포함하고 있습니다. 우리의 EquiformerV2 모델은 Matbench Discovery 리더보드에서 최고 수준의 성능을 달성하며, 기초 상태 안정성 및 생성 에너지를 0.9 이상의 F1 점수와 각각 20 meV/원자의 정확도로 예측할 수 있습니다. 우리는 OMat24, MPtraj, 그리고 Alexandria를 포함한 다양한 데이터셋을 통해 모델 크기, 보조 제거 목표, 그리고 성능에 대한 파인 튜닝의 영향을 탐구합니다. OMat24 데이터셋과 모델의 공개 릴리스는 연구 커뮤니티가 우리의 노력을 기반으로 발전하고 AI 지원 물질 과학 분야에서 더 나은 진전을 이끌어내도록 돕습니다.
우리는 Long-LRM을 제안합니다. 이는 장면을 재구성하는 데 특화된 3D 가우시안 재구성 모델로, 긴 입력 이미지 시퀀스로부터 대규모 장면을 재구성할 수 있습니다. 구체적으로, 우리의 모델은 960x540 해상도의 32개의 소스 이미지를 1.3초 만에 단일 A100 80G GPU에서 처리할 수 있습니다. 우리의 아키텍처는 최근의 Mamba2 블록과 고전적인 트랜스포머 블록의 혼합을 특징으로 하며, 이를 통해 이전 작업보다 훨씬 많은 토큰을 처리할 수 있게 되었습니다. 이는 효율적인 토큰 병합과 가우시안 가지치기 단계에 의해 향상되었으며, 품질과 효율성 사이의 균형을 유지합니다. 이전의 입력 이미지 1~4개만 처리하고 대규모 장면의 일부만 재구성할 수 있는 이전의 피드포워드 모델과는 달리, Long-LRM은 단일 피드포워드 단계에서 전체 장면을 재구성합니다. DL3DV-140 및 Tanks and Temples와 같은 대규모 장면 데이터셋에서, 우리의 방법은 최적화 기반 접근법과 유사한 성능을 달성하면서도 효율성이 2차례 더 뛰어납니다. 프로젝트 페이지: https://arthurhero.github.io/projects/llrm
대형 언어 모델이 긴 문맥을 지원하기 위해 급속하게 발전함에 따라, 그들의 능력에는 긴 길이의 출력을 생성하는 능력에 대한 현저한 불균형이 있습니다. 최근 연구는 이 불균형의 주요 원인이 정렬 훈련 중에 긴 출력을 가진 데이터의 부족에서 비롯될 수 있다고 제안합니다. 이 관찰을 고려하여, 갭을 메우는 데이터로 기초 모델을 재정렬하는 시도가 이루어지고, 이로 인해 지시된 경우 긴 출력을 생성할 수 있는 모델이 생성됩니다. 본 논문에서는 긴 출력을 위해 모델을 튜닝하는 데 데이터 품질의 영향과 인간 정렬(지시 또는 채팅) 모델의 시작점에서 그렇게 하는 가능성을 탐구합니다. 신중한 데이터 선별을 통해 우리는 조정된 모델에서 성능 향상을 달성할 수 있음을 보여주며, 훈련 데이터 인스턴스와 컴퓨팅의 소량만 사용하여도 유사한 성능 향상이 가능함을 보여줍니다. 또한, 우리는 이러한 방법을 여러 모델에 적용하여 이러한 접근 방식의 일반화 가능성을 평가합니다. 우리의 연구 결과는, 기본 설정에서 긴 출력을 생성하는 능력이 모델마다 다르지만, 우리가 경험한 모든 모델에서 고품질 데이터를 사용하여 조정하는 우리의 방법은 일관되게 모든 모델에서 현저한 향상을 보여준다는 것을 시사합니다. 우리는 긴 글쓰기 능력을 튜닝하기 위한 정제된 데이터셋, 모델 튜닝 및 평가 구현, 그리고 세밀하게 조정된 모델을 모두 공개적으로 접근할 수 있도록 공개했습니다.
분류기 없는 가이던스 (CFG)는 시각적 생성 모델의 샘플 품질을 향상시키는 데 중요한 기술입니다. 그러나 자기 회귀 (AR) 다중 모달 생성에서 CFG는 언어와 시각적 콘텐츠 간의 설계 불일치를 도입하여 시각 AR의 다른 모달을 통합하는 설계 철학과 모순됩니다. 언어 모델 정렬 방법에 영감을 받아 Condition Contrastive Alignment (CCA)를 제안하여 고성능의 가이던스 없는 AR 시각 생성을 용이하게 하고 그 이론적 연결을 분석합니다. 이상적인 샘플링 분포를 달성하기 위해 샘플링 프로세스를 변경하는 가이던스 방법과 달리 CCA는 미리 학습된 모델을 동일한 분포 목표에 맞게 직접 세밀하게 조정합니다. 실험 결과는 CCA가 미리 학습 데이터 세트에서 미세 조정 (미세 조정 전체의 약 1\%)으로 모든 테스트된 모델의 가이던스 없는 성능을 크게 향상시킬 수 있음을 보여주며, 가이드된 샘플링 방법과 유사한 수준으로 가이던스 없는 AR 시각 생성에서 가이드된 샘플링의 필요성을 크게 줄입니다. 또한, 훈련 매개변수를 조정함으로써 CCA는 CFG와 유사하게 샘플 다양성과 충실성 사이의 균형을 달성할 수 있습니다. 이는 언어-대상 정렬과 시각-대상 가이던스 방법 간의 강력한 이론적 연결을 실험적으로 확인하여 이전에 독립적이었던 두 연구 분야를 통합합니다. 코드 및 모델 가중치: https://github.com/thu-ml/CCA.
전용 언어 모델의 보급은 사용자의 민감한 데이터에 대한 개인 정보 보호 우려를 증폭시켰으며, 개인 추론(PI)의 필요성을 강조하고 있습니다. 여기서 추론은 암호화된 입력에 직접 수행되는 것입니다. 그러나 현재의 PI 방법은 비선형 연산으로 인한 통신 및 지연 오버헤드가 지나치게 높은 문제에 직면하고 있습니다. 본 논문에서는 트랜스포머 기반 디코더 전용 언어 모델에서 비선형성의 역할을 이해하기 위한 포괄적인 분석을 제시합니다. 우리는 기존 LLM 아키텍처를 효율적인 PI를 위해 개선하는 네 단계의 아키텍처 최적화 프레임워크인 AERO를 소개합니다. 이를 통해 LayerNorm과 GELU와 같은 비선형성을 체계적으로 제거하고 FLOP 수를 줄입니다. 우리는 효율적인 PI를 위해 FLOP 수를 크게 줄인 Softmax 전용 아키텍처를 처음으로 제안합니다. 더불어, Softmax 전용 모델의 성능을 향상시키기 위한 새로운 엔트로피 정규화 기술을 고안합니다. AERO는 최대 4.23배의 통신 및 1.94배의 지연 감소를 달성합니다. 우리는 AERO의 효과를 최첨단 기술과의 벤치마킹을 통해 검증합니다.
비전-언어 기반 모델(예: CLIP)은 최근 대규모 이미지-텍스트 사전 훈련 덕분에 전이 학습에서 그 힘을 보여주고 있다. 그러나 하위 작업에서의 대상 도메인 데이터는 사전 훈련 단계와 매우 다를 수 있어 이러한 단일 모델이 잘 일반화하기 어렵게 만든다. 대신, 서로 다른 모달리티, 작업, 네트워크 및 데이터셋에서 사전 훈련된 다양한 비전 및/또는 언어 지식을 포함하는 다양한 전문 모델이 존재한다. 유감스럽게도, 이러한 모델은 이질적인 구조를 가진 "고립된 에이전트"이며, 이러한 지식을 통합하여 CLIP와 같은 모델을 일반화하는 방법이 완전히 탐구되지 않았다. 이 간극을 메우기 위해, 우리는 고립된 에이전트의 지식을 통일된 방식으로 전달하고, 다중 소스 지식 증류를 통해 CLIP가 일반화되도록 효과적으로 안내하는 일반적이고 간결한 TransAgent 프레임워크를 제안한다. 이러한 독특한 프레임워크로 우리는 11개의 이질적 에이전트와 유연하게 협업하여 비전-언어 기반 모델을 강화하며, 추론 단계에서 추가 비용 없이 최첨단 성능을 달성한다. 마지막으로, 우리의 TransAgent는 11개의 시각 인식 데이터셋에서 최고 수준의 성능을 달성한다. 동일한 저샷 설정에서 인기 있는 CoOp보다 평균적으로 약 10% 이상, 그리고 큰 도메인 이동을 포함하는 EuroSAT에서는 약 20% 우수한 성과를 보인다.
많은 학생들이 수학 워드 문제(MWPs)에 어려움을 겪는데, 종종 주요 정보를 식별하고 적절한 수학 연산을 선택하는 것이 어렵다. 스키마 기반 교수법(SBI)은 학생들이 문제를 구조에 따라 분류하여 문제 해결 정확도를 향상시키는 증거에 기반한 전략이다. 이를 더욱 발전시켜, 우리는 대형 언어 모델(LLM)을 통합한 스키마 기반 교수법 검색-증강 생성(SBI-RAG) 프레임워크를 제안한다. 우리의 접근 방식은 스키마를 활용하여 해결책 생성을 안내함으로써 단계별 추론을 강조한다. 우리는 GSM8K 데이터셋에서 이를 GPT-4와 GPT-3.5 Turbo와 비교하여 성능을 평가하고, 해결책 품질을 평가하기 위한 "추론 점수" 지표를 소개한다. 우리의 연구 결과는 SBI-RAG가 추론 명확성과 문제 해결 정확도를 향상시키며, 학생들에게 교육적 이점을 제공할 수 있는 가능성을 시사한다.