번역이 포함된 일일 선별된 AI 연구 논문
정보는 다양한 형태로 제공됩니다. 다중 모달 네이티브 AI 모델은 현실 세계 정보를 통합하고 포괄적인 이해를 제공하는 데 중요합니다. 전용 다중 모달 네이티브 모델은 존재하지만 그들의 개방성 부족으로 인해 채택이나 적응이 어려움을 겪습니다. 이 공백을 채우기 위해 우리는 Aria를 소개합니다. Aria는 다양한 다중 모달, 언어 및 코딩 작업에서 최고 수준의 성능을 보여주는 오픈 소스 다중 모달 네이티브 모델입니다. Aria는 시각 토큰 당 3.9B 및 텍스트 토큰 당 3.5B의 활성화된 매개변수를 가진 전문가 모델 혼합체입니다. 이 모델은 Pixtral-12B 및 Llama3.2-11B를 능가하며 다양한 다중 모달 작업에서 최고의 전용 모델과 경쟁력을 갖추고 있습니다. 우리는 4단계 파이프라인을 따라 Aria를 처음부터 사전 훈련시키며, 이는 언어 이해, 다중 모달 이해, 긴 컨텍스트 창 및 지시 따르기에 강력한 능력을 부여합니다. 우리는 이 모델 가중치를 오픈 소스로 공개하고, 실제 응용 프로그램에서 Aria의 쉬운 채택과 적응을 용이하게 하는 코드베이스를 제공합니다.
대형 언어 모델 (LLM)은 자연어를 통한 소통이 흔한 경제적 및 전략적 상호작용에서 상당한 잠재력을 보여줍니다. 이는 중요한 질문을 던집니다: LLM은 합리적으로 행동할까요? 그들은 인간 행동을 모방할 수 있을까요? 그들은 효율적이고 공정한 결과에 이를 경향이 있을까요? 전략적 상호작용에서 자연어의 역할은 무엇일까요? 경제적 환경의 특성이 이러한 동역학에 어떻게 영향을 미치는지는 더욱 중요해집니다. 이러한 질문들은 온라인 소매 플랫폼 및 추천 시스템과 같은 실제 데이터 기반 시스템에 LLM 기반 에이전트를 통합하는 경제적 및 사회적 영향에 관한 중요성을 갖습니다. ML 커뮤니티는 다중 에이전트 설정에서 LLM의 잠재력을 탐구해왔지만, 연구 간 가정, 설계 선택 및 평가 기준의 다양성으로 인해 견고하고 의미 있는 결론을 도출하기 어렵습니다. 이를 해결하기 위해, 우리는 두 플레이어, 순차, 언어 기반 게임에 대한 연구를 표준화하기 위한 벤치마크를 소개합니다. 경제 문헌에서 영감을 받아, 일관된 매개변수화, 자유도 및 경제적 측정치를 갖는 세 가지 기본 게임 패밀리를 정의하여 에이전트의 성능 (자이익) 및 게임 결과 (효율성 및 공정성)을 평가합니다. 상호작용 시뮬레이션 및 분석을 위한 오픈 소스 프레임워크를 개발하고, 다양한 게임 구성을 통해 LLM 대 LLM 상호작용 데이터셋과 인간 대 LLM 상호작용 추가 데이터셋을 수집합니다. 광범위한 실험을 통해 우리의 프레임워크와 데이터셋이 다음과 같은 용도로 활용될 수 있는지를 시연합니다: (i) 다양한 경제적 맥락에서 LLM 기반 에이전트의 행동을 인간 플레이어와 비교; (ii) 개별 및 집단 성능 측정에 따른 에이전트 평가; 및 (iii) 환경의 경제적 특성이 에이전트의 행동에 미치는 영향을 양적으로 평가합니다.
최근에 발전한 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 상당한 진전을 보여주었지만, 이러한 모델들은 "얼굴 맹인"이라고 지칭하는 주목할 만한 한계를 보여줍니다. 구체적으로, 이러한 모델들은 일반 대화에 참여할 수 있지만, 특정 개인을 대상으로 하는 맞춤 대화를 수행하지 못합니다. 이 결핍은 MLLMs를 맞춤형 시나리오에 적용하는 데 제약을 줍니다. 예를 들어, 모바일 장치에서 맞춤형 시각적 보조기나 가족 구성원을 인식해야 하는 가정용 로봇과 같은 상황에서 사용될 수 있습니다. 본 논문에서는 개인화된 시각적 지시 튜닝(Personalized Visual Instruction Tuning, PVIT)이라는 새로운 데이터 정제 및 훈련 프레임워크를 소개합니다. 이 프레임워크는 MLLMs가 이미지 내의 대상 개인을 식별하고 개인화되고 일관된 대화를 수행할 수 있도록 설계되었습니다. 저희의 접근 방식은 다양한 시각 전문가, 이미지 생성 모델 및 (다중 모달) 대형 언어 모델의 능력을 활용하여 맞춤형 대화를 포함하는 훈련 데이터를 자동으로 생성하는 정교한 파이프라인의 개발을 포함합니다. MLLMs의 개인화 가능성을 평가하기 위해 P-Bench라는 벤치마크를 제시하며, 이는 다양한 난이도의 질문 유형을 포함합니다. 실험 결과는 저희가 정제한 데이터셋으로 미세 조정한 후 상당한 개인화 성능 향상을 보여줍니다.
Pixtral-12B는 120억 개의 파라미터를 가진 다중 모달 언어 모델을 소개합니다. Pixtral-12B는 자연 이미지와 문서를 이해하기 위해 훈련되어 다양한 다중 모달 벤치마크에서 선도적인 성능을 달성하며, 여러 더 큰 모델을 능가합니다. 많은 오픈 소스 모델과 달리, Pixtral은 크기에 비해 최신의 텍스트 모델이기도 하며, 다중 모달 작업에서 우수한 성능을 위해 자연 언어 성능을 희생하지 않습니다. Pixtral은 이미지를 자연 해상도와 종횡비로 처리할 수 있게 해주는 새로운 비전 인코더를 처음부터 훈련하여 사용합니다. 이는 사용자가 이미지를 처리하는 데 사용되는 토큰 수에 대한 유연성을 제공합니다. 또한 Pixtral은 128K 토큰의 긴 컨텍스트 창에서 어떤 수의 이미지도 처리할 수 있습니다. Pixtral 12B는 유사한 크기의 다른 오픈 모델(Llama-3.2 11B 및 Qwen-2-VL 7B)보다 크게 능가합니다. 또한 7배 작은 크기임에도 Llama-3.2 90B와 같이 훨씬 큰 오픈 모델보다 우수한 성능을 발휘합니다. 우리는 실제 시나리오에서 비전-언어 모델을 평가하기 위한 오픈 소스 벤치마크 MM-MT-Bench를 제공하며, 다중 모달 LLMs에 대한 표준화된 평가 프로토콜에 대한 자세한 분석 및 코드를 제공합니다. Pixtral-12B는 Apache 2.0 라이선스 하에 공개되었습니다.
본 논문은 Diffusion Transformer (DiT)을 사용한 플로우 매칭에 기반을 둔 완전 비자기회귀 텍스트 음성 변환 시스템인 F5-TTS를 소개합니다. 기간 모델, 텍스트 인코더, 및 음운 정렬과 같은 복잡한 설계가 필요하지 않으며, 텍스트 입력은 간단히 채우기 토큰으로 패딩되어 입력 음성과 동일한 길이로 만들어진 후, 소음 제거가 음성 생성을 위해 수행됩니다. 이는 원래 E2 TTS에 의해 실행 가능하다는 것이 입증되었습니다. 그러나, E2 TTS의 원래 설계는 수렴 속도가 느리고 견고성이 낮아 따라가기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 먼저 ConvNeXt로 입력을 모델링하여 텍스트 표현을 정제하고, 음성과 쉽게 정렬할 수 있도록 합니다. 또한 추론 시간에 Sway Sampling 전략을 제안하여 모델의 성능과 효율성을 크게 향상시킵니다. 이 플로우 단계에 대한 샘플링 전략은 재교육 없이 기존의 플로우 매칭 기반 모델에 쉽게 적용할 수 있습니다. 우리의 설계는 더 빠른 훈련을 가능하게 하며, 최첨단 확산 기반 TTS 모델과 비교하여 크게 향상된 0.15의 추론 RTF를 달성합니다. 공개 100K 시간 다국어 데이터셋에서 훈련된 Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS)는 매우 자연스럽고 표현력이 풍부한 제로샷 능력, 원활한 코드 전환 능력, 그리고 속도 제어 효율성을 보여줍니다. 데모 샘플은 https://SWivid.github.io/F5-TTS에서 확인할 수 있습니다. 우리는 모든 코드와 체크포인트를 공개하여 커뮤니티 개발을 촉진합니다.
텍스트-비디오(T2V) 모델인 Sora와 같은 모델들은 복잡한 프롬프트를 시각화하는 데 상당한 발전을 이루었으며, 이는 보다 유망한 세계 공용 시뮬레이터 구축으로 통해 점차적으로 인식되고 있습니다. 인지 심리학자들은 이 목표를 달성하기 위한 기초가 직관적 물리학을 이해하는 능력이라고 믿습니다. 그러나 이러한 모델들이 직관적 물리학을 정확하게 표현하는 능력은 여전히 크게 탐구되지 않았습니다. 이 간극을 메우기 위해 우리는 물리적 상식의 정확성을 T2V 생성에서 평가하기 위해 설계된 포괄적인 물리 생성 벤치마크인 PhyGenBench를 소개합니다. PhyGenBench는 4가지 기본 도메인을 포괄하는 27가지의 물리 법칙을 걸쳐 조합된 160가지 정교하게 설계된 프롬프트로, 모델들의 물리적 상식 이해를 체계적으로 평가할 수 있습니다. PhyGenBench와 함께, 우리는 PhyGenEval이라는 새로운 평가 프레임워크를 제안합니다. 이 프레임워크는 적합한 고급 비전-언어 모델과 대규모 언어 모델을 활용한 계층적 평가 구조를 채택하여 물리적 상식을 평가합니다. PhyGenBench와 PhyGenEval을 통해 우리는 T2V 모델들의 물리적 상식 이해를 대규모 자동 평가할 수 있으며, 이는 인간 피드백과 밀접하게 부합합니다. 우리의 평가 결과와 심층적 분석은 현재 모델들이 물리적 상식을 준수하는 비디오를 생성하는 데 어려움을 겪고 있음을 보여줍니다. 게다가, 단순히 모델을 확장하거나 프롬프트 엔지니어링 기술을 채용하는 것만으로는 PhyGenBench(예: 동적 시나리오)가 제시하는 도전에 완전히 대응하기에는 충분하지 않습니다. 이 연구가 커뮤니티에게 엔터테인먼트 응용 프로그램을 넘어 이러한 모델의 물리적 상식 학습을 우선시하도록 영감을 줄 것으로 기대합니다. 데이터와 코드는 https://github.com/OpenGVLab/PhyGenBench에서 공개될 예정입니다.
RPG, Stable Diffusion 3 및 FLUX와 같은 고급 확산 모델은 구성적 텍스트에서 이미지를 생성하는 데 주목할만한 발전을 이루었습니다. 그러나 이러한 방법들은 일반적으로 구성적 생성에 대해 각기 다른 강점을 나타내며, 일부는 속성 바인딩을 처리하는 데 뛰어나고 다른 일부는 공간 관계를 처리하는 데 뛰어납니다. 이러한 격차는 다양한 모델의 보완적인 강점을 활용하여 구성 능력을 체계적으로 향상시킬 수 있는 접근 방식이 필요함을 강조합니다. 이를 위해 우리는 IterComp이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 여러 모델로부터 집합적 구성 인식 모델 선호도를 집계하고 반복적 피드백 학습 접근 방식을 활용하여 구성적 생성을 향상시킵니다. 구체적으로, 우리는 여섯 가지 강력한 오픈 소스 확산 모델 갤러리를 선별하고 그들의 세 가지 주요 구성적 측정 항목인 속성 바인딩, 공간 관계 및 비-공간 관계를 평가합니다. 이러한 측정 항목을 기반으로, 다수의 이미지-순위 쌍으로 이루어진 구성 인식 모델 선호도 데이터셋을 개발하여 구성 인식 보상 모델을 훈련시킵니다. 그런 다음, 기본 확산 모델과 보상 모델을 여러 번 반복하여 점진적으로 자기 정제할 수 있는 반복적 피드백 학습 방법을 제안합니다. 이론적 증명은 효과적임을 보여주며, 다양한 실험 결과는 이전 SOTA 방법 (예: Omost 및 FLUX)에 비해 특히 다중 범주 객체 구성 및 복잡한 의미적 정렬에서 우리의 상당한 우위를 보여줍니다. IterComp은 확산 모델 및 구성적 생성을 위한 보상 피드백 학습에 대한 새로운 연구 방향을 열어줍니다. 코드: https://github.com/YangLing0818/IterComp
비디오 생성은 방대한 시공간 공간을 모델링하는 것을 필요로 하며, 이는 상당한 계산 자원과 데이터 사용을 요구한다. 복잡성을 줄이기 위해, 주로 사용되는 방법은 전체 해상도로 직접 훈련하는 것을 피하기 위해 연쇄 구조를 채택한다. 계산 요구를 줄이지만 각 하위 단계를 별도로 최적화하는 것은 지식 공유를 방해하고 유연성을 희생시킨다. 본 연구는 통합된 피라미드 플로우 매칭 알고리즘을 소개한다. 이는 원래의 노이즈 제거 궤적을 일련의 피라미드 단계로 재해석하며, 여기서 최종 단계만 전체 해상도에서 작동하도록 하여 더 효율적인 비디오 생성 모델링을 가능하게 한다. 우리의 정교한 설계를 통해 서로 다른 피라미드 단계의 흐름을 연결하여 연속성을 유지할 수 있다. 더불어, 전체 해상도 이력을 압축하기 위해 시간적 피라미드를 활용한 자기회귀 비디오 생성을 개발하였다. 전체 프레임워크는 단일 통합 Diffusion Transformer (DiT)로 엔드 투 엔드 방식으로 최적화될 수 있다. 광범위한 실험 결과, 우리의 방법이 768p 해상도에서 24 FPS로 5초 (최대 10초) 비디오를 생성하는 데 20.7k A100 GPU 훈련 시간 내에 고품질 지원을 보여주었다. 모든 코드와 모델은 https://pyramid-flow.github.io에서 오픈 소스로 제공될 것이다.
우리는 대규모 비전 언어 모델(LVLMs)의 다중 모달 사전 훈련 품질을 나타내는 효과적이고 견고하며 일반화된 측정 항목인 Modal Integration Rate (MIR)을 제시합니다. 대규모 사전 훈련은 능력 있는 LVLMs를 구축하는 데 중요한 역할을 하지만, 비용이 많이 드는 지도형 미세 조정 단계 없이 훈련 품질을 평가하는 것은 미개척된 영역입니다. 손실, 혼란도 및 문맥 평가 결과는 대형 언어 모델(LLMs)의 사전 훈련 측정 항목으로 일반적으로 사용되지만, 잘 훈련된 LLM을 새로운 모달리티에 맞추는 경우 이러한 측정 항목들이 적합하지 않다는 것을 관찰했습니다. 적절한 측정 항목의 부재로 인해, LVLMs의 중요한 사전 훈련 단계에서의 연구가 크게 제약되고 있으며, 이는 훈련 데이터 선택, 효율적인 모듈 설계 등을 포함합니다. 본 논문에서는 사전 훈련 품질을 상호 모달 분포 거리 관점에서 평가하고, 사전 훈련 품질을 효과적으로 나타내며 지도형 미세 조정 이후의 벤치마크 성능과 긍정적인 관계를 보여주는 Modal Integration Rate(MIR)을 제시합니다. 또한, MIR은 다양한 훈련/평가 데이터에 대해 견고하며, 훈련 구성 및 아키텍처 선택에 걸쳐 일반화됩니다. 우리는 MIR의 효과성을 탐색하기 위해 일련의 사전 훈련 실험을 수행하고, MIR이 훈련 데이터 선택, 훈련 전략 일정, 모델 아키텍처 설계에 대한 표시적인 결과를 관찰하며 더 나은 사전 훈련 결과를 얻기 위한 지침을 제공합니다. MIR이 능력 있는 LVLMs를 구축하는 데 도움이 되고 다양한 영역에서의 모달리티 정렬에 대한 후속 연구를 영감을 줄 수 있기를 희망합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/shikiw/Modality-Integration-Rate.
본 기술 보고서에서는 Mamba 아키텍처를 기반으로 한 새로운 대규모 언어 모델인 Falcon Mamba 7B를 소개합니다. Falcon Mamba 7B는 신규 Mamba 아키텍처에 기반을 둔 모델로, 5.8조 토큰에 대해 세심하게 선별된 데이터 혼합물로 훈련되었습니다. 순수 Mamba 기반 모델인 Falcon Mamba 7B는 Transformers를 기반으로 한 선도적인 오픈 가중치 모델인 Mistral 7B, Llama3.1 8B, Falcon2 11B를 능가합니다. Gemma 7B와 동등하며, RecurrentGemma 9B 및 RWKV-v6 Finch 7B/14B와 같은 다른 아키텍처 설계 모델을 능가합니다. 현재 Falcon Mamba 7B는 이 규모에서 문헌에서 최고 성능을 보이는 Mamba 모델로, 기존 Mamba 및 하이브리드 Mamba-Transformer 모델을 모두 능가하는 Open LLM Leaderboard에 따르면 최고입니다. Falcon Mamba 7B는 아키텍처로 인해 추론 속도가 현저히 빠르며, 장거리 시퀀스 생성에 대해 상당히 적은 메모리가 필요합니다. 최근 연구에서는 하이브리드 Mamba-Transformer 모델이 순수 아키텍처 설계를 능가한다는 제언이 있었지만, 우리는 순수 Mamba 설계조차 Transformer 및 하이브리드 설계와 유사하거나 우수한 결과를 달성할 수 있다는 것을 입증합니다. Falcon Mamba 7B의 구현 가중치는 허용 라이선스 하에 https://huggingface.co/tiiuae/falcon-mamba-7b에서 공개되어 있습니다.
본 논문은 시각 백본과 옵티마이저 간의 상호작용에 대해 탐구하며, \textbf{백본-옵티마이저 결합 편향} (BOCB)이라는 상호의존 현상을 밝혀냅니다. 우리는 VGG와 ResNet과 같은 전통적인 CNN이 SGD 계열과 뚜렷한 상호의존성을 보이는 반면, ViTs와 ConvNeXt와 같은 최근 구조는 적응형 학습률 옵티마이저와 밀접한 결합을 공유한다는 것을 관찰했습니다. 또한 BOCB가 옵티마이저와 특정 백본 설계에 의해 도입될 수 있으며, 시각 모델의 사전 훈련 및 하류 미세 조정에 중대한 영향을 줄 수 있다는 것을 보여줍니다. 철저한 경험적 분석을 통해 권장되는 옵티마이저에 대한 결론과 견고한 시각 백본 구조에 대한 통찰을 요약합니다. 본 연구가 백본과 옵티마이저에 대한 오래된 가정에 의문을 제기하고, 추가적인 탐구를 촉진하며, 이로써 더 견고한 시각 시스템에 기여할 수 있기를 희망합니다. 소스 코드와 모델은 https://bocb-ai.github.io/에서 공개적으로 제공됩니다.
본 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 포괄적으로 탐구하는 것을 목표로 합니다. 이 목표를 달성하기 위해 우리는 세 가지 분야에서 노력합니다. 첫째, 에고센트릭 비디오 이해를 위한 QA 데이터 부족으로, 우리는 인간이 주석을 단 데이터를 기반으로 30초에서 1시간까지의 에고센트릭 비디오에 대한 7백만 개의 고품질 QA 샘플을 효율적으로 생성하는 데이터 엔진을 개발합니다. 현재 이는 가장 큰 에고센트릭 QA 데이터셋입니다. 둘째, 우리는 모델의 능력을 평가하기 위해 다양한 길이의 비디오에서 시각적 세부 사항을 인식하고 기억하는 모델의 능력을 평가하기 위해 629개의 비디오와 7,026개의 질문을 포함한 도전적인 에고센트릭 QA 벤치마크를 제공합니다. 우리는 평가 중인 모델에서 발생하는 불가피한 언어 편향을 완화하는 데 도움이 되는 새로운 디바이어싱 평가 방법을 소개합니다. 셋째, 우리는 새로운 "메모리 포인터 프롬프팅" 메커니즘을 특징으로 하는 전문적인 다중 모달 아키텍처를 제안합니다. 이 설계에는 전체 비디오의 포괄적인 이해를 얻고 주요 시각적 정보를 식별하기 위한 글로벌 시선 단계가 포함되어 있으며, 그 다음 핵심 시각적 정보를 활용하여 응답을 생성하는 대체 단계가 이어집니다. 이를 통해 모델은 확장된 비디오 콘텐츠를 더 효과적으로 이해할 수 있습니다. 데이터, 벤치마크 및 모델로 MM-Ego를 성공적으로 구축하여, 이는 강력한 성능을 보여주는 에고센트릭 다중 모달 LLM입니다.
이야기 시각화는 이야기를 기반으로 일관된 이미지를 생성하는 작업으로, 특히 확산 모델과 같은 텍스트-이미지 모델의 등장으로 상당한 발전을 이루었습니다. 그러나 의미 일관성 유지, 고품질의 세밀한 상호작용 생성, 그리고 계산적 실행 가능성 보장은 특히 긴 이야기 시각화(예: 최대 100프레임)에서 여전히 어려운 문제입니다. 본 연구에서는 긴 이야기의 생성 능력을 향상시키기 위한 훈련 불필요하고 계산적으로 효율적인 프레임워크인 Story-Adapter를 제안합니다. 구체적으로, 이전 반복에서 생성된 모든 이미지와 텍스트 프롬프트를 활용하여 각 생성된 이미지를 정제하는 반복적 패러다임을 제안합니다. 우리의 프레임워크의 핵심은 훈련 불필요한 전역 참조 교차-주의 모듈로, 이전 반복에서 생성된 모든 이미지를 집계하여 전체 이야기 전체에 걸쳐 의미 일관성을 유지하고, 전역 임베딩을 통해 계산 비용을 최소화합니다. 이 반복적인 과정은 텍스트 제약을 반복적으로 통합함으로써 이미지 생성을 점진적으로 최적화하여 더 정확하고 세밀한 상호작용을 얻게 됩니다. 광범위한 실험을 통해 Story-Adapter의 우수성이 검증되었으며, 특히 긴 이야기 시나리오에서 세밀한 상호작용을 위한 의미 일관성과 생성 능력을 향상시킵니다. 프로젝트 페이지와 관련 코드는 https://jwmao1.github.io/storyadapter를 통해 액세스할 수 있습니다.
인간의 선호에 부합함으로써 대형 언어 모델(LLMs)은 정직하고 무해하며 유익한 응답을 생성하는 데 상당한 발전을 이루었습니다. 그러나 고품질의 선호 데이터를 수집하는 것은 자원 집약적이며 창의력을 요구하는 과정이며, 특히 LLM의 지속적인 개선을 위해서는 그렇습니다. 본 연구에서는 모델 정렬을 위해 합성 선호 데이터를 활용하는 자체 강화 패러다임인 SynPO를 소개합니다. SynPO는 자가 프롬프트 생성기가 다양한 프롬프트를 생성하고 응답 개선자가 모델 응답을 점진적으로 개선하는 반복적 메커니즘을 채택합니다. 이 방법은 LLM이 자체적으로 출력물에 대한 생성적 보상을 학습하고 프롬프트와 인간의 선호에 대한 대규모 주석이 필요 없이 학습할 수 있도록 합니다. 4회의 SynPO 반복 후, Llama3-8B 및 Mistral-7B는 AlpacaEval 2.0 및 ArenaHard에서 22.1% 이상의 승률 향상을 달성하며 지시 따르기 능력을 크게 향상시켰습니다. 동시에 SynPO는 다양한 작업에서 LLM의 일반적인 성능을 향상시키며, 잘 알려진 Open LLM 리더보드에서 3.2에서 5.0의 평균 점수 증가로 검증되었습니다.
기반 모델 (Foundation models, FMs)은 대규모 데이터셋에서 사전 훈련된 후 특정 응용 프로그램을 위한 하류 작업에서 세밀 조정됩니다. 가장 성공적이고 가장 일반적으로 사용되는 세밀 조정 방법은 사전 훈련된 가중치를 저랭크 적응 (Low-rank adaptation, LoRA)을 통해 업데이트하는 것입니다. LoRA는 일반적으로 모델 가중치 전체에 균일한 랭크 분포로 임의로 초기화된 새로운 가중치 행렬을 도입합니다. 최근 연구는 가중치 중심 초기화 또는 훈련 중 적응적 랭크 학습에 초점을 맞추고 있습니다. 그러나 이러한 두 접근 방식은 독립적으로만 조사되어 왔으며, 이는 수렴 속도가 느리거나 균일한 랭크 분포로 이어져 최적의 성능을 발휘하지 못하게 됩니다. 우리는 활성화 벡터의 미니배치에서 특이값 분해를 계산하여 새로운 가중치를 데이터 기반으로 초기화하는 방식으로 LoRA를 개선하는 것을 제안합니다. 그런 다음, 우리는 얻은 오른쪽 특이 벡터로 LoRA 행렬을 초기화하고 모든 가중치 행렬 사이에서 분산의 최대 양을 설명하기 위해 랭크를 재분배하고 표준 LoRA 세밀 조정 절차를 계속합니다. 이로써 우리의 새로운 방법인 설명된 분산 적응 (Explained Variance Adaptation, EVA)가 탄생합니다. 우리는 언어 생성 및 이해부터 이미지 분류 및 강화 학습에 이르기까지 다양한 세밀 조정 작업에 EVA를 적용합니다. EVA는 경쟁 상대보다 빠른 수렴을 보이며 도메인 당 다양한 작업에서 가장 높은 평균 점수를 달성합니다.
본 논문에서는 사전 훈련된 T2V 모델로부터 뛰어난 능력의 일관성 모델을 증류하여 사후 훈련 단계에서 확산 기반 텍스트-비디오 (T2V) 모델을 향상시키는 데 초점을 맞추었습니다. 우리가 제안하는 T2V-Turbo-v2 방법은 고품질 훈련 데이터, 보상 모델 피드백, 조건 지침을 일관성 증류 과정에 통합함으로써 중요한 발전을 이루었습니다. 포괄적인 제거 연구를 통해 데이터셋을 특정 학습 목표에 맞게 맞춤화하는 중요성과 시각적 품질 및 텍스트-비디오 정렬 향상을 위해 다양한 보상 모델로부터 학습하는 효과를 강조했습니다. 또한 효과적인 에너지 함수를 설계하여 선생님 ODE 솔버를 보강하는 조건부 지침 전략의 방대한 설계 공간을 강조했습니다. 우리는 이 접근 방식의 잠재력을 보여주기 위해 훈련 데이터셋으로부터 동작 지침을 추출하고 ODE 솔버에 통합하여 생성된 비디오의 동작 품질을 향상시키는 데 효과적임을 보여주었습니다. VBench 및 T2V-CompBench의 개선된 동작 관련 메트릭을 통해 이를 입증했습니다. 경험적으로, 우리의 T2V-Turbo-v2는 VBench에서 85.13의 총점을 기록하여 Gen-3 및 Kling과 같은 소유 시스템을 능가하는 최신 기술 성과를 달성했습니다.
대형 언어 모델은 코드 완성, 코드 삽입 및 지시 코드 편집과 같은 프로그래밍 지원 작업에 성공적으로 적용되었습니다. 그러나 이러한 응용 프로그램은 여전히 충분히 자동화되지 않았으며 프로그래밍 프로세스 중에 코딩 기록, 현재 코드 및 사용자 지시와 같은 다양한 유형의 정보를 효과적으로 통합하는 데 어려움을 겪고 있습니다. 본 연구에서는 이러한 정보 원본을 종합적으로 통합하는 새로운 대화형 프레임워크를 제안하고, 모델을 훈련시키고 그 성능을 평가하기 위해 데이터를 수집합니다. 먼저, 모델이 다양한 유형의 정보와 그들의 출력 품질과 얼마나 잘 일치하는지 철저히 평가하기 위해 프로그래밍 지원 작업에서 모델의 성능을 종합적으로 평가하기 위한 새로운 벤치마크인 APEval (Assist Programming Eval)을 소개합니다. 그런 다음, 데이터 수집을 위해 GitHub 및 온라인 판사 플랫폼과 같은 다양한 소스에서 훈련 데이터를 종합적으로 합성하는 데이터 생성 파이프라인인 Programming-Instruct를 개발합니다. 이 파이프라인은 프로그래밍 프로세스 전반에 걸쳐 다양한 유형의 메시지를 자동으로 생성할 수 있습니다. 마지막으로, 이 파이프라인을 사용하여 219K개의 샘플을 생성하고 여러 모델을 세밀하게 조정하여 CursorCore 시리즈를 개발합니다. CursorCore가 유사한 크기의 다른 모델보다 우수한 성능을 보여준다는 것을 보여줍니다. 이 프레임워크는 인라인 채팅 및 자동 편집과 같은 응용 프로그램을 통합하고 코딩 어시스턴트의 발전에 기여합니다. 코드, 모델 및 데이터는 https://github.com/TechxGenus/CursorCore에서 무료로 제공됩니다.
비디오 대형 언어 모델(Video LLMs)은 비디오 이해에서 유망한 능력을 보여주었지만, 시간적 변화를 추적하고 시간적 관계를 추론하는 데 어려움을 겪습니다. 이전 연구에서는 시각적 입력의 비효율적인 시간적 인코딩으로 이 한계를 설명했지만, 우리의 진단 연구는 비디오 표현이 충분한 정보를 포함하고 있어 작은 프로빙 분류기조차 완벽한 정확도를 달성할 수 있음을 밝혀냅니다. 놀랍게도, 비디오 LLMs의 시간적 추론 능력의 주요 병목 현상은 시간 개념에 대한 기본 LLM의 내재적인 어려움에서 비롯된다는 것을 발견했는데, 이는 텍스트 시간적 질의응답 작업에서의 성능 저하로 입증되었습니다. 이 발견을 기반으로 우리는 Textual Temporal reasoning Transfer (T3)를 소개합니다. T3는 기존 이미지-텍스트 데이터셋에서 순수한 텍스트 형식의 다양한 시간적 추론 작업을 합성하여 복잡한 시간적 시나리오를 가진 비디오 샘플의 부족을 해결합니다. 놀랍게도, 비디오 데이터를 사용하지 않고 T3는 LongVA-7B의 시간적 이해를 향상시켜, 도전적인 TempCompass 벤치마크에서 5.3의 절대 정확도 향상을 이끌어내어, 우리 모델이 28,000개의 비디오 샘플로 훈련된 ShareGPT4Video-8B를 능가하도록 합니다. 더불어, 향상된 LongVA-7B 모델은 포괄적인 비디오 벤치마크에서 경쟁력 있는 성능을 달성합니다. 예를 들어, Video-MME의 시간적 추론 작업에서 49.7의 정확도를 달성하여 InternVL-Chat-V1.5-20B와 VILA1.5-40B와 같은 강력한 대규모 모델을 능가합니다. 추가적인 분석은 텍스트와 비디오 시간적 작업 성능 사이의 강한 상관 관계를 밝혀내어, 텍스트에서 비디오 도메인으로 시간적 추론 능력을 전이하는 효과를 검증합니다.
최근 대규모 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 확산 모델의 발전은 주로 키프레임 보간 측면에서 비디오 생성을 크게 향상시켰습니다. 그러나 현재의 이미지-비디오 확산 모델은 단일 조건 프레임에서 비디오를 생성하는 데 강력하지만, 효과적인 경계 보간을 위해 필수적인 두 프레임(시작 및 끝) 조건 생성을 위해 적응이 필요합니다. 불행히도, 병렬로 시간적으로 전진 및 후진 경로를 융합하는 기존 접근 방식은 종종 오프-매니폴드 문제로 인해 아티팩트를 유발하거나 여러 반복적 재노이징 단계가 필요합니다. 본 연구에서는 이러한 오프-매니폴드 문제를 해결하기 위한 혁신적인 양방향 샘플링 전략을 소개합니다. 이 방법은 광범위한 재노이징이나 세밀한 조정이 필요하지 않으면서도 시작 및 끝 프레임에 조건을 걸고 전진 및 후진 경로를 따라 순차적 샘플링을 적용하여 중간 프레임의 더 일관된 및 매니폴드 상의 생성을 보장합니다. 더불어, 우리는 보간 프로세스를 더욱 향상시키기 위해 고급 가이드 기술인 CFG++ 및 DDS를 통합합니다. 이러한 기술을 통합함으로써 우리의 방법은 최첨단 성능을 달성하며, 키프레임 간에 고품질이고 부드러운 비디오를 효율적으로 생성합니다. 단일 3090 GPU에서 우리의 방법은 195초 만에 1024 x 576 해상도에서 25프레임을 보간할 수 있어, 키프레임 보간을 위한 선도적인 솔루션으로 자리매김하고 있습니다.
텍스트에서 이미지 및 비디오를 맞춤화하는 모델이 크게 발전했음에도, 여러 맞춤화된 개념을 효과적으로 통합하는 이미지와 비디오를 생성하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해 저희는 추론 단계에서 맞춤화된 확산 모델을 구성하는 새로운 방법인 TweedieMix를 제안합니다. 역확산 샘플링의 특성을 분석함으로써, 저희의 접근 방식은 샘플링 프로세스를 두 단계로 나눕니다. 초기 단계에서는 원하는 대상 객체를 포함하기 위해 다중 객체 인식 샘플링 기술을 적용합니다. 나중 단계에서는 Tweedie의 공식을 사용하여 이미지 공간에서 맞춤 개념의 외관을 혼합합니다. 저희 결과는 TweedieMix가 기존 방법보다 높은 충실도로 여러 맞춤화된 개념을 생성할 수 있음을 보여줍니다. 더불어, 저희의 프레임워크는 이미지에서 비디오로의 확산 모델로 쉽게 확장될 수 있어, 여러 맞춤화된 개념을 특징으로 하는 비디오를 생성할 수 있습니다. 결과와 소스 코드는 저희 익명의 프로젝트 페이지에 있습니다.
지시 튜닝-지시-응답 쌍을 사용한 지도 미세 조정은 사전 훈련된 대형 언어 모델(LLM)을 유용하고 안전한 채팅 어시스턴트로 전환하는 데 필수적인 단계입니다. 우리의 가설은 적절한 출력 공간을 설정함으로써 사전 훈련된 LLM의 내재된 능력을 고려하여 이러한 전환을 가능하게 할 수 있다는 것입니다. 이를 확인하기 위해 우리는 지시 튜닝에서 지시 조건 단계를 제거하고 응답 공간 감독에만 집중하는 Response Tuning (RT)을 제안합니다. 우리의 실험은 RT 모델이 응답만을 사용하여 광범위한 지시에 효과적으로 응답하고 그들의 지시 조정된 상대와 유사한 유용성을 나타낼 수 있음을 보여줍니다. 게다가, 우리는 훈련 응답 분포를 제어함으로써 사용자 선호도를 크게 향상시키거나 안전하지 않은 쿼리에 대한 도움 거부와 같은 목표 행동을 유도할 수 있다는 것을 관찰합니다. 우리의 연구 결과는 적절한 출력 공간 설정의 역할을 명확히 하며, 사전 훈련된 LLM의 광범위한 내재된 능력의 잠재력을 강조합니다.
본 논문에서는 AutoDAN-Turbo를 제안합니다. 이는 사람의 개입이나 미리 정의된 범위(예: 특정한 후보 전략) 없이 처음부터 가능한 많은 탈옥 전략을 자동으로 발견하고, 그것들을 레드팀 활동에 활용할 수 있는 블랙박스 탈옥 방법입니다. 결과적으로 AutoDAN-Turbo는 기본 방법을 크게 능가하여, 공개 벤치마크에서 평균 공격 성공률이 74.3% 더 높게 달성합니다. 특히, AutoDAN-Turbo는 GPT-4-1106-turbo에서 88.5%의 공격 성공률을 달성합니다. 또한, AutoDAN-Turbo는 기존의 사람이 디자인한 탈옥 전략을 플러그 앤 플레이 방식으로 통합할 수 있는 통합된 프레임워크입니다. 사람이 디자인한 전략을 통합함으로써, AutoDAN-Turbo는 GPT-4-1106-turbo에서 심지어 93.4%의 더 높은 공격 성공률을 달성할 수 있습니다.
최근 확산 모델의 발전은 이미지 및 비디오 생성에서 우수한 능력을 보여주었으며, 4D 합성의 효과를 더욱 향상시켰다. 기존의 4D 생성 방법은 사용자 친화적인 조건을 기반으로 고품질의 4D 객체 또는 장면을 생성할 수 있어 게임 및 비디오 산업에 이점을 제공한다. 그러나 이러한 방법은 복잡한 4D 전이 내에서 중요한 객체 변형 및 상호작용을 합성하는 데 어려움을 겪는다. 이러한 도전에 대처하기 위해 본 연구에서는 현실적인 복잡한 장면 전이를 가능하게 하는 새로운 텍스트-투-4D 합성 프레임워크인 Trans4D를 제안한다. 구체적으로, 먼저 다중 모달 대형 언어 모델(Multi-Modal Large Language Models, MLLMs)을 사용하여 물리학적인 장면 설명을 생성하여 4D 장면 초기화 및 효과적인 전이 타이밍 계획을 수립한다. 그런 다음 계획을 기반으로 복잡한 장면 수준의 4D 전이를 실현하기 위해 geometry-aware 4D 전이 네트워크를 제안한다. 이는 표현력 있는 기하학적 객체 변형을 포함한다. 방대한 실험 결과, Trans4D가 정확하고 고품질의 전이를 갖는 4D 장면을 생성하는 데 기존 최첨단 방법을 일관되게 능가함을 입증하여 그 효과를 검증한다. 코드: https://github.com/YangLing0818/Trans4D
다중 모달 대형 언어 모델(MLLMs)은 빠르게 발전하며 인간 및 환경과 상호 작용하는 다중 모달 어시스턴트로서 인상적인 능력을 나타냅니다. 그러나 이러한 증가된 복잡성은 중요한 안전 문제를 도입합니다. 본 논문에서는 다중 모달 상황 안전(Multimodal Situational Safety)이라는 새로운 안전 도전 과제를 평가하고 분석하는 첫 번째 연구를 제시합니다. 이 도전 과제는 사용자 또는 에이전트가 참여하는 특정 상황에 따라 안전 고려 사항이 어떻게 다양하게 변하는지 탐구합니다. 우리는 MLLM이 언어나 행동을 통해 안전하게 응답하기 위해서는 종종 해당 시각적 맥락 내에서 언어 쿼리의 안전성 영향을 평가해야 한다고 주장합니다. 이 능력을 평가하기 위해 현재 MLLM의 상황 안전성 성능을 평가하는 다중 모달 상황 안전성 벤치마크(MSSBench)를 개발합니다. 이 데이터셋은 1,820개의 언어 쿼리-이미지 쌍으로 구성되어 있으며, 이미지 컨텍스트의 절반은 안전하고 다른 절반은 위험합니다. 또한 명시적 안전 추론, 시각적 이해 및 상황 안전 추론을 포함한 주요 안전 측면을 분석하는 평가 프레임워크를 개발합니다. 우리의 연구 결과는 현재 MLLM이 이러한 미묘한 안전 문제와 상황적 안전 도전에 어려움을 겪으며 지시 따르기 환경에서 이러한 상황적 안전 도전을 동시에 해결하는 데 어려움을 겪는다는 것을 밝혀내며, 향후 연구의 주요 분야를 강조합니다. 더불어, 우리는 안전 도전을 협력적으로 해결하기 위해 다중 에이전트 파이프라인을 개발하였으며, 이는 원래 MLLM 응답보다 일관된 안전성 향상을 보여줍니다. 코드 및 데이터: mssbench.github.io.
텍스트-비디오 (T2V) 생성 모델은 편리한 시각적 생성을 제공하여 최근에 큰 관심을 받고 있습니다. 그러나 생성된 비디오는 구조적 불합리성, 시간적 불일치, 움직임 부족 등의 아티팩트를 보일 수 있으며 종종 거의 정지된 비디오로 이어질 수 있습니다. 본 연구에서는 서로 다른 블록 간의 시간적 주의 맵의 불일치와 시간적 불일치 발생 간의 상관 관계를 확인했습니다. 또한, 생성된 비디오의 움직임 크기와 관련된 에너지가 시간적 주의 맵에 포함된 것을 관찰했습니다. 이러한 관찰을 기반으로 우리는 추가 매개변수를 도입하거나 메모리를 확장하거나 샘플링 시간을 늘리지 않고 텍스트-비디오 생성의 품질을 향상시키는 BroadWay라는 훈련 불필요한 방법을 제안합니다. 구체적으로, BroadWay는 두 가지 주요 구성 요소로 구성됩니다: 1) 시간적 자기-가이드는 다양한 디코더 블록 간의 시간적 주의 맵의 불일치를 줄이는 것을 통해 생성된 비디오의 구조적 합리성과 시간적 일관성을 향상시킵니다. 2) 푸리에 기반의 움직임 향상은 맵의 에너지를 증폭함으로써 움직임의 크기와 풍부함을 향상시킵니다. 광범위한 실험 결과는 BroadWay가 추가 비용을 거의 요구하지 않으면서 텍스트-비디오 생성의 품질을 현저히 향상시킨다는 것을 보여줍니다.
생성 모델은 음악 생성과 같은 창의적인 영역을 변형하고 있으며, 분류기 없는 가이드 (CFG)와 같은 추론 시 전략이 중요한 역할을 하고 있습니다. 그러나 CFG는 생성된 콘텐츠 전체에 걸쳐 원본성과 다양성을 제한하면서 추론 비용을 두 배로 증가시킵니다. 본 논문에서는 CFG의 강점을 살리면서 한계를 극복하는 새로운 세밀 조정 절차인 다양성 보상 CFG 증류를 소개합니다. 우리의 방법론은 두 가지 교육 목표를 최적화합니다: (1) 증류 목표는 모델이 (CFG 없이) CFG로 증강된 예측을 모방하도록 장려하고, (2) 다양성 보상이 있는 RL 목표는 주어진 프롬프트에 대해 다양한 출력 생성을 촉진합니다. 세밀 조정을 통해 우리는 추론 오버헤드 없이 고품질이고 다양한 출력을 생성할 수 있는 모델 가중치를 학습합니다. 이는 또한 가중치 기반 모델 병합 전략의 잠재력을 발휘합니다: 두 모델의 가중치 사이를 보간함으로써 (첫 번째는 품질에 초점을 맞추고 두 번째는 다양성에 초점을 맞춤), 배포 시 품질-다양성 교환을 제어하고 심지어 성능을 더욱 향상시킬 수 있습니다. 우리는 MusicLM (Agostinelli et al., 2023) 텍스트-음악 생성 모델에서 광범위한 실험을 수행하였으며, 우리의 방법론이 품질-다양성 파레토 최적성 측면에서 CFG를 능가한다는 결과를 얻었습니다. 인간 평가자들에 따르면, 우리의 세밀 조정 후 병합된 모델은 CFG로 증강된 기본 모델보다 더 높은 품질-다양성을 갖는 샘플을 생성합니다. 저희의 생성물을 다음 링크에서 확인해보세요: https://google-research.github.io/seanet/musiclm/diverse_music/.
이 연구는 대규모 말뭉치에서 고품질 사전 훈련 데이터를 선택하여 LMs의 하류 사용 능력을 향상시키는 것을 조사합니다. 우리는 데이터 선택을 일반화된 최적 제어 문제로 정의하며, Pontryagin의 최대 원리(PMP)에 의해 이론적으로 해결될 수 있습니다. 이는 최적 데이터 선택과 LM 훈련 역학 사이의 관계를 특징 짓는 필요 조건 집합을 제공합니다. 이론적 결과를 기반으로 우리는 PMP 기반 데이터 선택(PDS)을 소개합니다. 이는 PMP 조건을 해결하여 최적 데이터 선택을 근사하는 프레임워크입니다. 실험에서 우리는 PDS를 채택하여 CommmonCrawl에서 데이터를 선택하고, PDS로 선택된 말뭉치가 LM의 학습을 가속화시키고 다양한 모델 크기에 걸쳐 다양한 하류 작업에서 지속적으로 성능을 향상시키는 것을 보여줍니다. 또한 PDS의 이점은 스케일링 법칙에 따라 테스트 손실 곡선의 추정에 의해 확인된 것처럼, ~10T 토큰으로 훈련된 ~400B 모델에까지 확장됩니다. PDS는 또한 사전 훈련 데이터가 제한적인 경우 데이터 수요를 1.8배 줄이는 것으로 웹 크롤된 말뭉치의 빠른 고갈을 완화하여 데이터 활용을 향상시킵니다. 우리의 코드, 데이터 및 모델 체크포인트는 https://github.com/microsoft/LMOps/tree/main/data_selection에서 찾을 수 있습니다.
비디오 시간적 그라운딩(VTG)은 비디오 이해 모델에 대한 중요한 능력이며 비디오 브라우징 및 편집과 같은 하류 작업에서 중요한 역할을 합니다. 다양한 작업을 효과적으로 동시에 처리하고 제로샷 예측을 가능하게 하기 위해 비디오 LLMs를 VTG 작업에 활용하는 추세가 증가하고 있습니다. 그러나 현재의 비디오 LLM 기반 방법은 자연어 생성에만 의존하며 비디오의 명확한 구조를 모델링하는 능력이 부족하여 VTG 작업을 다루는 데 효과적이지 못한 제약이 있습니다. 본 논문에서는 이 문제를 해결하기 위해 먼저 비디오를 사건 시퀀스로 표현하고 이전 사건, 비디오 입력 및 텍스트 지침을 사용하여 현재 사건을 예측하는 인과 사건 모델링 프레임워크를 형식적으로 소개합니다. 각 사건은 타임스탬프, 중요 점수 및 텍스트 캡션으로 구성됩니다. 그런 다음 실제로 인과 사건 모델링 프레임워크를 효과적으로 구현하기 위해 새로운 작업 간 비디오 LLM인 TRACE를 제안합니다. TRACE는 시각적 프레임, 타임스탬프, 중요 점수 및 텍스트를 각각 다른 작업으로 처리하며 각각에 대해 다양한 인코더와 디코더 헤드를 사용합니다. 작업 토큰은 인과 사건 모델링 프레임워크의 공식에 따라 교차되는 순서로 배열됩니다. 다양한 VTG 작업 및 데이터셋에서의 광범위한 실험 결과는 TRACE의 최신 비디오 LLM에 비해 우수한 성능을 보여줍니다. 저희 모델과 코드는 https://github.com/gyxxyg/TRACE에서 확인할 수 있습니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 다양한 작업 범위에서 점점 경쟁력 있는 성능을 보여주고 있는 가운데, 이러한 최첨단 모델을 평가하기 위해 더 복잡하고 포괄적인 벤치마크가 개발되었습니다. 이러한 벤치마크는 지각, 추론 및 계획과 같은 핵심 능력에 대한 새로운 도전 과제를 제시합니다. 그러나 기존의 다중 모달 벤치마크는 이미지 내 공간적 관계를 기반으로 한 다단계 계획에 대한 집중적인 평가를 제공하지 못하는 한계가 있습니다. 이 간극을 메우기 위해 우리는 MLLMs의 공간 상상력과 다단계 추론 능력을 평가하기 위해 특별히 설계된 ING-VP, 첫 번째 INteractive Game-based Vision Planning 벤치마크를 제안합니다. ING-VP는 6가지 독특한 게임을 포함하며, 각각 6가지 고유한 구성을 갖추고 있습니다. 단일 모델은 60,000회 이상의 상호 작용을 수행합니다. 이 벤치마크 프레임워크는 이미지-텍스트 대 텍스트만 입력, 단일 단계 대 다단계 추론, 그리고 과거 기록 포함 대 미포함과 같은 여러 비교 설정을 허용하여 모델의 능력에 대한 유용한 통찰을 제공합니다. 우리는 여러 최첨단 MLLMs를 평가했으며, 최고 성능 모델인 Claude-3.5 Sonnet은 평균 정확도가 예상보다 훨씬 낮은 3.37%를 달성했습니다. 본 연구는 복잡한 공간 추론 및 계획 능력을 강화하기 위한 MLLMs의 전문 평가 프레임워크를 제공하는 것을 목표로 합니다. 코드는 https://github.com/Thisisus7/ING-VP.git에서 공개적으로 이용 가능합니다.
LLM에게는 지침을 따르는 능력이 중요한 능력입니다. 그러나 최근 연구에 따르면 LLM은 종종 여러 제약 조건을 포함하는 지침에 어려움을 겪는 것으로 나타났습니다 (예: "유머러스한 어조로" 소셜 미디어 게시물을 만들라는 요청과 "해시태그 없음" 조건). 그럼에도 불구하고 대부분의 평가는 합성 데이터에만 초점을 맞추고 있습니다. 이를 해결하기 위해 우리는 RealInstruct를 소개합니다. 이는 실제 사용자가 AI 어시스턴트에게 한 쿼리를 활용하여 LLM의 실제 세계 다중 제약 조건 지침을 따르는 능력을 평가하기 위해 설계된 최초의 벤치마크입니다. 또한 이 작업에 대한 인간 주석의 비용 효율적 대안으로 모델 기반 평가를 조사합니다. 우리의 연구 결과는 심지어 소유권 GPT-4 모델도 지침의 21% 이상에서 적어도 하나의 제약 조건을 충족시키지 못한다는 한계를 강조합니다. 오픈 소스와 소유권 모델 간의 성능 차이를 해소하기 위해 우리는 Decompose, Critique 및 Refine (DeCRIM) 자가 교정 파이프라인을 제안합니다. 이는 원래 지침을 제약 조건 목록으로 분해하고 Critic 모델을 사용하여 LLM의 응답이 개선이 필요한 시기와 위치를 결정합니다. 우리의 결과는 DeCRIM이 Mistral의 성능을 RealInstruct에서 7.3%, IFEval에서 8.0% 향상시킨다는 것을 보여줍니다. 더욱이 강력한 피드백으로 오픈 소스 LLM이 DeCRIM을 사용하여 두 벤치마크에서 GPT-4를 능가할 수 있다는 것을 입증합니다.
텍스트 대 이미지 확산 모델이 상업용 응용 프로그램에 충분히 발전함에 따라, 그들의 악의적이고 해로운 사용 가능성에 대한 우려도 증가하고 있습니다. 모델 언러닝은 사전 훈련된 모델에서 원치 않는 및 잠재적으로 해로운 정보를 제거하여 이러한 우려를 완화하기 위해 제안되었습니다. 지금까지 언러닝의 성공은 주로 언러닝된 모델이 이미지 품질을 유지하면서 대상 개념을 생성할 수 있는지에 의해 측정되었습니다. 그러나 언러닝은 일반적으로 제한된 시나리오에서 테스트되며, 현재 문헌에서 언러닝의 부작용은 거의 연구되지 않았습니다. 본 연구에서는 다섯 가지 주요 측면에서 다양한 시나리오에서 언러닝을 철저히 분석합니다. 우리의 조사 결과, 모든 방법에는 특히 더 복잡하고 현실적인 상황에서 부작용이나 제한이 있음을 밝혀냅니다. 소스 코드와 아티팩트와 함께 포괄적인 평가 프레임워크를 공개함으로써, 이 분야에서 더 신뢰할 수 있고 효과적인 언러닝 방법을 모색하며, 더 많은 연구를 촉진하기를 희망합니다.
대형 언어 모델(Large Language Models, LLMs)은 이미지를 통합했지만, 그래프에 대한 적응은 여전히 어려움을 겪어 재료 및 약물 설계 분야에서의 응용을 제한하고 있다. 이 어려움은 텍스트와 그래프 간의 일관된 자기 회귀 생성이 필요하기 때문에 발생한다. 이에 대응하기 위해 우리는 Llamole을 소개한다. 이는 텍스트와 그래프 생성을 번갈아 수행할 수 있는 최초의 다중 모달 LLM으로, 분자 역설계를 위한 역합성 계획을 가능하게 한다. Llamole은 기본 LLM과 Graph Diffusion Transformer 및 Graph Neural Networks를 통합하여 다중 조건 분자 생성 및 텍스트 내 반응 추론을 수행하며, 향상된 분자 이해력을 갖춘 LLM은 서로 다른 그래프 모듈 간의 활성화를 유연하게 제어한다. 게다가, Llamole은 효율적인 역합성 계획을 위해 LLM 기반 비용 함수와 A* 검색을 통합한다. 우리는 벤치마킹 데이터셋을 생성하고 Llamole을 인과 학습과 지도된 미세 조정과 비교하기 위해 광범위한 실험을 실시한다. Llamole은 조절 가능한 분자 설계 및 역합성 계획을 위해 12가지 메트릭을 통해 14개의 적응된 LLM에 대해 Llamole이 현저히 우수한 성능을 보여준다.
최근 도입된 대화 시스템은 높은 사용성을 보여주었습니다. 그러나 아직 현실 세계 대화 시나리오를 충분히 반영하지 못하고 있습니다. 현재의 대화 시스템은 다양한 파트너를 포함한 동적하고 연속적이며 장기간의 상호작용을 복제하는 능력이 부족합니다. 이 결핍은 현실 대화의 양면 측면을 감안한 노력이 제한되어 왔기 때문에 발생합니다: 장기 대화에서의 깊게 층쌓인 상호작용과 다수 참여자가 포함된 대화 네트워크. 이러한 측면을 통합하기 위한 노력으로 Mixed-Session Conversation을 소개합니다. 이는 다양한 파트너와의 대화를 구축하기 위해 설계된 대화 시스템으로, 이 시스템을 구현하기 위해 MiSC라는 새로운 데이터셋을 제안합니다. MiSC의 대화 에피소드는 각 에피소드마다 4명의 화자(주 화자 1명 및 파트너 3명)가 참여하는 6개의 연속 세션으로 구성됩니다. 또한, 주요 화자의 관점에서 파트너와의 대화 중 기억을 수집하고 유지하는 새로운 메모리 관리 메커니즘을 갖춘 새로운 대화 모델을 제안합니다. 이 모델은 Egocentric Memory Enhanced Mixed-Session Conversation Agent(EMMA)로 명명되었습니다. EMMA는 후속 상호작용에서의 원활한 연속성을 가능하게 하는 주요 화자의 관점에서의 기억을 수집 및 유지합니다. 광범위한 인간 평가는 MiSC의 대화가 각 세션마다 대화 파트너가 변경되더라도 원활한 대화 흐름을 보여준다는 것을 검증합니다. MiSC로 훈련된 EMMA는 대화 전체를 통틀어 모순 없이 높은 기억력을 유지하는 것으로 평가되었습니다.
대규모 언어 모델 (LLM)을 사용하여 수천 단어로 이루어진 일관된 서술을 가진 긴 이야기를 생성하는 것은 어려운 과제였습니다. 이전 연구에서는 서술 일관성을 유지하면서 이야기 계획을 수립하고 그에 기반한 긴 이야기를 생성하는 다양한 프레임워크를 제안하여 이 도전에 대응해 왔습니다. 그러나 이러한 프레임워크는 주로 이야기 계획의 창의성과 해당 계획에서 생성된 이야기의 표현력을 간과하고, 이러한 특성은 독자의 흥미를 사로잡는 데 유용합니다. 본 논문에서는 창의적 이야기 생성을 위한 집단 평가자 프레임워크 (CritiCS)를 제안합니다. 이 프레임워크는 계획 정제 단계 (CrPlan)와 이야기 생성 단계 (CrText)로 구성되어, 이러한 특성을 촉진하는 집단적 수정 메커니즘을 긴 형식의 이야기 생성 과정에 통합합니다. 구체적으로, 각 단계에서 LLM 평가자 그룹과 한 명의 리더가 협력하여 계획과 이야기 초고를 단계별로 개선합니다. 광범위한 인간 평가 결과는 CritiCS가 이야기 창의성과 독자 참여를 현저히 향상시킬 수 있음을 보여주며, 동시에 서술 일관성을 유지합니다. 더불어, 이 프레임워크의 설계는 이야기 작성에서 인간 작가의 적극적 참여를 가능하게 하여 이야기 작성에서 인간-기계 상호작용을 통한 협업을 실현합니다.
TextToon은 운전 가능한 툰 스타일 아바타를 생성하는 방법을 제안합니다. 짧은 단안 동영상 시퀀스와 아바타 스타일에 대한 서면 지침이 주어지면, 우리의 모델은 임의의 신원을 가진 다른 동영상에 실시간으로 운전 가능한 고품질의 툰 스타일 아바타를 생성할 수 있습니다. 기존 관련 작업은 기하학을 복구하기 위해 텍스처 임베딩을 통해 다중 뷰 모델링에 크게 의존하며, 정적 방식으로 제시되어 제어 제한을 초래합니다. 다중 뷰 동영상 입력은 또한 이러한 모델을 실제 응용 프로그램에 배치하는 것을 어렵게 만듭니다. 이러한 문제를 해결하기 위해 우리는 실제적이고 스타일화된 얼굴 표현을 학습하기 위해 조건부 임베딩 Tri-plane을 채택합니다. 또한, 고품질 이미지를 얻기 위해 적응형 픽셀 이동 신경망을 도입하고 패치 인식 대조 학습을 활용하여 3D 가우시안 스플래팅의 스타일화 기능을 확장합니다. 소비자 응용 프로그램으로의 우리의 작업을 이끌기 위해 GPU 기계에서 48 FPS, 모바일 기계에서 15-18 FPS에서 작동할 수 있는 실시간 시스템을 개발했습니다. 광범위한 실험은 우리의 방법이 품질과 실시간 애니메이션 측면에서 기존 방법보다 우수한 텍스트 아바타를 생성하는 데 효과적임을 입증합니다. 자세한 내용은 저희 프로젝트 페이지를 참조하십시오: https://songluchuan.github.io/TextToon/.
컨텍스트 내 학습 (In-context learning, ICL)은 모델이 그 컨텍스트 내에서 몇 가지 예시를 관찰함으로써 새로운 작업을 학습하는 능력입니다. 자연어 처리(NLP)에서 흔히 볼 수 있지만, 이 능력은 최근 강화 학습(Reinforcement Learning, RL) 환경에서도 관찰되었습니다. 그러나 이전의 컨텍스트 내 강화 학습 방법은 에이전트의 컨텍스트에서 전체 에피소드를 요구했습니다. 복잡한 환경은 일반적으로 희소 보상을 동반하는 긴 에피소드로 이어지기 때문에, 이러한 방법은 짧은 에피소드를 갖는 간단한 환경으로 제한되었습니다. 이러한 도전에 대처하기 위해, 우리는 검색 보강 결정 트랜스포머(Retrieval-Augmented Decision Transformer, RA-DT)를 소개합니다. RA-DT는 외부 메모리 메커니즘을 사용하여 과거 경험을 저장하고, 현재 상황에 관련 있는 하위 경로만 검색합니다. RA-DT의 검색 구성 요소는 훈련이 필요 없으며 완전히 도메인에 중립적일 수 있습니다. 우리는 RA-DT의 성능을 그리드 월드 환경, 로봇 시뮬레이션, 그리고 절차적으로 생성된 비디오 게임에서 평가합니다. 그리드 월드에서 RA-DT는 기준선을 능가하며, 그들의 컨텍스트 길이의 일부만 사용합니다. 더 나아가, 우리는 복잡한 환경에서 현재의 컨텍스트 내 강화 학습 방법의 한계를 밝히고, 미래 방향에 대해 논의합니다. 미래 연구를 촉진하기 위해, 우리는 고려된 환경 중 네 가지에 대한 데이터셋을 공개합니다.
연구는 인기 있는 코드 저장소에서 악성 코드에 대한 복사된 코드 또는 환상적인 AI 권고를 도입하는 적대적 잠재력을 구축하고 평가합니다. OpenAI, Google 및 Anthropic의 기본 대형 언어 모델 (LLM)은 해로운 행동과 유해한 문자열 양쪽을 방어하지만, 유해한 프롬프트를 포함하는 수학 솔루션에 대한 이전 작업은 전문가 컨텍스트 간의 가드레일이 다를 수 있다는 것을 보여줍니다. 이러한 구멍은 질문의 컨텍스트가 변경될 때 전문가 모델의 혼합에서 나타날 수 있으며 유해한 댓글을 걸러내거나 권장된 공격적인 조치를 줄 수 있는 악의적인 훈련 예제가 적을 수 있습니다. 본 연구는 기본 모델이 명백하게 프롬프트된 경우에는 파괴적인 조치를 제안하는 것을 거부할 수 있지만, 컴퓨터 프로그래밍 과제를 해결하는 것과 같이 갑작스런 컨텍스트 변화가 제시될 때 방어태세를 놓칠 수 있다는 것을 보여줍니다. 우리는 GitHub, NPM, NuGet 및 jsDelivr와 같은 트로이 목마 저장소와 같은 공격 표면을 확대하는 인기 있는 콘텐츠 전달 네트워크 (CDN)에서 경험적인 예제를 보여줍니다. LLM의 지침에 따라 도움이 되기 위해, 예시 권고 사항은 결연한 도메인 스쿼터가 획득하고 설정하여 순진하게 복사된 코드에서 트리거되는 공격 모바일 인프라를 설정할 수 있는 응용 프로그래밍 인터페이스 (API) 엔드포인트를 제안합니다. 우리는 이 공격을 컨텍스트 이동에 대한 이전 작업과 비교하고 악성 코드 문헌에서 "땅에서 생활" 공격의 새로운 버전으로 공격 표면을 대조합니다. 후자의 경우, 기본 언어 모델은 도움이 되는 사용자 프롬프트를 탈취하여 코딩 지원 요청 없이 직접 제시될 때 소유자의 안전 정책을 위반하는 조치를 권장할 수 있습니다.
피아노 연주는 미세한 손 제어의 한계를 느낄 수 있는 민첩하고 정확하며 조율된 손 움직임이 필요합니다. 피아노 연주를 정확히 재현할 수 있는 정교한 손 움직임 모델은 캐릭터 애니메이션, 신체를 갖춘 AI, 생체역학, 그리고 가상 현실/증강 현실 분야에 다양하게 응용될 수 있습니다. 본 논문에서는 15명의 정상급 피아니스트가 연주한 153곡의 고전 음악에서 약 10시간의 3D 손 움직임과 오디오를 포함하는 최초의 대규모 데이터셋을 구축했습니다. 자연스러운 연주를 캡처하기 위해 최신 자세 추정 모델을 사용하여 다중 뷰 비디오에서 움직임을 재구성하는 무마커 설정을 설계했습니다. 움직임 데이터는 전문 Yamaha Disklavier 피아노의 센서에서 얻은 고해상도 MIDI 키 누름 데이터를 사용하여 역운동학을 통해 더욱 정교하게 가공되었습니다. 수집한 데이터셋을 활용하여 데이터셋 외의 음악에 대해 물리적으로 타당한 손 움직임을 합성할 수 있는 파이프라인을 개발했습니다. 우리의 방법론은 모방 학습과 강화 학습을 결합하여 손과 피아노 건반 사이 상호작용을 포함하는 물리 기반 양손 제어를 위한 정책을 얻는 데 사용되었습니다. 대규모 움직임 데이터셋의 샘플링 효율성 문제를 해결하기 위해 확산 모델을 사용하여 자연스러운 참조 움직임을 생성했습니다. 이는 고수준의 궤적 및 손가락 배치 정보를 제공합니다. 그러나 생성된 참조 움직임만으로는 피아노 연주 모델링에 충분한 정확도를 제공하지 않습니다. 따라서 우리는 RL 정책의 정밀도를 향상시키기 위해 캡처된 데이터셋에서 유사한 움직임을 검색하기 위해 음악적 유사성을 활용하여 데이터를 추가로 보강했습니다. 제안된 방법을 통해 우리의 모델은 훈련 데이터셋 외의 음악에 대해 일반화할 수 있는 자연스럽고 민첩한 움직임을 생성합니다.
우리는 MLE-bench를 소개합니다. 이는 AI 에이전트가 기계 학습 엔지니어링에서 얼마나 잘 수행되는지 측정하는 벤치마크입니다. 이를 위해 Kaggle에서 75개의 ML 엔지니어링 관련 대회를 선별하여 실제 세계의 ML 엔지니어링 기술을 테스트하는 다양한 도전적인 작업을 만들었습니다. 이 작업은 모델 훈련, 데이터셋 준비, 실험 실행 등을 테스트합니다. 우리는 Kaggle의 공개 리더보드를 사용하여 각 대회에 대한 인간 베이스라인을 수립했습니다. 우리는 오픈소스 에이전트 스캐폴드를 사용하여 여러 최첨단 언어 모델을 우리의 벤치마크에서 평가했으며, 최고의 성능을 보인 설정인 OpenAI의 o1-preview와 AIDE 스캐폴딩이 대회의 16.9%에서 적어도 Kaggle 브론즈 메달 수준을 달성했습니다. 우리의 주요 결과뿐만 아니라, AI 에이전트의 자원 확장 형태와 사전 훈련으로 인한 오염의 영향을 조사했습니다. 우리는 AI 에이전트의 ML 엔지니어링 능력을 이해하기 위한 미래 연구를 촉진하기 위해 우리의 벤치마크 코드(github.com/openai/mle-bench/)를 오픈소스로 공개합니다.
실제 소프트웨어 개발에서, 부적절하거나 누락된 예외 처리는 코드의 견고성과 신뢰성에 심각한 영향을 미칠 수 있습니다. 예외 처리 메커니즘은 개발자가 높은 기준에 따라 예외를 감지, 포착 및 관리해야 하지만, 많은 개발자들이 이러한 작업에 어려움을 겪어 취약한 코드를 만들어내곤 합니다. 이 문제는 오픈 소스 프로젝트에서 특히 두드러지며 소프트웨어 생태계 전반에 영향을 미칩니다. 이러한 도전에 대처하기 위해, 우리는 코드에서 예외 처리를 개선하기 위해 대형 언어 모델(LLMs)의 활용을 탐구합니다. 철저한 분석을 통해 우리는 세 가지 주요 문제를 식별했습니다: 취약한 코드의 민감하지 않은 감지, 예외 유형의 부정확한 포착, 그리고 왜곡된 처리 솔루션. 이러한 문제들은 실제 저장소 전반에 널리 퍼져 있어 견고한 예외 처리 관행이 종종 간과되거나 잘못 다뤄지고 있음을 시사합니다. 이에 대응하여, 우리는 예외 처리를 개선하기 위해 전문 개발자 전략에서 영감을 받은 다중 에이전트 프레임워크인 Seeker를 제안합니다. Seeker는 스캐너, 디텍터, 프레데터, 랭커, 핸들러라는 에이전트를 활용하여 LLMs가 예외를 더 효과적으로 감지, 포착 및 해결할 수 있도록 지원합니다. 우리의 연구는 예외 처리 관행을 향상시키기 위해 LLMs를 활용하는 첫 번째 체계적인 연구로, 코드 신뢰성의 미래적 개선을 위한 소중한 통찰을 제공합니다.
이미지 확산 모델에서 다중 뷰 일관성은 여전히 도전적인 과제입니다. 완벽한 기하학적 대응이 사전에 알려진 텍스트 대 텍스처 문제 내에서도 많은 방법이 뷰 간 정렬된 예측을 제공하지 못하며, 결과를 원본 메시에 통합하기 위한 비자명한 융합 방법이 필요합니다. 우리는 PBR 텍스트 대 텍스처에서 특히 협력 제어 워크플로우에 대해 이 문제를 탐구합니다. 협력 제어는 PBR 이미지 확률 분포를 직접 모델링하며, 노멀 범프 맵을 포함합니다. 우리의 지식으로는 유일하게 전체 PBR 스택을 직접 출력하는 확산 모델입니다. 이 모델을 다중 뷰 일관성을 갖도록 만드는 설계 결정에 대해 논의하고, 절단 연구 및 실용적 응용에서 우리 방법의 효과를 입증합니다.
정신 건강 장애는 세계에서 가장 심각한 질병 중 하나입니다. 이러한 질병을 가진 대다수 사람들은 적절한 치료에 접근할 수 없어서 정신 건강 진단 및 치료를 위한 모델을 훈련하는 중요성을 강조합니다. 그러나 정신 건강 분야에서는 개인 맞춤형 치료 데이터에 대한 개인 정보 보호 문제로 인해 강력한 모델을 구축하는 것이 어려워집니다. 본 논문에서는 MentalArena를 소개합니다. 이는 도메인 특화 개인화 데이터를 생성함으로써 언어 모델을 훈련하는 자가 대결 프레임워크로, 개인 맞춤형 진단 및 치료(치료자로서) 및 정보 제공(환자로서)이 가능한 더 나은 모델을 얻을 수 있습니다. 인간과 유사한 정신 건강 환자를 정확하게 모델링하기 위해 Symptom Encoder를 고안했으며, 이는 인지 및 행동 관점에서 실제 환자를 모방합니다. 환자-치료자 상호작용 중 의도 편향을 다루기 위해 진단된 증상을 인코딩된 증상과 비교하고 식별된 이탈에 따라 환자와 치료자 간의 대화를 동적으로 관리하는 Symptom Decoder를 제안합니다. 우리는 MentalArena를 바이오메디컬QA 및 정신 건강 과제를 포함한 6가지 벤치마크와 비교하여 6가지 고급 모델에 대해 평가했습니다. GPT-3.5 및 Llama-3-8b에서 세밀하게 조정된 우리의 모델은 GPT-4o를 포함한 대조군보다 현저히 우수한 성과를 보였습니다. 우리의 연구가 개인 맞춤형 치료에 대한 미래 연구에 영감을 줄 수 있기를 희망합니다. 코드는 https://github.com/Scarelette/MentalArena/tree/main에서 확인할 수 있습니다.
본 논문은 감정 추론 및 분류를 위한 작은 다중 모달 언어 모델 패밀리인 TinyEmo를 소개합니다. 우리의 접근 방식은 다음과 같은 특징을 갖고 있습니다: (1) 사전 훈련 및 세부 조정 단계에 사용되는 합성 감정 지시 데이터셋, (2) 언어 모델로부터 분류를 위임하는 Metric Projector를 특징으로 하여 더 효율적인 훈련과 추론이 가능하며, (3) 감정 추론을 위한 다중 모달 대형 언어 모델 (MM-LLM), 그리고 (4) 편견 탐지를 위한 반자동화된 프레임워크. TinyEmo는 유사한 모델보다 훨씬 적은 매개변수를 사용하면서도 감정 분류와 감정 추론을 수행할 수 있습니다. 이 효율성은 더 다양한 감정 데이터셋을 자유롭게 통합하여, 우리의 가장 작은 모델(700M 매개변수)이 일반적인 목적의 MM-LLM을 기반으로 한 7B 매개변수를 가진 더 큰 최첨단 모델을 능가하는 분류 작업에서 강력한 성능을 발휘할 수 있도록 합니다. 게다가 Metric Projector는 해석 가능성과 추가적인 훈련 없이 대형 모델에서 간접적인 편견 탐지를 가능하게 하며, AI 시스템을 이해하고 개선하는 방법을 제공합니다. 우리는 코드, 모델 및 데이터셋을 https://github.com/ggcr/TinyEmo 에서 공개합니다.
최근 대형 언어 모델(LLM)의 발전으로, 인공지능이 자연어 처리(NLP) 작업에서 텍스트 이해와 추론과 같은 분야에서 인간을 능가했다는 주장이 제기되었습니다. 본 연구는 이러한 주장을 탐구하기 위해 항목 반응 이론(IRT)에 근간을 둔 새로운 프레임워크인 CAIMIRA를 소개하여, 질문-답변(QA) 에이전트인 인간과 인공지능 시스템의 문제 해결 능력을 양적으로 평가하고 비교할 수 있도록 합니다. CAIMIRA는 수천 개의 퀴즈 질문을 통해 약 70개의 인공지능 시스템과 155명의 인간으로부터 약 300,000개의 응답을 분석함으로써, 지식 영역과 추론 기술에서 구별되는 능력 패턴을 발견합니다. 인간은 지식 기반의 도출적 추론과 개념적 추론에서 인공지능 시스템을 능가하는 반면, GPT-4 및 LLaMA와 같은 최첨단 LLM은 목표 지향적 정보 검색 및 사실 기반 추론에서 우수한 성능을 보이며, 특히 정보 갭이 명확하게 정의되고 패턴 일치 또는 데이터 검색을 통해 해결할 수 있는 경우에 더 뛰어난 성과를 보입니다. 이러한 결과는 미래의 QA 작업이 고차원 추론과 과학적 사고 뿐만 아니라 미묘한 언어 해석과 교차 맥락적 지식 적용을 요구하는 질문에 초점을 맞추어야 함을 강조하며, 현실 세계의 문제 해결에서 인간의 인지 능력을 더 잘 모방하거나 보완하는 인공지능 발전을 돕는다는 점을 강조합니다.
임베딩 모델은 의미 유사성, 정보 검색 및 클러스터링과 같은 다양한 하위 작업을 가능하게 하는 데 중요했습니다. 최근에는 작업 간에 일반화할 수 있는 범용 텍스트 임베딩 모델을 개발하는 데 관심이 급증했습니다(MTEB 등). 그러나 중요성에도 불구하고 범용 멀티모달 임베딩 모델의 학습 진전은 상대적으로 느렸습니다. 본 연구에서는 다양한 하위 작업을 처리할 수 있는 범용 임베딩을 구축하는 잠재력을 탐색하는 것을 목표로 합니다. 우리의 기여는 두 가지입니다: (1) MMEB(Massive Multimodal Embedding Benchmark), 4개의 메타 작업(분류, 시각적 질문 응답, 멀티모달 검색 및 시각적 기준)과 20개의 훈련 데이터셋 및 16개의 평가 데이터셋을 포함한 36개의 데이터셋을 다루는 것, 그리고 (2) VLM2Vec(Vision-Language Model -> Vector), MMEB에서 훈련을 통해 어떤 최첨단 시각-언어 모델이든 임베딩 모델로 변환하는 대조적 훈련 프레임워크입니다. CLIP나 BLIP와 같은 이전 모델과 달리, VLM2Vec는 작업 지침에 따라 이미지와 텍스트의 어떤 조합도 처리하여 고정 차원 벡터를 생성할 수 있습니다. 우리는 Phi-3.5-V에서 일련의 VLM2Vec 모델을 구축하고 MMEB의 평가 분할에서 그들을 평가합니다. 결과는 \model이 MMEB의 인-분포 및 아웃-오브-분포 데이터셋 모두에서 기존의 멀티모달 임베딩 모델에 대해 절대 평균 개선률이 10%에서 20%에 이르는 것을 보여줍니다.
현재 시각-언어 모델(VLMs)을 평가하는 현재의 벤치마크는 종종 그들의 지각 또는 문제 해결 능력에 초점을 맞추고 공정성, 다국어성 또는 유해성과 같은 다른 중요한 측면을 간과합니다. 또한, 이러한 벤치마크들은 평가 절차와 평가 범위에서 차이가 있어 모델을 비교하기 어렵게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 VLMs에 HELM 프레임워크를 확장하여 시각-언어 모델의 전체적인 평가(VHELM)를 제시합니다. VHELM은 시각적 지각, 지식, 추론, 편견, 공정성, 다국어성, 견고성, 유해성 및 안전성 중 하나 이상을 다루는 다양한 데이터셋을 종합합니다. 이를 통해 VLMs의 능력에 대한 종합적이고 다차원적인 시각을 제공합니다. 또한, 공정한 비교를 가능하게 하기 위해 표준 추론 매개변수, 프롬프팅 방법 및 평가 메트릭을 표준화합니다. 우리의 프레임워크는 가벼우면서도 자동화되어 있어 평가 실행이 저렴하고 빠릅니다. 초기 실행에서는 21개의 기존 데이터셋에서 22개의 VLMs를 평가하여 모델의 종합적인 스냅샷을 제공합니다. Claude 3 Haiku 또는 Gemini 1.5 Flash와 같은 효율성 중심 모델이 편견 벤치마크에서 완전한 모델인 Claude 3 Opus 또는 Gemini 1.5 Pro보다 유의미하게 성능이 떨어지는 것을 포함한 새로운 주요 결과를 발견했습니다. 투명성을 위해 웹사이트(https://crfm.stanford.edu/helm/vhelm/v2.0.1)에서 원시 모델 생성물과 완전한 결과를 공개합니다. VHELM은 지속적으로 새로운 데이터셋과 모델을 추가할 예정인 라이브 벤치마크로 의도되었습니다.
영어 중심의 대형 언어 모델(LLMs)은 종종 강력한 다국어 능력을 보여줍니다. 그러나 이러한 모델의 다국어 성능은 여전히 명확하지 않으며 많은 언어에 대해 철저히 평가되지 않았습니다. 대부분의 다국어성 벤치마크는 고전적인 자연어 처리(NLP) 작업에 초점을 맞추거나 소수의 언어만을 다루고 있습니다. 우리는 MEXA를 소개합니다. 이는 병렬 문장을 사용하여 사전 훈련된 영어 중심 LLMs의 다국어 능력을 평가하는 방법으로, 기존의 하류 작업보다 더 많은 언어에 대해 사용 가능합니다. MEXA는 영어 중심 LLMs가 중간 레이어에서 영어를 한 종류의 중심 언어로 사용한다는 사실을 활용합니다. 이는 영어와 비영어 언어 간의 정렬을 병렬 문장을 사용하여 계산하여 영어에서 다른 언어로의 언어 이해 전이를 평가합니다. 이 정렬은 다른 언어에서 모델 성능을 추정하는 데 사용될 수 있습니다. 우리는 다양한 병렬 데이터셋(FLORES-200 및 성경), 모델(Llama 패밀리, Gemma 패밀리, Mistral 및 OLMo) 및 확립된 하류 작업(Belebele, m-MMLU 및 m-ARC)을 사용하여 연구를 수행합니다. 디코더 전용 모델에서 임베딩을 계산하는 다양한 방법을 탐구합니다. 우리의 결과는 MEXA가 기본 설정에서 9개 모델과 2개 병렬 데이터셋을 통해 3개의 확립된 하류 작업과 통계적으로 유의한 평균 피어슨 상관 관계 0.90을 달성한다는 것을 보여줍니다. 이는 MEXA가 영어 중심 LLMs의 다국어 능력을 추정하는 믿을 만한 방법이며, 그들의 다국어 잠재력과 LLMs의 내부 작동에 대한 더 명확한 이해를 제공합니다. 리더보드: https://huggingface.co/spaces/cis-lmu/Mexa, 코드: https://github.com/cisnlp/Mexa.
순환 신경망(RNN)이 트랜스포머 기반 언어 모델에 비해 가지는 중요한 장점 중 하나는 시퀀스 길이에 대한 선형 계산 복잡성으로, 이는 추론 중에 긴 시퀀스를 처리할 때 훨씬 빠르게 만들어줍니다. 그러나 대부분의 공개적으로 이용 가능한 RNN(예: Mamba 및 RWKV)은 1만 토큰 미만의 시퀀스로 훈련되어 왔으며, 그들의 긴 문맥에서의 효과는 현재까지 대부분 만족스럽지 못한 상태입니다. 본 논문에서는 RNN이 긴 문맥을 처리할 수 없는 원인을 연구하고 중요한 완화 방안을 제안합니다. 우리는 최신 RNN을 긴 문맥에 적용할 때 고려해야 할 두 가지 실용적인 고려 사항을 검토합니다: (1) 훈련 길이를 초과하는 입력에 대한 추정 불가능성과 (2) 메모리 용량의 상한선. 첫 번째 고려 사항에 대해, 우리는 먼저 *상태 붕괴*(SC)를 조사합니다. 이는 훈련 중에 경험하지 않은 시퀀스 길이에서 심각한 성능 저하를 일으키는 현상입니다. 통제된 실험을 통해, 우리는 이를 훈련 길이에 대해 과도하게 매개변수화된 순환 상태로 인한 과적합으로 귀속합니다. 두 번째 고려 사항에 대해, 우리는 언어 모델링 및 패스키 검색에서 순환 상태 용량을 경험적으로 추정하기 위해 긴 문서에 대해 일련의 Mamba-2 모델을 훈련시킵니다. 그런 다음, Mamba-2의 길이 일반화 능력을 향상시키기 위해 세 가지 SC 완화 방법을 제안하여, SC 없이 100만 토큰 이상을 처리할 수 있도록 합니다. 또한, 패스키 검색에서의 순환 상태 용량이 상태 크기에 지수적으로 확장되는 것을 발견하고, 25만 6천 길이의 문맥에서 거의 완벽한 패스키 검색 정확도를 갖는 Mamba-2 3억 7천만을 경험적으로 훈련시킵니다. 이는 RNN 기반의 긴 문맥 모델링에 밝은 미래를 제시합니다.
아직 아닙니다. 우리는 공간 인지를 체계적으로 평가하는 SPACE라는 벤치마크를 제시합니다. 우리의 벤치마크는 인지과학 분야 몇십 년에 걸친 연구를 기반으로 구축되었습니다. 이는 유기체가 물리적 환경을 횡단할 때 발휘되는 대규모 매핑 능력, 물체 모양 및 배치에 대한 소규모 추론, 그리고 공간 주의와 기억과 같은 인지 인프라를 평가합니다. 많은 작업에서 우리는 텍스트와 이미지를 통해 병렬 제시를 구현하여 대형 언어 모델과 대형 다중 모달 모델을 모두 벤치마킹할 수 있습니다. 결과는 현대의 최첨단 모델이 동물의 공간 지능에 미치지 못하며, 동물의 인지 능력을 평가하는 여러 고전적 테스트에서 거의 우연 수준의 성능을 보인다는 것을 시사합니다.