Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
1197
우리는 데이터 품질에 중점을 둔 교육 레시피로 개발된 140억 개 파라미터 언어 모델인 phi-4를 제시합니다. 대부분의 언어 모델이 주로 웹 콘텐츠나 코드와 같은 유기적 데이터 원본에 기초한 사전 교육을 하는 반면, phi-4는 교육 과정 전반에 걸쳐 합성 데이터를 전략적으로 통합합니다. Phi 계열의 이전 모델들은 대부분 선생 모델의 능력(구체적으로 GPT-4)을 요약하는 데 중점을 두었지만, phi-4는 STEM 중심의 QA 능력에서 선생 모델을 크게 능가하여, 데이터 생성 및 교육 이후 기술이 단순 요약을 넘어가는 증거를 제공합니다. phi-3 아키텍처에는 최소한의 변경이 있음에도 불구하고, phi-4는 데이터, 교육 커리큘럼, 그리고 교육 이후 체계의 혁신으로 인해 크기에 비해 강력한 성능을 달성합니다. 특히 추론 중심의 벤치마크에서.
Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
993
인간의 인지와 유사하게 환경과 오랜 기간 상호 작용할 수 있는 AI 시스템을 개발하는 것은 오랫동안 연구 목표였다. 최근의 다중 모달 대형 언어 모델 (MLLMs)의 발전으로 인해 개방 세계 이해에서 상당한 진전이 이루어졌다. 그러나 연속적이고 동시에 스트리밍 인식, 기억 및 추론의 도전은 여전히 크게 탐구되지 않았다. 현재 MLLMs는 입력을 처리하고 응답을 생성하는 능력을 제한하는 순차적 시퀀스 아키텍처로 제약을 받고 있어서 인식하는 동안에는 생각할 수 없는 것과 유사하다. 또한, 역사적 데이터를 저장하기 위해 긴 문맥에 의존하는 것은 장기간 상호 작용에는 비실용적이며 비효율적이다. 따라서, 모든 기능을 수행하기 위해 단일 기본 모델에 의존하는 대신, 이 프로젝트는 전문가 일반화된 AI 개념에서 영감을 받아 스트리밍 인식, 추론 및 기억 메커니즘을 분리하여 제안된 InternLM-XComposer2.5-OmniLive (IXC2.5-OL) 프레임워크를 소개한다. 이는 스트리밍 비디오 및 오디오 입력과 실시간 상호 작용을 가능하게 한다. 제안된 프레임워크는 세 가지 주요 모듈로 구성되어 있다: (1) 스트리밍 인식 모듈: 핵심 세부 정보를 기억에 저장하고 사용자 쿼리에 응답하기 위해 추론을 유도하는 다중 모달 정보를 실시간으로 처리한다. (2) 다중 모달 장기 기억 모듈: 단기 및 장기 기억을 통합하여 효율적인 검색 및 향상된 정확성을 위해 단기 기억을 장기 기억으로 압축한다. (3) 추론 모듈: 쿼리에 응답하고 추론 작업을 실행하여 인식 및 기억 모듈과 협력한다. 이 프로젝트는 인간과 유사한 인지를 시뮬레이션하여 다중 모달 대형 언어 모델이 시간이 지남에 따라 지속적이고 적응적인 서비스를 제공할 수 있게 한다.
최근 몇 년 동안, 다중 모달 대형 언어 모델 (MLLMs)은 빠른 발전을 이루었지만, 낮은 수준의 시각 지각(LLVP)에서 여전히 어려움을 겪고 있습니다. 특히 이미지의 기하학적 세부 정보를 정확하게 설명하는 능력에 있어서. 이 능력은 로봇공학, 의료 이미지 분석 및 제조업 등 다양한 분야의 응용 프로그램에 중요합니다. 본 논문에서는 먼저 MLLM의 이미지로부터 2D 기하학적 정보를 정확하게 전사하는 능력을 평가하기 위해 설계된 벤치마크인 Geoperception을 소개합니다. 이 벤치마크를 사용하여, 선도적인 MLLM의 한계를 보여주고, 그런 다음 기하학적 작업에서 성능을 향상시키기 위한 전략을 탐색하기 위한 포괄적인 경험적 연구를 수행합니다. 우리의 연구 결과는 특정 모델 아키텍처, 교육 기술 및 데이터 전략, 특히 고품질의 합성 데이터 및 데이터 커리큘럼을 활용하는 다단계 교육의 이점을 강조합니다. 특히, 데이터 커리큘럼을 활용하면 모델이 제로부터 배우기 어려운 도전적인 기하학 이해 작업을 학습할 수 있습니다. 이러한 통찰력을 활용하여, 강력한 낮은 수준의 기하학적 지각을 위해 명시적으로 최적화된 모델 패밀리인 Euclid을 개발합니다. 순수하게 합성 다중 모달 데이터로 훈련된 Euclid는 새로운 기하학 모양에 대해 강력한 일반화 능력을 보여줍니다. 예를 들어, Euclid는 특정 Geoperception 벤치마크 작업에서 최고의 폐쇄형 모델인 Gemini-1.5-Pro보다 최대 58.56%의 성능 향상을 보이며, 모든 작업을 통틀어 평균 10.65%의 성능 향상을 보입니다.
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)이 발전함에 따라, 단일 도메인 능력을 넘어서 확장하는 것은 더 다양하고 효율적인 AI 수요를 충족시키기 위해 중요합니다. 그러나 이전 옴니 모델들은 음성을 충분히 탐구하지 않아 다중 모달과의 통합을 무시했습니다. 우리는 Lyra를 소개합니다. Lyra는 고급 장기 음성 이해, 소리 이해, 교차 모달 효율성, 그리고 원활한 음성 상호 작용을 포함한 다중 모달 능력을 향상시키는 효율적인 MLLM입니다. 효율성과 음성 중심 능력을 달성하기 위해 Lyra는 세 가지 전략을 활용합니다: (1) 기존 오픈 소스 대형 모델과 제안된 다중 모달 LoRA를 활용하여 훈련 비용과 데이터 요구 사항을 줄입니다; (2) 잠재 다중 모달 정규화기와 추출기를 사용하여 음성과 다른 모달 사이의 관계를 강화하여 모델 성능을 향상시킵니다; (3) 150만 개의 다중 모달(언어, 비전, 오디오) 데이터 샘플과 1만 2천 개의 장기 음성 샘플을 포함하는 고품질의 방대한 데이터셋을 구축하여 Lyra가 복잡한 장기 음성 입력을 처리하고 더 견고한 옴니 인식을 달성할 수 있게 합니다. 다른 옴니 방법들과 비교했을 때, Lyra는 다양한 비전-언어, 비전-음성, 그리고 음성-언어 벤치마크에서 최첨단 성능을 달성하면서도 더 적은 계산 자원과 훈련 데이터를 사용합니다.
다중 모달 생성 모델은 이산 데이터(예: 텍스트와 코드)와 연속 데이터(예: 이미지, 오디오, 비디오)를 모두 처리하기 위한 통합된 접근 방식이 필요합니다. 본 연구에서는 인과 트랜스포머를 사용하여 연속 및 이산 데이터를 매끄럽게 통합하는 잠재 언어 모델링(Latent Language Modeling, LatentLM)을 제안합니다. 구체적으로, 우리는 변이형 오토인코더(Variational Autoencoder, VAE)를 사용하여 연속 데이터를 잠재 벡터로 표현하고, 이러한 벡터의 자기회귀 생성을 위해 다음 토큰 확산을 도입합니다. 또한, 자기회귀 모델링에 중요한 붕괴 분산 문제를 해결하기 위해 시그마-VAE를 개발합니다. 다양한 실험을 통해 LatentLM의 효과를 다양한 모달리티에서 입증합니다. 이미지 생성에서 LatentLM은 성능과 확장성 모두에서 Diffusion 트랜스포머를 능가합니다. 다중 모달 대형 언어 모델에 통합되면 LatentLM은 다중 모달 생성과 이해를 통합하는 일반 목적의 인터페이스를 제공합니다. 실험 결과는 LatentLM이 Transfusion 및 벡터 양자화 모델과 비교하여 훈련 토큰 확장 설정에서 우수한 성능을 달성함을 보여줍니다. 텍스트 음성 합성에서 LatentLM은 화자 유사성과 견고성에서 최첨단 VALL-E 2 모델을 능가하면서 10배 더 적은 디코딩 단계가 필요합니다. 이러한 결과는 LatentLM이 대규모 다중 모달 모델을 발전시키기 위한 매우 효과적이고 확장 가능한 접근 방식으로 확립됨을 보여줍니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 웹 응용 프로그램에서부터 데스크톱 소프트웨어까지 다양한 디지털 환경에서 복잡한 작업을 자동화하는 데 큰 잠재력을 가지고 있습니다. 그러나 이러한 에이전트의 개발은 효과적인 훈련에 필요한 고품질의 다단계 궤적 데이터 부족으로 어렵습니다. 기존 접근 방식은 비용이 많이 들고 노동 집약적인 인간 주석에 의존하여 규모에 맞지 않습니다. 이러한 도전 과제를 해결하기 위해, 우리는 AgentTrek을 제안합니다. 이는 웹 튜토리얼을 활용하여 고품질 GUI 에이전트 궤적을 생성하는 확장 가능한 데이터 합성 파이프라인입니다. 우리의 방법은 자동으로 인터넷에서 튜토리얼과 유사한 텍스트를 수집하고, 이를 단계별 지침을 가진 작업 목표로 변환하며, 시각 언어 모델 에이전트를 활용하여 실제 디지털 환경에서 실행을 모방합니다. VLM 기반 평가자는 생성된 궤적의 정확성을 보장합니다. 우리는 이러한 합성된 궤적으로 GUI 에이전트를 훈련시키면 현재 모델보다 그들의 기반 및 계획 성능이 크게 향상된다는 것을 증명합니다. 게다가, 우리의 방법은 전통적인 인간 주석 방법과 비교하여 더 비용 효율적입니다. 이 연구는 대규모 GUI 에이전트 훈련을 위한 웹 튜토리얼을 활용한 안내형 재생이 더 능력 있는 자율적 디지털 에이전트를 위한 길을 열어줄 수 있는 가능성을 강조합니다.
기존의 텍스트 대 이미지(T2I) 확산 모델은 대규모 모델 크기, 느린 런타임 및 모바일 장치에서의 저품질 생성 등 여러 가지 제한 사항에 직면하고 있습니다. 본 논문은 이러한 모든 도전 과제를 해결하기 위해 매우 작고 빠른 T2I 모델을 개발하여 모바일 플랫폼에서 고해상도 및 고품질 이미지를 생성하는 것을 목표로 합니다. 이를 달성하기 위해 여러 기술을 제안합니다. 먼저, 모델 파라미터 및 지연 시간을 줄이면서 높은 품질의 생성을 보장하기 위해 네트워크 아키텍처의 설계 선택 사항을 체계적으로 조사합니다. 둘째, 생성 품질을 더 향상시키기 위해 큰 모델로부터 교차 아키텍처 지식 증류를 활용하며, 우리 모델의 훈련을 처음부터 안내하는 다중 수준 접근 방식을 사용합니다. 셋째, 적대적 안내를 지식 증류와 통합하여 몇 단계 생성을 가능하게 합니다. 우리의 모델 SnapGen은 모바일 장치에서 1.4초 정도에 1024x1024 px 이미지를 생성하는 것을 처음으로 증명합니다. ImageNet-1K에서 우리의 모델은 단 372M 개의 파라미터로 256x256 px 생성에 대해 FID가 2.06을 달성합니다. T2I 벤치마크인 GenEval 및 DPG-Bench에서, 우리의 모델은 379M 개의 파라미터로, SDXL보다 7배, IF-XL보다 14배 작은 크기로 수십억 개의 파라미터를 가진 대규모 모델을 능가합니다.
개인화된 확산 모델의 중요한 성취들이 관찰되었습니다. 기존의 조정 필요 없는 방법은 대부분 다중 참조 이미지를 이미지 임베딩을 평균화하여 주입 조건으로 인코딩하지만, 이러한 이미지에 독립적인 작업은 이미지 간 상호 작용을 수행하여 여러 참조 내에서 일관된 시각적 요소를 포착할 수 없습니다. 조정 기반의 저랭크 적응 (LoRA)은 다중 이미지 내에서 일관된 요소를 효과적으로 추출할 수 있지만, 각각의 구별된 이미지 그룹에 대해 특정한 세부 조정이 필요합니다. 본 논문에서는 다중 참조 이미지와 텍스트 프롬프트에 의존하는 확산 모델의 적응 방법인 EasyRef를 소개합니다. 다중 이미지 내에서 일관된 시각적 요소를 효과적으로 활용하기 위해 우리는 다중 모달 대형 언어 모델 (MLLM)의 다중 이미지 이해 및 지시 따르기 능력을 활용하여 일관된 시각적 요소를 캡처하도록 유도합니다. 또한 MLLM의 표현을 어댑터를 통해 확산 과정에 주입함으로써 보이지 않는 도메인에 대해 쉽게 일반화할 수 있으며, 보이지 않는 데이터 내에서 일관된 시각적 요소를 채굴할 수 있습니다. 계산 비용을 줄이고 세밀한 세부 사항 보존을 향상시키기 위해 효율적인 참조 집계 전략과 점진적 훈련 체계를 소개합니다. 마지막으로, 새로운 다중 참조 이미지 생성 벤치마크인 MRBench를 소개합니다. 실험 결과는 EasyRef가 IP-Adapter와 LoRA와 같은 조정 필요 없는 방법과 조정 기반의 방법을 능가하여 다양한 도메인에서 우수한 미적 품질과 강력한 제로샷 일반화를 달성한다는 것을 입증합니다.
생성적 AI의 신속한 발전으로 인해, 다양한 모델과 설정 사이에서 체계적으로 비교하고 선택해야 하는 긴급한 필요성이 있습니다. 이러한 평가의 규모와 다양성은 이러한 도전에 대한 탐구적인 해결책으로 LLM 기반 판사의 사용을 필수적으로 만듭니다. 이 접근 방식은 먼저 LLM 판사의 품질을 검증해야 한다는 점이 중요합니다. 이전 연구는 LLM 판사의 인스턴스 기반 평가에 초점을 맞추어 왔으며, 판사가 일련의 응답 또는 응답 쌍을 평가하면서 그들의 소스 시스템에 중립적인 것으로 평가되었습니다. 우리는 이러한 설정이 판사가 특정 시스템에 대한 긍정적 또는 부정적 편향과 같은 시스템 수준 순위에 영향을 미치는 중요한 요소를 간과한다고 주장합니다. 이 간극을 해결하기 위해, 우리는 시스템 순위 판사로서 LLM 판사의 대규모 연구를 실시합니다. 시스템 점수는 여러 시스템 출력에 걸쳐 판단 점수를 집계함으로써 생성되며, 결과적인 시스템 순위를 인간 기반 순위와 비교하여 판사의 품질을 평가합니다. 전반적인 판사 평가 이상으로, 우리의 분석은 판사의 행동을 포함한 세밀한 성격화를 제공합니다. 그들의 결정력과 편향을 포함합니다.
Zexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu
184
단일 이미지로부터 객체의 기하학과 재료를 복원하는 것은 미지수가 많아 어려운 작업입니다. 본 논문에서는 2D 확산 사전에서 보조 다중 조명 조건을 활용하여 내재 추정을 향상시키는 새로운 프레임워크인 Neural LightRig을 제안합니다. 구체적으로 1) 우리는 먼저 대규모 확산 모델로부터 조명 사전을 활용하여 특별히 설계된 합성 조명 데이터셋에서 우리의 다중 조명 확산 모델을 구축합니다. 이 확산 모델은 각각이 서로 다른 방향에서 점 조명원에 의해 조명이 되는 여러 일관된 이미지를 생성합니다. 2) 이러한 다양한 조명 이미지를 사용하여 추정 불확실성을 줄이고, U-Net 백본을 사용한 대규모 G-buffer 모델을 훈련시켜 표면 법선과 재료를 정확하게 예측합니다. 광범위한 실험을 통해 우리의 접근 방식이 최신 기술 방법을 크게 능가함을 검증하였으며, 생생한 조명 효과와 함께 정확한 표면 법선 및 PBR 재료 추정이 가능합니다. 코드 및 데이터셋은 https://projects.zxhezexin.com/neural-lightrig의 프로젝트 페이지에서 제공됩니다.
Namgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park
182
신경망을 사용한 편미분 방정식(PDEs)의 근사화는 물리 정보가 포함된 신경망(PINNs)을 통해 상당한 발전을 이루었습니다. PINNs는 직관적인 최적화 구조와 다양한 PDE 구현의 유연성에도 불구하고, Multi-Layer Perceptrons(MLPs)의 스펙트럼 편향으로 인해 제한된 정확도를 보이는 경우가 많습니다. MLPs는 고주파 및 비선형 요소를 효과적으로 학습하기 어렵기 때문입니다. 최근에는 신경망과 결합된 매개변수 메시 표현이 신경망의 귀납적 편향을 제거하는 유망한 접근 방식으로 조사되었습니다. 그러나 이러한 방법들은 종종 고해상도 그리드와 많은 콜로케이션 포인트가 필요하여 과적합 문제를 피하면서 높은 정확도를 달성하는 데 어려움을 겪습니다. 또한 메시 매개변수의 고정된 위치는 그들의 유연성을 제한하여 복잡한 PDEs를 정확하게 근사화하는 데 어려움을 겪게 합니다. 이러한 한계를 극복하기 위해 우리는 가우시안 함수를 사용한 특징 임베딩과 가벼운 신경망을 결합한 물리 정보가 포함된 가우시안(PIGs)을 제안합니다. 우리의 방법은 각 가우시안의 평균과 분산에 대한 학습 가능한 매개변수를 사용하여 훈련 중에 그들의 위치와 모양을 동적으로 조정할 수 있게 합니다. 이러한 적응성은 모델이 고정된 매개변수 위치를 가진 모델과 달리 PDE 솔루션을 최적으로 근사화할 수 있도록 합니다. 더 나아가, 제안된 방법은 PINNs에서 사용된 최적화 구조를 유지하여 그들의 우수한 특성을 활용할 수 있게 합니다. 실험 결과는 다양한 PDEs에서 우리 모델의 경쟁력 있는 성능을 보여주며, 복잡한 PDEs를 해결하는 강력한 도구로서의 잠재력을 입증합니다. 저희 프로젝트 페이지는 https://namgyukang.github.io/Physics-Informed-Gaussians/에서 확인하실 수 있습니다.
현대 센서는 점점 더 풍부한 고해상도 데이터 스트림을 생성합니다. 자원 제약으로 인해 기계 학습 시스템은 이 정보의 대다수를 해상도 축소를 통해 버립니다. 압축 도메인 학습은 모델이 간결한 잠재 표현상에서 작동할 수 있게 하여 동일한 예산으로 더 높은 유효 해상도를 제공합니다. 그러나 기존의 압축 시스템은 압축 학습에 적합하지 않습니다. 선형 변환 부호화와 end-to-end 학습된 압축 시스템은 비트율을 줄이지만 차원을 균일하게 줄이지 않으므로 효율성을 의미있게 증가시키지 않습니다. 생성적 오토인코더는 차원을 줄이지만 적대적이거나 지각적 목표로 인해 상당한 정보 손실이 발생합니다. 이러한 제한을 해결하기 위해 우리는 WaLLoC (Wavelet Learned Lossy Compression)을 소개합니다. 이는 선형 변환 부호화를 비선형 차원 감소 오토인코더와 결합한 신경 코덱 아키텍처입니다. WaLLoC은 반전 가능한 웨이블릿 패킷 변환 사이에 얕은 비대칭 오토인코더와 엔트로피 병목을 삽입합니다. 여러 핵심 메트릭을 통해 WaLLoC은 최신 잠재 확산 모델에서 사용된 오토인코더보다 우수한 성능을 보입니다. WaLLoC은 고주파 세부 정보를 표현하기 위해 지각적이거나 적대적 손실이 필요하지 않으므로 RGB 이미지와 스테레오 오디오를 넘어 다양한 형태와 호환됩니다. WaLLoC의 인코더는 대부분 선형 연산으로 구성되어 있어 매우 효율적이며 모바일 컴퓨팅, 원격 감지 및 압축된 데이터로부터 직접 학습하는 데 적합합니다. 우리는 WaLLoC의 압축 도메인 학습 능력을 이미지 분류, 색칠, 문서 이해 및 음악 소스 분리를 포함한 여러 작업을 통해 시연합니다. 우리의 코드, 실험 및 사전 훈련된 오디오 및 이미지 코덱은 https://ut-sysml.org/walloc에서 제공됩니다.
본 연구는 확산 역전에 기반을 둔 새로운 이미지 초해상도(SR) 기술을 제시하며, 대규모 사전 훈련된 확산 모델에 포함된 풍부한 이미지 사전을 활용하여 SR 성능을 향상시키는 것을 목표로 합니다. 우리는 중간 상태인 확산 모델의 초기 샘플링 지점으로 작용하는 부분적 잡음 예측 전략을 설계했습니다. 우리 접근법의 핵심은 전방 확산 과정을 위한 최적의 잡음 맵을 추정하는 깊은 잡음 예측기입니다. 훈련을 마치면 이 잡음 예측기를 사용하여 확산 경로를 따라 일부분만 샘플링 프로세스를 초기화하여 원하는 고해상도 결과물을 생성할 수 있습니다. 기존 방법과 비교했을 때, 우리의 방법은 임의의 샘플링 단계(1에서 5까지)를 지원하는 유연하고 효율적인 샘플링 메커니즘을 제공합니다. 단일 샘플링 단계에서도 최근의 최첨단 기술에 우수하거나 비교 가능한 성능을 보여줍니다. 코드와 모델은 https://github.com/zsyOAOA/InvSR에서 공개적으로 제공됩니다.
Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
133
시각-언어 모델(VLMs)의 채택과 능력이 증가함에 따라 실제 사용자-VLM 상호작용을 포착하는 벤치마크의 필요성이 대두되고 있습니다. 이에 대응하여 73,000명의 고유 사용자, 45개의 VLMs 및 138개 언어를 포함하는 23만개의 실제 대화로 구성된 VisionArena 데이터셋을 작성했습니다. Chatbot Arena에서 수집된 이 데이터는 사용자가 VLMs와 상호작용하고 선호도 투표를 제출하는 오픈 소스 플랫폼이며, VisionArena는 VisionArena-Chat(사용자와 VLM 간 20만 건의 단일 및 다중 턴 대화), VisionArena-Battle(사용자 선호도 투표와 함께 두 익명 VLMs를 비교하는 3만 건의 대화), VisionArena-Bench(실시간 Chatbot Arena 모델 순위를 효율적으로 근사하는 500가지 다양한 사용자 프롬프트의 자동 벤치마크) 세 가지 하위 데이터셋으로 구성됩니다. 또한 사용자가 묻는 질문 유형, 응답 스타일이 선호도에 미치는 영향, 그리고 모델이 종종 실패하는 영역을 강조합니다. 우리는 캡션 및 유머와 같은 개방형 작업이 스타일에 매우 의존하며, 현재 VLMs는 공간 추론 및 계획 작업에서 어려움을 겪는 것으로 나타났습니다. 마지막으로, VisionArena-Chat에서 동일한 기본 모델을 세밀 조정하는 것이 Llava-Instruct-158K를 능가하며, MMMU에서 17포인트, WildVision 벤치마크에서 46포인트의 성과 향상을 보여줍니다. 데이터셋은 https://huggingface.co/lmarena-ai에서 확인할 수 있습니다.
Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
112
현대 MLLM을 개발하는 표준 방법은 시각 인코더(s)에서 특징을 LLM에 공급하고 자연어 감독으로 훈련하는 것입니다. 본 연구에서는 중간 LLM 표현을 시각적 관점(목적)을 통해 최적화할 수 있는 과제를 제시합니다. 즉, 오로지 자연어 감독은 MLLM의 시각 이해 능력에 있어서 최적이 아닙니다. 이를 위해 우리는 OLA-VLM을 제안합니다. 이는 타겟 시각적 표현 집합으로부터 LLM의 숨겨진 표현에 지식을 증류하는 첫 번째 방법입니다. 우선, MLLM의 사전 훈련 단계에서 목표를 시각적 임베딩 예측과 다음 텍스트 토큰 예측의 결합 최적화로 공식화합니다. 둘째, 우리는 오로지 자연어 감독으로 훈련된 MLLM을 조사하고 이러한 모델 내의 시각적 표현의 품질과 그들의 하류 성능 사이에 긍정적 상관 관계를 확인합니다. 또한, OLA-VLM을 조사한 결과, 임베딩 최적화로 표현 품질이 향상되었음을 관찰합니다. 셋째, 우리의 OLA-VLM이 단일 및 다중 인코더 기준선을 능가하며, 해당 기능을 명시적으로 LLM에 해당 특징을 공급하는 것보다 우리 방법의 우월성을 입증합니다. 특히, OLA-VLM은 다양한 벤치마크에서 최대 2.5%의 평균 마진으로 성능을 향상시키며, CV-Bench의 Depth 작업에서 8.7%의 주목할 만한 개선을 보입니다. 우리의 코드는 https://github.com/SHI-Labs/OLA-VLM 에서 오픈 소스로 제공됩니다.
Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
102
본 논문은 RuleArena을 소개하는데, 이는 복잡하고 현실적인 규칙을 추론하는 능력을 평가하기 위해 설계된 혁신적이고 도전적인 벤치마크입니다. 항공사 수하물 수수료, NBA 거래, 그리고 세법규정이라는 세 가지 실용적인 영역을 다루며, RuleArena은 LLMs가 긴 문맥을 이해하고 논리적 추론과 정확한 수학적 계산을 요구하는 복잡한 자연어 지시를 처리하는 능력을 평가합니다. RuleArena을 전통적인 규칙 기반 추론 벤치마크와 구별하는 두 가지 주요 특징은 다음과 같습니다: (1) 표준 일차 논리 표현을 넘어선다는 점, 그리고 (2) 실제 실무 시나리오에 근거하여 구축되어 LLMs의 실제 응용 가능성과 신뢰성에 대한 통찰을 제공합니다. 우리의 연구 결과는 LLMs의 여러 주목할만한 한계를 드러냅니다: (1) 적절한 규칙을 식별하고 적용하는 데 어려움을 겪으며 종종 유사하지만 구별되는 규정에 혼란을 겪는다는 점, (2) 관련 규칙을 올바르게 식별하더라도 정확한 수학적 계산을 일관되게 수행하지 못하며, (3) 일반적으로 벤치마크에서 성능이 저조합니다. 이러한 결과는 LLMs의 실제 응용 프로그램에서의 규칙 기반 추론 능력을 발전시키는 데 중요한 도전을 강조합니다.
Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre
92
저작권 자료를 사용하여 생성 언어 모델을 훈련시키는 것은 중요한 법적 및 윤리적 문제를 제기합니다. 본 논문은 노르웨이어 대규모 언어 모델 (LLM)의 성능에 저작권 자료가 미치는 영향을 경험적으로 평가하는 프레임워크와 결과를 제시합니다. 우리는 모델을 다양한 노르웨이 벤치마크에서 평가할 때 책과 신문이 양성으로 기여하는 반면, 소설 작품은 성능 저하로 이어질 수 있다는 것을 발견했습니다. 우리의 실험은 AI 개발에 기여하는 작품의 저자들을 위한 보상 체계의 구축에 도움을 줄 수 있습니다.
Andrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli
92
단어 의미 해결 (Word Sense Disambiguation, WSD)은 특정 맥락에서 단어를 가능한 후보군 중 가장 적합한 의미와 연관시키는 작업입니다. 이 작업은 최근에 관심을 받아 시스템이 평가된 주석 작업자 간 합의를 초과하는 성과를 얻었지만, 본 글 작성 시점에서 아직 하류 응용 프로그램을 찾는 데 어려움을 겪고 있습니다. 우리는 이러한 이유 중 하나가 WSD를 일반 텍스트에 적용하는 어려움에 있다고 주장합니다. 실제로 표준 공식에서 모델은 해결할 모든 범위가 이미 식별되었고 각 범위의 모든 가능한 후보 의미가 제공되었다는 가정 하에 작동하는데, 이는 간단하지 않은 요구 사항입니다. 본 연구에서는 입력 텍스트와 참조 의미 인벤토리가 주어진 경우, 어떤 범위를 해결해야 하는지 식별하고 그런 다음 가장 적합한 의미에 연결해야 하는 새로운 작업인 단어 의미 링킹 (Word Sense Linking, WSL)을 제안합니다. 우리는 이 작업을 위해 트랜스포머 기반 아키텍처를 제시하고, WSD의 가정을 반복적으로 완화하여 WSL로 확장된 최첨단 WSD 시스템의 성능과 이를 철저히 평가합니다. 우리의 연구가 어휘 의미론을 하류 응용 프로그램에 쉽게 통합되도록 장려할 것으로 기대합니다.
정규화 흐름(Normalizing Flows, NFs)은 연속적인 입력에 대한 우도 기반 모델입니다. 이들은 밀도 추정과 생성 모델링 작업에서 유망한 결과를 보여주었지만, 최근 몇 년간 상대적으로 적은 관심을 받았습니다. 본 연구에서는 NFs가 이전에 생각했던 것보다 강력함을 입증합니다. 우리는 TarFlow를 제시합니다: 고성능 NF 모델을 가능하게 하는 간단하고 확장 가능한 아키텍처입니다. TarFlow는 이미지 패치 위에 자기 회귀적인 Transformer 블록의 스택으로 구성되며, 계층 간 자기 회귀 방향을 교대합니다. TarFlow는 end-to-end로 쉽게 훈련할 수 있으며, 픽셀을 직접 모델링하고 생성할 수 있습니다. 또한 훈련 중 가우시안 노이즈 증강, 훈련 후 잡음 제거 절차, 그리고 클래스 조건부 및 무조건적 설정에 대한 효과적인 안내 방법 세 가지를 제안합니다. 이러한 기법을 결합하여 TarFlow는 이미지에 대한 우도 추정에서 새로운 최고 성능을 달성하며, 이전 최고 방법을 크게 능가하는 결과를 보여줍니다. 또한 확산 모델과 유사한 품질과 다양성을 갖는 샘플을 생성하는데 성공하였습니다. 이는 독립적인 NF 모델로 처음으로 이루어진 것입니다. 우리의 코드는 https://github.com/apple/ml-tarflow에서 제공됩니다.
Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
82
텍스트에서 이미지로의 맞춤화에 대한 최근의 발전은 고사양, 맥락 풍부한 개인화된 이미지 생성을 가능케 하여 특정 개념이 다양한 시나리오에서 나타날 수 있게 했습니다. 그러나 현재의 방법은 종종 여러 개인화된 모델을 결합하는 데 어려움을 겪어 속성이 얽히거나 개념의 독립성을 보존하기 위해 별도의 훈련이 필요합니다. 본 논문에서는 LoRACLR을 제안합니다. 이는 각각이 다른 개념을 위해 세밀하게 조정된 여러 LoRA 모델을 추가적인 개별 세밀 조정 없이 하나의 통합된 모델로 병합하는 다중 개념 이미지 생성을 위한 혁신적인 접근 방식입니다. LoRACLR은 이러한 모델들의 가중치 공간을 정렬하고 병합하기 위해 대조적 목적을 사용하여 호환성을 보장하면서 간섭을 최소화합니다. 각 개념에 대해 구별되고 동질적인 표현을 강제함으로써 LoRACLR은 고품질, 다중 개념 이미지 합성을 위한 효율적이고 확장 가능한 모델 구성을 가능케 합니다. 우리의 결과는 LoRACLR이 여러 개념을 정확하게 병합하는 능력을 강조하며 개인화된 이미지 생성의 능력을 높이는 데 기여함을 보여줍니다.
기존의 희소 뷰 재구성 모델은 정확한 알려진 카메라 포즈에 크게 의존합니다. 그러나 희소한 뷰 이미지에서 카메라 외부 및 내부 파라미터를 유도하는 것은 상당한 어려움을 겪습니다. 본 연구에서는 미국에서 FreeSplatter를 제시합니다. 이는 고도로 확장 가능한 피드포워드 재구성 프레임워크로, 교정되지 않은 희소한 뷰 이미지에서 고품질의 3D 가우시안을 생성하고 그들의 카메라 파라미터를 몇 초만에 복구할 수 있습니다. FreeSplatter는 순차적인 셀프 어텐션 블록으로 이루어진 간소화된 트랜스포머 아키텍처에 기반하며, 이는 다중 뷰 이미지 토큰 간의 정보 교환을 용이하게 하고 이를 픽셀별 3D 가우시안 기본 요소로 디코딩합니다. 예측된 가우시안 기본 요소는 통합된 기준 프레임에 위치하며, 고품질의 3D 모델링 및 즉각적인 카메라 파라미터 추정을 가능하게 합니다. 물체 중심 및 장면 수준 재구성을 모두 고려하기 위해 FreeSplatter의 두 가지 모델 변형을 광범위한 데이터셋에서 훈련시킵니다. 두 시나리오 모두에서 FreeSplatter는 재구성 품질과 포즈 추정 정확도 측면에서 최신 기준선을 능가합니다. 더불어, 우리는 FreeSplatter가 텍스트/이미지-3D 콘텐츠 생성과 같은 하위 응용 프로그램의 생산성 향상 가능성을 보여줍니다.
가능한 인간 이미지 애니메이션을 제어하려면 참조 이미지에서 동영상을 생성하는 것이 목표입니다. 희소 가이드(예: 스켈레톤 포즈)로부터 제공되는 제한적인 제어 신호로 인해 최근 연구는 움직임 정렬을 보장하기 위해 추가적인 밀집 조건(예: 깊이 맵)을 도입하려고 시도해 왔습니다. 그러나 참조 캐릭터의 체형이 운전 동영상과 크게 다를 때 밀집 가이드의 엄격함으로 인해 생성된 동영상의 품질이 저하됩니다. 본 논문에서는 추가적인 밀집 입력 없이 더 일반화되고 효과적인 제어 신호를 찾아내기 위해 DisPose를 제안합니다. 이는 인간 이미지 애니메이션에서 희소한 스켈레톤 포즈를 움직임 필드 가이드와 키포인트 대응으로 분리합니다. 구체적으로 우리는 희소한 움직임 필드와 참조 이미지로부터 밀집한 움직임 필드를 생성하여 지역 수준의 밀집한 가이드를 제공하면서도 희소한 포즈 제어의 일반화를 유지합니다. 또한 참조 이미지에서 포즈 키포인트에 해당하는 확산 특징을 추출하고, 이러한 포인트 특징을 대상 포즈로 전송하여 명확한 신원 정보를 제공합니다. 기존 모델에 원활하게 통합하기 위해 우리는 기존 모델 매개변수를 고정시키면서 생성된 동영상의 품질과 일관성을 향상시키는 플러그 앤 플레이 하이브리드 ControlNet을 제안합니다. 방대한 질적 및 양적 실험을 통해 DisPose의 우수성이 현재 방법들과 비교하여 입증되었습니다. 코드: https://github.com/lihxxx/DisPose.
Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
62
전통적인 고정 테스트 세트는 기초 모델의 개방형 능력을 평가하는 데 한계가 있습니다. 이를 해결하기 위해 우리는 개별 평가 데이터 세트를 통합하여 점진적으로 확장되는 통합된 샘플 풀로 ONEBench(OpeN-Ended Benchmarking)를 제안합니다. ONEBench를 사용하면 사용자가 이 풀에서 특정 관심 능력에 해당하는 사용자 정의 개방형 평가 벤치마크를 생성할 수 있습니다. 테스트 세트를 효과적으로 집계함으로써 ONEBench는 원래의 테스트 세트에서 다루는 것 이상의 다양한 능력을 평가하고, 오버피팅과 데이터 집합 편향을 완화합니다. 가장 중요한 것은 모델 평가를 샘플 수준 테스트의 선택과 집계의 집단적 과정으로 구성한다는 점입니다.
과제별 벤치마크에서 ONEBench로의 전환은 두 가지 도전 과제를 도입합니다: (1)이질성과 (2)불완전성. 이질성은 다양한 메트릭을 통합하는 것을 의미하며, 불완전성은 서로 다른 데이터 하위 집합에서 평가된 모델을 비교하는 것을 설명합니다. 이러한 도전에 대응하기 위해 우리는 희소 측정값을 신뢰할 수 있는 모델 점수로 집계하는 알고리즘을 탐색합니다. 우리의 집계 알고리즘은 식별 가능성(점진적으로 실제 점수를 복원)과 빠른 수렴을 보장하여 적은 데이터로 정확한 모델 순위를 지원합니다. 동질적 데이터 세트에서는 우리의 집계 알고리즘이 평균 점수로 생성된 순위와 매우 상관 관계가 있는 것을 보여줍니다. 또한 약 95%의 측정값이 누락되어도 강건성을 시연하여 평가 비용을 최대 20배까지 줄이면서 모델 순위에 거의 변화가 없음을 입증합니다. 우리는 언어 모델을 위한 ONEBench-LLM과 시각-언어 모델을 위한 ONEBench-LMM을 소개하여 이러한 영역을 통합적으로 평가합니다. 전반적으로, 우리는 빠르게 발전하는 기초 모델과 함께 벤치마크를 지속적으로 확장할 수 있는 개방형 평가 기술을 제시합니다.
학문 분야인 학습 지시 안내 비주얼 네비게이션은 일반적으로 언어 지시의 세분화에 따라 고수준 범주별 검색과 저수준 언어 안내 네비게이션으로 일반적으로 분류될 수 있으며, 전자는 탐사 과정을 강조하는 반면 후자는 자세한 텍스트 명령을 따르는 데 집중합니다. 이러한 작업의 중점이 다르지만, 지시 해석, 주변 환경 이해, 행동 결정 추론의 기본적인 요구 사항은 일관되게 유지됩니다. 본 논문은 다양한 네비게이션 작업을 통합적이고 일반적인 프레임워크로 통합함으로써, 학습 네비게이션에서 일반적인 지식 공유와 작업별 능력 활용의 핵심 어려움을 조사하고 State-Adaptive Mixture of Experts (SAME) 모델을 제안합니다. SAME은 다양한 세분화 언어와 동적 관측에 기반한 결정 추론을 효과적으로 가능하게 하며, SAME을 통해 여러 네비게이션 작업을 동시에 처리할 수 있는 다재다능한 에이전트를 제시합니다. 이 에이전트는 작업별 에이전트보다 우수한 성능을 보이거나 매우 유사한 성능을 달성합니다.
Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
52
우리는 시선 대상 추정 문제를 다루며, 이는 사람이 장면에서 어디를 보고 있는지 예측하는 것을 목표로 합니다. 사람의 시선 대상을 예측하기 위해서는 사람의 외모와 장면의 내용에 대해 추론해야 합니다. 이전 연구들은 장면 인코더, 머리 인코더, 깊이와 자세와 같은 신호를 위한 보조 모델에서 특징을 신중하게 퓨전하는 복잡한 수작업 파이프라인을 개발해 왔습니다. 시각적 작업의 다양한 일반 목적 특징 추출기의 성공을 바탕으로, 우리는 Gaze-LLE이라는 새로운 트랜스포머 프레임워크를 제안하여 얼어붙은 DINOv2 인코더의 특징을 활용해 시선 대상 추정을 간소화합니다. 우리는 장면을 위한 단일 특징 표현을 추출하고 가벼운 모듈을 사용해 사람별 위치 프롬프트를 적용하여 시선을 디코딩합니다. 우리는 여러 시선 벤치마크에서 최고 수준의 성능을 보여주며, 설계 선택의 타당성을 검증하기 위해 포괄적인 분석을 제공합니다. 우리의 코드는 다음에서 확인할 수 있습니다: http://github.com/fkryan/gazelle .
신경망 기계 번역(NMT) 모델은 일반적으로 과학, 기술 및 교육 분야에 제한된 노출을 받은 데이터셋에서 훈련됩니다. 번역 모델은 따라서 일반적으로 과학적 이해나 기술적 용어가 포함된 작업에 어려움을 겪습니다. 그들의 성능은 저자원 인도어 언어에 대해 더욱 나쁜 것으로 나타났습니다. 특히 이러한 분야를 다루는 번역 데이터셋을 찾는 것은 어려운 도전을 제기합니다. 본 논문에서는 이를 해결하기 위해 8개의 인도어 언어를 포함한 2.8백만 행 이상의 고품질 영어-인디크 및 인디크-인디크 번역 쌍을 포함하는 다국어 병렬 말뭉치를 생성함으로써 이에 대처합니다. 우리는 NPTEL 비디오 강의의 인간 번역된 필기를 바이텍스트 마이닝하여 이를 달성합니다. 또한 이 코퍼스를 사용하여 NMT 모델을 세밀하게 조정하고 평가하며, 이를 통해 모든 다른 공개적으로 이용 가능한 모델들을 초과하는 성과를 얻습니다. 또한 이 인도어 언어에 대해 Flores+ 벤치마크에서 기준선을 평균적으로 2 BLEU 이상 향상시킴으로써 영역 외 번역 작업에 대한 일반화 가능성을 시연합니다. 우리는 우리의 모델과 데이터셋을 다음 링크를 통해 공개하게 되어 기쁩니다: https://huggingface.co/SPRINGLab.