번역이 포함된 일일 선별된 AI 연구 논문
최근 시각-언어 모델의 발전으로 성능이 향상되었는데, 이는 시각 토큰의 길이를 증가시킴으로써 텍스트 토큰보다 훨씬 길게 만들어 계산 비용을 상당히 높였기 때문이다. 그러나 우리는 CLIP와 SigLIP와 같은 인기 있는 시각 인코더에 의해 생성된 시각 토큰에 상당한 중복이 포함되어 있다는 것을 관찰했다. 이를 해결하기 위해 우리는 VisionZip이라는 간단하면서도 효과적인 방법을 소개하며, 이 방법은 언어 모델에 입력하기 위한 정보가 풍부한 토큰 집합을 선택하여 시각 토큰의 중복을 줄이고 효율성을 향상시키면서 모델 성능을 유지한다. 제안된 VisionZip은 이미지 및 비디오 이해 작업에 널리 적용될 수 있으며, 이전 방법들이 성능이 부족한 실제 시나리오에서의 다중 대화에 적합하다. 실험 결과는 VisionZip이 이전 최첨단 방법보다 거의 모든 설정에서 최소 5%의 성능 향상을 보여주는 것을 보여준다. 더불어, 우리의 방법은 모델 추론 속도를 크게 향상시켜, 프리핑 시간을 8배 빠르게 하고 LLaVA-Next 13B 모델이 더 나은 결과를 달성하면서 LLaVA-Next 7B 모델보다 빠르게 추론할 수 있도록 한다. 더 나아가, 우리는 이 중복의 원인을 분석하고 커뮤니티가 시각적 특징을 단순히 토큰 길이를 증가시키는 것이 아니라 더 나은 추출에 집중하도록 권장한다. 우리의 코드는 https://github.com/dvlab-research/VisionZip 에서 확인할 수 있다.
우리는 다목적이고 고품질의 3D 에셋 생성을 위한 혁신적인 3D 생성 방법을 소개합니다. 이의 핵심은 다양한 출력 형식으로 디코딩이 가능한 통합된 구조화된 잠재 (SLAT) 표현입니다. 이를 위해 강력한 비전 기반 모델에서 추출된 밀도 높은 다중 뷰 시각적 특징과 희소하게 분포된 3D 그리드를 통합하여 구조적(기하학) 및 질감(외관) 정보를 포괄적으로 캡처하면서 디코딩 중에 유연성을 유지합니다. 우리는 SLAT에 맞춤화된 정정된 플로우 트랜스포머를 3D 생성 모델로 사용하고, 500K 다양한 객체의 대규모 3D 에셋 데이터셋에서 최대 20억 개의 파라미터로 모델을 훈련합니다. 우리의 모델은 텍스트 또는 이미지 조건으로 고품질 결과물을 생성하며, 유사한 규모의 최근 방법을 포함한 기존 방법을 크게 능가합니다. 우리는 이전 모델에서 제공되지 않았던 유연한 출력 형식 선택 및 지역 3D 편집 기능을 선보입니다. 코드, 모델 및 데이터는 공개될 예정입니다.
그래픽 사용자 인터페이스(GUI)는 인간-컴퓨터 상호작용에 중요하지만, 시각 환경의 복잡성과 다양성으로 인해 GUI 작업을 자동화하는 것은 여전히 어려움을 겪고 있습니다. 기존 접근 방식은 주로 GUI의 텍스트 표현을 활용하는데, 이는 일반화, 효율성 및 확장성에 제약을 가하는 한계를 가지고 있습니다. 본 논문에서는 다양한 플랫폼에서 작동하는 자율 GUI 에이전트를 위한 통합 순수 시각 기반 프레임워크인 Aguvis를 소개합니다. 저희 방법은 이미지 기반 관측을 활용하고 자연어로 시각 요소에 대한 지시사항을 근거로 삼으며, 일관된 행동 공간을 활용하여 플랫폼 간 일반화를 보장합니다. 이전 작업의 한계를 해결하기 위해 명시적인 계획 및 추론을 모델 내에 통합하여 복잡한 디지털 환경에서 자율적으로 탐색하고 상호작용할 수 있는 능력을 향상시켰습니다. GUI 에이전트 궤적의 대규모 데이터셋을 구축하고, 다중 모달 추론 및 근거를 통합하며, 먼저 일반 GUI 근거에 중점을 둔 두 단계의 교육 파이프라인을 활용합니다. 포괄적인 실험을 통해, 우리는 Aguvis가 오프라인 및 실제 온라인 시나리오에서 이전 최첨단 방법을 능가하며, 외부 폐쇄 소스 모델과의 협업 없이 독립적으로 작업을 수행할 수 있는 최초의 완전 자율 순수 시각 GUI 에이전트임을 입증합니다. 우리는 모든 데이터셋, 모델 및 교육 레시피를 오픈소스로 제공하여 앞으로의 연구를 촉진합니다. https://aguvis-project.github.io/에서 확인할 수 있습니다.
저희는 Florence-2라는 생성적 비전 기반 모델에 의해 생성된 풍부한 시각적 표현을 갖춘 새로운 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs) 패밀리인 Florence-VL을 제안합니다. 널리 사용되는 대조적 학습을 통해 훈련된 CLIP 스타일 비전 트랜스포머와는 달리, Florence-2는 시각적 특징의 다양한 수준과 측면을 포착할 수 있어 다양한 하향 작업에 적응하기에 더 유연합니다. 저희는 Florence-2의 시각적 특징을 Phi 3.5 및 LLama 3과 같은 사전 훈련된 LLM에 효과적으로 통합하는 새로운 특징 퓨전 아키텍처와 혁신적인 훈련 레시피를 제안합니다. 특히, 우리는 "깊이-폭 퓨전(DBFusion)"을 제안하여 다양한 깊이와 여러 프롬프트에서 추출된 시각적 특징을 퓨전합니다. 저희의 모델 훈련은 전체 모델의 엔드 투 엔드 사전 훈련으로 구성되며, 다양한 오픈 소스 데이터셋을 신중하게 설계된 레시피에 따라 사용하여 투영 레이어와 LLM의 파인튜닝을 진행합니다. 이 데이터셋에는 고품질 이미지 캡션 및 지시어 튜닝 쌍이 포함됩니다. Florence-VL의 시각적 특징에 대한 우리의 양적 분석 및 시각화는 풍부한 깊이와 폭이 중요한 역할을 하는 시각-언어 정렬에서 인기 있는 비전 인코더에 비해 이점을 보여줍니다. Florence-VL은 일반 VQA, 지각, 환각, OCR, 차트, 지식 중심 이해 등을 포함하는 다양한 다중 모달 및 비전 중심 벤치마크에서 기존 최첨단 MLLM에 대해 상당한 개선을 달성합니다. 미래 연구를 위해 우리의 모델과 완전한 훈련 레시피는 오픈 소스로 제공됩니다. https://github.com/JiuhaiChen/Florence-VL
시각 언어 모델(Visual Language Models, VLMs)은 최근 몇 년 동안 정확도에서 상당한 진전을 이루었습니다. 그러나 그 효율성은 훨씬 더 적은 관심을 받았습니다. 본 논문은 효율성과 정확도를 최적화하기 위해 설계된 개방형 VLM인 NVILA를 소개합니다. VILA를 기반으로 구축하여, 우리는 먼저 공간 및 시간 해상도를 확장하고 시각적 토큰을 압축함으로써 모델 아키텍처를 개선합니다. 이 "확장 후 압축" 방식은 NVILA가 고해상도 이미지와 긴 비디오를 효율적으로 처리할 수 있게 합니다. 또한, NVILA의 효율성을 향상시키기 위해 교육, 세밀 조정, 배포를 포함한 전 과정에서 체계적인 조사를 실시합니다. NVILA는 다양한 이미지 및 비디오 벤치마크에서 많은 주요 개방형 및 프로프리어터리 VLMs의 정확도를 맞거나 능가합니다. 동시에 교육 비용을 4.5배, 세밀 조정 메모리 사용량을 3.4배, 사전 채우기 지연 시간을 1.6-2.2배, 디코딩 지연 시간을 1.2-2.8배 줄입니다. 우리는 곧 코드와 모델을 공개하여 재현성을 용이하게 할 예정입니다.
언어 모델 (LM) 사후 훈련에서 합성 데이터 사용이 증가함에 따라, LM의 고품질 데이터 생성 능력은 문제 해결 능력만큼 중요해졌습니다. 이전 연구들은 효과적인 데이터 생성 방법 개발에 초점을 맞추었지만, 서로 다른 LM들을 데이터 생성기로 통합된 환경에서 체계적으로 비교하는 부분이 부족했습니다. 이러한 공백을 해결하기 위해 우리는 AgoraBench를 제안합니다. 이는 LM들의 데이터 생성 능력을 평가하기 위한 표준화된 설정과 측정 항목을 제공하는 벤치마크입니다. 6개의 LM을 사용하여 1.26백만 개의 훈련 인스턴스를 합성하고 99개의 학생 모델을 훈련함으로써, LM들의 데이터 생성 능력에 관한 주요 통찰을 발견했습니다. 우선, LM들이 각각 독특한 강점을 보여주는 것을 관찰했습니다. 예를 들어, GPT-4o는 새로운 문제를 생성하는 데 뛰어나지만, Claude-3.5-Sonnet은 기존 문제를 향상시키는 데 더 뛰어납니다. 더 나아가, 분석 결과 LM의 데이터 생성 능력이 반드시 문제 해결 능력과 상관관계가 있는 것은 아니라는 것을 밝혔습니다. 대신, 응답 품질, 난해도 및 지시사항 난이도 등 데이터 품질의 여러 내재적 특성이 더 나은 지표로 작용합니다. 마지막으로, 출력 형식과 비용 효율적인 모델 선택에서 전략적 선택이 데이터 생성 효과에 상당한 영향을 미친다는 것을 입증했습니다.
닫힌 루프 로봇 시스템에서의 오픈셋 실패의 자동 감지와 예방은 중요합니다. 최근 연구들은 종종 예기치 못한 실패를 사후적으로 식별하고 예견 가능한 실패를 선행적으로 방지하는 것에 어려움을 겪고 있습니다. 이를 위해 우리는 Code-as-Monitor (CaM)이라는 새로운 패러다임을 제안합니다. 이는 비전-언어 모델 (VLM)을 활용하여 오픈셋 반응적 및 선행적 실패 감지를 위한 것입니다. 우리 방법의 핵심은 두 작업을 통합된 시공간 제약 조건 문제 집합으로 정의하고 VLM이 생성한 코드를 사용하여 실시간 모니터링하기 위한 것입니다. 모니터링의 정확도와 효율성을 향상시키기 위해 우리는 제약 관련 entity나 그 일부를 간결한 기하학적 요소로 추상화하는 제약 요소를 도입합니다. 이 접근 방식은 더 큰 일반성을 제공하며 추적을 단순화하고 시각적 프롬프트로 이러한 요소를 활용하여 제약 인식 비주얼 프로그래밍을 용이하게 합니다. 실험 결과, CaM은 세 개의 시뮬레이터와 현실 세팅에서 기준에 비해 28.7% 높은 성공률을 달성하고, 심한 방해 조건에서 실행 시간을 31.8% 줄입니다. 또한 CaM은 오픈루프 제어 정책과 통합하여 닫힌 루프 시스템을 형성함으로써 혼잡한 환경과 동적 환경에서 장기적인 과제를 수행할 수 있습니다.
확산 모델은 고품질 이미지를 생성하는 데 뛰어납니다. 그러나 현재의 확산 모델은 분류기 없는 가이드 (CFG)와 같은 가이드 방법 없이 신뢰할 수 있는 이미지를 생성하는 데 어려움을 겪습니다. 가이드 방법이 정말 필요한가요? 확산 역전으로 얻은 잡음이 가이드 없이도 고품질 이미지를 재구성할 수 있음을 관찰하면서, 우리는 노이즈 제거 파이프라인의 초기 노이즈에 초점을 맞춥니다. 가우시안 노이즈를 '가이드 없는 노이즈'로 매핑함으로써, 작은 저진폭 저주파수 구성 요소가 노이즈 제거 과정을 크게 향상시키고, 가이드의 필요성을 제거하고 추론 처리량과 메모리를 향상시킵니다. 이를 확장하여, 우리는 가이드 방법을 초기 노이즈의 단일 세밀 조정으로 대체하는 혁신적인 방법인 \ours를 제안합니다. 이 세밀 조정된 노이즈는 가이드 없이도 고품질 이미지 생성을 가능하게 하며, 동일한 확산 파이프라인 내에서 작동합니다. 우리의 노이즈 세밀화 모델은 효율적인 노이즈 공간 학습을 활용하여, 단 50K 개의 텍스트-이미지 쌍으로 빠른 수렴과 강력한 성능을 달성합니다. 우리는 다양한 메트릭을 통해 그 효과를 검증하고, 세밀화된 노이즈가 가이드의 필요성을 제거하는 방법을 분석합니다. 프로젝트 페이지를 확인하세요: https://cvlab-kaist.github.io/NoiseRefine/.
기존의 다중 뷰 이미지 생성 방법은 종종 사전 훈련된 텍스트-이미지 (T2I) 모델에 침범적인 수정을 가하고 완전한 미세 조정을 필요로 하며, 이로 인해 (1) 대규모 기본 모델 및 고해상도 이미지와 같은 경우에는 특히 높은 계산 비용이 발생하고, (2) 최적화 어려움과 고품질 3D 데이터 부족으로 이미지 품질이 저하됩니다. 본 논문에서는 다중 뷰 이미지 생성을 위한 첫 번째 어댑터 기반 솔루션을 제안하고, T2I 모델 및 해당 파생물을 개선하는 다목적 플러그 앤 플레이 어댑터인 MV-어댑터를 소개합니다. 원래의 네트워크 구조나 특징 공간을 변경하지 않고 업데이트하는 더 적은 매개변수로 효율적인 훈련을 가능하게 하며, 사전 훈련된 모델에 내장된 이전 지식을 보존하여 과적합 위험을 완화합니다. 어댑터 내에서 3D 기하학적 지식을 효율적으로 모델링하기 위해, 중복된 셀프 어텐션 레이어와 병렬 어텐션 아키텍처를 포함하는 혁신적인 디자인을 소개하여 어댑터가 새로운 3D 지식을 모델링하는 데 사전 훈련된 모델의 강력한 사전 지식을 상속할 수 있도록 합니다. 또한, 카메라 매개변수와 기하학적 정보를 원활하게 통합하는 통합 조건 인코더를 제시하여 텍스트 및 이미지 기반 3D 생성 및 텍스처링과 같은 응용을 용이하게 합니다. MV-어댑터는 Stable Diffusion XL (SDXL)에서 768 해상도에서 다중 뷰 생성을 달성하며 적응성과 다양성을 시연합니다. 또한 임의의 뷰 생성으로 확장할 수 있어 보다 넓은 응용이 가능합니다. MV-어댑터가 다중 뷰 이미지 생성에 대한 새로운 품질 기준을 설정하고 효율성, 적응성 및 다양성으로 인해 새로운 가능성을 열어준다는 것을 입증합니다.
텍스트 및 이미지 프롬프트에 기반을 둔 의상 중심 이미지 생성에 대한 최근 발전은 인상적입니다. 그러나 기존 방법은 다양한 의상 조합을 지원하지 않으며 텍스트 프롬프트의 충실성을 유지하면서 의상 세부 정보를 보존하는 데 어려움을 겪어 다양한 시나리오에서의 성능을 제한합니다. 본 논문에서는 새로운 작업인 Multi-Garment Virtual Dressing에 초점을 맞추고, 임의의 의상 조합 및 임의의 개인화된 텍스트 프롬프트에 조건을 걸어 캐릭터를 맞춤화하는 새로운 AnyDressing 방법을 제안합니다. AnyDressing은 GarmentsNet 및 DressingNet이라는 두 가지 주요 네트워크로 구성되어 있으며, 각각은 세부 의복 특징을 추출하고 맞춤화된 이미지를 생성하는 데 전념합니다. 구체적으로, 우리는 GarmentsNet 내의 Garment-Specific Feature Extractor라는 효율적이고 확장 가능한 모듈을 제안하여 의상 텍스처를 병렬로 개별적으로 인코딩합니다. 이 설계는 네트워크 효율성을 보장하면서 의상 혼동을 방지합니다. 한편, DressingNet 내의 Dressing-Attention 메커니즘과 새로운 Instance-Level Garment Localization Learning 전략을 설계하여 다중 의상 특징을 해당 영역에 정확하게 주입합니다. 이 접근 방식은 생성된 이미지에 다중 의상 텍스처 힌트를 효율적으로 통합하고 텍스트-이미지 일관성을 더욱 향상시킵니다. 게다가, 우리는 의상 강화 텍스처 학습 전략을 소개하여 의상의 세밀한 텍스처 세부 정보를 개선합니다. 잘 설계된 AnyDressing 덕분에 확산 모델의 커뮤니티 제어 확장과 쉽게 통합되어 합성 이미지의 다양성과 제어 가능성을 향상시킬 수 있습니다. 광범위한 실험 결과, AnyDressing이 최첨단 결과를 달성한다는 것을 보여줍니다.
부정적 프롬프트를 사용한 텍스트 기반 적대적 가이던스가 원치 않는 개념으로부터 출력 특징을 멀리 밀어내는 데 널리 채택된 방법으로 등장했습니다. 유용하지만, 텍스트만을 사용한 적대적 가이던스 수행은 복잡한 시각적 개념을 포착하고 저작권 보호된 캐릭터와 같은 원치 않는 시각적 요소를 피하는 데 부족할 수 있습니다. 본 논문에서는 처음으로 참조 이미지나 배치 내 다른 이미지로부터 시각적 특징을 직접 사용하여 적대적 가이던스를 수행함으로써 이러한 방향으로 대안적인 모달리티를 탐색합니다. 특히, 우리는 부정 토큰 병합(NegToMe)이라는 간단하면서 효과적인 훈련 없는 접근 방식을 소개합니다. 이 방법은 역확산 과정 중에 참조 및 출력 생성 사이의 일치하는 의미적 특징을 선택적으로 밀어내어 적대적 가이던스를 수행합니다. 동일한 배치 내 다른 이미지에 대해 사용할 때, NegToMe를 사용하면 출력 다양성(인종, 성별, 시각적)이 크게 증가하고 출력 이미지 품질을 희생하지 않습니다. 마찬가지로, 참조된 저작권 자산에 대해 사용할 때, NegToMe는 저작권 컨텐츠와의 시각적 유사성을 34.57% 줄이는 데 도움이 됩니다. NegToMe는 몇 줄의 코드만 사용하여 간단히 구현할 수 있으며, 추론 시간이 약간 높아지고(<4%) Flux와 같은 별도의 부정적 프롬프트 사용을 기본적으로 지원하지 않는 다양한 확산 아키텍처에 일반화됩니다. 코드는 https://negtome.github.io에서 사용할 수 있습니다.
대규모 언어 모델(LLMs)은 인공지능 분야에서의 이정표로 등장하며, 모델 크기가 증가함에 따라 성능도 향상될 수 있습니다. 그러나 이런 확장은 훈련 및 추론 효율성에 큰 도전을 가져오며, 특히 자원 제약 환경에서 LLM을 배포하는 데 어려움을 초래하며, 확장 추세는 점점 지속하기 어려워지고 있습니다. 본 논문에서는 '용량 밀도'라는 개념을 소개하여 다양한 규모의 LLM의 품질을 평가하는 새로운 지표로 제시하고, 효과성과 효율성 측면에서 LLM의 추세를 설명합니다. 주어진 대상 LLM의 용량 밀도를 계산하기 위해, 우리는 먼저 일련의 기준 모델을 소개하고 이러한 기준 모델들의 매개변수 크기를 기반으로 하여 이러한 기준 모델들의 하류 성능을 예측하기 위한 확장 법칙을 개발합니다. 그런 다음, 대상 LLM의 효과적인 매개변수 크기를 정의하고, 용량 밀도를 대상 LLM의 실제 매개변수 크기에 대한 효과적인 매개변수 크기의 비율로 형식화합니다. 용량 밀도는 모델의 효과성과 효율성을 평가하기 위한 통합된 프레임워크를 제공합니다. 최근 공개된 기본 LLM들에 대한 추가 분석은 LLM의 용량 밀도가 지수적으로 증가하는 경향을 보여주는 경험적 법칙(덴싱 법칙)을 밝혀냅니다. 구체적으로, 일반적으로 사용되는 몇 가지 평가 기준을 사용하여, LLM의 용량 밀도는 대략 3개월마다 두 배로 증가합니다. 이 법칙은 미래 LLM 개발을 지도하기 위한 새로운 시각을 제공하며, 최적의 결과를 달성하기 위해 용량 밀도를 향상시키는 중요성을 강조합니다.
다중 언어 데이터셋에서의 문화적 편향은 세계적인 기준으로서의 효과적인 도전을 제기합니다. 이러한 편향은 언어뿐만 아니라 질문을 해석하는 데 필요한 문화적 지식에서도 비롯되어, MMLU와 같은 번역된 데이터셋의 실용성을 감소시킵니다. 게다가 번역은 종종 목표 언어의 질문의 의미나 명확성을 왜곡할 수 있는 인공물을 도입합니다. 다중 언어 평가에서 흔히 사용되는 방법은 기계 번역된 평가 세트에 의존하는 것이지만, 데이터셋을 단순히 번역하는 것만으로는 이러한 도전에 대응하기에 충분하지 않습니다. 본 연구에서는 이러한 문제들이 다중 언어 평가와 그에 이어 발생하는 모델 성능에 미치는 영향을 추적합니다. 최신 오픈 및 전용 모델의 대규모 평가 결과는 MMLU에 대한 진전이 서구 중심적 개념을 학습하는 데 크게 의존함을 보여주며, 모든 질문 중 28%가 문화적으로 민감한 지식을 요구함을 보여줍니다. 게다가 지리적 지식이 필요한 질문의 경우, 놀라운 84.9%가 북미 또는 유럽 지역에 초점을 맞춥니다. 모델 평가 순위는 문화적으로 민감하다고 표시된 질문의 전체 부분 또는 하위 질문에 따라 달라지며, 번역된 MMLU에 맹목적으로 의존할 때 모델 순위에 왜곡이 발생함을 보여줍니다. 우리는 개선된 MMLU인 Global-MMLU를 발표하며, 42개 언어로 평가 범위를 확대하였습니다. 번역 품질을 검증하기 위해 보상받는 전문가 및 커뮤니티 주석자들과 협력하여 원본 데이터셋에 존재하는 문화적 편향을 엄격하게 평가함으로써 전반적인 품질을 향상시켰습니다. 이 포괄적인 Global-MMLU 세트는 문화적으로 민감하고 문화적으로 중립적으로 레이블이 지정된 하위 집합을 포함하여 보다 종합적이고 완전한 평가를 가능하게 합니다.
우리는 언어 지시를 따르며 고해상도 사진을 생성할 수 있는 비트 단위 비주얼 오토리그레시브 모델링인 Infinity를 제안합니다. Infinity는 무한 어휘 토크나이저 및 분류기와 비트 단위 자가 교정 메커니즘을 사용하여 비주얼 오토리그레시브 모델을 재정의하며 생성 능력과 세부 정보를 현저히 향상시킵니다. 어휘 토크나이저 크기를 이론적으로 무한대로 확장하고 동시에 트랜스포머 크기를 확장함으로써, 우리의 방법은 바닐라 VAR에 비해 강력한 확장 능력을 발휘합니다. Infinity는 SD3-Medium 및 SDXL과 같은 최고 수준의 확산 모델을 능가하는 자동 회귀 텍스트-이미지 모델을 위한 새로운 기록을 세웁니다. 특히, Infinity는 GenEval 벤치마크 점수를 0.62에서 0.73으로 향상시키고 ImageReward 벤치마크 점수를 0.87에서 0.96으로 향상시켜 66%의 승률을 달성하여 SD3-Medium을 능가합니다. 추가 최적화 없이 Infinity는 0.8초 안에 고품질의 1024x1024 이미지를 생성하여 SD3-Medium보다 2.6배 빠르게 만들어내며 최고의 텍스트-이미지 모델로 자리매김합니다. 모델 및 코드는 Infinity의 시각적 생성 및 통합 토크나이저 모델링을 위한 추가 탐구를 촉진하기 위해 공개될 예정입니다.
우리는 HumanEdit을 제시합니다. 이는 정확하고 다양한 이미지 조작을 가능하게 하는 지시어 안내 이미지 편집을 위해 특별히 설계된 고품질의 인간 보상 데이터셋입니다. 이전 대규모 편집 데이터셋은 종종 최소한의 인간 피드백을 통합하여 데이터셋을 인간의 선호에 맞추는 데 어려움을 겪었습니다. HumanEdit은 인간 주석자들을 활용하여 데이터 쌍을 구축하고 피드백을 제공함으로써 이 간극을 메웁니다. 면밀한 선별을 통해 HumanEdit은 4단계에서 2,500시간 이상의 인간 노력을 필요로 하며 5,751개의 이미지로 구성되어 다양한 이미지 편집 작업에 대한 정확성과 신뢰성을 보장합니다. 이 데이터셋에는 Action, Add, Counting, Relation, Remove, Replace의 여섯 가지 유형의 편집 지시어가 포함되어 있어 다양한 실세계 시나리오를 포괄합니다. 데이터셋의 모든 이미지는 마스크와 함께 제공되며 일부 데이터에 대해서는 지시어가 마스크 없는 편집을 지원할 수 있도록 충분히 상세하다는 것을 보장합니다. 더불어, HumanEdit은 다양성과 고해상도 1024x1024 콘텐츠를 제공하여 다양한 도메인에서 가져온 새로운 다목적 지시어 이미지 편집 데이터셋의 기준을 설정합니다. 이미지 편집 분야에서 미래 연구를 진전시키고 평가 기준을 확립하기 위해, 우리는 HumanEdit을 https://huggingface.co/datasets/BryanW/HumanEdit 에 공개합니다.
다중 모달 대형 언어 모델(MLLMs)은 최첨단 성능과 여러 데이터 모드(텍스트, 이미지, 오디오 등)를 통합하여 고정확도로 복잡한 작업을 수행하는 능력으로 점점 더 중요해지고 있습니다. 본 논문은 개인화된 다중 모달 대형 언어 모델에 대한 포괄적인 조사를 제시하며, 그 구조, 훈련 방법, 응용에 초점을 맞춥니다. 우리는 MLLMs를 개인 사용자에 맞추는 기술을 분류하기 위한 직관적인 분류법을 제안하고, 해당 기술들을 논의합니다. 더불어, 이러한 기술들이 적절할 때 어떻게 결합되거나 적응될 수 있는지, 그 이점과 근본적인 근거를 강조합니다. 또한, 기존 연구에서 조사된 개인화 작업과 흔히 사용되는 평가 지표를 간결하게 요약합니다. 게다가, 개인화된 MLLMs의 벤치마킹에 유용한 데이터셋을 요약합니다. 마지막으로, 중요한 미해결 과제를 개요합니다. 본 조사는 개인화된 다중 모달 대형 언어 모델의 발전을 이해하고 발전시키기 위해 노력하는 연구자와 실무자들에게 유용한 자원으로 기여하고자 합니다.
대형 언어 모델 (LLM)의 내부 계산을 이해하는 것은 인간의 가치와 유해한 콘텐츠 생성과 같은 원치 않는 행동을 방지하기 위해 중요합니다. 그러나 메커니즘 해석 가능성은 다의성에 의해 방해를 받습니다. 여기서 개별 뉴런이 여러 개의 관련 없는 개념에 반응하는 다의성이 발생합니다. 희소 오토인코더 (SAE)는 희소 사전 학습을 통해 이러한 특징을 분리하려고 시도해 왔지만, 사후 재구성 손실에 의존함으로써 LLM의 성능을 희생해 왔습니다. 이 문제를 해결하기 위해 우리는 Monet 아키텍처를 소개합니다. 이 아키텍처는 희소 사전 학습을 직접 End-to-End 전문가 집합 사전 학습에 통합합니다. 우리의 새로운 전문가 분해 방법은 전문가 수를 레이어 당 262,144개로 확장할 수 있게 하며, 총 매개변수는 전문가 수의 제곱근에 비례하여 확장됩니다. 우리의 분석은 전문가 간의 지식의 상호 배타성을 입증하고 개별 전문가에 포함된 매개변수 지식을 보여줍니다. 더불어 Monet은 일반 성능을 저하시키지 않고 도메인, 언어 및 유해성 완화를 통해 지식 조작을 허용합니다. 투명한 LLM을 추구하는 우리의 노력은 전문가 수를 확장하여 메커니즘 해석 가능성을 향상시키고 내부 지식을 직접 조정하여 모델 행동을 근본적으로 조정할 수 있는 잠재력을 강조합니다. 소스 코드 및 사전 훈련된 체크포인트는 https://github.com/dmis-lab/Monet에서 사용할 수 있습니다.
우리는 OmniFlow를 소개합니다. 이는 텍스트에서 이미지, 텍스트에서 오디오, 오디오에서 이미지 등과 같은 모든-모든 생성 작업을 위해 설계된 혁신적인 생성 모델입니다. OmniFlow는 다중 모달리티의 결합 분포를 다루기 위해 텍스트에서 이미지 모델에 사용된 수정된 플로우(RF) 프레임워크를 발전시켰습니다. 이 모델은 텍스트에서 이미지 및 텍스트에서 오디오 합성과 같은 다양한 작업에서 이전의 모든-모든 모델을 능가합니다. 우리의 연구는 세 가지 주요 기여를 제공합니다. 첫째, 우리는 RF를 다중 모달리티 환경으로 확장하고 새로운 가이던스 메커니즘을 도입하여 사용자가 생성된 출력물에서 다른 모달리티 간의 정렬을 유연하게 제어할 수 있도록 합니다. 둘째, 우리는 Stable Diffusion 3의 텍스트-이미지 MMDiT 아키텍처를 확장하고 오디오 및 텍스트 생성을 가능하게 하는 새로운 아키텍처를 제안합니다. 확장된 모듈은 효율적으로 개별적으로 사전 훈련될 수 있으며 바닐라 텍스트-이미지 MMDiT와 병합되어 세밀한 조정을 위해 사용될 수 있습니다. 마지막으로, 우리는 대규모 오디오 및 텍스트 생성을 위한 수정된 플로우 트랜스포머의 설계 선택에 대한 포괄적인 연구를 수행하여 다양한 모달리티 간의 성능 최적화에 대한 유용한 통찰을 제공합니다. 코드는 https://github.com/jacklishufan/OmniFlows에서 제공될 예정입니다.
축구는 전 세계적으로 인기 있는 스포츠로, 세계 각지의 팬들로부터 폭넓은 관심을 받고 있습니다. 본 논문은 축구 비디오 이해를 위한 포괄적인 멀티모달 프레임워크를 개발하는 것을 목표로 합니다. 구체적으로, 본 논문에서는 다음과 같은 기여를 합니다: (i) 현재까지 가장 큰 멀티모달 축구 데이터셋인 SoccerReplay-1988을 소개합니다. 이 데이터셋은 1,988경기의 비디오와 상세한 주석을 갖추고 있으며 자동 주석 파이프라인을 특징으로 합니다; (ii) 축구 분야에서 시각-언어 기반 모델인 MatchVision을 제안합니다. 이 모델은 축구 비디오 전반에 걸쳐 시공간 정보를 활용하며 다양한 하위 작업에서 우수한 성과를 보입니다; (iii) 이벤트 분류, 코멘터리 생성, 다중 시점 파울 인식에 대한 포괄적인 실험과 제거 실험을 수행합니다. MatchVision은 모든 부분에서 최첨단 성능을 보여주며 기존 모델을 크게 능가하여 제안한 데이터와 모델의 우수성을 강조합니다. 본 연구가 스포츠 이해 연구에 대한 표준 패러다임을 제공할 것으로 믿습니다.
대조적으로 훈련된 Vision-Language 모델(VLMs)인 CLIP과 같은 모델은 판별적 비전-언어 표현 학습의 사실상의 접근 방식이 되었습니다. 그러나 이러한 모델들은 언어 이해 능력이 제한되어 종종 "단어 가방" 행동을 보입니다. 동시에 비전 인코더와 LLMs를 결합한 대형 Vision-Language 모델(LVLMs)은 자세한 비전-언어 추론이 가능하다는 것이 입증되었지만, 자기 회귀적인 성격으로 인해 판별적 작업에는 적합하지 않습니다. 본 연구에서는 "양쪽의 장점을 결합"하는 것을 제안합니다: LVLMs의 판별적 세밀 조정을 위한 새로운 훈련 방법을 제시하여 강력한 판별적 및 구성적 능력을 얻습니다. 본질적으로, 우리의 방법은 생성적 LVLM을 판별적으로 변환하여 강력한 이미지-텍스트 구별 능력과 향상된 언어 이해력을 발휘합니다. 우리의 기여는 다음과 같습니다: (1) 이미지-텍스트 쌍의 가변 길이와 세분성을 활용하여 모델을 훈련시키는 대조적 및 다음 토큰 예측 손실을 모두 사용하는 신중히 설계된 훈련/최적화 프레임워크입니다. 이는 우리의 프레임워크 구성 요소의 필요성을 정당화하는 소거 연구와 함께 제시됩니다. (2) 소프트 프롬프팅과 LoRA 어댑터의 조합을 사용하는 매개 효율적인 적응 방법입니다. (3) 유사한 크기의 최첨단 CLIP와 같은 모델에 비해 상당한 향상을 이끌어내며, 표준 이미지-텍스트 검색 벤치마크와 구성성에서 주목할만한 이득을 제공합니다.
대형 언어 모델(LLMs)은 최근 몇 년 동안 놀라운 진전을 이루었지만, 그들의 우수한 성능은 여전히 주로 영어와 같은 주요 세계 언어로 제한되어 있다. 많은 LLM은 특히 저자원 언어에 대한 다국어 작업에서 여전히 도전에 직면하고 있다. 이 문제를 해결하기 위해, 우리는 Marco-LLM을 소개했다: 대규모 다국어 훈련을 통한 다국어 향상 LLM. 저자원 언어를 위해 상당한 양의 다국어 데이터를 수집하고 Qwen2 모델을 사용하여 광범위한 지속적 사전 훈련을 실시했다. 이 노력은 Marco-LLM이라는 다국어 LLM을 만들어 냈다. MMMLU, AGIEval, Belebele, Flores-200, XCOPA 등 다양한 다국어 벤치마크에서 포괄적인 평가를 통해 Marco-LLM은 최첨단 LLM 대비 상당한 개선을 보여 주었다. 더 나아가, Marco-LLM은 어떤-어떤 기계 번역 작업에서 상당한 향상을 이루어 우리 다국어 LLM의 효과를 입증했다. Marco-LLM은 저자원 언어를 포함한 다국어 작업에서 우수한 성과를 보이는 것뿐만 아니라 영어와 다른 주요 언어에서 강력한 성능을 유지하여 고-저자원 언어 능력 사이의 성능 차이를 줄이기 위해 설계된 선구적인 다국어 LLM이다. 이 노력은 언어 간의 연결을 통해 다양한 언어에서 정확하게 작동하는 LLM을 보장하기 위한 우리의 헌신을 보여 주고 있다.
최근 비디오 확산 모델의 발전으로 실제 음성 주도 대화 비디오 생성에 대한 새로운 잠재력이 개방되었습니다. 그러나 실제 대화 비디오에서 매끄러운 음성-입술 동기화, 장기 신원 일관성 유지, 그리고 자연스러운 음성에 맞춘 표현 생성은 여전히 중요한 과제입니다. 이러한 과제에 대응하기 위해 우리는 메모리 안내 감정 인식 확산(MEMO)이라는 엔드 투 엔드 음성 주도 초상 애니메이션 접근 방식을 제안하여 신원 일관성과 표현력 있는 대화 비디오를 생성합니다. 우리의 방법론은 두 가지 주요 모듈을 중심으로 구축되어 있습니다: (1) 메모리 안내 시간 모듈은 메모리 상태를 개발하여 더 긴 과거 컨텍스트에서 정보를 저장하고 선형 주의를 통해 시간 모델링을 안내함으로써 장기 신원 일관성과 움직임 부드러움을 향상시킵니다; 그리고 (2) 감정 인식 오디오 모듈은 전통적인 교차 주의를 멀티 모달 주의로 대체하여 오디오-비디오 상호 작용을 강화하고, 오디오에서 감정을 감지하여 감정 적응 레이어 정규화를 통해 얼굴 표현을 정제합니다. 광범위한 양적 및 질적 결과는 MEMO가 다양한 이미지 및 오디오 유형에서 더 현실적인 대화 비디오를 생성하며, 전반적인 품질, 음성-입술 동기화, 신원 일관성 및 표현-감정 정렬에서 최첨단 방법을 능가한다는 것을 입증합니다.
본 논문에서는 AR(자기회귀) 시각 생성 가속화를 위한 훈련 없이 사용 가능한 병렬 디코딩 프레임워크인 ZipAR을 제안합니다. 동기는 이미지가 지역적 구조를 보여주며, 공간적으로 떨어진 영역들이 상호 의존성이 최소화되는 경향이 있다는 관찰에서 비롯됩니다. 시각적 토큰의 부분적으로 디코딩된 세트가 주어졌을 때, 행 차원에서의 원래의 다음 토큰 예측 체계에 추가하여, 열 차원에서 공간적으로 인접한 영역에 해당하는 토큰들을 병렬로 디코딩함으로써 "다음 세트 예측" 패러다임을 가능하게 합니다. 단일 전방향 패스에서 여러 토큰을 동시에 디코딩함으로써 이미지를 생성하는 데 필요한 전방향 패스의 수를 크게 줄여, 생성 효율성을 상당히 향상시킵니다. 실험 결과, ZipAR은 Emu3-Gen 모델에서 모델 전방향 패스의 수를 최대 91%까지 줄일 수 있으며, 추가적인 재훈련이 필요하지 않음을 입증하였습니다.
현재의 대형 언어 모델은 주로 디코딩 전용 구조 트랜스포머에 기반하며, 이는 컨텍스트 학습 능력이 뛰어납니다. 이 모델의 컨텍스트 학습 능력의 중요한 기반이 인덕션 헤드 메커니즘으로 여겨지며, 적어도 두 개의 레이어 어텐션을 필요로 합니다. 모델의 인덕션 능력을 더 효율적으로 구현하기 위해 인덕션 헤드 메커니즘을 재방문하고 KV 쉬프팅 어텐션을 제안했습니다. 우리는 이론적으로 KV 쉬프팅 어텐션이 모델의 인덕션 헤드 메커니즘의 깊이와 너비에 대한 요구 사항을 줄인다는 것을 증명했습니다. 실험 결과는 KV 쉬프팅 어텐션이 인덕션 헤드 및 언어 모델링 학습에 유익하며, 장난감 모델부터 10 B 이상의 파라미터를 갖는 사전 훈련 모델로의 더 나은 성능 또는 빠른 수렴을 이끌어 냅니다.
4Real-Video는 4D 비디오를 생성하기 위한 혁신적인 프레임워크로, 시간과 시점 축을 갖는 비디오 프레임 그리드로 구성됩니다. 이 그리드에서 각 행은 동일한 타임스텝을 공유하는 프레임을 포함하고, 각 열은 동일한 시점에서의 프레임을 포함합니다. 우리는 새로운 이중 스트림 아키텍처를 제안합니다. 한 스트림은 열에서 시점 업데이트를 수행하고, 다른 스트림은 행에서 시간 업데이트를 수행합니다. 각 확산 변환기층 이후에 동기화층이 두 토큰 스트림 간에 정보를 교환합니다. 우리는 두 가지 동기화층 구현을 제안하며, 각각 하드 또는 소프트 동기화를 사용합니다. 이 피드포워드 아키텍처는 이전 연구에 비해 세 가지 측면에서 개선되었습니다: 더 빠른 추론 속도, 향상된 시각적 품질 (FVD, CLIP 및 VideoScore로 측정), 그리고 향상된 시간적 및 시점 일관성 (VideoScore 및 Dust3R-Confidence로 측정).
다양한 작업에서 다채로운 성과를 보여주는 다중 모달 대형 언어 모델(MLLMs)의 성능에도 불구하고, 상당한 훈련 및 추론 비용이 그들의 발전을 방해하고 있다. 계산의 대부분은 트랜스포머 디코더에서 처리되는 압도적인 양의 비전 토큰에서 비롯된다. 본 논문에서는 각 트랜스포머 디코더 레이어가 중요한 비전 토큰을 선택하고 중복된 것들을 건너뛰는 Mixture-of-Depths (MoD) 메커니즘을 활용하여 효율적인 MLLMs를 구축하는 것을 제안한다. 그러나 MoD를 MLLMs에 통합하는 것은 쉽지 않다. 훈련 및 추론 안정성 및 제한된 훈련 데이터의 도전에 대처하기 위해 우리는 두 가지 새로운 디자인인 tanh-게이트 가중치 정규화(TanhNorm)와 대칭 토큰 재가중치화(STRing)를 사용하여 MoD 모듈을 적응시킨다. 더불어, 우리는 비전 토큰이 깊은 레이어에서 더 높은 중복성을 보이며, 이에 따라 토큰 보존 비율을 점진적으로 감소시키는 progressive ratio decay (PRD) 전략을 설계한다. 이 핵심적인 디자인은 MoD의 잠재력을 완전히 발휘하여 모델의 효율성과 성능을 크게 향상시킨다. 우리의 방법의 효과를 검증하기 위해 14개의 벤치마크에서 두 개의 베이스라인 모델과 광범위한 실험을 수행한다. 우리의 모델인 p-MoD는 추론 중에는 베이스라인 모델의 성능을 맞거나 능가하며, 훈련 중에는 GPU 시간의 77.7%, 추론 중에는 TFLOPs의 55.6% 및 KV 캐시 저장소의 53.8%만을 사용한다.
시각-언어 모델(VLMs)의 중요한 발전에도 불구하고, 추론 시간 계산을 확장하여 응답 품질을 향상시키는 효과적인 방법이 부족합니다. 이 능력은 최근 대규모 언어 모델 연구에서 자가 개선 모델로 나아가는 핵심 단계로 알려져 있습니다. 본 논문에서는 시각 가치 모델(VisVM)을 제시하여 VLM 추론 시간 검색을 이끌어 시각적 이해를 더 잘할 수 있는 응답을 생성할 수 있습니다. 구체적으로, VisVM은 현재 검색 단계에서 생성된 문장 품질을 평가하는 것뿐만 아니라 현재 단계에서 발생할 수 있는 후속 문장의 품질을 예측하여 장기적 가치를 제공합니다. 이러한 방식으로 VisVM은 환각이나 불충분한 세부 사항에 취약한 문장을 생성하는 VLMs를 피하도록 유도하여 더 높은 품질의 응답을 생성합니다. 실험 결과는 VisVM으로 이끄는 검색이 탐욕적 디코딩 및 다른 시각적 보상 신호를 사용한 검색 방법과 비교하여 더 풍부한 시각적 세부 사항과 더 적은 환각을 가진 기술적 설명을 생성하는 능력을 VLMs가 크게 향상시킨다는 것을 보여줍니다. 더 나아가, VisVM으로 이끄는 캡션으로 모델을 자가 교육하는 것이 다양한 다중 모달 벤치마크에서 VLM의 성능을 향상시키는 것을 발견하며, 자가 개선 VLMs를 개발할 수 있는 잠재력을 보여줍니다. 저희 가치 모델과 코드는 https://github.com/si0wang/VisVM에서 확인하실 수 있습니다.
최근에는 딥 뉴럴 네트워크를 사용한 의료 이미지 세분화가 높은 진전을 보여주었지만, 이질적인 모드 및 마스크 주석의 부족으로 인해 주석이 없는 모드에서 세분화 모델의 개발이 제한되고 있다. 본 논문에서는 의료 응용 프로그램에서 생성 모델을 활용하는 새로운 패러다임을 조사한다. 이는 주석이 없는 모드를 위해 데이터를 조절하여 합성하는 것을 목표로 하며, 등록된 데이터 쌍이 필요하지 않다. 구체적으로 이 논문에서는 다음과 같은 기여를 한다: (i) 우리는 세분화된 의료 이미지 생성 연구를 지원하기 위해 모드 레이블, 속성, 영역 및 장기 정보와 함께 일부 장기 마스크 주석을 포함하는 대규모 방사선 이미지-텍스트 데이터 세트인 MedGen-1M을 수집하고 정리한다; (ii) 우리는 텍스트 프롬프트와 마스크에 의존하는 확산 기반 데이터 엔진인 MRGen을 제안한다. 이는 마스크 주석이 없는 다양한 모드를 위한 MR 이미지를 합성하여 세분화 모델을 훈련시키는 것을 가능하게 한다; (iii) 우리는 다양한 모드에서 광범위한 실험을 수행하여, 우리의 데이터 엔진이 효과적으로 훈련 샘플을 합성하고 MRI 세분화를 주석이 없는 모드로 확장할 수 있음을 보여준다.
문서 이미지로부터의 표 추출은 어려운 AI 문제이며, 많은 콘텐츠 도메인에 대한 레이블이 달린 데이터를 구하는 것은 어렵습니다. 기존의 표 추출 데이터셋은 주로 학술 논문이 쉽게 이용 가능하며 그 소스 코드로 인해 과학적인 표에 초점을 맞추고 있습니다. 그러나 과학, 금융 및 기타 도메인에서 발견되는 표 사이에는 상당한 레이아웃 및 활자적 차이가 있습니다. 현재의 데이터셋은 종종 표 내에 포함된 단어와 그 위치가 부족하며, 대신 신뢰할 수 없는 OCR에 의존하여 이러한 특징을 추출하여 현대 기계 학습 모델을 자연어 처리 작업에 대해 훈련시킵니다. 따라서 레이블이 달린 데이터를 얻기 위한 보다 일반적인 방법이 필요합니다. 저희는 SynFinTabs를 제시합니다. 이는 합성 금융 표의 대규모 레이블 데이터셋입니다. 우리의 희망은 이러한 합성 표를 생성하는 저희의 방법이 다른 도메인으로 전이 가능하다는 것입니다. 표 이미지로부터 정보를 추출하는 모델을 훈련시키기 위해 우리의 데이터셋의 효과를 증명하기 위해, 우리는 FinTabQA를 만들었습니다. 이는 추출형 질의응답 작업에 대해 훈련된 대규모 언어 모델입니다. 우리는 실제 금융 표를 사용하여 모델을 테스트하고 최첨단 생성 모델과 비교하며 결과를 논의합니다. 우리는 데이터셋, 모델 및 데이터셋 생성 코드를 공개적으로 제공합니다.
Chatbot Arena와 같은 개방형 커뮤니티 주도 플랫폼은 사이트 방문자로부터 사용자 선호도 데이터를 수집하여 LLM 성능에 대한 가장 신뢰할 수 있는 공개 벤치마크 중 하나로 평가받고 있습니다. 이제는 표준으로 채택되었지만, 효과적인 가드레일을 구현하여 인간으로부터 고품질 주석을 수집하는 것은 까다로운 과제입니다. 본 논문에서는 악의적이거나 그 외의 세 가지 나쁜 주석 소스가 개방형 리더보드 순위의 신뢰성을 훼손할 수 있다는 것을 보여줍니다. 특히, 무관심한 (사이트 방문자가 올바른 투표를 제대로 하도록 자극받지 못한) 또는 적대적인 (대상 모델의 순위를 높이려는 나쁜 행위자) 주석 작성자들에 의해 생성된 저품질 투표의 10%만이 모델의 순위를 리더보드에서 최대 5곳까지 변경할 수 있다는 것을 보여줍니다. 마지막으로, 고품질 인간 주석을 보장하는 데 관한 개방적인 과제에 대해 논의합니다.
우리는 작업 스케일링 법칙과 모델 사다리를 개발하여 사전 훈련된 언어 모델(LMs)의 개별 작업 성능을 초과 훈련 설정에서 예측합니다. 언어 모델링 손실에 대한 표준 거듭제곱 법칙은 작업 성능을 정확하게 모델링할 수 없습니다. 따라서 우리는 두 단계 예측 접근 방식을 활용합니다: 먼저 모델과 데이터 크기를 사용하여 작업별 손실을 예측하고, 그런 다음 이 작업 손실을 사용하여 작업 성능을 예측합니다. 우리는 소규모 "사다리" 모델 세트를 훈련시키고, 두 예측 단계의 매개변수화된 함수에 맞는 데이터 포인트를 수집하여 4T 토큰에 훈련된 7B 모델과 5T 토큰에 훈련된 13B 모델에 대한 예측을 수행합니다. 사다리 모델을 훈련하는 데 드는 비용은 대상 모델에 사용된 컴퓨팅의 1%에 불과합니다. 순위 분류 형식으로 작성된 네 가지 객관식 작업에서는 두 대상 모델의 정확도를 절대 오차 2점 이내로 예측할 수 있습니다. 다른 네 가지 작업에서는 더 높은 예측 오차가 나타나며(평균 절대 오차 6.9), 이러한 작업은 종종 작업 메트릭스의 분산이 더 높은 작업입니다. 더 적은 사다리 모델을 훈련시키기 위해 더 적은 컴퓨팅을 사용하는 것이 예측을 악화시키는 경향이 있다는 것을 발견했습니다. 마지막으로, 우리의 설계 선택과 두 단계 접근 방식이 스케일링 법칙을 수립하는 데 우수한 성능을 보이는 것을 경험적으로 입증합니다.