번역이 포함된 일일 선별된 AI 연구 논문
캐릭터 이미지 애니메이션은 최근 몇 년 동안 참조 이미지와 대상 포즈 시퀀스로부터 고품질 비디오를 생성하는 기술이 상당한 발전을 이루었습니다. 그러나 대부분의 기존 방법은 인간 형상에만 적용되며, 게임 및 엔터테인먼트 산업에서 일반적으로 사용되는 의인화된 캐릭터에는 잘 일반화되지 않는다는 한계가 있습니다. 우리의 심층 분석은 이러한 제한을 운전 비디오의 움직임 패턴을 충분히 모델링하지 못하는 것으로 귀속하여, 이로 인해 대상 캐릭터에 엄격하게 포즈 시퀀스를 부과한다는 것을 제안합니다. 그 결과, 본 논문에서는 의인화된 캐릭터를 포함한 다양한 캐릭터 유형 (통칭 X)을 위한 LDM을 기반으로 하는 범용 애니메이션 프레임워크인 Animate-X를 제안합니다. 움직임 표현을 향상시키기 위해 우리는 운전 비디오로부터 포즈 지표를 도입합니다. 이는 운전 비디오의 CLIP 시각적 특징을 활용하여 전반적인 움직임 패턴 및 움직임 간의 시간적 관계와 같은 움직임의 요지를 추출하는 암묵적 및 명시적 방법을 통해 포착합니다. 후자는 추론 중 발생할 수 있는 가능한 입력을 미리 시뮬레이션하여 LDM의 일반화를 강화합니다. 더불어, 우리는 범용적이고 널리 적용 가능한 애니메이션 이미지에 대한 Animate-X의 성능을 평가하기 위한 새로운 애니메이션 의인화 벤치마크(A^2Bench)를 소개합니다. 광범위한 실험은 Animate-X의 우수성과 효과를 최첨단 기법과 비교하여 입증합니다.
AI 생성 콘텐츠의 급속한 발전으로 미래 인터넷은 합성 데이터로 넘쳐나게 될 수 있으며, 진짜와 신뢰할 수 있는 다중 모달 데이터를 구별하는 것이 점점 어려워지고 있다. 따라서 합성 데이터 탐지는 널리 주목받고 있으며, 대형 다중 모달 모델(LMMs)의 성능은 이 작업에 상당한 관심을 끌고 있다. LMMs는 자연어 설명을 제공하여 그들의 신뢰성 판단을 향상시키며, 합성 콘텐츠 탐지의 설명 가능성을 향상시킬 수 있다. 동시에 실제와 합성 데이터를 구별하는 작업은 LMMs의 지각, 지식 및 추론 능력을 효과적으로 시험한다. 이에 대응하여 우리는 다중 모달에서 합성 데이터를 탐지하는 능력을 평가하기 위해 설계된 새로운 벤치마크인 LOKI를 소개한다. LOKI는 비디오, 이미지, 3D, 텍스트 및 오디오 모달을 포함하며, 26개 하위 범주에 걸쳐 18,000개의 신중히 선별된 질문을 포함한다. 이 벤치마크에는 대략적인 판단 및 객관식 질문뿐만 아니라 세밀한 이상 징후 선택 및 설명 작업도 포함되어 LMMs의 포괄적인 분석이 가능하다. 우리는 LOKI에서 22개의 오픈 소스 LMMs와 6개의 폐쇄 소스 모델을 평가하여 그들이 합성 데이터 탐지기로서의 잠재력을 강조하고, LMM 능력 개발에 일부 한계를 드러내기도 했다. LOKI에 대한 자세한 정보는 https://opendatalab.github.io/LOKI/에서 확인할 수 있다.
상호 교차된 다중 모달 이해 및 생성은 모델이 이미지와 텍스트를 임의의 순서로 생성하고 해석할 수 있도록 하는 것으로, 다중 모달 학습에서 중요한 영역이 되어왔습니다. 중요한 발전이 있었음에도 불구하고, 이 능력의 평가는 여전히 충분하지 않습니다. 기존의 벤치마크는 데이터 규모, 범위 및 평가 깊이에서 제한사항을 가지며, 현재의 평가 메트릭은 종종 비용이 많이 들거나 편향되어 있어 실용적인 응용에 신뢰성이 부족합니다. 이러한 도전에 대응하기 위해, 우리는 LVLMs(Large Vision-Language Models)에서 상호 교차된 다중 모달 이해 및 생성을 평가하기 위한 대규모 지식 중심 벤치마크인 MMIE를 소개합니다. MMIE는 수학, 코딩, 물리학, 문학, 건강, 예술 등을 포함한 3가지 범주, 12개의 분야 및 102개의 하위 분야를 아우르는 20,000개의 신중하게 선별된 다중 모달 쿼리로 구성되어 있습니다. 이는 상호 교차된 입력과 출력을 지원하며, 다양한 능력을 평가하기 위해 객관식과 주관식 질문 형식을 혼합하여 제공합니다. 더불어, 우리는 신뢰할 수 있는 자동화된 평가 메트릭을 제안하며, 이는 인간이 주석을 단 데이터와 체계적인 평가 기준으로 세밀하게 조정된 점수 모델을 활용하여 편향을 줄이고 평가 정확도를 향상시키는 것을 목표로 합니다. 광범위한 실험을 통해 우리의 벤치마크와 메트릭이 상호 교차된 LVLMs의 포괄적인 평가를 제공하는 데 효과적임을 입증합니다. 구체적으로, 우리는 여덟 개의 LVLMs를 평가하여, 최고의 모델조차도 개선할 여지가 상당히 있다는 것을 밝혀냈으며, 대부분이 중간 결과만을 달성했습니다. 우리는 MMIE가 상호 교차된 LVLMs의 발전을 더욱 촉진할 것으로 믿습니다. 우리의 벤치마크와 코드는 https://mmie-bench.github.io/에서 공개되어 있습니다.
자연어 지시에 따르는 것은 검색 증강 생성 (RAG) 시스템의 효과적인 적용에 중요합니다. 대형 언어 모델 (LLM)의 최근 발전에도 불구하고, RAG 도메인 내에서의 지시 따르기 (IF) 정렬을 평가하고 개선하는 연구는 제한적입니다. 이 문제를 해결하기 위해 우리는 VIF-RAG를 제안합니다. 이는 RAG 시스템 내에서 지시 따르기 정렬을 자동화하고 확장 가능하며 검증 가능한 합성 파이프라인으로, 최초로 제안되었습니다. 우리는 먼저 수동으로 최소한의 원자 지시문 (<100) 세트를 만들고 복잡한 지시를 합성하고 검증하기 위한 조합 규칙을 개발합니다. 그런 다음 감독 모델을 사용하여 지시문을 재작성하고 동시에 Python 실행기를 통해 지시 품질을 자동으로 확인하는 코드를 생성합니다. 마지막으로 이러한 지시문을 포괄적인 RAG 및 일반 데이터 샘플과 통합하여 자동화 프로세스를 통해 고품질 VIF-RAG-QA 데이터 세트 (>100k)로 확장합니다. RAG 시스템의 지시 따르기 자동 평가 간격을 좁히기 위해 약 3천 개의 테스트 샘플을 포함하며 일반 지시 제약 조건 22가지 및 4가지 지식 집약적 QA 데이터 세트를 다루는 FollowRAG 벤치마크를 소개합니다. 견고한 파이프라인 설계로 인해 FollowRAG는 다양한 RAG 벤치마크와 원활하게 통합될 수 있습니다. FollowRAG와 LLM의 여덟 가지 널리 사용되는 IF 및 기본 역량 벤치마크를 사용하여 VIF-RAG가 일반 지시 제약 조건의 넓은 범위에 걸쳐 LLM 성능을 현저히 향상시키는 동시에 RAG 시나리오에서 능력을 효과적으로 활용하는 것을 보여줍니다. 추가 분석은 RAG 시스템에서 IF 정렬을 달성하기 위한 실용적인 통찰을 제공합니다. 우리의 코드와 데이터 세트는 https://FollowRAG.github.io에서 공개되었습니다.
우리는 MEGA-Bench를 제시합니다. 이는 500개 이상의 실제 과제에 대한 다중 모달 평가를 확장하여 최종 사용자의 매우 다양한 일상적인 사용 사례를 다룹니다. 우리의 목표는 다양하고 풍부한 다중 모달 과제 집합을 커버하는 고품질 데이터 샘플을 최적화하면서 비용 효율적이고 정확한 모델 평가를 가능하게 하는 것입니다. 특히, 우리는 16명의 전문 어노테이터로부터 8,000개 이상의 샘플을 포함하는 505개의 현실적인 과제를 수집하여 다중 모달 과제 공간을 철저히 다루었습니다. MMMU, MMBench, MMT-Bench와 같은 표준 다중 선택 문제로 이러한 문제들을 통합하는 대신, 우리는 숫자, 구, 코드, \LaTeX, 좌표, JSON, 자유 형식 등과 같은 다양한 출력 형식을 포용합니다. 이러한 형식을 수용하기 위해 우리는 이러한 과제를 평가하기 위해 40가지 이상의 메트릭을 개발했습니다. 기존의 벤치마크와 달리, MEGA-Bench는 다양한 차원(예: 응용 프로그램, 입력 유형, 출력 형식, 기술)에 걸쳐 세밀한 능력 보고서를 제공하여 사용자가 모델 능력을 심층적으로 상호 작용하고 시각화할 수 있도록 합니다. 우리는 MEGA-Bench에서 다양한 최첨단 비전-언어 모델을 평가하여 이러한 차원을 통해 그들의 능력을 이해합니다.
최근 대형 언어 모델(LLM)의 발전으로 수학적 추론 능력에 있어서 상당한 진전이 이루어졌습니다. 그러나 GSM8K나 MATH와 같은 기존의 벤치마크는 높은 정확도로 해결되고 있으며(예: OpenAI o1은 MATH 데이터셋에서 94.8%를 달성함), 이 모델들을 진정으로 도전하는 데 부족함을 보여줍니다. 이 간극을 메우기 위해, 우리는 LLM의 수학적 추론 능력을 올림피아드 수준에서 평가하기 위해 특별히 설계된 포괄적이고 도전적인 벤치마크를 제안합니다. 기존의 올림피아드 관련 벤치마크와는 달리, 우리의 데이터셋은 수학에만 초점을 맞추며 엄격한 인간 주석이 달린 4428개의 대회 수준 문제들의 방대한 컬렉션으로 구성되어 있습니다. 이러한 문제들은 33개 이상의 하위 도메인으로 세분화되어 있으며 10개 이상의 서로 다른 난이도 수준을 포괴하고 있어, 올림피아드-수학적 추론에서 모델 성능을 종합적으로 평가할 수 있게 합니다. 게다가, 우리는 이 벤치마크를 기반으로 심층적인 분석을 수행했습니다. 실험 결과는 심지어 가장 선진한 모델인 OpenAI o1-mini와 OpenAI o1-preview도 올림피아드 수준의 매우 어려운 문제들에 어려움을 겪는 것을 보여주며, 60.54%와 52.55%의 정확도를 보여주어 올림피아드 수준의 수학적 추론에서의 중요한 도전을 강조합니다.
생성 모델은 무작위 잡음을 이미지로 변환하며, 이들의 역변환은 이미지를 구조화된 잡음으로 다시 변환하여 회복 및 편집을 목표로 합니다. 본 논문은 두 가지 주요 작업, 즉 (i) 역변환과 (ii) 확률적으로 수정된 흐름 모델(예: Flux와 같은)을 사용하여 실제 이미지의 편집을 다룹니다. 최근 이미지 생성 모델링 분야를 지배해온 확산 모델(DMs)은 역변환 시 드리프트와 확산의 비선형성으로 인해 충실성과 편집 가능성에 도전을 제기합니다. 기존 최첨단 DM 역변환 방법은 추가 매개변수의 교육 또는 잠재 변수에 대한 테스트 시 최적화에 의존하는데, 이는 실제로는 비용이 많이 듭니다. 흐름 모델(RFs)은 확산 모델에 대한 유망한 대안을 제공하지만, 그 역변환은 미개척되어 왔습니다. 우리는 선형 이차 조절기를 통해 유도된 동적 최적 제어를 사용하여 RF 역변환을 제안합니다. 우리는 결과적인 벡터 필드가 정정된 확률적 미분 방정식과 동등함을 증명합니다. 게다가 우리는 Flux에 대한 확률적 샘플러를 설계하기 위해 우리의 프레임워크를 확장합니다. 우리의 역변환 방법은 제로샷 역변환 및 편집에서 최첨단 성능을 제공하며, 스트로크-이미지 합성 및 의미론적 이미지 편집에서 이전 작업을 능가하는 대규모 인간 평가를 통해 사용자 선호도를 확인합니다.
웹에서 스크랩된 데이터를 사용한 멀티모달 모델의 대규모 훈련은 이러한 모델에 필요한 세계 지식을 효과적으로 부여하여 여러 하류 작업에서 효율적으로 수행하도록 하는 데 높은 유틸리티를 보여주었습니다. 그러나 웹에서 데이터를 스크랩하는 것의 단점 중 하나는 이러한 모델의 능력이 종종 평가되는 기준을 희생할 수 있다는 것입니다. 시험 데이터 오염을 방지하고 이러한 기본 모델의 능력을 실제로 테스트하기 위해 우리는 LiveXiv를 제안합니다: 과학 ArXiv 논문을 기반으로 하는 확장 가능한 진화하는 라이브 벤치마크. LiveXiv는 특정 타임스탬프에서 도메인별 원고에 액세스하고 시각적 질문-답변 쌍(VQA)을 자동으로 생성하는 것을 제안합니다. 이는 그림, 차트, 표와 같은 원고의 멀티모달 콘텐츠를 사용하여 인간 개입 없이 이루어집니다. 더불어, 우리는 모든 모델의 성능을 추정하는 효율적인 평가 접근 방식을 소개합니다. 이 방식은 모델의 일부만을 평가하여 진화하는 벤치마크 상의 모든 모델의 성능을 추정합니다. 이는 전체 평가 비용을 크게 줄입니다. 우리는 첫 번째 버전의 벤치마크에서 여러 개의 오픈 및 프로프리터리 대규모 멀티모달 모델(LMMs)을 벤치마킹하여 그 도전적인 성격을 보여주고 모델의 실제 능력을 드러냅니다. 마지막으로, 우리의 고품질에 대한 약속으로 수동으로 검증된 하위 집합을 수집하고 평가했습니다. 우리의 자동 주석과 전반적인 결과를 비교하여 성능 변동이 실제로 미미함을 발견했습니다 (<2.5%). 저희 데이터셋은 HuggingFace에서 온라인으로 제공되며, 저희 코드는 여기에서 이용 가능할 것입니다.
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)이 생성을 위해 외부 지식 소스를 활용할 수 있게 하는 효과적인 기술입니다. 그러나 현재 RAG 시스템은 텍스트에만 기반하고 있어 레이아웃 및 이미지와 같은 시각 정보를 활용하는 것이 불가능하며, 이는 현실 세계의 다중 모드 문서에서 중요한 역할을 합니다. 본 논문에서는 이 문제를 해결하기 위해 비전-언어 모델 (VLM) 기반의 RAG 파이프라인을 구축하는 VisRAG를 소개합니다. 이 파이프라인에서는 문서를 먼저 텍스트를 얻기 위해 구문 분석하는 대신, VLM을 이미지로 직접 포함시킨 후 VLM의 생성을 강화하기 위해 검색합니다. 전통적인 텍스트 기반 RAG와 비교했을 때, VisRAG는 원본 문서의 데이터 정보 보존과 활용을 극대화하며 구문 분석 과정 중에 도입된 정보 손실을 제거합니다. VisRAG에서 검색기를 훈련시키기 위해 오픈 소스 및 합성 데이터를 수집하고 다양한 생성 방법을 탐색합니다. 실험 결과, VisRAG는 전통적인 RAG보다 검색 및 생성 단계에서 우수한 성능을 보이며 전통적인 텍스트 기반 RAG 파이프라인보다 25~39%의 종단 간 성능 향상을 달성합니다. 추가 분석 결과, VisRAG는 훈련 데이터를 활용하는 데 효과적이며 강력한 일반화 능력을 보여 다중 모드 문서에 대한 RAG의 유망한 해결책으로 위치하고 있습니다. 저희의 코드와 데이터는 https://github.com/openbmb/visrag 에서 확인할 수 있습니다.
최근 몇 년간 이미지에서 비디오로의 생성에서 현저한 발전이 있었습니다. 그러나 생성된 프레임의 3D 일관성과 카메라 제어 가능성은 여전히 해결되지 않은 문제입니다. 최근 연구들은 생성 과정에 카메라 제어를 통합하려고 시도해 왔지만, 그 결과는 종종 간단한 궤적에 제한되거나 동일한 장면에 대해 여러 가지 다른 카메라 경로에서 일관된 비디오를 생성하는 능력이 부족합니다. 이러한 한계를 극복하기 위해, 우리는 Cavia를 소개합니다. 이는 입력 이미지를 여러 공간적 및 시간적으로 일관된 비디오로 변환할 수 있는 카메라 제어 가능한 다중 뷰 비디오 생성을 위한 혁신적인 프레임워크입니다. 우리의 프레임워크는 공간 및 시간적 주의 모듈을 뷰 통합 주의 모듈로 확장하여 시각 및 시간적 일관성을 향상시킵니다. 이 유연한 설계는 장면 수준 정적 비디오, 객체 수준 합성 다중 뷰 동적 비디오, 그리고 실제 단안 동적 비디오를 포함한 다양한 정제된 데이터 원본과의 공동 훈련을 가능하게 합니다. 우리의 최고의 지식으로, Cavia는 사용자가 객체 움직임을 얻으면서 카메라 움직임을 정확하게 지정할 수 있는 첫 번째 제품입니다. 광범위한 실험 결과는 Cavia가 기하학적 일관성과 지각적 품질 측면에서 최첨단 방법을 능가한다는 것을 입증합니다. 프로젝트 페이지: https://ir1d.github.io/Cavia/
LLM은 일반적으로 사용자 질문에 답하거나 사람이 응답하는 방식과 유사하게 지시를 따릅니다. 그러나 표준 정렬 프레임워크에서는 답하기 전에 명시적으로 사고하는 기본 능력이 부족합니다. 사고는 추론과 계획이 필요한 복잡한 질문에 중요하지만 어떤 작업에도 적용될 수 있습니다. 우리는 기존 LLM에 이러한 사고 능력을 갖추기 위한 교육 방법을 제안합니다. 이를 통해 추가 인간 데이터 없이 일반적인 지시에 따라 사고하는 능력을 갖춘다. 우리는 가능한 사고 생성 영역을 탐색하고 최적화하는 반복적인 검색 및 최적화 절차를 통해 이를 달성합니다. 각 지시에 대해 사고 후보는 답변만을 평가하기 위해 판단 모델을 사용하여 점수를 매기고, 그런 다음 선호도 최적화를 통해 최적화됩니다. 이 절차가 AlpacaEval 및 Arena-Hard에서 우수한 성능을 보이며, 마케팅, 건강 및 일반 지식과 같은 비추론 범주에서 사고를 통한 이익을 보여주며, 더 전통적인 추론 및 문제 해결 작업에도 적용됨을 보여줍니다.
다중 모달 비디오 이해와 생성을 위해 미세 구간 시간 역학을 이해하는 것은 중요합니다. 미세 구간 시간 주석의 부족으로 인해 기존 비디오 벤치마크는 주로 정적 이미지 벤치마크와 유사하여 시간적 이해 모델을 평가하는 데 부적합합니다. 본 논문에서는 비디오의 미세 구간 시간 이해를 평가하기 위해 새로운 벤치마크인 TemporalBench를 소개합니다. TemporalBench는 비디오 클립의 시간적 역학을 자세히 설명하는 약 2천 개의 고품질 인간 주석에서 파생된 약 1만 개의 비디오 질문-답변 쌍으로 구성됩니다. 결과적으로, 우리의 벤치마크는 행동 빈도, 동작 크기, 사건 순서 등과 같은 다양한 시간적 이해 및 추론 능력을 평가하는 독특한 실험 대상을 제공합니다. 또한 비디오 질문 응답 및 자막 작성, 짧은 비디오 이해 및 긴 비디오 이해뿐만 아니라 다중 모달 비디오 임베딩 모델 및 텍스트 생성 모델과 같은 다양한 모델에 대한 평가를 가능하게 합니다. 결과는 GPT-4o와 같은 최첨단 모델이 TemporalBench에서 38.5%의 질문 응답 정확도만 달성한다는 것을 보여주며, 인간과 AI 간의 시간적 이해에서 중요한 차이(~30%)를 보여줍니다. 또한, 부정적 캡션의 미묘한 변화를 감지하고 예측을 위한 단서로 중앙 집중형 설명을 찾는 LLMs에서 발생하는 중요한 함정을 발견하고, 이러한 편향을 교정하기 위해 Multiple Binary Accuracy (MBA)를 제안합니다. TemporalBench가 모델의 시간적 추론 능력을 개선하기 위한 연구를 촉진할 수 있기를 희망합니다. 데이터셋과 평가 코드가 공개될 예정입니다.
지도 미세 조정(Supervised fine-tuning, SFT)은 대형 언어 모델(Large Language Models, LLMs)을 인간의 지시와 조율하는 데 중요합니다. SFT 중 주요 목표는 더 큰 데이터 풀에서 작지만 대표적인 학습 데이터 하위 집합을 선택하여, 이 하위 집합으로 미세 조정을 수행하면 전체 데이터셋을 사용한 결과와 비교 가능하거나 더 나은 결과를 달성하는 것입니다. 그러나 대부분의 기존 데이터 선택 기술은 소규모 데이터 풀을 대상으로 설계되어 있어 현실 세계의 SFT 시나리오의 요구를 충족시키지 못합니다. 본 논문에서는 외부 모델 지원에 의존하지 않는 몇 가지 자가 점수화 방법을 200만 규모의 데이터셋에서 복제하고, 이러한 대규모 데이터 풀을 다룰 때 대부분의 방법이 임의 선택을 크게 능가하기 어려움을 발견했습니다. 게다가, 우리의 비교는 SFT 중 데이터 선택의 다양성이 단순히 고품질 데이터에 집중하는 것보다 더 중요하다는 것을 시사합니다. 또한 현재 몇 가지 접근법의 한계를 분석하여, 이러한 방법이 대규모 데이터셋에서 성능이 저하되고 이러한 맥락에 부적합한 이유를 설명했습니다. 마지막으로, 토큰 길이에 따라 데이터를 필터링하는 것이 결과를 개선하는 안정적이고 효율적인 방법임을 발견했습니다. 특히 긴 텍스트 데이터를 학습할 때 이 방법은 Llama3와 같이 상대적으로 약한 기본 모델에 매우 유익합니다.
최근 대형 언어 모델(Large Language Model, LLM) 기반 채팅 어시스턴트 시스템은 사용자-어시스턴트 채팅 기록을 추적하는 메모리 구성 요소를 통합하여 더 정확하고 개인화된 응답을 가능하게 하였습니다. 그러나 이러한 시스템의 장기 기억 능력은 지속적 상호작용에서 아직 충분히 탐구되지 않았습니다. 본 논문은 LongMemEval을 소개하는데, 이는 채팅 어시스턴트의 다섯 가지 핵심 장기 기억 능력을 평가하기 위해 설계된 포괄적인 벤치마크입니다: 정보 추출, 다중 세션 추론, 시간적 추론, 지식 업데이트 및 기피. 자유롭게 확장 가능한 사용자-어시스턴트 채팅 기록 내에 포함된 500개의 신중하게 선별된 질문을 통해 LongMemEval은 기존의 장기 기억 시스템에 상당한 도전을 제시하며, 상업용 채팅 어시스턴트 및 장기 문맥 LLM은 지속적 상호작용에서 정보 기억에서 30%의 정확도 하락을 보입니다. 그런 다음 색인, 검색 및 읽기 단계를 통해 장기 기억 설계를 네 가지 설계 선택으로 분해하는 통합 프레임워크를 제시합니다. 주요 실험적 통찰력을 기반으로, 세션 분해를 통한 가치 세분화 최적화, 사실 보강 키 확장을 통한 색인 구조 강화, 그리고 시간 인식 쿼리 확장을 통한 검색 범위 정제를 포함하는 여러 메모리 설계를 제안합니다. 실험 결과는 이러한 최적화가 LongMemEval에서의 기억 회상과 하류 질문 응답 모두 크게 향상시킨다는 것을 보여줍니다. 전반적으로, 본 연구는 LLM 기반 채팅 어시스턴트의 장기 기억 능력을 발전시키기 위한 가치 있는 자원과 지침을 제공하여, 개인화되고 신뢰할 수 있는 대화형 AI로 나아가는 길을 열어줍니다.
대형 Vision-Language 모델(VLMs)의 출현은 다중 모달 이해를 크게 발전시켰으며, 이미지 및 비디오 캡션, 시각적 질문 응답, 교차 모달 검색을 포함한 다양한 작업에서 시각적 및 텍스트 정보를 더 정교하고 정확하게 통합할 수 있게 했습니다. VLMs의 우수한 능력에도 불구하고, 연구자들은 그들의 합성 능력에 대한 포괄적인 이해를 부족하게 여깁니다. 합성 능력은 알려진 시각적 및 텍스트 구성 요소의 새로운 조합을 이해하고 생성하는 능력을 의미합니다. 이전의 기준은 객체, 관계 및 속성 관점에서 비교적 대략적인 합성 능력 평가만 제공하며, 객체 상호 작용, 계산, 복잡한 구성에 대한 심층적인 추론을 간과합니다. 그러나 합성 능력은 VLMs에 대한 일관된 추론과 이해를 용이하게 하는 중요한 능력입니다. 이 한계를 극복하기 위해, 우리는 VLMs의 합성 능력을 철저하고 정확하게 평가하기 위한 새로운 인간 주석이 달린 MMCOMPOSITION을 제안합니다. 우리의 제안된 기준은 이전 작업들을 보완하는 역할을 합니다. MMCOMPOSITION을 통해, 우리는 주류 VLMs의 합성 능력을 정량화하고 탐구할 수 있습니다. 놀랍게도, 우리는 GPT-4o의 합성 능력이 최고의 오픈 소스 모델보다 우수하다는 것을 발견하고, 그 근본적인 이유를 분석합니다. 우리의 실험적 분석은 VLMs의 미세한 합성적 지각 및 추론의 한계를 밝혀내며, VLM 설계 및 훈련 개선을 위한 개선 영역을 가리킵니다. 자세한 자료는 다음 링크에서 확인할 수 있습니다: https://hanghuacs.github.io/MMComposition/
대형 언어 모델 (LLM)은 맥락 내 학습을 통해 다양한 작업에서 놀라운 성과를 보여주었습니다. 단계별 사고가 필요한 복잡한 추론 작업에 대해 Chain-of-Thought (CoT) 프롬프팅은 특히 자기 일관성과 결합될 때 인상적인 결과를 보여주었습니다. 그럼에도 불구하고, 일부 작업은 LLM에게 특히 어려운 것으로 남아 있습니다. Tree of Thoughts (ToT)와 Graph of Thoughts (GoT)가 대안으로 등장하여 복잡한 문제를 하위 문제 경로로 분할합니다. 본 논문에서는 Tree of Problems (ToP)을 제안합니다. 이는 ToT의 간소화된 버전으로, 동일한 하위 작업으로 나눌 수 있는 복잡한 작업에 더 나은 성과를 낼 것으로 가정합니다. 우리의 경험적 결과는 우리의 접근 방식이 ToT와 GoT보다 우수한 성과를 보여주며, 또한 복잡한 추론 작업에서 CoT보다 우수한 성과를 거두었습니다. 이 논문의 모든 코드는 다음에서 공개적으로 이용 가능합니다: https://github.com/ArmelRandy/tree-of-problems.
긴 문맥의 대형 언어 모델(LLMs)을 배포하는 것은 중요하지만 상당한 계산 및 메모리 도전을 야기합니다. 모든 어텐션 헤드를 통해 모든 Key 및 Value (KV) 상태를 캐싱하는 것은 상당한 메모리를 소비합니다. 기존의 KV 캐시 가지치기 방법은 LLMs의 긴 문맥 능력을 손상시키거나 효율성 향상이 제한적인 경우가 있습니다. 본 논문에서는 일부 어텐션 헤드, 즉 검색 헤드라고도 하는 것이 긴 문맥을 처리하는 데 중요하며 모든 토큰에 대해 완전한 주의가 필요한 것을 확인했습니다. 반면, 최근 토큰 및 어텐션 싱크에 주로 초점을 맞추는 다른 모든 헤드, 즉 스트리밍 헤드는 완전한 주의가 필요하지 않습니다. 이 통찰을 바탕으로, 우리는 DuoAttention을 소개합니다. 이는 검색 헤드에만 완전한 KV 캐시를 적용하고 스트리밍 헤드에는 가벼운, 고정 길이의 KV 캐시를 사용하여 LLM의 디코딩 및 사전 채우기 메모리 및 지연 시간을 줄이면서도 그 긴 문맥 능력을 희생하지 않습니다. DuoAttention은 가벼운 최적화 기반 알고리즘과 합성 데이터를 사용하여 검색 헤드를 정확하게 식별합니다. 우리의 방법은 MHA 모델의 경우 최대 2.55배, GQA 모델의 경우 최대 1.67배의 긴 문맥 추론 메모리를 줄이고, 디코딩 속도를 최대 2.18배, 1.50배 빠르게 하며, 사전 채우기 속도를 각각 최대 1.73배, 1.63배 빠르게 합니다. 완전한 주의와 비교하여 최소한의 정확도 손실로, DuoAttention은 양자화와 결합하여 단일 A100 GPU에서 3.3백만 문맥 길이로 Llama-3-8B 디코딩을 가능하게 합니다. 코드는 https://github.com/mit-han-lab/duo-attention에서 제공됩니다.
다양한 환경에서 자율 작동이 가능한 인간 형 로봇은 오랫동안 로봋 연구자들의 목표였다. 그러나 인간 형 로봇에 의한 자율 조작은 주로 일부 특정 장면에 제한되어 왔으며, 이는 일반화 가능한 기술 습득의 어려움 때문이다. 최근의 3D 시각 운동 정책, 예를 들어 3D 확산 정책(DP3)은 이러한 능력을 더욱 광범위한 환경으로 확장하는 데 유망함을 입증했다. 그러나 3D 시각 운동 정책은 종종 카메라 보정 및 포인트 클라우드 분할에 의존하는데, 이는 인간 형 로봇과 같은 이동 로봇에 배치하는 데 어려움을 겪게 한다. 본 연구에서는 이러한 제약을 제거하기 위해 에고센트릭 3D 시각 표현을 활용하는 혁신적인 3D 시각 운동 정책인 개선된 3D 확산 정책(iDP3)을 소개한다. 우리는 iDP3이 전체 사이즈의 인간 형 로봇이 실험실에서 수집한 데이터만을 사용하여 다양한 실제 세계 시나리오에서 자율적으로 기술을 수행할 수 있게 한다는 것을 증명한다. 비디오는 다음 링크에서 확인할 수 있다: https://humanoid-manipulation.github.io
대형 언어 모델은 비전 모델과 통합되어 비디오 이해를 가능하게 함으로써 인상적인 성능을 보여주었습니다. 그러나 이러한 비디오 모델을 평가하는 것은 고유한 도전을 제기하며, 이를 위해 여러 벤치마크가 제안되었습니다. 본 논문에서는 현재 가장 많이 사용되는 비디오-언어 벤치마크가 시간적 추론을 거의 요구하지 않고 해결될 수 있다는 것을 보여줍니다. 우리는 기존 데이터셋에서 세 가지 주요 문제점을 확인했습니다: (i) 단일 프레임에서의 정적 정보만으로도 작업을 해결하는 데 충분한 경우가 많습니다. (ii) 질문과 후보 답변의 텍스트가 지나치게 정보를 제공하기 때문에 모델이 시각적 입력에 의존하지 않고도 정확하게 답변할 수 있습니다. (iii) 세계 지식만으로도 많은 질문에 답할 수 있어 벤치마크가 시각적 추론이 아닌 지식 복제의 테스트가 됩니다. 또한 비디오 이해를 위한 개방형 질문응답 벤치마크도 유사한 문제를 겪는 반면, 대형 언어 모델을 사용한 자동 평가 과정은 신뢰할 수 없어 적합한 대안이 되지 못합니다. 이에 대한 해결책으로 우리는 TVBench를 제안합니다. 이는 혁신적인 오픈 소스 비디오 객관식 질문응답 벤치마크로, 폭넓은 평가를 통해 높은 수준의 시간적 이해가 필요함을 입증합니다. 놀랍게도, 최근의 최첨단 비디오-언어 모델 대부분이 TVBench에서 무작위 수준의 성능을 보이며, Gemini-Pro와 Tarsier만이 명확히 이 기준을 능가하는 것으로 나타났습니다.
우리는 기계적 해석 가능성에서 새로운 도구를 활용하여 대형 언어 모델 (LLM)의 내부 구조가 그들이 훈련을 받은 언어의 기저가 되는 언어 구조와 일치하는지를 조사합니다. 특히, 우리는 (1) 두 언어가 동일한 형태-통사적 과정을 사용할 때 LLM이 이를 공유된 내부 회로를 사용하여 처리하는지, 그리고 (2) 두 언어가 서로 다른 형태-통사적 과정을 요구할 때 LLM이 이를 다른 내부 회로를 사용하여 처리하는지를 묻습니다. 영어와 중국어 다중 및 단일 언어 모델을 사용하여 두 가지 작업에 관여하는 내부 회로를 분석합니다. 우리는 모델이 동일한 구문적 과정을 처리하기 위해 동일한 회로를 사용하며, 이는 해당 언어와는 무관하게 발생하는 경우에도 동일하다는 증거를 찾아냅니다. 또한, 우리는 다중 언어 모델이 언어별 구성 요소 (주의 헤드와 피드포워드 네트워크)를 사용하여 필요한 경우 일부 언어에만 존재하는 언어적 과정 (예: 형태 표시)을 처리하는 데 사용함을 보여줍니다. 이러한 결과들은 LLM이 여러 언어를 동시에 모델링하는 과제를 수행할 때 공통 구조를 활용하고 언어적 차이를 보존하는 사이에서 어떻게 균형을 맞추는지에 대한 새로운 통찰을 제공합니다.
LayerNorm은 현대 대형 언어 모델 (LLM)에서 핵심 구성 요소로, 훈련을 안정화하고 원활한 최적화를 보장합니다. 그러나 이는 메커니즘 해석 가능성, 이상치 특성 억제, 충실한 신호 전파, 그리고 개인 추론의 계산 및 통신 복잡성에 중요한 도전을 제기합니다. 본 연구는 정규화가 없는 디코더 전용 LLMs에서 바람직한 활성화 함수를 탐구합니다. Transformer 기반 모델에서 GELU를 선호하는 것과는 달리, 우리의 경험적 결과는 반대로, ReLU가 LayerNorm이 없는 모델에서 GELU보다 현저히 우수함을 입증하며, perplexity를 8.2% 향상시킵니다. 우리는 GELU의 주요 문제를 발견했는데, 초기 레이어가 엔트로피 과부하를 경험하여, 어텐션 헤드의 표현 능력을 충분히 활용하지 못하게 됩니다. 이는 GELU와 같은 부드러운 활성화 함수가 LayerNorm이 없는 아키텍처에 적합하지 않음을 강조하며, 반면 ReLU의 기하학적 특성인 입력 공간에서의 전문화 및 클래스 내 선택성은 학습 동역학의 개선과 LayerNorm이 없을 때 정보 보존의 향상을 이끌어냅니다. 이 연구는 LayerNorm이 중요한 도전을 제기하는 transformer 아키텍처를 최적화하기 위한 중요한 통찰을 제공합니다.
우리는 일반적인 행동 모델 (LAPA)을 위한 잠재 행동 사전학습(Latent Action Pretraining)인 Vison-Language-Action(VLA) 모델을 사전학습하는 비지도 학습 방법인 LAPA를 소개합니다. 기존의 Vision-Language-Action 모델은 사전학습 중에 인간 텔레오퍼레이터가 일반적으로 수집하는 행동 레이블이 필요합니다. 이는 가능한 데이터 소스와 규모를 제한하는 중요한 요소입니다. 본 연구에서는 로봇 행동 레이블이 없는 인터넷 규모의 비디오에서 학습하는 방법을 제안합니다. 먼저 이미지 프레임 사이의 이산 잠재 행동을 학습하기 위해 VQ-VAE 기반 목적 함수를 활용하는 행동 양자화 모델을 학습한 후, 이러한 잠재 행동을 관측 및 작업 설명으로부터 예측하는 잠재 VLA 모델을 사전학습하고, 마지막으로 잠재에서 로봇 행동으로 매핑하기 위해 소규모 로봇 조작 데이터에서 VLA를 세밀 조정합니다. 실험 결과는 우리의 방법이 대규모 비디오로부터 로봇 조작 정책을 학습하는 기존 기술을 현격히 능가함을 보여줍니다. 더 나아가, 이 방법은 언어 조건, 보이지 않는 객체로의 일반화, 보이지 않는 지시 사항으로의 의미적 일반화가 필요한 실제 조작 작업에서 로봇 행동 레이블로 학습된 최첨단 VLA 모델을 능가합니다. 인간 조작 비디오만을 학습한 결과도 긍정적인 전이를 보여 로봇 공학 기초 모델에 웹 규모 데이터를 활용하는 잠재력을 열어줍니다.