번역이 포함된 일일 선별된 AI 연구 논문
이미지-텍스트 쌍 데이터와 비교했을 때, 교차된 말뭉치는 비전-언어 모델(VLMs)이 인간처럼 세계를 더 자연스럽게 이해할 수 있게 합니다. 그러나 기존 데이터셋은 웹페이지에서 크롤링되어 낮은 지식 밀도, 느슨한 이미지-텍스트 관계, 그리고 이미지 간의 논리적 일관성 부족과 같은 어려움에 직면합니다. 반면, 인터넷에는 인간들이 핵심 주제를 학습하는 데 널리 사용되는 온라인 기하학 수업과 같은 방대한 교육 동영상이 있지만, 이러한 가치 있는 자료들은 VLM 훈련에서 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VLM 사전 훈련을 위한 보다 풍부한 기본 지식을 갖춘 고품질 다중 모달 교과서 말뭉치를 소개합니다. 이는 2.5년 이상의 교육 동영상을 수집하여 총 22,000 수업 시간을 보유하고 있습니다. 먼저 LLM이 제안한 분류법을 사용하여 체계적으로 교육 동영상을 수집합니다. 그런 다음 동영상에서 시각적(키프레임), 오디오(ASR), 텍스트 지식(OCR)을 점진적으로 추출하고 정제하여 시간 순서에 따라 이미지-텍스트 교차된 말뭉치로 구성합니다. 이와 같은 대조 대상과 비교했을 때, 우리의 비디오 중심 교과서는 더 일관된 맥락, 더 풍부한 지식, 그리고 더 나은 이미지-텍스트 정렬을 제공합니다. 실험 결과는 이 교재를 사용한 우수한 사전 훈련 성능을 입증하며, 특히 ScienceQA와 MathVista와 같은 지식과 추론이 필요한 작업에서 뛰어난 성과를 보입니다. 또한, 우리의 교과서에서 사전 훈련된 VLM은 임무 해결을 위해 시각적 및 텍스트 단서를 활용한 교차된 맥락 인식을 높이는 뛰어난 성과를 보입니다. 저희의 코드는 \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}에서 확인하실 수 있습니다.
비디오 생성 기술이 크게 발전했음에도 불구하고, 주어진 객체를 비디오에 삽입하는 것은 여전히 어려운 과제입니다. 이 어려움은 참조 객체의 외관 세부 사항을 보존하고 동시에 일관된 움직임을 정확하게 모델링하는 데 있습니다. 본 논문에서는 고해상도 세부 사항 보존과 정확한 움직임 제어를 갖춘 제로샷 비디오 객체 삽입 프레임워크인 VideoAnydoor를 제안합니다. 텍스트-비디오 모델을 기반으로 시작하여, 전역 식별자를 주입하는 ID 추출기를 활용하고 전체 움직임을 제어하기 위해 상자 시퀀스를 활용합니다. 세부 외형을 보존하고 세밀한 움직임 제어를 지원하기 위해 픽셀 워퍼를 설계합니다. 이는 임의의 키포인트를 갖는 참조 이미지와 해당 키포인트 궤적을 입력으로 받습니다. 궤적에 따라 픽셀 세부 사항을 왜핑하고, 왜핑된 특징을 확산 U-Net과 융합하여 세부 사항 보존을 향상시키고 사용자가 움직임 궤적을 조작하는 데 도움을 줍니다. 또한 비디오와 정적 이미지를 모두 활용하며 다시 가중 재구성 손실을 포함하는 교육 전략을 제안하여 삽입 품질을 향상시킵니다. VideoAnydoor는 기존 방법보다 상당한 우월성을 보이며 작업 특정 세부 조정 없이 다양한 하향 응용 프로그램(예: 토킹 헤드 생성, 비디오 가상 시착, 다중 영역 편집)을 자연스럽게 지원합니다.
기존 대형 언어 모델(Large Language Models, LLMs)의 증가하는 코드 추론 능력과 OpenAI o1 및 o3과 같은 추론 모델의 획기적인 발전으로, 그들의 정교한 경쟁 수준 코딩 능력을 효과적으로 시험하는 더 도전적이고 포괄적인 벤치마크를 개발할 필요가 커지고 있습니다. LiveCodeBench와 USACO와 같은 기존 벤치마크는 사적 테스트 케이스의 부재, 특별한 심사관을 지원하지 않는 문제, 그리고 일치하지 않는 실행 환경으로 인해 부족함이 있습니다. 이 간극을 메우기 위해, 우리는 처음으로 이러한 모든 도전에 효과적으로 대응하는 표준 경쟁 수준 코드 생성 벤치마크인 CodeElo를 소개합니다. CodeElo 벤치마크는 주로 공식 CodeForces 플랫폼을 기반으로 하며 가능한 한 그 플랫폼과 일치하도록 노력합니다. 우리는 CodeForces에서 최근 6개월간의 대회 문제들을 공식 CodeForces 플랫폼과 가능한 한 일치하도록 대회 부문, 문제 난이도 등에 대한 자세한 정보와 함께 컴파일합니다. 우리는 문제를 플랫폼에 직접 제출하고 플랫폼과 일치하며 인간 참가자와 비교 가능하지만 분산이 낮은 신뢰할 수 있는 Elo 등급 계산 시스템을 개발하는 독특한 심사 방법을 소개합니다. CodeElo에서 테스트하여, 30개의 기존 인기 있는 오픈 소스 LLMs와 3개의 소유 LLMs의 Elo 등급을 처음으로 제공합니다. 결과는 o1-mini와 QwQ-32B-Preview가 현저히 두드러지며 각각 1578과 1261의 Elo 등급을 달성하는 것을 보여주며, 다른 모델들은 심지어 가장 쉬운 문제에도 어려움을 겪어 모든 인간 참가자 중 최하위 20%에 위치합니다. C++ 및 Python 사용에 따른 알고리즘 성능 및 비교에 대한 상세 분석 실험도 수행되어, 미래 연구 방향을 제안할 수 있습니다.
최근에는 비디오 대규모 언어 모델(Video LLMs)이 일반적인 비디오 이해 분야에서 놀라운 능력을 보여주고 있습니다. 그러나 이 모델들은 주로 전체적인 이해에 초점을 맞추고 세부적인 공간 및 시간적 세부 사항을 포착하는 데 어려움을 겪고 있습니다. 게다가 고품질의 객체 수준 비디오 지시 데이터와 포괄적인 벤치마크의 부족이 이들의 발전을 방해하고 있습니다. 이러한 도전에 대처하기 위해 우리는 Video LLM을 더 세밀한 수준의 공간-시간 비디오 이해를 위해 강화하는 VideoRefer Suite를 소개합니다. 즉, 비디오 전체에 걸쳐 임의의 객체에 대한 지각 및 추론을 가능하게 합니다. 특히, 우리는 데이터셋, 모델 및 벤치마크 세 가지 핵심 측면에서 VideoRefer Suite를 철저히 개발했습니다. 먼저, 우리는 다중 에이전트 데이터 엔진을 소개하여 정밀하게 큐레이션된 대규모 고품질 객체 수준 비디오 지시 데이터셋 VideoRefer-700K를 구축했습니다. 그 다음으로, 우리는 VideoRefer 모델을 제시했는데, 이 모델은 다재다능한 공간-시간 객체 인코더를 장착하여 정확한 지역 및 순차적 표현을 캡처합니다. 마지막으로, Video LLM의 공간-시간 이해 능력을 포괄적으로 평가하기 위해 VideoRefer-Bench를 세심하게 만들었습니다. 광범위한 실험과 분석을 통해 우리의 VideoRefer 모델이 비디오 지시 벤치마크에서 융통성 있는 성능을 달성할 뿐만 아니라 일반적인 비디오 이해 능력을 촉진한다는 것을 입증했습니다.
우리는 LTX-Video를 소개합니다. 이는 비디오 생성에 대한 종합적인 접근을 채택하는 transformer 기반의 잠재 확산 모델로, Video-VAE와 노이즈 제거 transformer의 역할을 매끄럽게 통합합니다. 기존 방법과는 달리, 이러한 구성 요소를 독립적으로 처리하는 대신 LTX-Video는 상호 작용을 최적화하여 효율성과 품질을 향상시키기 위해 노력합니다. 핵심은 고안된 Video-VAE로, 1:192의 높은 압축 비율을 달성하며, 32 x 32 x 8 픽셀 당 토큰의 시공간 다운스케일링을 가능케 합니다. 이는 transformer의 입력에서 패치 작업을 VAE의 입력으로 이동함으로써 가능해졌습니다. 이러한 고도로 압축된 잠재 공간에서 작동함으로써 transformer는 고해상도 비디오를 생성하는 데 필수적인 완전한 시공간 셀프 어텐션을 효율적으로 수행할 수 있습니다. 그러나 높은 압축은 세부 사항의 표현을 제한합니다. 이를 해결하기 위해 우리의 VAE 디코더는 잠재에서 픽셀로의 변환과 최종 노이즈 제거 단계를 담당하여 픽셀 공간에서 직접 깨끗한 결과물을 생성합니다. 이 접근 방식은 별도의 업샘플링 모듈의 런타임 비용을 부담하지 않으면서 세부 사항을 생성할 수 있는 능력을 보존합니다. 우리의 모델은 텍스트에서 비디오 및 이미지에서 비디오 생성을 포함한 다양한 사용 사례를 지원하며, 두 기능을 동시에 훈련합니다. Nvidia H100 GPU에서 2초 만에 768x512 해상도의 24 fps 비디오 5초를 생성하여 기존의 유사한 규모의 모든 모델을 능가하는 실시간보다 빠른 생성을 달성했습니다. 소스 코드와 사전 훈련된 모델은 공개적으로 제공되며, 접근 가능하고 확장 가능한 비디오 생성을 위한 새로운 기준을 설정했습니다.
Transformer 아키텍처를 사용하는 잠재 확산 모델은 고품질 이미지 생성에서 뛰어난 성과를 보입니다. 그러나 최근 연구에서 이러한 두 단계 설계에서 최적화 딜레마가 드러났습니다: 시각 토크나이저 내의 토큰 당 피처 차원을 증가시키면 재구성 품질이 향상되지만, 비교 가능한 생성 성능을 달성하려면 상당히 큰 확산 모델과 더 많은 훈련 반복이 필요합니다. 결과적으로 기존 시스템은 종종 시각 토크나이저 내 정보 손실로 인한 시각적 아티팩트를 생성하거나 비싼 계산 비용으로 완전히 수렴하지 못하는 하위 최적 솔루션을 선택합니다. 이 딜레마는 제한 없는 고차원 잠재 공간을 학습하는 데 inherent한 어려움에서 비롯된다고 주장합니다. 이를 해결하기 위해 우리는 시각 토크나이저를 훈련할 때 사전 훈련된 비전 기반 모델과 잠재 공간을 정렬하는 것을 제안합니다. 우리의 제안인 VA-VAE (Vision foundation model Aligned Variational AutoEncoder)는 잠재 확산 모델의 재구성-생성 경계를 크게 확장하여 고차원 잠재 공간에서 Diffusion Transformers (DiT)의 빠른 수렴을 가능하게 합니다. VA-VAE의 전체 잠재력을 활용하기 위해 향상된 훈련 전략과 아키텍처 디자인을 갖춘 향상된 DiT 기준선인 LightningDiT를 구축합니다. 통합된 시스템은 ImageNet 256x256 생성에서 FID 점수 1.35로 최신 기술 성능을 달성하면서 원래 DiT에 비해 64 에포크에서 FID 점수 2.11에 도달하여 수렴 속도를 21배 이상 높였습니다. 모델 및 코드는 다음에서 확인할 수 있습니다: https://github.com/hustvl/LightningDiT.
이미지 콘텐츠 안전은 온라인 플랫폼에서 시각 미디어의 증가와 함께 중요한 과제가 되었습니다. 한편, AI 생성 콘텐츠(AIGC) 시대에는 많은 이미지 생성 모델이 성적이거나 폭력적인 콘텐츠를 생성할 수 있습니다. 따라서 안전한 이미지를 식별하는 데 확립된 안전 규칙을 기반으로 하는 것이 중요해졌습니다. 사전 훈련된 다중 모달 대형 언어 모델(MLLMs)은 강력한 패턴 인식 능력을 갖고 있어 이러한 측면에서 잠재력을 제공합니다. 기존 방법은 일반적으로 인간이 레이블링한 데이터셋으로 MLLMs를 세밀하게 조정하는데, 그러나 이는 일련의 단점을 야기합니다. 첫째, 복잡하고 상세한 지침을 따라 데이터를 레이블링하기 위해 인간 주석자에 의존하는 것은 비용이 많이 들며 노동 집약적입니다. 또한 안전 판단 시스템의 사용자는 안전 규칙을 자주 업데이트해야 할 수 있어 인간 기반 주석에 대한 세밀한 조정이 더 어려워집니다. 이로 인해 다음과 같은 연구 질문이 제기되었습니다: 사전 정의된 안전 규칙(안전 규칙 세트)을 사용하여 MLLMs에 쿼리하여 제로샷 설정에서 안전하지 않은 이미지를 감지할 수 있을까? 우리의 연구 결과, 단순히 사전 훈련된 MLLMs에 쿼리하는 것만으로는 만족스러운 결과를 얻지 못했습니다. 이 효과 부족은 안전 규칙의 주관성, 긴 규칙의 복잡성, 그리고 모델의 내재적 편향 등과 같은 요인에서 비롯됩니다. 이러한 도전에 대처하기 위해 우리는 MLLM 기반 방법을 제안합니다. 이 방법은 안전 규칙을 객관화하고, 규칙과 이미지 간의 관련성을 평가하며, 논리적으로 완전하고 단순화된 전제 체인을 사용하여 디바이스된 토큰 확률에 기초한 신속한 판단을 내리며, 필요한 경우에는 계단식 사고 과정을 통해 보다 심층적인 추론을 수행합니다. 실험 결과는 우리의 방법이 제로샷 이미지 안전 판단 작업에 매우 효과적임을 입증하고 있습니다.
자기 수정(Self-Correction)은 대형 언어 모델(Large Language Models, LLMs)이 외부 피드백 없이 초기 응답을 자가 확인하고 자가 정제할 수 있도록 하는 것을 목표로 합니다. 그러나 LLMs는 종종 자가 확인을 효과적으로 수행하지 못하고 올바른 피드백을 생성하지 못하여 잘못된 정제를 유발하고 자가 수정의 실패로 이어지는 경우가 많습니다, 특히 복잡한 추론 작업에서. 본 논문에서는 프로그램 주도 자가 수정(Program-driven Self-Correction, ProgCo)을 제안합니다. 먼저, 프로그램 주도 검증(Program-driven Verification, ProgVe)은 자체 생성된 자가 실행 검증 의사 프로그램을 통해 복잡한 검증 논리와 광범위한 유효성 검사를 달성합니다. 그런 다음, 프로그램 주도 정제(Program-driven Refinement, ProgRe)은 ProgVe로부터 피드백을 받아 응답과 검증 프로그램 모두에 대한 이중 반영과 정제를 수행하여 복잡한 추론 작업에서 잘못된 피드백의 오도를 완화합니다. 세 가지 명령어 따르기 및 수학적 벤치마크 실험 결과 ProgCo가 효과적인 자가 수정을 달성하며, 실제 프로그램 도구와 결합할 때 성능을 더 향상시킬 수 있다는 것을 보여줍니다.
AI 에이전트는 최근 대규모 언어 모델 (LLM) 분야의 중요한 발전에 이끌려 점점 더 보편화되었습니다. 모바일 GUI 에이전트는 AI 에이전트의 하위 집합으로, 모바일 기기에서 자율적으로 작업을 수행하도록 설계되었습니다. 많은 연구가 모바일 GUI 에이전트 연구를 발전시키기 위해 에이전트, 데이터셋 및 평가 기준을 소개했지만, 많은 기존 데이터셋은 정적 프레임 평가에 중점을 두고 있으며 현실 세계에서의 작업 성능을 평가하기에는 포괄적인 플랫폼을 제공하지 못하고 있습니다. 이러한 공백을 해결하기 위해 Android Agent Arena (A3)이라는 새로운 평가 플랫폼을 제안합니다. 기존의 현실 세계 시스템과 달리 A3은 다음을 제공합니다: (1) 실시간 온라인 정보 검색 및 운영 지침과 같은 의미 있는 실용적인 작업; (2) 더 크고 유연한 액션 공간으로, 어떤 데이터셋에서 훈련된 에이전트와도 호환되도록 합니다; 그리고 (3) 자동화된 비즈니스 수준의 LLM 기반 평가 프로세스를 제공합니다. A3에는 21개의 널리 사용되는 일반 제3자 앱과 공통 사용자 시나리오를 대표하는 201가지 작업이 포함되어 있어, 현실 세계 상황에서 모바일 GUI 에이전트를 평가하는 견고한 기반을 제공하며, 인간 노동과 코딩 전문 지식이 적게 필요한 새로운 자율 평가 프로세스를 제공합니다. 해당 프로젝트는 https://yuxiangchai.github.io/Android-Agent-Arena/에서 이용할 수 있습니다.
최근 기초 모델의 발전으로 AI 시스템은 자율 도구 사용 및 추론 능력이 향상되었습니다. 그러나 일상 생활을 최적화하고 내비게이션을 향상시키며 자원 발견을 용이하게 하고 물류를 최적화함으로써 삶을 향상시키는 위치 또는 지도 기반 추론 능력은 체계적으로 연구되지 않았습니다. 이 간극을 메우기 위해 우리는 지리-공간 추론을 통해 다양하고 복잡한 지도 기반 사용자 쿼리를 평가하기 위해 설계된 벤치마크인 MapEval을 소개합니다. MapEval은 지도 도구를 통해 세계 정보를 수집하고 이질적인 지리-공간 맥락(예: 명명된 개체, 여행 거리, 사용자 리뷰 또는 평가, 이미지)를 처리하며 모든 최첨단 기초 모델이 어려워하는 합성 추론을 요구하는 세 가지 유형의 작업(텍스트, API 기반, 시각)을 특징으로 합니다. 180개 도시와 54개 국가에 걸쳐 위치에 대한 700개의 독특한 객관식 질문으로 구성된 MapEval은 기초 모델이 공간 관계, 지도 정보 그래픽, 여행 계획 및 내비게이션 과제를 처리하는 능력을 평가합니다. MapEval을 사용하여 우리는 28가지 주요 기초 모델을 철저히 평가했습니다. 모든 작업에서 뛰어난 성과를 거둔 단일 모델은 없었지만 Claude-3.5-Sonnet, GPT-4o 및 Gemini-1.5-Pro이 전반적으로 경쟁력 있는 성과를 달성했습니다. 그러나 특히 MapEval에서 상당한 성능 차이가 드러났으며, Claude-3.5-Sonnet을 사용한 에이전트는 GPT-4o 및 Gemini-1.5-Pro보다 각각 16% 및 21% 우수한 성과를 보였으며, 오픈 소스 LLM과 비교했을 때 차이가 더 커졌습니다. 우리의 상세한 분석은 현재 모델의 강점과 약점에 대한 통찰을 제공하지만 모든 모델은 여전히 복잡한 지도 이미지와 엄격한 지리-공간 추론에 어려움을 겪으며 인간의 성능을 평균 20% 이상 초과하는 부분에서 모두 부족함이 드러납니다. 이 간극은 MapEval이 일반적인 목적의 기초 모델을 강화시키는 데 중요한 역할을 한다는 점을 강조합니다.
최근 대형 언어 모델(LLMs)의 등장으로 비디오 영역에 정교한 추론 능력이 Video Large Language Models (VideoLLMs)를 통해 도입되었습니다. 그러나 현재 VideoLLMs는 시각 처리에 대한 모든 것에 대해 단일 비전 인코더에 의존하고 있어 LLM에 전달할 수 있는 시각 정보의 양과 유형을 제한합니다. 저희의 방법인 MERV(Multi-Encoder Representation of Videos)는 대신 여러 개의 고정된 비전 인코더를 활용하여 비디오의 통합 표현을 만들어 VideoLLM에 특화된 시각적 지식의 포괄적인 세트를 제공합니다. 각 인코더에서 특징을 시공간적으로 정렬함으로써 우리는 다양한 개방형 및 객관식 비디오 이해 질문에 대처하고 이전 최첨단 작업을 능가합니다. MERV는 표준 비디오 이해 벤치마크에서 Video-LLaVA보다 최대 3.7% 정확도가 더 높으며 더 좋은 Video-ChatGPT 점수를 기록합니다. 또한 우리는 zero-shot Perception Test 정확도에서 이전 최고인 SeViLA를 2.2% 개선합니다. MERV는 최소한의 추가 매개변수를 도입하고 동등한 단일 인코더 방법보다 더 빠르게 훈련되며 시각 처리를 병렬화합니다. 마지막으로 MERV가 각 인코더에서 도메인 지식을 성공적으로 포착한다는 질적 증거를 제시합니다. 우리의 결과는 포괄적인 비디오 이해를 위해 여러 비전 인코더를 활용하는 융합 방향에 대한 유망한 지표를 제공합니다.
현재 대형 언어 모델(LLMs)은 코드 생성과 같은 복잡한 추론 작업에서 정확한 응답을 첫 번째 시도에서 얻는 데 어려움을 겪는 경우가 많습니다. 이전 연구는 이 도전에 대처하기 위해 여러 후보 솔루션을 생성하고 LLM이 생성한 단위 테스트로 검증하는 방식으로 접근했습니다. 단위 테스트의 실행 결과는 올바른 솔루션을 식별하기 위한 보상 신호로 작용합니다. LLM은 항상 자신 있게 실수를 하기 때문에 이러한 단위 테스트는 신뢰할 수 없어서 보상 신호의 품질을 떨어뜨립니다. 솔루션의 수를 확장하면 LLM의 성능이 향상된다는 관찰을 바탕으로, 우리는 보상 신호 품질을 향상시키기 위해 단위 테스트의 확장이 미치는 영향을 탐구합니다. 우리의 선구적인 실험 결과는 단위 테스트 수와 보상 신호 품질 사이에 긍정적인 상관 관계가 있으며, 더 어려운 문제에서 더 큰 이점이 관찰되었습니다. 이러한 통찰을 바탕으로 우리는 효율적이고 고품질의 단위 테스트 확장을 가능케 하는 경량화된 단위 테스트 생성기인 CodeRM-8B를 제안합니다. 더불어, 문제의 난이도에 따라 단위 테스트 수를 조정하는 동적 확장 메커니즘을 구현하여 효율성을 더욱 향상시킵니다. 실험 결과는 우리의 접근 방식이 세 가지 벤치마크에서 다양한 모델의 성능을 크게 향상시킨다는 것을 보여줍니다 (예: Llama3-8B의 성능 향상률은 18.43%, GPT-4o-mini의 경우 3.42%인 HumanEval Plus).
특정 주제의 이미지를 생성하기 위해 텍스트-이미지 모델을 개인화하는 것은 다양한 장면과 스타일에서 빠르게 발전하는 분야입니다. 현재의 접근 방식은 종종 신원 보존과 입력 텍스트 프롬프트와의 균형을 유지하는 데 어려움을 겪습니다. 일부 방법은 주제를 나타내는 단일 텍스트 토큰에 의존하여 표현력을 제한하는 반면, 다른 방법은 더 풍부한 표현을 사용하지만 모델의 이전을 방해하고 프롬프트 정렬을 감소시킵니다. 본 연구에서는 새로운 메커니즘인 Nested Attention을 소개합니다. 이 메커니즘은 풍부하고 표현력 있는 이미지 표현을 모델의 기존 교차-주의 계층에 주입하는 것입니다. 우리의 주요 아이디어는 생성된 이미지의 각 영역에 대해 관련 주제 특징을 선택하는 학습된 중첩 주의 계층에서 파생된 쿼리 종속 주제 값들을 생성하는 것입니다. 이 중첩된 계층을 인코더 기반의 개인화 방법에 통합하고, 이들이 입력 텍스트 프롬프트를 준수하면서 높은 신원 보존을 가능하게 한다는 것을 보여줍니다. 우리의 방법은 일반적이며 다양한 도메인에서 훈련될 수 있습니다. 게다가, 이전의 보존은 서로 다른 도메인의 여러 개인화된 주제를 단일 이미지에 결합할 수 있도록 합니다.
비디오 복원은 야생에서 발생한 알 수 없는 훼손으로부터 시간적으로 일관된 세부 정보를 복구하면서 충실성을 유지하는 데 실제로 어려운 도전을 제기합니다. 확산 기반 복원의 최근 발전에도 불구하고, 이러한 방법은 종종 생성 능력과 샘플링 효율성에서 제한을 겪습니다. 본 연구에서는 임의의 길이와 해상도를 처리하기 위해 설계된 확산 트랜스포머인 SeedVR을 제안합니다. SeedVR의 핵심 설계는 긴 비디오 시퀀스에서 효과적인 복원을 용이하게 하는 이동 창 주의에 있습니다. SeedVR은 전통적인 창 주의의 해상도 제약을 극복하기 위해 공간 및 시간 차원의 경계 근처에서 변수 크기의 창을 지원합니다. 인과적 비디오 오토인코더, 혼합 이미지 및 비디오 훈련, 그리고 점진적 훈련을 포함한 현대적인 방법을 갖춘 SeedVR은 합성 및 실제 벤치마크뿐만 아니라 AI 생성 비디오에서도 매우 경쟁력 있는 성능을 달성합니다. 광범위한 실험을 통해 SeedVR이 일반적인 비디오 복원을 위한 기존 방법들보다 우수함을 입증합니다.
Google Maps, Apple Maps, OpenStreet Maps와 같은 매핑 및 내비게이션 서비스는 다양한 위치 기반 데이터에 액세스하는 데 중요하지만 종종 자연어 지리 공간 쿼리를 처리하는 데 어려움을 겪습니다. 최근 대형 언어 모델(LLMs)의 발전은 질문 응답(QA)에서 약속을 보여주지만 맵 서비스에서 신뢰할 수 있는 지리 QA 데이터셋을 만드는 것은 여전히 어려움이 남아 있습니다. 우리는 MapQaTor를 소개합니다. 이는 재현 가능하고 추적 가능한 맵 기반 QA 데이터셋의 생성을 간소화하는 웹 애플리케이션입니다. 플러그 앤 플레이 아키텍처를 통해 MapQaTor는 모든 맵 API와의 원활한 통합을 가능하게 하여 사용자가 최소한의 설정으로 다양한 소스에서 데이터를 수집하고 시각화할 수 있습니다. API 응답을 캐싱함으로써 플랫폼은 실제 정보가 변화하더라도 일관된 실제 상태를 보장하여 데이터의 신뢰성을 향상시킵니다. MapQaTor는 데이터 검색, 주석 달기 및 시각화를 단일 플랫폼 내에서 중앙화하여 현재 LLM 기반 지리적 추론의 상태를 평가하고 지리 이해력을 향상시키는 기회를 제공합니다. 평가 메트릭은 MapQaTor가 수동 방법과 비교했을 때 최소 30배의 속도로 주석 작업을 가속화한다는 것을 보여주며, 복잡한 맵 추론 데이터셋과 같은 지리 자원 개발의 잠재력을 강조합니다. 웹사이트는 다음 주소에서 운영 중입니다: https://mapqator.github.io/ 그리고 데모 비디오는 다음 주소에서 확인할 수 있습니다: https://youtu.be/7_aV9Wmhs6Q.
구조화된 상태 공간 모델(SSM)은 트랜스포머에 대안으로 등장했습니다. SSM은 종종 장기 의존성을 포착하는 데 효과적이라고 여겨지지만, 우리는 엄격히 증명합니다. 그들은 강한 최근성 편향으로 인해 본질적으로 제한되어 있다는 것을. 우리의 경험적 연구는 또한 이 편향이 모델이 먼 정보를 회상하는 능력을 손상시키고 견고성 문제를 도입한다는 것을 밝혀냅니다. 우리의 확장 실험은 그 후 SSM의 깊은 구조가 장거리 맥락을 학습하는 데 도움이 된다는 것을 발견했습니다. 그러나, 이어지는 이론적 분석은 SSM이 깊어질수록 더 매끄러워지는 또 다른 불가피한 경향을 보인다는 것을 밝혀냅니다. 예를 들어, 토큰 표현이 점점 구별하기 어려워집니다. 최근성과 과도한 매끄러움 사이의 이 기본적인 딜레마는 기존 SSM의 확장 가능성을 방해합니다. 우리의 이론적 발견을 영감받아, 우리는 SSM의 상태 전이 행렬의 두 채널을 극성화하는 것을 제안합니다. 각각을 제로와 원으로 설정하여 동시에 최근성 편향과 과도한 매끄러움에 대처합니다. 실험은 우리의 극성화 기술이 장거리 토큰의 연상 회상 정확도를 일관되게 향상시키고 SSM을 깊은 아키텍처로부터 더 많은 혜택을 누릴 수 있도록 만든다는 것을 입증합니다. 모든 소스 코드는 https://github.com/VITA-Group/SSM-Bottleneck에서 공개되었습니다.
확산 모델은 고품질 시계열 (TS) 데이터를 생성하는 능력을 보여주었습니다. 초기 성공에도 불구하고, 기존 연구들은 주로 개별 수준에서 데이터의 신뢰성에 초점을 맞추었지만, 전체 데이터셋에서 인구 수준의 특성을 보존하는 데 덜 주의를 기울였습니다. 이러한 인구 수준의 특성에는 각 차원의 값 분포와 서로 다른 차원 간의 특정 기능적 의존성 (예: 교차 상관 관계, CC)의 분포가 포함됩니다. 예를 들어, 주택의 에너지 소비 TS 데이터를 생성할 때, 외부 온도와 부엌 온도의 값 분포뿐만 아니라 그들 사이의 CC 분포도 보존되어야 합니다. 이러한 TS 인구 수준의 특성을 보존하는 것은 데이터셋의 통계적 통찰력을 유지하고 모델 편향을 완화하며 TS 예측과 같은 하류 작업을 강화하는 데 중요합니다. 그러나 기존 모델에서는 종종 간과됩니다. 따라서 기존 모델에 의해 생성된 데이터는 원본 데이터와의 분포 이동을 나타내는 경우가 많습니다. 우리는 인구 수준의 특성을 더 잘 보존하는 새로운 TS 생성 모델인 Time Series (PaD-TS)를 제안합니다. PaD-TS의 주요 혁신점은 다음과 같습니다. 1) TS 인구 수준의 특성 보존을 명시적으로 통합한 새로운 교육 방법, 그리고 2) TS 데이터 구조를 더 잘 포착하는 새로운 이중 채널 인코더 모델 아키텍처입니다. 주요 벤치마크 데이터셋에서의 경험적 결과는 PaD-TS가 실제 데이터와 합성 데이터 간의 평균 CC 분포 이동 점수를 5.9배 개선할 수 있으며, 개별 수준의 신뢰성에 대한 최첨단 모델과 유사한 성능을 유지할 수 있다는 것을 보여줍니다.
트랜스포머는 예측을 위해 내용 기반 및 위치 기반 주소 지정 메커니즘에 의존하지만 기존의 위치 인코딩 기술은 종종 위치 기반 주소 지정의 효과를 약화시킵니다. 현재 많은 방법은 주의 맵에서 엄격한 패턴을 강요하여 장거리 종속성을 모델링하고 다양한 작업에 적응하는 능력을 제한합니다. 또한 대부분의 위치 인코딩은 일반적인 편향으로 학습되어 데이터 집합 내 다른 인스턴스에 필요한 특수화가 부족합니다. 이를 해결하기 위해 우리는 시퀀스 내용을 계층별로 통합하여 위치 인코딩을 향상시키는 새로운 프레임워크인 TAPE(컨텍스트화된 동질 위치 임베딩)을 제안합니다. TAPE은 동적이고 컨텍스트 인식 위치 인코딩을 도입하여 전통적인 고정된 패턴의 제약을 극복합니다. 순열 및 직교 동질성을 강제함으로써 TAPE은 위치 인코딩의 안정성을 보장하고 강화 및 적응성을 향상시킵니다. 우리의 방법은 사전 훈련된 트랜스포머에 쉽게 통합될 수 있어 매개 변수 효율적인 미세 조정을 제공하며 추가 비용이 적습니다. 광범위한 실험 결과, TAPE가 기존의 위치 인코딩 기술과 비교하여 언어 모델링, 산술 추론 및 장거리 컨텍스트 검색 작업에서 우수한 성능을 달성함을 보여줍니다.
인간 행동 이해는 다중 모달 시스템의 발전에 중요하다. 최근 강력한 대형 언어 모델(Large Language Models, LLMs)에 의해 주도되는 최신 개발은 다양한 범주를 포괄할 수 있을 만큼 일반적이 되려고 하지만 종종 더 구체적인 능력이 필요하다는 점을 간과한다. 본 연구에서는 더 어려운 세부 행동 인식(Fine-grained Action Recognition, FAR) 작업에 대응한다. 이 작업은 더 짧은 시간 동안 자세한 의미 레이블에 초점을 맞추며("salto backward tucked with 1 turn"과 같은) 세부 행동 레이블을 다룬다. 세부 행동 레이블 주석의 높은 비용과 LLMs의 세밀한 조정에 필요한 상당한 데이터 양을 고려하여, 우리는 준지도 학습(Semi-Supervised Learning, SSL)을 채택하기로 제안한다. 우리의 프레임워크인 SeFAR는 이러한 과제를 해결하기 위해 여러 혁신적인 설계를 통합한다. 구체적으로 충분한 시각적 세부 사항을 포착하기 위해, 우리는 더 효과적인 표현으로 이중 수준의 시간 요소를 구성하고, 이를 기반으로 교사-학생 학습 패러다임을 위한 새로운 강력한 증강 전략을 설계한다. 또한 FAR에 대한 교사 모델의 예측 내에서 높은 불확실성을 처리하기 위해 학습 과정을 안정화하기 위한 적응적 규제를 제안한다. 실험 결과, SeFAR은 두 FAR 데이터셋인 FineGym과 FineDiving에서 최첨단 성능을 달성하며 다양한 데이터 범위에서 다른 준지도 방법보다 우수한 성과를 보여준다. 또한 UCF101과 HMDB51 두 고전적인 굵은 그레인 데이터셋에서 다른 준지도 방법을 능가한다. 추가 분석 및 제거 연구는 우리 설계의 효과를 검증한다. 게다가, 우리의 SeFAR에 의해 추출된 특징이 다중 모달 기초 모델이 세부하고 도메인 특정 의미를 이해하는 능력을 크게 촉진할 수 있음을 보여준다.