번역이 포함된 일일 선별된 AI 연구 논문
컨텍스트 내 생성은 대형 언어 모델의 (LLM) 오픈 태스크 일반화 능력의 핵심 구성 요소입니다. 몇 가지 예시를 컨텍스트로 활용함으로써, LLM은 도메인 내 및 도메인 외 태스크를 수행할 수 있습니다. LLM을 기반으로 한 자동 회귀식 비전-언어 모델 (VLM)의 최근 발전은 텍스트에서 이미지로의 생성 작업에서 인상적인 성능을 보여주었습니다. 그러나 일반 이미지 생성 태스크에 대한 컨텍스트 학습의 잠재력은 크게 탐구되지 않았습니다. 이를 해결하기 위해 우리는 X-Prompt를 소개합니다. 이는 순수 자동 회귀식 대형 비전-언어 모델로, 통합된 컨텍스트 학습 프레임워크 내에서 보이는 이미지 생성 태스크와 이전에 본 적 없는 이미지 생성 태스크에 걸쳐 경쟁력 있는 성능을 제공하도록 설계되었습니다. X-Prompt는 효율적으로 가치 있는 특징을 컨텍스트 예시로부터 압축하는 특수 설계를 통합하여, 보다 긴 컨텍스트 토큰 시퀀스를 지원하고 이전에 본 적 없는 태스크에 대한 일반화 능력을 향상시킵니다. 텍스트 및 이미지 예측을 위한 통합된 훈련 태스크는 X-Prompt가 컨텍스트 예시로부터의 향상된 태스크 인식을 갖추고 일반 이미지 생성을 처리할 수 있도록 합니다. 포괄적인 실험은 모델의 다양한 이미지 생성 태스크에서의 성능과 이전에 본 적 없는 태스크에 대한 일반화 능력을 검증합니다.
기술 보고서는 코딩 작업에 초점을 맞춘 OpenAI의 o1 모델을 복제하려는 O1-CODER를 소개합니다. 이 모델은 강화 학습 (RL)과 몬테카를로 트리 탐색 (MCTS)을 통합하여 모델의 시스템-2 사고 능력을 향상시킵니다. 이 프레임워크에는 표준 코드 테스트를 위한 테스트 케이스 생성기 (TCG)를 훈련시키고, 추론 프로세스와 함께 코드 데이터를 생성하기 위해 MCTS를 사용하며, 정책 모델을 반복적으로 세밀하게 조정하여 먼저 의사 코드를 생성한 다음 전체 코드를 생성하는 것이 포함됩니다. 보고서는 또한 실제 응용 프로그램에서 o1과 유사한 모델을 배포하는 데 기회와 도전을 다루며, 시스템-2 패러다임으로의 전환을 제안하고 환경 상태 업데이트에 대한 필수성을 강조합니다. 업데이트된 모델 진행 상황과 실험 결과는 후속 버전에서 보고될 예정입니다. 모든 소스 코드, 선별된 데이터 세트 및 파생된 모델은 https://github.com/ADaM-BJTU/O1-CODER 에서 공개될 것입니다.
이 연구는 텍스트에서 이미지를 생성하기 위한 스케일별 트랜스포머인 Switti를 제안합니다. 기존의 다음 스케일 예측 AR 모델을 시작으로, 우리는 먼저 이러한 모델들을 T2I 생성을 위해 탐구하고 수렴 및 전반적인 성능을 향상시키기 위한 구조적 수정을 제안합니다. 그런 다음, 사전 학습된 스케일별 AR 모델의 self-attention 맵이 이전 스케일에 대해 약한 의존성을 나타내는 것을 관찰합니다. 이 통찰력을 바탕으로, 우리는 약간 더 나은 생성 품질을 달성하면서도 {sim}11% 빠른 샘플링 및 낮은 메모리 사용량을 가능케 하는 비-AR 대응물을 제안합니다. 더 나아가, 고해상도 스케일에서의 분류기 없는 가이드가 종종 불필요하며 심지어 성능을 저하시킬 수 있다는 것을 밝힙니다. 이러한 스케일에서의 가이드를 비활성화함으로써, {sim}20%의 추가 샘플링 가속화를 달성하고 세밀한 세부사항의 생성을 개선합니다. 광범위한 인간 선호도 연구 및 자동화된 평가 결과, Switti가 기존의 T2I AR 모델을 능가하며 최첨단 T2I 확산 모델과 경쟁하면서 최대 7배 빠르다는 것을 보여줍니다.
우리는 원하는 고해상도 비디오를 생성하기 위한 대규모 생성 모델에 기여하는 것을 목표로 하는 오픈 소스 프로젝트인 Open-Sora Plan을 소개합니다. 우리의 프로젝트는 Wavelet-Flow 변이 오토인코더, Joint Image-Video Skiparse Denoiser 및 다양한 조건 컨트롤러를 포함한 전체 비디오 생성 프로세스를 위한 여러 구성 요소로 구성되어 있습니다. 또한 효율적인 교육 및 추론을 위한 많은 보조 전략이 설계되었으며 원하는 고품질 데이터를 얻기 위한 다차원 데이터 정제 파이프라인이 제안되었습니다. 효율적인 아이디어로부터 이뤄진 우리의 Open-Sora Plan은 질적 및 양적 평가에서 인상적인 비디오 생성 결과를 달성합니다. 우리의 신중한 설계와 실용적 경험이 비디오 생성 연구 커뮤니티에 영감을 줄 것을 희망합니다. 우리의 모든 코드와 모델 가중치는 https://github.com/PKU-YuanGroup/Open-Sora-Plan에서 공개적으로 이용 가능합니다.
확산 기반 생성 모델의 급속한 발전으로 초상 이미지 애니메이션이 높은 성과를 거두었습니다. 그러나 반복적인 샘플링 특성으로 인해 시간적으로 일관된 비디오 생성과 빠른 샘플링에 여전히 도전해야 합니다. 본 논문에서는 픽셀 기반 잠재 공간에서 학습된 움직임 잠재 공간으로 생성 모델링을 전환하여 효율적인 시간적 일관성 움직임을 설계하는 FLOAT라는 오디오 주도 대화형 초상 비디오 생성 방법을 제안합니다. 이를 위해 간단하면서도 효과적인 프레임별 조건부 메커니즘을 갖춘 트랜스포머 기반 벡터 필드 예측기를 도입합니다. 게다가, 우리의 방법은 음성 주도 감정 향상을 지원하여 표현적인 움직임을 자연스럽게 통합할 수 있습니다. 방대한 실험을 통해 우리의 방법이 시각적 품질, 움직임 충실도 및 효율성 측면에서 최신 오디오 주도 대화형 초상 방법을 능가한다는 것을 입증하였습니다.
현재 대형 다중 모달 모델(LMMs)은 장기간 또는 고해상도 비디오를 처리하고 이해하는 데 상당한 어려움을 겪고 있습니다. 이는 주로 고품질 데이터셋의 부족 때문입니다. 이 문제를 데이터 중심적 관점에서 해결하기 위해 우리는 VISTA를 제안합니다. VISTA는 기존 비디오 자막 데이터셋으로부터 장기간 및 고해상도 비디오 지시-추론 쌍을 합성하는 간단하면서도 효과적인 비디오 시공간 증강 프레임워크입니다. VISTA는 비디오를 공간적으로와 시간적으로 결합하여 새로운 합성 비디오를 만들어내며, 이에 따라 이러한 새로운 합성 비디오에 관련된 질문-답변 쌍을 생성합니다. 이 패러다임에 기반하여 우리는 일곱 가지 비디오 증강 방법을 개발하고, 장기간 및 고해상도 비디오 이해를 향상시키기 위한 비디오 지시-추론 데이터셋인 VISTA-400K를 선별합니다. 우리의 데이터에서 다양한 비디오 LMMs를 세밀 조정한 결과, 장기 비디오 이해를 위한 네 가지 어려운 벤치마크에서 평균적으로 3.3%의 향상을 얻었습니다. 더불어, 우리는 첫 번째 포괄적인 고해상도 비디오 이해 벤치마크 HRVideoBench를 소개하였으며, 여기에 우리의 세밀 조정된 모델들은 6.5%의 성능 향상을 달성하였습니다. 이러한 결과는 우리의 프레임워크의 효과성을 강조합니다.
인간은 사회적 동물이다. 어떻게 3D 자율 캐릭터에 유사한 사회적 지능을 갖춰 인식하고 이해하며 상호작용할 수 있는지는 여전히 열려 있는 기본적인 문제이다. 본 논문에서는 3D 자율 캐릭터와의 몰입형 상호작용을 위한 최초의 종단간 소셜 비전-언어-행동 (VLA) 모델링 프레임워크인 SOLAMI를 소개한다. 구체적으로, SOLAMI는 세 가지 측면에서 3D 자율 캐릭터를 구축한다: (1) 소셜 VLA 아키텍처: 우리는 사용자의 다중모달 입력을 기반으로 다중모달 응답 (음성 및 동작)을 생성하여 캐릭터를 사회적 상호작용을 유도하는 통합된 소셜 VLA 프레임워크를 제안한다. (2) 상호작용적 다중모달 데이터: 우리는 데이터 부족 문제를 해결하기 위해 기존의 동작 데이터셋만을 사용하여 자동 파이프라인을 통해 생성된 합성 다중모달 사회적 상호작용 데이터셋인 SynMSI를 제시한다. (3) 몰입형 가상현실 인터페이스: 우리는 다양한 아키텍처에 의해 구동되는 이러한 캐릭터와 몰입적으로 상호작용할 수 있는 VR 인터페이스를 개발한다. 광범위한 양적 실험 및 사용자 연구를 통해 우리의 프레임워크가 사용자 기대에 부합하면서 음성 및 동작 양쪽에서 더 정확하고 자연스러운 캐릭터 응답을 이끌어내며 더 낮은 대기 시간을 보여준다는 것을 입증한다.
본 논문에서는 TAPTRv2를 기반으로 한 TAPTRv3를 제안하며, 이는 장거리 비디오에서의 포인트 추적 강건성을 향상시키기 위해 구축되었습니다. TAPTRv2는 비용 볼륨을 필요로 하지 않고 현실 세계 비디오에서 어떤 포인트든 정확하게 추적할 수 있는 간단한 DETR과 유사한 프레임워크입니다. TAPTRv3는 TAPTRv2의 장기 비디오에서 고품질 피처를 쿼리하는 부족함을 해결함으로써 TAPTRv2를 개선합니다. 여기서 추적 포인트는 일반적으로 시간이 지남에 따라 변동이 증가합니다. TAPTRv3에서는 장거리 비디오에서 더 강력한 추적을 위해 공간 및 시간적 맥락을 활용하여 공간 및 시간 차원에서 더 나은 피처 쿼리를 제공합니다. 공간적 피처 쿼리를 위해 주변 공간 맥락을 활용하여 이미지 피처를 쿼리할 때 주의 점수의 품질을 향상시키는 Context-aware Cross-Attention (CCA)를 제안합니다. 시간적 피처 쿼리를 개선하기 위해 Visibility-aware Long-Temporal Attention (VLTA)를 소개하여 RNN과 유사한 장기 시간 모델링으로 인한 TAPTRv2의 피처 드리프팅 문제를 효과적으로 해결하면서 모든 과거 프레임에 대한 시간적 주의를 수행합니다. TAPTRv3는 다수의 어려운 데이터셋에서 TAPTRv2를 크게 앞선 성과를 보이며 최고 수준의 성능을 달성합니다. 대규모 추가 내부 데이터로 훈련된 방법과 비교해도 TAPTRv3는 여전히 경쟁력을 유지합니다.
다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 이해 및 생성 작업에서 상당한 발전을 이루었습니다. 그러나 이미지-텍스트 콘텐츠를 교차로 생성하는 것은 여전히 도전적이며, 통합된 다중 모달 이해 및 생성 능력이 필요합니다. 통합 모델의 발전은 새로운 해결책을 제공하지만, 데이터 크기 및 다양성 제한으로 인해 기존 벤치마크는 이러한 방법을 평가하기에 충분하지 않습니다. 이 간극을 메우기 위해 우리는 GATE OpenING (OpenING)을 소개합니다. 이는 56가지 실제 과제를 포함한 5,400개의 고품질 인간 주석이 달린 인스턴스로 구성된 포괄적인 벤치마크입니다. OpenING은 여행 가이드, 디자인, 브레인스토밍과 같은 다양한 일상 시나리오를 다루며, 도전적인 교차 생성 방법을 위한 견고한 플랫폼을 제공합니다. 또한, 우리는 오픈 엔드 다중 모달 생성 방법을 평가하기 위한 판단 모델 IntJudge를 제시합니다. 새로운 데이터 파이프라인으로 훈련된 IntJudge는 인간 판단과 82.42%의 일치율을 달성하여 GPT 기반 평가자들을 11.34% 능가합니다. OpenING에서의 광범위한 실험 결과, 현재의 교차 생성 방법에는 여전히 큰 개선 여지가 있다는 것을 보여줍니다. 교차 이미지-텍스트 생성에 대한 주요 발견은 차세대 모델 개발을 안내하는 데 추가로 제시됩니다. OpenING은 https://opening.github.io에서 오픈 소스로 제공됩니다.
기계 학습 기반의 대리 모델은 시뮬레이션 기반 워크플로우를 가속화하는 데 연구자들에게 강력한 도구를 제공합니다. 그러나 이 공간의 표준 데이터셋이 주로 물리적 행동의 소규모 클래스를 다루기 때문에 새로운 접근 방식의 효과를 평가하는 것이 어려울 수 있습니다. 이 갭을 해결하기 위해 우리는 Well을 소개합니다. Well은 다양한 시공간 물리 시스템의 수치 시뮬레이션을 포함하는 대규모 데이터셋 컬렉션으로, 해당 분야 전문가 및 수치 소프트웨어 개발자들의 지식을 활용하여 생물학적 시스템, 유체 역학, 음향 산란, 그리고 외은 은하 체액 또는 초신성 폭발의 자석 유체 역학 시뮬레이션과 같은 다양한 도메인을 다룹니다. 이러한 데이터셋은 개별적으로 또는 보다 포괄적인 벤치마크 스위트의 일부로 활용될 수 있습니다. Well의 사용을 용이하게 하기 위해, 훈련 및 평가를 위한 통합된 PyTorch 인터페이스를 제공합니다. 이 라이브러리의 기능을 보여주기 위해 Well의 복잡한 역학이 제기하는 새로운 도전을 강조하는 예제 베이스라인을 소개합니다. 코드 및 데이터는 https://github.com/PolymathicAI/the_well에서 제공됩니다.
Segment Anything Model 2 (SAM 2)은 비디오 객체 분할 및 추적에 강력한 도구로 부상했습니다. SAM 2의 주요 구성 요소는 프레임 특징 추출을 위한 대규모 다단계 이미지 인코더와 현재 프레임 분할을 돕기 위해 지난 프레임에서 메모리 컨텍스트를 저장하는 메모리 메커니즘을 포함합니다. 다단계 이미지 인코더와 메모리 모듈의 높은 계산 복잡성으로 실제 세계 작업, 예를 들어 모바일 장치에서의 비디오 객체 분할, 응용이 제한되었습니다. 이 한계를 해결하기 위해 저희는 효율적인 메모리 모듈을 도입하여 낮은 지연 시간과 모델 크기로 높은 품질의 결과를 제공하는 경량 추적 모델인 EfficientTAMs를 제안합니다. 저희 아이디어는 비디오 객체 분할을 위한 이미지 인코더로서 일반적이고 비계층적인 Vision Transformer (ViT)을 재방문하고, 현재 프레임 분할을 위한 프레임 특징 추출 및 메모리 계산의 복잡성을 줄이는 효율적인 메모리 모듈을 도입하는 데 기반합니다. 저희는 일반적인 경량 ViTs와 효율적인 메모리 모듈을 사용하여 EfficientTAMs를 구축하고, 비디오 객체 분할 및 추적 작업을 위해 SA-1B 및 SA-V 데이터셋에서 모델을 훈련합니다. 저희는 반지도 학습 VOS 및 promptable 비디오 분할을 포함한 여러 비디오 분할 벤치마크에서 평가하고, 제안된 EfficientTAM이 A100에서 약 2배의 속도 향상 및 약 2.4배의 매개변수 감소로 HieraB+SAM 2 모델과 유사한 성능을 발휘한다는 것을 발견했습니다. Segment anything 이미지 작업에서도 EfficientTAMs가 A100에서 약 20배의 속도 향상 및 약 20배의 매개변수 감소로 원래 SAM보다 유리한 성과를 보입니다. iPhone 15 Pro Max와 같은 모바일 장치에서, EfficientTAMs는 합리적인 품질로 비디오 객체 분할을 수행하기 위해 약 10 FPS로 실행될 수 있으며, 소형 모델이 장치 내 비디오 객체 분할 응용에 대한 능력을 강조합니다.
확산 모델(Diffusion models, DMs)은 사실적인 이미지, 이미지 편집 및 역문제 해결에서 우수한 성과를 거두며, 분류기 없는 안내 및 이미지 역전 기술의 지원을 받습니다. 그러나 교정된 흐름 모델(Rectified flow models, RFMs)은 이러한 작업에 대해 아직 충분히 탐구되지 않았습니다. 기존의 DM 기반 방법은 종종 추가적인 훈련이 필요하며, 사전 훈련된 잠재 모델에 대한 일반화가 부족하며, 성능이 부족하며, ODE 솔버 및 역전 과정을 통한 광범위한 역전파로 인해 상당한 계산 리소스를 요구합니다. 본 연구에서는 먼저 RFM의 벡터 필드 역학에 대한 이론적 및 경험적 이해를 개발하여 노이즈 제거 궤적을 효율적으로 안내하는 데 있어서의 역할을 밝힙니다. 우리의 연구 결과는 우리가 벡터 필드를 결정론적이고 그래디언트 없이 탐색할 수 있다는 것을 보여줍니다. 이 특성을 활용하여 우리는 벡터 필드를 활용하여 그래디언트 스킵을 통해 제어된 이미지 생성 작업을 위한 노이즈 제거 궤적을 조절하는 FlowChef를 제안합니다. FlowChef는 분류기 안내, 선형 역문제 및 이미지 편집을 동시에 다루며, 추가 훈련, 역전 또는 고도의 역전파가 필요하지 않습니다. 마지막으로, 우리는 방대한 평가를 수행하고 FlowChef가 성능, 메모리 및 시간 요구 사항 측면에서 기존의 베이스라인을 크게 능가하며 새로운 최첨단 결과를 달성한다는 것을 보여줍니다. 프로젝트 페이지: https://flowchef.github.io.
최근에는 GPT-4V와 같은 폐쇄 소스 비전-언어 모델(VLMs)에서 고품질 시각 지시 조정 샘플의 급증으로, 다양한 모델 크기의 오픈 소스 VLMs가 출시되는 속도가 가속화되었습니다. 그러나 더 큰 모델을 사용하여 성능을 향상시키기 위해 VLMs를 확장하는 것은 특히 모바일 플랫폼 및 로봇과 같은 자원 제한된 장치에 배포하는 데 상당한 계산적 도전이 따릅니다. 이에 대응하기 위해 우리는 효율성을 우선시하면서도 정확도를 희생하지 않는 새로운 VLM 패밀리인 VLsI: Verbalized Layers-to-Interactions를 제안합니다. VLsI는 2B 및 7B 모델 크기에서 작동하며, 각 레이어의 특징을 자연어 공간으로 매핑하는 중간 "verbalizers"를 도입하는 독특한 레이어별 증류 과정을 활용하여 작은 VLMs가 큰 VLMs의 추론 과정과 유연하게 일치할 수 있도록 합니다. 이 접근 방식은 출력 모방에서 종종 발생하는 훈련 불안정성을 완화하며, 작은 VLMs의 레이어별 진행을 대형 VLMs와 일치시킴으로써 전형적인 최종 레이어 조정을 넘어섭니다. 우리는 VLsI를 열 가지 어려운 비전-언어 벤치마크에서 검증하여, 모델 확장, 병합 또는 구조적 변경 없이 GPT-4V 대비 유의한 성능 향상(2B의 경우 11.0%, 7B의 경우 17.4%)을 달성했습니다.
확산 트랜스포머는 이미지 생성에서 놀라운 능력을 보여주었지만 종종 과도한 매개변수화로 실제 응용 프로그램에서 상당한 추론 오버헤드를 유발합니다. 본 연구에서는 TinyFusion이라는 깊이 가지치기 방법을 제안하여 확산 트랜스포머에서 중복된 레이어를 제거하기 위해 엔드 투 엔드 학습을 통해 설계되었습니다. 우리 접근 방식의 핵심 원칙은 강력한 성능을 회복할 수 있는 가지치기된 모델을 생성하는 것으로, 미세 조정 후 강력한 성능을 되찾을 수 있도록 합니다. 이를 달성하기 위해 우리는 가지치기를 학습 가능하게 만드는 미분 가능한 샘플링 기술을 소개하고, 미래 미세 조정을 시뮬레이션하는 공동 최적화 매개변수를 도입합니다. 이전 연구들은 가지치기 후 손실이나 오류를 최소화하는 데 초점을 맞추었지만, 우리 방법은 가지치기된 모델의 미세 조정 후 성능을 명시적으로 모델링하고 최적화합니다. 실험 결과는 이 학습 가능한 패러다임이 확산 트랜스포머의 레이어 가지치기에 상당한 이점을 제공하며, 기존의 중요도 기반 및 오류 기반 방법을 능가한다는 것을 보여줍니다. 또한 TinyFusion은 DiTs, MARs 및 SiTs와 같은 다양한 아키텍처에 걸쳐 강력한 일반화를 보여줍니다. DiT-XL과의 실험 결과는 TinyFusion이 사전 훈련 비용의 7% 미만으로 얕은 확산 트랜스포머를 만들어내어 FID 점수가 2.86인 2배의 가속을 달성하며, 유사한 효율성을 가진 경쟁 상대를 능가한다는 것을 보여줍니다. 코드는 https://github.com/VainF/TinyFusion에서 확인할 수 있습니다.
대형 언어 모델 (LLM)의 성능 차이는 다양한 지역에서의 효과적인 배포를 방해하여 많은 커뮤니티에서 생성적 AI 도구의 잠재적 경제적 및 사회적 가치를 저해합니다. 그러나 다양한 언어에서 기능적 LLM (\즉, 다중 언어 LLM)의 개발은 영어 이외의 언어에 대한 고품질 평가 자원의 부족으로 지연되고 있습니다. 게다가, 현재의 다중 언어 벤치마크 구축 관행은 종종 영어 자원을 번역하여 다중 언어 시스템이 사용될 환경의 지역적 및 문화적 지식을 무시합니다. 본 연구에서는 지역 시험 자료에서 197,243개의 QA 쌍으로 구성된 평가 스위트를 구축하여 다양한 지역적 맥락에서 다중 언어 LLM의 성능을 측정합니다. 저희의 새로운 자원, INCLUDE은 다중 언어 LLM의 성능을 평가하기 위한 44개의 서면 언어를 대상으로 한 종합적인 지식 및 추론 중심 벤치마크로, 실제 언어 환경에서 배포될 것으로 예상되는 곳에서의 성능을 평가합니다.
비디오 변이형 오토인코더(VAE)는 비디오를 저차원 잠재 공간으로 부호화하여, 대부분의 잠재 비디오 확산 모델(LVDMs)에서 핵심 구성 요소로 작용하여 모델 훈련 비용을 줄이는 역할을 합니다. 그러나 생성된 비디오의 해상도와 지속 시간이 증가함에 따라, 비디오 VAE의 부호화 비용은 LVDMs의 훈련을 제한하는 병목 현상이 됩니다. 또한, 대부분의 LVDMs에서 채택된 블록별 추론 방법은 긴 지속 시간 비디오를 처리할 때 잠재 공간의 불연속성을 유발할 수 있습니다. 계산 병목 현상을 해결하는 핵심은 비디오를 구별 가능한 구성 요소로 분해하고 중요 정보를 효율적으로 부호화하는 데 있습니다. 웨이블릿 변환은 비디오를 여러 주파수 영역 구성 요소로 분해하고 효율성을 크게 향상시킬 수 있습니다. 따라서 저주파 에너지 흐름을 잠재 표현으로 용이하게 하는 다단계 웨이블릿 변환을 활용하는 Wavelet Flow VAE (WF-VAE)를 제안합니다. 더불어, 블록별 추론 중에 잠재 공간의 무결성을 유지하는 방법인 인과 캐시(Causal Cache)를 소개합니다. 최신 비디오 VAE와 비교하여, WF-VAE는 PSNR 및 LPIPS 메트릭에서 우수한 성능을 보여주며, 경쟁력 있는 재구성 품질을 유지하면서 처리량이 2배 높고 메모리 소비량이 4배 낮습니다. 저희의 코드와 모델은 https://github.com/PKU-YuanGroup/WF-VAE에서 확인하실 수 있습니다.
다중 모달 대형 언어 모델(Multimodal large language models, MLLMs)의 안전 문제는 다양한 응용 분야에서 점차 중요한 문제가 되었습니다. 놀랍게도, 이전 연구들은 텍스트 기반 언러닝을 사용하여 MLLMs를 정렬하면 이미지-텍스트 쌍으로 훈련된 MLLMs와 유사한 안전 성능을 달성한다는 반직관적인 현상을 보여줍니다. 이러한 반직관적인 현상을 설명하기 위해 우리는 기존의 다중 모달 안전 벤치마크에서 시각적 안전 정보 누출(Visual Safety Information Leakage, VSIL) 문제를 발견했습니다. 즉, 이미지의 잠재적으로 위험하고 민감한 콘텐츠가 텍스트 쿼리에서 드러나는 것입니다. 이러한 방식으로 MLLMs는 텍스트 쿼리에 따라 이러한 민감한 텍스트-이미지 쿼리를 쉽게 거부할 수 있습니다. 그러나 VSIL이 없는 이미지-텍스트 쌍은 현실 세계 시나리오에서 흔하며 기존의 다중 모달 안전 벤치마크에서 간과되고 있습니다. 이에 우리는 2.4k 개의 이미지-텍스트 쌍을 사용하여 이미지에서 텍스트 쿼리로의 시각적 안전 누출을 방지하는 다중 모달 시각적 누출 없는 안전 벤치마크(VLSBench)를 구축했습니다. 실험 결과는 VLSBench가 LLaVA, Qwen2-VL, Llama3.2-Vision 및 GPT-4o를 포함한 오픈 소스 및 클로즈 소스 MLLMs에 상당한 도전을 제기한다는 것을 보여줍니다. 이 연구는 VSIL이 있는 다중 모달 안전 시나리오에 대해 텍스트 정렬이 충분하다는 것을 보여주며, VSIL이 없는 다중 모달 안전 시나리오에 대해서는 다중 모달 정렬이 더 유망한 해결책임을 보여줍니다. 코드 및 데이터는 다음에서 확인할 수 있습니다: http://hxhcreate.github.io/VLSBench
우리는 장거리 일관성과 풍부한 콘텐츠를 갖춘 15초 동영상을 생성하기 위해 설계된 혁신적인 비디오 확산 모델인 Presto를 소개합니다. 장기간에 걸쳐 시나리오 다양성을 유지하는 비디오 생성 방법을 확장하는 것은 상당한 어려움을 겪습니다. 이를 해결하기 위해 우리는 Segmented Cross-Attention (SCA) 전략을 제안합니다. 이는 숨겨진 상태를 시간적 차원을 따라 세그먼트로 분할하여 각 세그먼트가 해당 서브 캡션에 교차 주의를 기울일 수 있도록 합니다. SCA는 추가 매개변수가 필요하지 않으며, 현재 DiT 기반 아키텍처에 매끄럽게 통합될 수 있습니다. 고품질 장기 동영상 생성을 용이하게 하기 위해 LongTake-HD 데이터셋을 구축했습니다. 이 데이터셋은 시나리오 일관성을 갖춘 261k개의 콘텐츠 풍부한 동영상으로 구성되어 있으며, 전체 비디오 캡션과 다섯 가지 서브 캡션으로 주석이 달려 있습니다. 실험 결과, 우리의 Presto는 VBench 의미 점수에서 78.5%를 달성하고, Dynamic Degree에서 100%를 기록하여 기존 최첨단 비디오 생성 방법을 능가했습니다. 이는 우리가 제안한 Presto가 콘텐츠 풍부성을 크게 향상시키고, 장거리 일관성을 유지하며, 복잡한 텍스트 세부 사항을 포착한다는 것을 보여줍니다. 더 많은 세부 정보는 저희 프로젝트 페이지에서 확인하실 수 있습니다: https://presto-video.github.io/.
우리는 "예술을 만들기 위해 얼마나 많은 사전 지식이 필요한가?"라는 질문을 탐구합니다. 이를 조사하기 위해, 예술 관련 콘텐츠에 접근하지 않고 훈련된 텍스트-이미지 생성 모델을 제안합니다. 그런 다음 몇 가지 선택된 예술적 스타일의 예제만 사용하여 예술 어댑터를 학습하는 간단하면서도 효과적인 방법을 소개합니다. 우리의 실험 결과, 우리 방법을 사용하여 생성된 예술은 대규모, 예술이 풍부한 데이터셋으로 훈련된 모델에 의해 생성된 예술과 사용자들에게 비슷하게 인식됩니다. 마지막으로 데이터 속성 기술을 통해, 예술적 및 비예술적 데이터셋에서의 예제가 새로운 예술적 스타일의 창조에 기여하는 방법을 설명합니다.
이미지에서 시각 정보를 이해하는 데 발생하는 오류(즉, 시각 지각 오류)는 대형 비전 언어 모델(LVLMs)에서 실수의 주요 원인으로 남아 있습니다. 추가 분석이 중요하지만, LVLMs의 시각 지각을 평가하기 위한 데이터셋에는 부족함이 있습니다. 본 연구에서는 과학적 그림의 기하학적 및 숫자 정보에 관한 질문에 대한 LVLMs의 시각 지각 능력을 직접 평가하기 위해 설계된 새로운 데이터셋인 VisOnlyQA를 소개합니다. 우리의 데이터셋은 LVLMs의 시각 지각을 다른 능력(예: 추론)과 독립적으로 분석할 수 있도록 합니다. VisOnlyQA의 평가 세트에는 네 가지 범주의 그림에 대한 12가지 작업에서 1,200개의 객관식 질문이 포함되어 있습니다. 또한 70,000개의 인스턴스로 구성된 합성 훈련 데이터를 제공합니다. VisOnlyQA에서의 실험 결과는 다음과 같은 결과를 강조합니다: (i) GPT-4o 및 Gemini 1.5 Pro를 포함한 20개의 LVLMs는 VisOnlyQA의 시각 지각 작업에서 제대로 작동하지 않지만, 인간의 성능은 거의 완벽합니다. (ii) 합성 훈련 데이터에 대한 미세 조정은 LVLMs의 시각 지각을 향상시킬 잠재력을 보여줍니다. 그러나 관찰된 개선은 특정 작업 및 특정 모델에 한정됩니다. (iii) 강력한 언어 모델은 LVLMs의 시각 지각을 향상시킵니다. 요약하면, 우리의 실험은 LVLMs의 시각 지각 능력을 향상시키기 위해 훈련 데이터와 모델 아키텍처 모두 개선되어야 함을 시사합니다. 데이터셋, 코드 및 모델 응답은 https://github.com/psunlpgroup/VisOnlyQA에서 제공됩니다.
최근 비디오 기반 대규모 언어 모델(Video LLMs)의 발전은 동적 시각적 콘텐츠를 추론하고 해석하는 다양한 능력의 등장을 목격했습니다. 그 중에서도 게임 플레이 비디오는 물리학적 상식을 무시하는 결함을 포함하는 독특한 데이터 원천으로 돋보입니다. 이러한 특성으로 인해 그들은 비디오 LLMs의 물리적 상식 이해 역량을 평가하기 위한 효과적인 기준으로 작용합니다. 본 논문에서는 게임 플레이 비디오에서 물리적 상식 위반을 평가하기 위한 선도적인 기준으로 PhysGame을 제안합니다. PhysGame은 4가지 기본 영역(즉, 기계학, 운동학, 광학 및 물성)을 넘나드는 결함을 포함하는 880개의 비디오로 구성되어 있으며, 12가지 다양한 물리적 상식을 포함합니다. 다양한 최첨단 비디오 LLMs를 철저히 평가한 결과, 현재의 오픈 소스 비디오 LLMs의 성능이 전용 상대들에 비해 상당히 뒤처지는 것으로 나타났습니다. 이 격차를 줄이기 위해, 물리적 상식 학습을 용이하게 하는 140,057개의 질문-답변 쌍으로 이루어진 PhysInstruct 지시 튜닝 데이터셋을 만들었습니다. 또한, 메타 정보 해킹(즉, 잘못된 제목에 의한 생성), 시간 해킹(즉, 프레임 부족) 및 공간 해킹(즉, 공간 해킹)에 의존하여 생성된 34,358개의 훈련 쌍을 포함하는 선호도 최적화 데이터셋 PhysDPO를 제안합니다. 이러한 데이터셋 스위트를 기반으로, 물리적 지식이 향상된 비디오 LLM인 PhysVLM을 제안합니다. 물리적 지향적 벤치마크 PhysGame 및 일반 비디오 이해 벤치마크에 대한 광범위한 실험은 PhysVLM의 최첨단 성능을 입증합니다.
우리는 대규모 언어 모델 (LLM)의 테스트 시간 계산에 대한 증명 가능한 스케일링 법칙을 즐기는 일반적인 두 단계 알고리즘을 제안합니다. 주어진 입력 문제에 대해 제안된 알고리즘은 먼저 N개의 후보 솔루션을 생성하고, 그런 다음 각 후보 쌍이 K번 비교되고 승자만이 다음 라운드로 진출하는 다중 라운드 탈락 토너먼트를 통해 최상의 솔루션을 선택합니다. 최소한의 구현에서 두 단계 모두 블랙박스 LLM만 사용하여 실행될 수 있으며 다른 것은 필요하지 않습니다 (예: 외부 확인자나 보상 모델 없음) 입력 문제를 해결하기 위해 (K + 1) 배의 병렬 처리 가능한 LLM 호출이 필요합니다. 생성된 후보 솔루션이 확률 p_{gen} > 0로 올바르다고 가정하고 올바른 솔루션과 부정확한 솔루션 간의 비교가 p_{comp} > 0.5의 확률로 올바른 승자를 식별한다고 가정할 때 (즉, 무작위 추측보다 나은 경우), 제안된 알고리즘의 실패 확률이 N 및 K에 대해 지수적으로 감소함을 이론적으로 증명합니다: $P(최종 출력이 잘못됨) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ 우리의 어려운 MMLU-Pro 벤치마크와의 경험적 결과는 기술적 가정과 제안된 알고리즘의 효과성, 그리고 테스트 시간 계산의 확장으로부터 얻는 이익을 검증합니다.
기존의 실체화된 인스턴스 목표 탐색 작업은 자연어에 의해 주도되며, 실제 세계에서는 인간 지시사항이 간결하고 모호할 수 있기 때문에 탐색 이전에 인간 사용자가 완전하고 미묘한 인스턴스 설명을 제공한다고 가정합니다. 이 간극을 메우기 위해, 우리는 동적 에이전트-인간 상호작용을 통해 탐색 중에 대상 인스턴스에 대한 불확실성을 적극적으로 해소하기 위한 새로운 작업인 협력적 인스턴스 탐색 (CoIN)을 제안합니다. CoIN에 대응하기 위해, 우리는 Vision Language Models (VLMs)의 지각 능력과 Large Language Models (LLMs)의 능력을 활용하는 협력자-사용자 상호작용과 불확실성 인식 (AIUTA)이라는 새로운 방법을 제안합니다. 먼저, 객체 감지 후 Self-Questioner 모델이 자체 대화를 시작하여 완전하고 정확한 관찰 설명을 얻으며, 새로운 불확실성 추정 기술이 부정확한 VLM 지각을 완화합니다. 그런 다음, 상호작용 트리거 모듈은 사용자에게 질문할지, 탐색을 계속할지 또는 중단할지를 결정하여 사용자 입력을 최소화합니다. 평가를 위해, 실제 및 시뮬레이션된 인간을 모두 지원하는 CoIN-Bench를 소개합니다. AIUTA는 최첨단 방법에 대비하여 인스턴스 탐색에서 경쟁력 있는 성능을 달성하며, 사용자 입력을 처리하는 데 큰 유연성을 보여줍니다.
최근 확산 모델의 발전으로 이미지 및 비디오 생성에서 새로운 기준이 설정되었으며, 단일 및 다중 프레임 컨텍스트에서 현실적인 시각적 합성이 가능해졌습니다. 그러나 이러한 모델은 여전히 효율적이고 명확하게 3D 일관된 콘텐츠를 생성하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 XYZ 이미지를 사용하여 전역 3D 좌표를 인코딩하는 혁신적인 프레임워크인 World-consistent Video Diffusion (WVD)를 제안합니다. 더 구체적으로, RGB 및 XYZ 프레임의 결합 분포를 학습하기 위해 확산 트랜스포머를 훈련시킵니다. 이 접근 방식은 유연한 인페인팅 전략을 통해 다중 작업 적응성을 지원합니다. 예를 들어, WVD는 지정된 카메라 궤적을 따라 XYZ 투영을 사용하여 원본 RGB에서 XYZ 프레임을 추정하거나 새로운 RGB 프레임을 생성할 수 있습니다. 이를 통해 WVD는 단일 이미지에서 3D 생성, 다중 뷰 스테레오 및 카메라 제어 비디오 생성과 같은 작업을 통합합니다. 우리의 접근 방식은 여러 벤치마크에서 경쟁력 있는 성능을 보여주며, 단일 사전 훈련된 모델을 사용하여 3D 일관된 비디오 및 이미지 생성에 확장 가능한 솔루션을 제공합니다.
유추를 하는 것은 인지에 있어 근본적입니다. 네 개 용어로 이루어진 비례 유추는 언어 및 인지 능력을 평가하는 데 자주 사용됩니다. 예를 들어 "산소는 가스와 같은 관계에서 <빈칸>는 <빈칸>와 같은 관계에서"와 같은 유추를 완성하는 것은 첫 번째 용어 쌍("산소"와 "가스") 사이의 의미적 관계(예: "종류")를 식별하고 동일한 관계를 공유하는 두 번째 쌍("알루미늄"과 "금속")을 찾는 것을 요구합니다. 본 연구에서는 비례 유추 완성을 위한 15K 다중 선택 질문 응답(MCQA) 데이터셋을 소개하고 현대 대형 언어 모델(LLMs)의 성능을 다양한 지식 강화 프롬프트 설정에서 평가합니다. 구체적으로, 우리는 프롬프트를 예시, 구조화된 지식 및 특정 지식 세 가지 유형의 지식으로 보강합니다. 결과는 현재의 LLMs에게 비례 유추를 해결하는 것이 여전히 어렵다는 것을 보여주며, 최고 모델이 55%의 정확도를 달성했습니다. 특히, 특정 지식을 제공하는 것이 예시나 구조화된 지식 모음을 제공하는 것보다 모델이 비례 유추를 완성하는 데 더 잘 도와줄 수 있다는 것을 발견했습니다.
지난 수십 년 동안 자율 주행 알고리즘은 인식, 계획 및 제어 분야에서 상당한 진전을 이루었습니다. 그러나 개별 구성 요소를 평가하는 것만으로는 전체 시스템의 성능을 완전히 반영할 수 없으며, 이는 보다 종합적인 평가 방법의 필요성을 강조하고 있습니다. 이는 자율 주행 알고리즘을 평가하기 위한 폐쇄 루프, 사실적이며 실시간 시뮬레이터인 HUGSIM의 개발을 촉발시킵니다. 이를 위해 2D RGB 이미지를 3D 공간으로 끌어올려 3D 가우시안 스플래팅을 통해 시뮬레이터의 렌더링 품질을 향상시키고 폐쇄 루프 환경을 구축합니다. 렌더링 측면에서는 폐쇄 루프 시나리오에서의 새로운 뷰 합성과 관련된 도전을 다루며, 시점 외삽과 360도 차량 렌더링을 포함합니다. 새로운 뷰 합성 이상으로, HUGSIM은 제어 명령에 기반하여 자아 및 배우자 상태 및 관측을 동적으로 업데이트하여 전체 폐쇄 시뮬레이션 루프를 가능하게 합니다. 더불어 HUGSIM은 KITTI-360, Waymo, nuScenes 및 PandaSet에서 70개 이상의 시퀀스 및 400가지 이상의 다양한 시나리오에 걸쳐 포괄적인 벤치마크를 제공하여 기존 자율 주행 알고리즘을 위한 공정하고 현실적인 평가 플랫폼을 제공합니다. HUGSIM은 직관적인 평가 벤치마크로서뿐만 아니라 사실적인 폐쇄 루프 환경에서 자율 주행 알고리즘을 세밀하게 조정할 수 있는 잠재력을 발휘합니다.
텍스트에서 이미지를 생성하는 텍스트-이미지 생성에서 정확한 텍스트 지침과 생성된 이미지 간의 정렬을 달성하는 것은 특히 이미지 내에 쓰여진 텍스트를 렌더링하는 데 중요한 도전입니다. Stable Diffusion 3 (SD3), Flux, AuraFlow와 같은 최첨단 모델은 여전히 정확한 텍스트 표현에 어려움을 겪어, 철자 오류나 일관성 없는 텍스트로 이어집니다. 우리는 교육 없이 최소한의 계산 오버헤드로 텍스트 렌더링 품질을 크게 향상시키는 방법을 제안합니다. 구체적으로, 사전 훈련된 정정된 흐름 (RF) 모델을 위한 오버슈팅 샘플러를 소개하여, 학습된 상미분 방정식(ODE)을 과도하게 시뮬레이션하고 노이즈를 다시 도입하는 방식으로 번갈아가며 사용합니다. 오일러 샘플러와 비교했을 때, 오버슈팅 샘플러는 연속된 오일러 단계에서의 누적 오류를 수정하는 데 도움이 되는 추가 랑게방 운동 항을 효과적으로 도입합니다. 그러나 오버슈팅 강도가 높을 때, 생성된 이미지에서 오버-스무딩 아티팩트가 관찰됩니다. 이 문제를 해결하기 위해, 우리는 각 이미지 패치의 텍스트 내용과의 주의 점수에 따라 오버슈팅의 강도를 적응적으로 제어하는 Attention Modulated Overshooting 샘플러(AMO)를 제안합니다. AMO는 SD3와 Flux에서 텍스트 렌더링 정확도를 향상시키면서 전체 이미지 품질을 희생하지 않거나 추론 비용을 증가시키지 않고 32.3% 및 35.9%의 개선을 보여줍니다.
온라인 악플 콘텐츠 감지는 특히 저자원 환경 및 오디오 모달리티 내에서는 미개척된 분야입니다. 우리는 인도어를 사용하는 경우와 같이 저자원 언어에서 악의적 언어를 감지하기 위해 사전 훈련된 오디오 표현의 잠재력을 조사합니다. Few Shot Learning (FSL)를 사용하여 ADIMA 데이터셋을 활용하여 Wav2Vec 및 Whisper와 같은 모델에서 강력한 표현을 활용하여 다국어 악플 감지를 탐구합니다. 우리의 접근 방식은 이러한 표현을 Model-Agnostic Meta-Learning (MAML) 프레임워크 내에 통합하여 10개 언어에서 악의적 언어를 분류합니다. 우리는 다양한 샷 크기 (50-200)로 실험을 진행하여 제한된 데이터가 성능에 미치는 영향을 평가합니다. 또한, 모델 행동을 더 잘 이해하기 위해 특성 시각화 연구가 수행되었습니다. 이 연구는 저자원 환경에서 사전 훈련된 모델의 일반화 능력을 강조하며, 다국어 환경에서 악의적 언어를 감지하는 데 유용한 통찰을 제공합니다.
화자 확인(SV) 시스템은 주어진 음성 샘플이 특정 화자로부터 유래되었는지를 확인하는 인증 서비스를 제공합니다. 이 기술은 다양한 개인화된 응용 프로그램을 위한 길을 열었습니다. SV 시스템이 직면한 주목할만한 과제는 다양한 감정 스펙트럼에 걸쳐 일관되게 작동하는 능력입니다. 대부분의 기존 모델은 중립 발화와 비교했을 때 감정 발화를 처리할 때 높은 오류율을 나타냅니다. 결과적으로, 이 현상은 종종 관심 있는 음성을 놓치게 만듭니다. 이 문제는 주로 레이블이 지정된 감정적 음성 데이터의 제한된 가용성에서 비롯되며, 다양한 감정 상태를 포괄하는 견고한 화자 표현의 개발을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 CycleGAN 프레임워크를 데이터 증강 방법으로 활용하는 새로운 접근 방식을 제안합니다. 이 기술은 각 특정 화자를 위해 감정적 음성 세그먼트를 합성하면서 고유한 음성 신원을 보존합니다. 우리의 실험 결과는 합성 감정 데이터를 훈련 과정에 통합하는 효과를 강조합니다. 이 증강된 데이터셋을 사용하여 훈련된 모델은 감정 발화 시나리오에서 화자 확인 작업에서 기존 모델을 일관되게 능가하며, 동등 오류율을 최대 3.64%까지 줄입니다.