번역이 포함된 일일 선별된 AI 연구 논문
대조적 언어-이미지 사전학습(Contrastive Language-Image Pretraining, CLIP)은 이미지와 텍스트를 고정 크기의 벡터로 매핑하여 공통 임베딩 공간에서 정렬하도록 모델을 학습시키는 데 널리 사용됩니다. 이러한 모델은 멀티모달 정보 검색 및 관련 작업에서 핵심적인 역할을 합니다. 그러나 CLIP 모델은 일반적으로 전용 텍스트 모델에 비해 텍스트 전용 작업에서 성능이 떨어집니다. 이로 인해 텍스트 전용 작업과 멀티모달 작업을 위해 별도의 임베딩과 모델을 유지하는 정보 검색 시스템에서는 비효율이 발생합니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 다중 작업 대조 학습 방법을 제안하며, 이를 통해 jina-clip-v1 모델을 학습시켜 텍스트-이미지 및 텍스트-텍스트 검색 작업 모두에서 최첨단 성능을 달성합니다.
최근 몇 년 동안 대규모 언어 모델(LLM)은 다양한 분야에서 놀라운 성과를 거두었습니다. 그러나 지식 업데이트의 시의적절성 부족과 비용 문제, 그리고 LLM의 환각(hallucination) 문제는 지식 집약적 작업에서의 활용을 제한해 왔습니다. 이러한 문제에 대해 검색 증강 생성(Retrieval Augmented Generation, RAG)이 도움을 줄 수 있습니다. 그러나 기존의 검색 증강 모델은 일반적으로 유사성을 쿼리와 문서 간의 연결고리로 사용하며, 검색 후 읽기(retrieve then read) 절차를 따릅니다. 본 연구에서는 유사성이 항상 만병통치약이 아니며, 유사성에만 전적으로 의존할 경우 검색 증강 생성의 성능이 저하될 수 있다고 주장합니다. 이를 위해, 우리는 다층적 사고(Multi-layered Thoughts)를 강화한 검색 증강 생성 프레임워크인 MetRag를 제안합니다. 먼저, 기존의 유사성 중심 사고를 넘어, LLM으로부터 지도를 받는 소규모 유틸리티 모델을 도입하여 유틸리티 중심 사고를 구현하고, 이를 유사성 중심 사고와 종합적으로 결합하여 더 스마트한 모델을 구축합니다. 또한, 검색된 문서 집합이 크고 이를 개별적으로 사용할 경우 문서 간의 공통점과 특징을 파악하기 어렵다는 점을 고려하여, LLM을 작업 적응형 요약기(task adaptive summarizer)로 활용하여 검색 증강 생성에 간결성 중심 사고를 부여합니다. 마지막으로, 이전 단계에서 얻은 다층적 사고를 바탕으로 LLM을 호출하여 지식 증강 생성을 수행합니다. 지식 집약적 작업에 대한 광범위한 실험을 통해 MetRag의 우수성을 입증하였습니다.
본 연구는 대형 언어 모델(LLMs)의 강력한 능력을 활용하여 다중 모달리티(즉, 비디오 및 동작 모달리티) 인간 행동 이해의 영역을 탐구합니다. 최근의 비디오 전용 또는 동작 전용 이해를 위해 설계된 LLMs와는 달리, 우리는 인간 행동을 이해하기 위해서는 비디오와 동작 시퀀스(예: SMPL 시퀀스)의 공동 모델링이 필요하며, 이를 통해 미묘한 신체 부위의 동역학과 의미론을 효과적으로 포착할 수 있다고 주장합니다. 이를 바탕으로, 우리는 인간 동작 이해, 캡션 생성 및 추론을 위한 간단하지만 효과적인 프레임워크인 MotionLLM을 제시합니다. 구체적으로, MotionLLM은 기존의 거친 비디오-텍스트 데이터와 세밀한 동작-텍스트 데이터의 상호 보완적 장점을 활용하여 풍부한 시공간적 통찰력을 얻는 통합 비디오-동작 학습 전략을 채택합니다. 또한, 우리는 다양한 비디오, 동작, 캡션 및 지침으로 구성된 대규모 데이터셋인 MoVid를 수집했습니다. 더 나아가, 비디오와 동작에 대한 인간 행동 이해를 더 잘 평가하기 위해 신중하게 수작업으로 주석을 달은 MoVid-Bench를 제안합니다. 광범위한 실험을 통해 MotionLLM이 캡션, 시공간적 이해 및 추론 능력에서 우수성을 보여줌을 입증했습니다.
본 연구에서는 대규모 언어 모델(LLM)을 위한 포괄적인 정렬 방법론 모음인 Xwin-LM을 소개합니다. 이 모음은 지도 미세조정(SFT), 보상 모델링(RM), 거부 샘플링 미세조정(RS), 직접 선호도 최적화(DPO) 등 여러 핵심 기술을 포함합니다. 주요 구성 요소는 다음과 같습니다: (1) 고품질 명령어 데이터로 초기 미세조정된 Xwin-LM-SFT 모델; (2) GPT-4를 사용해 정밀하게 주석 처리된 대규모 다중 턴 선호도 데이터셋인 Xwin-Pair; (3) Xwin-Pair로 학습된 7B, 13B, 70B 매개변수 규모의 보상 모델인 Xwin-RM; (4) 각 프롬프트가 Xwin-LM-SFT로 생성된 64개의 고유 응답과 Xwin-RM으로 점수 매겨진 다중 선호도 데이터셋인 Xwin-Set; (5) Xwin-Set에서 가장 높은 점수를 받은 응답으로 미세조정된 Xwin-LM-RS 모델; (6) DPO 알고리즘을 사용해 Xwin-Set에서 추가 최적화된 Xwin-LM-DPO 모델. AlpacaEval과 MT-bench에서의 평가는 파이프라인 전반에 걸쳐 일관적이고 상당한 개선을 보여주며, Xwin-LM의 강점과 확장성을 입증합니다. 커뮤니티 연구를 촉진하기 위해 https://github.com/Xwin-LM/Xwin-LM 저장소는 지속적으로 업데이트될 예정입니다.
제어 가능한 음악 생성 방법은 인간 중심의 AI 기반 음악 창작에 있어 핵심적이지만, 현재 속도, 품질, 제어 설계 간의 트레이드오프로 인해 제한적입니다. 특히, Diffusion Inference-Time T-optimization(DITTO)은 최첨단 결과를 제공하지만, 실시간보다 10배 이상 느려 실용적인 사용이 제한됩니다. 우리는 Distilled Diffusion Inference-Time T-Optimization(DITTO-2)라는 새로운 방법을 제안하여, 추론 시간 최적화 기반 제어를 가속화하고 음악 인페인팅, 아웃페인팅, 강도, 멜로디, 음악 구조 제어 등 다양한 응용 분야에서 실시간보다 빠른 생성을 가능하게 합니다. 우리의 방법은 (1) 사전 훈련된 확산 모델을 효율적으로 수정된 일관성 또는 일관성 궤적 증류 과정을 통해 빠른 샘플링을 위해 증류하고, (2) 증류된 모델을 사용하여 단일 단계 샘플링을 효율적인 대체 최적화 작업으로 수행하며, (3) 추정된 노이즈 잠재 공간을 사용하여 최종 다단계 샘플링 생성(디코딩)을 실행하여 최고 품질의 빠르고 제어 가능한 생성을 달성합니다. 철저한 평가를 통해, 우리의 방법이 생성 속도를 10-20배 이상 가속화할 뿐만 아니라, 동시에 제어 준수도와 생성 품질을 모두 개선함을 확인했습니다. 더 나아가, 우리는 텍스트 준수도(CLAP 점수)를 극대화하는 새로운 응용 분야에 우리의 접근 방식을 적용하고, 텍스트 입력이 없는 무조건적 확산 모델을 최첨단 텍스트 제어를 제공하는 모델로 변환할 수 있음을 보여줍니다. 음향 예제는 https://ditto-music.github.io/ditto2/에서 확인할 수 있습니다.
We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation.
3D 생성 기술은 최근 몇 년 동안 눈부신 발전을 이루었습니다. 점수 증류(score distillation) 방법과 같은 기존 기술은 뛰어난 결과를 생성하지만, 장면별로 광범위한 최적화가 필요하여 시간 효율성에 영향을 미칩니다. 반면, 재구성 기반 접근 방식은 효율성을 우선시하지만 불확실성을 제한적으로 처리하기 때문에 품질이 저하되는 문제가 있습니다. 우리는 고품질 3D 생성 모델링을 초 단위로 수행할 수 있는 새로운 방법인 GECO를 소개합니다. 우리의 접근 방식은 두 단계 프로세스를 통해 현재 방법에서 흔히 발생하는 불확실성과 비효율성 문제를 해결합니다. 첫 번째 단계에서는 점수 증류를 사용하여 단일 단계 다중 뷰(multi-view) 생성 모델을 학습합니다. 그런 다음, 두 번째 단계에서 다중 뷰 예측에서 발생하는 뷰 불일치 문제를 해결하기 위해 추가 증류를 적용합니다. 이 두 단계 프로세스는 3D 생성에서 품질과 효율성을 균형 있게 최적화합니다. 우리의 포괄적인 실험을 통해 GECO가 전례 없는 수준의 효율성으로 고품질의 이미지-투-3D(image-to-3D) 생성을 달성함을 입증했습니다.
텍스트 조건부 확산 모델(DMs)이 이미지, 비디오, 3D 생성 분야에서 획기적인 성과를 거두면서, 연구 커뮤니티의 관심은 더욱 도전적인 과제인 텍스트-투-4D 합성으로 옮겨가고 있습니다. 이는 시간 차원을 도입하여 동적 3D 객체를 생성하는 작업입니다. 이러한 맥락에서, 우리는 텍스트-투-3D 합성에 널리 사용되는 Score Distillation Sampling(SDS) 기술이 Janus-faced 문제와 비현실적인 텍스처 문제, 그리고 높은 계산 비용으로 인해 텍스트-투-4D 성능에 상당한 장애물로 작용한다는 점을 발견했습니다. 본 논문에서는 텍스트-투-비디오 프레임을 명시적인 픽셀 정렬 타겟으로 활용하여 정적 3D 객체를 생성하고 여기에 모션을 주입하는 새로운 방법인 Pixel-Level Alignments for Text-to-4D Gaussian Splatting(PLA4D)을 제안합니다. 구체적으로, 우리는 렌더링을 위한 카메라 포즈를 보정하는 Focal Alignment와 픽셀 수준에서 렌더링된 이미지 대비를 통해 기하학적 사전 지식을 추출하는 GS-Mesh Contrastive Learning을 도입했습니다. 또한, 가우시안의 변화를 유도하기 위해 변형 네트워크를 사용한 Motion Alignment와 부드러운 4D 객체 표면을 위한 Reference Refinement를 개발했습니다. 이러한 기술들은 4D Gaussian Splatting이 생성된 비디오와 기하학, 텍스처, 모션을 픽셀 수준에서 정렬할 수 있게 합니다. 기존 방법과 비교하여, PLA4D는 더 나은 텍스처 디테일을 가진 합성 결과물을 더 짧은 시간에 생성하며, Janus-faced 문제를 효과적으로 완화합니다. PLA4D는 오픈소스 모델을 기반으로 완전히 구현되어 접근성과 사용 편의성이 뛰어나며, 4D 디지털 콘텐츠 제작을 위한 유망한 방향성을 제시합니다. 우리의 프로젝트 페이지는 https://github.com/MiaoQiaowei/PLA4D.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 코딩 능력을 평가하는 방법은 여전히 해결되지 않은 문제로 남아 있습니다. 우리는 기존 벤치마크가 실제 코드 저장소와 잘 맞지 않으며, LLM의 코딩 능력을 평가하기에는 부족하다는 점을 발견했습니다. 이러한 지식 격차를 해결하기 위해, 우리는 DevEval이라는 새로운 벤치마크를 제안합니다. DevEval은 세 가지 측면에서 발전을 이루었습니다. (1) DevEval은 코드 분포 및 의존성 분포 등 여러 차원에서 실제 저장소와 일치합니다. (2) DevEval은 13명의 개발자에 의해 주석이 달렸으며, 요구사항, 원본 저장소, 참조 코드, 참조 의존성 등 포괄적인 주석을 포함합니다. (3) DevEval은 117개의 저장소에서 추출한 1,874개의 테스트 샘플로 구성되어 있으며, 인터넷, 데이터베이스 등 10개의 인기 있는 도메인을 다룹니다. DevEval을 기반으로, 우리는 저장소 수준의 코드 생성을 제안하고 gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa 등 8개의 인기 있는 LLM을 DevEval에서 평가했습니다. 우리의 실험은 이러한 LLM의 실제 코드 저장소에서의 코딩 능력을 보여줍니다. 예를 들어, 우리 실험에서 gpt-4-turbo의 최고 Pass@1은 단 53.04%에 불과했습니다. 또한, 우리는 LLM의 실패 사례를 분석하고 그들의 단점을 요약했습니다. 우리는 DevEval이 실제 코드 저장소에서 LLM의 발전을 촉진할 수 있기를 바랍니다. DevEval, 프롬프트, 그리고 LLM의 예측 결과는 공개되었습니다.
대규모 언어 모델(LLM)의 부상은 LLM 기반 애플리케이션(일명 AI 에이전트 또는 코파일럿)이라는 새로운 소프트웨어 패러다임을 가능하게 했습니다. 이는 LLM의 강점과 기존 소프트웨어를 결합한 것입니다. 다양한 테넌트의 LLM 애플리케이션은 하나의 작업을 완료하기 위해 여러 LLM 요청을 사용하여 복잡한 워크플로우를 설계할 수 있습니다. 그러나 현재의 공개 LLM 서비스가 제공하는 지나치게 단순화된 요청 수준의 API를 사용해야 하기 때문에 필수적인 애플리케이션 수준의 정보를 잃게 됩니다. 공개 LLM 서비스는 개별 LLM 요청을 맹목적으로 최적화해야 하므로, LLM 애플리케이션의 종단 간 성능이 최적화되지 못하는 결과를 초래합니다. 이 논문은 LLM 기반 애플리케이션의 종단 간 경험에 초점을 맞춘 LLM 서비스 시스템인 Parrot을 소개합니다. Parrot은 애플리케이션 수준의 지식을 공개 LLM 서비스에 노출시키기 위한 통합 추상화인 Semantic Variable을 제안합니다. Semantic Variable은 요청의 프롬프트에서 입력/출력 변수를 주석 처리하고, 여러 LLM 요청을 연결할 때 데이터 파이프라인을 생성하여 LLM 애플리케이션을 프로그래밍하는 자연스러운 방법을 제공합니다. Semantic Variable을 공개 LLM 서비스에 노출시키면, 기존의 데이터 흐름 분석을 수행하여 여러 LLM 요청 간의 상관관계를 밝힐 수 있습니다. 이 상관관계는 LLM 기반 애플리케이션의 종단 간 성능을 위한 완전히 새로운 최적화 공간을 열어줍니다. 광범위한 평가를 통해 Parrot이 LLM 애플리케이션의 인기 있고 실용적인 사용 사례에서 최대 10배의 성능 향상을 달성할 수 있음을 입증했습니다.
최근 비디오 생성 기술이 급속도로 발전하고 있습니다. 소셜 미디어 플랫폼에서 비디오 콘텐츠의 인기가 높아짐에 따라, 이러한 모델들은 가짜 정보 확산에 대한 우려를 더욱 증폭시키고 있습니다. 따라서, AI 생성 가짜 비디오를 식별하고 가짜 정보로 인한 잠재적 피해를 완화할 수 있는 탐지기에 대한 수요가 점점 증가하고 있습니다. 그러나 가장 최신의 비디오 생성기로부터 대규모 데이터셋이 부족하다는 점이 이러한 탐지기 개발에 걸림돌로 작용하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 첫 번째 AI 생성 비디오 탐지 데이터셋인 GenVideo를 소개합니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다: (1) 100만 개 이상의 AI 생성 비디오와 실제 비디오를 포함한 대규모 비디오 데이터, (2) 다양한 생성 콘텐츠와 방법론을 포괄하여 광범위한 비디오 카테고리와 생성 기술을 다룹니다. 우리는 이 데이터셋에 대한 광범위한 연구를 수행하고, 탐지기의 성능을 평가하기 위해 현실 세계와 유사한 시나리오에 맞춘 두 가지 평가 방법을 제안했습니다: 크로스-생성기 비디오 분류 작업은 훈련된 탐지기가 다양한 생성기에 대해 일반화 능력을 평가하고, 저하된 비디오 분류 작업은 탐지기가 전파 과정에서 품질이 저하된 비디오를 처리하는 견고성을 평가합니다. 또한, 우리는 시간적 및 공간적 차원에서의 불일치를 분석하여 AI 생성 비디오를 식별함으로써 탐지기의 성능을 향상시키기 위해 플러그 앤 플레이 모듈인 Detail Mamba(DeMamba)를 도입했습니다. 우리의 광범위한 실험은 DeMamba가 GenVideo 데이터셋에서 기존 탐지기들에 비해 우수한 일반화 능력과 견고성을 보여줌을 입증합니다. 우리는 GenVideo 데이터셋과 DeMamba 모듈이 AI 생성 비디오 탐지 분야를 크게 발전시킬 것이라고 믿습니다. 우리의 코드와 데이터셋은 https://github.com/chenhaoxing/DeMamba에서 이용 가능할 예정입니다.