번역이 포함된 일일 선별된 AI 연구 논문
우리는 인간 중심의 네 가지 핵심 비전 작업인 2D 포즈 추정, 신체 부위 분할, 깊이 추정 및 표면 법선 예측을 위한 모델 패밀리인 Sapiens를 제안합니다. 우리의 모델은 기본적으로 1K 고해상도 추론을 지원하며, 야외에서 촬영된 인간 이미지 3억 개 이상을 사전 훈련한 모델을 단순히 세밀 조정하여 각 작업에 매우 쉽게 적응할 수 있습니다. 동일한 계산 예산을 가정할 때, 인간 이미지의 선별된 데이터셋에서의 자기 지도 사전 훈련은 다양한 인간 중심 작업의 성능을 현저히 향상시킵니다. 결과 모델은 라벨이 부족하거나 완전히 합성된 데이터일 때에도 야외 데이터에 대한 놀라운 일반화 능력을 보여줍니다. 우리의 간단한 모델 설계는 확장성을 제공하며, 매개 변수 수를 0.3억 개에서 20억 개로 확장함에 따라 작업 간 모델 성능이 향상됩니다. Sapiens는 다양한 인간 중심 벤치마크에서 기존 기준선을 일관되게 능가합니다. 우리는 Humans-5K (포즈)에서 7.6 mAP, Humans-2K (부분 분할)에서 17.1 mIoU, Hi4D (깊이)에서 상대 RMSE 22.4%, 그리고 THuman2 (법선)에서 상대 각도 오차 53.5%에 대해 이전 최첨단 기술에 비해 상당한 개선을 달성했습니다.
자연어 처리(NLP)에서 대형 언어 모델(LLMs)은 높은 텍스트 생성 품질을 증명했습니다. 그러나 실제 응용 프로그램에서는 LLMs가 점점 복잡한 요구 사항을 충족해야 합니다. 오도하는 또는 부적절한 콘텐츠를 피하는 것을 넘어서, LLMs는 특정 사용자 요구를 충족시키기 위해 특정한 글쓰기 스타일을 모방하거나 시적 풍부성을 갖춘 텍스트를 생성하는 것이 기대됩니다. 이러한 다양한 요구 사항은 사전 정의된 제어 조건 - 안전, 감정, 주제 일관성 및 언어 스타일과 같은 제어 조건을 준수하면서 도움, 유창성 및 다양성의 높은 수준을 유지하는 Controllable Text Generation (CTG) 기술의 발전을 촉진했습니다. 본 논문은 LLMs에 대한 CTG의 최신 발전을 체계적으로 검토하며, 핵심 개념의 포괄적인 정의를 제시하고 제어 조건과 텍스트 품질에 대한 요구 사항을 명확히 합니다. 우리는 CTG 작업을 콘텐츠 제어와 속성 제어 두 가지 주요 유형으로 분류하고, 모델 재교육, 미세 조정, 강화 학습, 프롬프트 엔지니어링, 잠재 공간 조작 및 디코딩 시간 개입을 포함한 주요 방법을 논의합니다. 각 방법의 특성, 장단점을 분석하여 생성 제어를 달성하기 위한 세심한 통찰을 제공합니다. 게다가, 우리는 CTG 평가 방법을 검토하고 도메인 전반에 걸친 응용을 요약하며, 현재 연구에서 감소한 유창성과 실용성과 같은 주요 도전에 대응합니다. 또한, 우리는 미래 연구에서 현실 세계 응용에 더 많은 중점을 두는 등 몇 가지 제안을 제시합니다. 본 논문은 해당 분야의 연구자와 개발자들에게 가치 있는 지침을 제공하기 위한 것입니다. 우리의 참고 문헌 목록과 중국어 버전은 https://github.com/IAAR-Shanghai/CTGSurvey에서 오픈 소스로 제공됩니다.
대형 언어 모델(Large language models, LLMs)은 금융 응용 프로그램을 발전시켰지만 종종 충분한 금융 지식이 부족하며 테이블 및 시계열 데이터와 같은 다중 모달 입력이 포함된 작업에서 어려움을 겪습니다. 이러한 한계를 극복하기 위해 우리는 Open-FinLLMs를 소개합니다. 이는 금융 LLMs 시리즈입니다. 우리는 520억 토큰의 금융 말뭉치로 사전 훈련된 FinLLaMA로 시작하여 텍스트, 테이블 및 시계열 데이터를 통합하여 포괄적인 금융 지식을 내포합니다. 그런 다음 FinLLaMA는 57만 3천개의 금융 지침으로 지시를 세밀하게 조정하여 작업 성능을 향상시키는 FinLLaMA-instruct를 도입합니다. 마지막으로, 복합적인 금융 데이터 유형을 처리하기 위해 143만 개의 이미지-텍스트 지침으로 훈련된 FinLLaVA를 제시합니다. 철저한 평가를 통해 FinLLaMA가 LLaMA3-8B, LLaMA3.1-8B 및 BloombergGPT보다 19개 및 4개의 데이터 세트에서 제로샷 및 퓨샷 설정에서 우수한 성능을 발휘하는 것을 입증했습니다. FinLLaMA-instruct는 15개의 데이터 세트에서 GPT-4 및 다른 금융 LLMs를 능가했습니다. FinLLaVA는 4개의 복합적인 작업에서 테이블과 차트를 이해하는 데 뛰어납니다. 게다가, FinLLaMA는 거래 시뮬레이션에서 인상적인 샤프 비율을 달성하여 견고한 금융 응용 능력을 강조했습니다. 우리는 계속해서 모델과 벤치마크를 유지하고 개선하여 학계 및 산업의 지속적인 혁신을 지원할 것입니다.
지시(또는 "대화") 튜닝된 모델은 대부분의 사람들이 대규모 언어 모델과 상호 작용하는 주요 방법이 되었습니다. "기본" 또는 "기초" 모델과는 달리, 지시 튜닝된 모델은 명령문에 응답할 수 있도록 최적화되어 있습니다. 우리는 강력한 추론 및 창의적 능력을 갖춘 중립적으로 정렬된 일반적인 지시 및 도구 사용 모델인 Hermes 3를 제시합니다. 그 가장 큰 버전인 Hermes 3 405B는 여러 공개 벤치마크에서 오픈 웨이트 모델 중 최고 수준의 성능을 달성합니다.
다중 모달 이해와 생성을 통합하는 통합 트랜스포머인 쇼-오(Show-o)를 제안합니다. 완전 자기 회귀 모델과는 달리, 쇼-오는 입력과 출력을 적응적으로 처리하기 위해 자기 회귀와 (이산적) 확산 모델링을 통합합니다. 이 통합 모델은 시각-언어 작업을 유연하게 지원하며 시각적 질문 응답, 텍스트-이미지 생성, 텍스트 안내 들어그리기/외삽, 그리고 혼합 모달 생성을 포함한 다양한 작업을 수행합니다. 다양한 벤치마크를 통해, 기존 개별 모델과 동등하거나 더 많은 매개변수를 가진 모델과 비교하여 동등하거나 우수한 성능을 보여줍니다. 이는 다음 세대의 기반 모델로서의 잠재력을 상당히 강조합니다. 코드 및 모델은 https://github.com/showlab/Show-o에서 공개되어 있습니다.
저희는 텍스트에서 비디오(xGen-VideoSyn-1)를 생성하는 T2V(T2V) 생성 모델을 제시합니다. 최근 OpenAI의 Sora와 같은 발전을 기반으로, 저희는 잠재 확산 모델(LDM) 아키텍처를 탐구하고 비디오 변이 오토인코더(VidVAE)를 소개합니다. VidVAE는 비디오 데이터를 공간적으로와 시간적으로 모두 압축하여 시각적 토큰의 길이와 장기 시퀀스 비디오 생성에 따른 계산 요구를 크게 줄입니다. 계산 비용을 더 줄이기 위해, 우리는 비디오 세그먼트 간의 시간적 일관성을 유지하는 분할 및 병합 전략을 제안합니다. 저희의 확산 트랜스포머(DiT) 모델은 공간적 및 시간적 셀프 어텐션 레이어를 통합하여 다양한 타임프레임과 종횡비에 걸쳐 강력한 일반화를 가능하게 합니다. 저희는 매우 초기부터 데이터 처리 파이프라인을 설계하고 1300만 개 이상의 고품질 비디오-텍스트 쌍을 수집했습니다. 이 파이프라인에는 클리핑, 텍스트 감지, 모션 추정, 미학 점수 매기기, 그리고 저희의 내부 비디오-LLM 모델을 기반으로 한 밀도 캡션 작성과 같은 여러 단계가 포함되어 있습니다. VidVAE 및 DiT 모델을 훈련하는 데 각각 약 40일과 642 H100일이 소요되었습니다. 저희 모델은 720p 14초 이상의 비디오 생성을 end-to-end 방식으로 지원하며 최첨단 T2V 모델에 대항하여 경쟁력 있는 성능을 보여줍니다.
우리는 Jamba 아키텍처를 기반으로 한 새로운 명령어 튜닝 대형 언어 모델인 Jamba-1.5를 제안합니다. Jamba는 하이브리드 Transformer-Mamba 전문가 구조로, Transformer 모델과 동일하거나 더 나은 품질을 유지하면서 다양한 문맥 길이에서 높은 처리량과 낮은 메모리 사용량을 제공합니다. 우리는 Jamba-1.5-Large(94B 활성 매개변수)와 Jamba-1.5-Mini(12B 활성 매개변수) 두 가지 모델 크기를 공개합니다. 두 모델은 대화 및 명령어 따르기 능력을 위해 세밀하게 조정되었으며, 256K 토큰의 효과적인 문맥 길이를 갖추었으며, 이는 오픈 가중치 모델 중 가장 큽니다. 비용 효율적인 추론을 지원하기 위해 우리는 ExpertsInt8을 소개합니다. 이는 Jamba-1.5-Large를 8개의 80GB GPU가 장착된 기계에 256K 토큰 문맥을 처리할 때 품질 손실 없이 맞출 수 있는 새로운 양자화 기술입니다. 학술 및 챗봇 벤치마크를 통해 평가한 결과, Jamba-1.5 모델은 우수한 결과를 달성하며, 긴 문맥 벤치마크에서 다른 오픈 가중치 모델을 능가하는 높은 처리량을 제공합니다. 두 크기의 모델 가중치는 Jamba 오픈 모델 라이선스에 따라 공개되며, ExpertsInt8은 오픈 소스로 공개됩니다.
우리는 디지털 미디어 번성 시대에 살고 있으며 누구나 개인 영화 제작자가 될 수 있는 잠재력을 갖고 있습니다. 영화적 전송에 대한 현재 연구는 영화 제작자들이 고전 샷으로부터 시각적 요소(예: 촬영 기법 및 캐릭터 행동)를 재생산하고 조작할 수 있도록 돕습니다. 그러나 재상상된 영화의 캐릭터들은 여전히 수작업에 의존하며, 이는 상당한 기술적 복잡성과 높은 비용이 필요하여 일반 사용자에게는 어렵습니다. 게다가, 예상된 촬영 기법은 인터프레임 모션의 부적절한 캡처와 물리적 궤적의 모델링으로 인해 부드러움이 부족합니다. 다행히도 2D 및 3D 인공지능 그래픽 생성의 놀라운 성공으로 사용자의 요구에 맞게 캐릭터를 효율적으로 생성하여 촬영 기법을 다양화할 수 있는 가능성이 열렸습니다. 본 논문에서는 사용자 친화적인 영화 제작을 지원하기 위해 영화 제작 패러다임에 생성적 인공지능을 선도하는 새로운 영화적 전송 프레임워크인 DreamCinema를 제안합니다. 구체적으로, 우리는 먼저 영화적 요소(즉, 인간 및 카메라 포즈)를 추출하고 카메라 궤적을 최적화합니다. 그런 다음 캐릭터 생성기를 적용하여 인간 구조를 기반으로 3D 고품질 캐릭터를 효율적으로 생성합니다. 마지막으로 생성된 캐릭터를 영화 제작에 통합하고 3D 그래픽 엔진을 통해 부드럽게 전송하기 위해 구조 안내 모션 전송 전략을 개발합니다. 광범위한 실험은 우리의 방법이 자유로운 카메라와 3D 캐릭터로 고품질 영화를 만드는 데 효과적임을 입증합니다.
임베딩 모델은 자연어 처리(NLP)에서 중요한 역할을 하며, 정보 검색 및 의미론적 텍스트 유사성 평가와 같은 다양한 작업에 사용되는 텍스트 임베딩을 생성합니다. 본 논문은 러시아어에 관련된 임베딩 모델 연구에 초점을 맞추고 있습니다. 새로운 러시아어 중심의 임베딩 모델인 ru-en-RoSBERTa와 MTEB(Massive Text Embedding Benchmark)를 확장한 러시아어 버전인 ruMTEB 벤치마크를 소개합니다. 저희의 벤치마크에는 의미론적 텍스트 유사성, 텍스트 분류, 재랭킹, 검색 등 7가지 범주의 작업이 포함되어 있습니다. 본 연구는 제안된 벤치마크에서 러시아어 및 다국어 모델의 대표적인 세트를 평가합니다. 연구 결과는 새로운 모델이 러시아어에서 최첨단 모델과 유사한 결과를 달성한다는 것을 보여줍니다. 우리는 ru-en-RoSBERTa 모델을 공개하며, ruMTEB 프레임워크는 오픈 소스 코드, 원본 프레임워크 통합 및 공개 리더보드를 제공합니다.
우리는 Mamba 아키텍처를 기반으로 한 자기회귀(AR) 이미지 생성 모델인 AiM을 소개합니다. AiM은 Mamba를 활용하는데, Mamba는 선형 시간 복잡도로 장기 시퀀스 모델링에 뛰어난 성능을 보이는 새로운 상태-공간 모델로 특징지어집니다. AR 이미지 생성 모델에서 일반적으로 사용되는 트랜스포머를 대체하여, AiM은 우수한 생성 품질과 향상된 추론 속도를 동시에 달성하기 위해 노력합니다. 기존 방법들이 Mamba를 2차원 신호를 처리할 수 있도록 다방향 스캔을 통해 적응하는 반면, AiM은 자기회귀 이미지 생성을 위해 다음 토큰 예측 패러다임을 직접 활용합니다. 이 접근 방식은 Mamba가 2D 공간 표현을 학습할 수 있도록 광범위한 수정이 필요하지 않도록 합니다. 시각적 생성 작업을 위해 직관적이면서 전략적으로 목표를 맞춘 수정을 구현함으로써, 우리는 Mamba의 핵심 구조를 유지하고 효율적인 장기 시퀀스 모델링 능력과 확장성을 완전히 활용합니다. 우리는 148M에서 1.3B에 이르는 다양한 규모의 AiM 모델을 제공합니다. ImageNet1K 256*256 벤치마크에서, 우리의 최고 AiM 모델은 2.21의 FID를 달성하여, 유사한 매개변수 수를 갖는 모든 기존 AR 모델을 능가하며, 확산 모델에 대해 상당한 경쟁력을 보여주며 2배에서 10배 빠른 추론 속도를 보여줍니다. 코드는 https://github.com/hp-l33/AiM에서 확인할 수 있습니다.
본 보고서에서는 베트남어 작업을 위한 안정적인 10억 개 파라미터의 다중모달 대형 언어 모델(Multimodal Large Language Model, MLLM)인 Vintern-1B를 소개합니다. Qwen2-0.5B-Instruct 언어 모델과 InternViT-300M-448px 시각 모델을 통합함으로써, Vintern-1B는 광학 문자 인식(OCR), 문서 추출, 베트남어 환경에서의 일반적인 질의응답을 포함한 다양한 응용 프로그램에 최적화되었습니다. 이 모델은 300만 개 이상의 이미지-질문-답변 쌍 데이터셋에서 세밀하게 조정되어, OpenViVQA 및 ViTextVQA와 같은 다양한 베트남어 언어 벤치마크에서 견고한 성능과 신뢰할 수 있는 결과를 달성했습니다. Vintern-1B는 다양한 장치 내 응용 프로그램에 쉽게 적합한 크기입니다. 더불어, Gemini 1.5 Flash로 생성된 텍스트 및 다이어그램용 베트남어 시각 질문 응답(VQA) 데이터셋을 오픈소스로 제공하였습니다. 저희 모델은 다음 링크에서 이용 가능합니다: https://huggingface.co/5CD-AI/Vintern-1B-v2.
우리는 Pyramid Attention Broadcast (PAB)를 제시합니다. 이는 DiT 기반 비디오 생성을 위한 실시간, 고품질 및 학습 불필요한 접근 방식입니다. 우리의 방법은 확산 과정에서의 주의 차이가 U자형 패턴을 나타내어 상당한 중복성을 보여준다는 관찰에 기초합니다. 우리는 이를 피라미드 스타일로 주의 출력을 후속 단계에 방송함으로써 완화합니다. 각 주의에 대해 분산에 따라 다른 방송 전략을 적용하여 최상의 효율성을 달성합니다. 더 나아가 더 효율적인 분산 추론을 위해 방송 순서 병렬을 소개합니다. PAB는 기준선과 비교하여 세 가지 모델 전반에 걸쳐 우수한 결과를 보여주며, 최대 720p 비디오에 대한 실시간 생성을 달성합니다. 우리는 우리의 간단하면서도 효과적인 방법이 강력한 기준선으로 작용하고 비디오 생성을 위한 미래 연구 및 응용을 용이하게 할 것으로 기대합니다.
본 논문에서는 LLM(Large Language Models)을 활용하여 다중 에이전트 게임에서 새로운 기술을 습득하는 데 활용되는 Strategist라는 새로운 방법을 제안합니다. 저희 방법은 Monte Carlo tree search와 LLM 기반 반성을 통해 자가 개선 과정을 통해 품질 피드백을 수집하며, 이를 통해 하위 실행을 안내하는 상태를 평가하는 고수준 전략 기술을 학습하는 데 활용할 수 있습니다. 저희 방법이 게임 관련의 행동 계획 및 대화 생성에 어떻게 활용될 수 있는지를 보여주며, 이를 통해 두 작업에서 좋은 성과를 달성합니다. 구체적으로, 저희 방법이 GOPS(Game of Pure Strategy)와 The Resistance: Avalon을 포함한 게임에서 기존의 강화 학습 기반 접근법 및 다른 LLM 기반 기술 학습 접근법보다 더 나은 성능을 가진 에이전트를 훈련하는 데 도움이 될 수 있다는 것을 입증합니다.
대규모 시각-언어 모델(LVLMs)은 텍스트에 맞춘 시각 입력으로 크게 발전해 왔습니다. 텍스트 모드와 시각 입력을 조정함으로써 컴퓨터 비전 작업에서 놀라운 진전을 이루었습니다. RGB 이상의 다중 비전 센서(열화상, 깊이, 의료 X-선 이미지 포함)를 통합하기 위한 노력도 있습니다. 그러나 현재의 LVLMs는 다중 비전 센서에서 촬영된 이미지를 물리적 특성을 고려하지 않고 동일한 RGB 도메인으로 간주합니다. 이로 인해 데이터셋에서 다중 비전 센서 정보와 해당 문맥적 지식을 제대로 전달하지 못합니다. 결과적으로 실제 물리적 환경으로부터의 정보와 텍스트 간의 정확한 조정이 이루어지지 않아, 물리적 환경을 고려하는 복잡한 센서 관련 질문에 대답하기 어려워집니다. 본 논문에서는 이미지와 다중 비전 센서 간의 기본적인 정보 격차를 줄일 수 있는 다중 비전 센서 지각 및 추론 벤치마크인 SPARK를 수립하는 것을 목표로 합니다. 우리는 다양한 형식의 다양한 유형의 센서 관련 질문을 다루며, 물리적 센서 지식 능력에 대한 다중 비전 감각 및 다중 비전 추론을 조사하기 위해 6,248개의 시각-언어 테스트 샘플을 자동으로 생성했습니다. 이러한 샘플을 활용하여 열 가지 선도적 LVLMs를 평가했습니다. 결과는 대부분의 모델이 다양한 정도로 다중 비전 감각 추론에서 결함을 보여주었음을 보여주었습니다. 코드 및 데이터는 https://github.com/top-yun/SPARK에서 사용할 수 있습니다.
대형 언어 모델(LLMs)은 다양한 학문 분야에서 놀라운 발전을 이루었지만, 환각의 주요 원인인 지식 충돌에 대한 중요한 문제는 거의 연구되지 않았습니다. 몇몇 연구만이 LLMs의 본질적 지식과 검색된 맥락적 지식 간의 충돌을 탐구했습니다. 그러나 LLMs의 지식 충돌에 대한 철저한 평가는 아직 미비합니다. 이 연구 공백에 동기부여를 받아, 우리는 ConflictBank를 제시합니다. 이는 첫 번째로 체계적으로 평가하기 위해 개발된 포괄적인 벤치마크로, (i) 검색된 지식에서 발생하는 충돌, (ii) 모델이 인코딩한 지식 내의 충돌, (iii) 이러한 충돌 형태 간의 상호작용을 체계적으로 평가합니다. 우리의 조사는 네 가지 모델 패밀리와 열두 개의 LLM 인스턴스에 대해 교차정보, 시간적 불일치, 의미적 차이로 인한 충돌을 세심하게 분석합니다. 우리가 제안한 새로운 구축 프레임워크를 기반으로, 7,453,853개의 주장-증거 쌍과 553,117개의 질문-답변 쌍을 생성합니다. 우리는 모델 규모, 충돌 원인 및 충돌 유형에 대한 다수의 결과를 제시합니다. 우리의 ConflictBank 벤치마크가 커뮤니티가 충돌 상황에서 모델 행동을 더 잘 이해하고 더 신뢰할 수 있는 LLMs를 개발하는 데 도움이 되기를 희망합니다.
최근에는 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 현저한 지각 및 추론 능력을 보여주고 있으며, 일반적으로 Vision Encoder, Adapter 및 대형 언어 모델(LLM)로 구성됩니다. 어댑터는 시각 및 언어 구성 요소 간의 중요한 연결 다리 역할을 합니다. 그러나 이미지 수준의 감독을 사용하여 어댑터를 훈련하는 것은 종종 상당한 불일치를 초래하여 MLLM의 능력을 저하시키고 다중 모달 MLLM의 잠재력을 제한합니다. 이를 해결하기 위해 우리는 Supervised Embedding Alignment(SEA)을 소개합니다. 이는 CLIP와 같은 시각-언어 사전 훈련 모델을 활용하여 시각 토큰을 대형 언어 모델의 임베딩 공간과 대조적 학습을 통해 정렬하는 토큰 수준의 정렬 방법입니다. 이 접근 방식은 시각 및 언어 표현의 더 일관된 통합을 보장하며, 다중 모달 MLLM의 성능과 해석 가능성을 향상시키면서 그들의 본래 능력을 보존합니다. 광범위한 실험 결과 SEA가 효과적으로 MLLM을 개선하며, 특히 작은 모델의 경우 추가 데이터나 추론 계산을 추가하지 않습니다. SEA는 또한 다중 모달 시스템을 향상시키기 위한 보다 일반적이고 적응 가능한 솔루션을 개발하는 기초를 마련합니다.
전통적인 애니메이션 생성 방법은 인간이 레이블을 붙인 데이터로 생성 모델을 훈련하는 데 의존하며, 이는 상당한 인적 노력을 필요로하고 높은 훈련 비용을 수반하는 복잡한 다단계 파이프라인에 의존합니다. 한정된 프롬프트 계획으로 인해 이러한 방법들은 일반적으로 간결하고 정보가 부족하며 문맥이 일관되지 않은 애니메이션을 생성합니다. 이러한 제한을 극복하고 애니메이션 프로세스를 자동화하기 위해, 우리는 대규모 다중 모달 모델(LMMs)을 핵심 프로세서로 도입하여 자율적인 애니메이션 제작 에이전트인 Anim-Director를 개첩했습니다. 이 에이전트는 주로 LMMs와 생성적 AI 도구의 고급 이해력과 추론 능력을 활용하여 간결한 서술이나 간단한 지시에 따라 애니메이션 비디오를 생성합니다. 구체적으로, 이는 세 가지 주요 단계에서 작동합니다. 첫째, Anim-Director는 사용자 입력으로부터 일관된 스토리 라인을 생성한 뒤 캐릭터 프로필 및 내/외부 설명, 나타나는 캐릭터, 내부 또는 외부, 장면 이벤트를 포함하는 상세한 감독자 스크립트를 작성합니다. 둘째, 우리는 이미지 생성 도구와 함께 LMMs를 활용하여 설정 및 장면의 시각적 이미지를 생성합니다. 이러한 이미지는 장면 설명과 나타나는 캐릭터 및 설정의 이미지를 결합한 시각 언어 프롬프팅 방법을 사용하여 다른 장면 간에 시각적 일관성을 유지하도록 설계되었습니다. 셋째, 장면 이미지는 애니메이션 비디오를 생성하기 위한 기반으로 작용하며, LMMs는 이 프로세스를 안내하기 위한 프롬프트를 생성합니다. 전체 프로세스는 LMMs가 프롬프트를 생성하고 시각적 품질을 평가하며 최적의 결과물을 선택하여 최적화하는 과정을 수동 개입 없이 자율적으로 수행됩니다.
빛을 산란하는 재료로 만들어진 물체의 3D 재구성과 재조명은 표면 아래 복잡한 빛 전달로 인해 상당한 어려움을 겪습니다. 3D 가우시안 스플래팅은 고품질의 신규 뷰 합성을 실시간 속도로 소개했습니다. 3D 가우시안은 물체의 표면을 효율적으로 근사하지만, 표면 아래의 체적적 특성을 포착하지 못합니다. 우리는 다중 뷰 OLAT(한 번에 한 광원) 데이터를 통해 물체의 형태와 광도 전달 필드를 최적화하기 위한 프레임워크를 제안합니다. 우리의 방법은 장면을 3D 가우시안으로 표현된 명시적 표면과 공간적으로 변하는 BRDF, 그리고 산란 구성 요소의 암시적 체적 표현으로 분해합니다. 학습된 사건 광 필드는 그림자를 고려합니다. 우리는 레이 추적 가능한 미분 렌더링을 통해 모든 매개변수를 동시에 최적화합니다. 우리의 방법은 상호작용 속도로 소재 편집, 재조명 및 신규 뷰 합성을 가능하게 합니다. 우리는 합성 데이터에 성공적으로 적용하고, 빛 스테이지 설정에서 물체의 새로운 다중 뷰 다중 광 데이터셋을 소개합니다. 이전 연구와 비교하여 최적화 및 렌더링 시간의 일부만 사용하여 비슷하거나 더 나은 결과를 달성하면서 소재 특성에 대한 상세한 제어를 가능하게 합니다. 프로젝트 페이지: https://sss.jdihlmann.com/
멀티미디어 제작에 있어서 포리 사운드 합성은 사용자 경험을 향상시키는 데 중요하며, 오디오와 비디오를 시간적 및 의미론적으로 동기화하여 동기화합니다. 최근의 연구는 비디오에서 사운드를 자동 생성하여 이러한 노동 집약적인 프로세스를 자동화하는 것에 집중하고 있지만 중요한 도전에 직면하고 있습니다. 명시적 시간적 특징이 없는 시스템은 제어성과 정렬에 문제가 있으며, 타임스탬프 기반 모델은 비용이 많이 들며 주관적인 인간 주석이 필요합니다. 저희는 Root Mean Square (RMS)를 시간적 이벤트 조건으로 사용하고 음향적 의미 프롬프트(오디오 또는 텍스트)와 함께 사용하는 비디오-폴리 시스템을 제안합니다. RMS는 오디오 의미론과 밀접한 관련이 있는 프레임 수준의 강도 엔벨롭 특징으로 높은 제어성과 동기화를 보장합니다. 주석이 없는 자기 지도 학습 프레임워크는 Video2RMS 및 RMS2Sound 두 단계로 구성되어 있으며, RMS 이산화 및 사전 훈련된 텍스트-오디오 모델을 활용한 RMS-ControlNet과 같은 새로운 아이디어가 포함되어 있습니다. 저희의 포괄적인 평가 결과, 비디오-폴리는 사운드의 타이밍, 강도, 음색 및 뉴안스에 대한 오디오-비주얼 정렬 및 제어성에서 최첨단 성능을 달성한다는 것을 보여줍니다. 코드, 모델 가중치 및 데모는 동봉된 웹사이트에서 확인할 수 있습니다. (https://jnwnlee.github.io/video-foley-demo)
소셜 미디어에서의 잘못된 정보가 널리 퍼지고 있기 때문에 온라인 주장에 대한 사실 확인 메커니즘을 도입하는 것이 중요합니다. 모든 주장을 수동으로 검증하는 것은 매우 어렵기 때문에 자동화된 사실 확인 시스템이 필요하다는 점을 강조합니다. 본 논문은 이 문제를 해결하기 위해 설계된 우리 시스템을 제시합니다. 우리는 Averitec 데이터셋을 활용하여 주장의 진실성을 평가합니다. 진실성 예측에 추가로, 우리 시스템은 데이터셋에서 추출된 지원 증거를 제공합니다. 우리는 지식 베이스에서 관련 증거 문장을 추출하기 위한 Retrieve and Generate (RAG) 파이프라인을 개발하고, 이를 주장과 함께 대형 언어 모델 (LLM)에 입력하여 분류합니다. 또한 여러 LLM의 소수 학습 능력을 평가합니다. 우리 시스템은 'Averitec' 점수가 0.33으로, 기준선 대비 22%의 절대적인 개선을 달성합니다. 모든 코드는 https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms에서 제공될 예정입니다.