번역이 포함된 일일 선별된 AI 연구 논문
확산 모델은 다양한 이미지 대 이미지 작업에서 놀라운 효능을 입증해왔습니다. 본 연구에서는 개인화된 이미지 생성을 위해 설계된 최첨단 모델 Imagine yourself을 소개합니다. 기존의 조정 기반 개인화 기술과는 달리, Imagine yourself은 조정 없이 작동하는 모델로, 모든 사용자가 개별적인 조정 없이 공유된 프레임워크를 활용할 수 있게 합니다. 더불어, 이전 연구에서는 신원 보존, 복잡한 프롬프트 따르기, 그리고 좋은 시각적 품질 보존이라는 도전에 직면하여, 참조 이미지의 강력한 복사-붙여넣기 효과를 갖는 모델이 나왔습니다. 따라서, 이러한 모델들은 참조 이미지를 크게 변경해야 하는 프롬프트를 따르는 이미지를 생성하기 어렵고, 예를 들어 얼굴 표정, 머리와 몸의 자세를 변경하는 것과 같은 변화를 필요로 하는 프롬프트를 따르는 이미지를 생성하기 어렵습니다. 이러한 한계를 극복하기 위해 우리의 제안된 방법은 1) 이미지 다양성을 촉진하기 위한 새로운 합성 페어 데이터 생성 메커니즘을 도입하고, 2) 텍스트 충실성을 향상시키기 위해 세 개의 텍스트 인코더와 완전히 학습 가능한 비전 인코더를 갖는 완전 병렬 어텐션 아키텍처, 그리고 3) 시각적 품질의 경계를 점진적으로 끌어올리는 새로운 과정별 세밀조정 방법론을 소개합니다. 우리의 연구는 Imagine yourself이 최첨단 개인화 모델을 능가하며, 신원 보존, 시각적 품질, 그리고 텍스트 정렬에서 우수한 능력을 보여준다는 것을 입증합니다. 이 모델은 다양한 개인화 응용 프로그램을 위한 견고한 기반을 확립합니다. 인간 평가 결과는 이 모델이 이전의 개인화 모델들과 비교했을 때 모든 측면(신원 보존, 텍스트 충실성, 시각적 매력)에서 최첨단 우위를 입증합니다.
풍자와 유머를 이해하는 것은 현재의 시각-언어 모델에게도 어려운 과제입니다. 본 논문에서는 도전적인 작업으로 풍자 이미지 감지(이미지가 풍자적인지 감지), 이해(이미지가 풍자적인 이유 생성), 그리고 완성(이미지의 절반을 제공받아 주어진 2개 옵션 중 하나를 선택하여 완전한 이미지가 풍자적이 되도록 하는 작업)을 제안하고, 이러한 작업들을 평가하기 위해 서로 다른 예술적 스타일을 담은 1084개의 풍자적 이미지와 1463개의 비풍자적 이미지로 이루어진 고품질 데이터셋인 YesBut를 공개합니다. 데이터셋의 각 풍자적 이미지는 일반적인 시나리오와 웃기거나 아이러니한 대립 시나리오를 묘사합니다. 현재의 시각-언어 모델이 시각적 질의응답과 이미지 캡션 작업과 같은 다중 모달 작업에서 성공을 거두었지만, 우리의 벤치마킹 실험 결과, 이러한 모델이 Zero-Shot 설정에서 YesBut 데이터셋의 제안된 작업에 대해 자동화 및 인간 평가 모두에서 성능이 저조함을 보여줍니다. 추가로, 더 많은 연구를 위해 119개의 실제 풍자 사진 데이터셋을 공개합니다. 데이터셋과 코드는 https://github.com/abhi1nandy2/yesbut_dataset에서 확인할 수 있습니다.
AI 에뮬레이터가 HPC 시스템에서 실행되는 전통적인 수치 기상 예측 모델의 성능을 견줄 수 있다는 인식에 자극받아, 예보, 다운스케일링 또는 현재 예보와 같은 사용 사례를 다루는 대규모 AI 모델이 점점 더 많아지고 있습니다. AI 문헌의 병행 발전은 효과적으로 여러 가지 다른 사용 사례를 다루기 위해 조정될 수 있는 기초 모델에 초점을 맞추는 반면, 날씨 및 기후 분야의 발전은 주로 중기 예보에 중점을 둔 특정 사용 사례에 초점을 맞추고 있습니다. 저희는 Prithvi WxC를 소개함으로써 이 간극을 메웁니다. 이 모델은 160가지 변수를 사용하여 개발된 23억 개의 파라미터 기초 모델로, Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2)에서 가져온 데이터를 활용합니다. Prithvi WxC는 인코더-디코더 기반 아키텍처를 채택하며, 최근의 다양한 트랜스포머 모델에서 개념을 통합하여 입력 데이터의 지역 및 전역 의존성을 효과적으로 포착합니다. 이 모델은 다양한 해상도에서 다양한 위상의 날씨 현상을 모델링하기 위해 대규모 토큰 수용량을 갖출 수 있도록 설계되었습니다. 더불어, 이 모델은 마스크된 재구성과 예측의 패러다임을 결합한 혼합 목적으로 훈련되었습니다. 저희는 Autoregressive rollout forecasting, Downscaling, Gravity wave flux parameterization, 그리고 Extreme events estimation과 같은 일련의 어려운 하류 작업에서 이 모델을 테스트했습니다. 23억 개의 파라미터를 가진 사전 훈련된 모델과 관련된 파인 튜닝 워크플로우는 Hugging Face를 통해 오픈 소스로 공개되었습니다.
대형 언어 모델(Large Language Models, LLMs)은 다양한 인지 작업에서 상당한 성능 향상을 보여주었습니다. 최근 등장한 응용 분야 중 하나는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 능력을 향상시키기 위해 LLMs를 활용하는 것입니다. 이러한 시스템은 LLMs가 사용자 쿼리를 이해하고 관련 정보를 검색하며 일관되고 정확한 응답을 합성하는 능력을 요구합니다. 이러한 시스템이 현실 세계에서 점점 더 많이 배포되고 있기 때문에 포괄적인 평가가 중요해집니다. 이를 위해 우리는 FRAMES (Factuality, Retrieval, And reasoning MEasurement Set)를 제안합니다. 이는 LLMs의 사실적인 응답 능력을 테스트하고 검색 능력을 평가하며 최종 답변을 생성하는 데 필요한 추론을 평가하기 위해 고안된 고품질 평가 데이터셋입니다. 이전 연구들은 이러한 능력을 독립적으로 평가하기 위한 데이터셋과 벤치마크를 제공해왔지만, FRAMES는 최종 RAG 시나리오에서의 LLM 성능을 더 명확하게 제시하는 통합된 프레임워크를 제공합니다. 우리의 데이터셋은 여러 소스에서 정보를 통합해야 하는 어려운 다중 점프 질문으로 구성되어 있습니다. 우리는 최첨단 LLMs조차 이 작업에 어려움을 겪는 것을 보여주는 베이스라인 결과를 제시하며, 검색 없이 0.40의 정확도를 달성했습니다. 우리가 제안하는 다단계 검색 파이프라인을 통해 정확도가 크게 향상되어 0.66의 정확도를 달성했습니다(50% 이상의 향상). 우리의 연구가 평가 간극을 줄이고 더 견고하고 능력 있는 RAG 시스템을 개발하는 데 도움이 되기를 희망합니다.
음악 코덱은 오디오 코덱 연구의 중요한 측면이며, 초저 비트율 압축은 음악 전송 및 생성에 중요한 중요성을 가지고 있습니다. 음악 배경의 복잡성과 보컬의 풍부함으로 인해 음악과 배경 모두를 효과적으로 재구성하기 위해서는 단순히 의미론적이거나 음향 정보를 모델링하는 데만 의존하는 것은 부족합니다. 이 문제를 해결하기 위해 우리는 MuCodec을 제안합니다. MuCodec은 초저 비트율에서 음악 압축 및 재구성 작업을 명확히 대상으로 하며, MuEncoder를 사용하여 음향 및 의미적 특징을 추출하고, RVQ로 이산화하며, 플로 매칭을 통해 Mel-VAE 특징을 얻습니다. 그런 다음 사전 훈련된 MEL-VAE 디코더와 HiFi-GAN을 사용하여 음악을 재구성합니다. MuCodec은 초저(0.35kbps) 또는 고 비트율(1.35kbps)에서 고품질 음악을 재구성할 수 있으며, 주관적 및 객관적 평가에서 현재까지 최상의 결과를 달성합니다. 코드 및 데모: https://xuyaoxun.github.io/MuCodec_demo/.
PortraitGen은 다중 모달 프롬프트를 사용하여 일관된 표현과 효과적인 스타일 적용을 달성하는 강력한 초상화 비디오 편집 방법을 소개합니다. 기존의 초상화 비디오 편집 방법은 3D 및 시간적 일관성에 어려움을 겪고 있으며 렌더링 품질과 효율성이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해 초상화 비디오 프레임을 통합된 동적 3D 가우시안 필드로 변환하여 프레임 간 구조적 및 시간적 일관성을 보장합니다. 더불어 우리는 정교한 스타일 편집을 가능하게 하며 초당 100FPS 이상의 렌더링 속도를 달성하는 새로운 신경 가우시안 텍스처 메커니즘을 설계했습니다. 우리의 접근 방식은 대규모 2D 생성 모델로부터 추출된 지식을 통해 다중 모달 입력을 통합합니다. 또한 표정 유사성 가이드 및 얼굴 인식 초상화 편집 모듈을 통합하여 반복적인 데이터셋 업데이트로 인한 저하 문제를 효과적으로 완화합니다. 광범위한 실험을 통해 우리의 방법이 시간적 일관성, 편집 효율성 및 우수한 렌더링 품질을 입증하였습니다. 제안된 방법의 폭넓은 적용 가능성은 텍스트 기반 편집, 이미지 기반 편집 및 재조명을 포함한 다양한 응용 프로그램을 통해 입증되었으며 비디오 편집 분야를 발전시키는 데 큰 잠재력을 갖고 있음을 강조합니다. 데모 비디오 및 공개된 코드는 우리의 프로젝트 페이지에서 확인할 수 있습니다: https://ustc3dv.github.io/PortraitGen/
내재적 이미지 분해는 단일 사진을 기반으로 표면 반사와 조명 효과를 분리하는 것을 목표로 합니다. 문제의 복잡성으로 인해 대부분의 이전 연구는 단일 색조 조명과 Lambertian 세계를 가정하며, 이는 조명을 인식하는 이미지 편집 응용 프로그램에서의 활용을 제한합니다. 본 연구에서는 입력 이미지를 확산 알베도, 다채로운 확산 셰이딩 및 반사 잔류 구성 요소로 분리합니다. 우리는 먼저 단일 색조 조명을 제거한 다음 Lambertian 세계 가정을 제거함으로써 결과를 도출합니다. 우리는 문제를 더 쉬운 하위 문제로 분할함으로써, 한정된 그라운드 트루스 데이터셋에도 불구하고 야외 다채로운 확산 셰이딩 추정을 달성할 수 있음을 보여줍니다. 우리의 확장된 내재적 모델은 사진의 조명을 고려한 분석을 가능하게 하며, 반짝임 제거 및 픽셀별 백색 균형 조정과 같은 이미지 편집 응용 프로그램에 사용할 수 있습니다.
고품질 부피 비디오를 2D 비디오와 동등하게 매끄럽게 경험하는 것은 오래된 꿈입니다. 그러나 현재의 동적 3D 그래픽 시스템 방법은 높은 렌더링 품질에도 불구하고, 계산 및 대역폭 제약으로 인해 모바일 장치에서 스트리밍에 어려움을 겪고 있습니다. 본 논문에서는 동적 가우시안을 스트리밍을 통해 고품질 모바일 렌더링을 가능하게 하는 새로운 접근 방식인 V3(Viewing Volumetric Videos)를 소개합니다. 우리의 주요 혁신은 동적 3D 그래픽 시스템을 2D 비디오로 간주하여 하드웨어 비디오 코덱의 사용을 용이하게 하는 것입니다. 또한, 우리는 저장 요구 사항을 줄이기 위해 해시 인코딩과 얕은 MLP를 사용하는 두 단계의 훈련 전략을 제안합니다. 첫 번째 단계에서는 움직임을 학습하기 위해 해시 인코딩과 얕은 MLP를 사용하고, 그런 다음 스트리밍 요구 사항을 충족하기 위해 가우시안의 수를 가지치기를 통해 줄입니다. 두 번째 단계에서는 잔여 엔트로피 손실 및 시간 손실을 사용하여 다른 가우시안 특성을 미세 조정하여 시간적 연속성을 향상시킵니다. 이 움직임과 외형을 분리하는 전략은 고품질 렌더링 품질을 유지하면서 콤팩트한 저장 요구 사항을 충족합니다. 한편, 우리는 2D 가우시안 비디오를 디코딩하고 렌더링하는 멀티 플랫폼 플레이어를 설계했습니다. 광범위한 실험은 V3의 효과를 입증하며, 일반 장치에서 고품질 렌더링과 스트리밍을 가능하게 함으로써 다른 방법을 능가함을 보여줍니다. 모바일 장치에서 동적 가우시안을 스트리밍하는 첫 번째로, 우리의 동반 플레이어는 사용자에게 원활한 스크롤링 및 즉각적인 공유를 포함한 전례없는 부피 비디오 경험을 제공합니다. 소스 코드가 포함된 프로젝트 페이지는 https://authoritywang.github.io/v3/에서 확인할 수 있습니다.
LLM은 다양한 영역에서 훌륭한 성과를 보여주었습니다. 그러나 그들의 작업을 돕기 위한 고품질 프롬프트를 작성하는 것은 AI 비전문가들에게 어려움을 초래합니다. 프롬프트 엔지니어링에 대한 기존 연구는 다소 분산된 최적화 원칙과 경험적으로 의존하는 프롬프트 최적화기를 제안합니다. 불행하게도, 이러한 노력들은 구조적 설계가 부족하여 학습 비용이 높고 특히 AI 비전문가들에게는 프롬프트의 반복적 업데이트에 적합하지 않습니다. 구조화된 재사용 가능한 프로그래밍 언어에서 영감을 받아 우리는 구조적 프롬프트 설계 프레임워크인 LangGPT를 제안합니다. 더 나아가, 우리는 구조적 프롬프트를 자동으로 생성하기 위한 반사를 갖춘 다중 생성 에이전트 시스템인 Minstrel을 소개합니다. 실험과 사례 연구는 Minstrel에 의해 생성된 구조적 프롬프트 또는 수동으로 작성된 프롬프트가 LLM의 성능을 현저히 향상시킨다는 것을 보여줍니다. 더불어, 우리는 온라인 커뮤니티에서 사용자 설문조사를 통해 구조적 프롬프트의 사용 편의성을 분석합니다.
우리는 고해상도 비주얼 특징 추출기와 교차 모달 오디오-비주얼 특징 융합 전략을 사용하여 세밀한 비주얼 모션 이벤트를 포착하고 정확한 시간적 정렬을 보장하는 첫 번째 자기회귀 모델인 V-AURA를 소개합니다. 또한 우리는 고 오디오-비주얼 관련성을 갖는 벤치마크 데이터셋인 VisualSound를 제안합니다. VisualSound는 YouTube에서 추출된 자연스러운 샘플로 구성된 비디오 데이터셋 인 VGGSound를 기반으로 합니다. 데이터 정리 과정에서 우리는 청각적 이벤트가 시각적 이벤트와 정렬되지 않은 샘플을 제거합니다. V-AURA는 현재의 최첨단 모델들보다 우수한 시간적 정렬 및 의미적 관련성을 보여주며 비슷한 오디오 품질을 유지합니다. 코드, 샘플, VisualSound 및 모델은 https://v-aura.notion.site에서 제공됩니다.
대형 언어 모델 (LLMs)은 사이버 보안을 포함한 다양한 분야에서 놀라운 잠재력을 보여주고 있습니다. 상용 클라우드 기반 LLMs를 사용하는 것은 개인 정보 보호 문제, 비용 및 네트워크 연결 제약 때문에 바람직하지 않을 수 있습니다. 본 논문에서는 네트워크 보안 환경 내에서 레드팀 에이전트로 사용되는 로컬로 세밀하게 조정된 LLM인 Hackphyr를 제시합니다. 저희가 세밀하게 조정한 70억 개의 매개변수 모델은 단일 GPU 카드에서 실행되며 GPT-4와 같이 훨씬 크고 강력한 상용 모델과 비교 가능한 성능을 달성합니다. Hackphyr는 명확하게 GPT-3.5-turbo 및 Q-러닝 에이전트와 같은 다른 모델 및 기준선을 능가하며, 복잡하고 이전에 보지 못한 시나리오에서 우수한 성과를 거두었습니다. 이러한 성능을 달성하기 위해 우리는 기본 모델의 능력을 향상시키기 위해 새로운 과제별 사이버 보안 데이터셋을 생성했습니다. 마지막으로, 본 연구에서는 이러한 에이전트들의 행동에 대한 포괄적인 분석을 실시하여 이러한 에이전트들의 계획 능력과 잠재적인 결점에 대한 통찰을 제공하며, 사이버 보안 환경에서 LLM 기반 에이전트들에 대한 보다 폭넓은 이해에 기여합니다.
LLM 기반 에이전트의 도구 통합은 독립형 LLM과 전통적인 에이전트의 한정된 능력에 대한 어려움을 극복했습니다. 그러나 이러한 기술들의 결합과 몇몇 최첨단 작업에서 제안된 향상들은 통일되지 않은 소프트웨어 아키텍처를 따라와 모듈성의 부족을 초래했습니다. 실제로, 그들은 주로 기능에 초점을 맞추고 에이전트 내의 구성 요소의 경계 정의를 간과했습니다. 이로 인해 연구자들 사이에 용어 및 아키텍처적 모호성이 발생했고, 본 논문에서는 이를 해결하기 위해 LLM 기반 에이전트의 개발을 위한 명확한 기능 및 소프트웨어 아키텍처적 관점에서의 기반을 확립하는 통합 프레임워크를 제안함으로써 이에 대응했습니다. 우리의 프레임워크인 LLM-Agent-UMF (LLM 기반 에이전트 통합 모델링 프레임워크)는 에이전트의 다양한 구성 요소를 명확히 구분하며, LLM과 도구를 새롭게 도입된 코어-에이전트라는 요소와 구분합니다. 코어-에이전트는 에이전트의 중심 조정자 역할을 담당하며, 계획, 메모리, 프로필, 행동 및 보안 등 다섯 모듈로 구성되어 있습니다. 이 중 보안은 이전 작업에서 종종 간과되었습니다. 코어-에이전트의 내부 구조의 차이로 인해 우리는 이를 수동 및 능동 유형으로 분류했습니다. 이를 기반으로 우리는 다양한 개별 에이전트의 고유한 특성을 결합한 다양한 멀티-코어 에이전트 아키텍처를 제안했습니다. 평가 목적을 위해 우리는 이 프레임워크를 최첨단 에이전트의 선택에 적용하여, 그들의 기능과 간과된 아키텍처적 측면을 명확히 하였습니다. 더불어, 우리는 네 가지 제안된 아키텍처를 철저히 평가하였고, 독특한 에이전트를 하이브리드 능동/수동 코어-에이전트 시스템에 통합함으로써 특정 에이전트의 결합에 따른 잠재적 개선 및 도전 과제를 명확히 했습니다.