번역이 포함된 일일 선별된 AI 연구 논문
자연어는 종종 여러 인스턴스에 위치 및 속성 정보를 정확하게 연관시키기 어려워서 현재의 텍스트 기반 시각 생성 모델이 주로 몇 가지 주요 인스턴스만 포함하는 간단한 구성물로 제한됩니다. 이 한계를 극복하기 위해 본 연구는 확산 모델을 개선하여 각 인스턴스가 바운딩 박스와 자유 형식의 캡션과 함께 제어되는 지역 인스턴스 제어를 도입합니다. 이 분야의 이전 방법은 일반적으로 암시적 위치 인코딩이나 명시적 주의 마스크를 사용하여 관심 영역(ROIs)을 분리하는데 의존하는데, 이는 부정확한 좌표 주입 또는 대규모 계산 오버헤드로 이어집니다. 물체 탐지에서 ROI-Align에서 영감을 받아 ROI-Unpool이라는 보완적 작업을 소개합니다. ROI-Align과 ROI-Unpool을 함께 사용하면 시각 생성을 위한 고해상도 특성 맵에서 명시적이고 효율적이며 정확한 ROI 조작이 가능해집니다. ROI-Unpool을 기반으로, 사전 학습된 확산 모델에 대한 정확한 지역 인스턴스 제어를 가능하게 하는 ROICtrl을 제안합니다. ROICtrl은 커뮤니티에서 세밀하게 조정된 확산 모델뿐만 아니라 기존의 공간 기반 애드온(ControlNet, T2I-Adapter) 및 임베딩 기반 애드온(IP-Adapter, ED-LoRA)과도 호환되어 다중 인스턴스 생성에 대한 응용을 확장합니다. 실험 결과 ROICtrl이 지역 인스턴스 제어에서 우수한 성능을 달성하면서 계산 비용을 크게 줄였음이 입증되었습니다.
많은 실제 사용자 쿼리(예: "계란 볶음밥을 어떻게 만들까요?")는 텍스트 단계와 이미지를 동반한 응답을 생성할 수 있는 시스템에서 혜택을 받을 수 있습니다. 이러한 모델은 쿡북과 유사하게 텍스트 단계와 이미지를 함께 생성하는 것을 목표로 하며, 이러한 모달리티 내에서 일관성을 보장하는 데 어려움을 겪습니다. 이러한 어려움을 해결하기 위해 우리는 ISG라는 상호 텍스트 및 이미지 생성을 위한 포괄적인 평가 프레임워크를 제시합니다. ISG는 텍스트와 이미지 블록 간의 관계를 포착하기 위해 씬 그래프 구조를 활용하며, 전체적, 구조적, 블록 수준 및 이미지별 네 가지 세부 수준에서 응답을 평가합니다. 이 다층 평가를 통해 일관성, 일관성 및 정확성에 대한 세밀한 평가가 가능하며 해석 가능한 질문-답변 피드백을 제공합니다. ISG와 함께, 우리는 8개 범주와 21개 하위 범주에서 1,150개의 샘플을 포함하는 ISG-Bench라는 벤치마크를 소개합니다. 이 벤치마크 데이터셋은 복잡한 언어-비전 종속성과 모델을 효과적으로 평가하기 위한 골든 답변을 포함하며, 스타일 전이와 같은 비전 중심 작업에 대한 도전적인 영역에서 모델을 평가합니다. ISG-Bench를 사용하여 최근 통합 비전-언어 모델이 상호 작용 컨텐츠를 생성하는 데 성능이 낮다는 것을 입증합니다. 별도의 언어 및 이미지 모델을 결합하는 구성적 접근은 전체적인 수준에서 통합 모델보다 111%의 성능 향상을 보여주지만, 그들의 성능은 블록 및 이미지 수준에서 여전히 최적이 아닙니다. 미래 작업을 위해, 우리는 "계획-실행-정제" 파이프라인을 활용하는 기준선 에이전트인 ISG-Agent를 개발하여 도구를 호출하고 122%의 성능 향상을 달성합니다.
아이덴티티 보존 텍스트-비디오(IPT2V) 생성은 일관된 인간 아이덴티티를 유지하면서 고품질 비디오를 생성하는 것을 목표로 합니다. 이는 비디오 생성에서 중요한 작업이지만, 생성 모델에 대한 여전히 해결되지 않은 문제입니다. 본 논문은 문헌에서 해결되지 않은 두 가지 방향으로 IPT2V의 기술적 경계를 확장합니다: (1) 세세한 사례별 파인튜닝 없이 튜닝이 필요 없는 파이프라인, 그리고 (2) 주파수 인식 휴리스틱 아이덴티티 보존 DiT 기반 제어 체계. 우리는 ConsisID를 제안합니다. 이는 튜닝이 필요 없는 DiT 기반 제어 가능한 IPT2V 모델로 생성된 비디오에서 인간 아이덴티티를 일관되게 유지합니다. 확산 트랜스포머의 주파수 분석 선행 연구에서 영감을 받아, 이는 얼굴 특징을 저주파수 전역 특징과 고주파수 내재적 특징으로 분해할 수 있는 주파수 도메인에서 아이덴티티 제어 신호를 사용합니다. 먼저, 저주파수 관점에서, 우리는 전역 얼굴 추출기를 소개합니다. 이는 참조 이미지와 얼굴 주요 지점을 잠재 공간에 부호화하여 저주파수 정보가 풍부한 특징을 생성합니다. 이러한 특징은 네트워크의 얕은 레이어에 통합되어 DiT와 관련된 훈련 도전을 완화시킵니다. 둘째, 고주파수 관점에서, 우리는 고주파수 세부 사항을 포착하고 트랜스포머 블록에 주입하는 지역 얼굴 추출기를 설계하여 모델이 섬세한 특징을 보존하는 능력을 향상시킵니다. 주파수 정보를 활용한 계층적 훈련 전략을 제안하여 아이덴티티 보존을 위해 주파수 정보를 활용하며, 일반적으로 사전 훈련된 비디오 생성 모델을 IPT2V 모델로 변환합니다. 광범위한 실험 결과는 우리의 주파수 인식 휴리스틱 체계가 DiT 기반 모델에 대한 최적의 제어 솔루션을 제공함을 보여줍니다. 이 체계 덕분에 우리의 ConsisID는 고품질의 아이덴티티 보존 비디오를 생성하며, 더 효과적인 IPT2V로 나아가는 발전을 이루고 있습니다.
텍스트 프롬프트로부터 고품질 3D 콘텐츠를 생성하는 것은 기존 데이터셋의 크기, 다양성 및 주석 깊이의 제한으로 인해 컴퓨터 비전에서 중요한 도전 과제입니다. 이를 해결하기 위해 우리는 MARVEL-40M+를 소개합니다. 이는 7개의 주요 3D 데이터셋으로부터 집계된 8.9백만 개 이상의 3D 에셋을 위한 4천만 개의 텍스트 주석을 포함하는 방대한 데이터셋입니다. 우리의 기여는 오픈 소스 사전 훈련된 다중 뷰 VLM과 LLM을 통합한 새로운 다중 단계 주석 파이프라인입니다. 이를 통해 상세한(150-200 단어)부터 간결한 의미 태그(10-20 단어)까지의 다중 수준 설명을 자동으로 생성합니다. 이 구조는 세밀한 3D 재구성과 신속한 프로토타이핑을 지원합니다. 더불어, 우리는 소스 데이터셋에서 인간 메타데이터를 주석 파이프라인에 통합하여 주석에 도메인 특정 정보를 추가하고 VLM 환각을 줄입니다. 게다가, 우리는 MARVEL-FX3D를 개발했습니다. 이는 두 단계의 텍스트-3D 파이프라인입니다. 우리는 주석을 통해 Stable Diffusion을 세밀하게 조정하고 사전 훈련된 이미지-3D 네트워크를 사용하여 15초 이내에 3D 텍스처 매쉬를 생성합니다. 방대한 평가 결과 MARVEL-40M+가 주석 품질과 언어 다양성에서 기존 데이터셋을 크게 능가하며, GPT-4에 의한 승률은 72.41%, 인간 평가자에 의한 승률은 73.40%에 달한다는 것을 보여줍니다.
우리는 CAT4D를 제시합니다. 이는 단안 비디오로부터 4D(동적 3D) 장면을 생성하는 방법입니다. CAT4D는 다양한 조합의 데이터셋에서 훈련된 다중 뷰 비디오 확산 모델을 활용하여 특정 카메라 위치와 타임스탬프에서의 새로운 뷰 합성을 가능하게 합니다. 새로운 샘플링 접근 방식과 결합된 이 모델은 단일 단안 비디오를 다중 뷰 비디오로 변환하여, 변형 가능한 3D 가우시안 표현의 최적화를 통해 견고한 4D 재구성을 가능하게 합니다. 우리는 새로운 뷰 합성 및 동적 장면 재구성 벤치마크에서 경쟁력 있는 성능을 보여주며, 실제 또는 생성된 비디오로부터 4D 장면 생성에 대한 창의적 능력을 강조합니다. 결과 및 인터랙티브 데모에 대해서는 저희 프로젝트 페이지를 참조하세요: cat-4d.github.io.
GUI는 오랫동안 인간-컴퓨터 상호작용의 중심 역할을 해왔으며, 디지털 시스템에 직관적이고 시각적인 방법으로 접근하고 상호작용할 수 있는 방법을 제공합니다. 특히 다중 모달 모델인 LLM의 등장은 GUI 자동화의 새로운 시대를 열었습니다. 이들은 자연어 이해, 코드 생성 및 시각 처리에서 뛰어난 능력을 보여주었습니다. 이는 새로운 세대의 LLM 기반 GUI 에이전트가 복잡한 GUI 요소를 해석하고 자연어 명령에 기반하여 자율적으로 작업을 실행할 수 있는 능력을 열어주었습니다. 이러한 에이전트들은 사용자가 간단한 대화 명령을 통해 복잡한 다단계 작업을 수행할 수 있도록 하는 패러다임 전환을 대표합니다. 이들의 응용 분야는 웹 탐색, 모바일 앱 상호작용 및 데스크톱 자동화를 포함하며, 소프트웨어와 상호작용하는 방식을 혁신적으로 변화시키는 변혁적인 사용자 경험을 제공합니다. 이 신흥 분야는 연구와 산업 모두에서 중요한 진전을 이루고 있습니다. 이 동향을 체계적으로 이해하기 위해, 본 논문은 LLM 기반 GUI 에이전트의 포괄적인 조사를 제시하며, 그들의 역사적 발전, 핵심 구성 요소 및 고급 기술을 탐구합니다. 우리는 기존 GUI 에이전트 프레임워크, 특수 GUI 에이전트를 훈련하기 위한 데이터 수집 및 활용, GUI 작업에 맞춘 대규모 작업 모델의 개발, 그리고 효과를 평가하기 위해 필요한 평가 지표 및 벤치마크와 같은 연구 질문들을 다룹니다. 게다가, 이러한 에이전트가 제공하는 신흥 응용 분야를 검토합니다. 이 조사를 통해 주요 연구 공백을 확인하고 이 분야의 미래 발전을 위한 로드맵을 제시합니다. 이 작업은 기본 지식과 최신 기술 발전을 통합하여, 연구자와 실무자가 도전을 극복하고 LLM 기반 GUI 에이전트의 전체 잠재력을 발휘할 수 있도록 안내하는 것을 목표로 합니다.
최근의 광도 필드 재구성 기술인 3D 가우시안 스플래팅(3DGS)과 같은 발전은 가우시안 기본체들의 조합으로 장면을 표현하여 고품질의 신규 뷰 합성과 빠른 렌더링을 달성했습니다. 그러나 3D 가우시안은 장면 재구성에 대한 여러 가지 제한을 가지고 있습니다. 경계를 정확하게 포착하는 것은 가우시안의 수를 크게 늘리지 않고는 어려우며, 이는 큰 메모리 풋프린트를 만듭니다. 게다가, 평면 표면을 표현하는 데 어려움을 겪는데, 이는 공간 안에서 확산되기 때문입니다. 손으로 만든 정규화기가 없으면, 실제 표면 주변에 불규칙하게 퍼지는 경향이 있습니다. 이러한 문제를 우회하기 위해, 우리는 3D 부드러운 볼록체를 기본체로 활용하여 다중 뷰 이미지로부터 기하학적으로 의미 있는 광도 필드를 모델링하는 새로운 방법인 3D 볼록체 스플래팅(3DCS)을 소개합니다. 부드러운 볼록체 모양은 가우시안보다 더 큰 유연성을 제공하여 적은 기본체를 사용하여 경계가 있는 3D 장면과 밀도가 높은 볼륨을 더 잘 표현할 수 있습니다. 우리의 효율적인 CUDA 기반 래스터라이저를 통해, 3DCS는 Mip-NeRF360, Tanks and Temples, Deep Blending과 같은 벤치마크에서 3DGS보다 우수한 성능을 달성합니다. 특히, 우리의 방법은 PSNR에서 최대 0.81, LPIPS에서 0.026의 향상을 보이면서 높은 렌더링 속도를 유지하고 필요한 기본체 수를 줄입니다. 우리의 결과는 3D 볼록체 스플래팅이 고품질 장면 재구성과 신규 뷰 합성을 위한 새로운 표준이 될 잠재력을 강조합니다. 프로젝트 페이지: convexsplatting.github.io.
텍스트-이미지 확산 모델은 인상적인 결과를 얻지만 섬세한 제어를 원하는 예술가들에게는 괴로운 도구입니다. 예를 들어, 흔한 사용 사례는 새로운 맥락에서 특정 사례의 이미지를 생성하는 것, 즉 "정체성 보존 생성"입니다. 이러한 설정은 조명 변경(relighting)과 같은 다른 많은 작업들과 함께 이미지+텍스트 조건부 생성 모델에 자연스럽게 부합합니다. 그러나 이러한 모델을 직접 훈련시키기에는 고품질의 페어 데이터가 부족합니다. 저희는 Diffusion Self-Distillation을 제안합니다. 이는 사전 훈련된 텍스트-이미지 모델을 활용하여 텍스트 조건부 이미지-이미지 작업을 위한 자체 데이터셋을 생성하는 방법입니다. 우리는 먼저 텍스트-이미지 확산 모델의 맥락 내 생성 능력을 활용하여 이미지 그리드를 생성하고 Visual-Language 모델의 도움으로 대규모 페어 데이터셋을 선별합니다. 그런 다음 이를 사용하여 선별된 페어 데이터셋을 활용하여 텍스트+이미지-이미지 모델로 세밀하게 조정합니다. 우리는 Diffusion Self-Distillation이 기존의 제로샷 방법을 능가하고 테스트 시간 최적화 없이 다양한 정체성 보존 생성 작업에서 인스턴스 조정 기술과 경쟁력을 갖는 것을 보여줍니다.
최근 확산 모델이 로봇 정책 학습을 위한 강력한 생성 기법으로 등장했으며, 다중 모드 액션 분포를 모델링할 수 있는 능력을 갖추고 있습니다. 이 능력을 활용하여 엔드 투 엔드 자율 주행에 대한 방향은 유망합니다. 그러나 로봇 확산 정책에서 다수의 노이즈 제거 단계와 보다 동적이고 개방적인 실시간 속도에서 다양한 주행 액션을 생성하는 데 상당한 어려움이 있습니다. 이러한 도전에 대응하기 위해 우리는 새로운 절단된 확산 정책을 제안합니다. 이 정책은 이전 다중 모드 앵커를 통합하고 확산 일정을 절단하여 모델이 앵커된 가우시안 분포에서 다중 모드 주행 액션 분포로부터 노이즈 제거를 학습할 수 있도록 합니다. 또한 조건부 장면 컨텍스트와의 향상된 상호 작용을 위해 효율적인 캐스케이드 확산 디코더를 설계합니다. 제안된 모델인 DiffusionDrive는 바닐라 확산 정책 대비 노이즈 제거 단계를 10배 줄이고, 단 2단계에서 우수한 다양성과 품질을 제공합니다. ResNet-34 백본을 사용한 계획 중심 NAVSIM 데이터셋에서 DiffusionDrive는 88.1 PDMS를 달성하여 새로운 기록을 세우며, NVIDIA 4090에서 45 FPS의 실시간 속도로 실행됩니다. 어려운 시나리오에서의 질적 결과는 DiffusionDrive가 견고하게 다양한 타당한 주행 액션을 생성할 수 있다는 것을 더욱 확신시켜줍니다. 코드 및 모델은 https://github.com/hustvl/DiffusionDrive에서 사용할 수 있습니다.
현대 창조 산업에서 3D 캐릭터는 필수적이지만, 그들을 애니메이션화하는 것은 종종 리깅과 스킨닝과 같은 작업에서 많은 수동 작업을 요구합니다. 기존의 자동 리깅 도구들은 수동 주석, 강한 스켈레톤 토폴로지, 다양한 모양과 자세에 걸쳐 제한된 일반화 등 여러 가지 한계에 직면하고 있습니다. 대안적인 접근 방식은 리깅된 템플릿 메쉬에 미리 바운드된 애니메이션 가능한 아바타를 생성하는 것입니다. 그러나 이 방법은 종종 유연성이 부족하며 일반적으로 현실적인 인간 모양에 한정되어 있습니다. 이러한 문제를 해결하기 위해, 우리는 어떤 모양과 자세에도 1초 미만의 시간 안에 캐릭터 애니메이션을 위해 준비된 3D 인간형 모델을 만들기 위한 새로운 데이터 주도 방법인 Make-It-Animatable을 제안합니다. 우리의 통합된 프레임워크는 고품질의 블렌드 가중치, 본, 자세 변환을 생성합니다. 입자 기반 형상 오토인코더를 통합함으로써 우리의 방법은 메쉬와 3D 가우시안 스플랫을 포함한 다양한 3D 표현을 지원합니다. 또한 우리는 굵고 세밀한 표현과 구조 인식 모델링 전략을 활용하여 비표준 스켈레톤 구조를 갖는 캐릭터에 대해서도 정확성과 견고성을 보장합니다. 우리는 우리의 프레임워크의 효과를 검증하기 위해 광범위한 실험을 실시했습니다. 기존 방법과 비교했을 때, 우리의 방법은 품질과 속도 모두에서 상당한 개선을 보여줍니다.
이미지 생성 분야에서 빠르게 발전하는 가운데, 시각적 자기 회귀(Visual Auto-Regressive, VAR) 모델링은 혁신적인 다음 단계 예측 접근 방식으로 큰 주목을 받고 있습니다. 이 패러다임은 효율성, 확장성, 그리고 제로샷 일반화에서 상당한 개선을 제공합니다. 그러나 VAR의 본질적으로 굵고 미세한 특성은 긴 토큰 시퀀스를 도입하여 메모리 소비와 계산 중복을 방해합니다. 이러한 병목 현상을 해결하기 위해, 우리는 VAR 프레임워크에 맞춘 혁신적인 효율적 디코딩 전략인 협력 디코딩(Collaborative Decoding, CoDe)을 제안합니다. CoDe는 두 가지 중요한 관찰에 기반을 두고 있습니다: 큰 규모에서 크게 줄어든 매개변수 요구와 서로 다른 규모에서의 독점적 생성 패턴. 이러한 통찰력을 기반으로 다중 규모 추론 과정을 큰 모델과 작은 모델 간의 원활한 협력으로 분할합니다. 큰 모델은 작은 규모에서 낮은 주파수 콘텐츠를 생성하는 '작성자'로 작용하고, 작은 모델은 큰 규모에서 고주파수 세부 정보를 예측하는 '정제자'로만 집중합니다. 이 협력은 탁월한 효율성을 제공하면서 품질에 미미한 영향을 미칩니다: CoDe는 1.7배의 가속화를 달성하고, 메모리 사용량을 약 50% 줄이며, 이미지 품질을 1.95에서 1.98로 무시할 수 있는 FID 증가만으로 유지합니다. 작성 단계가 더욱 줄어들면, CoDe는 놀라운 2.9배의 가속 비율을 달성할 수 있으며, NVIDIA 4090 GPU 하나로 256x256 해상도에서 초당 41개의 이미지를 생성하면서 2.27의 훌륭한 FID를 유지합니다. 코드는 https://github.com/czg1225/CoDe에서 제공됩니다.
개인화된 이미지 생성에는 제어된 생성을 가능하게 하는 참조 대상의 핵심 특징을 포착하는 텍스트-이미지 생성 모델이 필요합니다. 기존 방법은 복잡한 훈련 요구, 높은 추론 비용, 제한된 유연성 또는 이러한 문제들의 조합으로 인해 도전에 직면합니다. 본 논문에서는 효율적이고 고품질의 개인화된 이미지 생성을 위한 확장 가능한 접근 방식인 DreamCache를 소개합니다. DreamCache는 사전 훈련된 확산 제거기의 일부 레이어와 단일 타임스텝에서 참조 이미지 특징의 소수를 캐싱함으로써 가벼운 조건부 어댑터를 통해 생성된 이미지 특징의 동적 변조를 가능하게 합니다. DreamCache는 최신 이미지 및 텍스트 정렬을 달성하며, 순서 크기의 추가 매개변수를 활용하며 기존 모델보다 계산적으로 더 효과적이고 다재다능합니다.
인간 자세는 디지털 시대에서 중요한 역할을 합니다. 최근 연구들은 인간 자세를 이해하고 생성하는 데 상당한 진전을 이루었지만, 그들은 종종 단일한 제어 신호 모드만을 지원하며 독립적으로 작동하여 실제 상황에서의 응용을 제한합니다. 본 논문에서는 이미지, 텍스트, 그리고 3D SMPL 자세를 포함한 다양한 모드에서 인간 자세를 이해하고 생성하며 편집하는 데 대형 언어 모델(Large Language Models, LLMs)을 활용하는 UniPose 프레임워크를 제안합니다. 구체적으로, 우리는 자세 토크나이저를 적용하여 3D 자세를 이산 자세 토큰으로 변환하여 통합된 어휘 내에서 LLM에 매끄럽게 통합할 수 있도록 합니다. 미세한 자세 인식 능력을 더욱 향상시키기 위해, 우리는 UniPose를 시각 인코더의 혼합으로 지원하며 이 중에는 자세 특화 시각 인코더도 포함됩니다. 통합된 학습 전략을 통해 UniPose는 효과적으로 다른 자세 관련 작업 간에 지식을 전이하고 보이지 않는 작업에 적응하며 확장된 능력을 나타냅니다. 본 연구는 자세 이해, 생성, 편집을 위한 범용 프레임워크를 구축하기 위한 최초의 시도로서, 다양한 자세 관련 작업에서 UniPose의 경쟁력 있는 심지어 우수한 성능을 강조합니다.
지각과 이해는 컴퓨터 비전의 두 대요소입니다. 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLM)은 놀라운 시각적 이해 능력을 보여주었지만, 정확한 지각 능력이 부족하다는 주장도 있습니다. 예를 들어, 최신 모델인 Qwen2-VL은 COCO 데이터셋에서 43.9의 검출률만을 달성하여, 지각과 이해를 결합하는 많은 작업에 제한이 있습니다. 본 연구에서는 이 지각 간극을 모델 설계와 데이터 개발 관점에서 해소하고자 합니다. 먼저, 우리는 ChatRex를 소개합니다. 이는 분리된 지각 디자인을 갖춘 MLLM입니다. LLM이 직접 상자 좌표를 예측하는 대신, 우리는 모든 제안 네트워크로부터 출력 상자를 LLM에 공급하여 해당 상자 인덱스를 출력하도록 하여 검출 결과를 나타내게 합니다. 이를 통해 회귀 작업을 검색 기반 작업으로 전환하여 LLM이 더 능숙하게 처리할 수 있게 합니다. 데이터 관점에서는 완전 자동화된 데이터 엔진을 구축하고, 지각과 이해의 공동 훈련을 지원하기 위해 여러 단계를 갖춘 Rexverse-2M 데이터셋을 구축합니다. 표준 두 단계 훈련 후, ChatRex는 강력한 지각 능력을 보여주면서 다중 모달 이해 성능을 유지합니다. 이 두 능력의 결합은 많은 매력적인 응용 프로그램을 동시에 가능하게 하며, MLLM에서 지각과 이해의 보완적 역할을 보여줍니다. 코드는 https://github.com/IDEA-Research/ChatRex에서 확인할 수 있습니다.
비디오에 대한 사운드 효과를 생성하는 것은 종종 실제 소스와 크게 달라지는 예술적인 사운드 효과를 만들고 사운드 디자인에서 유연한 제어를 필요로 합니다. 이 문제를 해결하기 위해 우리는 MultiFoley를 소개합니다. 이 모델은 텍스트, 오디오 및 비디오를 통한 다중 모달 조건부를 지원하는 비디오 안내형 사운드 생성을 위해 설계되었습니다. 무음 비디오와 텍스트 프롬프트가 주어지면 MultiFoley를 사용하여 사용자는 깨끗한 사운드(예: 바람 소리 없이 스케이트보드 바퀴가 도는 소리)나 더 환상적인 사운드(예: 사자의 울음소리를 고양이의 야옹 소리로 만드는 것)를 만들 수 있습니다. MultiFoley는 또한 사용자가 조건부로 사운드 효과(SFX) 라이브러리나 부분 비디오에서 참조 오디오를 선택할 수 있도록 합니다. 우리 모델의 주요 독창성은 저품질 오디오를 가진 인터넷 비디오 데이터셋과 전문적인 SFX 녹음을 모두 합쳐 고품질, 전 대역폭(48kHz) 오디오 생성을 가능케 하는 공동 훈련에 있습니다. 자동 평가와 인간 연구를 통해 MultiFoley가 다양한 조건부 입력에 걸쳐 동기화된 고품질 사운드를 성공적으로 생성하고 기존 방법을 능가함을 입증합니다. 비디오 결과는 아래 프로젝트 페이지를 참조해주시기 바랍니다: https://ificl.github.io/MultiFoley/
본 연구에서는 확산 기반 합성에서 세분성을 효과적으로 제어하기 위한 단일 매개변수 오메가를 소개합니다. 이 매개변수는 확산 모델의 역과정에서의 노이즈 제거 단계 중에 통합됩니다. 저희 방법은 모델 재학습, 구조적 수정, 추론 중 추가적인 계산 부담이 필요하지 않지만 생성된 출력물의 세부 수준을 정밀하게 제어할 수 있습니다. 게다가, 공간 마스크나 다양한 오메가 값의 노이즈 제거 일정을 적용하여 영역별 또는 타임스텝별 세분성 제어를 달성할 수 있습니다. 제어 신호나 참조 이미지로부터의 이미지 구성에 대한 사전 지식은 특정 객체에 대한 세분성 제어를 위한 정확한 오메가 마스크 작성을 용이하게 합니다. 미묘한 세부 변화를 제어하는 데 매개변수의 역할을 강조하기 위해 해당 기술은 "오메가"와 "뉘앙스"를 결합한 "오메간스"로 명명되었습니다. 저희 방법은 다양한 이미지 및 비디오 합성 작업에서 탁월한 성능을 보이며 고급 확산 모델에 적응할 수 있습니다. 코드는 https://github.com/itsmag11/Omegance에서 사용할 수 있습니다.
추론 속도를 가속화하는 데 중요한 기술로 자리 잡은 추측 디코딩(SD). 기존의 SD 방법은 작업 간 토큰 생성 난이도를 무시하는 고정된 초안 길이를 사용합니다. 따라서 본 논문에서는 이러한 문제를 다루고 SVIP를 소개합니다. SVIP는 추측 디코딩 시스템을 위한 난이도 인식 동적 초안 길이 정책으로, 초안 토큰 수용률의 이론적 하한과 추론 시간 근사치에 기반하여 각 초안 토큰 분포의 엔트로피에 따라 초안 시퀀스의 길이를 적응적으로 결정합니다. 주요 SD 벤치마크 및 프레임워크에서의 실험 결과는 SVIP의 우수한 성능을 입증하며, 기본 SD 방법 대비 SpecBench에서 최대 20%의 월타임 가속 및 MT-Bench에서 최대 8K 토큰까지의 장문 생성에 대해 60%의 가속을 달성합니다. 더불어 SVIP는 완전히 학습이 필요 없으며, 초안 토큰을 자기회귀적으로 생성하는 기존의 모든 SD 방법과 호환됩니다. 실험 결과는 SVIP가 GliDe & CaPE 및 EAGLE-2에 대한 일관된 월타임 개선을 제공함을 보여줍니다.
최근 비디오 대규모 언어 모델(VideoLLM)에 대한 연구는 주로 모델 아키텍처와 학습 데이터셋에 초점을 맞추고 사용자와 모델 간 상호작용 형식을 충분히 탐구하지 않았습니다. 기존 연구에서 사용자는 주로 전체 비디오와 쿼리를 입력으로 사용하여 VideoLLM과 상호작용하며, 그 후 모델이 응답을 생성합니다. 이 상호작용 형식은 비디오가 끝나지 않고 실시간으로 응답이 필요한 라이브 스트리밍 이해와 같은 시나리오에서 VideoLLM의 응용을 제한하며, 또한 비디오 세그먼트의 위치를 지정하는 시간에 민감한 작업에서 성능이 불만족스럽게 나타납니다. 본 논문에서는 비디오-텍스트 듀엣 상호작용 형식에 초점을 맞추었습니다. 이 상호작용 형식은 비디오의 연속 재생을 특징으로 하며, 사용자와 모델은 비디오 재생 중 어느 위치에서든 텍스트 메시지를 삽입할 수 있습니다. 텍스트 메시지가 끝나면 비디오는 계속 재생되며, 이는 듀엣에서 두 명의 연주자의 대안과 유사합니다. VideoLLM을 비디오-텍스트 듀엣 상호작용 형식에 적응시키기 위해 설계된 비디오-텍스트 학습 데이터셋인 MMDuetIT을 구축했습니다. 또한 실시간 응답 능력을 벤치마킹하기 위해 Multi-Answer Grounded Video Question Answering (MAGQA) 작업을 소개했습니다. MMDuetIT에서 훈련된 MMDuet은 비디오-텍스트 듀엣 상호작용 형식을 채택함으로써 다양한 시간에 민감한 작업에서 상당한 성능 향상을 달성할 수 있음을 보여주며(YouCook2 밀집 비디오 캡션에서 76% CIDEr, QVHighlights 하이라이트 감지에서 90% mAP, Charades-STA 시간적 비디오 지원에서 25% [email protected]), 최소한의 훈련 노력으로도 VideoLLM이 비디오가 재생되는 동안 실시간으로 응답할 수 있도록 합니다. 코드, 데이터 및 데모는 다음에서 확인할 수 있습니다: https://github.com/yellow-binary-tree/MMDuet.
뇌 MRI에서 주요 병변 특징을 식별하는 것은 글리오마 환자의 장기 생존에 중요합니다. 그러나 수동 분할은 전문가 개입이 필요하고 인간 오류에 취약하여 시간이 많이 소요됩니다. 따라서 3D 다중 모달 뇌 MRI 스캔에서 종양을 정확하게 분할할 수 있는 기계 학습 방법을 개발하는 데 상당한 연구가 집중되어 왔습니다. 최신 기술 모델은 진전을 이루었지만, 그들이 훈련된 데이터에 제한을 받아 다양한 인구에 적용될 때 신뢰성에 대한 우려가 제기됩니다. 이러한 변화는 MRI 기술의 품질이 낮은 경우(예: 아프리카 아래 지역)나 환자 인구 통계의 변화(예: 어린이)에서 발생할 수 있습니다. BraTS-2024 챌린지는 이러한 문제를 해결하기 위한 플랫폼을 제공합니다. 본 연구는 MedNeXt, 포괄적인 모델 앙상블 및 철저한 후처리를 사용하여 BraTS-2024 SSA 및 소아종양 작업에서 종양을 분할하는 방법론을 제시합니다. 우리의 접근 방식은 보이지 않는 검증 세트에서 강력한 성능을 보여주었으며, BraTS-2024 SSA 데이터셋에서 평균 Dice 유사도 계수(DSC)가 0.896이고 BraTS 소아종양 데이터셋에서 평균 DSC가 0.830임을 달성했습니다. 또한, 우리의 방법은 BraTS-2024 SSA 데이터셋에서 평균 하우스도르프 거리(HD95)가 14.682이고 BraTS 소아종양 데이터셋에서 평균 HD95가 37.508임을 달성했습니다. 우리의 GitHub 저장소는 여기에서 확인할 수 있습니다: 프로젝트 저장소: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
맹목형 올인원 이미지 복원 모델은 알려지지 않은 왜곡으로 손상된 입력에서 고품질 이미지를 복구하는 것을 목표로 합니다. 그러나 이러한 모델은 훈련 단계에서 모든 가능한 왜곡 유형이 정의되어야 하며, 보이지 않는 왜곡에 대한 한정된 일반화를 보여 복잡한 경우에는 실용적인 응용이 제한됩니다. 본 논문에서는 간단하지만 효과적인 적응형 맹목형 올인원 복원(ABAIR) 모델을 제안합니다. 이 모델은 여러 왜곡을 처리할 수 있으며 보이지 않는 왜곡에 대해 잘 일반화되며 새로운 왜곡을 효율적으로 통합할 수 있습니다. 먼저, 우리는 기본 모델을 자연 이미지의 대규모 데이터셋에서 학습하고, 여러 가짜 왜곡으로 증강된 세그멘테이션 헤드를 추가하여 픽셀 단위의 왜곡 유형을 추정하여 다양한 왜곡에 일반화할 수 있는 강력한 백본을 얻습니다. 둘째, 우리는 기본 모델을 독립적인 저랭크 어댑터를 사용하여 다양한 이미지 복원 작업에 적응시킵니다. 셋째, 유연하고 가벼운 왜곡 추정기를 통해 다양한 이미지에 어댑터를 적응적으로 결합하는 방법을 학습합니다. 우리의 모델은 특정 왜곡을 처리하는 데 강력하면서도 복잡한 작업에 적응하는 데 유연합니다. 이 모델은 5개 및 3개 작업 IR 설정에서 최첨단 기술을 크게 능가할 뿐만 아니라 보이지 않는 왜곡 및 복합 왜곡에 대한 일반화도 향상되었습니다.
대규모 언어 모델 (LLM)인 GPT-3, PaLM 및 Llama와 같은 LLM의 신속한 발전은 자연어 처리를 혁신적으로 변화시켰으며, 언어 이해 및 생성에서 놀라운 능력을 보여주었습니다. 그러나 이러한 모델들은 종종 복잡한 추론을 필요로 하는 작업에서 어려움을 겪는데, 특히 수학 문제 해결에서는 대규모이고 고품질이며 도메인 특화된 데이터셋의 부족 때문에 정교한 추론 능력을 훈련시키기 위해서 필요한 것입니다. 이 한계를 극복하기 위해 우리는 템플릿 기반 데이터 생성 (TDG)을 소개합니다. 이는 LLM(GPT-4)을 활용하여 자동으로 매개변수화된 메타 템플릿을 생성하고, 이를 사용하여 다양한 고품질 문제와 해결책을 종합적으로 합성합니다. TDG를 활용하여 우리는 TemplateMath Part I: TemplateGSM을 만들었습니다. 이는 700만 개가 넘는 합성으로 생성된 초등학교 수학 문제로 구성된 데이터셋으로, 각 문제는 코드 기반 및 자연어 해결책이 함께 제공되며, 효과적으로 무한히 더 많은 문제를 생성할 수 있습니다. 이 데이터셋은 대규모 수학 데이터셋의 부족을 완화시키며, 수학적 추론에서 LLM의 사전 훈련, 세부 조정 및 평가에 유용한 자원으로 기능합니다. 우리의 방법은 거의 무한한 데이터 생성뿐만 아니라 GPT-4를 사용하여 메타 템플릿 생성을 통해 데이터 증강을 새로운 수준으로 끌어올려, 다양하고 고품질의 문제 구조를 보장합니다. TemplateMath Part I: TemplateGSM 데이터셋은 https://huggingface.co/datasets/math-ai/TemplateGSM에서 공개적으로 이용 가능하며, 코드는 https://github.com/iiis-ai/TemplateMath에서 확인할 수 있습니다.
최근 확산 모델의 발전으로 생성적 이미지 편집이 보다 접근성이 높아져 창의적인 편집이 가능해지면서, 특히 인간 초상에 대한 악의적인 편집으로 인한 개인 정보 및 신원 보안 위협과 같은 윤리적 문제가 제기되고 있습니다. 기존의 보호 방법은 주로 적대적 왜곡을 활용하여 편집을 무효화하지만, 다양한 편집 요청에 대해 종종 실패합니다. 우리는 FaceLock이라는 초상 보호를 위한 혁신적인 접근 방식을 제안합니다. FaceLock은 적대적 왜곡을 최적화하여 바이오메트릭 정보를 파괴하거나 심각하게 변경함으로써, 편집된 출력물을 바이오메트릭으로 식별할 수 없게 만듭니다. FaceLock은 얼굴 인식과 시각 지각을 왜곡 최적화에 통합하여 다양한 편집 시도에 대한 강력한 보호를 제공합니다. 또한 일반적으로 사용되는 평가 지표의 결함을 강조하고, 이러한 평가 지표가 어떻게 조작될 수 있는지 밝혀 신뢰할 수 있는 보호 평가의 필요성을 강조합니다. 실험 결과 FaceLock이 악의적인 편집에 대한 방어에서 베이스라인을 능가하며 정화 기술에 대해 견고합니다. 제거 연구는 FaceLock의 안정성을 확인하고 확산 기반 편집 알고리즘 전반에 걸쳐 넓은 적용 가능성을 입증합니다. 우리의 연구는 바이오메트릭 방어를 발전시키고 이미지 편집에서 개인 정보 보호 관행을 위한 기초를 마련합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/taco-group/FaceLock.