번역이 포함된 일일 선별된 AI 연구 논문
비디오 생성 분야는 현저한 발전을 이루었지만, 강건하고 확장 가능한 모델의 개발을 안내할 수 있는 명확하고 체계적인 방법론이 여전히 필요합니다. 본 연구에서는 모델 아키텍처, 훈련 방법론 및 데이터 정제 전략의 상호작용을 체계적으로 탐구하는 포괄적인 연구를 제시하며, 이는 STIV라는 간단하고 확장 가능한 텍스트-이미지 조건부 비디오 생성 방법으로 귀결됩니다. 우리의 프레임워크는 이미지 조건을 확산 트랜스포머(Diffusion Transformer, DiT)에 프레임 교체를 통해 통합하고, 텍스트 조건을 이미지-텍스트 조건부 분류기 없는 가이드를 통해 통합합니다. 이 설계는 STIV가 텍스트-비디오(T2V) 및 텍스트-이미지-비디오(TI2V) 작업을 동시에 수행할 수 있도록 합니다. 게다가, STIV는 비디오 예측, 프레임 보간, 다중 뷰 생성, 장시간 비디오 생성 등 다양한 응용에 쉽게 확장할 수 있습니다. T2I, T2V 및 TI2V에 대한 포괄적인 제거 연구를 통해 STIV는 간단한 설계임에도 불구하고 강력한 성능을 보여줍니다. 512 해상도의 87억 모델은 VBench T2V에서 83.1의 성능을 달성하여 CogVideoX-5B, Pika, Kling 및 Gen-3과 같은 선도적인 오픈 및 폐쇄 소스 모델을 능가합니다. 동일한 크기의 모델은 또한 512 해상도에서 VBench I2V 작업에서 90.1의 최첨단 결과를 달성합니다. 첨단 비디오 생성 모델을 구축하기 위한 투명하고 확장 가능한 방법론을 제공함으로써, 미래 연구를 지원하고 더 다재다능하고 신뢰할 수 있는 비디오 생성 솔루션으로의 진보를 가속화하기를 목표로 합니다.
대규모 언어 모델 (codeLLMs)은 코드 생성에서 상당한 발전을 이루었습니다. 이전의 대부분의 코드 관련 벤치마크는 다양한 프로그래밍 연습 문제와 해당 테스트 케이스로 구성되어 있으며, 코드 LLM의 성능과 능력을 평가하는 데 공통적으로 사용됩니다. 그러나 현재의 코드 LLM은 올바른 코드 조각을 합성하는 데 초점을 맞추고 있어 쿼리가 실제 응용 시나리오에서 샘플링되어야 하고 모델이 생성한 응답이 인간의 선호도를 만족시켜야 하는 점을 무시합니다. 모델이 생성한 응답과 인간의 선호도 사이의 간극을 좁히기 위해, 우리는 복잡성과 다양성을 흉내 내는 엄격한 인간이 선별한 벤치마크인 CodeArena를 제시합니다. 이 벤치마크는 사용자 쿼리에서 세심하게 선별된 40가지 범주와 44가지 프로그래밍 언어를 포괄하는 397개의 고품질 샘플로 구성되어 있습니다. 더 나아가, 웹사이트에서의 지침을 확장하여 다양한 합성 지침 말뭉치 SynCode-Instruct (약 20B 토큰)를 제안하여 대규모 합성 지침 미세 조정의 효과를 검증합니다. 이를 통해 합성 지침 데이터로 완전히 훈련된 Qwen2.5-SynCoder는 오픈 소스 코드 LLM의 최고 수준 성능을 달성할 수 있습니다. 결과는 실행 기반 벤치마크와 CodeArena 간의 성능 차이를 발견했습니다. 40개 이상의 LLM에 대한 CodeArena의 체계적인 실험 결과는 오픈 SOTA 코드 LLM (예: Qwen2.5-Coder)와 프로프리어터리 LLM (예: OpenAI o1) 간의 주목할만한 성능 차이를 보여줍니다. 이는 인간의 선호도 조정의 중요성을 강조합니다.
텍스트 설명으로부터 시각적 서술물을 만드는 이야기 시각화는 텍스트에서 이미지로 변환하는 모델들과 함께 발전해왔습니다. 그러나 이러한 모델들은 종종 캐릭터의 외모와 상호작용에 효과적인 제어를 부족하게 합니다, 특히 다중 캐릭터 장면에서. 이러한 제한을 해결하기 위해 우리는 새로운 작업을 제안합니다: 맞춤형 만화 생성과 다중 캐릭터 제어에 중점을 둔 혁신적인 프레임워크인 DiffSensei를 소개합니다. DiffSensei는 확산 기반 이미지 생성기와 텍스트 호환성 어댑터 역할을 하는 다중 모달 대형 언어 모델(MLLM)을 통합합니다. 저희 방법론은 마스크된 교차 어텐션을 활용하여 캐릭터 특징을 신속하게 통합함으로써 직접적인 픽셀 전송 없이도 정확한 레이아웃 제어를 가능케 합니다. 게다가 MLLM 기반 어댑터는 패널별 텍스트 힌트와 일치하도록 캐릭터 특징을 조정하여 캐릭터 표정, 자세, 행동에 유연한 조정을 가능하게 합니다. 또한 이 작업에 맞춤형 대규모 데이터셋인 MangaZero를 소개합니다. 이 데이터셋은 43,264개의 만화 페이지와 427,147개의 주석이 달린 패널을 포함하며, 순차적 프레임을 통해 다양한 캐릭터 상호작용과 움직임을 시각화할 수 있도록 지원합니다. 다양한 실험 결과는 DiffSensei가 기존 모델들을 능가함을 입증하며, 텍스트 호환성 캐릭터 맞춤화를 가능케 함으로써 만화 생성에서 중요한 발전을 이루었다는 것을 보여줍니다. 프로젝트 페이지는 https://jianzongwu.github.io/projects/diffsensei/ 에서 확인하실 수 있습니다.
최근 종합적인 다중 모달 모델에 대한 관심이 급증함에 따라 다양한 모달의 통합이 필요해졌습니다. 그러나 이 통합은 상이한 방법론으로부터 고통을 겪고 있습니다. 지속적인 시각 생성은 텍스트 영역의 자기 회귀 모델링과는 달리 완전한 순차 확산 기반 접근이 필요합니다. 우리는 과거 결정론적 경험을 기반으로 미래를 예측하는 자기 회귀 모델링, 즉 자기 회귀 모델링이 시각 생성 모델 및 잠재적 통합 다중 모달 모델 개발에 중요하다고 주장합니다. 본 논문에서는 자기 회귀 모델링과 전체 매개변수 확산을 보간하기 위해 시각 정보를 모델링하는 방법을 탐구합니다. 핵심적으로, 우리는 확산 블록 크기, 즉 자기 회귀 단위의 크기를 유연하게 조절하여 토큰별 자기 회귀와 전체 시퀀스 확산 사이를 보간할 수 있는 Autoregressive blockwise Conditional Diffusion Transformer인 ACDiT를 제안합니다. ACDiT는 훈련 중 Skip-Causal Attention Mask (SCAM)을 생성하는 것만큼 간단하게 구현할 수 있습니다. 추론 중에는 확산 노이즈 제거와 자기 회귀 디코딩 사이를 반복하는 프로세스를 KV-Cache를 최대한 활용할 수 있습니다. 우리는 ACDiT의 효과를 이미지 및 비디오 생성 작업에서 검증합니다. 또한 자기 회귀 모델링의 이점을 살펴본 결과, ACDiT는 확산 목표로 훈련되었음에도 불구하고 시각 이해 작업에서 매끄럽게 사용될 수 있음을 입증합니다. 자기 회귀 모델링과 확산 사이의 균형을 분석함으로써 ACDiT의 장기적 시각 생성 작업에 사용될 수 있는 잠재력을 입증합니다. 이러한 강점들은 ACDiT를 미래 통합 모델의 백본으로 유망하게 만듭니다.
우리는 다양한 이미지 생성 및 편집 작업을 다루기 위해 설계된 통합 프레임워크 UniReal을 소개합니다. 기존 솔루션들은 작업에 따라 다양하지만, 입력과 출력 사이의 일관성 유지와 시각적 변화를 포착하는 기본 원칙을 공유합니다. 최근 비디오 생성 모델에서 영감을 받아 일관성과 변화를 효과적으로 균형있게 유지하는 방법을 제안합니다. 이미지 수준 작업을 연속성 없는 비디오 생성으로 처리하는 통합 접근 방식을 제안합니다. 구체적으로 입력 및 출력 이미지의 수를 프레임으로 취급하여 이미지 생성, 편집, 사용자 정의, 구성 등과 같은 작업에 대한 원활한 지원을 가능하게 합니다. 이미지 수준 작업을 위해 설계되었지만, 우리는 보편적 감독을 위한 확장 가능한 소스로 비디오를 활용합니다. UniReal은 대규모 비디오로부터 세계의 동적을 학습하며 그림자, 반사, 자세 변화, 물체 상호작용을 처리하는 고급 능력을 보여주며 새로운 응용 프로그램에 대한 신흥 능력도 나타냅니다.
이미지 생성기의 품질이 계속해서 향상되면서 딥페이크는 상당한 사회적 논쟁의 주제가 되었습니다. 이미지 워터마킹은 책임 있는 모델 소유자가 자신의 AI 생성 콘텐츠를 감지하고 레이블을 지정할 수 있도록 하여 피해를 완화할 수 있습니다. 그러나 현재 이미지 워터마킹의 최첨단 방법은 위조 및 제거 공격에 취약한 상태입니다. 이 취약성은 생성된 이미지의 분포를 왜곡시키는 워터마크로 인해 발생하며, 워터마킹 기술에 대한 정보를 무의도하게 노출시킵니다. 본 연구에서는 먼저 확산 모델의 초기 노이즈를 기반으로 한 이미지에 대한 왜곡이 없는 워터마킹 방법을 시연합니다. 그러나 워터마크를 감지하려면 이미지에 대해 재구성된 초기 노이즈를 모든 이전에 사용된 초기 노이즈와 비교해야 합니다. 이러한 문제를 완화하기 위해 효율적인 감지를 위한 두 단계 워터마킹 프레임워크를 제안합니다. 생성 중에 우리는 초기 노이즈를 생성된 푸리에 패턴과 함께 증강하여 사용한 초기 노이즈 그룹에 대한 정보를 삽입합니다. 감지 시, 우리는 (i) 관련 있는 노이즈 그룹을 검색하고, (ii) 주어진 그룹 내에서 이미지와 일치할 수 있는 초기 노이즈를 찾습니다. 이 워터마킹 접근 방식은 다양한 공격에 대해 대규모로 위조 및 제거에 대한 최첨단 견고성을 달성합니다.
텍스트에서 이미지로의 생성에 대한 최근 발전은 다양한 응용 프로그램을 갖춘 고품질 이미지의 생성을 가능케했습니다. 그러나 원하는 시각적 속성을 정확하게 설명하는 것은 미술과 사진에 대한 비전문가들에게는 어려울 수 있습니다. 직관적인 해결책은 원본 이미지에서 선호되는 속성을 채택하는 것입니다. 현재 방법은 원본 이미지로부터 정체성과 스타일을 추출하려고 합니다. 그러나 "스타일"은 질감, 색상 및 예술적 요소를 포함하지만 조명 및 다이내믹스와 같은 다른 중요한 속성을 다루지 않습니다. 게다가, 단순화된 "스타일" 적응은 서로 다른 소스에서 여러 속성을 결합하여 하나의 생성된 이미지로 만들지 못하게 합니다. 본 연구에서는 사진의 미학을 구체적인 시각적 속성으로 분해하여 사용자가 다른 이미지에서 조명, 질감 및 다이내믹스와 같은 특성을 적용할 수 있도록 더 효과적인 방법을 제안합니다. 이 목표를 달성하기 위해, 우리는 우리가 알기로는 처음으로 세분화된 시각적 속성 데이터셋 (Fine-grained Visual Attributes, FiVA)을 구축했습니다. 이 FiVA 데이터셋은 시각적 속성을 위한 잘 구성된 분류법을 갖추고 시각적 속성 주석이 달린 약 1백만 장의 고품질 생성된 이미지를 포함합니다. 이 데이터셋을 활용하여 우리는 하나 이상의 원본 이미지로부터 시각적 속성을 분리하고 적응하는 Fine-grained Visual Attribute Adapter (FiVA-Adapter)를 제안합니다. 이 방법은 사용자 친화적인 사용자 정의를 향상시켜 사용자가 고유한 선호도와 특정 콘텐츠 요구 사항을 충족하는 이미지를 만들기 위해 원하는 속성을 선택적으로 적용할 수 있도록 합니다.
비디오 확산 모델은 인상적인 현실감과 조절 가능성을 달성했지만, 높은 계산 요구로 인해 모바일 장치에서의 사용이 제한되고 있습니다. 본 논문은 최초로 모바일에 최적화된 비디오 확산 모델을 소개합니다. Stable Video Diffusion (SVD)의 시공간 UNet에서 시작하여, 프레임 해상도를 줄이고 다중 규모의 시간적 표현을 통합하며, 채널 수와 시간 블록 수를 줄이기 위해 두 가지 새로운 가지치기 체계를 도입하여 메모리 및 계산 비용을 줄였습니다. 더불어, 노이즈 제거를 단일 단계로 줄이기 위해 적대적인 파인튜닝을 사용했습니다. MobileVD로 명명된 우리의 모델은 약간의 품질 저하(FVD 149 대 171)와 함께 14x512x256 px 클립의 latents를 Xiaomi-14 Pro에서 1.7초 내에 생성하는 데 523배 효율적(1817.2 대 4.34 TFLOPs)입니다. 결과는 https://qualcomm-ai-research.github.io/mobile-video-diffusion/에서 확인할 수 있습니다.
본 논문은 비디오 생성에서 다중 개체 3D 동작을 조작하는 데 목적을 두고 있습니다. 제어 가능한 비디오 생성에 대한 이전 방법은 주로 2D 제어 신호를 활용하여 객체 동작을 조작하고 현저한 합성 결과를 이루었습니다. 그러나 2D 제어 신호는 객체 동작의 3D 성격을 표현하는 데 본질적으로 제한이 있습니다. 이 문제를 극복하기 위해 우리는 사용자가 원하는 엔티티의 6DoF 포즈(위치 및 회전) 시퀀스를 조절하는 강력한 컨트롤러인 3DTrajMaster를 소개합니다. 우리 접근 방식의 핵심은 여러 입력 엔티티를 해당 3D 궤적과 함께 융합시키는 게이트형 자기 주의 메커니즘을 통해 3D 동작에 기반한 오브젝트 인젝터를 플러그 앤 플레이하는 것입니다. 또한 일반화 능력에 중요한 비디오 확산 사전을 보존하기 위해 인젝터 아키텍처를 활용합니다. 비디오 품질 저하를 완화하기 위해 훈련 중에 도메인 어댑터를 도입하고 추론 중에 어닐링 샘플링 전략을 채택합니다. 적절한 훈련 데이터 부족 문제를 해결하기 위해 360-Motion 데이터셋을 구축했는데, 이는 먼저 수집된 3D 인간 및 동물 자산을 GPT가 생성한 궤적과 연관시키고 다양한 3D UE 플랫폼의 12개의 고르게 배치된 카메라로 그들의 동작을 캡처합니다. 광범위한 실험 결과는 3DTrajMaster가 다중 개체 3D 동작을 제어하는 데 있어 정확성과 일반화 측면에서 새로운 최고 수준을 세웠음을 보여줍니다. 프로젝트 페이지: http://fuxiao0719.github.io/projects/3dtrajmaster
Granite Guardian 모델을 소개합니다. 이는 프롬프트 및 응답에 대한 위험 탐지를 제공하도록 설계된 일련의 안전장치로, 어떤 대형 언어 모델 (LLM)과도 안전하고 책임있는 사용을 가능하게 합니다. 이러한 모델은 사회적 편향, 저속, 폭력, 성적 콘텐츠, 비윤리적 행동, 탈옥, 그리고 문맥 관련성, 근거, 그리고 검색 증강 생성 (RAG)을 위한 답변 관련성과 같은 환각 관련 위험을 포함한 다양한 위험 차원에 걸쳐 포괄적인 보호를 제공합니다. 다양한 소스에서의 인간 주석과 합성 데이터를 결합한 독특한 데이터셋으로 훈련된 Granite Guardian 모델은 일반적으로 전통적인 위험 탐지 모델에서 간과되는 탈옥 및 RAG 특정 문제와 같은 위험을 다룹니다. 유해 콘텐츠와 RAG-환각 관련 벤치마크에서 각각 0.871 및 0.854의 AUC 점수를 기록한 Granite Guardian은 해당 분야에서 가장 일반화되고 경쟁력 있는 모델입니다. 오픈 소스로 공개된 Granite Guardian은 커뮤니티 전반에 걸쳐 책임 있는 AI 개발을 촉진하는 것을 목표로 합니다. https://github.com/ibm-granite/granite-guardian
최근 확산 기반 비디오 편집의 발전은 실용적인 응용 가능성을 보여주었습니다. 그러나 이러한 방법들은 여전히 모바일 장치에 배포하기 어렵고 고가로 유지되고 있습니다. 본 연구에서는 모바일 비디오 편집을 가능하게 하는 일련의 최적화를 소개합니다. 기존 이미지 편집 모델을 기반으로, 먼저 그 구조를 최적화하고 가벼운 오토인코더를 통합합니다. 이후, 분류기 없는 가이드 지식 증류를 여러 모달리티로 확장하여 장치 내 속도를 세 배 향상시킵니다. 마지막으로, 편집 과정의 조절 가능성을 보존하는 새로운 적대적 지식 증류 방식을 도입하여 샘플링 단계 수를 하나로 줄입니다. 이러한 최적화들을 종합하면, 고품질을 유지하면서 모바일 장치에서 초당 12프레임의 비디오 편집이 가능해집니다. 결과는 https://qualcomm-ai-research.github.io/mobile-video-editing/에서 확인할 수 있습니다.
저희는 DiT(확산 트랜스포머)를 위해 특별히 설계된 새로운 합성 비디오로의 움직임을 전달하는 방법인 DiTFlow를 제안합니다. 우리는 먼저 사전 훈련된 DiT로 참조 비디오를 처리하여 프레임 간 어텐션 맵을 분석하고 Attention Motion Flow(AMF)라고 불리는 패치별 움직임 신호를 추출합니다. 우리는 AMF 손실을 사용하여 최적화 기반의 훈련 없는 방식으로 잠재적인 노이즈 제거 과정을 안내하여 참조 비디오의 움직임을 재현하는 비디오를 생성하기 위해 잠재 변수를 최적화합니다. 또한 우리는 트랜스포머 위치 임베딩에 우리의 최적화 전략을 적용하여 제로샷 움직임 전송 능력을 향상시킵니다. 우리는 DiTFlow를 최근 발표된 방법들과 비교하여 다양한 메트릭 및 인간 평가에서 모두 능가하는 성과를 거두었습니다.
다중언어 모델(MLM)은 여전히 전문 모델이 뛰어난 기본 시각 인식 작업에서 도전을 겪고 있습니다. 3D 구조에 대한 추론이 필요한 작업은 깊이 추정에서 이점을 얻고, 2D 객체 인스턴스에 대한 추론은 객체 감지에서 이점을 얻습니다. 그러나 MLM은 중간 깊이나 상자를 생성하여 추론할 수 없습니다. 관련 데이터로 MLM을 세밀 조정해도 일반화가 잘 되지 않으며 전문 비전 도구로의 계산 외주는 계산 집약적이고 메모리 비효율적입니다. 이를 해결하기 위해 우리는 언어만으로는 충분하지 않은 추론 작업을 지원하기 위해 설계된 내재 이미지 표현인 'Perception Tokens'을 소개합니다. Perception tokens은 보조 추론 토큰으로 작용하며, 언어 모델의 사고 체인 프롬프트와 유사합니다. 예를 들어, 깊이 관련 작업에서 Perception tokens로 보강된 MLM은 토큰으로 깊이 맵을 생성하여 문제를 효과적으로 해결할 수 있습니다. 우리는 시갘 입력에 대한 추론을 향상시키기 위해 MLM에 Perception tokens을 추가하는 교육 방법인 AURORA를 제안합니다. AURORA는 VQVAE를 활용하여 중간 이미지 표현(예: 깊이 맵)을 토큰화된 형식으로 변환하고, 이를 다중 작업 교육 프레임워크에서 사용하는 방식으로 작동합니다. AURORA는 BLINK에서 +10.8%, CVBench에서 +11.3%, SEED-Bench에서 +8.3%의 계수 벤치마크에서 주목할만한 개선을 달성하며, 데이터셋 간 일반화에서 세밀 조정 접근법을 능가합니다. 또한 BLINK에서 상대적 깊이에 대해 +6% 이상의 개선을 달성합니다. Perception tokens을 통해 AURORA는 언어 기반 추론을 넘어 MLM의 범위를 확장하여 더 효과적인 시각 추론 능력을 열어갑니다.
가시성은 대형 언어 모델 (LLM)에 대한 신뢰를 증진시키는 데 중요한 과제로, 모델의 매개변수에서 추론을 추출하는 복잡성에서 비롯됩니다. 우리는 선형 표현 가설 (LRH)에 근거한 이론적으로 견고한 프레임 표현 가설을 제시하여 다중 토큰 단어를 모델링하여 LLM을 해석하고 제어합니다. 이전 연구에서는 LLM 표현을 언어적 개념과 연결하기 위해 LRH를 탐구했지만, 단일 토큰 분석으로 제한되었습니다. 대부분의 단어가 여러 토큰으로 구성되므로 LRH를 다중 토큰 단어로 확장하여 수천 개의 개념을 포함하는 모든 텍스트 데이터에서 사용할 수 있게 합니다. 이를 위해 우리는 단어를 프레임으로 해석할 수 있으며, 이는 토큰-단어 관계를 더 잘 포착하는 벡터의 순서화된 시퀀스입니다. 그런 다음, 개념은 공통 개념을 공유하는 단어 프레임의 평균으로 표현될 수 있습니다. 우리는 Top-k 개념 안내 디코딩을 통해 이러한 도구들을 소개하며, 이를 사용하여 선택한 개념을 사용하여 텍스트 생성을 직관적으로 조절할 수 있습니다. 우리는 성별 및 언어 편향을 보여주고 유해한 콘텐츠를 드러내지만, 이를 해소할 수 있는 잠재력을 노출함으로써, 더 안전하고 투명한 LLM으로 이어지는 Llama 3.1, Gemma 2 및 Phi 3 패밀리에서 이러한 아이디어를 검증합니다. 코드는 https://github.com/phvv-me/frame-representation-hypothesis.git에서 사용할 수 있습니다.
본 연구는 파라미터 효율적이고 가벼운 모델을 개발하는 데 초점을 맞추며, 파라미터, FLOP 및 성능을 교환하면서 밀도 예측을 위한 모델을 개발합니다. 우리의 목표는 다양한 하향 작업에서 5M 규모의 가벼운 모델의 새로운 지평을 제시하는 것입니다. 역 이웃 잔여 블록(IRB)은 가벼운 CNN의 기반이 되지만, 주의 기반 설계에 해당하는 것은 인정되지 않았습니다. 본 연구는 효율적인 IRB의 가벼운 기반과 트랜스포머의 실용적인 구성 요소를 통합적인 관점에서 재고하며, CNN 기반 IRB를 주의 기반 모델로 확장하고 가벼운 모델 설계를 위해 하나의 잔여 메타 모바일 블록(MMBlock)을 추상화합니다. 깔끔하고 효과적인 설계 기준을 따라, 현대화된 개선된 역 이웃 잔여 모바일 블록(i2RMB)을 유도하고, 복잡한 구조 없이 계층적 효율적 모델(EMOv2)을 개선합니다. 4G/5G 대역폭에서 모델을 다운로드할 때 모바일 사용자에게 미미한 대기 시간을 고려하고 모델 성능을 보장하기 위해, 우리는 5M 규모의 가벼운 모델의 성능 상한선을 조사합니다. 다양한 비전 인식, 밀도 예측 및 이미지 생성 작업에 대한 광범위한 실험은 우리의 EMOv2가 최첨단 방법에 비해 우월함을 입증합니다. 예를 들어, EMOv2-1M/2M/5M은 각각 72.3, 75.8 및 79.4의 Top-1을 달성하여 동등한 순서의 CNN-/주의 기반 모델을 크게 능가합니다. 동시에, EMOv2-5M이 장착된 RetinaNet은 물체 감지 작업에서 41.5의 mAP를 달성하여 이전 EMO-5M보다 +2.6을 능가합니다. 더 견고한 훈련 레시피를 적용할 때, 우리의 EMOv2-5M은 마침내 82.9의 Top-1 정확도를 달성하여 5M 규모 모델의 성능을 새로운 수준으로 끌어올립니다. 코드는 https://github.com/zhangzjn/EMOv2에서 확인할 수 있습니다.
이미지 생성 모델의 최근 발전으로 사용자 정의 주제(콘텐츠)와 스타일을 모두 갖춘 개인화된 이미지 생성이 가능해졌습니다. 이전 연구는 최적화 기반 방법을 통해 해당하는 저랭크 적응 매개변수(LoRAs)를 병합하여 개인화를 달성했으나, 이는 계산적으로 요구가 많아 스마트폰과 같은 자원 제약 장치에서 실시간 사용에 부적합합니다. 이에 우리는 LoRA.rar를 소개하여 이미지 품질을 향상시키는 동시에 병합 과정에서 4000배 이상의 놀라운 가속을 달성하는 방법을 제시합니다. LoRA.rar은 다양한 콘텐츠-스타일 LoRA 쌍에 대해 하이퍼네트워크를 사전 훈련시키며, 새로운 보이지 않는 콘텐츠-스타일 쌍에 일반화되는 효율적인 병합 전략을 학습하여 빠르고 고품질의 개인화를 가능케 합니다. 더불어, 우리는 콘텐츠-스타일 품질에 대한 기존 평가 메트릭의 한계를 확인하고, 보다 정확한 평가를 위해 다중 모달 대형 언어 모델(MLLM)을 사용하는 새로운 프로토콜을 제안합니다. 우리의 방법은 MLLM 평가 및 인간 평가를 통해 콘텐츠와 스타일 충실도 모두에서 현재의 최첨단 기술을 크게 능가합니다.
본 논문에서는 ILLUME을 소개합니다. ILLUME은 통합된 다중 모달 대형 언어 모델(MLLM)로, 통합된 다음 토큰 예측 공식을 통해 다중 모달 이해 및 생성 기능을 원활하게 통합합니다. 이미지-텍스트 정렬에 typcially 필요한 대규모 데이터셋 크기를 해결하기 위해 시맨틱 정보를 통합하는 비전 토크나이저와 점진적 다단계 훈련 절차를 통해 데이터 효율성을 향상하는 것을 제안합니다. 이 접근 방식은 사전 훈련을 위한 데이터셋 크기를 일반적으로 필요한 것보다 4배 이상 적은 15M으로 줄이면서도 기존의 Janus와 같은 통합 MLLM과 경쟁력 있는 또는 우수한 성능을 달성합니다. 또한, 이전 연구에서 미처 탐구되지 않은 이해 및 생성 기능 간의 상호 작용을 촉진하기 위해 자가 강화 다중 모달 정렬 체계를 소개합니다. 이 체계는 MLLM이 텍스트 설명과 자체 생성 이미지 간의 일관성을 자가 평가하도록 지도하여 모델이 이미지를 더 정확하게 해석하고 이미지 생성의 불일치로 인한 비현실적이고 잘못된 예측을 피하도록 돕습니다. 광범위한 실험을 기반으로, 우리의 제안된 ILLUME은 다양한 다중 모달 이해, 생성 및 편집 벤치마크에서 최첨단 통합 MLLM 및 전문 모델과 경쟁하며 두드러지는 성과를 보입니다.
최근에는 대형 언어 모델(Large Language Models, LLMs)이 현저한 변화를 겪었는데, 그 인기와 능력이 급속히 상승하고 있다. 이 진화를 주도하는 것은 GPT-4와 GPT-o1과 같은 소유 LLMs로, 놀랄만한 성능과 다용도성으로 AI 커뮤니티에서 널리 주목받고 있다. 동시에 LLaMA와 Mistral과 같은 오픈 소스 LLMs는 모델을 다양한 응용 프로그램에 맞게 사용자 정의하고 배포하기 쉬운 편리함으로 LLMs의 인기가 계속 증가하도록 큰 기여를 하고 있다. 오픈 소스 LLMs는 혁신과 연구에 전례 없는 기회를 제공하지만, LLMs의 상업화는 투명성, 재현성 및 안전성에 대한 우려를 제기했다. 많은 오픈 소스 LLMs는 훈련 코드와 데이터와 같은 필수 구성 요소를 숨기는 등 기본적인 투명성 요구 사항을 충족시키지 못하며, 일부는 "오픈 소스"임에도 불구하고 제한적인 라이선스를 사용하여 LLMs에 대한 추가 혁신을 방해할 수 있다. 이 문제를 완화하기 위해, 우리는 Model Openness Framework(MOF)에 따라 개발된 완전한 오픈 소스 LLM인 Moxin 7B를 소개한다. MOF는 AI 모델을 모델 완성도와 개방성을 기반으로 평가하는 순위 분류 체계로, 오픈 사이언스, 오픈 소스, 오픈 데이터 및 오픈 액세스 원칙을 준수한다. 우리 모델은 사전 훈련 코드와 구성, 훈련 및 세밀 조정 데이터 세트, 중간 및 최종 체크포인트를 포괄적으로 공개함으로써 "오픈 사이언스"의 최고 MOF 분류 수준을 달성했다. 실험 결과, 우리 모델은 인기 있는 7B 모델과 비교하여 제로샷 평가에서 우수한 성능을 보이며, 퓨샷 평가에서도 경쟁력 있는 성과를 거뒀다.
최근 대규모 다중 모달 모델(LMMs)의 발전은 이미지-텍스트 쌍 데이터를 증가시킴으로써 스케일링의 중요성을 강조하며, 일반적인 작업에서 인상적인 성능을 달성하고 있음을 보여줍니다. 일반적인 모델들은 다양한 응용 분야에서 효과적이지만, 주로 자연 이미지가 우세한 웹 규모 데이터셋에서 주로 훈련되어 전문 지식이 필요한 특정 도메인 작업을 위한 전문화된 능력을 희생하게 됩니다. 또한, 특정 도메인에 맞게 맞춤화된 전문가 모델을 직접 통합하는 것은 일반 모델과 전문가 간의 표현 갭과 균형이 맞지 않는 최적화로 인해 어려움을 겪습니다. 이러한 도전에 대처하기 위해 우리는 도메인별 전문가들과 함께 기존 LMMs의 능력을 강화하기 위해 설계된 확장 가능하고 저비용의 다중 모달 파이프라인인 Chimera를 소개합니다. 구체적으로, 전문가 모델의 특징을 일반적인 LMM의 입력에 통합하기 위한 점진적 훈련 전략을 설계합니다. 잘 맞춘 일반적인 시각 인코더로 인한 균형이 맞지 않는 최적화를 해결하기 위해 일반-전문가 협업 마스킹(GSCM) 메커니즘을 도입합니다. 이로써 차트, 표, 수학, 문서 도메인에서 뛰어난 성과를 거두며, 기존 LMMs를 평가하기 어려운 다중 모달 추론 및 시각 콘텐츠 추출 작업에서 최첨단 성능을 달성하는 다목적 모델이 탄생합니다.
본 연구는 이미지에서 비디오로 (I2V) 생성 시 더 정밀하고 다재다능한 객체 제어를 달성하기 위해 목표로 합니다. 현재 방법들은 일반적으로 대상 객체의 공간 이동을 2D 궤적으로 나타내며, 이는 종종 사용자 의도를 포착하지 못하고 자연스럽지 못한 결과물을 종종 생성합니다. 제어를 향상시키기 위해, 우리는 훈련 없이 객체 제어 접근 방식인 ObjCtrl-2.5D를 제시합니다. 이 방법은 깊이 정보를 포함한 2D 궤적에서 확장된 3D 궤적을 제어 신호로 사용합니다. 객체 이동을 카메라 이동으로 모델링함으로써, ObjCtrl-2.5D는 3D 궤적을 카메라 포즈의 시퀀스로 나타내어 기존 카메라 이동 제어 I2V 생성 모델(CMC-I2V)을 훈련 없이 사용하여 객체 이동 제어를 가능하게 합니다. 전역 이동 제어를 위해 원래 설계된 CMC-I2V 모델을 로컬 객체 이동을 처리할 수 있도록 조정하기 위해, 우리는 대상 객체를 배경으로부터 분리하는 모듈을 도입하여 독립적인 로컬 제어를 가능하게 합니다. 또한, 객체 영역 내에서 낮은 주파수의 변형된 잠재를 공유함으로써 더 정확한 객체 제어를 달성하는 효과적인 방법을 고안합니다. 다양한 실험 결과는 ObjCtrl-2.5D가 훈련 없는 방법보다 객체 제어 정확도를 크게 향상시키고, 2D 궤적을 사용하는 훈련 기반 접근 방식보다 더 다양한 제어 능력을 제공하여 객체 회전과 같은 복잡한 효과를 가능하게 한다는 것을 입증합니다. 코드와 결과는 https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/에서 확인할 수 있습니다.
본 논문은 대형 언어 모델의 성능을 향상시키기 위해 추론 단계에서 발생하는 가변적인 계산 요구를 다루고자 합니다. 일부 토큰이 다른 것들보다 더 많은 계산 자원을 필요로 하는 경우가 있습니다. 본 연구에서는 HARP를 제안합니다. 이는 "기본" Transformer 전방 통과에 간단한 수정을 가한 것입니다. 결정 내릴 때의 망설임과 프레임 효과에서 영감을 받아, HARP는 모델이 토큰 생성 중에 불확실성을 만났을 때 추가 계산을 선택적으로 적용합니다. 우리의 방법은 어려운 결정 지점에서 일시 중단하고 다른 관점으로 입력을 재구성함으로써 인간의 인지 과정을 모방합니다. 다른 접근법과는 달리, HARP는 모델에 구애받지 않으며, 훈련이 필요 없으며, 구현이 쉽습니다. 우리는 다양한 하위 작업과 모델 크기를 통해 우리의 방법을 철저히 평가하고, 성능 향상을 최대 +5.16%까지 보여줍니다. 특히, HARP는 추론 시간을 빔 탐색보다 두 배 빠르게 유지하면서 이러한 이득을 얻습니다. 간단하면서도 상당한 이득을 얻는 HARP는 최소한의 계산적 영향으로 Transformer 기반 언어 모델의 성능을 향상시키는 실용적인 해결책을 제공합니다.
텍스트 대 이미지 (T2I) 생성은 확산 모델로 상당한 진전을 보았으며, 텍스트 프롬프트로부터 사진과 유사한 이미지를 생성할 수 있게 되었습니다. 이러한 진전에도 불구하고, 기존 방법은 여전히 복합하고 다단계 추론이 필요한 복잡한 텍스트 프롬프트에 대한 도전에 직면하고 있습니다. 이러한 복잡한 지침에 대해 SOTA 모델은 종종 물체 속성 및 그들 사이의 관계를 정확하게 모델링하는 데 오류를 범합니다. 본 연구에서는 T2I 합성을 위한 대안적 패러다임을 제시하며, 복합 다단계 생성 작업을 세 단계로 분해합니다. (a) 생성: 우리는 먼저 기존 확산 모델을 사용하여 이미지를 생성합니다. (b) 계획: 우리는 Multi-Modal LLMs (MLLMs)를 활용하여 생성된 이미지의 오류를 개별 객체 및 속성으로 표현하고 수정 계획 형태로 필요한 수정 단계의 일련의 단계를 생성합니다. (c) 편집: 우리는 기존의 텍스트 안내 이미지 편집 모델을 활용하여 생성된 이미지에 연속적으로 수정 계획을 실행하여 원하는 이미지를 얻습니다. 이 접근 방식은 모듈식이며 훈련이 필요 없으며, 이미지 생성 및 편집 모델의 모든 조합에 적용할 수 있다는 장점을 가지고 있습니다. 추가적인 기여로, 우리는 복합적 편집이 가능한 모델을 개발하여 제안된 방법의 전반적인 정확도를 향상시키는 데 도움이 됩니다. 우리의 방법은 추론 시간 계산과 복합적 텍스트 프롬프트에 대한 성능을 유연하게 교환합니다. DALLE-3 및 최신 버전인 SD-3.5-Large를 포함한 10가지 T2I 모델 및 3가지 벤치마크에서 광범위한 실험적 평가를 수행합니다. 우리의 방법은 SOTA 모델의 성능을 최대 3 포인트까지 향상시킬 뿐만 아니라, 약한 모델과 강한 모델 간의 성능 차이를 줄이는 데 도움이 됩니다.
페더레이티드 러닝(Federated Learning, FL)은 클라이언트가 원본 데이터를 공유하지 않고 기계 학습 모델을 공동으로 학습할 수 있도록 함으로써 데이터 개인 정보 보호를 목표로 합니다. 그러나 최근 연구에 따르면 FL 중에 교환되는 정보는 그라디언트 역전 공격(Gradient Inversion Attacks, GIA)의 대상이 되며, 이에 따라 SMC(Secure Multi-party Computing), HE(Homomorphic Encryption), DP(Differential Privacy)와 같은 다양한 개인 정보 보호 방법이 FL에 통합되어 이러한 공격을 방어하고 있습니다. 데이터 개인 정보를 보호할 수 있는 능력에도 불구하고, 이러한 방법들은 본질적으로 상당한 개인 정보-유틸리티 교환을 수반합니다. GIA 하에 FL에서 개인 정보 노출의 핵심인 모델 그라디언트의 빈번한 공유에 다시 주목함으로써, 우리는 공유된 매개변수와 지역 개인 데이터 사이의 "직접적인 연결을 끊는" 효과적인 개인 정보 보호 FL 프레임워크를 설계함으로써 새로운 시각을 제시합니다. 구체적으로, 우리는 하이퍼네트워크를 활용하여 지역 모델의 매개변수를 생성하고, 오직 하이퍼네트워크 매개변수만이 집계를 위해 서버로 업로드되는 Hypernetwork Federated Learning(HyperFL) 프레임워크를 제안합니다. 이러한 HyperFL의 수렴 속도를 이론적으로 분석하고, 광범위한 실험 결과는 HyperFL의 개인 정보 보호 능력과 비교 가능한 성능을 보여줍니다. 코드는 https://github.com/Pengxin-Guo/HyperFL에서 확인할 수 있습니다.
AI가 생성한 반발 발언은 공손한 토론을 촉진하는 직접적인 답변을 통해 온라인 독성을 억제하는 유망하고 확장 가능한 전략을 제공합니다. 그러나 현재의 반발 발언은 일률적이며, 조절 맥락과 관련된 사용자에 맞게 적응되지 않습니다. 우리는 조절 맥락에 적응되고 조절된 사용자에 맞게 개인화된 반발 발언을 생성하는 여러 전략을 제안하고 평가합니다. 우리는 LLaMA2-13B 모델에 반발 발언 생성을 지시하고, 다양한 맥락 정보와 세밀한 조정 전략에 기반한 다양한 구성을 실험합니다. 우리는 사전 등록된 혼합 설계 크라우드소싱 실험을 통해 수집된 양적 지표와 인간 평가를 결합하여 설득력 있는 반발 발언을 생성하는 구성을 식별합니다. 결과는 맥락화된 반발 발언이 적절성과 설득력 측면에서 최첨단 일반 반발 발언을 크게 능가할 수 있음을 보여주며, 다른 특성을 희생하지 않습니다. 우리의 연구 결과는 양적 지표와 인간 평가 사이의 약한 상관 관계를 보여주며, 이러한 방법이 서로 다른 측면을 평가하며 세밀한 평가 방법의 필요성을 강조합니다. 맥락화된 AI가 생성한 반발 발언의 효과와 인간과 알고리즘 평가 사이의 차이는 콘텐츠 조절에서 증가하는 인간-AI 협업의 중요성을 강조합니다.
시각운동로봇 정책은 점점 대규모 데이터셋에서 사전 훈련되며, 로봇 공학 분야 전반에 걸쳐 중요한 발전을 약속합니다. 그러나 이러한 정책을 최종 사용자 선호도와 조율하는 것은 특히 선호도를 명확히 지정하기 어려울 때 도전입니다. 인간 피드백으로부터 강화 학습(RLHF)은 대규모 언어 모델과 같은 비구형 도메인에서 조율의 주요 메커니즘이 되었지만, 시각운동로봇 정책을 조율하는 데는 시각적 보상 함수를 학습하는 데 필요한 인간 피드백의 양이 막대한 이유로 동일한 성공을 보지 못했습니다. 이 한계를 극복하기 위해 우리는 시각적 보상을 학습하는 관측만 방법인 '표현-조율 기반 학습' (RAPL)을 제안합니다. 전통적인 RLHF와 달리 RAPL은 인간 피드백을 사전 훈련된 비전 인코더를 세밀하게 조정하여 최종 사용자의 시각적 표현과 일치시키고, 이에 따라 조율된 표현 공간에서 특징 일치를 통해 밀도 있는 시각적 보상을 구성합니다. 우리는 먼저 X-Magical 벤치마크와 Franka Panda 로봇 조작에서 시뮬레이션 실험을 통해 RAPL을 검증하고, 인간 선호도와 일치하는 보상을 학습할 수 있으며, 선호 데이터를 더 효율적으로 사용하며 로봇 본체 간에 일반화할 수 있음을 보여줍니다. 마지막으로, 세 가지 물체 조작 작업에 대해 사전 훈련된 확산 정책을 조율하는 하드웨어 실험을 수행합니다. RAPL은 이러한 정책을 5배 더 적은 실제 인간 선호도 데이터로 세밀하게 조정할 수 있음을 발견하며, 인간 피드백을 최소화하고 시각운동로봇 정책 조율을 극대화하는 첫걸음을 내딛습니다.