번역이 포함된 일일 선별된 AI 연구 논문
생성 모델의 출력물에 워터마크를 삽입하는 것은 저작권 추적과 AI 생성 콘텐츠로 인한 잠재적 피해를 방지하기 위한 중요한 기술입니다. 본 논문에서는 확산 모델 출력물에 강력한 지문을 남기는 새로운 기술인 Tree-Ring 워터마킹을 소개합니다. 기존 방법들이 샘플링 후 이미지에 사후 수정을 가하는 것과 달리, Tree-Ring 워터마킹은 전체 샘플링 과정에 미묘하게 영향을 미쳐 인간의 눈에 보이지 않는 모델 지문을 생성합니다. 이 워터마크는 샘플링에 사용되는 초기 노이즈 벡터에 패턴을 삽입합니다. 이러한 패턴들은 푸리에 공간에서 구조화되어 있어, 컨볼루션, 크롭, 확대, 뒤집기, 회전 등에 불변합니다. 이미지 생성 후, 워터마크 신호는 확산 과정을 역으로 진행하여 노이즈 벡터를 검색하고, 삽입된 신호를 확인함으로써 감지됩니다. 우리는 이 기술이 텍스트 조건부 Stable Diffusion을 포함한 임의의 확산 모델에 플러그인 형태로 쉽게 적용될 수 있으며, FID 측면에서 미미한 손실만 발생함을 보여줍니다. 우리의 워터마크는 이미지 공간에서 의미적으로 숨겨져 있으며, 현재 배포된 대체 워터마킹 기술보다 훨씬 더 강력합니다. 코드는 github.com/YuxinWenRick/tree-ring-watermark에서 확인할 수 있습니다.
트랜스포머(Transformer) 기반 대규모 언어 모델(LLMs)은 복잡한 다단계 추론을 요구하는 작업에서 탁월한 성능을 보이며 주목을 받고 있습니다. 그러나 동시에 이 모델들은 놀랍도록 단순한 문제에서 실패를 보이기도 합니다. 이는 이러한 오류가 단순한 우연인지, 아니면 더 근본적인 한계를 나타내는 것인지에 대한 의문을 제기합니다. 트랜스포머의 한계를 명확히 이해하기 위해, 우리는 세 가지 대표적인 조합적 작업(compositional tasks) — 다자릿수 곱셈, 논리 그리드 퍼즐, 그리고 고전적인 동적 프로그래밍 문제 — 에 걸쳐 이 모델들의 한계를 조사했습니다. 이러한 작업들은 문제를 하위 단계로 분해하고 이를 정확한 답으로 종합하는 능력을 요구합니다. 우리는 조합적 작업을 계산 그래프(computation graph)로 공식화하여 복잡성 수준을 체계적으로 정량화하고, 추론 단계를 중간 하위 절차로 분해했습니다. 실험 결과에 따르면, 트랜스포머는 체계적인 문제 해결 능력을 반드시 발전시키지 않고도 다단계 조합적 추론을 선형화된 하위 그래프 매칭으로 축소하여 조합적 작업을 해결하는 것으로 나타났습니다. 실험 연구를 마무리하며, 우리는 추상적인 다단계 추론 문제에 대한 이론적 논의를 제시하여, 작업 복잡성이 증가함에 따라 트랜스포머의 성능이 급격히 저하될 수 있음을 강조합니다.
자동 텍스트-3D 합성 기술은 3D 모델 최적화를 통해 상당한 발전을 이루어 왔습니다. 기존 방법들은 일반적으로 디퓨전 모델과 같은 사전 학습된 텍스트-이미지 생성 모델에 의존하며, Neural Radiance Fields(NeRF)의 2D 렌더링에 대한 점수를 제공하고 이를 NeRF 최적화에 활용합니다. 그러나 이러한 방법들은 3D 기하학에 대한 이해가 제한적이기 때문에 종종 아티팩트와 다중 뷰 간의 불일치 문제에 직면합니다. 이러한 한계를 해결하기 위해, 우리는 디퓨전 사전을 사용하여 최적화 손실을 재구성하는 방법을 제안합니다. 또한, 디퓨전 사전의 잠재력을 발휘할 수 있는 새로운 학습 접근 방식을 소개합니다. 3D 기하학 표현을 개선하기 위해, NeRF 렌더링 이미지에 대한 보조 깊이 감독을 적용하고 NeRF의 밀도 필드를 정규화합니다. 광범위한 실험을 통해 우리의 방법이 기존 연구를 능가하는 우수성을 입증하며, 향상된 사진 현실감과 개선된 다중 뷰 일관성을 달성함을 보여줍니다.
최근 이미지-텍스트 확산 모델의 발전은 대규모 3D 생성 모델에 대한 연구 관심을 촉발시켰습니다. 그러나 다양한 3D 자원의 제한된 가용성은 학습에 있어 상당한 어려움을 제기합니다. 본 논문에서는 데이터 생성을 위해 사전 학습된 이미지-텍스트 확산 모델을 활용하고, 학습을 위해 GAN(Generative Adversarial Network) 기반의 3D 생성 네트워크를 사용하여 고품질의 스타일화된 3D 아바타를 생성하는 새로운 방법을 제시합니다. 우리의 방법은 이미지-텍스트 확산 모델이 제공하는 외관과 기하학적 특성에 대한 포괄적인 사전 정보를 활용하여 다양한 스타일의 아바타에 대한 다중 뷰 이미지를 생성합니다. 데이터 생성 과정에서는 기존 3D 모델에서 추출한 포즈를 사용하여 다중 뷰 이미지 생성을 안내합니다. 데이터에서 포즈와 이미지 간의 불일치 문제를 해결하기 위해, 뷰별 프롬프트를 조사하고 GAN 학습을 위한 coarse-to-fine 판별기를 개발합니다. 또한, 생성된 아바타의 다양성을 높이기 위해 속성 관련 프롬프트를 탐구합니다. 추가적으로, StyleGAN의 스타일 공간 내에서 잠재 확산 모델을 개발하여 이미지 입력을 기반으로 아바타를 생성할 수 있도록 합니다. 우리의 접근 방식은 생성된 아바타의 시각적 품질과 다양성 측면에서 현재 최첨단 방법들을 능가하는 성능을 보여줍니다.
본 논문은 텍스트-음성 변환(TTS) 용도로 설계된 새로운 음성 데이터셋인 ``LibriTTS-R''를 소개한다. 이 데이터셋은 2,456명의 화자가 발화한 24kHz 샘플링 속도의 585시간 분량의 음성 데이터와 해당 텍스트로 구성된 LibriTTS 코퍼스에 음성 복원 기술을 적용하여 제작되었다. LibriTTS-R의 구성 샘플들은 LibriTTS와 동일하지만, 음질만 개선되었다. 실험 결과, LibriTTS-R의 실제 음성 샘플들은 LibriTTS의 샘플들에 비해 음질이 크게 향상된 것으로 나타났다. 또한, LibriTTS-R로 학습된 신경망 기반 종단간(end-to-end) TTS 모델은 실제 음성 샘플과 동등한 수준의 자연스러운 음성을 생성할 수 있었다. 이 코퍼스는 http://www.openslr.org/141/에서 무료로 다운로드할 수 있다.
최근 확산 모델의 발전으로 텍스트 프롬프트를 사용하여 고해상도 이미지를 생성할 수 있게 되었습니다. 그러나 생성된 이미지와 실제 세계의 이미지 사이에는 도메인 간격이 존재하며, 이는 실제 세계 이미지의 고품질 변형을 생성하는 데 있어 어려움을 야기합니다. 우리의 연구에 따르면, 이러한 도메인 간격은 서로 다른 확산 과정에서의 잠재 변수 분포 차이에서 비롯됩니다. 이 문제를 해결하기 위해, 우리는 단일 이미지 예제로부터 이미지 변형을 생성하기 위해 확산 모델을 활용하는 Real-world Image Variation by ALignment (RIVAL)이라는 새로운 추론 파이프라인을 제안합니다. 우리의 파이프라인은 이미지 생성 과정을 소스 이미지의 역전 사슬에 맞추어 정렬함으로써 이미지 변형의 생성 품질을 향상시킵니다. 특히, 단계별 잠재 변수 분포 정렬이 고품질 변형을 생성하는 데 필수적임을 입증합니다. 이를 달성하기 위해, 우리는 특징 상호 작용을 위한 교차 이미지 자기 주입 주의 메커니즘과 잠재 특징을 정렬하기 위한 단계별 분포 정규화를 설계했습니다. 이러한 정렬 과정을 확산 모델에 통합함으로써, RIVAL은 추가적인 매개변수 최적화 없이도 고품질 이미지 변형을 생성할 수 있습니다. 우리의 실험 결과는 제안된 접근 방식이 의미론적 조건 유사성과 지각적 품질 측면에서 기존 방법들을 능가함을 보여줍니다. 또한, 이 일반화된 추론 파이프라인은 이미지 조건부 텍스트-이미지 생성 및 예제 기반 이미지 인페인팅과 같은 다른 확산 기반 생성 작업에도 쉽게 적용될 수 있습니다.
대형 언어 모델(LLM)은 소수의 문맥 내 예시만으로도 다양한 자연어 작업을 수행하는 방법을 학습할 수 있습니다. 그러나 고도로 구조화된 언어(예: 복잡한 도메인 특화 언어로의 의미론적 파싱)에서 문자열을 생성하는 작업의 경우, LLM이 단 몇 가지 예시로부터 일반화하는 것은 어려운 과제입니다. 본 연구에서는 문법 프롬프팅(grammar prompting)을 통해 LLM이 문맥 내 학습 과정에서 외부 지식과 도메인 특화 제약 조건을 활용할 수 있는 간단한 접근 방식을 탐구합니다. 이때 제약 조건은 Backus-Naur 형식(BNF)으로 표현된 문법을 통해 나타냅니다. 문법 프롬프팅은 각 데모 예시를 해당 출력 예시를 생성하는 데 최소한으로 필요한 특화 문법으로 보강하며, 이 특화 문법은 전체 도메인 특화 언어(DSL) 문법의 부분집합입니다. 추론 단계에서 LLM은 먼저 테스트 입력이 주어졌을 때 BNF 문법을 예측한 다음, 해당 문법의 규칙에 따라 출력을 생성합니다. 실험 결과, 문법 프롬프팅을 통해 LLM이 다양한 DSL 생성 작업에서 경쟁력 있는 성능을 발휘할 수 있음이 입증되었습니다. 이 작업에는 의미론적 파싱(SMCalFlow, Overnight, GeoQuery), PDDL 계획 생성, 심지어 분자 생성(SMILES)까지 포함됩니다.
우리는 다국어 비전 및 언어 모델인 PaLI-X의 컴포넌트 크기와 훈련 작업의 다양성 측면에서 확장된 훈련 레시피와 결과를 제시합니다. 우리의 모델은 다중 이미지 기반 캡셔닝 및 질의응답 작업, 이미지 기반 문서 이해, 소수 샷(컨텍스트 내) 학습뿐만 아니라 객체 탐지, 비디오 질의응답, 비디오 캡셔닝 등 다양한 복잡한 작업에서 새로운 수준의 성능을 달성합니다. PaLI-X는 고려된 대부분의 비전 및 언어 벤치마크(25개 이상)에서 최첨단 기술을 발전시킵니다. 마지막으로, 복잡한 카운팅 및 다국어 객체 탐지와 같이 훈련 작업에 명시적으로 포함되지 않은 작업에서도 새로운 능력이 나타나는 것을 관찰합니다.
대규모 확산 모델은 텍스트-오디오(T2A) 합성 작업에서 성공을 거두었지만, 자연어 이해의 한계와 데이터 부족으로 인해 의미적 불일치 및 시간적 일관성 저하와 같은 일반적인 문제를 자주 겪습니다. 또한, T2A 작업에서 널리 사용되는 2D 공간 구조는 시간적 정보를 충분히 우선시하지 않아 가변 길이 오디오 샘플을 생성할 때 만족스럽지 못한 오디오 품질을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 Make-an-Audio의 성공을 기반으로 한 잠재 확산 기반 T2A 방법인 Make-an-Audio 2를 제안합니다. 우리의 접근 방식은 의미적 일관성과 시간적 일관성을 개선하기 위해 여러 기술을 포함합니다: 첫째, 사전 훈련된 대규모 언어 모델(LLM)을 사용하여 텍스트를 구조화된 <이벤트 및 순서> 쌍으로 파싱하여 시간적 정보를 더 잘 포착합니다. 또한, 확산 노이즈 제거 과정에서 의미적 일관성을 학습하는 데 도움을 주기 위해 또 다른 구조화된 텍스트 인코더를 도입합니다. 가변 길이 생성의 성능을 개선하고 시간적 정보 추출을 강화하기 위해, 피드포워드 트랜스포머 기반의 확산 노이즈 제거기를 설계합니다. 마지막으로, LLM을 사용하여 대량의 오디오-레이블 데이터를 오디오-텍스트 데이터셋으로 증강 및 변환하여 시간적 데이터 부족 문제를 완화합니다. 광범위한 실험을 통해 우리의 방법이 객관적 및 주관적 지표 모두에서 기준 모델을 능가하며, 시간적 정보 이해, 의미적 일관성 및 음질에서 상당한 향상을 달성함을 보여줍니다.
본 논문은 새로운 스타일의 임의의 텍스트 설명에 빠르게 적응할 수 있는 동적 3D 아바타 방법을 제시한다. 기존 아바타 스타일화 접근법 중 직접 최적화 방법은 임의의 스타일에 대해 우수한 결과를 생성할 수 있지만, 속도가 매우 느리다는 단점이 있다. 또한, 새로운 입력마다 최적화 과정을 처음부터 다시 수행해야 한다. 대규모 스타일 이미지 데이터셋으로 훈련된 피드포워드 네트워크를 사용한 빠른 근사 방법은 새로운 입력에 대해 신속하게 결과를 생성할 수 있지만, 새로운 스타일로의 일반화가 잘 되지 않고 품질 면에서도 부족한 경향이 있다. 따라서 우리는 메타러닝 프레임워크를 사용하여 이 두 접근법을 결합한 새로운 방법인 AlteredAvatar를 연구한다. 내부 루프에서는 모델이 단일 타겟 스타일과 잘 일치하도록 최적화하는 방법을 학습하고, 외부 루프에서는 모델이 다양한 스타일 간에 효율적으로 스타일화하는 방법을 학습한다. 훈련 후, AlteredAvatar는 텍스트, 참조 이미지 또는 둘의 조합으로 제공될 수 있는 새로운 스타일에 대해 소수의 업데이트 단계 내에서 빠르게 적응할 수 있는 초기화를 학습한다. 우리는 AlteredAvatar가 속도, 유연성 및 품질 간의 좋은 균형을 달성할 수 있음을 보여주며, 다양한 새로운 시점과 얼굴 표정에서 일관성을 유지한다.
우리는 학습된 시각 모델을 스트레스 테스트하기 위해 언어 기반 반사실적 테스트 이미지(LANCE)를 생성하는 자동화 알고리즘을 제안합니다. 본 방법론은 대규모 언어 모델링과 텍스트 기반 이미지 편집의 최근 발전을 활용하여, 모델 가중치를 변경하지 않고도 IID 테스트 세트를 다양한, 현실적이며 도전적인 테스트 이미지들로 확장합니다. 우리는 생성된 데이터에 대해 다양한 사전 학습 모델들의 성능을 벤치마킹하고, 상당하고 일관된 성능 하락을 관찰했습니다. 또한, 다양한 유형의 편집에 대한 모델 민감도를 분석하고, 이를 통해 ImageNet에서 이전에 알려지지 않은 클래스 수준의 모델 편향을 발견하는 데의 적용 가능성을 입증했습니다.
기하학적 데이터와 관련된 문제들은 컴퓨터 비전, 로보틱스, 화학, 물리학 등 다양한 분야에서 발생합니다. 이러한 데이터는 점, 방향 벡터, 평면 또는 변환 등 다양한 형태를 취할 수 있지만, 지금까지는 이러한 다양한 기하학적 유형을 그들의 대칭성을 존중하면서 적용할 수 있는 단일 아키텍처가 존재하지 않았습니다. 본 논문에서는 기하학적 데이터를 위한 일반적인 목적의 아키텍처인 Geometric Algebra Transformer(GATr)를 소개합니다. GATr은 투영 기하학적 대수(projective geometric algebra)를 통해 입력, 출력, 그리고 은닉 상태를 표현하며, 이는 일반적인 기하학적 객체와 그들에 작용하는 연산자들을 효율적인 16차원 벡터 공간으로 표현합니다. GATr은 3차원 유클리드 공간의 대칭 그룹인 E(3)에 대해 등변적(equivariant)입니다. 트랜스포머로서 GATr은 확장성이 뛰어나고 표현력이 풍부하며 다용도로 사용할 수 있습니다. n-체 모델링과 로보틱스 계획 실험에서 GATr은 비기하학적 베이스라인 대비 강력한 성능 향상을 보여줍니다.
디퓨전 모델은 현재 이미지 생성 분야에서 최첨단 기술로, 생성 과정을 수많은 세밀한 노이즈 제거 단계로 분해하여 고품질 이미지를 합성합니다. 우수한 성능에도 불구하고, 디퓨전 모델은 많은 신경망 함수 평가(NFEs)를 필요로 하여 계산 비용이 높습니다. 본 연구에서는 완료 전 임의의 시점에서 중단되더라도 실행 가능한 이미지를 생성할 수 있는 '애니타임(anytime) 디퓨전 기반 방법'을 제안합니다. 기존에 사전 학습된 디퓨전 모델을 사용하여, 생성 체계를 두 개의 중첩된 디퓨전 프로세스로 재구성함으로써 생성된 이미지의 빠른 반복적 개선이 가능함을 보여줍니다. 이 '중첩 디퓨전(Nested Diffusion)' 접근법을 통해 생성 과정을 들여다보고 사용자의 즉각적인 선호도에 기반한 유연한 스케줄링을 가능하게 합니다. ImageNet 및 Stable Diffusion 기반 텍스트-이미지 생성 실험에서, 우리의 방법이 중간 생성 품질이 원본 디퓨전 모델을 크게 능가하는 동시에 최종 느린 생성 결과는 비슷한 수준을 유지함을 정성적 및 정량적으로 입증합니다.
이미지 광고 이해는 다양한 실제 응용 분야에서 중요한 과제입니다. 비전문적인 장면, 실세계 개체, 그리고 장면 텍스트에 대한 추론 등이 포함되어 있어 매우 도전적이지만, 이미지 광고를 해석하는 방법은 특히 인상적인 일반화 능력과 적응성을 갖춘 기반 시각-언어 모델(VLMs) 시대에 상대적으로 덜 탐구되었습니다. 본 논문에서는 사전 학습된 VLMs의 관점에서 이미지 광고 이해에 대한 첫 번째 실증 연구를 수행합니다. 우리는 이러한 VLMs를 이미지 광고 이해에 적용하는 데 있어 실질적인 도전 과제를 벤치마킹하고 밝혀냅니다. 이미지 광고를 위한 다중 모드 정보를 효과적으로 융합하기 위한 간단한 특징 적응 전략을 제안하고, 실세계 개체에 대한 지식으로 이를 더욱 강화합니다. 우리의 연구가 광고 산업 전반에 광범위하게 관련된 이미지 광고 이해에 더 많은 관심을 끌기를 바랍니다.