번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 인상적인 창발적 능력 중 하나는 데이터베이스를 위한 구조화 질의 언어(SQL)를 포함한 코드 생성입니다. 자연어 텍스트를 SQL 쿼리로 변환하는 작업인 Text-to-SQL에서 LLM의 적응은 사용된 적응 데이터의 양에 따라 컨텍스트 내 학습과 미세 조정 설정 모두에서 매우 중요합니다. 본 논문에서는 PaLM-2를 기반으로 한 LLM 기반 Text-to-SQL 모델인 SQL-PaLM을 제안하며, 이는 두 설정 모두에서 최첨단 기술을 한 단계 더 끌어올립니다. 소수 샷 SQL-PaLM은 Text-to-SQL을 위해 설계된 실행 기반 자기 일관성 프롬프팅 접근 방식을 기반으로 하며, Spider 데이터셋에서 테스트 스위트 정확도 77.3%를 달성했습니다. 이는 우리가 아는 한, 미세 조정을 통해 이전 최첨단 기술을 상당한 차이인 4%로 능가한 첫 번째 사례입니다. 더 나아가, 미세 조정된 SQL-PaLM이 이를 또 다른 1% 더 능가함을 보여줍니다. SQL-PaLM을 실제 시나리오에 적용하기 위해 우리는 Spider의 다른 도전적인 변형에 대한 견고성을 추가로 평가하고 SQL-PaLM의 우수한 일반화 능력을 입증합니다. 또한, 다양한 사례 연구를 통해 LLM 기반 Text-to-SQL의 인상적인 지능적 능력과 다양한 성공 요인을 입증합니다.
텍스트-이미지 확산 모델은 자연어 설명으로부터 전문 예술가와 사진작가의 작품에 필적하는 놀라운 이미지를 생성할 수 있습니다. 그러나 이러한 모델은 크기가 크고 복잡한 네트워크 아키텍처와 수십 번의 노이즈 제거 반복을 거치기 때문에 계산 비용이 많이 들고 실행 속도가 느립니다. 결과적으로 확산 모델을 대규모로 실행하려면 고성능 GPU와 클라우드 기반 추론이 필요합니다. 이는 비용이 많이 들 뿐만 아니라, 특히 사용자 데이터가 제3자에게 전송될 때 프라이버시 문제를 야기합니다. 이러한 문제를 해결하기 위해, 우리는 모바일 기기에서 2초 미만으로 텍스트-이미지 확산 모델을 실행할 수 있는 일반적인 접근 방식을 최초로 제시합니다. 이를 위해 효율적인 네트워크 아키텍처를 도입하고 단계 증류를 개선했습니다. 구체적으로, 우리는 원본 모델의 중복성을 식별하고 데이터 증류를 통해 이미지 디코더의 계산을 줄이는 효율적인 UNet을 제안합니다. 또한, 훈련 전략을 탐구하고 분류자 없는 지도에서 정규화를 도입하여 단계 증류를 강화했습니다. MS-COCO에 대한 광범위한 실험에서, 우리의 모델은 8단계 노이즈 제거로 Stable Diffusion v1.5의 50단계보다 더 나은 FID와 CLIP 점수를 달성했습니다. 우리의 작업은 강력한 텍스트-이미지 확산 모델을 사용자의 손에 넣어줌으로써 콘텐츠 창작을 민주화합니다.
우리는 텍스트-이미지 합성 분야에서 경쟁력 있는 성능과 전례 없는 비용 효율성, 그리고 제한된 하드웨어에서의 쉬운 학습을 결합한 새로운 기술인 Wuerstchen을 소개합니다. 최근의 머신러닝 발전을 기반으로, 우리의 접근 방식은 강력한 잠재 이미지 압축률에서 잠재 확산 전략을 활용함으로써, 최첨단 모델과 관련된 전형적인 계산 부담을 크게 줄이면서 생성된 이미지의 품질을 유지하거나 오히려 향상시킵니다. Wuerstchen은 추론 시간에서 주목할 만한 속도 개선을 달성하여 실시간 애플리케이션을 더욱 실현 가능하게 만듭니다. 우리 방법의 주요 장점 중 하나는 단 9,200 GPU 시간이라는 적은 학습 요구 사항에 있으며, 이는 최종 성능을 저하시키지 않으면서 일반적인 비용을 크게 절감합니다. 최첨단 기술과의 비교에서, 이 접근 방식이 강력한 경쟁력을 보이는 것으로 나타났습니다. 이 논문은 성능과 계산 접근성을 모두 우선시하는 새로운 연구 방향을 열어, 정교한 AI 기술의 사용을 민주화합니다. Wuerstchen을 통해, 우리는 텍스트-이미지 합성 영역에서 앞으로 나아가는 중요한 발걸음을 보여주며, 향후 연구에서 탐구할 혁신적인 길을 제시합니다.
우리는 단일 또는 소수의 예제 시퀀스로부터 가능한 한 다양한 모션을 "채굴"하는 생성 모델인 GenMM을 소개합니다. 기존의 데이터 기반 방법들과는 극명한 대조를 이루며, 이러한 방법들은 일반적으로 긴 오프라인 학습 시간이 필요하고, 시각적 아티팩트가 발생하기 쉬우며, 크고 복잡한 스켈레톤에서 실패하는 경향이 있습니다. 반면 GenMM은 잘 알려진 Motion Matching 방법의 학습 불필요성과 우수한 품질을 계승합니다. GenMM은 매우 복잡하고 큰 스켈레톤 구조에서도 고품질의 모션을 단 몇 초 만에 합성할 수 있습니다. 우리의 생성 프레임워크의 핵심에는 생성적 모션 매칭 모듈이 있으며, 이 모듈은 양방향 시각적 유사성을 생성 비용 함수로 활용하여 모션 매칭을 수행하고, 다단계 프레임워크 내에서 예제 모션 매칭을 통해 무작위 추측을 점진적으로 개선합니다. 다양한 모션 생성 외에도, 우리는 모션 완성, 키 프레임 기반 생성, 무한 루핑, 모션 재조립 등 모션 매칭만으로는 불가능한 여러 시나리오로 프레임워크를 확장하여 그 다양성을 보여줍니다. 본 논문의 코드와 데이터는 https://wyysf-98.github.io/GenMM/에서 확인할 수 있습니다.
현대의 딥러닝 접근 방식은 일반적으로 입력을 특정 모달리티에 맞는 형태로 변환합니다. 예를 들어, 이미지 분류를 위한 가장 일반적인 딥러닝 접근 방식은 이미지 파일 바이트를 RGB 텐서로 디코딩한 후 이를 신경망에 전달하는 것입니다. 대신, 우리는 추론 시점에 파일을 디코딩할 필요 없이 파일 바이트에서 직접 분류를 수행하는 방법을 연구합니다. 파일 바이트를 모델 입력으로 사용하면 여러 입력 모달리티에서 작동할 수 있는 모델을 개발할 수 있습니다. 우리의 모델인 ByteFormer는 DeiT-Ti와 유사한 구성의 트랜스포머 백본을 사용하여 TIFF 파일 바이트에서 직접 학습하고 테스트할 때 ImageNet Top-1 분류 정확도 77.33%를 달성했습니다(RGB 이미지에서 작동할 때의 정확도는 72.2%). 수정이나 하이퍼파라미터 튜닝 없이도, ByteFormer는 Speech Commands v2 데이터셋의 WAV 파일에서 작동할 때 95.42%의 분류 정확도를 달성했습니다(최신 기술의 정확도 98.7%와 비교). 또한, ByteFormer가 프라이버시 보호 추론에 응용될 수 있음을 보여줍니다. ByteFormer는 특정한 난독화된 입력 표현에서도 정확도 손실 없이 추론을 수행할 수 있습니다. 또한, ByteFormer가 전체 이미지를 형성하지 않고 90%의 픽셀 채널을 지속적으로 마스킹하는 가상의 프라이버시 보호 카메라에서도 추론을 수행할 수 있음을 보여주며, 이 경우에도 ImageNet에서 71.35%의 정확도를 달성했습니다. 우리의 코드는 https://github.com/apple/ml-cvnets/tree/main/examples/byteformer에서 공개될 예정입니다.
텍스트-이미지 확산 모델은 텍스트 개념(예: "의사", "사랑")에서 고품질의 다양한 이미지를 생성하는 전례 없는 능력을 보여주었습니다. 그러나 텍스트를 풍부한 시각적 표현으로 매핑하는 내부 과정은 여전히 수수께끼로 남아 있습니다. 본 연구에서는 입력 텍스트 프롬프트를 소수의 해석 가능한 요소로 분해함으로써 텍스트-이미지 모델에서의 개념 표현을 이해하는 과제에 도전합니다. 이는 모델의 어휘에서 추출한 토큰들의 희소 가중치 조합인 의사 토큰(pseudo-token)을 학습하여 주어진 개념에 대해 생성된 이미지를 재구성하는 방식으로 달성됩니다. 최첨단 Stable Diffusion 모델에 적용된 이 분해 방법은 개념 표현에서 비범하고 놀라운 구조를 드러냅니다. 예를 들어, "대통령"이나 "작곡가"와 같은 일부 개념은 특정 인스턴스(예: "오바마", "바이든")와 그들의 보간(interpolation)에 의해 지배되는 것으로 나타났습니다. 반면, "행복"과 같은 다른 개념은 구체적("가족", "웃음")이거나 추상적("우정", "감정")인 관련 용어들을 결합합니다. Stable Diffusion의 내부 작동을 들여다보는 것 외에도, 우리의 방법은 단일 이미지를 토큰으로 분해, 편향 탐지 및 완화, 의미론적 이미지 조작과 같은 응용을 가능하게 합니다. 우리의 코드는 https://hila-chefer.github.io/Conceptor/에서 공개될 예정입니다.
우리의 상상 속에 있는 사건이나 시나리오를 생생한 영상으로 만들어내는 것은 정말로 매혹적인 경험입니다. 최근 텍스트-투-비디오 합성 기술의 발전은 단순히 프롬프트만으로 이를 달성할 수 있는 가능성을 열어주었습니다. 텍스트는 전체 장면의 맥락을 전달하는 데 편리하지만, 정밀한 제어에는 부족할 수 있습니다. 본 논문에서는 텍스트를 맥락 설명으로, 그리고 모션 구조(예: 프레임별 깊이)를 구체적인 지침으로 활용하여 맞춤형 비디오 생성을 탐구합니다. 우리의 방법인 'Make-Your-Video'는 정적 이미지 합성을 위해 사전 학습된 잠재 확산 모델(Latent Diffusion Model)을 사용하고, 시간적 모듈을 도입하여 비디오 생성으로 확장하는 공동 조건부 비디오 생성을 포함합니다. 이 두 단계 학습 방식은 필요한 컴퓨팅 자원을 줄일 뿐만 아니라, 이미지 데이터셋에서 얻은 풍부한 개념을 비디오 생성에 전이함으로써 성능을 향상시킵니다. 또한, 간단하지만 효과적인 인과적 어텐션 마스크 전략을 사용하여 더 긴 비디오 합성을 가능하게 하고, 잠재적인 품질 저하를 효과적으로 완화합니다. 실험 결과는 우리의 방법이 기존 베이스라인 대비 시간적 일관성과 사용자 지침에 대한 충실도 측면에서 우수함을 보여줍니다. 또한, 우리의 모델은 실용적인 사용 가능성을 보여주는 여러 흥미로운 애플리케이션을 가능하게 합니다.
텍스트-이미지 모델이 생성한 합성 이미지를 활용하여 시각적 표현을 학습할 가능성을 탐구합니다. 이는 텍스트-이미지 모델이 고품질 이미지를 생성하는 데 있어 우수한 성능을 보이는 점을 고려할 때 자연스럽게 제기되는 질문입니다. 특히, 오픈소스 텍스트-이미지 모델 중 선도적인 Stable Diffusion을 중심으로 연구를 진행했습니다. 우리는 (1) 생성 모델이 적절한 classifier-free guidance scale로 설정되었을 때, 합성 이미지에서 자기 지도 학습 방법을 훈련하면 실제 이미지 대비 동등하거나 더 나은 성능을 달성할 수 있음을 보였으며, (2) 동일한 텍스트 프롬프트에서 생성된 여러 이미지를 서로에 대한 양성 샘플로 간주하여 다중 양성 대조 학습 방법을 개발했습니다. 이를 StableRep이라고 명명했습니다. 대규모 데이터셋에서, StableRep이 학습한 표현은 동일한 텍스트 프롬프트와 해당 실제 이미지를 사용한 SimCLR 및 CLIP의 성능을 능가했습니다. 추가로 언어 지도를 결합했을 때, 2천만 개의 합성 이미지로 훈련된 StableRep은 5천만 개의 실제 이미지로 훈련된 CLIP보다 더 높은 정확도를 달성했습니다.
최근 확산 모델을 활용한 개인화된 텍스트-이미지 생성 기술이 제안되며 많은 관심을 받고 있습니다. 새로운 개념(예: 독특한 장난감)을 포함한 소량의 이미지가 주어졌을 때, 우리는 생성 모델을 조정하여 해당 개념의 세밀한 시각적 특징을 포착하고 텍스트 조건에 따라 사실적인 이미지를 생성하는 것을 목표로 합니다. 본 논문에서는 빠르고 경량화된 개인화 생성을 위한 플러그인 방식인 ViCo를 제안합니다. 구체적으로, 우리는 패치 단위의 시각적 의미를 확산 과정에 조건화하기 위한 이미지 어텐션 모듈을 제안합니다. 또한, 어텐션 모듈에서 거의 추가 비용 없이 얻을 수 있는 어텐션 기반 객체 마스크를 도입했습니다. 더불어, 텍스트-이미지 어텐션 맵의 내재적 특성에 기반한 간단한 정규화를 설계하여 일반적인 과적합 문제를 완화했습니다. 기존의 많은 모델과 달리, 우리의 방법은 원본 확산 모델의 매개변수를 미세 조정하지 않습니다. 이를 통해 더 유연하고 전이 가능한 모델 배포가 가능해집니다. 경량의 매개변수 학습(확산 U-Net의 약 6%)만으로도, 우리의 방법은 정성적 및 정량적으로 모든 최신 모델과 견줄 만하거나 더 나은 성능을 달성했습니다.
자기 지도 학습(Self-Supervised Learning, SSL)은 최근 비전, 텍스트, 음성 분야에서 대규모 데이터에 대해 일반화 가능한 모델을 훈련하기 위한 유망한 패러다임으로 부상했습니다. SSL은 음성 및 오디오 분야에서 효과적임이 입증되었지만, 음악 오디오에 대한 적용은 아직 충분히 탐구되지 않았습니다. 이는 주로 음악 지식을 모델링하는 데 따른 독특한 도전, 특히 음악의 조성과 음고 특성과 관련된 문제 때문입니다. 이러한 연구 격차를 해결하기 위해, 우리는 대규모 자기 지도 학습을 통한 음향 음악 이해 모델(Music undERstanding model with large-scale self-supervised Training, MERT)을 제안합니다. 이 모델은 마스크 언어 모델링(Masked Language Modeling, MLM) 스타일의 음향 사전 훈련에서 가짜 레이블을 제공하기 위해 교사 모델을 통합합니다. 우리의 탐구에서, 우리는 기존의 음성 및 오디오 접근법을 성능 면에서 능가하는 우수한 교사 모델 조합을 식별했습니다. 이 조합은 잔차 벡터 양자화-변분 자동 인코더(Residual Vector Quantization - Variational AutoEncoder, RVQ-VAE) 기반의 음향 교사와 상수-Q 변환(Constant-Q Transform, CQT) 기반의 음악 교사를 포함합니다. 이러한 교사들은 BERT 스타일의 트랜스포머 인코더인 우리의 학생 모델이 음악 오디오를 더 잘 모델링하도록 효과적으로 안내합니다. 또한, 우리는 표현의 견고성을 강화하기 위해 배치 내 노이즈 혼합 증강을 도입했습니다. 더 나아가, 우리는 음향 언어 모델 사전 훈련의 불안정성을 극복하기 위해 다양한 설정을 탐구하여, 우리가 설계한 패러다임이 95M에서 330M 파라미터로 확장될 수 있도록 했습니다. 실험 결과는 우리의 모델이 14개의 음악 이해 작업에서 일반화 및 우수한 성능을 발휘하며, 전반적으로 최첨단(State-of-the-Art, SOTA) 점수를 달성함을 보여줍니다. 코드와 모델은 온라인에서 확인할 수 있습니다: https://github.com/yizhilll/MERT.
사전 학습된 대형 텍스트-이미지 모델(예: Stable Diffusion)을 사용자 자신과 같은 혁신적인 개념을 생성하도록 맞춤화하려는 수요가 높습니다. 그러나 기존 맞춤화 방법에서 추가된 새로운 개념은 훈련 중 여러 이미지가 제공되더라도 원래 개념보다 결합 능력이 약한 경우가 많습니다. 따라서 우리는 단 한 장의 얼굴 사진과 1024개의 학습 가능한 매개변수만을 사용하여 3분 이내에 사전 학습된 확산 모델에 독특한 개인을 원활하게 통합할 수 있는 새로운 개인화 방법을 제안합니다. 이를 통해 우리는 이 사람이 어떤 자세나 위치에서든, 누구와 상호작용하며 상상할 수 있는 어떤 일을 하고 있는 놀라운 이미지를 텍스트 프롬프트로부터 쉽게 생성할 수 있습니다. 이를 달성하기 위해, 우리는 먼저 사전 학습된 대형 텍스트 인코더의 임베딩 공간에서 잘 정의된 유명인 기반을 분석하고 구축합니다. 그런 다음, 한 장의 얼굴 사진을 대상 신원으로 주어졌을 때, 이 기반의 가중치를 최적화하고 다른 모든 매개변수를 고정함으로써 그 자체의 임베딩을 생성합니다. 제안된 유명인 기반의 힘을 받아, 우리의 맞춤화 모델에서의 새로운 신원은 이전 개인화 방법보다 더 나은 개념 결합 능력을 보여줍니다. 또한, 우리의 모델은 여러 새로운 신원을 동시에 학습하고 서로 상호작용할 수 있으며, 이는 이전 맞춤화 모델에서는 불가능했던 것입니다. 코드는 공개될 예정입니다.
대규모 생성 모델은 상세한 텍스트 설명으로부터 고품질의 이미지를 생성할 수 있습니다. 그러나 이미지의 많은 측면은 텍스트를 통해 전달하기 어렵거나 불가능합니다. 우리는 확산 모델의 내부 표현을 안내함으로써 생성된 이미지에 대한 더 큰 제어를 제공하는 자기-안내(self-guidance) 방법을 소개합니다. 우리는 객체의 형태, 위치, 외관과 같은 속성이 이러한 표현에서 추출되어 샘플링을 조종하는 데 사용될 수 있음을 보여줍니다. 자기-안내는 분류기 안내(classifier guidance)와 유사하게 작동하지만, 사전 훈련된 모델 자체에 존재하는 신호를 사용하며 추가 모델이나 훈련이 필요하지 않습니다. 우리는 간단한 속성 집합이 객체의 위치나 크기를 수정하거나, 한 이미지의 객체 외관을 다른 이미지의 레이아웃과 결합하거나, 여러 이미지의 객체를 하나로 구성하는 것과 같은 도전적인 이미지 조작을 수행하는 데 어떻게 활용될 수 있는지 보여줍니다. 또한 자기-안내가 실제 이미지를 편집하는 데 사용될 수 있음을 보여줍니다. 결과와 인터랙티브 데모는 프로젝트 페이지(https://dave.ml/selfguidance/)에서 확인할 수 있습니다.
트랜스포머 기반의 대규모 언어 모델은 실질적으로 큰 성공을 거두었습니다. 그러나 이러한 모델이 더 널리 배포됨에 따라, 이를 더 신뢰할 수 있도록 내부 메커니즘을 더 잘 이해할 필요성이 커지고 있습니다. 이러한 모델은 훈련 데이터로부터 방대한 양의 지식을 저장하고, 주어진 컨텍스트나 프롬프트에서 새로운 정보에 빠르게 적응하는 것으로 보입니다. 우리는 토큰이 전역적 또는 컨텍스트 특정 바이그램 분포에서 생성되는 합성 설정을 고려하여 트랜스포머가 이러한 두 가지 유형의 지식을 어떻게 균형 있게 처리하는지 연구합니다. 단순화된 2층 트랜스포머의 훈련 과정을 신중하게 실증적으로 분석함으로써, 전역 바이그램의 빠른 학습과 컨텍스트 내 바이그램을 위한 "귀납 헤드" 메커니즘의 느린 발전을 설명합니다. 우리는 가중치 행렬이 연관 메모리로서의 역할을 강조하고, 훈련 중에 그래디언트가 이를 어떻게 학습 가능하게 하는지에 대한 이론적 통찰을 제공하며, 데이터 분포적 특성의 역할을 연구합니다.
텍스트 설명으로부터 음악을 생성하는 것은 텍스트가 사용자 참여를 위한 상대적으로 쉬운 인터페이스이기 때문에 사용자 친화적인 방식입니다. 일부 접근법은 텍스트를 사용하여 음악 오디오 생성을 제어하지만, 생성된 오디오에서 음악 요소를 편집하는 것은 사용자에게 어려운 작업입니다. 반면, 심볼릭 음악은 편집이 용이하여 사용자가 특정 음악 요소를 조작하기에 더 접근성이 높습니다. 본 논문에서는 텍스트 설명으로부터 심볼릭 음악을 생성하는 MuseCoco를 제안합니다. MuseCoco는 음악 속성을 매개로 하여 작업을 텍스트-속성 이해 단계와 속성-음악 생성 단계로 나눕니다. MuseCoco는 Music Composition Copilot의 약자로, 음악가들이 주어진 텍스트 설명으로부터 직접 음악을 생성할 수 있도록 하여, 처음부터 음악을 만드는 것에 비해 효율성을 크게 향상시킵니다. 이 시스템은 두 가지 주요 장점을 가지고 있습니다: 첫째, 데이터 효율적입니다. 속성-음악 생성 단계에서 속성은 음악 시퀀스에서 직접 추출될 수 있어 모델 학습이 자기 지도 학습 방식으로 이루어집니다. 텍스트-속성 이해 단계에서는 정의된 속성 템플릿을 기반으로 ChatGPT가 텍스트를 합성하고 정제합니다. 둘째, 이 시스템은 텍스트 설명의 특정 속성을 통해 정밀한 제어를 달성할 수 있으며, 속성 조건 또는 텍스트 조건 접근법을 통해 다양한 제어 옵션을 제공합니다. MuseCoco는 음악성, 제어성, 그리고 전체 점수 측면에서 기준 시스템을 각각 최소 1.27, 1.08, 1.32점 이상 능가합니다. 또한, 객관적 제어 정확도에서 약 20%의 현저한 향상을 보입니다. 추가적으로, 우리는 12억 개의 파라미터를 가진 강력한 대규모 모델을 개발하여 탁월한 제어성과 음악성을 입증했습니다.
코드 인텔리전스는 현대 소프트웨어 공학을 혁신하는 데 핵심적인 역할을 합니다. 최근 딥러닝 기반 모델, 특히 트랜스포머 기반의 대규모 언어 모델(LLMs)은 방대한 오픈소스 코드 데이터와 프로그래밍 언어의 특성을 활용하여 이러한 작업을 해결하는 데 있어 놀라운 잠재력을 보여주었습니다. 그러나 이러한 모델의 개발과 배포는 머신러닝과 소프트웨어 공학 모두에 대한 전문 지식을 요구하며, 이는 모델 채택에 있어 장벽으로 작용합니다. 본 논문에서는 최신 코드 LLMs와 코드 인텔리전스를 위한 오픈소스 트랜스포머 기반 라이브러리인 CodeTF를 소개합니다. 모듈식 설계와 확장 가능한 프레임워크 원칙에 따라, CodeTF는 다양한 유형의 모델, 데이터셋 및 작업에 걸쳐 빠른 접근과 개발을 가능하게 하는 통합 인터페이스로 설계되었습니다. 우리의 라이브러리는 사전 학습된 코드 LLM 모델과 인기 있는 코드 벤치마크를 지원하며, 코드 LLMs를 효율적으로 학습하고 서비스하기 위한 표준화된 인터페이스와 언어별 파서 및 코드 속성 추출을 위한 유틸리티 함수와 같은 데이터 기능을 포함합니다. 본 논문에서는 설계 원칙, 아키텍처, 주요 모듈 및 구성 요소를 설명하고, 다른 관련 라이브러리 도구와 비교합니다. 마지막으로, CodeTF가 머신러닝/생성형 AI와 소프트웨어 공학 간의 격차를 해소하고, 개발자, 연구자 및 실무자들을 위한 포괄적인 오픈소스 솔루션을 제공할 수 있기를 바랍니다.
텍스트 조건부 확산 모델은 다양한 내용을 담은 고해상도 이미지를 생성할 수 있다. 그러나 언어적 표현은 종종 목표로 하는 이미지에 대해 모호한 설명을 보이기 때문에, 텍스트 기반 확산 모델의 효율성을 높이기 위해 추가적인 제어 신호의 통합이 필요하다. 본 연구에서는 다양한 모달리티를 하나의 임베딩으로 혼합하는 파이프라인인 Cocktail을 제안한다. 이는 일반화된 ControlNet(gControlNet), 제어 가능한 정규화(ControlNorm), 그리고 공간적 가이던스 샘플링 방법과 결합되어 텍스트 조건부 확산 모델에 대한 다중 모달리티 및 공간적으로 정제된 제어를 실현한다. 구체적으로, 우리는 사전 학습된 확산 모델에 다양한 모달리티의 제어 신호를 정렬 및 주입하기 위한 하이퍼 네트워크인 gControlNet을 소개한다. gControlNet은 유연한 모달리티 신호를 수용할 수 있으며, 모달리티 신호의 임의의 조합을 동시에 수신하거나 여러 모달리티 신호의 추가적 융합을 포함한다. 제어 신호는 제안된 ControlNorm에 따라 백본 모델에 융합 및 주입된다. 또한, 우리의 고급 공간적 가이던스 샘플링 방법론은 제어 신호를 지정된 영역에 효과적으로 통합함으로써 생성된 이미지 내에서 원치 않는 객체의 출현을 방지한다. 우리는 다양한 모달리티를 제어하는 방법의 결과를 보여주며, 고품질 합성과 다중 외부 신호에 대한 충실도를 입증한다.
우리는 시각, 청각, 촉각을 활용한 물체 인식, 재구성, 조작을 중심으로 하는 다중 감각 물체 중심 학습을 위한 10가지 과제로 구성된 벤치마크 제품군인 ObjectFolder 벤치마크를 소개합니다. 또한, 실제 세계의 가정용 물체 100개에 대한 다중 감각 측정 데이터를 포함한 ObjectFolder Real 데이터셋을 소개하며, 이는 실제 물체의 3D 메시, 비디오, 충격음, 촉각 데이터를 수집하기 위해 새롭게 설계된 파이프라인을 기반으로 구축되었습니다. 우리는 ObjectFolder의 1,000개 다중 감각 신경 물체와 ObjectFolder Real의 실제 다중 감각 데이터 모두에 대해 체계적인 벤치마킹을 수행했습니다. 실험 결과는 다중 감각 인식의 중요성을 입증하고, 다양한 물체 중심 학습 과제에서 시각, 청각, 촉각이 각각 수행하는 역할을 밝혀냈습니다. 우리는 데이터셋과 벤치마크 제품군을 공개함으로써 컴퓨터 비전, 로보틱스 및 그 이상의 분야에서 다중 감각 물체 중심 학습에 대한 새로운 연구를 촉진하고 지원하기를 희망합니다. 프로젝트 페이지: https://objectfolder.stanford.edu
확산 모델 기반 접근법은 데이터 기반 계획에서 유망한 결과를 보여왔지만, 안전성 보장이 없어 안전이 중요한 응용 분야에 적용하기 어려운 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 SafeDiffuser라는 새로운 방법을 제안합니다. 이 방법은 제어 장벽 함수(control barrier function) 클래스를 사용하여 확산 확률 모델이 명세를 만족하도록 보장합니다. 우리 접근법의 핵심 아이디어는 제안된 유한 시간 확산 불변성(finite-time diffusion invariance)을 디노이징 확산 과정에 내재시켜 신뢰할 수 있는 확산 데이터 생성을 가능하게 하는 것입니다. 더 나아가, 우리는 생성 모델을 통한 유한 시간 확산 불변성 방법이 일반화 성능을 유지할 뿐만 아니라 안전한 데이터 생성에서 견고성을 창출함을 입증합니다. 우리는 이 방법을 미로 경로 생성, 다족 보행 로봇 이동, 3D 공간 조작 등 일련의 안전 계획 작업에 테스트했으며, 결과는 기존의 확산 모델 대비 견고성과 보장 측면에서의 우수성을 보여줍니다.
트랜스포머(Transformers)는 최근 자연어 처리와 컴퓨터 비전 분야에서 큰 성공을 거두는 데 핵심적인 역할을 해왔습니다. 트랜스포머는 주로 피드포워드(feed-forward)와 셀프 어텐션(self-attention) 레이어가 번갈아 가며 쌓여 깊은 네트워크를 구성하는 균일한 백본 구조를 가지고 있습니다. 본 연구에서는 이러한 설계 선택을 조사하고, 레이어 기본 요소들의 다양한 순열로 구성된 더 복잡한 블록이 더 효율적일 수 있음을 발견했습니다. 이러한 통찰을 바탕으로, 희소 게이트 피드포워드 레이어(sparsely gated feed-forward layers), 밀집 피드포워드 레이어(dense feed-forward layers), 어텐션 레이어(attention layers), 그리고 다양한 형태의 레이어 정규화(layer normalization)와 활성화 함수(activation functions)로 구성된 복잡한 블록인 브레인포머(Brainformer)를 개발했습니다. 브레인포머는 품질과 효율성 측면에서 최신의 밀집 및 희소 트랜스포머를 일관되게 능가합니다. 토큰당 80억 개의 활성화된 파라미터를 가진 브레인포머 모델은 GLaM 대비 2배 빠른 학습 수렴 속도와 5배 빠른 스텝 시간을 보여줍니다. 다운스트림 작업 평가에서도 브레인포머는 유사한 수의 활성화된 파라미터를 가진 GLaM 대비 파인튜닝 시 SuperGLUE 점수가 3% 더 높았습니다. 마지막으로, 브레인포머는 토큰당 유사한 계산량을 가진 NAS로 파생된 Primer 밀집 모델을 퓨샷(few-shot) 평가에서 크게 앞섰습니다.