번역이 포함된 일일 선별된 AI 연구 논문
트랜스포머(Transformer) 아키텍처는 임베딩을 제외한 두 가지 주요 구성 요소로 이루어져 있습니다: 어텐션(Attention)과 피드포워드 네트워크(Feed Forward Network, FFN)입니다. 어텐션은 단어 간의 상호 의존성을 위치에 관계없이 포착하는 반면, FFN은 각 입력 토큰을 독립적으로 비선형 변환합니다. 본 연구에서는 FFN의 역할을 탐구하며, 모델 파라미터의 상당 부분을 차지함에도 불구하고 FFN이 매우 중복적이라는 사실을 발견했습니다. 구체적으로, 디코더 레이어에서 FFN을 제거하고 인코더 전체에서 단일 FFN을 공유함으로써 정확도에 큰 저하 없이 파라미터 수를 상당히 줄일 수 있었습니다. 마지막으로, 공유된 FFN의 은닉 차원을 증가시켜 아키텍처를 원래 크기로 확장함으로써, 원래의 Transformer Big 대비 정확도와 지연 시간(latency) 모두에서 상당한 개선을 달성했습니다.
기존의 인간 생성용 애니메이션 가능 3D 인식 GAN은 주로 인간의 머리 또는 전신에 초점을 맞추어 왔습니다. 그러나 머리만 포함된 비디오는 실제 생활에서 비교적 드물며, 전신 생성은 일반적으로 표정 제어를 다루지 않으며 여전히 고품질 결과를 생성하는 데 어려움이 있습니다. 적용 가능한 비디오 아바타를 위해, 우리는 제어 가능한 표정, 머리 포즈, 어깨 움직임을 포함한 초상화 이미지를 생성하는 애니메이션 가능 3D 인식 GAN을 제시합니다. 이는 3D 또는 비디오 데이터를 사용하지 않고 비정형 2D 이미지 컬렉션으로 훈련된 생성 모델입니다. 새로운 작업을 위해, 우리는 생성적 방사형 매니폴드 표현을 기반으로 하여 학습 가능한 얼굴 및 머리-어깨 변형을 장착했습니다. 생성된 얼굴의 품질을 향상시키기 위해 이중 카메라 렌더링 및 적대적 학습 기법을 제안했으며, 이는 초상화 이미지에 있어 매우 중요합니다. 긴 머리와 같은 도전적인 영역에 대해 그럴듯한 변형을 생성하기 위해 포즈 변형 처리 네트워크를 개발했습니다. 실험 결과, 비정형 2D 이미지로 훈련된 우리의 방법이 다양한 속성에 대한 원하는 제어와 함께 다양하고 고품질의 3D 초상화를 생성할 수 있음을 보여줍니다.
대규모 언어 모델(LLM)은 최근 인간의 의도를 이해하고, 추론을 수행하며, 계획과 유사한 행동을 설계하는 놀라운 능력을 보여주고 있습니다. 복잡한 작업을 수행하기 위해 LLM의 잠재력을 더욱 발휘하기 위해, ChatGPT와 같은 LLM에 도구 사용 능력을 부여하여 다양한 외부 API와 연결할 수 있는 에이전트 프레임워크를 구축하는 추세가 증가하고 있습니다. 본 연구에서는 오픈소스 LLM을 컨트롤러로 활용하여 실세계 애플리케이션을 위한 일반적이고 사용자 정의 가능한 에이전트 프레임워크인 ModelScope-Agent를 소개합니다. 이 프레임워크는 사용자 친화적인 시스템 라이브러리를 제공하며, 여러 오픈소스 LLM에 대한 모델 학습을 지원하는 사용자 정의 가능한 엔진 설계와 함께, 모델 API 및 일반 API와의 원활한 통합을 단일 방식으로 가능하게 합니다. LLM에 도구 사용 능력을 부여하기 위해, 도구 사용 데이터 수집, 도구 검색, 도구 등록, 메모리 제어, 사용자 정의 모델 학습, 그리고 실세계 애플리케이션을 위한 평가를 아우르는 포괄적인 프레임워크를 제안합니다. 마지막으로, ModelScope-Agent 프레임워크를 기반으로 한 ModelScope 커뮤니티의 실세계 지능형 어시스턴트인 ModelScopeGPT를 선보입니다. 이 어시스턴트는 오픈소스 LLM을 ModelScope의 1000개 이상의 공개 AI 모델 및 지역화된 커뮤니티 지식과 연결할 수 있습니다. ModelScope-Agent 라이브러리(https://github.com/modelscope/modelscope-agent)와 온라인 데모(https://modelscope.cn/studios/damo/ModelScopeGPT/summary)는 현재 공개되어 있습니다.
사진에서의 재질 복원은 3D 콘텐츠 제작의 대중화를 위한 핵심 요소입니다. 우리는 이 잘 정의되지 않은 문제를 최근 발전한 생성적 딥 네트워크를 활용하여 제어된 합성 문제로 공식화하는 것을 제안합니다. 우리는 ControlMat이라는 방법을 제시하는데, 이는 제어되지 않은 조명 조건의 단일 사진을 입력으로 받아, 확산 모델을 조건화하여 그럴듯한, 타일링 가능한, 고해상도의 물리 기반 디지털 재질을 생성합니다. 우리는 다중 채널 출력을 위한 확산 모델의 동작을 면밀히 분석하고, 다중 스케일 정보를 융합하기 위해 샘플링 프로세스를 조정하며, 타일링 가능성과 고해상도 출력을 위한 패치 확산을 가능하게 하는 롤드 확산을 도입합니다. 우리의 생성적 접근법은 더 나아가 입력 이미지에 해당할 수 있는 다양한 재질의 탐색을 허용함으로써 알려지지 않은 조명 조건을 완화합니다. 우리는 우리의 접근법이 최근의 추론 및 잠재 공간 최적화 방법들을 능가함을 보여주며, 확산 프로세스 설계 선택을 신중히 검증합니다. 보충 자료 및 추가 세부 사항은 https://gvecchio.com/controlmat/에서 확인할 수 있습니다.
인간 피드백을 통한 강화 학습(RLHF)은 언어 모델을 인간의 선호에 맞춰 정렬함으로써 언어 모델링 분야에 혁신을 가져왔습니다. 그러나 강화 학습 단계인 Proximal Policy Optimization(PPO)은 지도 미세 조정(SFT)보다 3배 이상의 메모리를 요구하여 대부분의 실무자들이 사용하기 어렵게 만듭니다. 이 문제를 해결하기 위해, 우리는 PPO의 메모리 사용량, 성능, 그리고 훈련 시간에 대한 메모리 절약 기법의 종합적인 분석을 제시합니다. 우리는 SFT와 보상 모델을 통합한 후, 훈련 중에 LoRA를 동적으로 "끄는" 방식으로 Hydra-RLHF를 소개합니다. 실험 결과는 다음과 같습니다: 1. PPO 중 LoRA를 사용하면 메모리 사용량이 SFT보다 작아지면서도 네 가지 공개 벤치마크에서 정렬 성능이 향상되었고, 2. Hydra-PPO는 LoRA-PPO의 샘플당 지연 시간을 최대 65%까지 줄이면서도 성능을 유지했습니다. 우리의 결과는 Hydra-PPO가 RLHF의 보다 광범위한 사용을 가능하게 하는 간단하고 유망한 솔루션임을 보여줍니다.
음성은 단순한 텍스트 이상의 정보를 전달하며, 동일한 단어라도 다양한 목소리로 발화함으로써 다양한 정보를 전달할 수 있습니다. 음성 변동성을 위해 음성 프롬프트(참조 음성)에 의존하는 기존의 텍스트-음성 변환(TTS) 방법과 비교할 때, 음성 프롬프트를 찾기 어렵거나 아예 존재하지 않을 수 있기 때문에 텍스트 프롬프트(설명)를 사용하는 것이 더 사용자 친화적입니다. 텍스트 프롬프트 기반의 TTS 접근 방식은 두 가지 과제에 직면합니다: 1) 텍스트 프롬프트에서 음성 변동성에 대한 모든 세부 사항을 설명할 수 없는 일대다 문제, 그리고 2) 텍스트 프롬프트 데이터셋의 제한된 가용성, 이는 텍스트 프롬프트 작성을 위해 공급업체와 높은 데이터 라벨링 비용이 필요합니다. 본 연구에서는 이러한 과제를 해결하기 위해 PromptTTS 2를 소개합니다. 이는 텍스트 프롬프트에서 포착되지 않은 음성 변동성 정보를 제공하는 변동성 네트워크와, 대규모 언어 모델(LLM)을 활용하여 고품질 텍스트 프롬프트를 구성하는 프롬프트 생성 파이프라인을 포함합니다. 구체적으로, 변동성 네트워크는 텍스트 프롬프트 표현을 기반으로 참조 음성(음성에 대한 완전한 정보를 포함)에서 추출된 표현을 예측합니다. 프롬프트 생성 파이프라인의 경우, 음성 이해 모델을 사용하여 음성에서 음성 속성(예: 성별, 속도)을 인식하고, 인식 결과를 기반으로 텍스트 프롬프트를 작성하기 위해 대규모 언어 모델을 사용합니다. 대규모(44K 시간) 음성 데이터셋에 대한 실험 결과, PromptTTS 2는 이전 연구와 비교하여 텍스트 프롬프트와 더 일관된 음성을 생성하고 다양한 음성 변동성을 샘플링할 수 있어 사용자에게 더 많은 음성 생성 선택지를 제공합니다. 또한, 프롬프트 생성 파이프라인은 높은 품질의 프롬프트를 생성하여 높은 라벨링 비용을 제거합니다. PromptTTS 2의 데모 페이지는 온라인에서 확인할 수 있습니다: https://speechresearch.github.io/prompttts2.
비디오 아웃페인팅은 비디오 프레임의 가장자리에서 누락된 영역을 적절히 완성하는 것을 목표로 합니다. 이미지 아웃페인팅과 비교했을 때, 모델이 채워진 영역의 시간적 일관성을 유지해야 한다는 추가적인 도전 과제를 안고 있습니다. 본 논문에서는 비디오 아웃페인팅을 위한 마스크된 3D 디퓨전 모델을 소개합니다. 우리는 3D 디퓨전 모델을 학습시키기 위해 마스크 모델링 기법을 사용합니다. 이를 통해 여러 비디오 클립 추론 결과를 연결하기 위해 여러 가이드 프레임을 사용할 수 있게 되며, 이로 인해 시간적 일관성을 보장하고 인접 프레임 간의 지터를 줄일 수 있습니다. 동시에, 비디오의 글로벌 프레임을 추출하여 프롬프트로 사용하고, 크로스-어텐션을 통해 현재 비디오 클립 이외의 정보를 모델에 제공합니다. 또한, 아티팩트 누적 문제를 완화하기 위해 하이브리드 코스-투-파인 추론 파이프라인을 도입했습니다. 기존의 코스-투-파인 파이프라인은 인필링 전략만을 사용하여 희소 프레임 간의 시간 간격이 너무 크기 때문에 성능 저하를 초래했습니다. 우리의 파이프라인은 마스크 모델링의 양방향 학습을 활용하여 희소 프레임을 생성할 때 인필링과 보간의 하이브리드 전략을 사용할 수 있습니다. 실험 결과, 우리의 방법이 비디오 아웃페인팅 작업에서 최첨단 성능을 달성함을 보여줍니다. 더 많은 결과는 https://fanfanda.github.io/M3DDM/에서 확인할 수 있습니다.
본 논문은 텍스트 프롬프트와 스타일 참조 이미지를 입력으로 받아 단일 패스로 출력 이미지를 생성하는 LoRA-free 스타일 이미지 생성 방법을 제안한다. 기존 방법들이 각 스타일마다 별도의 LoRA를 학습해야 하는 것과 달리, 본 방법은 통합 모델로 다양한 스타일에 적응할 수 있다. 그러나 이는 두 가지 문제를 야기한다: 1) 프롬프트가 생성 콘텐츠에 대한 제어력을 상실하고, 2) 출력 이미지가 스타일 참조 이미지의 의미적 및 스타일적 특징을 모두 상속하여 콘텐츠 충실도가 저하된다. 이러한 문제를 해결하기 위해, 본 논문은 두 가지 구성 요소로 이루어진 StyleAdapter를 소개한다: 이중 경로 교차 주의 모듈(TPCA)과 세 가지 디커플링 전략. 이러한 구성 요소는 모델이 프롬프트와 스타일 참조 특징을 별도로 처리하고, 스타일 참조에서 의미 정보와 스타일 정보 간의 강한 결합을 줄이도록 한다. StyleAdapter는 단일 패스로 프롬프트의 콘텐츠와 참조 이미지의 스타일을 일치시키는 고품질 이미지를 생성할 수 있으며(심지어 보지 못한 스타일에서도), 이는 기존 방법보다 더 유연하고 효율적이다. 실험을 통해 본 방법이 기존 연구들보다 우수함을 입증하였다.
우리는 시각적으로 유사한 이미지 쌍이 동일한 3D 표면을 묘사하는지, 아니면 서로 다른 3D 표면을 묘사하는지를 판단하는 시각적 명확화 작업을 고려한다(예: 대칭 건물의 동일한 면 또는 반대 면). 두 이미지가 서로 다르지만 시각적으로 유사한 3D 표면을 관찰하는 환영적 이미지 매칭은 인간이 구분하기 어려울 뿐만 아니라 3D 재구성 알고리즘이 잘못된 결과를 생성하도록 할 수도 있다. 우리는 이 시각적 명확화 작업을 이미지 쌍에 대한 이진 분류 작업으로 공식화하여 학습 기반 접근 방식을 제안한다. 이를 위해, 우리는 이 문제를 위한 새로운 데이터셋인 Doppelgangers를 소개한다. 이 데이터셋은 유사한 구조물의 이미지 쌍과 함께 정답 레이블을 포함한다. 또한, 우리는 지역 키포인트와 매칭의 공간적 분포를 입력으로 받아들이는 네트워크 아키텍처를 설계하여 지역적 및 전역적 단서에 대한 더 나은 추론을 가능하게 한다. 우리의 평가 결과, 우리의 방법은 어려운 경우에서도 환영적 매칭을 구별할 수 있으며, SfM 파이프라인에 통합되어 정확하고 명확화된 3D 재구성을 생성할 수 있음을 보여준다. 코드, 데이터셋 및 추가 결과는 프로젝트 페이지를 참조하라: http://doppelgangers-3d.github.io/.
최근의 아키텍처 발전으로 인해 순환 신경망(RNN)이 특정 시퀀스 모델링 작업에서 트랜스포머의 성능을 따라잡거나 심지어 능가할 수 있게 되었습니다. 이러한 현대적인 RNN은 두드러진 디자인 패턴을 특징으로 합니다: 곱셈 게이팅이 있는 피드포워드 경로로 상호 연결된 선형 순환 레이어입니다. 여기서 우리는 이러한 두 가지 디자인 요소를 갖춘 RNN이 트랜스포머의 주요 구성 요소인 (선형) 자기 주의(self-attention)를 정확히 구현할 수 있음을 보여줍니다. 훈련된 RNN 세트를 역공학적으로 분석함으로써, 우리는 실제로 경사 하강법이 우리의 구성을 발견한다는 것을 확인했습니다. 특히, 우리는 트랜스포머가 뛰어난 성능을 보이는 것으로 알려진 간단한 컨텍스트 내 학습 작업을 해결하도록 훈련된 RNN을 조사했고, 경사 하강법이 우리의 RNN에 트랜스포머가 사용하는 것과 동일한 주의 기반 컨텍스트 내 학습 알고리즘을 심어준다는 것을 발견했습니다. 우리의 연구 결과는 신경망에서 곱셈 상호작용의 중요성을 강조하며, 특정 RNN이 내부적으로 주의 메커니즘을 구현하고 있을 수 있다는 점을 시사합니다.
우리는 오픈-어휘 객체 탐지(OVD)를 위한 이미지 및 영역 수준 표현의 동시 학습을 달성하는 이미지-텍스트 사전 학습 방법론인 Contrastive Feature Masking Vision Transformer(CFM-ViT)를 제안한다. 우리의 접근 방식은 마스크드 오토인코더(MAE) 목표를 대조 학습 목표와 결합하여 위치 지정 작업을 위한 표현을 개선한다. 기존의 MAE와 달리, 우리는 픽셀 공간이 아닌 이미지-텍스트 임베딩 공간에서 재구성을 수행함으로써 모델이 영역 수준의 의미를 더 잘 학습하도록 한다. 또한, 우리는 Positional Embedding Dropout(PED)을 도입하여 이미지-텍스트 사전 학습과 탐지 미세 조정 간의 스케일 변동을 해결한다. PED는 사전 학습 중 위치 임베딩을 무작위로 제거함으로써 탐지 성능을 향상시키고, 탐지 미세 조정 중 오픈-어휘 지식의 망각을 방지하며, 고정된 ViT 백본을 영역 분류기로 사용할 수 있게 한다. LVIS 오픈-어휘 탐지 벤치마크에서 CFM-ViT는 33.9 APr로 최신 기술을 달성하며, 최고의 접근법을 7.6점 앞서고 더 나은 제로샷 탐지 전이를 달성한다. 마지막으로, CFM-ViT는 강력한 이미지 수준 표현을 획득하여 제로샷 이미지-텍스트 검색 벤치마크에서 12개 지표 중 8개에서 최신 기술을 능가한다.
본 논문은 로봇 추론 및 계획에서 연속 제약 만족 문제(CCSP)를 해결하기 위한 학습 접근법을 소개한다. 기존 방법들은 주로 특정 제약 유형에 대한 수작업 엔지니어링 또는 학습 생성기에 의존하며, 다른 제약이 위반될 때 값 할당을 거부하는 방식에 초점을 맞추었다. 이와 대조적으로, 본 연구에서 제안하는 모델인 구성적 확산 연속 제약 해결기(Diffusion-CCSP)는 CCSP를 팩터 그래프로 표현하고, 개별 제약 유형에 대해 샘플링하도록 훈련된 확산 모델의 에너지를 결합함으로써 CCSP에 대한 전역적 해를 도출한다. Diffusion-CCSP는 알려진 제약들의 새로운 조합에 대해 강력한 일반화 능력을 보이며, 이산 및 연속 매개변수를 모두 포함하는 행동을 포괄하는 장기 계획을 수립하기 위해 작업 및 모션 플래너에 통합될 수 있다. 프로젝트 사이트: https://diffusion-ccsp.github.io/
본 논문은 동영상의 움직임을 보존하면서 시각적 외관을 수정하는 문제를 다룹니다. 이를 위해 MagicProp이라는 새로운 프레임워크를 제안하며, 이는 동영상 편집 과정을 외관 편집과 움직임 인식 외관 전파의 두 단계로 분리합니다. 첫 번째 단계에서 MagicProp은 입력 동영상에서 단일 프레임을 선택하고 이미지 편집 기법을 적용하여 프레임의 내용 및/또는 스타일을 수정합니다. 이러한 기법의 유연성은 프레임 내 임의의 영역을 편집할 수 있게 합니다. 두 번째 단계에서 MagicProp은 편집된 프레임을 외관 참조로 사용하고 자기회귀적 렌더링 접근법을 통해 나머지 프레임을 생성합니다. 이를 위해 PropDPM이라는 확산 기반 조건부 생성 모델을 개발하였으며, 이 모델은 참조 외관, 목표 움직임, 그리고 이전 외관을 조건으로 하여 목표 프레임을 합성합니다. 자기회귀적 편집 접근법은 결과 동영상의 시간적 일관성을 보장합니다. 전반적으로, MagicProp은 이미지 편집 기법의 유연성과 자기회귀 모델링의 우수한 시간적 일관성을 결합하여 입력 동영상의 임의 영역에서 객체 유형과 미적 스타일을 유연하게 편집하면서도 프레임 간의 좋은 시간적 일관성을 유지할 수 있게 합니다. 다양한 동영상 편집 시나리오에서의 광범위한 실험을 통해 MagicProp의 효과성을 입증하였습니다.
역설계(Inverse design)는 목표 결과를 달성하기 위해 목적 함수의 입력을 최적화하는 문제를 의미합니다. 많은 실제 공학 문제에서 목적 함수는 시스템 상태가 시간에 따라 어떻게 변화할지를 예측하는 시뮬레이터의 형태를 취하며, 설계 과제는 목표 결과로 이어지는 초기 조건을 최적화하는 것입니다. 최근 학습된 시뮬레이션 분야의 발전은 그래프 신경망(GNNs)이 시뮬레이터 역학을 정확하고 효율적으로 미분 가능하게 추정할 수 있으며, 그래디언트 기반 또는 샘플링 기반 최적화 절차를 통해 고품질의 설계 최적화를 지원할 수 있음을 보여주었습니다. 그러나 처음부터 설계를 최적화하려면 많은 비용이 드는 모델 쿼리가 필요하며, 이러한 절차는 비볼록 또는 고차원 문제에서 기본적인 실패를 보입니다. 본 연구에서는 디노이징 확산 모델(DDMs)을 사용하여 역설계 문제를 효율적으로 해결하는 방법을 보여주고, 그 효율성을 더욱 개선하기 위한 입자 샘플링 알고리즘을 제안합니다. 우리는 여러 유체 역학 설계 과제에 대해 실험을 수행했으며, 우리의 접근 방식이 표준 기법에 비해 시뮬레이터 호출 횟수를 상당히 줄인다는 것을 발견했습니다.
실제 세계의 많은 조작 작업은 서로 상당히 다른 하위 작업들로 구성되어 있습니다. 이러한 장기적이고 복잡한 작업은 적응력과 다재다능함을 갖춘 민첩한 손의 잠재력을 강조하며, 재그립이나 외부 도구 없이도 다양한 기능 모드 간 원활한 전환이 가능합니다. 그러나 민첩한 손의 고차원적 행동 공간과 장기적 작업의 복잡한 구성적 역학으로 인해 어려움이 발생합니다. 우리는 장기적 작업 목표를 달성하기 위해 여러 민첩한 정책을 연결하는 강화 학습(RL) 기반의 일반 시스템인 Sequential Dexterity를 제시합니다. 이 시스템의 핵심은 연결 성공률을 높이기 위해 하위 정책을 점진적으로 미세 조정하는 전환 가능성 함수이며, 실패로부터의 복구와 불필요한 단계를 우회하기 위한 자율적인 정책 전환도 가능하게 합니다. 시뮬레이션 환경에서 소수의 작업 객체만으로 훈련되었음에도 불구하고, 우리의 시스템은 새로운 객체 형태에 대한 일반화 능력을 보여주며, 민첩한 손이 장착된 실제 로봇으로의 제로샷 전환도 가능합니다. 더 자세한 내용과 동영상 결과는 https://sequential-dexterity.github.io에서 확인할 수 있습니다.