번역이 포함된 일일 선별된 AI 연구 논문
대규모 시각-언어 모델(예: Stable Diffusion, SD)을 활용하여 이미지 편집, 이미지 대응, 3D 형태 생성 등 다양한 하위 작업에서 상당한 진전이 이루어졌다. 이러한 발전에 영감을 받아, 우리는 SLiMe를 제안하여 단 하나의 주석 처리된 샘플만으로도 원하는 세분화 수준에서 이미지를 분할하는 데 이러한 대규모 시각-언어 모델을 활용하는 방법을 탐구한다. SLiMe는 이 문제를 최적화 작업으로 설정한다. 구체적으로, 단일 훈련 이미지와 그 분할 마스크가 주어지면, 먼저 SD 사전 모델로부터 "가중 누적 자기 주의 맵"을 포함한 주의 맵을 추출한다. 그런 다음, 추출된 주의 맵을 사용하여 Stable Diffusion의 텍스트 임베딩을 최적화하여 각 임베딩이 훈련 이미지의 단일 분할 영역에 대해 학습하도록 한다. 이러한 학습된 임베딩은 주의 맵에서 분할 영역을 강조하며, 이를 통해 분할 맵을 도출할 수 있다. 이로 인해 SLiMe는 단 하나의 예시만으로도 추론 과정에서 실제 세계의 이미지를 훈련 이미지의 분할 영역 세분화 수준으로 분할할 수 있다. 또한, 추가 훈련 데이터를 활용할 수 있는 경우(즉, 소수 샷), SLiMe의 성능이 향상된다. 우리는 다양한 설계 요소를 검토한 지식이 풍부한 실험을 수행하여 SLiMe가 기존의 단일 샷 및 소수 샷 분할 방법들을 능가함을 보여주었다.
기존 연구들은 대규모 언어 모델이 계산기 도구 없이는 정확한 산술 연산, 특히 8자리 이상의 곱셈 및 소수와 분수를 포함한 연산을 수행할 수 없다고 일반적으로 가정해 왔습니다. 본 논문은 이러한 오해에 도전하고자 합니다. 충분한 학습 데이터가 주어지면, 20억 개의 파라미터를 가진 언어 모델이 데이터 누출 없이도 거의 100%의 정확도로 다자리 산술 연산을 정확하게 수행할 수 있으며, 이는 GPT-4(다자리 곱셈 정확도가 단 4.3%)를 크게 능가합니다. 또한, 추가적인 다단계 산술 연산 및 텍스트로 기술된 수학 문제가 포함된 데이터셋으로 GLM-10B를 미세 조정한 우리의 MathGLM이 5,000개 샘플의 중국어 수학 문제 테스트 세트에서 GPT-4와 유사한 성능을 달성함을 보여줍니다.
CM3Leon("카멜레온"으로 발음)은 텍스트와 이미지의 생성 및 삽입이 가능한 검색 강화 토큰 기반 디코더 전용 멀티모달 언어 모델을 소개합니다. CM3Leon은 CM3 멀티모달 아키텍처를 사용하지만, 더 다양한 명령 스타일 데이터에 대한 확장 및 튜닝의 극적인 이점을 추가로 보여줍니다. 이는 텍스트 전용 언어 모델에서 적응된 레시피로 훈련된 최초의 멀티모달 모델로, 대규모 검색 강화 사전 훈련 단계와 두 번째 다중 작업 지도 미세 조정(SFT) 단계를 포함합니다. 또한 텍스트-이미지 및 이미지-텍스트 생성 모두를 수행할 수 있는 범용 모델로서, 고품질 출력을 생성하는 자체 포함형 대조 디코딩 방법을 도입할 수 있게 합니다. 광범위한 실험을 통해 이 레시피가 멀티모달 모델에 매우 효과적임을 입증했습니다. CM3Leon은 유사한 방법들보다 5배 적은 훈련 계산량으로 텍스트-이미지 생성에서 최첨단 성능을 달성합니다(제로샷 MS-COCO FID 4.88). SFT 이후, CM3Leon은 언어 기반 이미지 편집부터 이미지 제어 생성 및 세분화에 이르는 다양한 작업에서 전례 없는 수준의 제어 가능성을 보여줄 수 있습니다.
우리는 빠른 TTS 음향 모델링을 위한 새로운 인코더-디코더 아키텍처인 Matcha-TTS를 소개합니다. 이 모델은 최적 수송 조건부 흐름 매칭(OT-CFM)을 사용하여 학습되었습니다. 이를 통해 스코어 매칭을 사용하여 학습된 모델보다 더 적은 합성 단계로도 높은 출력 품질을 달성할 수 있는 ODE 기반 디코더를 구현했습니다. 또한 신중한 설계 선택을 통해 각 합성 단계가 빠르게 실행되도록 보장했습니다. 이 방법은 확률적이며, 비자기회귀적이고, 외부 정렬 없이 처음부터 말하는 법을 학습합니다. 강력한 사전 학습된 베이스라인 모델과 비교했을 때, Matcha-TTS 시스템은 가장 작은 메모리 사용량을 가지며, 긴 발화에서 가장 빠른 모델의 속도에 필적하고, 청취 테스트에서 가장 높은 평균 의견 점수를 획득했습니다. 오디오 예제, 코드, 사전 학습된 모델은 https://shivammehta25.github.io/Matcha-TTS/에서 확인할 수 있습니다.
최근 비전-언어 모델(VLMs)의 발전으로 시각 질의응답 및 이미지 캡셔닝과 같은 작업에서의 성능이 향상되었습니다. 이에 따라 이러한 모델들은 물리적 세계, 특히 로봇 조작과 같은 영역에서 추론을 수행할 수 있는 위치에 놓이게 되었습니다. 그러나 현재의 VLMs은 일반 물체의 물리적 개념(예: 재질, 취약성)에 대한 이해가 제한적이어서, 이러한 물체와의 상호작용 및 물리적 추론이 필요한 로봇 조작 작업에서의 유용성이 제한됩니다. 이러한 한계를 해결하기 위해, 우리는 PhysObjects를 제안합니다. 이는 일반 가정용 물체에 대한 36.9K 크라우드소싱 및 417K 자동화된 물리적 개념 주석으로 구성된 객체 중심 데이터셋입니다. 우리는 PhysObjects를 사용하여 VLM을 미세 조정함으로써 시각적 외관에서 이러한 개념에 대한 인간의 사전 지식을 포착하여 물리적 객체 개념에 대한 이해를 향상시킴을 보여줍니다. 우리는 이 물리적으로 기반을 둔 VLM을 대형 언어 모델 기반 로봇 플래너와의 상호작용 프레임워크에 통합하고, 물리적으로 기반을 둔 VLMs을 활용하지 않는 베이스라인과 비교하여 물리적 객체 개념에 대한 추론이 필요한 작업에서의 플래닝 성능이 향상됨을 보여줍니다. 또한, 우리는 실제 로봇에서 물리적으로 기반을 둔 VLM의 이점을 보여주며, 이를 통해 작업 성공률이 향상됨을 입증합니다. 우리는 데이터셋을 공개하고, 결과에 대한 추가 세부 사항 및 시각화 자료를 https://iliad.stanford.edu/pg-vlm/에서 제공합니다.
고주파 신호를 표현하도록 훈련된 신경망의 한 범주인 뉴럴 필드(Neural Fields)는 최근 복잡한 3D 데이터, 특히 단일 다층 퍼셉트론(MLP)을 통해 대규모 신경 부호 거리(SDF) 또는 방사 필드(NeRF)를 모델링하는 데 있어 인상적인 성능을 보이며 상당한 주목을 받고 있습니다. 그러나 MLP를 사용하여 신호를 표현하는 방법이 강력하고 간단함에도 불구하고, MLP의 제한된 용량으로 인해 크고 복잡한 시간적 신호를 모델링할 때 여전히 어려움에 직면합니다. 본 논문에서는 이러한 한계를 해결하기 위해 시간적 잔차 레이어를 뉴럴 필드에 통합하는 효과적인 접근 방식을 제안하며, 이를 ResFields라고 명명합니다. ResFields는 복잡한 시간적 신호를 효과적으로 표현하도록 특별히 설계된 새로운 클래스의 네트워크입니다. 우리는 ResFields의 특성을 포괄적으로 분석하고, 학습 가능한 매개변수의 수를 줄이고 일반화 능력을 향상시키기 위한 행렬 분해 기법을 제안합니다. 특히, 우리의 공식화는 기존 기술과 원활하게 통합되며, 2D 비디오 근사, 시간적 SDF를 통한 동적 형태 모델링, 동적 NeRF 재구성과 같은 다양한 도전적인 작업에서 일관되게 결과를 개선합니다. 마지막으로, 경량 캡처 시스템의 희소한 센서 입력으로부터 동적 3D 장면을 포착하는 데 ResFields의 실용적인 유용성을 입증합니다.
뉴럴 레이디언스 필드(NeRF)는 뷰 합성(view synthesis)과 깊이 추정(depth estimation)과 같은 응용 분야에서 유망한 성과를 보여주고 있지만, 다중 뷰 이미지로부터 학습하는 과정에는 본질적인 불확실성이 존재합니다. 현재 이러한 불확실성을 정량화하는 방법들은 경험적이거나 계산적으로 부담이 큰 경우가 많습니다. 본 논문에서는 학습 과정을 수정하지 않고도 사전 학습된 NeRF의 불확실성을 평가할 수 있는 사후 처리(post-hoc) 프레임워크인 BayesRays를 소개합니다. 우리의 방법은 공간적 섭동(spatial perturbations)과 베이지안 라플라스 근사(Bayesian Laplace approximation)를 사용하여 체적 불확실성 필드(volumetric uncertainty field)를 구축합니다. 우리는 알고리즘을 통계적으로 유도하고, 주요 지표와 응용 분야에서 우수한 성능을 보임을 입증합니다. 추가 결과는 https://bayesrays.github.io에서 확인할 수 있습니다.
인간의 민첩성은 운동 제어의 특징적인 요소이다. 우리의 손은 근골격계 감각-운동 회로의 복잡성(다관절 및 다중 관절, 40개 이상의 근육으로 제어되는 23개의 관절)에도 불구하고 새로운 행동을 빠르게 종합할 수 있다. 본 연구에서는 인간의 민첩성이 단일 작업을 통해 획득되기보다는 다양한 이전 경험을 바탕으로 구축된다는 점에서 영감을 얻었다. 이러한 관찰에 동기를 부여받아, 우리는 이전 경험을 바탕으로 새로운(이전에는 달성할 수 없었던) 행동을 빠르게 습득할 수 있는 에이전트를 개발하고자 한다. 구체적으로, 우리의 접근 방식은 생리학적으로 현실적인 인간 손 모델인 MyoHand를 사용하여 작업에 구애받지 않는 행동 사전(MyoDex)을 암묵적으로 포착하는 다중 작업 학습을 활용한다. 우리는 MyoDex의 효과를 소수 샷 일반화 및 다양한 미지의 민첩한 조작 작업으로의 긍정적 전이에서 입증한다. MyoDex를 활용한 에이전트는 증류 기준선과 비교하여 약 3배 더 많은 작업을 해결할 수 있으며, 4배 더 빠르게 해결한다. 이전 연구에서는 단일 근골격계 제어 행동을 종합했지만, MyoDex는 다양한 접촉이 풍부한 행동에 걸쳐 생리학적 제어의 민첩한 학습을 촉진하는 첫 번째 일반화 가능한 조작 사전이다. 또한, 우리는 24 DoF Adroit Hand에서의 민첩성 획득을 넘어 근골격계 제어를 넘어 우리 패러다임의 효과를 입증한다. 웹사이트: https://sites.google.com/view/myodex