번역이 포함된 일일 선별된 AI 연구 논문
오디오 생성은 음성, 음악, 사운드 효과 등 다양한 유형의 오디오 간에 공통점을 공유하지만, 각 유형에 대한 모델 설계는 특정 목표와 편향을 신중히 고려해야 하며, 이는 다른 유형과 크게 다를 수 있습니다. 오디오 생성에 대한 통합된 관점에 한 걸음 더 다가가기 위해, 본 논문은 음성, 음악, 사운드 효과 생성을 동일한 학습 방법으로 수행하는 프레임워크를 제안합니다. 우리의 프레임워크는 '오디오의 언어(Language of Audio, LOA)'라는 일반적인 오디오 표현을 도입합니다. 모든 오디오는 자기 지도 사전 학습 표현 학습 모델인 AudioMAE를 기반으로 LOA로 변환될 수 있습니다. 생성 과정에서 우리는 GPT-2 모델을 사용하여 모든 모달리티를 LOA로 변환하고, LOA를 조건으로 하는 잠재 확산 모델을 통해 자기 지도 오디오 생성 학습을 수행합니다. 제안된 프레임워크는 컨텍스트 내 학습 능력과 재사용 가능한 자기 지도 사전 학습 AudioMAE 및 잠재 확산 모델과 같은 장점을 자연스럽게 제공합니다. 텍스트-투-오디오, 텍스트-투-음악, 텍스트-투-스피치 주요 벤치마크에서의 실험은 이전 접근 방식에 비해 새로운 최첨단 성능 또는 경쟁력 있는 성능을 보여줍니다. 우리의 데모와 코드는 https://audioldm.github.io/audioldm2에서 확인할 수 있습니다.
인간의 의도에 부합하도록 모델의 행동을 조정하는 것을 의미하는 '얼라인먼트(alignment)'를 보장하는 것은 대규모 언어 모델(LLM)을 실제 애플리케이션에 배포하기 전에 필수적인 과제가 되었습니다. 예를 들어, OpenAI는 GPT-4를 출시하기 전에 6개월 동안 반복적으로 얼라인먼트 작업을 수행했습니다. 그러나 실무자들이 직면한 주요 과제는 LLM의 출력이 사회적 규범, 가치 및 규제에 부합하는지 평가하기 위한 명확한 지침이 부족하다는 점입니다. 이러한 장애물은 LLM의 체계적인 반복 및 배포를 방해합니다. 이 문제를 해결하기 위해, 본 논문은 LLM의 신뢰성을 평가할 때 고려해야 할 핵심 차원에 대한 포괄적인 조사를 제시합니다. 이 조사는 LLM 신뢰성의 7가지 주요 범주를 다룹니다: 신뢰성, 안전성, 공정성, 오용 방지, 설명 가능성 및 추론, 사회적 규범 준수, 그리고 견고성. 각 주요 범주는 여러 하위 범주로 더 세분화되어 총 29개의 하위 범주로 구성됩니다. 또한, 8개의 하위 범주를 추가 조사를 위해 선정하고, 여러 널리 사용되는 LLM에 대해 해당 측정 연구를 설계 및 수행했습니다. 측정 결과는 일반적으로 더 잘 얼라인된 모델이 전반적인 신뢰성 측면에서 더 나은 성능을 보이는 경향이 있음을 나타냅니다. 그러나 얼라인먼트의 효과는 고려된 다양한 신뢰성 범주에 따라 다릅니다. 이는 LLM 얼라인먼트에 대해 더 세분화된 분석, 테스트 및 지속적인 개선을 수행하는 것의 중요성을 강조합니다. 본 논문은 LLM 신뢰성의 이러한 핵심 차원을 조명함으로써, 해당 분야의 실무자들에게 유용한 통찰과 지침을 제공하고자 합니다. 이러한 문제를 이해하고 해결하는 것은 다양한 애플리케이션에서 신뢰할 수 있고 윤리적으로 건전한 LLM 배포를 달성하는 데 중요할 것입니다.
단백질의 다중 서열 정렬(MSA)은 풍부한 생물학적 정보를 담고 있으며, 수십 년 동안 단백질 설계 및 단백질 구조 예측과 같은 생물정보학적 과제에서 핵심적인 역할을 해왔습니다. 최근 AlphaFold2와 같은 혁신적인 연구에서 대량의 원시 MSA 데이터에 직접 주의를 기울이는 트랜스포머(transformer)를 활용함으로써 MSA의 중요성이 다시 한번 강조되었습니다. 그러나 MSA 생성은 매우 높은 계산 자원을 요구하며, AlphaFold2를 훈련하는 데 사용된 것과 동등한 규모의 데이터셋이 연구 커뮤니티에 공개되지 않아 단백질 관련 머신러닝 연구의 진전이 지연되고 있습니다. 이러한 문제를 해결하기 위해, 우리는 1,600만 개 이상의 MSA, Protein Data Bank에서 추출한 관련 구조적 동족체, 그리고 AlphaFold2 단백질 구조 예측을 포함한 오픈소스 코퍼스인 OpenProteinSet을 소개합니다. 우리는 이미 OpenProteinSet을 사용하여 AlphaFold2를 성공적으로 재훈련함으로써 그 유용성을 입증했습니다. OpenProteinSet은 1) 단백질 구조, 기능, 설계에 초점을 맞춘 다양한 과제와 2) 대규모 멀티모달 머신러닝 연구를 위한 훈련 및 검증 데이터로 광범위하게 활용될 것으로 기대됩니다.
관심 대상 물체를 추적하고 따라가는 것은 산업 자동화부터 물류 및 창고 관리, 헬스케어 및 보안에 이르기까지 여러 로봇 공학 사용 사례에서 매우 중요합니다. 본 논문에서는 실시간으로 모든 물체를 감지, 추적, 따라갈 수 있는 로봇 시스템을 제시합니다. 우리의 접근 방식은 "팔로우 애니띵(FAn)"이라고 불리며, 오픈 보커블러리 및 멀티모달 모델입니다. 이 모델은 학습 시점에 본 개념에 제한되지 않고, 추론 시점에 텍스트, 이미지 또는 클릭 쿼리를 사용하여 새로운 클래스에 적용할 수 있습니다. 대규모 사전 학습 모델(파운데이션 모델)에서 얻은 풍부한 시각적 디스크립터를 활용하여, FAn은 멀티모달 쿼리(텍스트, 이미지, 클릭)를 입력 이미지 시퀀스와 매칭하여 물체를 감지하고 분할할 수 있습니다. 이러한 감지 및 분할된 물체는 이미지 프레임 간에 추적되며, 가림 현상과 물체 재등장을 모두 고려합니다. 우리는 실제 로봇 시스템(마이크로 에어리얼 비히클)에서 FAn을 시연하고, 실시간 제어 루프에서 관심 대상 물체를 원활하게 따라가는 능력을 보고합니다. FAn은 경량(6-8GB) 그래픽 카드가 장착된 노트북에 배포될 수 있으며, 초당 6-20 프레임의 처리량을 달성합니다. 빠른 채택, 배포 및 확장성을 가능하게 하기 위해, 우리는 모든 코드를 프로젝트 웹페이지(https://github.com/alaamaalouf/FollowAnything)에 오픈소스로 공개합니다. 또한 독자들에게 5분 설명 동영상(https://www.youtube.com/watch?v=6Mgt3EPytrw)을 시청할 것을 권장합니다.
본 연구는 그래디언트 기반 메쉬 최적화를 다루며, 3D 표면 메쉬를 스칼라 필드의 등위면으로 표현하여 반복적으로 최적화하는 방법을 고려합니다. 이는 사진측량, 생성 모델링, 역물리학 등 다양한 응용 분야에서 점점 더 일반적으로 사용되는 패러다임입니다. 기존 구현들은 Marching Cubes나 Dual Contouring과 같은 고전적인 등위면 추출 알고리즘을 적용하지만, 이러한 기술들은 고정된 알려진 필드에서 메쉬를 추출하도록 설계되었으며, 최적화 환경에서는 고품질의 특징 보존 메쉬를 표현하기 위한 자유도가 부족하거나 수치적 불안정성을 겪는 문제가 있습니다. 우리는 FlexiCubes를 소개하는데, 이는 기하학적, 시각적, 심지어 물리적 목표에 대해 알려지지 않은 메쉬를 최적화하기 위해 특별히 설계된 등위면 표현 방식입니다. 우리의 주요 통찰은 표현에 신중하게 선택된 추가 매개변수를 도입하여 추출된 메쉬의 기하학적 구조와 연결성을 지역적으로 유연하게 조정할 수 있도록 하는 것입니다. 이러한 매개변수는 하위 작업을 최적화할 때 자동 미분을 통해 기본 스칼라 필드와 함께 업데이트됩니다. 우리는 개선된 위상적 특성을 위해 Dual Marching Cubes를 기반으로 추출 방식을 설계하고, 선택적으로 사면체 및 계층적 적응 메쉬를 생성하기 위한 확장 기능을 제시합니다. 광범위한 실험을 통해 FlexiCubes가 합성 벤치마크와 실제 응용 분야 모두에서 메쉬 품질과 기하학적 정확도 측면에서 상당한 개선을 제공함을 검증합니다.
Alexa Prize 프로그램은 SocialBot Grand Challenge와 TaskBot Challenge와 같은 도전 과제를 통해 대학생들이 대화형 에이전트를 구축하는 데 있어 자신의 재능을 탐구하고 실험하며 선보일 수 있는 기회를 제공해 왔습니다. 대화형 에이전트가 점점 더 멀티모달 및 구체화된 환경에서 등장함에 따라, 컴퓨터 비전과 물리적 구체화를 통해 강화된 대화형 상호작용의 가능성을 탐구하는 것이 중요해졌습니다. 본 논문은 대학 팀들이 시뮬레이션된 물리적 환경에서 작업을 완료하는 로봇 어시스턴트를 구축하기 위해 경쟁하는 새로운 도전 과제인 SimBot Challenge를 소개합니다. 이 논문은 온라인 및 오프라인 도전 단계를 포함한 SimBot Challenge의 개요를 제공합니다. 또한, 팀들에게 제공된 인프라와 지원, 즉 시뮬레이션 환경인 Alexa Arena와 비전 및 언어 모델 구축을 가속화하기 위해 제공된 ML 툴킷에 대해 설명합니다. 참가 팀들이 연구 도전 과제를 극복하기 위해 취한 접근 방식을 요약하고, 주요 교훈을 추출합니다. 마지막으로, 경쟁 중인 SimBot의 성능에 대한 분석을 제공합니다.
시간 의존적 편미분 방정식(PDE)은 과학과 공학 분야에서 광범위하게 사용됩니다. 최근에는 전통적인 해법 기법의 높은 계산 비용으로 인해 딥 뉴럴 네트워크 기반의 대체 모델에 대한 관심이 크게 증가했습니다. 이러한 신경망 PDE 솔버의 실용성은 장기간에 걸쳐 정확하고 안정적인 예측을 제공할 수 있는 능력에 달려 있으며, 이는 매우 어려운 문제로 알려져 있습니다. 본 연구에서는 일반적인 시간적 롤아웃 전략에 대한 대규모 분석을 수행하여, PDE 해법에서 고주파와 관련된 비주도적 공간 주파수 정보의 소홀이 안정적이고 정확한 롤아웃 성능을 제한하는 주요 문제점임을 확인했습니다. 이러한 통찰을 바탕으로, 우리는 최근 디퓨전 모델의 발전에서 영감을 받아 PDE-Refiner를 소개합니다. 이는 다단계 정제 과정을 통해 모든 주파수 성분을 더 정확하게 모델링할 수 있는 새로운 모델 클래스입니다. 우리는 복잡한 유체 역학의 도전적인 벤치마크에서 PDE-Refiner를 검증하여, 신경망, 수치적, 그리고 하이브리드 신경망-수치적 아키텍처를 포함한 최첨단 모델들을 일관되게 능가하는 안정적이고 정확한 롤아웃을 입증했습니다. 또한, PDE-Refiner는 디노이징 목표가 암묵적으로 새로운 형태의 스펙트럼 데이터 증강을 유도하기 때문에 데이터 효율성을 크게 향상시킴을 보여줍니다. 마지막으로, PDE-Refiner의 디퓨전 모델과의 연결은 모델의 예측 불확실성을 정확하고 효율적으로 평가할 수 있게 하여, 대체 모델이 부정확해지는 시점을 추정할 수 있도록 합니다.