번역이 포함된 일일 선별된 AI 연구 논문
Amphion은 오디오, 음악, 음성 생성 분야를 위한 툴킷입니다. 이 툴킷의 목적은 재현 가능한 연구를 지원하고, 초보 연구자 및 엔지니어들이 오디오, 음악, 음성 생성 연구 및 개발 분야에 쉽게 진입할 수 있도록 돕는 것입니다. Amphion은 고전적인 모델이나 아키텍처의 시각화라는 독특한 기능을 제공합니다. 우리는 이러한 시각화가 모델을 더 잘 이해하고자 하는 초보 연구자 및 엔지니어들에게 유익할 것이라고 믿습니다. Amphion의 궁극적인 목표는 어떠한 입력도 일반 오디오로 변환하는 연구를 위한 플랫폼을 제공하는 것입니다. Amphion은 개별 생성 작업을 지원하도록 설계되었습니다. 특정 생성 작업 외에도, Amphion은 여러 가지 보코더와 평가 메트릭을 포함하고 있습니다. 보코더는 고품질 오디오 신호를 생성하기 위한 중요한 모듈이며, 평가 메트릭은 생성 작업에서 일관된 기준을 보장하는 데 필수적입니다. 본 논문에서는 Amphion에 대한 높은 수준의 개요를 제공합니다.
복잡한 자연어 질문에 답하기 위해서는 다단계 추론과 외부 정보의 통합이 종종 필요합니다. 여러 시스템이 지식 검색과 대형 언어 모델(LLM)을 결합하여 이러한 질문에 답변해 왔습니다. 그러나 이러한 시스템은 다양한 실패 사례를 겪으며, 외부 지식과의 상호작용이 미분 불가능하기 때문에 이러한 실패를 직접적으로 종단 간 학습으로 수정할 수 없습니다. 이러한 문제를 해결하기 위해, 우리는 외부 지식에 대해 추론하고 행동할 수 있는 ReAct 스타일의 LLM 에이전트를 정의합니다. 또한, 이 에이전트를 ReST와 유사한 방법으로 개선하여, 이전 궤적에 대해 반복적으로 학습하고, AI 피드백을 활용한 점진적 배치 강화 학습을 통해 지속적인 자기 개선과 자기 증류를 수행합니다. 프롬프트된 대형 모델에서 시작하여 알고리즘을 단 두 번 반복한 후, 도전적인 구성적 질문-응답 벤치마크에서 비슷한 성능을 달성하면서 매개변수 수를 두 자릿수로 줄인 미세 조정된 소형 모델을 생성할 수 있습니다.
디퓨전 모델은 다양한 하위 생성 작업에서 놀라운 성공을 거두었지만, 중요한 동시에 도전적인 표현적 말하는 헤드 생성 분야에서는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 이러한 격차를 해소하기 위해 DreamTalk 프레임워크를 제안하며, 디퓨전 모델의 잠재력을 발휘할 수 있도록 세심하게 설계된 구조를 도입합니다. 구체적으로, DreamTalk은 세 가지 핵심 구성 요소로 이루어져 있습니다: 디노이징 네트워크, 스타일 인식 립 전문가, 그리고 스타일 예측기입니다. 디퓨전 기반의 디노이징 네트워크는 다양한 표정에서도 고품질의 오디오 기반 얼굴 움직임을 일관되게 합성할 수 있습니다. 립 싱크의 표현력과 정확도를 향상시키기 위해, 말하는 스타일을 고려하면서 립 싱크를 안내할 수 있는 스타일 인식 립 전문가를 도입했습니다. 또한, 표현 참조 비디오나 텍스트의 필요성을 없애기 위해 추가적인 디퓨전 기반 스타일 예측기를 활용하여 오디오에서 직접 목표 표정을 예측합니다. 이를 통해 DreamTalk은 강력한 디퓨전 모델을 활용하여 표현적인 얼굴을 효과적으로 생성할 수 있으며, 비용이 많이 드는 스타일 참조에 대한 의존도를 줄일 수 있습니다. 실험 결과는 DreamTalk이 다양한 말하는 스타일의 사진처럼 사실적인 말하는 얼굴을 생성하고 정확한 립 움직임을 달성하며, 기존의 최첨단 방법들을 능가함을 보여줍니다.
Segment Anything Model(SAM)은 두 가지 실용적이면서도 도전적인 세그멘테이션 작업을 해결합니다: 특정 포인트를 활용하여 관심 객체 하나에 대한 마스크를 예측하는 'Segment Anything'(SegAny)와 이미지 상의 모든 객체에 대한 마스크를 예측하는 'Segment Everything'(SegEvery)입니다. SAM에서 SegAny가 느린 이유는 무거운 이미지 인코더 때문이며, 이는 MobileSAM이 분리된 지식 증류를 통해 해결했습니다. 그러나 SAM을 사용한 SegEvery의 효율성 병목은 마스크 디코더에 있습니다. 이는 먼저 중복된 그리드 탐색 프롬프트로 수많은 마스크를 생성한 후 필터링을 통해 최종 유효 마스크를 얻어야 하기 때문입니다. 우리는 객체 탐지를 통해 유효 프롬프트만을 사용하여 최종 마스크를 직접 생성함으로써 효율성을 개선할 것을 제안합니다. 우리가 제안한 접근 방식은 마스크 디코더의 총 처리 시간을 최소 16배 이상 줄이는 데 도움을 줄 뿐만 아니라 더 우수한 성능을 달성합니다. 구체적으로, 우리의 접근 방식은 LVIS 데이터셋에서 제로샷 객체 제안에 대해 마스크 AR@K 지표 기준으로 평균 3.6%(42.5% 대 38.9%)의 성능 향상을 보여줍니다. 질적 결과는 우리의 접근 방식이 과도한 세분화를 피하면서도 정교한 마스크를 생성함을 보여줍니다. 원본 SAM보다 더 빠른 SegEvery를 목표로 하는 이 프로젝트는 더 빠른 SegAny를 목표로 하는 MobileSAM과 구분하기 위해 MobileSAMv2로 명명되었습니다. 또한, 우리는 새로운 프롬프트 샘플링이 MobileSAM의 증류된 이미지 인코더와도 호환되어 효율적인 SegAny와 SegEvery를 위한 통합 프레임워크에 기여함을 입증합니다. 코드는 MobileSAM 프로젝트와 동일한 링크에서 이용 가능합니다. https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
본 논문은 어텐션 메커니즘 내에서의 혁신을 추구하기 위한 것이 아닙니다. 대신, 점군(point cloud) 처리의 맥락에서 정확도와 효율성 간의 기존 트레이드오프를 극복하고, 규모의 힘을 활용하는 데 초점을 맞추고 있습니다. 최근 3D 대규모 표현 학습의 발전에서 영감을 얻어, 모델 성능이 복잡한 설계보다는 규모에 더 큰 영향을 받는다는 점을 인식했습니다. 따라서 우리는 Point Transformer V3(PTv3)를 제안하며, 이는 전체 성능에 미미한 영향을 미치는 특정 메커니즘의 정확도보다는 단순성과 효율성을 우선시합니다. 예를 들어, KNN을 통한 정확한 이웃 탐색을 특정 패턴으로 조직된 점군의 효율적인 직렬화된 이웃 매핑으로 대체하는 것이 그 예입니다. 이러한 원칙은 상당한 규모 확장을 가능하게 하여, 수용 필드를 16개 점에서 1024개 점으로 확장하면서도 효율성을 유지합니다(전작인 PTv2 대비 처리 속도 3배 증가, 메모리 효율성 10배 개선). PTv3은 실내 및 실외 시나리오를 아우르는 20개 이상의 다운스트림 작업에서 최첨단 결과를 달성했습니다. 또한, 다중 데이터셋 공동 학습을 통해 더욱 향상된 PTv3은 이러한 결과를 더 높은 수준으로 끌어올립니다.
디퓨전 모델의 핵심 구성 요소 중 하나는 노이즈 예측을 위한 UNet입니다. 여러 연구에서 UNet 디코더의 기본 특성을 탐구했지만, 인코더는 대부분 연구되지 않은 상태로 남아 있습니다. 본 연구에서는 UNet 인코더에 대한 첫 번째 포괄적인 연구를 수행합니다. 우리는 인코더 특징을 실증적으로 분석하고, 추론 과정에서의 변화에 대한 중요한 질문들에 대한 통찰을 제공합니다. 특히, 인코더 특징은 점진적으로 변화하는 반면, 디코더 특징은 다양한 시간 단계에서 상당한 변화를 보인다는 것을 발견했습니다. 이러한 발견은 특정 인접 시간 단계에서 인코더를 생략하고, 이전 시간 단계의 인코더 특징을 디코더에 순환적으로 재사용하는 아이디어로 이어졌습니다. 이 관찰을 바탕으로, 우리는 다양한 작업에서 디퓨전 샘플링을 가속화하기 위한 간단하지만 효과적인 인코더 전파 기법을 소개합니다. 우리의 전파 기법을 활용함으로써, 특정 인접 시간 단계에서 디코더를 병렬로 수행할 수 있게 되었습니다. 또한, 생성된 이미지의 텍스처 디테일을 개선하기 위해 사전 노이즈 주입 방법을 도입했습니다. 표준 텍스트-이미지 작업 외에도, 우리의 접근 방식을 텍스트-비디오, 개인화된 생성, 참조 기반 생성과 같은 다른 작업에서도 검증했습니다. 지식 증류 기술을 사용하지 않고도, 우리의 접근 방식은 Stable Diffusion(SD)과 DeepFloyd-IF 모델의 샘플링을 각각 41%와 24% 가속화하면서도 높은 품질의 생성 성능을 유지했습니다. 우리의 코드는 https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}에서 확인할 수 있습니다.
Transformer 기반 대규모 언어 모델(LLMs)은 일반적으로 유창하고 관련성 높은 응답 생성을 위해 입력 텍스트의 길이에 제한을 둡니다. 이러한 제약은 긴 텍스트를 다루는 시나리오에서의 적용 가능성을 제한합니다. 본 연구에서는 상당한 계산 비용 증가나 미세 조정 없이도 6-8배 더 긴 텍스트로 일반화할 수 있는 새로운 의미론적 압축 방법을 제안합니다. 제안된 프레임워크는 정보 이론의 소스 코딩에서 영감을 얻었으며, 사전 훈련된 모델을 사용하여 긴 입력의 의미론적 중복성을 줄인 후 이를 LLMs에 전달하여 다운스트림 작업을 수행합니다. 실험 결과는 제안된 방법이 질문 응답, 요약, 소수 샷 학습, 정보 검색 등 다양한 작업에서 LLMs의 컨텍스트 윈도우를 효과적으로 확장함을 보여줍니다. 또한, 제안된 의미론적 압축 방법은 텍스트 생성에서 일관된 유창성을 유지하면서 관련 계산 오버헤드를 줄이는 것으로 나타났습니다.
우리는 대규모 언어 모델(LLM) 활성화에 대한 기존의 비지도 학습 방법들이 지식을 발견하지 못하며, 대신 활성화의 가장 두드러진 특징을 발견하는 것처럼 보인다는 것을 보여줍니다. 비지도 학습을 통한 지식 추출의 기본 아이디어는 지식이 일관성 구조를 만족하며, 이를 통해 지식을 발견할 수 있다는 것입니다. 우리는 먼저 이론적으로 임의의 특징(지식뿐만 아니라)이 특정 선도적인 비지도 지식 추출 방법인 대조 일관성 탐색(Contrast-Consistent Search, Burns et al. - arXiv:2212.03827)의 일관성 구조를 만족한다는 것을 증명합니다. 그런 다음, 비지도 학습 방법이 지식을 예측하지 않고 대신 다른 두드러진 특징을 예측하는 분류기를 생성하는 실험 시리즈를 제시합니다. 우리는 잠재 지식을 발견하기 위한 기존의 비지도 학습 방법들이 불충분하다고 결론 내리고, 향후 지식 추출 방법을 평가할 때 적용할 수 있는 검증 방법을 제안합니다. 개념적으로, 우리는 여기서 탐구된 식별 문제들(예: 모델의 지식과 시뮬레이션된 캐릭터의 지식을 구분하는 문제)이 향후 비지도 학습 방법에서도 지속될 것이라고 가정합니다.
Score Distillation Sampling(SDS)는 조건부 3D 콘텐츠 생성에서 뛰어난 성능을 보여왔습니다. 그러나 SDS 공식에 대한 포괄적인 이해는 여전히 부족하여 3D 생성의 발전을 저해하고 있습니다. 본 연구에서는 SDS를 모드 분리(mode-disengaging), 모드 탐색(mode-seeking), 분산 감소(variance-reducing)라는 세 가지 기능적 구성 요소의 조합으로 해석하고, 각각의 특성을 분석합니다. 우리는 과도한 매끄러움(over-smoothness)과 색상 포화(color-saturation)와 같은 문제들이 감독 항목의 본질적인 결함에서 비롯된다는 것을 보여주며, SDS에 의해 도입된 분산 감소 항이 최적이 아님을 밝힙니다. 또한, 3D 생성을 위한 큰 Classifier-Free Guidance(CFG) 스케일의 채택에 대한 통찰을 제공합니다. 이러한 분석을 바탕으로, 우리는 각 항을 전략적으로 조율하여 고품질 3D 생성을 가능하게 하는 간단하면서도 효과적인 접근 방식인 Stable Score Distillation(SSD)을 제안합니다. 광범위한 실험을 통해 우리의 접근 방식의 효능을 검증하였으며, 가장 도전적인 NeRF 표현에서도 낮은 CFG 조건 하에서 과도한 매끄러움과 포화 문제 없이 고해상도 3D 콘텐츠를 생성할 수 있음을 입증했습니다.
Neural Radiance Field (NeRF)와 그 변형 모델들은 최근 새로운 시점 합성 및 3D 장면 재구성을 위한 성공적인 방법으로 부상했습니다. 그러나 현재 대부분의 NeRF 모델은 큰 모델 크기를 사용해 높은 정확도를 달성하거나, 정확도를 희생시켜 높은 메모리 효율성을 달성하는 방식으로 동작합니다. 이는 단일 모델의 적용 범위를 제한하는데, 높은 정확도의 모델은 저메모리 장치에 적합하지 않을 수 있고, 메모리 효율적인 모델은 고품질 요구사항을 충족시키지 못할 수 있기 때문입니다. 이를 해결하기 위해, 우리는 SlimmeRF를 제안합니다. 이 모델은 슬리밍(slimming)을 통해 테스트 시점에서 모델 크기와 정확도 간의 즉각적인 트레이드오프를 가능하게 하여, 다양한 컴퓨팅 예산을 가진 시나리오에 동시에 적합하도록 만듭니다. 우리는 이를 위해 Tensorial Rank Incrementation (TRaIn)이라는 새로운 알고리즘을 제안했는데, 이는 훈련 중에 모델의 텐서 표현의 랭크를 점진적으로 증가시킵니다. 또한, 우리 모델이 희소 시점(sparse-view) 시나리오에서 더 효과적인 트레이드오프를 가능하게 하며, 때로는 슬리밍 후에 더 높은 정확도를 달성하는 것을 관찰했습니다. 우리는 이 현상을 플로터(floater)와 같은 오류 정보가 일반적으로 더 높은 랭크에 해당하는 구성 요소에 저장되는 경향이 있기 때문이라고 설명합니다. 우리의 구현은 https://github.com/Shiran-Yuan/SlimmeRF에서 확인할 수 있습니다.
고품질 대화 데이터셋은 사용자와 소통할 수 있는 AI 모델을 개발하는 데 필수적입니다. 챗봇과 사용자 간의 깊은 상호작용을 촉진하는 한 가지 방법은 사용자의 성격, 동기, 행동에 대한 통찰을 제공하는 페르소나를 활용하는 것입니다. 자연어 처리(NLP) 모델을 다양하고 포괄적인 페르소나 기반 데이터셋으로 학습시키면, 사용자와 더 깊은 연결을 형성하고 참여를 유지하는 대화 모델을 개발할 수 있습니다. 본 논문에서는 대형 언어 모델(LLM)의 힘을 활용하여 시드 데이터셋으로부터 대규모 고품질 대화 데이터셋을 생성합니다. 초기 데이터셋을 확장하면서 대화 품질을 개선하기 위해 생성자-비평가 아키텍처 프레임워크를 제안합니다. 생성자는 대화를 출력하도록 프롬프트된 LLM입니다. 비평가는 생성된 대화의 품질을 통제하는 전문가 LLM들의 혼합으로 구성됩니다. 이 전문가들은 생성된 대화 중 최고의 대화를 선별하며, 이를 통해 생성자를 개선합니다. 우리는 Persona-Chat에서 시드된 20,000개의 대화로 구성된 Synthetic-Persona-Chat을 공개합니다. Synthetic-Persona-Chat과 생성 프레임워크의 품질을 다양한 차원에서 광범위한 실험을 통해 평가하였으며, 튜링 테스트에서 Synthetic-Persona-Chat이 Persona-Chat에 대해 패배하는 비율이 세 번의 반복을 통해 17.2%에서 8.8%로 감소함을 관찰했습니다.
이 시리즈의 목표는 머신러닝 분야의 의견과 이슈를 현재의 모습과 시간이 지남에 따라 변화하는 모습을 기록하는 것입니다. 이 설문조사는 AI 특이점이 도래하여 종말이 올 때까지 주기적으로 진행하며, 각 판마다 최신 주제 질문 목록을 업데이트하고 새로운 커뮤니티 구성원들을 인터뷰할 계획입니다. 이번 호에서는 해석 가능한 AI에 대한 사람들의 의견, 현대 자연어 처리에서 벤치마킹의 가치, 딥러닝 이해를 위한 진척 상태, 그리고 학계의 미래에 대해 탐구했습니다.