번역이 포함된 일일 선별된 AI 연구 논문
확산 모델(Diffusion models)은 현재 대규모 데이터셋에 대한 비할 데 없는 확장성으로 데이터 기반 이미지 합성 분야를 주도하고 있습니다. 본 논문에서는 널리 사용되는 ADM(ADM diffusion model) 아키텍처에서 발생하는 불균일하고 비효율적인 학습의 여러 원인을 파악하고 이를 수정하는 방법을 제안합니다. 이때, 고수준 구조를 변경하지 않고도 이러한 개선을 달성합니다. 학습 과정에서 네트워크 활성화 및 가중치의 통제되지 않은 크기 변화와 불균형을 관찰한 후, 우리는 네트워크 계층을 재설계하여 활성화, 가중치, 업데이트 크기를 기대값 기준으로 보존하도록 했습니다. 이러한 철학을 체계적으로 적용함으로써 관찰된 드리프트(drift)와 불균형을 제거할 수 있었으며, 동일한 계산 복잡도에서 훨씬 더 나은 네트워크를 얻을 수 있었습니다. 우리의 수정 사항은 ImageNet-512 합성에서 이전 기록인 FID 2.41을 빠른 결정론적 샘플링을 사용하여 1.81로 개선했습니다. 독립적인 기여로서, 우리는 학습 완료 후 사후적으로(ex post-hoc) 지수 이동 평균(EMA, Exponential Moving Average) 매개변수를 설정하는 방법을 제시합니다. 이를 통해 여러 번의 학습 실행 비용 없이 EMA 길이를 정밀하게 조정할 수 있으며, 네트워크 아키텍처, 학습 시간, 가이던스(guidance)와의 놀라운 상호작용을 밝힐 수 있습니다.
"ImageDream"은 3D 객체 생성을 위한 혁신적인 이미지 프롬프트 기반의 멀티뷰 확산 모델로 소개합니다. ImageDream은 기존의 최첨단 이미지 조건 기반 방법들에 비해 더 높은 품질의 3D 모델을 생성할 수 있는 능력으로 두드러집니다. 우리의 접근 방식은 이미지 내 객체에 대해 정규화된 카메라 좌표계를 활용하여 시각적 기하학적 정확도를 향상시킵니다. 이 모델은 입력 이미지에 기반하여 확산 모델 내 각 블록에서 다양한 수준의 제어를 제공하도록 설계되었으며, 여기서 전역 제어는 객체의 전체 레이아웃을 형성하고 지역 제어는 이미지의 세부 사항을 미세 조정합니다. ImageDream의 효과는 표준 프롬프트 목록을 사용한 광범위한 평가를 통해 입증되었습니다. 더 많은 정보는 프로젝트 페이지(https://Image-Dream.github.io)를 방문하십시오.
재조명의 충실도는 기하학적 표현과 외관 표현 모두에 의해 제한됩니다. 기하학적 측면에서, 메시와 볼륨 기반 접근법 모두 3D 헤어 기하학과 같은 복잡한 구조를 모델링하는 데 어려움을 겪습니다. 외관 측면에서, 기존의 재조명 모델들은 충실도가 제한적이며 고해상도의 연속적인 환경에서 실시간으로 렌더링하기에는 너무 느린 경우가 많습니다. 본 연구에서는 새로운 표정을 생성할 수 있는 애니메이션 가능한 고충실도 재조명 가능한 헤드 아바타를 구축하는 방법인 Relightable Gaussian Codec Avatars를 제시합니다. 3D 가우시안을 기반으로 한 우리의 기하학적 모델은 동적 얼굴 시퀀스에서 헤어 스트랜드와 모공과 같은 3D 일관성을 유지하는 서브밀리미터 단위의 세부 사항을 포착할 수 있습니다. 눈, 피부, 헤어와 같은 인간 머리의 다양한 재질을 통합적으로 지원하기 위해, 학습 가능한 방사 전달(learnable radiance transfer)을 기반으로 한 새로운 재조명 가능한 외관 모델을 제시합니다. 확산 성분을 위한 전역 조명 인식 구면 조화 함수(global illumination-aware spherical harmonics)와 함께, 구면 가우시안(spherical Gaussians)을 사용하여 공간적으로 모든 주파수의 반사를 실시간으로 재조명합니다. 이 외관 모델은 점 광원과 연속 조명 하에서 모두 효율적으로 재조명될 수 있습니다. 또한, 재조명 가능한 명시적 눈 모델을 도입하여 눈 반사의 충실도를 향상시키고 명시적인 시선 제어를 가능하게 합니다. 우리의 방법은 실시간 성능을 저해하지 않으면서 기존 접근법을 능가합니다. 또한, 테더링된 소비자용 VR 헤드셋에서 아바타의 실시간 재조명을 시연하여 우리 아바타의 효율성과 충실도를 입증합니다.
본 논문에서는 사전 학습된 플러그 앤 플레이 모듈(예: ControlNet, LoRA)이 추가 재학습 없이도 업그레이드된 텍스트-이미지 확산 모델(예: SDXL)과 직접 호환될 수 있도록 하는 범용 업그레이더인 X-Adapter를 소개한다. 이를 위해, 새로운 텍스트-이미지 데이터 쌍을 사용하여 업그레이드된 모델을 제어할 수 있는 추가 네트워크를 학습시켰다. 구체적으로, X-Adapter는 다양한 플러그인의 연결자를 보존하기 위해 이전 모델의 고정된 복사본을 유지한다. 또한, X-Adapter는 서로 다른 버전의 모델 간 디코더를 연결하여 특징 재매핑을 수행하는 학습 가능한 매핑 레이어를 추가한다. 재매핑된 특징은 업그레이드된 모델에 대한 가이드로 사용된다. X-Adapter의 가이드 능력을 강화하기 위해, 업그레이드된 모델에 대해 널-텍스트(null-text) 학습 전략을 적용하였다. 학습 후에는 X-Adapter와 업그레이드된 모델의 초기 잠재 변수를 정렬하기 위해 두 단계의 노이즈 제거 전략을 도입하였다. 이러한 전략 덕분에 X-Adapter는 다양한 플러그인과의 범용 호환성을 보여주며, 서로 다른 버전의 플러그인이 함께 작동할 수 있도록 하여 확산 모델 커뮤니티의 기능을 확장한다. 제안된 방법의 효과를 검증하기 위해 광범위한 실험을 수행하였으며, 그 결과 X-Adapter가 업그레이드된 기초 확산 모델에서 더 넓은 적용 가능성을 제공할 수 있음을 확인하였다.
멀티모달 대형 언어 모델(MLLMs)은 강력한 멀티모달 이해 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 기존 연구는 주로 모달리티별 인코더에 크게 의존하며, 이러한 인코더들은 일반적으로 아키텍처가 다르고 일반적인 모달리티에만 제한되어 있습니다. 본 논문에서는 통합 프레임워크를 사용하여 8가지 모달리티를 언어와 정렬하는 MLLM인 OneLLM을 제안합니다. 이를 위해 통합 멀티모달 인코더와 점진적 멀티모달 정렬 파이프라인을 활용합니다. 구체적으로, 먼저 비전 인코더와 LLM을 연결하기 위한 이미지 프로젝션 모듈을 학습합니다. 그런 다음, 여러 이미지 프로젝션 모듈과 동적 라우팅을 혼합하여 범용 프로젝션 모듈(UPM)을 구축합니다. 마지막으로, UPM을 사용하여 더 많은 모달리티를 LLM에 점진적으로 정렬합니다. OneLLM의 명령 수행 잠재력을 최대한 활용하기 위해, 이미지, 오디오, 비디오, 포인트 클라우드, 깊이/노멀 맵, IMU 및 fMRI 뇌 활동을 포함한 2백만 개의 항목으로 구성된 포괄적인 멀티모달 명령 데이터셋을 구축했습니다. OneLLM은 멀티모달 캡셔닝, 질문 응답 및 추론과 같은 다양한 작업을 포함한 25개의 벤치마크에서 평가되었으며, 우수한 성능을 보여줍니다. 코드, 데이터, 모델 및 온라인 데모는 https://github.com/csuhan/OneLLM에서 확인할 수 있습니다.
확산 모델(Diffusion Model)은 최근 사실적인 이미지를 생성할 수 있는 능력 덕분에 이미지 합성 분야를 혁신적으로 변화시켰습니다. 그러나 확산 모델의 주요 단점 중 하나는 이미지 생성 과정이 비용이 많이 든다는 점입니다. 무작위 노이즈에서 이미지를 반복적으로 정제하기 위해 대규모 이미지 대 이미지 네트워크를 여러 번 적용해야 합니다. 최근 많은 연구에서 필요한 단계 수를 줄이는 기술을 제안했지만, 이들은 일반적으로 기본 노이즈 제거 네트워크를 블랙박스로 취급합니다. 본 연구에서는 네트워크 내부의 레이어 동작을 조사하여 다음과 같은 사실을 발견했습니다: 1) 레이어의 출력이 시간에 따라 부드럽게 변화하며, 2) 레이어마다 뚜렷한 변화 패턴을 보이고, 3) 단계 간 변화가 매우 작은 경우가 많습니다. 우리는 노이즈 제거 네트워크의 많은 레이어 계산이 중복될 가능성이 있다고 가정합니다. 이를 활용하여, 이전 단계의 레이어 블록 출력을 재사용하여 추론 속도를 높이는 블록 캐싱(Block Caching) 기법을 제안합니다. 또한, 각 블록의 시간 단계별 변화를 기반으로 캐싱 일정을 자동으로 결정하는 기술을 제안합니다. 실험을 통해 FID, 인간 평가 및 정성적 분석을 통해 블록 캐싱이 동일한 계산 비용으로 더 높은 시각적 품질의 이미지를 생성할 수 있음을 보여줍니다. 이를 최신 모델(LDM 및 EMU)과 솔버(DDIM 및 DPM)에 대해 입증합니다.
본 논문에서는 확산 기반 이미지 생성에 일반화된 깊이 조건을 허용하는 LooseControl을 제안한다. 깊이 조건 이미지 생성의 최신 기술(State-of-the-Art, SOTA)인 ControlNet은 놀라운 결과를 생성하지만, 정확한 깊이 지도에 대한 접근이 필요하다. 이러한 정확한 깊이 지도를 생성하는 것은 많은 시나리오에서 어려운 작업이다. 본 논문은 다양한 새로운 콘텐츠 생성 워크플로우를 가능하게 하는 일반화된 깊이 조건 버전을 소개한다. 구체적으로, (C1) 장면 경계 제어를 통해 경계 조건만으로 장면을 대략적으로 지정할 수 있도록 하고, (C2) 3D 박스 제어를 통해 대상 객체의 정확한 형태와 외관이 아닌 레이아웃 위치를 지정할 수 있도록 한다. LooseControl을 사용하면 텍스트 가이던스와 함께 사용자가 장면 경계와 주요 객체의 위치만 지정하여 복잡한 환경(예: 방, 거리 풍경 등)을 생성할 수 있다. 또한, 결과를 세부적으로 수정하기 위한 두 가지 편집 메커니즘을 제공한다: (E1) 3D 박스 편집은 이미지의 스타일을 고정한 상태에서 박스를 변경, 추가 또는 제거함으로써 이미지를 세부적으로 수정할 수 있도록 한다. 이는 편집된 박스로 인한 변화 외에는 최소한의 변화만을 유도한다. (E2) 속성 편집은 장면의 특정 측면, 예를 들어 전체 객체 밀도나 특정 객체를 변경하기 위한 가능한 편집 방향을 제안한다. 다양한 테스트와 베이스라인과의 비교를 통해 본 방법의 일반성을 입증한다. 우리는 LooseControl이 복잡한 환경을 쉽게 생성할 수 있는 중요한 디자인 도구가 될 수 있으며, 다른 형태의 가이던스 채널로 확장될 수 있다고 믿는다. 코드와 추가 정보는 https://shariqfarooq123.github.io/loose-control/에서 확인할 수 있다.
텍스트-이미지 모델의 맞춤화 기술은 이전에는 달성하기 어려웠던 다양한 응용 분야의 길을 열어, 다양한 맥락과 스타일에서 특정 개념을 생성할 수 있게 하였습니다. 기존 방법들은 개별 개념이나 사전 정의된 제한된 개념 집합에 대해 높은 충실도의 맞춤화를 가능하게 하지만, 단일 모델이 무수한 개념을 원활하게 렌더링할 수 있는 확장성을 달성하는 데는 한계가 있습니다. 본 논문에서는 개별 개념에 대해 독립적으로 미세 조정된 맞춤화 모델을 효율적으로 통합하여, 통합된 모델이 하나의 이미지에서 여러 개념을 충실도 저하 없이 추가적인 계산 비용 없이 함께 합성할 수 있도록 하는 새로운 문제인 모듈형 맞춤화(Modular Customization)를 다룹니다. 이 문제를 해결하기 위해, 우리는 직교 적응(Orthogonal Adaptation)이라는 방법을 제안합니다. 이 방법은 미세 조정 과정에서 서로 접근할 수 없는 맞춤화 모델들이 직교 잔차 가중치를 갖도록 유도하여, 추론 시 맞춤화 모델들이 최소한의 간섭으로 합산될 수 있도록 합니다. 우리가 제안한 방법은 단순하면서도 다용도로, 모델 아키텍처에서 최적화 가능한 거의 모든 가중치에 적용할 수 있습니다. 광범위한 정량적 및 정성적 평가를 통해, 우리의 방법은 효율성과 정체성 보존 측면에서 관련 기준선을 일관되게 능가하며, 확산 모델의 확장 가능한 맞춤화를 향한 중요한 도약을 보여줍니다.
비디오의 시각적 콘텐츠 편집은 여전히 두 가지 주요 문제로 인해 어려운 과제로 남아 있습니다: 1) 사용자가 직접적이고 쉽게 제어할 수 있어야 하며, 2) 형태, 표정, 레이아웃을 변경한 후에도 자연스러운 편집 결과를 얻어야 하며, 눈에 띄는 왜곡이나 아티팩트가 없어야 합니다. 최근 이미지 기반 드래그 스타일 편집 기술인 DragGAN에서 영감을 받아, 우리는 DragVideo를 제안하여 위의 문제를 해결하고자 합니다. DragVideo는 비디오 콘텐츠를 편집하면서도 시간적 일관성을 유지하기 위해 유사한 드래그 스타일 사용자 상호작용을 채택합니다. DragDiffusion에서와 같이 최신 확산 모델을 활용한 DragVideo는 새로운 Drag-on-Video U-Net (DoVe) 편집 방법을 포함하며, 이 방법은 비디오 U-Net에 의해 생성된 확산된 잠재 공간을 최적화하여 원하는 제어를 달성합니다. 구체적으로, 우리는 DoVe 방법으로부터 비디오의 충실한 재구성을 보장하기 위해 샘플별 LoRA 미세 조정과 상호 자기 주의 제어를 사용합니다. 또한, 우리는 드래그 스타일 비디오 편집을 위한 일련의 테스트 예제를 제시하고, 모션 편집, 스켈레톤 편집 등 다양한 도전적인 편집 작업에 걸쳐 광범위한 실험을 수행하여 DragVideo의 다용도성과 일반성을 강조합니다. DragVideo 웹 사용자 인터페이스를 포함한 우리의 코드는 공개될 예정입니다.
이 시대에 대규모 언어 모델과 텍스트-이미지 모델의 성공은 대규모 데이터셋의 원동력에 기인할 수 있습니다. 그러나 3D 비전 분야에서는 Objaverse와 MVImgNet과 같은 대규모 합성 및 실제 촬영된 객체 데이터로 훈련된 모델에서 놀라운 진전이 있었음에도 불구하고, 대규모 인간 중심 데이터셋의 부족으로 인해 인간 중심 작업 영역에서는 유사한 수준의 진전이 관찰되지 않았습니다. 고품질 3D 인간 데이터를 대규모로 획득하는 데 상당한 어려움이 있기 때문에, 고해상도 3D 인간 캡처 데이터셋은 여전히 중간 규모에 머물러 있습니다. 이러한 격차를 해소하기 위해, 우리는 4,500명의 인간 신원을 포함한 다중 시점 인간 동작 시퀀스로 구성된 MVHumanNet 데이터셋을 제시합니다. 우리 작업의 주요 초점은 다중 시점 인간 캡처 시스템을 사용하여 다양한 신원과 일상적인 의상을 특징으로 하는 인간 데이터를 수집하는 데 있으며, 이는 쉽게 확장 가능한 데이터 수집을 가능하게 합니다. 우리의 데이터셋은 9,000개의 일상 복장, 60,000개의 동작 시퀀스 및 6억 4,500만 프레임을 포함하며, 인간 마스크, 카메라 파라미터, 2D 및 3D 키포인트, SMPL/SMPLX 파라미터, 그리고 해당 텍스트 설명과 같은 광범위한 주석을 제공합니다. MVHumanNet의 잠재력을 다양한 2D 및 3D 비전 작업에서 탐구하기 위해, 우리는 시점 일관성 동작 인식, 인간 NeRF 재구성, 텍스트 기반 시점 제약 없는 인간 이미지 생성, 그리고 2D 시점 제약 없는 인간 이미지 및 3D 아바타 생성에 대한 파일럿 연구를 수행했습니다. 광범위한 실험은 MVHumanNet이 제공하는 규모로 인한 성능 향상과 효과적인 응용을 입증합니다. 현재 가장 큰 규모의 3D 인간 데이터셋으로서, 우리는 MVHumanNet 데이터와 주석의 공개가 대규모 3D 인간 중심 작업 영역에서의 추가 혁신을 촉진하기를 바랍니다.
에이전트 기반 모델링(Agent-based modeling, ABM)은 수십 년 동안 존재해 왔으며, 사회과학과 자연과학 전반에 걸쳐 널리 적용되어 왔다. 이 연구 방법의 범위는 이제 대형 언어 모델(Large Language Models, LLM)이 제공하는 새로운 가능성을 흡수함에 따라 급격히 확장될 준비가 되어 있다. 생성적 에이전트 기반 모델(Generative Agent-Based Models, GABM)은 단순히 에이전트들이 서로 대화하는 고전적인 ABM이 아니다. 오히려 GABM은 LLM을 사용하여 상황에 상식을 적용하고, "합리적으로" 행동하며, 일반적인 의미론적 지식을 회상하고, 앱과 같은 디지털 기술을 제어하기 위한 API 호출을 생성하며, 시뮬레이션 내부와 외부에서 이를 관찰하는 연구자들과 소통한다. 여기서 우리는 GABM을 구성하고 작업하는 데 도움을 주는 라이브러리인 Concordia를 소개한다. Concordia는 물리적 또는 디지털 기반 환경의 언어 매개 시뮬레이션을 쉽게 구성할 수 있게 한다. Concordia의 에이전트들은 두 가지 기본 작업인 LLM 호출과 연관 메모리 검색 사이를 중재하는 유연한 구성 요소 시스템을 사용하여 행동을 생성한다. 테이블탑 롤플레잉 게임에서 영감을 받은 게임 마스터(Game Master, GM)라는 특별한 에이전트는 에이전트들이 상호작용하는 환경을 시뮬레이션하는 역할을 맡는다. 에이전트들은 자연어로 자신들이 하고 싶은 행동을 설명함으로써 행동을 취한다. 그러면 GM은 그들의 행동을 적절한 구현으로 변환한다. 시뮬레이션된 물리적 세계에서 GM은 에이전트 행동의 물리적 타당성을 확인하고 그 효과를 설명한다. 앱과 서비스와 같은 기술을 시뮬레이션하는 디지털 환경에서 GM은 일반 AI 어시스턴트(예: Bard, ChatGPT) 및 디지털 앱(예: 캘린더, 이메일, 검색 등)과 같은 외부 도구와 통합하기 위해 API 호출을 처리할 수 있다. Concordia는 과학 연구에서의 다양한 응용 프로그램과 실제 디지털 서비스의 성능을 평가하기 위해 사용자를 시뮬레이션하거나 합성 데이터를 생성하는 데 사용될 수 있도록 설계되었다.
Neural Radiance Fields(NeRFs)와 같은 3D 재구성 방법은 복잡한 장면의 사실적인 새로운 시점 렌더링에 뛰어난 성능을 보입니다. 그러나 고품질 NeRF를 복원하기 위해서는 일반적으로 수십에서 수백 장의 입력 이미지가 필요하며, 이는 시간이 많이 소요되는 캡처 과정을 수반합니다. 본 논문에서는 단 몇 장의 사진만으로 실세계 장면을 재구성하는 ReconFusion을 제안합니다. 우리의 접근 방식은 합성 데이터 및 다중 시점 데이터셋으로 학습된 확산 모델(diffusion prior)을 활용하여, 입력 이미지 세트에서 캡처되지 않은 새로운 카메라 포즈에서 NeRF 기반 3D 재구성 파이프라인을 정규화합니다. 이 방법은 관찰된 영역의 외관을 보존하면서도 제약이 적은 영역에서 사실적인 기하학적 구조와 텍스처를 합성합니다. 우리는 전방 시점 및 360도 장면을 포함한 다양한 실세계 데이터셋에 대해 광범위한 평가를 수행하며, 기존의 소수 시점 NeRF 재구성 접근법 대비 상당한 성능 향상을 입증합니다.
우리는 실제 이미지에서 물체의 거칠기, 금속성, 알베도, 투명도와 같은 재질 속성을 제어하는 방법을 제안한다. 본 방법은 사실적인 이미지 생성으로 잘 알려진 텍스트-이미지 모델의 생성적 사전 지식을 활용하여, 스칼라 값과 지시문을 통해 저수준 재질 속성을 변경한다. 제어된 재질 속성을 가진 데이터셋의 부재를 해결하기 위해, 물리 기반 재질을 적용한 객체 중심의 합성 데이터셋을 생성하였다. 이 합성 데이터셋으로 수정된 사전 학습 텍스트-이미지 모델을 미세 조정함으로써, 실제 이미지에서 다른 모든 속성을 보존하면서 재질 속성을 편집할 수 있다. 우리는 재질 편집이 적용된 NeRF에 대한 본 모델의 잠재적 응용 가능성을 보여준다.
최근 텍스트 기반 모션 생성 분야에서 상당한 진전이 이루어져, 텍스트 설명에 부합하는 다양하고 고품질의 인간 모션을 생성할 수 있게 되었다. 그러나 상세한 텍스트 설명으로 주석이 달린 데이터셋의 부족으로 인해 세분화되거나 스타일화된 모션을 생성하는 것은 여전히 어려운 과제로 남아 있다. 분할 정복 전략을 채택하여, 우리는 인간 모션 생성을 위한 새로운 프레임워크인 세분화된 인간 모션 확산 모델(Fine-Grained Human Motion Diffusion Model, FG-MDM)을 제안한다. 구체적으로, 우리는 먼저 대규모 언어 모델(GPT-3.5)을 활용하여 이전의 모호한 텍스트 주석을 신체 부위별로 세분화된 설명으로 파싱한다. 그런 다음 이러한 세분화된 설명을 사용하여 트랜스포머 기반 확산 모델을 안내한다. FG-MDM은 훈련 데이터 분포를 벗어난 상황에서도 세분화되고 스타일화된 모션을 생성할 수 있다. 우리의 실험 결과는 FG-MDM이 이전 방법들에 비해 우수함을 보여주며, 특히 강력한 일반화 능력을 입증한다. 우리는 HumanML3D와 KIT에 대한 세분화된 텍스트 주석을 공개할 예정이다.
우리의 시각 세계에 대한 이해는 다양한 개념 축을 중심으로 이루어지며, 이는 시각적 개체의 다양한 측면을 특징짓습니다. 서로 다른 개념 축은 언어를 통해 쉽게 명시될 수 있지만(예: 색상), 각 축을 따라 존재하는 정확한 시각적 뉘앙스는 종종 언어적 표현의 한계를 초과합니다(예: 특정한 그림 스타일). 본 연구에서는 대규모로 사전 학습된 시각-언어 모델을 단순히 증류함으로써, 언어 정보를 반영한 시각적 개념 표현을 학습하는 것을 목표로 합니다. 구체적으로, 우리는 사전 학습된 텍스트-이미지(T2I) 모델을 통해 입력 이미지를 재구성하는 목표로, 언어 정보를 반영한 개념 축 집합과 관련된 정보를 인코딩하기 위해 일련의 개념 인코더를 학습합니다. 서로 다른 개념 인코더 간의 더 나은 분리를 촉진하기 위해, 우리는 사전 학습된 시각 질의 응답(VQA) 모델에서 얻은 텍스트 임베딩 집합에 개념 임베딩을 고정합니다. 추론 시, 모델은 새로운 테스트 이미지로부터 다양한 축을 따라 개념 임베딩을 추출하며, 이를 재조합하여 새로운 시각적 개념 조합을 가진 이미지를 생성할 수 있습니다. 경량화된 테스트 시점 미세 조정 절차를 통해, 학습 시 보지 못한 새로운 개념으로도 일반화할 수 있습니다.
가상 비서와의 상호작용은 일반적으로 트리거 구문과 이어지는 명령으로 시작됩니다. 본 연구에서는 이러한 상호작용을 더 자연스럽게 만들기 위해 트리거 구문의 필요성을 제거하는 가능성을 탐구합니다. 우리의 목표는 디바이스 마이크로 녹음된 스트리밍 오디오에서 얻은 신호를 기반으로 사용자가 가상 비서에게 말을 건네는지 여부를 판단하는 것입니다. 이 작업을 위해 자동 음성 인식 시스템의 1-최적 가설(1-best hypotheses)과 디코더 신호를 오디오 인코더의 음향 표현과 결합하여 대형 언어 모델(LLM)의 입력 특징으로 사용합니다. 특히, 소량의 학습 데이터만 필요로 하고 디바이스에서 고정된 단일 LLM만 사용 가능한 시나리오에서도 작동할 수 있는 데이터 및 자원 효율적인 시스템에 관심이 있습니다. 이러한 이유로, 우리의 모델은 저순위 적응(low-rank adaptation)과 프리픽스 튜닝(prefix tuning)을 결합하여 80,000개 이하의 다중 모드 데이터 예제로 학습됩니다. 제안된 시스템을 단일 모드 베이스라인과 비교하여 다중 모드 접근 방식이 더 낮은 등위 오류율(EER)을 달성하면서도 훈련 데이터의 일부만 사용함을 보여줍니다. 또한, 저차원의 특화된 오디오 표현이 고차원의 일반 오디오 표현보다 더 낮은 EER을 이끌어냄을 보여줍니다.