번역이 포함된 일일 선별된 AI 연구 논문
대규모 텍스트 데이터 코퍼스에 대한 대형 언어 모델(LLM)의 사전 학습은 이제 표준 패러다임이 되었습니다. 이러한 LLM을 다양한 다운스트림 애플리케이션에 사용할 때, 시간에 민감한 뉴스나 특정 도메인 지식과 같은 새로운 지식을 사전 학습된 모델에 추가로 통합하는 것이 일반적입니다. 이는 RAG 기반 프롬프팅이나 미세 조정을 통해 이루어질 수 있습니다. 그러나 모델이 이러한 새로운 지식을 습득하기 위한 최적의 방법론은 여전히 미해결 문제로 남아 있습니다. 본 논문에서는 "오픈북" 방식의 도메인 내 설정에서 질문에 답변하는 모델의 능력을 향상시키는 훈련 방법인 Retrieval Augmented FineTuning(RAFT)을 제안합니다. RAFT에서는 질문과 함께 검색된 문서 집합이 주어졌을 때, 모델이 질문에 답변하는 데 도움이 되지 않는 문서(이를 '방해 문서'라고 함)를 무시하도록 훈련시킵니다. RAFT는 이를 위해 관련 문서에서 질문에 답변하는 데 도움이 되는 정확한 문구를 인용하는 방식으로 이를 달성합니다. 이는 RAFT의 사고 연쇄(chain-of-thought) 스타일 응답과 결합되어 모델의 추론 능력을 향상시킵니다. 도메인 특화 RAG에서 RAFT는 PubMed, HotpotQA, Gorilla 데이터셋에서 모델의 성능을 지속적으로 개선하며, 사전 학습된 LLM을 도메인 내 RAG에 적합하게 개선하는 사후 훈련 방법을 제시합니다. RAFT의 코드와 데모는 github.com/ShishirPatil/gorilla에서 오픈소스로 제공됩니다.
과학 연구 및 그 응용 분야에서 과학 문헌 분석은 연구자들이 다른 사람들의 연구를 기반으로 작업을 진행할 수 있게 해주는 중요한 과정입니다. 그러나 과학 지식의 급속한 성장은 학술 논문의 방대한 증가를 초래했으며, 이로 인해 심층적인 문헌 분석은 점점 더 어려워지고 시간이 많이 소요되는 작업이 되었습니다. 대형 언어 모델(Large Language Models, LLMs)의 등장은 이러한 문제를 해결할 수 있는 새로운 방법을 제공했습니다. 텍스트 요약에 강력한 능력을 보이는 LLMs는 과학 문헌 분석을 개선할 수 있는 잠재적 도구로 여겨집니다. 그러나 기존의 LLMs는 한계를 가지고 있습니다. 과학 문헌은 종종 분자 구조, 표, 차트 등 다양한 다중 모드 요소를 포함하고 있으며, 이러한 요소들은 텍스트 중심의 LLMs가 이해하고 분석하기 어려운 부분입니다. 이 문제는 과학 문헌 내 다중 모드 콘텐츠를 완전히 이해하고 분석할 수 있는 새로운 솔루션의 필요성을 강조합니다. 이러한 요구에 부응하기 위해, 우리는 다중 모드 과학 문헌의 심층적 이해를 위해 설계된 혁신적인 모델인 Uni-SMART(Universal Science Multimodal Analysis and Research Transformer)를 제안합니다. 여러 분야에 걸친 엄격한 정량적 평가를 통해 Uni-SMART는 주요 텍스트 중심 LLMs를 능가하는 우수한 성능을 입증했습니다. 더 나아가, 우리의 탐구는 특허 침해 탐지 및 차트의 미묘한 분석을 포함한 실용적인 응용 분야로 확장됩니다. 이러한 응용은 Uni-SMART의 적응성뿐만 아니라 과학 문헌과 상호작용하는 방식을 혁신할 수 있는 잠재력을 강조합니다.
장편 비디오 이해는 컴퓨터 비전 분야에서 중요한 도전 과제로, 긴 다중 모달 시퀀스에 대해 추론할 수 있는 모델을 요구합니다. 인간의 장편 비디오 이해를 위한 인지 과정에 영감을 받아, 우리는 긴 시각적 입력을 처리하는 능력보다 상호작용적 추론과 계획에 중점을 둡니다. 우리는 새로운 에이전트 기반 시스템인 VideoAgent를 소개합니다. 이 시스템은 대형 언어 모델을 중심 에이전트로 활용하여 질문에 답하기 위해 반복적으로 중요한 정보를 식별하고 수집하며, 비전-언어 기반 모델을 시각적 정보를 번역하고 검색하는 도구로 사용합니다. 도전적인 EgoSchema와 NExT-QA 벤치마크에서 평가된 결과, VideoAgent는 평균 8.4개와 8.2개의 프레임만 사용하여 각각 54.1%와 71.3%의 제로샷 정확도를 달성했습니다. 이러한 결과는 우리의 방법이 현재 최첨단 방법들보다 우수한 효과성과 효율성을 보여주며, 에이전트 기반 접근 방식이 장편 비디오 이해를 발전시키는 데 있어 잠재력을 강조합니다.
대규모 언어 모델의 정렬(alignment)은 일반적으로 모델 제공자가 다양한 사용 사례와 상황에서 공통적이거나 보편적으로 이해되는 행동을 추가하거나 제어하기 위해 수행됩니다. 이와 대조적으로, 본 논문에서는 애플리케이션 개발자가 특정 가치, 사회적 규범, 법률 및 기타 규정에 맞게 모델을 조정하고, 상황에 따라 잠재적으로 상충되는 요구 사항을 조율할 수 있는 접근 방식과 아키텍처를 제시합니다. 우리는 이러한 '정렬 스튜디오(Alignment Studio)' 아키텍처의 세 가지 주요 구성 요소인 프레이머(Framers), 인스트럭터(Instructors), 그리고 감사관(Auditors)을 제안하며, 이들이 협력하여 언어 모델의 행동을 제어하는 방식을 설명합니다. 이 접근법을 기업의 내부용 엔터프라이즈 챗봇을 해당 기업의 비즈니스 행동 지침에 맞게 정렬하는 실행 예시를 통해 설명합니다.
본 논문에서는 대규모 언어 모델 서빙 효율성을 향상시키기 위한 개선된 스펙티브 디코딩 접근법을 소개합니다. 우리의 방법은 기존의 두 가지 기술, 즉 고전적인 이중 모델 스펙티브 디코딩 접근법과 최근의 단일 모델 접근법인 Medusa의 장점을 활용합니다. Medusa에서 영감을 받아, 우리의 접근법은 단일 모델 전략을 스펙티브 디코딩에 적용합니다. 그러나 우리의 방법은 경량화된 단일 드래프트 헤드를 사용하며, 순환 의존성 설계를 채택한다는 점에서 차별화됩니다. 이는 고전적인 스펙티브 디코딩에서 사용되는 소형 드래프트 모델과 유사하지만, 전체 트랜스포머 아키텍처의 복잡성을 피합니다. 또한 순환 의존성 덕분에, 우리는 드래프트 헤드를 사용하여 원치 않는 후보들을 빠르게 걸러내는 빔 서치를 활용할 수 있습니다. 결과적으로, 이 방법은 단일 모델 설계의 단순성을 유지하면서도 Medusa에서 추론을 위해 데이터 의존적 트리 어텐션 구조를 생성할 필요를 피합니다. 우리는 여러 인기 있는 오픈 소스 언어 모델에서 제안된 방법의 효과를 실증적으로 입증하고, 이 접근법을 채택함에 따른 트레이드오프에 대한 포괄적인 분석을 제공합니다.
디퓨전 기반 오디오 및 음악 생성 모델은 일반적으로 오디오의 이미지 표현(예: 멜-스펙트로그램)을 구성한 후 위상 재구성 모델 또는 보코더를 사용하여 이를 오디오로 변환함으로써 음악을 생성합니다. 그러나 일반적인 보코더는 낮은 해상도(예: 16-24 kHz)에서 모노포닉 오디오를 생성하므로 그 효과가 제한적입니다. 우리는 MusicHiFi라는 효율적인 고충실도 스테레오포닉 보코더를 제안합니다. 우리의 방법은 낮은 해상도의 멜-스펙트로그램을 오디오로 변환하고, 대역폭 확장을 통해 고해상도 오디오로 업샘플링하며, 스테레오포닉 오디오로 업믹스하는 세 개의 생성적 적대 신경망(GAN) 캐스케이드를 사용합니다. 기존 연구와 비교하여, 우리는 1) 캐스케이드의 각 단계를 위한 통합된 GAN 기반 생성기 및 판별기 아키텍처와 훈련 절차, 2) 새로운 빠르고 다운샘플링과 호환 가능한 대역폭 확장 모듈, 3) 출력에서 모노포닉 콘텐츠의 보존을 보장하는 새로운 빠른 다운믹스 호환 모노-투-스테레오 업믹서를 제안합니다. 우리는 객관적 및 주관적 청취 테스트를 통해 우리의 접근 방식을 평가하고, 기존 연구와 비교하여 비슷하거나 더 나은 오디오 품질, 더 나은 공간화 제어, 그리고 상당히 빠른 추론 속도를 얻음을 확인했습니다. 사운드 예제는 https://MusicHiFi.github.io/web/에서 확인할 수 있습니다.
단일 시점 이미지로부터 세부적인 3D 객체를 재구성하는 것은 사용 가능한 정보가 제한적이기 때문에 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 단일 이미지 3D 재구성을 위한 새로운 2단계 프레임워크인 FDGaussian을 소개합니다. 최근의 방법들은 일반적으로 사전 훈련된 2D 확산 모델을 사용하여 입력 이미지에서 그럴듯한 새로운 시점을 생성하지만, 다중 시점 간 불일치 또는 기하학적 충실도 부족 문제에 직면합니다. 이러한 문제를 극복하기 위해, 우리는 2D 입력에서 3D 기하학적 특징을 추출하기 위한 직교 평면 분해 메커니즘을 제안하여 일관된 다중 시점 이미지 생성을 가능하게 합니다. 더 나아가, 우리는 에피폴라 어텐션을 통합하여 최신 Gaussian Splatting 기술을 가속화하여 다양한 시점의 이미지를 융합합니다. FDGaussian은 다양한 시점 간 높은 일관성을 가진 이미지를 생성하고, 질적 및 양적으로 고품질의 3D 객체를 재구성함을 입증합니다. 더 많은 예시는 우리의 웹사이트 https://qjfeng.net/FDGaussian/에서 확인할 수 있습니다.
경량 모델 개발에 대한 기존의 노력은 주로 CNN과 Transformer 기반 설계에 초점을 맞췄지만 지속적인 어려움에 직면했습니다. CNN은 지역적 특징 추출에 능숙하지만 해상도를 희생시키는 반면, Transformer는 전역적 접근성을 제공하지만 계산 복잡도가 O(N^2)로 증가합니다. 이러한 정확도와 효율성 간의 지속적인 트레이드오프는 여전히 중요한 장애물로 남아 있습니다. 최근, Mamba와 같은 상태 공간 모델(SSM)이 언어 모델링 및 컴퓨터 비전과 같은 다양한 작업에서 뛰어난 성능과 경쟁력을 보여주며, 전역 정보 추출의 시간 복잡도를 O(N)으로 줄였습니다. 이를 영감으로, 본 연구는 시각적 상태 공간 모델의 잠재력을 경량 모델 설계에서 탐구하고 EfficientVMamba라는 새로운 효율적인 모델 변형을 소개합니다. 구체적으로, EfficientVMamba는 효율적인 스킵 샘플링을 통해 atrous 기반 선택적 스캔 접근법을 통합하여 전역 및 지역적 표현 특징을 모두 활용하도록 설계된 빌딩 블록을 구성합니다. 또한, SSM 블록과 컨볼루션의 통합을 연구하고, 추가 컨볼루션 브랜치와 결합된 효율적인 시각적 상태 공간 블록을 도입하여 모델 성능을 더욱 향상시킵니다. 실험 결과, EfficientVMamba는 계산 복잡도를 줄이면서 다양한 비전 작업에서 경쟁력 있는 결과를 보여줍니다. 예를 들어, 1.3G FLOPs의 EfficientVMamba-S는 1.5G FLOPs의 Vim-Ti보다 ImageNet에서 5.6%의 정확도로 큰 차이를 보입니다. 코드는 https://github.com/TerryPei/EfficientVMamba에서 확인할 수 있습니다.
사전 학습된 2D 확산 모델의 점진적인 활용 가능성에 고무되어, Score Distillation Sampling(SDS)을 활용한 이미지-3D 생성은 놀라운 진전을 이루고 있습니다. 대부분의 기존 방법들은 참조 이미지를 조건으로 사용하는 2D 확산 모델로부터의 새로운 시점 리프팅을 결합하면서 참조 시점에서 엄격한 L2 이미지 감독을 적용합니다. 그러나 이미지에 지나치게 의존하는 것은 2D 확산 모델의 귀납적 지식을 손상시켜 종종 평평하거나 왜곡된 3D 생성으로 이어질 수 있습니다. 본 연구에서는 이미지-3D 생성을 새로운 관점에서 재검토하고, 단일 이미지 CLIP 임베딩만을 입력으로 받는 이미지-3D 생성 파이프라인인 Isotropic3D를 제안합니다. Isotropic3D는 SDS 손실에만 의존함으로써 방위각에 대해 등방성 최적화를 가능하게 합니다. 우리 프레임워크의 핵심은 두 단계의 확산 모델 미세 조정에 있습니다. 먼저, 텍스트 인코더를 이미지 인코더로 대체하여 텍스트-3D 확산 모델을 미세 조정함으로써 모델이 이미지-이미지 변환 능력을 예비적으로 획득합니다. 두 번째로, 노이즈가 없는 참조 이미지를 명시적 조건으로 사용하여 노이즈가 있는 다중 시점 이미지와 결합하는 Explicit Multi-view Attention(EMA)을 사용하여 미세 조정을 수행합니다. CLIP 임베딩은 전체 과정 동안 확산 모델에 전송되며, 참조 이미지는 미세 조정 후 폐기됩니다. 결과적으로, 단일 이미지 CLIP 임베딩만으로 Isotropic3D는 상호 일관된 다중 시점 이미지와 더 대칭적이고 깔끔한 콘텐츠, 균형 잡힌 기하학, 풍부한 색상 질감, 그리고 왜곡이 적은 3D 모델을 생성할 수 있으며, 여전히 참조 이미지와의 유사성을 크게 유지합니다. 프로젝트 페이지는 https://isotropic3d.github.io/에서 확인할 수 있으며, 코드와 모델은 https://github.com/pkunliu/Isotropic3D에서 이용 가능합니다.
텍스트-3D 및 이미지-3D 생성 작업은 상당한 관심을 받아왔지만, 이 둘 사이에서 중요한데도 불구하고 충분히 탐구되지 않은 분야는 제어 가능한 텍스트-3D 생성입니다. 본 연구에서는 이 작업에 주목합니다. 이를 해결하기 위해, 1) 우리는 Multi-view ControlNet(MVControl)이라는 새로운 신경망 아키텍처를 소개합니다. 이 아키텍처는 기존에 사전 학습된 멀티뷰 확산 모델을 개선하기 위해 에지, 깊이, 노멀, 스크리블 맵과 같은 추가 입력 조건을 통합하도록 설계되었습니다. 우리의 혁신은 입력 조건 이미지와 카메라 포즈로부터 계산된 로컬 및 글로벌 임베딩을 사용하여 기본 확산 모델을 제어하는 조건화 모듈의 도입에 있습니다. 학습이 완료되면, MVControl은 최적화 기반 3D 생성을 위한 3D 확산 가이던스를 제공할 수 있습니다. 그리고 2) 우리는 최근의 대규모 재구성 모델과 점수 증류 알고리즘의 이점을 활용하는 효율적인 다단계 3D 생성 파이프라인을 제안합니다. MVControl 아키텍처를 기반으로, 우리는 최적화 과정을 지시하기 위해 독특한 하이브리드 확산 가이던스 방법을 사용합니다. 효율성을 추구하기 위해, 우리는 일반적으로 사용되는 암묵적 표현 대신 3D 가우시안을 표현으로 채택합니다. 또한, 우리는 가우시안을 메시 삼각형 면에 결합하는 하이브리드 표현인 SuGaR의 사용을 선구적으로 도입합니다. 이 접근법은 3D 가우시안에서의 불량한 기하학적 문제를 완화하고 메시 상에서 세밀한 기하학적 구조를 직접 조각할 수 있게 합니다. 광범위한 실험을 통해 우리의 방법이 강력한 일반화를 달성하고 고품질 3D 콘텐츠의 제어 가능한 생성을 가능하게 함을 입증합니다.
실시간 고정밀 광학 흐름(optical flow) 추정은 로봇 공학의 위치 추정 및 매핑, 컴퓨터 비전의 객체 추적 및 활동 인식 등 다양한 응용 분야에서 중요한 구성 요소입니다. 최근 학습 기반 광학 흐름 방법들은 높은 정확도를 달성했지만, 종종 높은 계산 비용이 수반됩니다. 본 논문에서는 높은 정확도와 계산 비용 문제를 동시에 해결하는 고효율 광학 흐름 아키텍처인 NeuFlow를 제안합니다. 이 아키텍처는 전역에서 지역으로 이어지는 방식(global-to-local scheme)을 따릅니다. 서로 다른 공간 해상도에서 추출된 입력 이미지의 특징을 기반으로, 1/16 해상도에서 대규모 변위를 포착하는 초기 광학 흐름을 추정하기 위해 전역 매칭(global matching)을 사용하며, 이후 1/8 해상도에서 경량 CNN 레이어를 통해 정확도를 더욱 개선합니다. 우리는 Jetson Orin Nano와 RTX 2080에서 이 접근 방식을 평가하여 다양한 컴퓨팅 플랫폼에서의 효율성 개선을 입증했습니다. 여러 최신 방법들과 비교하여 10배에서 80배에 달하는 속도 향상을 달성하면서도 비슷한 정확도를 유지했습니다. 우리의 접근 방식은 에지 컴퓨팅 플랫폼에서 약 30 FPS를 달성하며, 이는 드론과 같은 소형 로봇에 SLAM과 같은 복잡한 컴퓨터 비전 작업을 배포하는 데 있어 중요한 돌파구를 나타냅니다. 전체 학습 및 평가 코드는 https://github.com/neufieldrobotics/NeuFlow에서 확인할 수 있습니다.