번역이 포함된 일일 선별된 AI 연구 논문
우리는 컴퓨터 비전(CV) 애플리케이션을 위한 높은 이미지 처리량에 초점을 맞춘 새로운 하이브리드 CNN-ViT 신경망 패밀리인 FasterViT를 설계했습니다. FasterViT는 CNN의 빠른 지역적 표현 학습과 ViT의 전역적 모델링 특성의 장점을 결합합니다. 우리가 새롭게 도입한 계층적 어텐션(Hierarchical Attention, HAT) 접근법은 2차 복잡도를 가진 전역적 자기 어텐션을 계산 비용이 감소된 다단계 어텐션으로 분해합니다. 우리는 효율적인 윈도우 기반 자기 어텐션의 이점을 활용합니다. 각 윈도우는 지역적 및 전역적 표현 학습에 참여하는 전용 캐리어 토큰에 접근할 수 있습니다. 상위 수준에서, 전역적 자기 어텐션은 더 낮은 비용으로 효율적인 윈도우 간 통신을 가능하게 합니다. FasterViT는 정확도 대비 이미지 처리량 측면에서 SOTA 파레토 프론트를 달성했습니다. 우리는 분류, 객체 탐지 및 세그멘테이션을 포함한 다양한 CV 작업에서 그 효과를 광범위하게 검증했습니다. 또한 HAT가 기존 네트워크에 플러그 앤 플레이 모듈로 사용될 수 있고 이를 향상시킬 수 있음을 보여줍니다. 우리는 고해상도 이미지에 대해 경쟁사 대비 훨씬 빠르고 정확한 성능을 추가로 입증했습니다. 코드는 https://github.com/NVlabs/FasterViT에서 확인할 수 있습니다.
훈련 알고리즘은 넓은 의미에서 모든 딥러닝 파이프라인의 필수적인 부분입니다. 다양한 작업 부하에서 훈련 속도를 향상시키는 훈련 알고리즘 개선(예: 더 나은 업데이트 규칙, 튜닝 프로토콜, 학습률 스케줄링, 데이터 선택 방식 등)은 시간을 절약하고, 계산 자원을 절약하며, 더 나은 정확도의 모델을 이끌어낼 수 있습니다. 그러나 현재로서는 커뮤니티가 훈련 알고리즘 개선을 신뢰성 있게 식별하거나 최신 기술 수준의 훈련 알고리즘을 결정할 수 없는 상황입니다. 본 연구에서는 구체적인 실험을 통해, 훈련 속도 향상을 위한 진정한 진전은 훈련 알고리즘의 경험적 비교가 직면한 세 가지 기본적인 문제를 해결하는 새로운 벤치마크가 필요함을 주장합니다: (1) 훈련이 완료되었음을 결정하고 훈련 시간을 정확히 측정하는 방법, (2) 측정값이 작업 부하의 세부 사항에 민감하게 반응하는 문제를 처리하는 방법, (3) 하이퍼파라미터 튜닝이 필요한 알고리즘을 공정하게 비교하는 방법. 이러한 문제를 해결하기 위해, 고정된 하드웨어에서 여러 작업 부하를 실행하는 새로운 경쟁적 시간-결과 벤치마크인 'AlgoPerf: 훈련 알고리즘 벤치마크'를 소개합니다. 이 벤치마크는 작업 부하 변화에 대해 현재 널리 사용되는 방법보다 더 강건한 벤치마크 제출물을 감지할 수 있도록 하는 작업 부하 변형 세트를 포함합니다. 마지막으로, 현재 관행을 대표하는 다양한 최적화 기법을 사용하여 구성한 베이스라인 제출물과 최근 문헌에서 주목받은 다른 최적화 기법을 평가합니다. 이러한 베이스라인 결과는 벤치마크의 실현 가능성을 입증하고, 방법 간에 사소하지 않은 차이가 존재함을 보여주며, 향후 벤치마크 제출물이 시도하고 넘어설 수 있는 임시적인 최신 기술 수준을 설정합니다.
대규모 텍스트-이미지 확산 모델은 텍스트 프롬프트에서 사실적인 이미지를 생성하는 데 있어 인상적인 능력을 보여줍니다. 이러한 강력한 모델을 효과적으로 안내하거나 제어하여 다양한 하위 작업을 수행하도록 만드는 방법은 중요한 미해결 문제로 대두되고 있습니다. 이 문제를 해결하기 위해, 우리는 텍스트-이미지 확산 모델을 하위 작업에 적응시키기 위한 원칙적인 미세 조정 방법인 직교 미세 조정(Orthogonal Finetuning, OFT)을 소개합니다. 기존 방법과 달리, OFT는 단위 초구(unit hypersphere) 상에서 뉴런 간의 쌍별 관계를 특징짓는 초구 에너지(hyperspherical energy)를 이론적으로 보존할 수 있습니다. 우리는 이 특성이 텍스트-이미지 확산 모델의 의미 생성 능력을 보존하는 데 중요하다는 것을 발견했습니다. 미세 조정의 안정성을 더욱 향상시키기 위해, 우리는 초구에 추가적인 반경 제약을 부과하는 제약 직교 미세 조정(Constrained Orthogonal Finetuning, COFT)을 제안합니다. 구체적으로, 우리는 두 가지 중요한 텍스트-이미지 미세 조정 작업을 고려합니다: 주체 기반 생성(subject-driven generation)은 주체의 몇 장의 이미지와 텍스트 프롬프트가 주어졌을 때 주체 특정 이미지를 생성하는 것이 목표이며, 제어 가능 생성(controllable generation)은 모델이 추가적인 제어 신호를 받아들일 수 있도록 만드는 것이 목표입니다. 우리는 실험적으로 OFT 프레임워크가 생성 품질과 수렴 속도에서 기존 방법들을 능가한다는 것을 보여줍니다.
기존의 대형 언어 모델(LLM)은 입력 길이 제한으로 인해 고정된 크기의 입력만 처리할 수 있어, 과거 입력에서 제공되는 풍부한 장문맥 정보를 활용하지 못하는 한계가 있습니다. 이를 해결하기 위해, 우리는 LLM이 장기 기억을 저장할 수 있도록 하는 '장기 기억을 강화한 언어 모델(LongMem)' 프레임워크를 제안합니다. 우리는 원본 백본 LLM을 메모리 인코더로 고정하고, 적응형 잔차 사이드 네트워크를 메모리 검색기 및 리더로 사용하는 새로운 디커플링된 네트워크 아키텍처를 설계했습니다. 이러한 디커플링된 메모리 설계는 메모리 부실 문제 없이 장기간의 과거 문맥을 쉽게 캐시하고 업데이트할 수 있습니다. 메모리 강화 적응 훈련을 통해 LongMem은 장기간의 과거 문맥을 기억하고 이를 언어 모델링에 활용할 수 있습니다. 제안된 메모리 검색 모듈은 메모리 뱅크에서 무제한 길이의 문맥을 처리할 수 있어 다양한 다운스트림 작업에 이점을 제공합니다. 일반적으로 LongMem은 장문 기억을 65,000 토큰까지 확장할 수 있어, 인컨텍스트 학습을 위한 다수의 예시를 장문 기억으로 캐시할 수 있습니다. 실험 결과, 우리의 방법은 도전적인 장문맥 모델링 벤치마크인 ChapterBreak에서 강력한 장문맥 모델을 능가하며, LLM 대비 메모리 강화 인컨텍스트 학습에서 뛰어난 개선을 달성했습니다. 이러한 결과는 제안된 방법이 언어 모델이 장문 내용을 기억하고 활용하는 데 효과적임을 입증합니다. 우리의 코드는 https://aka.ms/LongMem에서 오픈소스로 제공됩니다.
Face0를 소개합니다. 이는 미세 조정(fine-tuning)이나 역전(inversion)과 같은 최적화 절차 없이도 샘플 시간 내에 텍스트-이미지 생성 모델을 얼굴에 즉시 조건화할 수 있는 새로운 방법입니다. 우리는 주석이 달린 이미지 데이터셋에 포함된 얼굴의 임베딩을 추가하고, 이 확장된 데이터셋으로 이미지 생성 모델을 학습시켰습니다. 한번 학습이 완료되면, 우리 시스템은 추론 시간에 기반 모델과 실질적으로 동일하며, 따라서 사용자가 제공한 얼굴 이미지와 프롬프트가 주어지면 단 몇 초 만에 이미지를 생성할 수 있습니다. 우리의 방법은 만족스러운 결과를 달성하며, 매우 간단하고 극도로 빠르며, 기반 모델에 새로운 기능을 부여합니다. 예를 들어, 텍스트를 통해 또는 입력 얼굴 임베딩을 직접 조작하여 생성된 이미지를 제어할 수 있습니다. 또한, 사용자가 제공한 이미지의 얼굴 임베딩 대신 고정된 랜덤 벡터를 사용할 때, 우리의 방법은 여러 이미지에 걸쳐 일관된 캐릭터 생성 문제를 근본적으로 해결합니다. 마지막으로, 더 많은 연구가 필요하지만, 우리의 방법은 모델의 텍스트 편향과 얼굴 편향을 분리함으로써, 향후 텍스트-이미지 모델의 편향을 완화하는 데 한 걸음이 될 수 있기를 바랍니다.
우리는 3D 객체에 대한 설명 텍스트를 자동으로 생성하는 Cap3D 접근 방식을 소개한다. 이 접근 방식은 이미지 캡셔닝, 이미지-텍스트 정렬, 그리고 대형 언어 모델(LLM)에서 사전 훈련된 모델들을 활용하여 3D 자산의 다중 뷰에서 캡션을 통합함으로써, 시간이 많이 소요되고 비용이 드는 수동 주석 작업을 완전히 우회한다. 우리는 Cap3D를 최근에 소개된 대규모 3D 데이터셋인 Objaverse에 적용하여 660k개의 3D-텍스트 쌍을 생성했다. 동일한 데이터셋에서 수집된 41k개의 인간 주석을 사용하여 수행한 평가 결과, Cap3D는 품질, 비용, 속도 측면에서 인간이 작성한 설명을 능가하는 것으로 나타났다. 효과적인 프롬프트 엔지니어링을 통해, Cap3D는 ABO 데이터셋에서 수집된 17k개의 주석에 대해 기하학적 설명을 생성하는 데 있어 인간의 성능에 필적한다. 마지막으로, 우리는 Cap3D와 인간이 작성한 캡션을 사용하여 텍스트-투-3D 모델을 미세 조정했으며, Cap3D가 더 우수한 성능을 보임을 확인했다. 또한 Point-E, Shape-E, DreamFusion을 포함한 최신 기술(SOTA)을 벤치마킹했다.
언어 모델은 이미지, 음성, 음악과 같은 자연 신호를 모델링하는 데 성공적으로 사용되어 왔습니다. 이러한 모델의 핵심 구성 요소는 고차원의 자연 신호를 저차원의 이산 토큰으로 압축할 수 있는 고품질의 신경망 기반 압축 모델입니다. 이를 위해, 우리는 44.1KHz 오디오를 8kbps 대역폭의 토큰으로 약 90배 압축하는 고충실도 범용 신경망 오디오 압축 알고리즘을 소개합니다. 우리는 고충실도 오디오 생성 기술과 이미지 도메인에서 발전된 더 나은 벡터 양자화 기법, 그리고 개선된 적대적 및 재구성 손실을 결합하여 이를 달성했습니다. 우리는 단일 범용 모델로 모든 도메인(음성, 환경음, 음악 등)을 압축하여 모든 오디오의 생성 모델링에 광범위하게 적용할 수 있도록 했습니다. 우리는 경쟁 오디오 압축 알고리즘과 비교하여 우리의 방법이 이를 크게 능가함을 확인했습니다. 모든 설계 선택에 대한 철저한 실험 결과와 함께 오픈소스 코드 및 학습된 모델 가중치를 제공합니다. 우리의 연구가 차세대 고충실도 오디오 모델링의 기반을 마련할 수 있기를 바랍니다.
우리는 트랜스포머에서 점진적 학습 역학을 확인했는데, 이는 훈련된 가중치와 초기 가중치 간의 차이가 점점 더 높은 랭크를 갖도록 증가하는 현상을 말합니다. 우리는 이 현상이 대각선 가중치 행렬과 작은 초기화라는 단순화된 가정 하에서 발생함을 엄밀하게 증명했습니다. 우리의 실험은 이 이론을 뒷받침하며, 이러한 현상이 단순화된 가정 없이도 실제로 발생할 수 있음을 보여줍니다.
CLIP과 같은 대조적 이미지-텍스트 모델은 최첨단 시스템의 핵심 구성 요소입니다. 이러한 모델은 일반적인 개념을 인식하는 데 뛰어난 성능을 보이지만, 사전 학습 데이터셋에서 드물거나 심지어 존재하지 않는 세밀한 개체를 다루는 데는 여전히 어려움을 겪습니다. 따라서 이러한 모델의 성공에 있어 중요한 요소는 사전 학습 단계에서 기억할 수 있는 개념의 범위를 확장하기 위해 대규모로 정제된 사전 학습 데이터를 사용하는 것입니다. 본 연구에서는 세밀한 지식을 모델의 매개변수에 직접 인코딩하는 대신, 모델이 외부 메모리에서 이러한 지식을 검색하도록 훈련하는 대안을 탐구합니다. 구체적으로, 우리는 기존의 시각-텍스트 모델에 추론 시점에 메모리에서 교차 모달 정보를 검색하여 임베딩을 개선할 수 있는 능력을 부여하는 방법을 제안하며, 이는 모델의 제로샷 예측을 크게 향상시킵니다. 특히, 고정된 CLIP 모델 위에 경량의 단일 계층 융합 트랜스포머를 추가함으로써 이를 달성할 수 있음을 보여줍니다. 우리의 실험은 검색 강화 대조적(RECO) 훈련이 여러 도전적인 세밀한 작업에서 CLIP의 성능을 크게 개선함을 입증합니다. 예를 들어, Stanford Cars 데이터셋에서 +10.9, CUB-2011에서 +10.2, 최근 OVEN 벤치마크에서 +7.3의 성능 향상을 보였습니다.
최첨단 정보 추출 방법은 OCR 오류에 의해 제한됩니다. 이러한 방법은 양식 문서의 인쇄된 텍스트에는 잘 작동하지만, 비정형의 손글씨 문서는 여전히 해결해야 할 과제로 남아 있습니다. 기존 모델을 도메인 특화 학습 데이터에 적응시키는 것은 두 가지 요인으로 인해 상당히 비용이 많이 듭니다. 첫째, 도메인 특화 문서(예: 손글씨 처방전, 실험 노트 등)의 제한된 가용성, 둘째, 난해한 손글씨 문서 이미지를 해독하기 위해 도메인 특화 지식이 필요하므로 주석 작업이 더욱 어려워진다는 점입니다. 본 연구에서는 약한 레이블 데이터만을 사용하여 손글씨 처방전에서 약물 이름을 추출하는 복잡한 문제에 초점을 맞춥니다. 데이터는 이미지와 그 안에 포함된 약물 이름 목록으로 구성되지만, 이미지 내 위치 정보는 포함되지 않습니다. 우리는 먼저 약한 레이블만을 사용하여 관심 영역, 즉 약물 라인을 식별한 다음, 합성 데이터만을 사용하여 학습된 도메인 특화 약물 언어 모델을 주입함으로써 이 문제를 해결합니다. 기존의 최첨단 방법과 비교하여, 우리의 접근 방식은 처방전에서 약물 이름 추출 성능이 2.5배 이상 더 우수합니다.