번역이 포함된 일일 선별된 AI 연구 논문
셀프 어텐션 기반의 비전 트랜스포머(ViTs)는 컴퓨터 비전 분야에서 매우 경쟁력 있는 아키텍처로 부상했습니다. 합성곱 신경망(CNNs)과 달리, ViTs는 전역 정보 공유가 가능합니다. 다양한 ViTs 구조의 발전과 함께, ViTs는 많은 비전 작업에서 점점 더 유리해지고 있습니다. 그러나 셀프 어텐션의 이차 복잡도로 인해 ViTs는 계산적으로 부담이 크며, 지역성과 병진 등변성에 대한 귀납적 편향이 부족하여 시각적 특징을 효과적으로 학습하기 위해 CNNs에 비해 더 큰 모델 크기가 필요합니다. 본 논문에서는 CNNs와 ViTs의 장점을 활용한 경량화되고 효율적인 비전 트랜스포머 모델인 DualToken-ViT를 제안합니다. DualToken-ViT는 합성곱 기반 구조로 얻은 지역 정보를 가진 토큰과 셀프 어텐션 기반 구조로 얻은 전역 정보를 가진 토큰을 효과적으로 융합하여 효율적인 어텐션 구조를 달성합니다. 또한, 모든 단계에서 위치 인식 전역 토큰을 사용하여 전역 정보를 풍부하게 하여 DualToken-ViT의 효과를 더욱 강화합니다. 위치 인식 전역 토큰은 이미지의 위치 정보도 포함하고 있어, 우리의 모델이 비전 작업에 더 적합하도록 합니다. 우리는 이미지 분류, 객체 탐지 및 의미론적 분할 작업에 대한 광범위한 실험을 통해 DualToken-ViT의 효과를 입증했습니다. ImageNet-1K 데이터셋에서, 우리의 다양한 규모의 모델은 각각 0.5G와 1.0G FLOPs로 75.4%와 79.4%의 정확도를 달성했으며, 1.0G FLOPs를 사용한 우리의 모델은 전역 토큰을 사용하는 LightViT-T보다 0.7% 더 우수한 성능을 보였습니다.
우리는 대규모 어휘 인스턴스 세분화를 위한 간단하지만 효과적인 확산 기반 데이터 증강 접근법인 MosaicFusion을 소개한다. 우리의 방법은 학습이 필요 없으며 어떤 레이블 감독에도 의존하지 않는다. 두 가지 핵심 설계를 통해 우리는 기성 텍스트-이미지 확산 모델을 객체 인스턴스와 마스크 주석을 위한 유용한 데이터셋 생성기로 활용할 수 있다. 첫째, 이미지 캔버스를 여러 영역으로 나누고 서로 다른 텍스트 프롬프트를 조건으로 하여 단일 라운드의 확산 과정을 수행함으로써 여러 인스턴스를 동시에 생성한다. 둘째, 객체 프롬프트와 관련된 크로스-어텐션 맵을 여러 계층과 확산 시간 단계에 걸쳐 집계한 후 간단한 임계값 처리와 에지 인식 정제 처리를 통해 해당 인스턴스 마스크를 얻는다. 별다른 장식 없이, 우리의 MosaicFusion은 희귀 및 새로운 카테고리 모두를 위한 상당량의 합성 레이블 데이터를 생성할 수 있다. 도전적인 LVIS 롱테일 및 오픈-보캐블러리 벤치마크에서의 실험 결과는 MosaicFusion이 기존 인스턴스 세분화 모델의 성능을 특히 희귀 및 새로운 카테고리에서 크게 향상시킬 수 있음을 보여준다. 코드는 https://github.com/Jiahao000/MosaicFusion에서 공개될 예정이다.
신경망 가지치기(pruning)는 성능 저하를 최소화하면서 다국어 자동 음성 인식(ASR) 모델을 압축하는 효과적인 방법을 제공합니다. 그러나 이 방법은 각 언어마다 여러 차례의 가지치기와 재훈련을 필요로 합니다. 본 연구에서는 다국어 ASR 모델을 효율적으로 가지치기하기 위해 적응형 마스킹 접근법을 두 가지 시나리오에서 제안합니다. 이 접근법은 희소 단일 언어 모델 또는 희소 다국어 모델(다이나믹 ASR 경로로 명명됨)을 생성합니다. 우리의 접근법은 고정된 하위 네트워크 구조에 대한 조기 결정을 피하면서 하위 네트워크를 동적으로 적응시킵니다. 우리는 희소 단일 언어 모델을 목표로 할 때 기존 가지치기 방법보다 우리의 접근법이 더 우수함을 보여줍니다. 또한, 다이나믹 ASR 경로는 서로 다른 하위 네트워크 초기화에서 적응함으로써 단일 다국어 모델의 더 나은 하위 네트워크(경로)를 공동으로 발견하고 훈련하여 언어별 가지치기의 필요성을 줄입니다.
인터넷 데이터에 대한 사전 학습은 현대의 많은 머신러닝 시스템에서 광범위한 일반화를 위한 핵심 요소로 입증되었습니다. 로봇 강화 학습(RL)에서 이러한 능력을 가능하게 하려면 무엇이 필요할까요? 로봇 경험 데이터셋에서 학습하는 오프라인 RL 방법은 이전 데이터를 로봇 학습 파이프라인에 활용할 수 있는 한 가지 방법을 제공합니다. 그러나 이러한 방법은 비디오 데이터(예: Ego4D)와 "타입 불일치"가 있습니다. 비디오는 RL 방법에 필요한 행동이나 보상 주석 없이 관찰만 제공하기 때문입니다. 이 논문에서는 시간차 학습을 통해 가치 함수를 학습하는 방식으로 대규모 인간 비디오 데이터셋을 로봇 오프라인 RL에 활용하는 시스템을 개발합니다. 비디오 데이터셋에서 가치 학습을 수행하면 비디오 데이터에서 학습하는 다른 접근 방식보다 하위 로봇 오프라인 RL에 더 적합한 표현을 학습할 수 있음을 보여줍니다. 우리의 시스템인 V-PTR은 비디오 데이터에 대한 사전 학습의 이점과 다양한 로봇 데이터에서 학습하는 로봇 오프라인 RL 접근 방식을 결합하여 더 나은 성능, 견고한 행동, 광범위한 일반화를 보이는 조작 작업을 위한 가치 함수와 정책을 생성합니다. 실제 WidowX 로봇에서 여러 조작 작업을 수행할 때, 우리의 프레임워크는 기존 방법보다 크게 개선된 정책을 생성합니다. 비디오 및 추가 세부 정보는 https://dibyaghosh.com/vptr/에서 확인할 수 있습니다.