번역이 포함된 일일 선별된 AI 연구 논문
본 연구에서는 대규모 언어 모델을 위한 기반 아키텍처로 Retentive Network(RetNet)를 제안하며, 이를 통해 훈련 병렬화, 저비용 추론, 그리고 우수한 성능을 동시에 달성하고자 합니다. 우리는 이론적으로 재귀(recurrence)와 어텐션(attention) 간의 연결 관계를 도출하였습니다. 이후 시퀀스 모델링을 위한 리텐션(retention) 메커니즘을 제안하는데, 이는 병렬(parallel), 재귀(recurrent), 그리고 청크 단위 재귀(chunkwise recurrent)라는 세 가지 계산 패러다임을 지원합니다. 구체적으로, 병렬 표현은 훈련 병렬화를 가능하게 합니다. 재귀 표현은 성능 저하 없이 디코딩 처리량, 지연 시간, 그리고 GPU 메모리를 개선하는 O(1) 복잡도의 저비용 추론을 가능하게 합니다. 청크 단위 재귀 표현은 선형 복잡도로 효율적인 장거리 시퀀스 모델링을 용이하게 하는데, 각 청크는 병렬로 인코딩되면서 재귀적으로 청크들을 요약합니다. 언어 모델링 실험 결과, RetNet은 유리한 스케일링 결과, 병렬 훈련, 저비용 배포, 그리고 효율적인 추론을 달성함을 보여줍니다. 이러한 흥미로운 특성들은 RetNet을 대규모 언어 모델을 위한 Transformer의 강력한 후속 모델로 자리매김하게 합니다. 코드는 https://aka.ms/retnet에서 제공될 예정입니다.
테이블은 현실 세계의 데이터베이스에서 널리 사용되며, 이를 분석하고 조작하기 위해 인간은 상당한 시간과 노력을 투자해야 합니다. 대규모 언어 모델(LLM)의 발전으로 인해 자연어 입력을 통해 테이블과 상호작용할 수 있는 가능성이 현실에 더 가까워졌습니다. 본 논문에서는 TableGPT를 소개합니다. TableGPT는 외부 기능 명령어를 사용하여 LLM이 테이블을 이해하고 조작할 수 있도록 하는 통합된 미세 조정 프레임워크입니다. 이 프레임워크는 테이블과 원활하게 상호작용할 수 있는 기능을 도입하여, 질문 응답, 데이터 조작(예: 삽입, 삭제, 조회, 수정 작업), 데이터 시각화, 분석 보고서 생성, 자동 예측 등 다양한 기능을 가능하게 합니다. TableGPT는 사용자가 테이블 데이터를 손쉽게 활용할 수 있도록 편의성과 접근성을 제공하는 것을 목표로 합니다. TableGPT의 핵심에는 전역 테이블 표현이라는 새로운 개념이 있습니다. 이 개념은 LLM이 메타 정보를 넘어 전체 테이블을 포괄적으로 이해할 수 있도록 합니다. 테이블과 텍스트 모달리티를 함께 학습함으로써, TableGPT는 테이블 데이터에 대한 깊은 이해와 체인 오브 커맨드 명령을 통해 테이블에 복잡한 작업을 수행할 수 있는 능력을 달성합니다. 중요한 점은, TableGPT가 외부 API 인터페이스에 의존하지 않고 독립적인 시스템이라는 장점을 제공한다는 것입니다. 또한, 효율적인 데이터 처리 흐름, 적절한 경우 쿼리 거부, 그리고 개인 배포를 지원하여, 특정 사용 사례에 대한 프레임워크의 적응성을 높이고 데이터 프라이버시를 보장합니다. 이를 통해 도메인 데이터에 대한 빠른 미세 조정이 가능해집니다.
LLM(대형 언어 모델)은 특히 지시 따르기 데이터를 활용하여 인간과 언어를 통해 상호작용하는 데 있어 뛰어난 능력을 보여주고 있습니다. MiniGPT-4, LLaVA, X-LLM과 같은 최근의 LLM 발전은 이미지, 비디오, 음성 등 다중 모달 입력을 통합함으로써 이러한 능력을 더욱 확장하고 있습니다. 이러한 LLM은 주어진 모달 신호에 대한 정확하고 세부적인 언어 이해를 생성하는 데 효과적이지만, 입력의 특정 부분을 구체적으로 연결하는 능력을 포기함으로써 거친 수준의 매핑만을 구성합니다. 그러나 텍스트와 다른 모달리티 간의 명시적이고 유익한 대응 관계는 사용자 경험을 개선할 뿐만 아니라 다중 모달 LLM의 응용 시나리오를 확장하는 데도 도움이 될 것입니다. 따라서 우리는 시각, 청각, 언어 간의 교차 모달 상호작용을 수행할 수 있는 시각적 접지(visual grounding) 기능을 갖춘 다중 모달 LLM인 BuboGPT를 제안합니다. BuboGPT는 시각적 객체와 주어진 다른 모달리티에 대한 세밀한 이해를 제공하며, 특정 객체에 대한 응답이나 설명을 생성할 때 이미지 내에서 해당 객체의 정확한 위치를 지적할 수 있습니다. 우리의 기여는 두 가지로 요약됩니다: 1) SAM 기반의 즉시 사용 가능한 시각적 접지 모듈로, 문장 내의 개체를 추출하고 이미지에서 해당 마스크를 찾습니다. 2) 텍스트-이미지-오디오의 공동 이해를 부여하기 위한 두 단계의 학습 방식과 지시 데이터셋. 실험 결과, BuboGPT는 인간과의 상호작용 중에 인상적인 다중 모달리티 이해 및 시각적 접지 능력을 달성하며, 정렬 여부와 관계없이 임의의 모달리티 조합이 제공될 때도 일관되게 우수한 성능을 보입니다. 우리의 코드, 모델 및 데이터셋은 https://bubo-gpt.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 지시/응답 데이터에 대한 지시 미세 조정(IFT)을 통해 지시 수행 능력을 획득합니다. 그러나 널리 사용되는 IFT 데이터셋(예: Alpaca의 52k 데이터)은 놀랍게도 잘못되었거나 관련 없는 응답을 포함한 많은 저품질 인스턴스를 포함하고 있어, IFT에 오히려 해가 될 수 있습니다. 본 논문에서는 강력한 LLM(예: ChatGPT)을 사용하여 저품질 데이터를 자동으로 식별하고 제거하는 간단하면서도 효과적인 데이터 선택 전략을 제안합니다. 이를 위해, 우리는 52k Alpaca 데이터에서 필터링된 9k 고품질 데이터만으로 미세 조정된 AlpaGasus를 소개합니다. AlpaGasus는 여러 테스트 세트에서 GPT-4로 평가한 결과 원본 Alpaca를 크게 능가하며, 13B 변형은 테스트 작업에서 교사 LLM(Text-Davinci-003)의 성능을 90% 이상 달성합니다. 또한 7B 변형의 경우 학습 시간을 80분(Alpaca 기준)에서 14분으로 단축하여 5.7배 빠른 학습 속도를 제공합니다. 우리는 Alpaca(7B)와 동일한 에포크 수로 IFT를 적용했지만 더 적은 데이터를 사용했으며, 4개의 NVIDIA A100(80GB) GPU를 사용하고 원본 Alpaca 설정과 하이퍼파라미터를 따랐습니다. 전반적으로, AlpaGasus는 지시 조정 데이터에 일반적으로 적용할 수 있는 새로운 데이터 중심 IFT 패러다임을 보여주며, 더 빠른 학습과 더 나은 지시 수행 모델을 이끌어냅니다. 프로젝트 페이지는 https://lichang-chen.github.io/AlpaGasus/에서 확인할 수 있습니다.
많은 비지도 학습 모델이 생성적 또는 판별적 작업 중 한 가지 유형에 초점을 맞추는 반면, 우리는 두 가지 유형의 작업을 동시에 해결하기 위해 단일 사전 학습 단계를 사용하는 통합 표현 학습 모델의 가능성을 탐구합니다. 우리는 확산 모델을 주요 후보로 식별합니다. 확산 모델은 이미지 생성, 노이즈 제거, 인페인팅, 초해상도, 조작 등에서 최첨단 방법으로 부상했습니다. 이러한 모델은 U-Net을 반복적으로 노이즈를 예측하고 제거하도록 훈련시키는 과정을 포함하며, 결과적으로 고화질, 다양성, 독창성을 갖춘 이미지를 합성할 수 있습니다. U-Net 아키텍처는 컨볼루션 기반 아키텍처로, 중간 특징 맵 형태로 다양한 특징 표현을 생성합니다. 우리는 이러한 임베딩이 노이즈 예측 작업을 넘어 판별 정보를 포함하고 분류 작업에도 활용될 수 있다는 연구 결과를 제시합니다. 우리는 이러한 임베딩을 추출하고 분류 작업에 사용하기 위한 최적의 방법을 탐구하며, ImageNet 분류 작업에서 유망한 결과를 보여줍니다. 신중한 특징 선택과 풀링을 통해 확산 모델이 BigBiGAN과 같은 생성-판별 방법을 분류 작업에서 능가한다는 것을 발견했습니다. 우리는 전이 학습 환경에서 확산 모델을 조사하고, 여러 세분화된 시각적 분류 데이터셋에서의 성능을 검토합니다. 이러한 임베딩을 경쟁 아키텍처 및 사전 학습 방법에서 생성된 임베딩과 분류 작업에 대해 비교합니다.
비디오 동작 예측을 위한 방법들은 주어진 비디오 프레임 내 모든 점들의 순간적인 움직임을 광학 흐름(optical flow)을 사용해 공동으로 추정하거나, 개별 점들의 움직임을 비디오 전체에 걸쳐 독립적으로 추적합니다. 후자의 경우, 심지어 가려짐(occlusion) 상황에서도 점들을 추적할 수 있는 강력한 딥러닝 방법들에서도 마찬가지입니다. 개별 점들을 추적하는 방식은 점들 간에 존재할 수 있는 강한 상관관계를 무시하는데, 예를 들어 동일한 물리적 객체에 속하는 경우가 이에 해당하며, 이는 성능 저하를 초래할 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 CoTracker라는 아키텍처를 제안합니다. 이 아키텍처는 전체 비디오에 걸쳐 여러 점들을 공동으로 추적하는 방식으로, 광학 흐름 및 추적 관련 문헌에서 얻은 여러 아이디어를 새로운 유연하고 강력한 설계로 결합합니다. 이는 특수화된 어텐션 레이어를 통해 시간에 따른 서로 다른 점들의 상관관계를 모델링하는 트랜스포머 네트워크를 기반으로 합니다. 트랜스포머는 여러 궤적의 추정치를 반복적으로 업데이트하며, 매우 긴 비디오에 대해서는 슬라이딩 윈도우 방식으로 적용할 수 있도록 펼쳐진(unrolled) 훈련 루프를 설계했습니다. 이는 하나에서 여러 점까지 공동으로 추적할 수 있으며, 언제든지 새로운 추적 점을 추가하는 것도 지원합니다. 그 결과, 거의 모든 벤치마크에서 최신 기술을 능가하는 유연하고 강력한 추적 알고리즘이 탄생했습니다.
우리는 대규모 언어 모델(LLM)이 동시에 '보고 그리는' 능력을 갖출 수 있게 하는 정교한 이미지 토크나이저인 SEED를 소개한다. 이미지 토크나이저 연구는 이전에 정체 상태에 빠졌는데, 양자화된 시각적 토큰을 사용하는 프레임워크들이 다중모드 이해(예: BLIP-2 등)나 생성(예: Stable Diffusion 등)에서의 낮은 성능과 수렴 문제로 인해 주목받지 못했기 때문이다. 이러한 한계에도 불구하고, 우리는 시각적 표현과 텍스트 표현을 통합하고 LLM의 원래 레시피로 확장 가능한 다중모드 학습을 촉진하는 자연스러운 능력에 대해 확신을 가지고 있다. 본 연구에서 우리는 SEED의 아키텍처와 학습에 있어 LLM과의 후속 정렬을 효과적으로 용이하게 하는 두 가지 중요한 원칙을 확인했다. (1) 이미지 토큰은 2D 물리적 패치 위치에 독립적이어야 하며, 대신 1D 인과적 의존성을 통해 생성되어야 한다. 이는 LLM의 왼쪽에서 오른쪽으로의 자기회귀 예측 메커니즘과 일치하는 내재적 상호의존성을 보여준다. (2) 이미지 토큰은 단어의 의미적 추상화 수준과 일치하는 고수준 의미를 포착해야 하며, 토크나이저 학습 단계에서 판별력과 재구성을 모두 최적화해야 한다. 결과적으로, 기존의 LLM은 효율적인 LoRA 튜닝을 통해 우리의 SEED를 통합함으로써 이미지-텍스트 및 텍스트-이미지 생성을 모두 수행할 수 있다. 더 나은 결과를 얻을 수 있는 포괄적인 다중모드 사전 학습과 지시 튜닝은 향후 연구를 위해 남겨두었다. 이 버전의 SEED는 64개의 V100 GPU와 500만 개의 공개 이미지-텍스트 쌍을 사용하여 5.7일 동안 학습되었다. 우리의 예비 연구는 다재다능한 다중모드 LLM에서 이산적 시각적 토큰의 큰 잠재력과 더 넓은 연구에서 적절한 이미지 토크나이저의 중요성을 강조한다.
우리는 실시간 비디오 편집 솔루션인 Interactive Neural Video Editing(INVE)을 소개합니다. 이 솔루션은 희소 프레임 편집을 전체 비디오 클립에 일관되게 전파함으로써 비디오 편집 프로세스를 지원할 수 있습니다. 우리의 방법은 최근의 Layered Neural Atlas(LNA) 연구에서 영감을 받았습니다. 그러나 LNA는 두 가지 주요 단점을 가지고 있습니다: (1) 이 방법은 인터랙티브 편집에 너무 느리며, (2) 직접 프레임 편집 및 강체 텍스처 추적과 같은 일부 편집 사용 사례에 대한 지원이 부족합니다. 이러한 문제를 해결하기 위해 우리는 해시 그리드 인코딩으로 구동되는 고효율 네트워크 아키텍처를 활용 및 채택하여 처리 속도를 크게 개선했습니다. 또한, 이미지-아틀라스 간의 양방향 함수를 학습하고 벡터화된 편집을 도입함으로써 아틀라스와 프레임 모두에서 훨씬 더 다양한 편집을 가능하게 했습니다. LNA와 비교하여, 우리의 INVE는 학습 및 추론 시간을 5배 단축했으며, LNA가 지원하지 못하는 다양한 비디오 편집 작업을 지원합니다. 우리는 포괄적인 정량적 및 정성적 분석을 통해 인터랙티브 비디오 편집에서 INVE가 LNA보다 우수함을 보여주며, 그 수많은 장점과 향상된 성능을 강조합니다. 비디오 결과는 https://gabriel-huang.github.io/inve/에서 확인할 수 있습니다.
우리는 시각적 사전 학습의 도움을 받아 일반 목적의 신경망으로 시각적 추론의 종단간 학습이 가능한지 조사하고자 합니다. 긍정적인 결과가 나온다면, 이는 시각적 추론에서의 조합적 일반화를 위해 명시적인 시각적 추상화(예: 객체 탐지)가 필수적이라는 일반적인 믿음을 반박하고, 시각 인식과 추론 과제를 해결할 수 있는 신경망 "전문가"의 가능성을 확인할 것입니다. 우리는 각 비디오 프레임을 트랜스포머 네트워크를 통해 소규모 토큰 집합으로 "압축"하고, 압축된 시간적 맥락을 기반으로 나머지 프레임을 재구성하는 간단하고 일반적인 자기 지도 학습 프레임워크를 제안합니다. 재구성 손실을 최소화하기 위해 네트워크는 각 이미지에 대한 간결한 표현을 학습해야 할 뿐만 아니라 시간적 맥락에서 시간적 역학과 객체의 영속성을 포착해야 합니다. 우리는 CATER와 ACRE라는 두 가지 시각적 추론 벤치마크에서 평가를 수행합니다. 사전 학습이 종단간 시각적 추론을 위한 조합적 일반화를 달성하는 데 필수적이라는 것을 관찰했습니다. 우리가 제안한 프레임워크는 이미지 분류 및 명시적 객체 탐지를 포함한 전통적인 지도 학습 사전 학습을 큰 차이로 능가합니다.
본 논문은 컨볼루션 네트워크와 비전 트랜스포머를 결합하여 다양한 다운스트림 작업을 효율적으로 처리할 수 있는 새로운 비전 트랜스포머인 Scale-Aware Modulation Transformer(SMT)를 제안한다. SMT에서 제안된 Scale-Aware Modulation(SAM)은 두 가지 주요 혁신적인 설계를 포함한다. 첫째, 다중 스케일 특징을 포착하고 수용 필드를 확장할 수 있는 Multi-Head Mixed Convolution(MHMC) 모듈을 소개한다. 둘째, 경량이면서도 효과적이며 서로 다른 헤드 간의 정보 융합을 가능하게 하는 Scale-Aware Aggregation(SAA) 모듈을 제안한다. 이 두 모듈을 활용함으로써 컨볼루션 변조가 더욱 강화된다. 또한, 모든 단계에서 변조를 사용하여 주의 메커니즘 없는 네트워크를 구축한 기존 연구와 달리, 네트워크가 깊어짐에 따라 지역적 의존성에서 전역적 의존성으로의 전환을 효과적으로 시뮬레이션할 수 있는 Evolutionary Hybrid Network(EHN)를 제안하여 우수한 성능을 달성한다. 광범위한 실험을 통해 SMT가 다양한 시각 작업에서 기존의 최첨단 모델들을 크게 능가함을 입증한다. 구체적으로, 11.5M / 2.4GFLOPs와 32M / 7.7GFLOPs의 SMT는 각각 ImageNet-1K에서 82.2%와 84.3%의 top-1 정확도를 달성한다. ImageNet-22K에서 224^2 해상도로 사전 학습한 후, 224^2와 384^2 해상도로 미세 조정했을 때 각각 87.1%와 88.1%의 top-1 정확도를 기록한다. Mask R-CNN을 사용한 객체 탐지에서, 1x 및 3x 스케줄로 학습된 SMT base는 COCO에서 Swin 트랜스포머 대비 각각 4.2와 1.3 mAP로 우수한 성능을 보인다. UPerNet을 사용한 의미 분할에서, 단일 및 다중 스케일 테스트에서 SMT base는 ADE20K에서 Swin 대비 각각 2.0과 1.1 mIoU로 더 높은 성능을 보인다.
시뮬레이션은 현대 자율주행 개발의 핵심을 이루고 있습니다. 시뮬레이터는 인간, 차량 또는 주변 환경을 위험에 빠뜨리지 않으면서 운전 시스템을 개발, 테스트 및 개선하는 데 도움을 줍니다. 그러나 시뮬레이터는 주요한 과제에 직면해 있습니다: 현실적이고 확장 가능하며 흥미로운 콘텐츠에 의존해야 한다는 점입니다. 최근 렌더링 및 장면 재구성 기술의 발전으로 정적 장면 자산을 만드는 데 큰 진전이 있었지만, 그들의 배치, 역학 및 행동을 모델링하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 동적 교통 장면 생성을 위한 감독 소스로 언어를 활용합니다. 우리의 모델인 LCTGen은 대규모 언어 모델과 트랜스포머 기반 디코더 아키텍처를 결합하여 지도 데이터셋에서 가능성이 높은 위치를 선택하고 초기 교통 분포와 각 차량의 역학을 생성합니다. LCTGen은 무조건적 및 조건부 교통 장면 생성에서 현실성과 충실도 측면에서 기존 연구를 능가합니다. 코드와 비디오는 https://ariostgx.github.io/lctgen에서 확인할 수 있습니다.