번역이 포함된 일일 선별된 AI 연구 논문
우리는 기존의 대형 기본 언어 모델(LM)에서 출발하여 소형 기본 언어 모델을 개발하는 간단한 접근 방식의 효과를 연구합니다: 먼저 더 큰 LM의 몇 개의 트랜스포머 블록을 상속받은 다음, 이 더 작은 모델을 더 큰 모델의 원시 사전 학습 데이터의 매우 작은 부분집합(0.1%)으로 학습시킵니다. 우리는 이 간단한 방법을 Inheritune이라고 명명하고, 3B 파라미터의 더 큰 LM의 시작 몇 개 레이어를 사용하여 1B 토큰으로 1.5B 파라미터의 소형 기본 LM을 구축하는 데 이를 처음으로 시연합니다; 이를 위해 단일 A6000 GPU를 사용하여 반나절도 채 걸리지 않습니다. 9개의 다양한 평가 데이터셋과 MMLU 벤치마크에서, 결과 모델은 1B-2B 크기의 공개적으로 사용 가능한 기본 모델들과 비교하여 유리한 성능을 보이며, 이들 중 일부는 50-1000배 더 많은 토큰으로 학습되었습니다. 우리는 Inheritune을 약간 다른 설정에서 조사합니다. 여기서는 더 큰 LM과 그들의 전체 사전 학습 데이터셋을 활용하여 소형 LM을 학습시킵니다. 여기서 우리는 GPT2-medium(355M)과 GPT-2-large(770M)의 일부 레이어를 활용하여 학습된 소형 LM이 9B 토큰의 OpenWebText 데이터셋에서 동일한 학습 스텝 수로 처음부터 학습된 더 큰 모델의 검증 손실을 효과적으로 맞출 수 있음을 보여줍니다. 우리는 광범위한 실험을 통해 이 방법을 분석하고 다양한 설정에서 그 효능을 입증합니다. 우리의 코드는 https://github.com/sanyalsunny111/LLM-Inheritune에서 확인할 수 있습니다.
최근 수십 년 동안, 비전 커뮤니티는 데이터셋 벤치마크의 발전으로 인해 시각 인식 분야에서 놀라운 진전을 목격했습니다. 특히, 확립된 COCO 벤치마크는 현대적인 탐지 및 분할 시스템의 발전을 촉진했습니다. 그러나 COCO 분할 벤치마크는 지난 10년 동안 비교적 느린 개선을 보여왔습니다. 원래 사물 인스턴스에 대한 거친 다각형 주석으로 시작하여, 점차적으로 스터프 영역에 대한 거친 슈퍼픽셀 주석을 포함하게 되었고, 이는 이후 휴리스틱적으로 통합되어 팬옵틱 분할 주석을 생성했습니다. 이러한 주석은 서로 다른 평가자 그룹에 의해 실행되었으며, 거친 분할 마스크뿐만 아니라 분할 유형 간의 불일치를 초래했습니다. 본 연구에서는 COCO 분할 주석에 대한 포괄적인 재평가를 수행합니다. 주석 품질을 향상시키고 데이터셋을 383K 이미지와 5.18M 이상의 팬옵틱 마스크로 확장함으로써, COCO Next Universal segmenTation 데이터셋인 COCONut를 소개합니다. COCONut는 세심하게 제작된 고품질 마스크를 통해 의미론적, 인스턴스, 팬옵틱 분할 간의 주석을 조화시키고, 모든 분할 작업을 위한 견고한 벤치마크를 확립합니다. 우리가 아는 한, COCONut는 인간 평가자에 의해 검증된 최초의 대규모 범용 분할 데이터셋입니다. COCONut의 출시가 새로운 신경망의 진전을 평가하는 커뮤니티의 능력에 크게 기여할 것으로 기대합니다.
본 논문은 제한된 계산 예산으로 축소된 Contrastive Language-Image Pre-training(CLIP)의 성능을 조사합니다. 우리는 데이터, 아키텍처, 훈련 전략이라는 세 가지 차원에서 CLIP을 탐구합니다. 데이터 측면에서는 고품질 훈련 데이터의 중요성을 입증하고, 더 작은 고품질 데이터셋이 더 크지만 품질이 낮은 데이터셋을 능가할 수 있음을 보여줍니다. 또한 모델 성능이 다양한 데이터셋 크기에 따라 어떻게 달라지는지 검토하며, 더 작은 ViT 모델은 더 작은 데이터셋에 더 적합하고, 더 큰 모델은 고정된 계산 자원에서 더 큰 데이터셋에서 더 나은 성능을 보인다는 점을 제시합니다. 추가적으로, CLIP 훈련 시 CNN 기반 아키텍처와 ViT 기반 아키텍처 중 어떤 것을 선택할지에 대한 지침을 제공합니다. 우리는 SLIP, FLIP, CLIP, 그리고 CLIP+Data Augmentation이라는 네 가지 CLIP 훈련 전략을 비교하고, 훈련 전략 선택이 사용 가능한 계산 자원에 따라 달라짐을 보여줍니다. 우리의 분석은 CLIP+Data Augmentation이 훈련 데이터의 절반만 사용하여도 CLIP과 비슷한 성능을 달성할 수 있음을 밝힙니다. 이 연구는 CLIP 모델을 효과적으로 훈련하고 배포하는 방법에 대한 실용적인 통찰을 제공함으로써, 다양한 응용 분야에서 CLIP 모델을 더 접근 가능하고 경제적으로 사용할 수 있도록 합니다.
대규모 사전 학습의 최근 발전은 강력한 능력을 가진 시각 기반 모델들을 탄생시켰습니다. 최신 모델들은 학습된 작업에 대해 임의의 이미지로 일반화할 수 있을 뿐만 아니라, 그들의 중간 표현은 탐지 및 분할과 같은 다른 시각적 작업에도 유용합니다. 이러한 모델들이 2D에서 객체를 분류하고, 윤곽을 그리고, 위치를 파악할 수 있다는 점을 고려할 때, 우리는 이들이 3D 구조도 표현할 수 있는지 질문합니다. 본 연구에서는 시각 기반 모델들의 3D 인식 능력을 분석합니다. 우리는 3D 인식이 (1) 장면의 3D 구조를 인코딩하고, (2) 다양한 시점에서 표면을 일관되게 표현하는 것을 의미한다고 가정합니다. 우리는 특정 작업용 프로브와 고정된 특징에 대한 제로샷 추론 절차를 사용하여 일련의 실험을 수행합니다. 우리의 실험은 현재 모델들의 여러 한계를 드러냅니다. 우리의 코드와 분석은 https://github.com/mbanani/probe3d에서 확인할 수 있습니다.
단안 깊이 추정(monocular depth estimation) 분야의 최근 발전은 자연어를 추가적인 지침으로 통합함으로써 이루어졌습니다. 이러한 접근법은 인상적인 결과를 보여주지만, 특히 일반화(generalization)와 견고성(robustness) 측면에서 언어 사전 정보(language prior)의 영향은 아직 탐구되지 않았습니다. 본 논문에서는 이러한 격차를 해소하기 위해 이 사전 정보의 영향을 정량화하고, 다양한 설정에서 그 효과를 벤치마킹하는 방법을 소개합니다. 우리는 객체 중심의 3차원 공간 관계를 전달하는 "저수준(low-level)" 문장을 생성하고, 이를 추가적인 언어 사전 정보로 통합하여 깊이 추정에 미치는 하류 영향을 평가합니다. 우리의 주요 발견은 현재의 언어 지도 깊이 추정기(language-guided depth estimators)가 장면 수준(scene-level) 설명에서만 최적의 성능을 발휘하며, 반직관적으로 저수준 설명에서는 더 나쁜 성능을 보인다는 것입니다. 추가 데이터를 활용함에도 불구하고, 이러한 방법들은 지시적 적대적 공격(directed adversarial attacks)에 대해 견고하지 못하며, 분포 변화(distribution shift)가 증가함에 따라 성능이 저하됩니다. 마지막으로, 향후 연구를 위한 기초를 제공하기 위해 실패 지점을 식별하고 이러한 단점을 더 잘 이해할 수 있는 통찰을 제시합니다. 깊이 추정을 위해 언어를 사용하는 방법이 증가함에 따라, 우리의 연구 결과는 실제 환경에서 효과적으로 배포하기 위해 신중히 고려해야 할 기회와 함정을 강조합니다.
인간 선호도 기반 피드백을 통한 강화 학습(Reinforcement Learning from Human Preference-based feedback, RLHF)은 생성 모델을 미세 조정하기 위한 널리 사용되는 패러다임으로, GPT-4와 Claude3 Opus와 같은 인상적인 모델들을 만들어냈습니다. 이 프레임워크는 일반적으로 두 단계로 구성됩니다: 오프라인 선호도 데이터셋으로부터 보상 모델을 학습한 후, 학습된 보상 모델을 최적화하기 위해 온라인 강화 학습을 실행하는 것입니다. 본 연구에서는 리셋(reset) 개념을 활용하여 이론적 보장이 가능한 새로운 RLHF 알고리즘을 제안합니다. 오프라인 선호도 데이터셋이 라벨러가 선호하는 정보성 있는 상태(즉, 데이터)를 제공한다는 사실에 착안하여, 우리의 새로운 알고리즘인 데이터셋 리셋 정책 최적화(Dataset Reset Policy Optimization, DR-PO)는 기존 오프라인 선호도 데이터셋을 온라인 정책 학습 과정에 통합합니다. 이는 초기 상태 분포에서 항상 시작하는 대신, 정책 최적화기를 오프라인 데이터셋의 상태로 직접 리셋하는 방식입니다. 이론적으로, DR-PO는 유한한 샘플 복잡도 하에서 일반 함수 근사를 통해 오프라인 데이터셋이 커버하는 모든 정책 이상의 성능을 학습할 수 있음을 보입니다. 실험에서는 TL;DR 요약 작업과 Anthropic Helpful Harmful(HH) 데이터셋에서 DR-PO가 생성한 결과가 GPT4 승률 지표 하에서 Proximal Policy Optimization(PPO) 및 Direction Preference Optimization(DPO)보다 우수함을 입증했습니다. 본 연구의 코드는 https://github.com/Cornell-RL/drpo에서 확인할 수 있습니다.
최신 정규화된 신경 방사장(NeRF) 접근법은 ETH3D와 같은 다중 뷰 스테레오(MVS) 벤치마크에서 부정확한 기하학적 구조와 뷰 외삽 결과를 생성합니다. 본 논문에서는 정확한 기하학적 구조와 뷰 합성을 제공하는 3D 모델을 생성하여 NeRF와 전통적인 MVS 방법 간의 큰 기하학적 성능 격차를 부분적으로 해소하고자 합니다. 우리는 단안(monocular) 표면 법선 및 상대 깊이 예측을 효과적으로 활용하는 패치 기반 접근법을 제안합니다. 패치 기반 광선 샘플링은 또한 무작위로 샘플링된 가상 뷰와 학습 뷰 간의 정규화된 상호 상관관계(NCC)와 구조적 유사성(SSIM)의 외관 정규화를 가능하게 합니다. 더 나아가, 희소 구조 from motion 포인트 기반의 "밀도 제한"이 새로운 뷰 합성 지표의 약간의 하락과 함께 기하학적 정확도를 크게 향상시킬 수 있음을 보여줍니다. 우리의 실험 결과는 ETH3D MVS 벤치마크에서 평균 F1@2cm 기준으로 RegNeRF의 4배, FreeNeRF의 8배 성능을 보여주며, 이는 NeRF 기반 모델의 기하학적 정확도를 개선하기 위한 유망한 연구 방향을 제시하고, NeRF 기반 최적화가 결국 전통적인 MVS를 능가할 수 있는 잠재적인 미래 접근법에 대한 통찰을 제공합니다.