번역이 포함된 일일 선별된 AI 연구 논문
지식 증류(Knowledge Distillation, KD)는 교사 모델의 추론 비용과 메모리 사용량을 줄이기 위해 더 작은 학생 모델을 훈련시키는 방법으로 널리 사용됩니다. 그러나 자동 회귀 시퀀스 모델에 대한 현재의 KD 방법들은 훈련 중에 보는 출력 시퀀스와 학생 모델이 추론 중에 생성하는 시퀀스 간의 분포 불일치 문제를 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 일반화된 지식 증류(Generalized Knowledge Distillation, GKD)를 소개합니다. GKD는 고정된 출력 시퀀스 집합에만 의존하는 대신, 학생 모델이 스스로 생성한 출력 시퀀스에 대해 교사 모델의 피드백을 활용하여 학생 모델을 훈련시킵니다. 지도 학습 기반의 KD 접근법과 달리, GKD는 학생 모델이 교사 모델의 분포를 모방할 만큼 표현력이 부족한 경우에도 학생과 교사 간의 대체 손실 함수를 유연하게 사용할 수 있습니다. 더욱이, GKD는 강화 학습 미세 조정(RLHF)과의 원활한 통합을 가능하게 합니다. 우리는 요약, 번역, 산술 추론 작업에서 자동 회귀 언어 모델을 증류하는 데 GKD의 효율성을 입증했으며, 지시 튜닝을 위한 작업 독립적 증류에서도 그 효과를 보여줍니다.
검색 강화 언어 모델(LMs)은 최근 많은 관심을 받고 있습니다. 그러나 일반적으로 검색기는 언어 모델의 기본 구성 요소로 함께 학습되지 않고, 이미 사전 학습된 언어 모델에 추가되는 방식으로 사용됩니다. 이는 언어 모델과 검색기가 서로 적응할 수 있는 능력을 제한합니다. 본 연구에서는 긴 텍스트 모델링 작업을 위해 처음부터 검색 강화 언어 모델을 공동으로 학습하기 위한 아키텍처 및 학습 절차인 Retrieval-Pretrained Transformer(RPT)를 제안합니다. 긴 문서에서 최근 생성된 텍스트 청크가 주어지면, 언어 모델은 쿼리 표현을 계산하고, 이를 사용하여 문서 내에서 수만 개의 토큰 이전에 위치한 이전 청크를 검색합니다. 검색된 청크의 정보는 언어 모델 표현에 통합되어 다음 목표 청크를 예측하는 데 사용됩니다. 검색기 구성 요소는 의미론적 목표로 학습되며, 여기서 목표는 참조 언어 모델에 따라 다음 청크의 확률을 증가시키는 청크를 검색하는 것입니다. RPT는 책, 코드, 수학적 글쓰기를 포함한 네 가지 장거리 언어 모델링 작업에서 평가되었으며, RPT가 강력한 베이스라인 대비 검색 품질과 이에 따른 복잡도를 전반적으로 개선함을 입증합니다.
대규모 언어 모델(LLM)의 부상과 다양한 분야에서의 광범위한 활용으로 인해, 현실적인 데이터에 대한 언어 모델의 행동을 측정하는 것이 필수적입니다. 예를 들어, 고객 대면 챗봇을 배포하는 기업은 모델이 고객 요청에 욕설로 응답하지 않도록 해야 합니다. 현재의 평가 방법은 인간이 직접 레이블을 지정한 소규모의 도메인 특화 데이터셋을 사용하여 이 문제에 접근합니다. 이러한 평가 데이터셋은 종종 좁고 단순화된 분포에서 샘플링되며, 데이터 소스가 훈련 세트에 의도치 않게 유출되어 오해의 소지가 있는 평가 결과를 초래할 수 있습니다. 이러한 단점을 극복하기 위해, 우리는 입력 텍스트에 대한 변환에 대한 민감도 또는 불변성을 분석함으로써 LLM을 자가 지도 방식으로 평가하는 프레임워크를 제안합니다. 자가 지도 평가는 야생에서 수집된 데이터셋이나 실시간 모델 배포 중에 스트리밍되는 데이터에 대해 LLM의 행동을 직접 모니터링할 수 있습니다. 우리는 폐쇄형 지식, 독성, 장거리 문맥 의존성뿐만 아니라 문법 구조와 토큰화 오류에 대한 민감도를 측정하기 위한 자가 지도 평가 전략을 보여줍니다. 유사한 인간 레이블 벤치마크와의 비교가 가능한 경우, 자가 지도 평가와 인간 지도 평가 간에 강한 상관관계가 있음을 발견했습니다. 자가 지도 패러다임은 레이블 데이터에 의존하는 현재의 평가 전략을 보완합니다.
본 연구에서는 딥러닝의 가장 기본적인 구성 요소인 다층 퍼셉트론(MLP)을 재조명하고, 시각 작업에서의 성능 한계를 탐구합니다. MLP에 대한 실증적 통찰은 여러 가지 이유로 중요합니다. (1) 최근 트랜스포머가 컨볼루션 모델을 능가하면서 "덜 가정된 편향이 더 낫다"는 주장이 유행하고 있는데, 이러한 가설의 한계를 탐구하는 것은 자연스러운 일입니다. 이를 위해 MLP는 어떠한 귀납적 편향도 완전히 배제된 이상적인 테스트 베드 역할을 합니다. (2) MLP는 수학적 단순성으로 인해 딥러닝 이론 문헌에서 거의 독점적으로 주요 주인공 역할을 해왔으며, 더 복잡한 아키텍처에서 관찰된 실증적 현상을 설명하기 위한 대리자 역할을 해왔습니다. 그러나 놀랍게도, 특히 대규모 사전 학습 프로토콜과 결합된 경우, 문헌에서 MLP에 대한 실험 데이터를 찾는 것은 매우 어렵습니다. 이러한 실습과 이론 간의 불일치는 우려스러운 문제입니다: MLP가 실제 모델에서 보여주는 실증적 발전을 반영하는가? 아니면 이론가들이 MLP의 대리자 역할을 재고해야 하는가? 우리는 이 두 가지 측면에 대한 통찰을 제공합니다. 우리는 MLP의 성능이 규모에 따라 극적으로 향상됨을 보여주며(CIFAR10에서 93%, CIFAR100에서 79%, TinyImageNet에서 69%), 귀납적 편향의 부재가 실제로 보상될 수 있음을 강조합니다. 우리는 MLP가 현대 모델의 행동을 충실히 모방하지만, 학습 설정의 일부 구성 요소가 더 강력하거나 예상치 못한 행동을 보이는 것을 관찰했습니다. MLP의 본질적인 계산 효율성 덕분에, 대규모 사전 학습 실험이 학계 연구자들에게 더 접근 가능해졌습니다. 우리의 모든 실험은 단일 GPU에서 실행되었습니다.
우리는 오픈-보캐블러리 3D 인스턴스 세그멘테이션 작업을 소개한다. 전통적인 3D 인스턴스 세그멘테이션 접근법은 주로 기존의 3D 주석 데이터셋에 의존하며, 이는 폐쇄된 객체 카테고리 집합으로 제한된다. 이는 다양한 객체와 관련된 새로운 오픈-보캐블러리 쿼리에 의해 안내된 작업을 수행해야 할 수 있는 실제 응용 프로그램에서 중요한 한계이다. 최근, 이 문제를 해결하기 위해 장면 내 각 점마다 쿼리 가능한 특징을 학습하는 오픈-보캐블러리 3D 장면 이해 방법들이 등장했다. 이러한 표현은 직접적으로 의미론적 세그멘테이션을 수행하는 데 사용될 수 있지만, 기존 방법들은 객체 인스턴스를 식별하는 능력에 한계가 있다. 본 연구에서 우리는 이러한 한계를 해결하고, 오픈-보캐블러리 3D 인스턴스 세그멘테이션을 위한 제로-샷 접근법인 OpenMask3D를 제안한다. 예측된 클래스-불특정 3D 인스턴스 마스크에 의해 안내된 우리의 모델은 CLIP 기반 이미지 임베딩의 다중 뷰 융합을 통해 마스크별 특징을 집계한다. 우리는 ScanNet200 데이터셋에서 OpenMask3D의 성능을 평가하기 위해 실험과 절제 연구를 수행하고, 오픈-보캐블러리 3D 인스턴스 세그멘테이션 작업에 대한 통찰을 제공한다. 우리의 접근법이 특히 롱-테일 분포에서 다른 오픈-보캐블러리 대안들을 능가함을 보여준다. 더 나아가, OpenMask3D는 폐쇄된 보캐블러리 접근법의 한계를 넘어, 의미론, 기하학, 어포던스, 재질 속성과 같은 객체 속성을 설명하는 자유 형식 쿼리에 기반하여 객체 인스턴스를 세그멘테이션할 수 있게 한다.
자연어(NL) 피드백은 사용자 경험에 대한 풍부한 정보를 담고 있습니다. 기존 연구들은 주로 인스턴스 수준의 접근에 초점을 맞추어, 피드백을 특정 예시를 개선하는 데 사용하며 시스템 전반에 적용하는 것을 간과해 왔습니다. 본 논문은 자연어 피드백의 시스템 수준 활용을 위한 일반적인 프레임워크를 제안합니다. 우리는 피드백을 활용하여 인간이 참여하는 프로세스 내에서 시스템 수준의 설계 결정을 공식화함으로써 더 나은 모델을 생성하는 방법을 보여줍니다. 특히, 이는 (i) 작업을 위한 메트릭 설계와 (ii) 모델 응답을 개선하기 위한 언어 모델 프롬프트 설계를 통해 이루어집니다. 우리는 검색 쿼리 생성과 대화 응답 생성 개선을 위한 두 가지 사례 연구를 통해 시스템 수준 피드백 사용의 효과를 입증합니다. 시스템 수준 피드백과 인스턴스 수준 피드백의 결합이 추가적인 성능 향상을 가져오며, GPT-3.5가 작성한 피드백보다 인간이 작성한 인스턴스 수준 피드백이 더 근거 있는 개선을 이끌어냄을 보여줍니다. 이는 시스템 구축에 있어 인간 피드백의 중요성을 강조합니다.
신경 필드(Neural Fields)는 뷰 합성 및 장면 재구성 분야에서 인상적인 발전을 이루어 왔습니다. 그러나 이러한 신경 필드를 편집하는 것은 기하학적 및 텍스처 정보가 암묵적으로 인코딩되어 있어 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 텍스트 프롬프트를 사용하여 신경 필드를 제어 가능하게 편집할 수 있는 새로운 프레임워크인 DreamEditor를 제안합니다. DreamEditor는 장면을 메시 기반 신경 필드로 표현함으로써 특정 영역 내에서의 지역적 편집을 가능하게 합니다. DreamEditor는 사전 학습된 텍스트-이미지 확산 모델의 텍스트 인코더를 활용하여 텍스트 프롬프트의 의미에 기반해 편집할 영역을 자동으로 식별합니다. 이후, DreamEditor는 스코어 증류 샘플링(Score Distillation Sampling) [29]을 통해 편집 영역을 최적화하고 해당 영역의 기하학적 구조와 텍스처를 텍스트 프롬프트와 정렬합니다. 광범위한 실험을 통해 DreamEditor가 주어진 텍스트 프롬프트에 따라 실제 장면의 신경 필드를 정확하게 편집하면서도 관련 없는 영역의 일관성을 유지할 수 있음을 입증했습니다. DreamEditor는 매우 현실적인 텍스처와 기하학적 구조를 생성하며, 양적 및 질적 평가 모두에서 기존 연구를 크게 능가하는 성능을 보여줍니다.