번역이 포함된 일일 선별된 AI 연구 논문
언어 모델(Language Models, LMs)은 자연어 처리에 있어 강력한 도구이지만, 모델 규모가 작을 경우 일관되고 유창한 텍스트를 생성하는 데 어려움을 겪는다. GPT-Neo(소형) 또는 GPT-2(소형)와 같이 약 1억 2,500만 개의 매개변수를 가진 모델들은 심도 있는 학습 이후에도 몇 단어를 넘어서는 일관된 영어 텍스트를 생성하기 어렵다. 이는 일관된 영어 텍스트 생성 능력이 더 큰 규모(수억 개 이상의 매개변수)와 복잡한 아키텍처(글로벌 어텐션을 포함한 다층 구조)에서만 나타나는지에 대한 의문을 제기한다. 본 연구에서는 GPT-3.5와 GPT-4로 생성된, 일반적으로 3~4세 아동이 이해할 수 있는 단어들로만 구성된 짧은 이야기들의 합성 데이터셋인 TinyStories를 소개한다. 우리는 TinyStories가 최신 모델들보다 훨씬 작은 규모(총 1,000만 개 미만의 매개변수) 또는 훨씬 단순한 아키텍처(단일 트랜스포머 블록만 포함)를 가진 언어 모델을 훈련하고 평가하는 데 사용될 수 있음을 보여준다. 이러한 모델들은 여전히 여러 문단으로 구성된 다양하고 문법적으로 거의 완벽하며 추론 능력을 보여주는 유창하고 일관된 이야기를 생성할 수 있다. 또한, 우리는 언어 모델 평가를 위한 새로운 패러다임을 제안한다. GPT-4를 활용하여 이러한 모델들이 생성한 콘텐츠를 마치 학생이 작성한 이야기를 (인간) 교사가 채점하듯 평가하는 프레임워크를 제안한다. 이 새로운 패러다임은 모델의 출력이 매우 구조화되어야 하는 기존 벤치마크의 한계를 극복하며, 문법, 창의성, 일관성과 같은 다양한 능력에 대한 다차원적인 점수를 제공한다. 우리는 TinyStories가 특히 저자원 또는 특수 분야에서의 언어 모델 개발, 분석 및 연구를 촉진하고, 언어 모델에서의 언어 능력 발현에 대한 통찰을 제공할 수 있기를 기대한다.
우리는 효율적이고 비자기회귀적인 오디오 생성을 위한 SoundStorm 모델을 소개한다. SoundStorm은 AudioLM의 의미론적 토큰을 입력으로 받으며, 양방향 주의 메커니즘과 신뢰도 기반 병렬 디코딩을 통해 신경 오디오 코덱의 토큰을 생성한다. AudioLM의 자기회귀적 생성 방식과 비교했을 때, 우리의 모델은 동일한 품질의 오디오를 생성하면서도 목소리와 음향 조건에서 더 높은 일관성을 보이며, 두 배 빠른 속도를 자랑한다. SoundStorm은 TPU-v4에서 0.5초 만에 30초 길이의 오디오를 생성한다. 우리는 화자 전환과 각 화자의 목소리를 담은 짧은 프롬프트가 포함된 대본을 제공받아 고품질의 자연스러운 대화 세그먼트를 합성함으로써, 더 긴 시퀀스로 오디오 생성을 확장할 수 있는 우리 모델의 능력을 입증한다.
최근 연구에 따르면 다크 웹에서 사용되는 언어는 서피스 웹과 비교했을 때 명확한 차이점이 있는 것으로 나타났습니다. 다크 웹에 대한 연구는 일반적으로 해당 도메인의 텍스트 분석을 필요로 하기 때문에, 다크 웹에 특화된 언어 모델은 연구자들에게 유용한 통찰을 제공할 수 있습니다. 본 연구에서는 다크 웹 데이터로 사전 학습된 언어 모델인 DarkBERT를 소개합니다. 우리는 다크 웹의 극단적인 어휘 및 구조적 다양성으로 인해 도메인의 적절한 표현을 구축하는 데 방해가 될 수 있는 요소를 극복하기 위해 DarkBERT를 학습시키는 데 사용된 텍스트 데이터를 필터링하고 컴파일하는 과정을 설명합니다. DarkBERT와 기본 모델, 그리고 널리 사용되는 다른 언어 모델들을 평가하여 다크 웹 도메인 특화 모델이 다양한 사용 사례에서 제공하는 이점을 검증합니다. 평가 결과, DarkBERT는 현재의 언어 모델들을 능가하며, 다크 웹에 대한 향후 연구를 위한 가치 있는 자원으로 활용될 수 있음을 보여줍니다.
최근 인공지능(AI) 시스템들은 바둑부터 단백질 접힘에 이르기까지 다양한 "그랜드 챌린지"에서 중요한 이정표를 달성해 왔습니다. 의학 지식을 검색하고 이를 추론하며 의사와 비슷한 수준으로 의학 질문에 답변하는 능력은 오랫동안 그러한 그랜드 챌린지 중 하나로 여겨져 왔습니다. 대형 언어 모델(LLM)은 의학 질문 답변 분야에서 상당한 진전을 촉진했으며, Med-PaLM은 MedQA 데이터셋에서 67.2%의 점수를 기록하며 미국 의사 면허 시험(USMLE) 스타일 질문에서 "합격" 점수를 넘어선 첫 번째 모델이 되었습니다. 그러나 이와 같은 이전 연구들은 특히 모델의 답변을 임상의의 답변과 비교했을 때 상당한 개선의 여지가 있음을 시사했습니다. 여기서 우리는 기본 LLM 개선(PaLM 2), 의학 도메인 파인튜닝, 그리고 새로운 앙상블 정제 접근법을 포함한 프롬프트 전략을 결합하여 이러한 격차를 해소한 Med-PaLM 2를 소개합니다. Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 점수를 기록하며, Med-PaLM보다 19% 이상 향상된 성능을 보여주고 새로운 최첨단 기술을 설정했습니다. 또한 우리는 MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋에서도 최첨단 기술에 근접하거나 이를 초과하는 성능을 관찰했습니다. 우리는 임상 응용과 관련된 여러 측면에서 장문형 질문에 대한 상세한 인간 평가를 수행했습니다. 1066개의 소비자 의학 질문에 대한 쌍별 비교 순위에서, 의사들은 임상 유용성과 관련된 9개 측면 중 8개에서 Med-PaLM 2의 답변을 의사가 작성한 답변보다 선호했습니다(p < 0.001). 또한, LLM의 한계를 탐구하기 위해 새로 도입된 240개의 장문형 "적대적" 질문 데이터셋에서도 Med-PaLM과 비교하여 모든 평가 측면에서 상당한 개선을 관찰했습니다(p < 0.001). 이러한 모델들의 실제 환경에서의 효능을 검증하기 위해서는 추가 연구가 필요하지만, 이러한 결과들은 의학 질문 답변 분야에서 의사 수준의 성능으로의 빠른 진전을 강조합니다.
방대한 소스 코드로 사전 학습된 대규모 언어 모델(LLMs)은 코드 인텔리전스 분야에서 두드러진 진전을 이루었습니다. 그러나 기존의 코드 LLM들은 아키텍처와 사전 학습 과제 측면에서 두 가지 주요 한계를 가지고 있습니다. 첫째, 이들은 특정 아키텍처(인코더 전용 또는 디코더 전용)를 채택하거나 다양한 다운스트림 작업에 대해 통합된 인코더-디코더 네트워크에 의존하는 경우가 많습니다. 전자의 패러다임은 응용 프로그램에서 유연성이 부족하다는 한계가 있으며, 후자의 경우 모델이 모든 작업에 대해 단일 시스템으로 취급되어 일부 작업에서 최적의 성능을 발휘하지 못합니다. 둘째, 이들은 종종 제한된 사전 학습 목표 세트를 사용하는데, 이는 일부 다운스트림 작업과 관련이 없을 수 있어 상당한 성능 저하를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 다양한 다운스트림 코드 작업에 적합하도록 구성 요소 모듈을 유연하게 결합할 수 있는 인코더-디코더 LLM 제품군인 ``CodeT5+''를 제안합니다. 이러한 유연성은 사전 학습과 미세 조정 간의 불일치를 완화하기 위해 제안된 혼합 사전 학습 목표에 의해 가능해집니다. 이러한 목표는 단일 모드 및 이중 모드 다국어 코드 코퍼스에서 스팬 노이즈 제거, 대조 학습, 텍스트-코드 매칭, 그리고 인과적 언어 모델 사전 학습 과제를 포함합니다. 또한, 우리는 처음부터 학습하지 않고 기존의 LLM을 고정된 상태로 초기화하여 모델을 효율적으로 확장하고, 자연어 지시에 맞추기 위해 지시 튜닝을 탐구합니다. 우리는 CodeT5+를 제로샷, 미세 조정, 지시 튜닝 등 다양한 설정에서 20개 이상의 코드 관련 벤치마크에 대해 광범위하게 평가합니다. 코드 생성 및 완성, 수학 프로그래밍, 텍스트-코드 검색 작업과 같은 다양한 코드 관련 작업에서 최첨단(SoTA) 모델 성능을 관찰합니다. 특히, 우리의 지시 튜닝된 CodeT5+ 16B는 HumanEval 코드 생성 작업에서 다른 오픈 코드 LLM 대비 새로운 SoTA 결과를 달성합니다.
GPT-3 및 GPT-4와 같은 대형 언어 모델(LLMs)은 강력하지만, 그 가중치(weights)가 공개적으로 제공되지 않는 경우가 많으며, 그 거대한 크기로 인해 일반적인 하드웨어로는 이러한 모델을 미세 조정(tuning)하기가 어렵습니다. 결과적으로, 대규모 지도 학습 데이터를 사용하여 이러한 모델을 효과적으로 조정하는 것은 어려운 과제가 될 수 있습니다. 대안으로, 인-컨텍스트 학습(In-Context Learning, ICL)은 컨텍스트 길이 제한으로 인해 소량의 지도 학습 예제만을 사용할 수 있습니다. 본 논문에서는 블랙박스 LLMs가 로컬에서 미세 조정된 더 작은 모델과 협력할 수 있도록 하는 Super In-Context Learning(SuperICL)을 제안하며, 이를 통해 지도 학습 작업에서 우수한 성능을 달성할 수 있습니다. 우리의 실험은 SuperICL이 최신 미세 조정 모델을 넘어서는 성능 향상을 제공할 뿐만 아니라, 인-컨텍스트 학습의 불안정성 문제를 해결할 수 있음을 보여줍니다. 또한, SuperICL은 다국어 처리 및 해석 가능성과 같은 더 작은 모델의 기능을 향상시킬 수 있습니다.
텍스트 기반 인간 동작 생성은 애니메이션과 로봇공학에 이르는 광범위한 응용 분야로 인해 상당한 관심을 받고 있습니다. 최근, 동작 생성에 확산 모델(diffusion model)을 적용함으로써 생성된 동작의 품질이 향상되었습니다. 그러나 기존 접근법은 비교적 소규모의 모션 캡처 데이터에 의존함으로써 제한적이며, 이로 인해 더 다양하고 실제 환경에 가까운 프롬프트에 대해 낮은 성능을 보이는 문제가 있습니다. 본 논문에서는 대규모 이미지-텍스트 데이터셋으로부터 더 다양한 자세와 프롬프트를 학습함으로써 기존 연구 대비 성능을 크게 개선한 텍스트 조건부 인간 동작 생성 모델인 Make-An-Animation을 소개합니다. Make-An-Animation은 두 단계로 학습됩니다. 첫째, 이미지-텍스트 데이터셋에서 추출한 (텍스트, 정적 가상 자세) 쌍으로 구성된 대규모 데이터셋에 대해 학습합니다. 둘째, 모션 캡처 데이터에 대해 미세 조정(fine-tuning)을 수행하며, 시간 차원을 모델링하기 위해 추가 레이어를 도입합니다. 기존의 동작 생성용 확산 모델과 달리, Make-An-Animation은 최근의 텍스트-투-비디오 생성 모델과 유사한 U-Net 아키텍처를 사용합니다. 인간 평가를 통해 동작의 현실감과 입력 텍스트와의 정렬성을 측정한 결과, 본 모델이 텍스트-투-모션 생성 분야에서 최첨단 성능을 달성함을 확인했습니다.
디퓨전 모델은 뛰어난 성능으로 인해 이미지 생성 분야에서 상당한 주목을 받아왔습니다. 최근에는 시퀀스 내 모든 토큰을 동시에 생성하는 방식을 통해 텍스트 생성 분야로도 그 성공을 확장하고 있습니다. 그러나 자연어는 이미지에 비해 훨씬 더 강한 순차적 의존성을 보이며, 대부분의 기존 언어 모델은 왼쪽에서 오른쪽으로의 자기회귀(auto-regressive) 방식을 활용해 학습됩니다. 자연어의 본질적인 순차적 특성을 고려하기 위해, 우리는 자기회귀 디퓨전(Auto-Regressive Diffusion, AR-Diffusion)을 제안합니다. AR-Diffusion은 오른쪽 토큰의 생성이 왼쪽에 생성된 토큰에 의존하도록 보장하며, 이는 토큰 위치에 따라 동적으로 변하는 디노이징(denoising) 단계 수를 활용해 구현됩니다. 이를 통해 왼쪽 토큰은 오른쪽 토큰보다 더 적은 디노이징 단계를 거치게 되어 더 빨리 생성되고, 이후 오른쪽 토큰의 생성에 영향을 미칠 수 있습니다. 텍스트 요약, 기계 번역, 상식 생성 등 다양한 텍스트 생성 작업에 대한 일련의 실험에서 AR-Diffusion은 기존 디퓨전 언어 모델을 명확히 능가하는 성능을 보였으며, 동등한 결과를 달성할 때 최대 100배에서 600배까지 더 빠른 속도를 보였습니다. 우리의 코드는 공개될 예정입니다.
우리는 심볼 튜닝(symbol tuning)을 제안합니다. 이는 자연어 레이블(예: "긍정적/부정적 감정")을 임의의 심볼(예: "foo/bar")로 대체한 입력-레이블 쌍을 컨텍스트 내에서 언어 모델에 미세 조정하는 방법입니다. 심볼 튜닝은 모델이 작업을 이해하기 위해 지시문이나 자연어 레이블을 사용할 수 없을 때, 대신 입력-레이블 매핑을 학습해야 한다는 직관을 활용합니다. 우리는 540B 파라미터 규모의 Flan-PaLM 모델에 걸쳐 심볼 튜닝을 실험하고 다양한 설정에서의 이점을 관찰했습니다. 첫째, 심볼 튜닝은 보지 못한 컨텍스트 내 학습 작업에서 성능을 향상시키며, 지시문이나 자연어 레이블이 없는 불완전한 프롬프트에 대해 훨씬 더 강건합니다. 둘째, 심볼 튜닝된 모델은 알고리즘적 추론 작업에서 훨씬 더 강력한 성능을 보이며, List Functions 벤치마크에서 최대 18.2%, Simple Turing Concepts 벤치마크에서 최대 15.3% 더 나은 성능을 달성했습니다. 마지막으로, 심볼 튜닝된 모델은 컨텍스트 내에서 제시된 뒤집힌 레이블을 따라가는 데 큰 개선을 보여, 이전의 의미론적 지식을 재정의하기 위해 컨텍스트 내 정보를 사용하는 능력이 더 뛰어납니다.
대화형 추천 시스템(Conversational Recommender System, CRS)은 사용자가 실시간 다중 턴 대화를 통해 시스템과 상호작용할 수 있도록 함으로써 투명성과 제어력을 높여줍니다. 최근 대규모 언어 모델(Large Language Models, LLMs)은 자연스러운 대화 능력과 세계 지식 및 상식적 추론을 언어 이해에 통합하는 전례 없는 능력을 보여주며, 이 패러다임의 잠재력을 개방했습니다. 그러나 CRS 내에서 LLMs를 효과적으로 활용하는 것은 복잡한 대화를 올바르게 이해하고 제어하며 외부 정보 소스에서 검색하는 것과 같은 새로운 기술적 과제를 도입합니다. 이러한 문제는 크고 진화하는 아이템 코퍼스와 훈련을 위한 대화 데이터의 부족으로 인해 더욱 악화됩니다. 본 논문에서는 LLMs를 사용하여 대규모 종단간(end-to-end) CRS를 구축하기 위한 로드맵을 제시합니다. 특히, LLMs로 구동되는 통합 아키텍처의 일부로 사용자 선호도 이해, 유연한 대화 관리 및 설명 가능한 추천을 위한 새로운 구현 방안을 제안합니다. 개인화를 개선하기 위해, LLM이 해석 가능한 자연어 사용자 프로필을 소비하고 이를 세션 수준의 컨텍스트를 조정하는 데 사용하는 방법을 설명합니다. 기존의 생산 CRS가 없는 상황에서 대화 데이터의 한계를 극복하기 위해, 합성 대화를 생성할 수 있는 제어 가능한 LLM 기반 사용자 시뮬레이터를 구축하는 기술을 제안합니다. 개념 증명으로, LaMDA를 기반으로 YouTube 동영상을 위한 대규모 CRS인 RecLLM을 소개하고, 몇 가지 예시 대화를 통해 그 유창성과 다양한 기능을 입증합니다.
컨텍스트 내 학습(In-context learning)은 사전 학습된 언어 모델이 주어진 컨텍스트 내의 작업 예시와 지시를 통해 새로운 작업을 수행하는 방법으로, NLP 커뮤니티에서 많은 관심을 받고 있습니다. 그러나 언어 모델은 컨텍스트 내 학습을 명시적으로 학습하도록 훈련되지 않았기 때문에, 이러한 능력이 충분히 활용되지 않고 있습니다. 이를 해결하기 위해, 우리는 PICL(Pre-training for In-Context Learning)을 제안합니다. PICL은 일반 텍스트 코퍼스에 포함된 다양한 "내재적 작업(intrinsic tasks)"을 단순한 언어 모델링 목표로 사전 학습함으로써 언어 모델의 컨텍스트 내 학습 능력을 향상시키는 프레임워크입니다. PICL은 모델이 컨텍스트를 조건으로 하여 작업을 추론하고 수행하도록 유도하면서도, 사전 학습된 모델의 작업 일반화 능력을 유지합니다. 우리는 PICL로 훈련된 모델의 컨텍스트 내 학습 성능을 7개의 널리 사용되는 텍스트 분류 데이터셋과 100개 이상의 NLP 작업을 텍스트 생성으로 구성한 Super-NaturalInstructions 벤치마크에서 평가했습니다. 실험 결과, PICL은 다양한 베이스라인보다 더 효과적이고 작업 일반화 가능성이 높았으며, 매개변수가 약 4배 더 큰 언어 모델을 능가하는 성능을 보였습니다. 코드는 https://github.com/thu-coai/PICL에서 공개되어 있습니다.
완전 자동화된 객체 재구성 파이프라인은 디지털 콘텐츠 제작에 있어 매우 중요합니다. 3D 재구성 분야는 큰 발전을 이루었지만, 깔끔한 객체 모델을 얻기 위한 배경 제거 작업은 여전히 바운딩 박스 라벨링, 마스크 주석, 메시 조작 등 다양한 형태의 수작업에 의존하고 있습니다. 본 논문에서는 다중 뷰 이미지로부터 객체를 자동으로 탐지하고 재구성하기 위한 새로운 프레임워크인 AutoRecon을 제안합니다. 우리는 자기 지도 학습(self-supervised) 2D 비전 트랜스포머(ViT) 특징을 활용하여 SfM 포인트 클라우드에서 전경 객체를 강력하게 위치 파악 및 분할할 수 있음을 보여줍니다. 이후, 분해된 포인트 클라우드가 제공하는 조밀한 감독(dense supervision)을 통해 분해된 신경 장면 표현(neural scene representations)을 재구성함으로써 정확한 객체 재구성 및 분할을 달성합니다. DTU, BlendedMVS 및 CO3D-V2 데이터셋에서의 실험을 통해 AutoRecon의 효과성과 견고성을 입증하였습니다.
대규모 범용 언어 모델에 대한 인간이 이해 가능한 설명을 얻는 것은 AI 안전을 위한 시급한 목표입니다. 그러나 해석 가능성 방법이 모델 행동의 근본적인 인과적 역학에 충실하고, 보이지 않는 입력에 대해 견고하게 일반화할 수 있는 것 역시 중요합니다. 분산 정렬 탐색(Distributed Alignment Search, DAS)은 인과적 추상화 이론에 기반을 둔 강력한 경사 하강법으로, 특정 작업에 맞게 미세 조정된 소규모 딥러닝 모델과 해석 가능한 기호 알고리즘 간의 완벽한 정렬을 발견했습니다. 본 논문에서는 남아 있는 무차별 대입 탐색 단계를 학습된 매개변수로 대체함으로써 DAS를 크게 확장합니다. 이를 통해 대규모 언어 모델이 지시를 따르는 동안 해석 가능한 인과적 구조를 효율적으로 탐색할 수 있습니다. 우리는 DAS를 Alpaca 모델(70억 개의 매개변수)에 적용했으며, 이 모델은 기본적으로 간단한 수치 추론 문제를 해결합니다. DAS를 통해 우리는 Alpaca가 두 개의 해석 가능한 부울 변수를 가진 인과 모델을 구현함으로써 이를 수행한다는 것을 발견했습니다. 또한, 이러한 변수와 신경망 표현 간의 정렬이 입력과 지시의 변화에 대해 견고함을 확인했습니다. 이러한 발견은 우리가 가장 크고 널리 배포된 언어 모델의 내부 작동을 깊이 이해하기 위한 첫걸음입니다.
자연어 인터페이스는 종종 사용자 요청을 프로그램, 데이터베이스 쿼리 또는 기타 구조화된 의도 표현으로 변환하기 위해 지도 학습 데이터를 필요로 합니다. 데이터 수집 과정에서 사용자 요구의 전체 범위를 예측하고 형식화하는 것은 어려울 수 있습니다. 예를 들어, 간단한 요청(예: 내일의 회의를 찾아줘 또는 매니저와의 회의를 정오로 옮겨줘)을 처리하도록 설계된 시스템에서 사용자는 더 복잡한 요청(예: 월요일과 화요일에 있는 모든 통화를 바꿔줘)을 표현할 수도 있습니다. 우리는 계층적 자연어 분해 과정을 통해 간단한 언어-코드 모델이 복잡한 발화를 처리할 수 있도록 하는 접근 방식을 소개합니다. 우리의 접근 방식은 사전 훈련된 언어 모델을 사용하여 복잡한 발화를 더 작은 자연어 단계의 시퀀스로 분해한 다음, 각 단계를 언어-코드 모델을 사용해 해석합니다. 이 접근 방식을 테스트하기 위해 우리는 DeCU(Decomposition of Complex Utterances)라는 새로운 NL-to-program 벤치마크를 수집하고 공개합니다. 실험 결과, 제안된 접근 방식은 거의 복잡한 훈련 데이터 없이도 복잡한 발화를 해석할 수 있으며, 표준 퓨샷 프롬프팅 접근 방식을 능가하는 성능을 보여줍니다.
대조 학습(contrastive learning)은 다중 모달 표현(multimodal representations)을 학습하기 위한 효율적인 프레임워크로 부상했습니다. 이 분야의 선구적인 연구인 CLIP은 대조 손실(contrastive loss)을 사용하여 이미지-텍스트 쌍 데이터를 학습함으로써 인상적인 결과를 달성했습니다. 최근 연구에서는 자기 지도 학습(self-supervised learning)에서 영감을 받은 추가적인 비대조 손실(non-contrastive losses)을 사용하여 CLIP을 개선했다고 주장합니다. 그러나 이러한 추가 손실의 기여를 모델 학습에 사용된 데이터 증강(data augmentation)이나 정규화 기술(regularization techniques)과 같은 다른 구현 세부 사항과 분리하기는 때때로 어렵습니다. 이 문제를 명확히 하기 위해, 본 논문에서는 먼저 대조 학습과 최근 자기 지도 학습의 발전을 결합하여 얻은 여러 베이스라인을 제안, 구현 및 평가합니다. 특히, 시각적 자기 지도 학습에서 성공적으로 입증된 손실 함수를 사용하여 이미지와 텍스트 모달리티를 정렬합니다. 우리는 이러한 베이스라인이 기본 CLIP 구현을 능가한다는 사실을 발견했습니다. 그러나 더 강력한 학습 레시피를 사용할 경우, 이러한 이점은 사라집니다. 실제로, 간단한 CLIP 베이스라인도 다른 하위 분야에서 널리 사용되는 잘 알려진 학습 기술을 적용함으로써 다운스트림 제로샷(zero-shot) 작업에서 최대 25%의 상대적 개선을 달성할 수 있음을 확인했습니다. 또한, 이전 연구에서 달성한 대부분의 개선을 보완하기 위해서는 이미지와 텍스트 증강을 적용하는 것만으로 충분하다는 사실을 발견했습니다. 우리가 개선한 CLIP 학습 레시피를 사용하여, 네 가지 표준 데이터셋에서 최첨단 성능을 달성했으며, 이전 연구를 일관되게 능가했으며(가장 큰 데이터셋에서 최대 +4%), 훨씬 더 간단한 방법을 사용했습니다.
최근 멀티모달 사전 학습 방법의 발전은 3D 모달리티, 그에 대응하는 2D 모달리티, 그리고 해당 언어 모달리티 간의 특징을 정렬함으로써 3D 표현 학습에서 유망한 효능을 보여주고 있습니다. 그러나 기존 멀티모달 사전 학습 프레임워크가 3D 애플리케이션을 위해 멀티모달 데이터를 수집하는 데 사용하는 방법은 확장성과 포괄성이 부족하여 멀티모달 학습의 전체 잠재력을 제한할 가능성이 있습니다. 주요 병목 현상은 언어 모달리티의 확장성과 포괄성에 있습니다. 이 병목 현상을 해결하기 위해, 우리는 최첨단 멀티모달 대형 언어 모델(LLM)을 활용하여 3D 객체에 대한 포괄적인 언어 대응물을 자동으로 생성하는 멀티모달 사전 학습 프레임워크인 ULIP-2를 소개합니다. 우리는 Objaverse와 ShapeNet55라는 두 대규모 데이터셋에 대해 실험을 수행하고, 생성된 세 가지 모달리티 트리플릿 데이터셋(3D 포인트 클라우드 - 이미지 - 언어)인 "ULIP-Objaverse Triplets"와 "ULIP-ShapeNet Triplets"를 공개합니다. ULIP-2는 3D 데이터 자체만을 필요로 하며 수동 주석 작업을 전혀 필요로 하지 않아 확장성을 입증했습니다. 또한 ULIP-2는 ModelNet40에서의 다운스트림 제로샷 분류에서 놀라운 개선을 달성했습니다(74% Top1 정확도). 더 나아가, ULIP-2는 실세계 ScanObjectNN 벤치마크에서 새로운 기록을 세웠습니다(91.5% 전체 정확도). 이는 단 140만 개의 파라미터(현재 SOTA 대비 약 10배 적음)만을 사용하면서도 인간 주석 없이 확장 가능한 멀티모달 3D 표현 학습에서의 돌파구를 의미합니다. 코드와 데이터셋은 https://github.com/salesforce/ULIP에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 자연어 처리 분야에서 상당한 진전을 이루었지만, 특히 도메인 특화 작업에서 모델 크기가 커짐에 따라 계산 비용과 비효율성 문제에 직면하고 있습니다. 반면, 소형 언어 모델(SLMs)은 제한된 용량과 학습 데이터로 인해 이러한 작업에서 어려움을 겪는 경우가 많습니다. 본 논문에서는 LLMs를 활용한 생성적 데이터 증강을 통해 SLMs의 성능을 개선하는 Dr. LLaMA 방법을 소개하며, 의학 질의응답 작업과 PubMedQA 데이터셋에 초점을 맞추고 있습니다. 연구 결과에 따르면, LLMs는 기존 질문-답변 쌍을 효과적으로 정제하고 다양화하여, 도메인 특화 QA 데이터셋에서 훨씬 더 작은 모델의 성능을 미세 조정 후 개선할 수 있음을 보여줍니다. 이 연구는 도메인 특화 질의응답을 위해 LLMs를 사용할 때의 과제를 강조하고, 이러한 한계를 해결하기 위한 잠재적인 연구 방향을 제시함으로써, 특수 목적을 위한 더 효율적이고 능력 있는 모델을 만드는 것을 궁극적인 목표로 합니다. 또한, 관심 있는 연구자들을 위해 코드를 공개하였습니다.
마스크드 언어 모델(Masked Language Models, MLMs)은 자동 음성 인식(Automatic Speech Recognition, ASR) 시스템에서 두 번째 단계의 재점수화(second-pass rescoring)에 효과적인 것으로 입증되었습니다. 본 연구에서는 MLM의 입력 공간에 음향적 표현을 통합한 다중 모달 마스크드 언어 모델 재점수화기인 Masked Audio Text Encoder(MATE)를 제안합니다. 우리는 대조 학습(contrastive learning)을 채택하여 모달리티 간의 공유 표현을 학습함으로써 효과적으로 정렬합니다. 다중 모달 재점수화기를 사용하면 대상 도메인 데이터가 없는 경우 ASR 시스템의 도메인 일반화에 유리함을 보여줍니다. MATE는 텍스트 전용 기준선 대비 도메인 내 데이터셋에서 4%~16%, 도메인 외 데이터셋에서 3%~7%의 단어 오류율(Word Error Rate, WER)을 감소시켰습니다. 또한, 매우 제한된 양의 학습 데이터(0.8시간)로도 MATE는 첫 번째 단계 기준선 대비 8%~23%의 WER 감소를 달성했습니다.
최근 연구에 따르면, 문장 수준의 번역 순위 지정 작업으로 학습된 듀얼 인코더 모델이 교차 언어 문장 임베딩에 효과적인 방법으로 나타났습니다. 그러나 우리의 연구는 다국어 시나리오에서 토큰 수준 정렬 또한 중요하며, 이는 이전에 충분히 탐구되지 않았음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 문장 수준과 토큰 수준 정렬을 모두 통합한 교차 언어 문장 임베딩을 위한 이중 정렬 사전 학습(DAP) 프레임워크를 제안합니다. 이를 위해, 모델이 한쪽의 문맥화된 토큰 표현을 사용하여 번역된 상대방을 재구성하도록 학습하는 새로운 표현 번역 학습(RTL) 작업을 도입했습니다. 이 재구성 목표는 모델이 토큰 표현에 번역 정보를 임베딩하도록 장려합니다. 번역 언어 모델링과 같은 다른 토큰 수준 정렬 방법과 비교할 때, RTL은 듀얼 인코더 아키텍처에 더 적합하며 계산적으로 효율적입니다. 세 가지 문장 수준의 교차 언어 벤치마크에서의 광범위한 실험은 우리의 접근 방식이 문장 임베딩을 크게 개선할 수 있음을 입증합니다. 우리의 코드는 https://github.com/ChillingDream/DAP에서 확인할 수 있습니다.
전례 없는 성공에도 불구하고, 가장 큰 언어 모델들조차 실수를 저지릅니다. 인간이 피드백을 통해 학습하고 개선하는 방식과 유사하게, 기존 연구에서는 언어 모델이 출력을 수정하도록 자연어 피드백을 제공하는 방법을 제안했습니다. 인간이 생성한 비평은 얻는 데 비용이 많이 들기 때문에, 연구자들은 인간 비평가 대신 학습된 비평 생성기를 고안했으며, 생성된 피드백을 활용하도록 다운스트림 모델을 훈련할 수 있다고 가정했습니다. 그러나 이 접근 방식은 ChatGPT와 같은 블랙박스 또는 제한된 접근 모델에는 적용할 수 없습니다. 왜냐하면 이러한 모델들은 미세 조정(fine-tuning)이 불가능하기 때문입니다. 더욱이, 대규모 범용 언어 에이전트의 시대에서 미세 조정은 계산적으로나 공간적으로 효율적이지 않으며, 이는 네트워크의 여러 복사본을 초래합니다. 본 연구에서는 RL4F(Reinforcement Learning for Feedback)를 소개합니다. 이는 비평 생성기가 GPT-3와 같은 고정된 모델(자신보다 200배 이상 큰 모델)의 최종 작업 성능을 극대화하도록 훈련되는 다중 에이전트 협업 프레임워크입니다. RL4F는 GPT-3가 출력을 수정하는 데 도움이 되는 비평을 생성합니다. 우리는 행동 계획, 요약 및 알파벳 순서화를 위한 세 가지 데이터셋을 연구하고, 세 가지 작업 모두에서 강력한 베이스라인 대비 여러 텍스트 유사성 지표에서 평균 약 5%의 개선을 보여줍니다.
본 논문은 언어 모델을 활용하여 ChatGPT 생성 텍스트와 인간 작성 텍스트를 탐지하는 새로운 접근 방식을 제시한다. 이를 위해 먼저 ChatGPT를 사용해 재구성된 콘텐츠로 구성된 전처리된 데이터셋인 OpenGPTText를 수집 및 공개하였다. 이후 Robustly Optimized BERT Pretraining Approach(RoBERTa)와 Text-to-Text Transfer Transformer(T5)를 각각 사용하여 텍스트 분류를 위한 두 가지 모델을 설계, 구현, 학습시켰다. 우리의 모델은 다양한 평가 지표를 통해 테스트 데이터셋에서 97% 이상의 정확도를 달성하며 뛰어난 성과를 보였다. 더불어, 인간 작성 텍스트와 ChatGPT 생성 텍스트 간의 주요 특징을 추출하고 구분하는 모델의 능력을 보여주기 위해 해석 가능성 연구를 수행하였다. 본 연구 결과는 생성 텍스트 탐지를 위한 언어 모델의 효과적 활용에 대한 중요한 통찰을 제공한다.