번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 다양한 작업에서 뛰어난 성능을 보이지만, 상당한 인간의 노력이 요구되는 정교하게 설계된 프롬프트에 의존합니다. 이 과정을 자동화하기 위해, 본 논문에서는 진화 알고리즘(EA)의 아이디어를 차용한 이산 프롬프트 최적화를 위한 새로운 프레임워크인 EvoPrompt를 제안합니다. EA는 우수한 성능과 빠른 수렴 속도를 보이기 때문에 이를 활용했습니다. 이산 프롬프트, 즉 일관적이고 인간이 읽을 수 있는 자연어 표현에 EA를 적용하기 위해, LLMs와 EA를 연결했습니다. 이 접근법은 LLMs의 강력한 언어 처리 능력과 EA의 효율적인 최적화 성능을 동시에 활용할 수 있게 합니다. 구체적으로, EvoPrompt는 그라디언트나 매개변수를 사용하지 않고, 초기 프롬프트 집단에서 시작하여 진화 연산자를 기반으로 LLMs를 사용해 새로운 프롬프트를 반복적으로 생성하고, 개발 세트를 기반으로 집단을 개선합니다. GPT-3.5와 Alpaca를 포함한 오픈소스 및 클로즈드소스 LLMs에 대해, 언어 이해 및 생성 작업을 아우르는 9개의 데이터셋에서 프롬프트를 최적화했습니다. EvoPrompt는 인간이 설계한 프롬프트와 기존의 자동 프롬프트 생성 방법을 각각 최대 25%와 14%까지 크게 능가했습니다. 더 나아가, EvoPrompt는 LLMs와 EA를 연결함으로써 시너지를 창출할 수 있음을 보여주며, 이는 LLMs와 전통적인 알고리즘의 결합에 대한 추가 연구를 고무할 수 있습니다.
이전 연구에서는 어텐션의 소프트맥스를 ReLU와 같은 점별(point-wise) 활성화 함수로 대체할 때 정확도 저하가 관찰되었습니다. 비전 트랜스포머의 맥락에서, 우리는 시퀀스 길이로 나누면 이러한 성능 저하가 완화된다는 사실을 발견했습니다. ImageNet-21k 데이터셋에서 소규모부터 대규모까지의 비전 트랜스포머를 학습한 실험 결과, ReLU 기반 어텐션은 계산량에 따른 스케일링 행동 측면에서 소프트맥스 기반 어텐션의 성능에 근접하거나 동등한 수준을 보일 수 있음을 확인했습니다.
신경망의 내부 작동을 더 잘 이해하는 데 방해가 되는 요소 중 하나는 다의성(polysemanticity)입니다. 다의성은 뉴런이 여러 의미적으로 구별되는 맥락에서 활성화되는 것처럼 보이는 현상을 말합니다. 다의성은 신경망이 내부적으로 수행하는 작업에 대해 간결하고 인간이 이해할 수 있는 설명을 찾는 것을 방해합니다. 다의성의 한 가지 가설적 원인은 중첩(superposition)입니다. 중첩은 신경망이 개별 뉴런에 특성을 할당하는 대신, 활성화 공간에서 과완전한(overcomplete) 방향 집합에 특성을 할당함으로써 자신이 가진 뉴런 수보다 더 많은 특성을 표현하는 현상을 말합니다. 본 연구에서는 언어 모델의 내부 활성화를 재구성하기 위해 희소 오토인코더(sparse autoencoders)를 사용하여 이러한 방향을 식별하려고 합니다. 이러한 오토인코더는 대안적인 접근법으로 식별된 방향보다 더 해석 가능하고 단의적(monosemantic)인 희소 활성화 특성 집합을 학습하며, 여기서 해석 가능성은 자동화된 방법으로 측정됩니다. 이러한 특성을 제거(ablating)함으로써 예를 들어 대명사 예측과 같은 기능을 제거하면서도 이전 기술보다 모델 동작을 덜 방해하는 정밀한 모델 편집이 가능합니다. 이 연구는 확장 가능한 비지도 방법을 사용하여 언어 모델에서 중첩을 해결할 수 있음을 보여줍니다. 우리의 방법은 향후 기계적 해석 가능성(mechanistic interpretability) 연구의 기초가 될 수 있으며, 이를 통해 더 큰 모델 투명성과 조종 가능성(steerability)을 가능하게 할 것으로 기대합니다.
우리는 대규모 데이터셋(즉, "파운데이션 모델")으로 학습된 트랜스포머의 스케일링 동작에 대한 파라미터 희소성의 영향을 시각 및 언어 도메인 모두에서 탐구한다. 이 설정에서, 우리는 가중치 희소성, 비제로 파라미터 수, 그리고 학습 데이터 양 사이의 관계를 설명하는 첫 번째 스케일링 법칙을 식별하고, 이를 ViT/JFT-4B 및 T5/C4 모델과 데이터 스케일 전반에 걸쳐 실증적으로 검증한다. 이러한 결과를 통해 주어진 효과적 모델 크기와 학습 예산에 대해 최고의 성능을 제공하는 "최적 희소성"을 특성화할 수 있다. 고정된 비제로 파라미터 수에 대해, 최적 희소성은 학습에 사용된 데이터 양이 증가함에 따라 증가함을 확인한다. 또한, 우리의 연구를 하드웨어 친화적인 n:m 패턴과 같은 다양한 희소성 구조와 사전 학습된 밀집 모델에서 시작하는 전략과 같은 다양한 전략으로 확장한다. 우리의 발견은 다양한 파라미터 및 계산 설정 전반에 걸친 가중치 희소성의 힘과 한계를 밝히며, 계산 효율성 개선을 위해 희소성을 활용하는 데 대한 이론적 이해와 실용적 함의를 제공한다.
장기적 목표를 가진 새로운 환경에서 효과적인 결정을 내리기 위해서는 공간적 및 시간적 규모에 걸친 계층적 추론이 필수적이다. 이는 추상적인 하위 목표 시퀀스를 계획하고, 기저에 있는 계획에 대해 시각적으로 추론하며, 시각-운동 제어를 통해 계획된 바에 따라 행동을 실행하는 것을 포함한다. 본 연구에서는 계층적 계획을 위한 구성적 기초 모델(HiP)을 제안한다. 이 기초 모델은 언어, 시각, 행동 데이터에 대해 개별적으로 훈련된 다수의 전문가 기초 모델을 함께 활용하여 장기적 과제를 해결한다. 대규모 언어 모델을 사용하여 환경에 기반을 둔 상징적 계획을 구성하고, 이를 대규모 비디오 확산 모델을 통해 구체화한다. 생성된 비디오 계획은 생성된 비디오로부터 행동을 추론하는 역동학 모델을 통해 시각-운동 제어에 기반을 둔다. 이 계층 내에서 효과적인 추론을 가능하게 하기 위해, 반복적 정제를 통해 모델 간의 일관성을 강화한다. 본 접근법의 효율성과 적응성을 입증하기 위해 세 가지 다른 장기적 테이블탑 조작 과제에서 실험을 수행하였다.
최근 텍스트-오디오(TTA) 생성 분야에서의 진전에도 불구하고, 우리는 AudioCaps와 같은 불균형한 클래스 분포를 가진 데이터셋으로 훈련된 AudioLDM과 같은 최첨단 모델들이 생성 성능에서 편향되어 있음을 보여줍니다. 구체적으로, 이러한 모델들은 일반적인 오디오 클래스에서는 뛰어난 성능을 보이지만 희귀한 클래스에서는 성능이 떨어져 전체 생성 성능을 저하시킵니다. 우리는 이 문제를 '긴 꼬리 텍스트-오디오 생성' 문제라고 부릅니다. 이 문제를 해결하기 위해, 우리는 TTA 모델을 위한 간단한 검색-증강 접근법을 제안합니다. 구체적으로, 입력 텍스트 프롬프트가 주어지면, 먼저 Contrastive Language Audio Pretraining (CLAP) 모델을 활용하여 관련 텍스트-오디오 쌍을 검색합니다. 검색된 오디오-텍스트 데이터의 특징은 TTA 모델의 학습을 안내하는 추가 조건으로 사용됩니다. 우리는 제안된 접근법으로 AudioLDM을 강화하고, 결과적으로 증강된 시스템을 Re-AudioLDM이라고 명명합니다. AudioCaps 데이터셋에서 Re-AudioLDM은 1.37의 최첨단 Frechet Audio Distance (FAD)를 달성하여 기존 접근법을 큰 차이로 능가합니다. 더 나아가, Re-AudioLDM이 복잡한 장면, 희귀 오디오 클래스, 심지어 보지 못한 오디오 유형에 대해서도 현실적인 오디오를 생성할 수 있음을 보여주며, 이는 TTA 작업에서의 잠재력을 시사합니다.
텍스트-이미지 확산 모델은 객체 간의 공간적 관계를 이해하지만, 2D 감독만으로 세계의 진정한 3D 구조를 표현할 수 있을까요? 우리는 Stable Diffusion과 같은 2D 이미지 확산 모델에 3D 지식이 인코딩되어 있으며, 이 구조를 3D 비전 작업에 활용할 수 있음을 보여줍니다. 우리의 방법인 Viewpoint Neural Textual Inversion(ViewNeTI)는 고정된 확산 모델에서 생성된 이미지 내 객체의 3D 시점을 제어합니다. 우리는 작은 신경망 매퍼를 훈련시켜 카메라 시점 매개변수를 입력받고 텍스트 인코더 잠재 변수를 예측하도록 합니다; 이 잠재 변수는 확산 생성 과정을 조건화하여 원하는 카메라 시점을 가진 이미지를 생성합니다. ViewNeTI는 자연스럽게 새로운 시점 합성(Novel View Synthesis, NVS) 문제를 해결합니다. 고정된 확산 모델을 사전 지식으로 활용함으로써, 우리는 매우 적은 수의 입력 뷰로 NVS를 해결할 수 있으며, 심지어 단일 뷰에서의 새로운 시점 합성도 가능합니다. 우리의 단일 뷰 NVS 예측은 기존 방법에 비해 우수한 의미론적 세부 사항과 사실성을 가지고 있습니다. 우리의 접근 방식은 희소 3D 비전 문제에 내재된 불확실성을 모델링하는 데 적합하며, 다양한 샘플을 효율적으로 생성할 수 있습니다. 우리의 시점 제어 메커니즘은 일반적이며, 사용자 정의 프롬프트로 생성된 이미지에서도 카메라 시점을 변경할 수 있습니다.