번역이 포함된 일일 선별된 AI 연구 논문
우리는 음성 이해와 생성을 위한 대규모 언어 모델인 AudioPaLM을 소개합니다. AudioPaLM은 텍스트 기반 언어 모델인 PaLM-2 [Anil et al., 2023]와 음성 기반 언어 모델인 AudioLM [Borsos et al., 2022]를 통합한 멀티모달 아키텍처로, 텍스트와 음성을 처리하고 생성할 수 있으며, 음성 인식 및 음성 간 번역 등의 응용이 가능합니다. AudioPaLM은 AudioLM에서 화자 식별 및 억양과 같은 파라링구스틱 정보를 보존하는 능력과 PaLM-2와 같은 텍스트 대규모 언어 모델에만 존재하는 언어적 지식을 모두 계승합니다. 우리는 텍스트 전용 대규모 언어 모델의 가중치로 AudioPaLM을 초기화함으로써 음성 처리 성능을 향상시킬 수 있음을 보여주며, 사전 학습에 사용된 더 많은 양의 텍스트 데이터가 음성 작업에 도움을 줄 수 있음을 입증합니다. 결과적으로 이 모델은 기존 음성 번역 시스템을 크게 능가하며, 훈련 중에 입력/대상 언어 조합이 보이지 않은 많은 언어에 대해 제로샷 음성-텍스트 번역을 수행할 수 있는 능력을 보여줍니다. 또한 AudioPaLM은 짧은 음성 프롬프트를 기반으로 언어 간 음성을 전환하는 등 오디오 언어 모델의 특징을 보여줍니다. 우리는 이 방법의 예시를 https://google-research.github.io/seanet/audiopalm/examples 에 공개합니다.
최근 제안된 Segment Anything Model(SAM)은 많은 컴퓨터 비전 작업에 큰 영향을 미쳤습니다. 이 모델은 이미지 분할, 이미지 캡션 생성, 이미지 편집과 같은 많은 고수준 작업의 기초 단계로 자리 잡고 있습니다. 그러나 이 모델의 방대한 계산 비용으로 인해 산업 현장에서의 광범위한 적용이 어려운 실정입니다. 이러한 계산 비용은 주로 고해상도 입력에서의 Transformer 아키텍처에서 비롯됩니다. 본 논문에서는 이 기본 작업에 대해 비슷한 성능을 유지하면서 속도를 높이는 대안 방법을 제안합니다. 작업을 세그먼트 생성 및 프롬프트로 재구성함으로써, 일반적인 CNN 검출기에 인스턴스 분할 브랜치를 추가하여도 이 작업을 잘 수행할 수 있음을 발견했습니다. 구체적으로, 이 작업을 잘 연구된 인스턴스 분할 작업으로 변환하고, SAM 저자가 공개한 SA-1B 데이터셋의 1/50만을 사용하여 기존의 인스턴스 분할 방법을 직접 학습시켰습니다. 우리의 방법을 통해 SAM 방법과 비슷한 성능을 유지하면서 50배 더 빠른 실행 속도를 달성했습니다. 이를 입증하기 위해 충분한 실험 결과를 제시하였습니다. 코드와 데모는 https://github.com/CASIA-IVA-Lab/FastSAM에서 공개될 예정입니다.
언어는 우리의 하위 사고에 어떻게 영향을 미치는가? 특히, 인간은 언어로부터 어떻게 의미를 만들어내는가 -- 그리고 우리는 언어적 의미 이론을 활용하여 더 인간적인 방식으로 사고하는 기계를 어떻게 구축할 수 있는가? 본 논문에서 우리는 합리적 의미 구성(rational meaning construction)을 제안한다. 이는 언어의 신경망 모델과 합리적 추론을 위한 확률적 모델을 결합한 언어 기반 사고를 위한 계산 프레임워크이다. 우리는 언어적 의미를 자연어에서 확률적 사고 언어(Probabilistic Language of Thought, PLoT)로의 문맥 의존적 매핑으로 정의한다. PLoT는 확률적이고 생성적인 세계 모델링을 위한 범용 기호 기반이다. 우리의 아키텍처는 이전까지 결합되지 않았던 두 가지 강력한 계산 도구를 통합한다: 우리는 유연한 상식 추론을 위한 표현력 있는 표현인 확률적 프로그램(probabilistic programs)으로 사고를 모델링하고, 대규모 언어 모델(Large Language Models, LLMs)을 사용하여 자연어 발화를 확률적 프로그래밍 언어의 코드 표현으로 광범위하게 변환하는 의미 구성을 모델링한다. 우리는 이 프레임워크를 인지 과학의 네 가지 핵심 영역(확률적 추론, 논리 및 관계적 추론, 시각 및 물리적 추론, 에이전트와 그들의 계획에 대한 사회적 추론)을 다루는 예시를 통해 설명한다. 각 영역에서 우리는 LLM이 실용적으로 적절한 언어적 의미를 포착하는 문맥 의존적 변환을 생성할 수 있음을 보여주며, 생성된 프로그램을 사용한 베이지안 추론이 일관되고 견고한 상식 추론을 지원함을 보여준다. 우리는 이 프레임워크를 확장하여 인지적으로 동기 부여된 기호 모듈을 통합함으로써 언어로부터 통합된 상식 사고 인터페이스를 제공한다. 마지막으로, 언어가 세계 모델 자체의 구성을 어떻게 주도할 수 있는지 탐구한다.
활성화, 가중치, 그래디언트를 4비트로 양자화하는 것은 신경망 학습을 가속화할 수 있는 유망한 방법입니다. 그러나 기존의 4비트 학습 방법들은 현대 하드웨어에서 지원되지 않는 사용자 정의 수치 형식을 필요로 합니다. 본 연구에서는 모든 행렬 곱셈이 INT4 연산으로 구현된 트랜스포머 학습 방법을 제안합니다. 초저정밀도 INT4로 학습하는 것은 도전적인 과제입니다. 이를 달성하기 위해, 우리는 트랜스포머의 활성화와 그래디언트의 특정 구조를 면밀히 분석하여 이를 위한 전용 양자화기를 제안합니다. 순전파에서는 이상치 문제를 식별하고, 이를 억제하기 위해 Hadamard 양자화기를 제안합니다. 역전파에서는 그래디언트의 구조적 희소성을 활용하여 비트 분할 및 레버리지 점수 샘플링 기법을 제안하여 그래디언트를 정확하게 양자화합니다. 우리의 알고리즘은 자연어 이해, 기계 번역, 이미지 분류 등 다양한 작업에서 경쟁력 있는 정확도를 달성합니다. 이전의 4비트 학습 방법들과 달리, 우리의 알고리즘은 현재 세대의 GPU에서 구현될 수 있습니다. 우리의 프로토타입 선형 연산자 구현은 FP16 대비 최대 2.2배 빠르며, 학습 속도를 최대 35.1%까지 향상시킵니다.
우리는 대규모 언어 모델(LLM)을 네트워크 내의 확률적 언어 계층으로 간주하며, 각 계층에서 학습 가능한 매개변수는 자연어 프롬프트입니다. 우리는 이러한 계층을 두 개 쌓아 하나의 계층 출력을 다음 계층으로 전달합니다. 이 쌓인 구조를 딥 언어 네트워크(Deep Language Network, DLN)라고 부릅니다. 먼저, 1계층 언어 네트워크(DLN-1)에서 프롬프트 최적화를 효과적으로 수행하는 방법을 보여줍니다. 그런 다음 두 개의 프롬프트를 학습해야 하는 2계층 DLN(DLN-2)을 훈련하는 방법을 설명합니다. 첫 번째 계층의 출력을 주변화해야 할 잠재 변수로 간주하고, 이를 위해 공동 프롬프트 훈련을 위한 변분 추론 알고리즘을 고안합니다. DLN-2는 단일 계층보다 더 높은 성능을 달성하며, 네트워크 내 각 LLM이 더 작고 덜 강력한 경우에도 가끔은 few-shot GPT-4에 필적하는 성능을 보입니다. DLN 코드는 오픈 소스로 제공됩니다: https://github.com/microsoft/deep-language-networks.
트랜스포머 모델은 지난 몇 년 동안 다양한 분야에서 널리 채택되었으며, 특히 대규모 언어 모델은 AI 분야를 크게 발전시켰습니다. 이러한 네트워크의 규모로 인해 그 능력이 엄청나게 증가했지만, 이는 필요한 계산량의 상당한 증가라는 비용을 수반했습니다. 양자화(Quantization)는 신경망의 계산 시간과 메모리 소비를 줄이는 가장 효과적인 방법 중 하나입니다. 그러나 많은 연구에서 현대 트랜스포머 모델이 활성화(activation)에서 강한 이상치(outliers)를 학습하는 경향이 있어 양자화가 어렵다는 것을 보여주었습니다. 허용 가능한 성능을 유지하기 위해 이러한 이상치의 존재는 더 높은 비트폭(bitwidth)의 활성화, 다른 숫자 형식의 사용, 추가적인 미세 조정(fine-tuning) 또는 기타 해결 방법을 필요로 합니다. 우리는 이러한 강한 이상치가 "no-op"(아무 작업도 하지 않음) 또는 잔차(residual)의 부분적 업데이트를 학습하려는 어텐션 헤드(attention head)의 매우 특정한 행동과 관련이 있음을 보여줍니다. 업데이트가 없는 상태를 위해 어텐션 행렬에서 정확한 0을 달성하기 위해, 소프트맥스(softmax)의 입력이 훈련 중에 점점 더 커지도록 유도되며, 이는 네트워크의 다른 부분에서 이상치를 발생시킵니다. 이러한 관찰을 바탕으로, 우리는 어텐션 메커니즘에 두 가지 간단한 (독립적인) 수정을 제안합니다 - 클리핑된 소프트맥스(clipped softmax)와 게이트 어텐션(gated attention). 우리의 방법을 사용하여 사전 훈련된 모델이 부동소수점(floating-point) 작업 성능을 유지하거나 때로는 개선하면서도 상당히 작은 이상치를 학습한다는 것을 실증적으로 보여줍니다. 이를 통해 추가적인 노력 없이도 트랜스포머를 활성화의 완전한 INT8 양자화로 변환할 수 있습니다. 우리는 언어 모델(BERT, OPT)과 비전 트랜스포머(vision transformers) 모두에서 우리의 방법의 효과를 입증합니다.
수십억 개의 이미지-텍스트 쌍으로 사전 학습된 텍스트-이미지 확산 모델은 최근 점수 증류(score distillation)를 통해 무작위로 초기화된 신경 방사장(NeRF)을 최적화함으로써 텍스트-3D 콘텐츠 생성이 가능해졌습니다. 그러나 생성된 3D 모델은 두 가지 한계를 보입니다: (a) 채도가 과도하거나 야누스 문제(Janus problem)와 같은 품질 문제; (b) 텍스트 기반 이미지 합성에 비해 극도로 낮은 다양성. 본 논문에서는 NeRF 최적화 과정과 점수 증류에서의 균일한 타임스텝 샘플링 간의 충돌이 이러한 한계의 주요 원인임을 보여줍니다. 이 충돌을 해결하기 위해, 우리는 단조 비증가 함수를 사용하여 타임스텝 샘플링을 우선순위화하는 방법을 제안합니다. 이는 NeRF 최적화를 확산 모델의 샘플링 과정과 일치시킵니다. 광범위한 실험을 통해, 우리의 간단한 재설계가 텍스트-3D 콘텐츠 생성의 품질과 다양성을 크게 향상시킨다는 것을 입증합니다.
대규모 텍스트-이미지 확산 모델의 최근 발전은 이미지 편집 분야에서 다양한 응용을 가능하게 했습니다. 그러나 기존의 방법들은 단일 이미지의 레이아웃을 편집하는 데는 한계가 있었습니다. 이러한 격차를 해결하기 위해, 우리는 단일 이미지의 시각적 속성을 보존하면서 레이아웃을 편집할 수 있는 최초의 프레임워크를 제안합니다. 이를 통해 단일 이미지에 대한 지속적인 편집이 가능해집니다. 우리의 접근 방식은 두 가지 핵심 모듈을 통해 구현됩니다. 먼저, 이미지 내 여러 객체의 특성을 보존하기 위해, 우리는 '마스크된 텍스트 인버전'이라는 새로운 방법을 사용하여 서로 다른 객체의 개념을 분리하고 이를 별도의 텍스트 토큰으로 임베딩합니다. 다음으로, 사전 학습된 확산 모델에 대한 레이아웃 제어를 수행하기 위해 학습이 필요 없는 최적화 방법을 제안합니다. 이를 통해 학습된 개념을 기반으로 이미지를 재생성하고 사용자가 지정한 레이아웃에 맞출 수 있습니다. 기존 이미지의 레이아웃을 편집하는 최초의 프레임워크로서, 우리의 방법이 효과적이며 이 작업을 지원하기 위해 수정된 다른 베이스라인들을 능가함을 입증합니다. 우리의 코드는 논문 채택 시 공개적으로 자유롭게 사용할 수 있도록 제공될 예정입니다.
Polis는 기계 지능을 활용하여 의사소통 과정을 확장하는 플랫폼입니다. 본 논문에서는 대규모 언어 모델(LLMs)을 Polis 참여 과정의 촉진, 조정 및 결과 요약과 관련된 과제에 적용할 때의 기회와 위험을 탐구합니다. 특히, Anthropic의 Claude를 사용한 파일럿 실험을 통해 LLMs가 인간의 지능을 보완하여 Polis 대화를 보다 효율적으로 운영하는 데 도움을 줄 수 있음을 입증합니다. 특히, 요약 능력은 대중이 집단적 의미 형성 활동에서 힘을 얻을 수 있는 새로운 방법을 가능하게 하며, 이는 엄청난 잠재력을 가지고 있습니다. 또한, LLM의 컨텍스트 제한은 이러한 결과의 통찰력과 품질에 상당한 영향을 미치는 것으로 나타났습니다. 그러나 이러한 기회에는 위험도 따릅니다. 본 논문에서는 이러한 위험과 이를 특성화하고 완화하기 위한 원칙 및 기술, 그리고 LLMs를 사용할 수 있는 다른 의사결정 또는 정치 시스템에 대한 함의를 논의합니다. 마지막으로, LLMs를 활용하여 Polis와 같은 도구를 보완하기 위한 여러 미래 연구 방향을 제시하며 결론을 맺습니다.
Equivariant Transformer(등변형 트랜스포머) 중 하나인 Equiformer는 3D 원자 시스템 분야에 트랜스포머를 적용하는 데 있어 그 효과를 입증했습니다. 그러나 이러한 모델들은 계산 복잡성으로 인해 여전히 작은 차수의 등변형 표현에 제한되어 있습니다. 본 논문에서는 이러한 아키텍처가 더 높은 차수로 확장될 수 있는지 탐구합니다. Equiformer를 출발점으로, 먼저 SO(3) 컨볼루션을 eSCN 컨볼루션으로 대체하여 더 높은 차수의 텐서를 효율적으로 통합합니다. 그런 다음, 더 높은 차수의 잠재력을 더 잘 활용하기 위해 세 가지 아키텍처 개선 사항을 제안합니다: 주의력 재정규화(attention re-normalization), 분리 가능한 S^2 활성화(separable S^2 activation), 그리고 분리 가능한 레이어 정규화(separable layer normalization). 이를 모두 종합하여 EquiformerV2를 제안하며, 이는 대규모 OC20 데이터셋에서 이전의 최첨단 방법들을 최대 12% 더 나은 힘 예측, 4% 더 나은 에너지 예측으로 능가하고, 더 나은 속도-정확도 균형을 제공하며, 흡착 에너지 계산에 필요한 DFT 계산량을 2배 줄입니다.