번역이 포함된 일일 선별된 AI 연구 논문
최근 LLaMA, Falcon, Mistral과 같은 오픈소스 대규모 언어 모델(LLM)의 급증은 AI 실무자와 연구자들에게 다양한 선택지를 제공하고 있습니다. 그러나 대부분의 LLM은 최종 모델 가중치나 추론 코드와 같은 부분적인 아티팩트만 공개하고 있으며, 기술 보고서는 점점 더 높은 수준의 설계 선택과 표면적인 통계로 범위를 제한하고 있습니다. 이러한 선택은 LLM 훈련 과정의 투명성을 저하시키고 팀들이 훈련 과정의 많은 세부 사항을 재발견하도록 강제함으로써 해당 분야의 진전을 방해하고 있습니다. 우리는 LLM360이라는 완전한 오픈소스 LLM을 위한 이니셔티브를 제안하며, 모든 훈련 코드와 데이터, 모델 체크포인트, 중간 결과를 커뮤니티에 공개할 것을 주장합니다. LLM360의 목표는 엔드투엔드 LLM 훈련 과정을 투명하고 누구나 재현 가능하게 만들어 개방적이고 협력적인 AI 연구를 지원하는 것입니다. LLM360의 첫 번째 단계로, 우리는 처음부터 사전 훈련된 두 개의 7B 파라미터 LLM인 Amber와 CrystalCoder를 공개하며, 이들의 훈련 코드, 데이터, 중간 체크포인트 및 분석을 포함합니다(https://www.llm360.ai에서 확인 가능). 우리는 이 오픈소스 노력을 통해 LLM의 한계를 지속적으로 넓혀 나가기 위해 노력하고 있습니다. 더 대규모이고 강력한 모델들이 진행 중이며, 앞으로 공개될 예정입니다.
인간이 생성한 데이터를 기반으로 언어 모델(LMs)을 미세 조정하는 것은 여전히 널리 사용되는 방법입니다. 그러나 이러한 모델의 성능은 고품질 인간 데이터의 양과 다양성에 의해 종종 제한됩니다. 본 논문에서는 정확성을 검증할 수 있는 수학 문제와 같이 스칼라 피드백에 접근할 수 있는 작업에서 인간 데이터를 넘어설 수 있는지 탐구합니다. 이를 위해 우리는 기대값 최대화(expectation-maximization) 기반의 간단한 자기 학습 방법인 ReST^{EM}을 조사합니다. 이 방법은 (1) 모델에서 샘플을 생성하고 이진 피드백을 사용하여 필터링, (2) 이러한 샘플로 모델을 미세 조정, (3) 이 과정을 몇 번 반복하는 단계로 구성됩니다. PaLM-2 모델을 사용하여 고급 MATH 추론 및 APPS 코딩 벤치마크에서 테스트한 결과, ReST^{EM}은 모델 크기에 따라 유리하게 확장되며 인간 데이터만으로 미세 조정한 경우를 크게 능가하는 것으로 나타났습니다. 전반적으로, 우리의 연구 결과는 피드백을 통한 자기 학습이 인간 생성 데이터에 대한 의존성을 크게 줄일 수 있음을 시사합니다.
우리는 확산 모델링을 통해 사실적인 비디오 생성을 가능하게 하는 트랜스포머 기반 접근법인 W.A.L.T를 소개한다. 우리의 접근법은 두 가지 주요 설계 결정을 포함한다. 첫째, 이미지와 비디오를 통합된 잠재 공간 내에서 공동으로 압축하기 위해 인과적 인코더를 사용하여 다양한 모달리티 간의 학습과 생성을 가능하게 한다. 둘째, 메모리 및 학습 효율성을 위해 공간적 및 시공간적 생성 모델링을 함께 수행할 수 있도록 설계된 윈도우 어텐션 아키텍처를 사용한다. 이러한 설계 결정을 통해 우리는 분류자 없는 지도 없이도 기존의 비디오(UCF-101 및 Kinetics-600) 및 이미지(ImageNet) 생성 벤치마크에서 최첨단 성능을 달성할 수 있었다. 마지막으로, 텍스트-투-비디오 생성 작업을 위해 기본 잠재 비디오 확산 모델과 두 개의 비디오 초해상도 확산 모델로 구성된 세 가지 모델의 캐스케이드를 학습하여 초당 8프레임의 512x896 해상도 비디오를 생성한다.
최근 텍스트 프롬프트에서 3D 콘텐츠를 생성하는 기술은 2D 및 3D 확산 모델을 활용하여 눈부신 발전을 보여주고 있습니다. 3D 확산 모델은 뛰어난 다중 뷰 일관성을 보장하지만, 제한된 3D 데이터로 인해 고품질이고 다양한 3D 자산을 생성하는 능력이 제한됩니다. 반면, 2D 확산 모델은 3D 데이터 없이도 우수한 일반화와 풍부한 디테일을 달성하는 증류 접근법을 찾아냈습니다. 그러나 2D 리프팅 방법은 본질적인 뷰-불특정 모호성으로 인해 심각한 다면 Janus 문제를 야기하며, 이는 텍스트 프롬프트가 일관된 3D 결과를 학습하기에 충분한 지침을 제공하지 못하게 합니다. 비용이 많이 드는 뷰포인트 인식 모델을 재학습하는 대신, 우리는 쉽게 접근할 수 있는 대략적인 3D 지식을 최대한 활용하여 프롬프트를 강화하고 2D 리프팅 최적화를 안내하여 개선하는 방법을 연구합니다. 본 논문에서는 고해상도, 일반화 가능성, 그리고 기하학적 일관성을 동시에 달성하는 새로운 텍스트-투-3D 프레임워크인 Sherpa3D를 제안합니다. 구체적으로, 우리는 3D 확산 모델에 의해 생성된 대략적인 3D 사전 지식에서 유래한 두 가지 안내 전략을 설계합니다: 기하학적 충실도를 위한 구조적 안내와 3D 일관성을 위한 의미적 안내입니다. 이 두 가지 유형의 안내를 사용하여 2D 확산 모델은 다양하고 고품질의 결과로 3D 콘텐츠를 풍부하게 만듭니다. 광범위한 실험을 통해 우리의 Sherpa3D가 품질과 3D 일관성 측면에서 최신 텍스트-투-3D 방법을 능가하는 우수성을 입증합니다.
현대의 대형 시각-언어 모델(LVLMs)은 대부분의 일반적인 시각 작업을 커버할 수 있는 CLIP이라는 동일한 시각 어휘를 사용합니다. 그러나 문서 수준의 OCR이나 차트 이해와 같이 밀도가 높고 세밀한 시각 인식이 필요한 특수한 시각 작업, 특히 비영어 시나리오에서는 CLIP 스타일의 어휘가 시각 지식을 토큰화하는 데 있어 낮은 효율성을 보이거나 어휘 외 문제를 겪을 수 있습니다. 이에 따라 우리는 LVLMs의 시각 어휘를 확장하기 위한 효율적이고 효과적인 방법인 Vary를 제안합니다. Vary의 절차는 자연스럽게 새로운 시각 어휘의 생성과 통합이라는 두 가지 단계로 나뉩니다. 첫 번째 단계에서는 자동 회귀를 통해 원하는 어휘를 생성하기 위해 어휘 네트워크와 작은 디코더 전용 트랜스포머를 설계합니다. 다음 단계에서는 새로운 어휘를 원래의 어휘(CLIP)와 병합하여 LVLMs가 새로운 특징을 빠르게 습득할 수 있도록 합니다. 인기 있는 BLIP-2, MiniGPT4, LLaVA와 비교했을 때, Vary는 기존의 기능을 유지하면서도 더 우수한 세밀한 인식 및 이해 능력을 즐길 수 있습니다. 특히, Vary는 새로운 문서 파싱 기능(OCR 또는 마크다운 변환)을 수행할 수 있으며, DocVQA에서 78.2% ANLS, MMVet에서 36.2%를 달성합니다. 우리의 코드는 홈페이지에 공개될 예정입니다.
대규모 언어 모델(LLMs)은 단 몇 가지 예시만으로도 새로운 과제를 해결할 수 있는 놀라운 능력을 가지고 있지만, 적절한 도구에 접근할 수 있어야 합니다. 검색 증강 생성(Retrieval Augmented Generation, RAG)은 주어진 과제에 대해 관련 도구 목록을 검색함으로써 이 문제를 해결합니다. 그러나 RAG의 도구 검색 단계에서는 필요한 모든 정보가 쿼리에 명시적으로 포함되어야 한다는 한계가 있습니다. 이는 널리 채택된 도구 검색 방법인 의미론적 검색(semantic search)이 쿼리가 불완전하거나 문맥이 부족할 때 실패할 수 있다는 점에서 문제가 됩니다. 이러한 한계를 해결하기 위해, 우리는 RAG를 위한 컨텍스트 튜닝(Context Tuning)을 제안합니다. 이는 도구 검색과 계획 생성 모두를 개선하기 위해 관련 정보를 가져오는 스마트 컨텍스트 검색 시스템을 사용합니다. 우리의 경량 컨텍스트 검색 모델은 수치적, 범주적, 그리고 습관적 사용 신호를 활용하여 컨텍스트 항목을 검색하고 순위를 매깁니다. 실험 결과, 컨텍스트 튜닝은 의미론적 검색을 크게 향상시켜 컨텍스트 검색 및 도구 검색 과제에서 각각 Recall@K가 3.5배 및 1.5배 개선되었으며, LLM 기반 플래너의 정확도가 11.6% 증가하는 결과를 보였습니다. 또한, 우리가 제안한 경량 모델이 Reciprocal Rank Fusion(RRF)과 LambdaMART를 사용하여 GPT-4 기반 검색을 능가하는 것을 확인했습니다. 더 나아가, 도구 검색 이후에도 계획 생성 단계에서 컨텍스트 증강이 환각(hallucination)을 줄이는 효과가 있음을 관찰했습니다.
우리는 대형 언어 모델(LLM), 특히 GPT-4를 사용하여 자발적인 동작을 생성할 수 있는 휴머노이드 로봇인 Alter3의 개발을 보고합니다. 이 성과는 GPT-4를 우리의 독자적인 안드로이드인 Alter3에 통합함으로써 달성되었으며, 이를 통해 LLM을 Alter의 신체 움직임과 효과적으로 연결할 수 있었습니다. 일반적으로 로봇의 저수준 제어는 하드웨어에 의존하며 LLM 코퍼스의 범위를 벗어나기 때문에, LLM 기반의 직접적인 로봇 제어에는 어려움이 있습니다. 그러나 Alter3와 같은 휴머노이드 로봇의 경우, 인간 동작의 언어적 표현을 프로그램 코드를 통해 로봇의 신체에 매핑함으로써 직접 제어가 가능합니다. 특히 이 접근 방식은 Alter3가 '셀카' 자세나 '유령인 척하기'와 같은 다양한 포즈를 취하고, 각 신체 부위에 대한 명시적인 프로그래밍 없이도 시간에 따른 일련의 동작을 생성할 수 있게 합니다. 이는 로봇의 제로샷 학습 능력을 보여줍니다. 또한, 언어적 피드백을 통해 포즈를 조정할 수 있어 미세 조정의 필요성을 없앨 수 있습니다. Alter3의 생성된 동작에 대한 비디오는 https://tnoinkwms.github.io/ALTER-LLM/에서 확인할 수 있습니다.
잠재 확산 모델(Latent Diffusion Models, LDMs)은 시간에 따른 잠재 변수의 동적 변화를 포착하며, 생성 시스템 내에서 패턴과 다중 양식을 혼합합니다. 강력한 텍스트 인코더와 변이형 오토인코더를 통해 텍스트-이미지 생성과 같은 다양한 응용 분야에서 LDM의 뛰어난 성능에도 불구하고, 대규모 생성 모델을 에지 디바이스에 배포해야 하는 중요한 필요성은 더욱 컴팩트하면서도 효과적인 대안을 모색하게 합니다. 딥러닝 모델의 운영 크기를 압축하는 방법인 학습 후 양자화(Post Training Quantization, PTQ)는 LDM에 적용할 때 시간적 및 구조적 복잡성으로 인해 어려움에 직면합니다. 본 연구는 LDM을 효율적으로 양자화하는 전략을 제안하며, 신호 대 양자화 잡음비(Signal-to-Quantization-Noise Ratio, SQNR)를 평가의 핵심 지표로 활용합니다. 양자화 불일치를 상대적 잡음으로 간주하고 모델의 민감한 부분을 식별함으로써, 우리는 전역적 및 지역적 전략을 포괄하는 효율적인 양자화 접근 방식을 제안합니다. 전역적 양자화 과정은 민감한 블록에 대해 더 높은 정밀도의 양자화를 시작함으로써 상대적 양자화 잡음을 완화하며, 지역적 처리는 양자화에 민감하고 시간에 민감한 모듈의 특정 문제를 해결합니다. 실험 결과는 전역적 및 지역적 처리를 모두 구현함으로써 LDM의 매우 효율적이고 효과적인 학습 후 양자화(PTQ)를 달성할 수 있음을 보여줍니다.
Llama Guard를 소개합니다. 이는 인간-AI 대화 사용 사례에 초점을 맞춘 LLM 기반 입력-출력 안전장치 모델입니다. 우리의 모델은 LLM 프롬프트에서 발견되는 특정 안전 위험을 분류하기 위한 유용한 도구인 안전 위험 분류 체계를 통합하고 있습니다. 이 분류 체계는 또한 이러한 프롬프트에 대한 LLM의 응답을 분류하는 데 중요한 역할을 하며, 이 과정을 우리는 응답 분류라고 부릅니다. 프롬프트 및 응답 분류를 위해, 우리는 고품질의 데이터셋을 세심하게 수집했습니다. Llama Guard는 Llama2-7b 모델로, 수집된 데이터셋에 대해 지시 미세 조정을 거쳤으며, 비록 데이터 양은 적지만 OpenAI Moderation Evaluation 데이터셋 및 ToxicChat과 같은 기존 벤치마크에서 강력한 성능을 보여줍니다. 이 모델의 성능은 현재 사용 가능한 콘텐츠 조정 도구와 동등하거나 이를 능가합니다. Llama Guard는 다중 클래스 분류를 수행하고 이진 결정 점수를 생성하는 언어 모델로 기능합니다. 또한, Llama Guard의 지시 미세 조정은 작업의 사용자 정의 및 출력 형식의 조정을 가능하게 합니다. 이 기능은 특정 사용 사례에 맞게 분류 체계 범주를 조정하거나, 다양한 분류 체계를 입력으로 사용하여 제로샷 또는 퓨샷 프롬프팅을 가능하게 하는 등 모델의 기능을 향상시킵니다. 우리는 Llama Guard 모델 가중치를 공개하며, 연구자들이 이를 더 발전시키고 AI 안전에 대한 커뮤니티의 진화하는 요구를 충족할 수 있도록 적극 권장합니다.
사전 학습된 대규모 언어 모델(LLMs)은 자연어 명령어에 대한 반응성을 개선하기 위해 미세 조정이 필요합니다. 연합 학습(Federated Learning, FL)은 데이터 프라이버시를 저해하지 않으면서도 엔드 디바이스의 풍부한 데이터를 활용해 미세 조정을 수행할 수 있는 방법을 제공합니다. 기존의 대부분의 연합 미세 조정 방법들은 매개변수 효율적 미세 조정 기법에 의존하고 있는데, 이는 전체 매개변수 조정이 가능한 성능 수준에 미치지 못할 수 있습니다. 그러나 전체 매개변수 조정과 관련된 통신 오버헤드는 서버와 클라이언트 모두에게 지나치게 높습니다. 본 연구에서는 무작위 시드 세트와 함께 제로스 오더 최적화(Zeroth-Order Optimization, ZOO)를 활용한 FedKSeed라는 새로운 접근 방식을 소개합니다. 이 방법은 기기에서 직접 십억 규모의 LLM에 대한 연합 전체 매개변수 조정을 가능하게 합니다. 우리의 방법은 서버와 클라이언트 간 전송 요구량을 몇 개의 스칼라 그래디언트와 무작위 시드로 크게 줄여, 단 몇 천 바이트에 불과하게 합니다. 이를 바탕으로, FL에서 ZOO 섭동의 중요성을 평가하는 전략을 개발하여, 모델 정확도에 더 큰 영향을 미치는 섭동을 우선적으로 샘플링할 수 있도록 합니다. 다양한 LLM, 데이터셋 및 데이터 분할을 포함한 여섯 가지 시나리오에서의 실험을 통해, 우리의 접근 방식이 통신 효율성과 새로운 작업 일반화 측면에서 기존의 연합 LLM 미세 조정 방법들을 능가함을 입증했습니다.
자율주행에서 대형 언어 모델(LLMs)을 활용하기 위한 다양한 방법들이 제안되어 왔다. 자율주행을 위해 LLMs를 사용하는 한 가지 전략은 주변 물체들을 텍스트 프롬프트로 입력하고, 이들의 좌표 및 속도 정보와 함께 차량의 후속 움직임을 출력하는 것이다. 이러한 목적으로 LLMs를 사용할 때는 공간 인식 및 계획 수립과 같은 능력이 필수적이다. 특히, 두 가지 기본 능력이 요구된다: (1) 공간 인식 의사결정 능력, 즉 좌표 정보로부터 공간을 인식하고 충돌을 피하기 위한 결정을 내리는 능력, 그리고 (2) 교통 규칙을 준수하는 능력이다. 그러나 다양한 유형의 LLMs가 이러한 문제를 얼마나 정확하게 처리할 수 있는지에 대한 정량적 연구는 이루어지지 않았다. 본 연구에서는 자율주행 맥락에서 LLMs의 이 두 가지 능력을 정량적으로 평가하였다. 또한, 이러한 능력을 실제 차량에 구현할 수 있는 가능성을 검증하기 위한 개념 증명(POC)을 수행하기 위해, LLMs를 사용하여 차량을 주행하는 시스템을 개발하였다.
Captum은 PyTorch 모델의 설명 가능성을 위한 포괄적인 라이브러리로, PyTorch 모델에 대한 사용자의 이해를 높이기 위해 해석 가능성 문헌에서 다양한 방법을 제공합니다. 본 논문에서는 생성 언어 모델의 동작을 분석하기 위해 특별히 설계된 Captum의 새로운 기능들을 소개합니다. 우리는 사용 가능한 기능들에 대한 개요와 생성 언어 모델 내에서 학습된 연관성을 이해하는 데 있어 그 잠재력에 대한 예시 응용 사례를 제공합니다.
대형 언어 모델(LLMs)은 텍스트 생성에 있어 강력한 능력을 보여주고 있습니다. 그러나 주어진 프롬프트나 지시에 대해 최적의 결과를 얻는 것은, 특히 수십억 개의 파라미터를 가진 모델의 경우, 어려운 과제입니다. 또한, 유해성 또는 환각과 같은 바람직하지 않은 행동이 나타날 수 있습니다. ChatGPT와 같은 훨씬 더 큰 모델이 이러한 문제를 완화하는 데 강점을 보일 수 있지만, 완전한 예방을 보장할 수는 없습니다. 본 연구에서는 바람직하지 않은 행동을 최소화하고 지시에 대한 충실성을 강화하기 위해 텍스트 생성을 미래 제약 조건이 있는 생성 문제로 공식화하는 것을 제안합니다. LLMs를 사용하여 미래 제약 조건 충족 여부를 추정함으로써 텍스트 생성 과정을 안내합니다. 우리의 광범위한 실험은 키워드 제약 생성(Lin et al., 2020), 유해성 감소(Gehman et al., 2020), 질문-응답에서의 사실적 정확성(Gao et al., 2023)이라는 세 가지 구별되는 텍스트 생성 작업에서 제안된 접근법의 효과를 입증합니다.
본 논문에서는 데이터 불균형이 심한 다중 작업 집합을 지배하는 최적화 동역학을 실증적으로 연구하며, 특히 이러한 사례에 초점을 맞춥니다. 우리는 고자원 작업에 대한 사전 학습과 고/저자원 작업 혼합에 대한 미세 조정을 결합한 간단하지만 효과적인 방법을 제시합니다. 이 방법의 이점에 대한 철저한 실증 연구와 분석을 통해, 표준 정적 가중치 방식의 성능 트레이드오프 프로파일 대비 일관된 개선을 달성함을 보여줍니다. 또한 이 방법이 적용 가능한 데이터 체계를 분석하고, 신경망 기계 번역(NMT) 및 다국어 언어 모델링에서의 실증적 개선을 입증합니다.
MEGA는 최근에 제안된 트랜스포머 기반 아키텍처로, FFT(Fast Fourier Transform)를 기반으로 한 병렬 계산을 통해 선형 재귀 연산자를 활용하며, 이는 시퀀스 길이인 L에 대해 O(LlogL)의 계산 복잡도를 가진다. 본 연구에서는 이 접근법을 기반으로 선형 재귀를 특수한 시간적 합성곱 네트워크(Temporal Convolutional Network, TCN)로 대체하여, 더 얕은 네트워크로도 더 큰 수용 필드(receptive field) 크기를 허용하고 계산 복잡도를 O(L)로 줄였다. 이를 통해 TCNCA(Chunked Attention을 가진 Temporal Convolutional Network)라는 모델을 개발하였다. TCNCA는 EnWik8 언어 모델링, 장거리 시퀀스 분류(Long-Range-Arena, LRA), 그리고 합성 추론 벤치마크인 연상 회상(associative recall) 작업에서 평가되었다. EnWik8에서 TCNCA는 MEGA를 능가하며, 더 낮은 손실을 달성함과 동시에 학습 중 순전파/역전파 속도가 각각 1.37배/1.24배 빨랐다. TCNCA에서 사용된 확장 합성곱(dilated convolution)은 GPU에서 FFT 기반 병렬 재귀 연산보다 일관되게 그리고 상당히 빠른 연산을 제공하여, 매우 긴 시퀀스 길이를 처리하는 데 확장 가능한 후보로 적합하다: 최대 131k 길이의 시퀀스에 대해 순전파/역전파 속도가 각각 7.07배/2.86배 빨랐다. 또한 LRA에서 TCNCA는 MEGA와 유사한 정확도를 유지하면서 평균 1.28배의 추론 속도 향상을 달성했다. 연상 회상 작업에서는, 과도한 곱셈 및 덧셈 상호작용을 제거한 단순화된 버전의 TCNCA도 다양한 시퀀스 길이와 어휘 크기에서 MEGA에 비해 우수하거나 경쟁력 있는 성능을 보였다.