번역이 포함된 일일 선별된 AI 연구 논문
우리는 수학을 위한 대규모 언어 모델인 Llemma를 소개한다. Code Llama를 과학 논문, 수학 관련 웹 데이터, 그리고 수학적 코드로 구성된 Proof-Pile-2 데이터셋에 대해 추가 사전 학습을 진행하여 Llemma를 개발하였다. MATH 벤치마크에서 Llemma는 동일한 파라미터 규모 기준으로 알려진 모든 오픈 베이스 모델과 공개되지 않은 Minerva 모델 제품군을 능가하는 성능을 보였다. 또한 Llemma는 추가 미세 조정 없이도 도구 사용과 형식적 정리 증명이 가능하다. 우리는 70억 파라미터와 340억 파라미터 모델, Proof-Pile-2 데이터셋, 그리고 실험을 재현할 수 있는 코드를 포함한 모든 아티팩트를 공개한다.
대규모 언어 모델(LMs)은 현재 문서 접두사가 주어졌을 때 토큰을 예측하도록 훈련되어, 장문 생성 및 문서 완료로 축소될 수 있는 프롬프트 스타일 작업을 직접 수행할 수 있습니다. 기존의 사전 훈련 파이프라인은 짧은 문서들을 무작위로 연결하여 입력 컨텍스트를 생성함으로써 LMs를 훈련시키지만, 이전 문서들은 다음 문서를 예측하는 데 아무런 신호를 제공하지 않습니다. 우리는 대신 'In-Context Pretraining'이라는 새로운 접근 방식을 제시합니다. 이 방법은 언어 모델이 관련 문서들의 시퀀스에 대해 사전 훈련을 받도록 하여, 문서 경계를 넘어 읽고 추론하도록 명시적으로 장려합니다. 우리는 단순히 문서 순서를 변경하여 각 컨텍스트가 관련 문서들을 포함하도록 하고, 기존의 사전 훈련 파이프라인을 직접 적용함으로써 In-Context Pretraining을 수행할 수 있습니다. 그러나 이 문서 정렬 문제는 도전적입니다. 수십억 개의 문서가 존재하며, 데이터를 반복하지 않으면서 모든 문서에 대해 컨텍스트 유사성을 극대화하는 정렬을 원합니다. 이를 위해, 우리는 효율적인 최근접 이웃 탐색을 통해 관련 문서를 찾고, 그래프 순회 알고리즘을 사용하여 일관된 입력 컨텍스트를 구성하는 근사 알고리즘을 도입합니다. 우리의 실험 결과, In-Context Pretraining은 LMs의 성능을 크게 향상시키는 간단하고 확장 가능한 접근 방식을 제공합니다: 컨텍스트 내 학습(+8%), 독해(+15%), 이전 컨텍스트에 대한 충실도(+16%), 장문 컨텍스트 추론(+5%), 검색 증강(+9%) 등 더 복잡한 컨텍스트 추론이 필요한 작업에서 주목할 만한 개선이 관찰되었습니다.
대규모 언어 모델은 다양한 언어 관련 애플리케이션을 위한 일반 인터페이스로서 놀라운 능력을 보여주었습니다. 이에 동기를 받아, 우리는 이미지 설명, 시각적 질문 응답, 시각적 그라운딩 등 다양한 시각-언어 작업을 완수하기 위한 통합 인터페이스를 구축하는 것을 목표로 합니다. 여기서의 도전은 단일 모델을 사용하여 간단한 다중 모달 지시로 다양한 시각-언어 작업을 효과적으로 수행하는 것입니다. 이러한 목표를 달성하기 위해, 우리는 다양한 시각-언어 작업을 더 잘 처리할 수 있는 통합 인터페이스로 간주될 수 있는 MiniGPT-v2 모델을 소개합니다. 우리는 모델을 훈련할 때 각 작업에 대해 고유한 식별자를 사용할 것을 제안합니다. 이러한 식별자는 우리 모델이 각 작업 지시를 더 쉽게 구별할 수 있게 하고, 각 작업에 대한 모델 학습 효율성을 향상시킵니다. 3단계 훈련 후, 실험 결과는 MiniGPT-v2가 다른 시각-언어 일반 모델에 비해 많은 시각적 질문 응답 및 시각적 그라운딩 벤치마크에서 강력한 성능을 달성함을 보여줍니다. 우리의 모델과 코드는 https://minigpt-v2.github.io/에서 확인할 수 있습니다.
인터랙티브 로봇 프레임워크는 장기적인 작업 계획을 수행하며, 실행 중에도 새로운 목표나 다른 작업으로 쉽게 일반화할 수 있습니다. 그러나 대부분의 전통적인 방법은 사전 정의된 모듈 설계를 필요로 하기 때문에 다양한 목표로 일반화하기 어렵습니다. 최근의 대규모 언어 모델 기반 접근법은 더 개방형 계획을 가능하게 하지만, 종종 복잡한 프롬프트 엔지니어링이나 도메인 특화 사전 학습 모델을 요구합니다. 이를 해결하기 위해, 우리는 언어 모델을 사용한 인터랙티브 작업 계획을 달성하는 간단한 프레임워크를 제안합니다. 우리의 시스템은 언어를 통해 고수준 계획과 저수준 기능 실행을 모두 통합합니다. 우리는 시스템이 보이지 않는 목표에 대한 새로운 고수준 지침을 생성하는 강건성과, 단순히 작업 가이드라인을 교체함으로써 다른 작업에 쉽게 적응할 수 있는 능력을 검증했습니다. 또한, 사용자가 새로운 요청을 보낼 때, 우리의 시스템은 새로운 요청, 작업 가이드라인 및 이전에 실행된 단계를 기반으로 정밀하게 재계획할 수 있습니다. 자세한 내용은 https://wuphilipp.github.io/itp_site와 https://youtu.be/TrKLuyv26_g에서 확인하실 수 있습니다.
대규모 언어 모델은 다양한 하위 작업에서 효과적인 성능을 입증했지만, 종종 문제가 있거나 원하는 속성을 갖추지 못한 텍스트를 생성하는 경우가 있습니다. 본 논문에서는 특정 속성을 갖춘 텍스트 생성을 장려하기 위해 소규모 단방향 보상 모델을 사용하는 텍스트 생성 절차인 Reward-Augmented Decoding(RAD)를 소개합니다. 구체적으로, RAD는 생성 과정에서 보상 모델을 사용하여 생성된 텍스트를 점수화하고, 높은 보상을 받는 토큰을 선호하도록 샘플링 확률을 재조정합니다. 단방향 보상 모델을 사용함으로써 RAD는 이전 생성 단계의 활성화를 캐시하여 계산 오버헤드를 줄일 수 있습니다. 비독성 및 감정 제어 텍스트 생성 실험을 통해 RAD는 생성 절차만을 변경하는 방법 중에서 최고의 성능을 보이며, 언어 모델을 재학습하는 최신 방법의 성능과도 일치함을 입증합니다. 또한, RAD는 매우 큰 언어 모델에서도 효과적이며 최소한의 계산 오버헤드만 발생함을 추가로 검증합니다.
우리는 인터넷 규모의 데이터로 사전 학습된 대형 생성 모델의 최근 발전을 활용하여, 생성된 비디오와 언어 공간에서 복잡한 장기 과제를 위한 시각적 계획을 가능하게 하는 데 관심이 있습니다. 이를 위해 비디오 언어 계획(Video Language Planning, VLP) 알고리즘을 제안합니다. VLP는 트리 탐색 절차로 구성되며, 여기서 우리는 (i) 정책 및 가치 함수 역할을 하는 비전-언어 모델과 (ii) 동역학 모델 역할을 하는 텍스트-비디오 모델을 학습합니다. VLP는 장기 과제 지시와 현재 이미지 관측을 입력으로 받아, 최종 과제를 완료하는 방법을 설명하는 상세한 다중 모드(비디오 및 언어) 사양을 제공하는 긴 비디오 계획을 출력합니다. VLP는 계산 예산이 증가함에 따라 확장 가능하며, 더 많은 계산 시간이 더 나은 비디오 계획으로 이어집니다. 또한 다양한 로봇 공간에서 장기 비디오 계획을 합성할 수 있습니다: 다중 객체 재배치부터 다중 카메라 양팔 정밀 조작까지. 생성된 비디오 계획은 생성된 비디오의 각 중간 프레임에 조건화된 목표 조건 정책을 통해 실제 로봇 동작으로 변환될 수 있습니다. 실험 결과, VLP는 시뮬레이션 및 실제 로봇(3개의 하드웨어 플랫폼) 모두에서 기존 방법에 비해 장기 과제 성공률을 크게 향상시킵니다.
우리는 입력과 출력이 엄격한 좌측에서 우측으로의 인과적 구조를 가지는 자기회귀적(auto-regressive) 기계 학습 작업을 위한 데이터 증류(data distillation)를 연구한다. 보다 구체적으로, 우리는 Farzi를 제안하는데, 이는 이벤트 시퀀스 데이터셋을 소수의 합성 시퀀스들로 요약한 Farzi Data를 생성하며, 이는 전체 데이터셋으로 학습했을 때의 모델 성능을 유지(또는 개선)하도록 최적화된다. 내부적으로 Farzi는 (i) 헤시안-벡터 곱(Hessian-Vector Products)을 활용하여 Adam 옵티마이저의 효율적인 역방향 미분을 유도하고, (ii) 고차원의 이산 이벤트 공간을 잠재 공간으로 분해함으로써 암묵적 정규화(implicit regularization)를 촉진하는 메모리 효율적인 데이터 증류를 수행한다. 실험적으로, 순차적 추천 및 언어 모델링 작업에서, 원본 데이터셋 크기의 0.1%에 불과한 Farzi Data로 최신 모델을 학습할 때, 전체 데이터로 학습한 성능의 98-120%를 달성할 수 있었다. 특히, 상당히 적은 데이터로 더 나은 모델을 학습할 수 있다는 점은 미래의 대규모 자기회귀 모델 설계에 대한 통찰을 제공하며, 모델 및 데이터 크기를 더욱 확장할 수 있는 새로운 기회를 열어준다.
좁은 비트폭 데이터 형식은 현대 딥러닝 애플리케이션의 계산 및 저장 비용을 줄이는 데 핵심적인 역할을 합니다. 본 논문은 블록별 스케일링 팩터와 개별 요소에 대한 좁은 부동소수점 및 정수 타입을 결합한 마이크로스케일링(MX) 데이터 형식을 평가합니다. MX 형식은 하드웨어 효율성, 모델 정확도, 사용자 편의성이라는 상충되는 요구 사항을 균형 있게 조화시킵니다. 20개 이상의 벤치마크에 대한 실험 결과는 MX 데이터 형식이 AI 추론 및 학습에서 기본 FP32를 대체할 수 있는 실용적인 대안임을 보여주며, 사용자에게 거의 불편을 주지 않습니다. 또한, 우리는 생성형 언어 모델을 8비트 미만의 가중치, 활성화, 그래디언트로 학습시키면서도 최소한의 정확도 손실만 발생시키고 학습 레시피를 수정하지 않은 첫 사례를 보여줍니다.
많은 자연어 처리 과제에서 성공을 거두었음에도 불구하고, 수학 문제 해결은 대형 언어 모델(LLM)에게 여전히 상당한 도전 과제로 남아 있습니다. LLM의 수학 문제 해결에서 '단일 시도 정확도(pass-at-one)'와 'N회 시도 정확도(pass-at-N)' 사이에 큰 격차가 존재하는데, 이는 LLM이 올바른 해결책을 찾는 데 가까이 있음을 시사하며, LLM의 성능을 끌어올리기 위한 미세 조정(fine-tuning) 방법 탐구의 동기를 부여합니다. 우리는 도전적인 MATH 데이터셋을 사용하여 세 가지 미세 조정 전략을 연구했습니다: (1) 해결책 미세 조정(solution fine-tuning) - 주어진 수학 문제에 대한 상세한 해결책을 생성하도록 미세 조정; (2) 해결책 클러스터 재순위화(solution-cluster re-ranking) - 생성된 후보 해결책 클러스터 중에서 선택하도록 해결책 검증/평가자로서 LLM을 미세 조정; (3) 다중 작업 순차적 미세 조정(multi-task sequential fine-tuning) - 해결책 생성과 평가 작업을 효율적으로 통합하여 LLM 성능을 향상. 이러한 방법들을 통해 일련의 PaLM 2 모델에 대한 철저한 실증 연구를 수행한 결과, 다음과 같은 사실을 발견했습니다: (1) 미세 조정에 사용된 단계별 해결책의 질과 스타일이 모델 성능에 상당한 영향을 미칠 수 있음; (2) 해결책 재순위화와 다수결 투표(majority voting)는 각각 사용될 때 모델 성능 향상에 효과적이지만, 함께 사용할 경우 더 큰 성능 향상을 기대할 수 있음; (3) 해결책 생성과 평가 작업을 순차적으로 분리하는 다중 작업 미세 조정은 해결책 미세 조정 기준선과 비교하여 향상된 성능을 제공할 수 있음. 이러한 통찰을 바탕으로, 우리는 미세 조정된 PaLM 2-L 모델이 MATH 데이터셋에서 약 58.8%의 정확도를 달성하는 미세 조정 레시피를 설계했으며, 이는 다수결 투표를 적용한 사전 학습된 PaLM 2-L 모델의 소수 샷(few-shot) 성능 대비 11.2%의 정확도 향상을 나타냅니다.
우리는 추상 기호를 포함하는 관계적 추론 작업에서 트랜스포머 대형 언어 모델(LLMs)의 능력을 조사한다. 이러한 작업은 프로그래밍, 수학, 언어적 추론과 같은 더 복잡한 능력의 기본 구성 요소로서 신경과학 문헌에서 오랫동안 연구되어 왔다. (i) 회귀 작업의 경우, 트랜스포머가 학습 시 일반화할 수 있음을 증명하지만, 놀라울 정도로 많은 양의 학습 데이터가 필요하다는 것을 보여준다. (ii) 기호 레이블을 사용한 다음 토큰 예측 작업의 경우, 트랜스포머가 임베딩 차원이 증가함에 따라 일반화하지 못하는 "역 스케일링 법칙"을 보여준다. (i)와 (ii) 두 설정 모두에서, 헤드당 두 개의 학습 가능한 매개변수를 추가하여 필요한 데이터 양을 줄일 수 있는 미세한 트랜스포머 수정을 제안한다.
귀납적 루프 불변식(loop invariant)의 합성은 프로그램 검증 자동화의 핵심 요소입니다. 본 연구에서는 대규모 언어 모델(예: GPT-3.5 또는 GPT-4)이 0-shot 설정에서 특정 프로그램 클래스에 대한 루프 불변식을 합성할 수 있지만, 올바른 불변식을 생성하기 위해 여러 샘플이 필요하다는 점을 관찰했습니다. 이는 불변식을 확립하기 위해 프로그램 검증기에 대한 다수의 호출을 유발할 수 있습니다. 이 문제를 해결하기 위해, 우리는 LLM(대규모 언어 모델)이 생성한 결과에 대한 {\it 재순위화(re-ranking)} 접근 방식을 제안합니다. 문제 정의를 기반으로 올바른 귀납적 불변식과 잘못된 시도를 구별할 수 있는 순위 결정기(ranker)를 설계했습니다. 이 순위 결정기는 대조적 순위 결정기(contrastive ranker)로 최적화되었습니다. 실험 결과는 이 재순위화 메커니즘이 생성된 후보들 중 올바른 불변식의 순위를 크게 개선하고, 검증기에 대한 호출 횟수를 현저히 줄이는 데 기여함을 보여줍니다.