번역이 포함된 일일 선별된 AI 연구 논문
GPT-3.5와 ChatGPT와 같은 언어 모델은 다양한 인간의 지시를 따르고 광범위한 작업을 수행하는 놀라운 능력을 보여줍니다. 그러나 기본적인 테이블 이해 작업을 통해 언어 모델을 탐구해 보면, 오늘날의 언어 모델들이 여전히 테이블 관련 작업에서 최적의 성능을 발휘하지 못하고 있음을 관찰할 수 있습니다. 이는 이들이 주로 1차원의 자연어 텍스트로 사전 학습되었기 때문일 가능성이 높으며, 반면 관계형 테이블은 2차원 객체이기 때문입니다. 이 연구에서 우리는 새로운 "테이블 튜닝" 패러다임을 제안합니다. 이는 GPT-3.5와 ChatGPT와 같은 언어 모델을 실제 테이블에서 합성된 다양한 테이블 작업 데이터를 사용해 계속해서 학습/미세 조정함으로써, 언어 모델의 테이블 이해 능력과 테이블 작업 수행 능력을 향상시키는 것을 목표로 합니다. 우리는 이를 통해 개발된 Table-GPT 모델이 (1) 테이블 이해 능력이 향상되어, GPT-3.5와 ChatGPT를 다양한 테이블 작업(보유된 미확인 작업 포함)에서 일관되게 능가하며, (2) GPT-3.5와 ChatGPT와 유사한 방식으로 새로운 테이블 작업을 수행하기 위한 다양한 인간의 지시에 응답할 수 있는 강력한 일반화 능력을 보여준다는 것을 입증합니다.
본 논문은 기존 유사 모델들보다 10배 더 큰 규모임에도 불구하고 더 작고 빠르며 강력한 성능을 보이는 시각 언어 모델(VLM)인 PaLI-3를 소개한다. 이러한 강력한 성능을 달성하기 위해, 우리는 분류 목적으로 사전 학습된 Vision Transformer(ViT) 모델과 대조적(SigLIP) 사전 학습 모델을 비교하였다. 분석 결과, SigLIP 기반 PaLI는 표준 이미지 분류 벤치마크에서는 약간의 성능 저하를 보이지만, 다양한 멀티모달 벤치마크, 특히 지역화 및 시각적 상황 이해 작업에서 우수한 성능을 보였다. 우리는 SigLIP 이미지 인코더를 20억 개의 파라미터로 확장하여 다국어 교차 모달 검색 분야에서 새로운 최첨단 기술을 달성하였다. 단 50억 개의 파라미터로 구성된 PaLI-3가 복잡한 VLM의 기본 요소에 대한 연구를 재점화하고, 새로운 세대의 대규모 모델 개발에 기여할 수 있기를 기대한다.
양자화(Quantization)는 대규모 언어 모델(LLM)을 서빙하는 데 필수적인 기술이며, 최근에는 LoRA(Low-Rank Adaptation) 미세 조정에도 적용되고 있다. 본 연구에서는 사전 훈련된 모델에 양자화와 LoRA 미세 조정을 동시에 적용하는 시나리오에 초점을 맞춘다. 이러한 경우, 전체 미세 조정과 양자화 및 LoRA 미세 조정 접근법 간의 하위 작업 성능에서 일관된 격차가 관찰되는 것이 일반적이다. 이에 대응하여, 우리는 LoftQ(LoRA-Fine-Tuning-aware Quantization)라는 새로운 양자화 프레임워크를 제안한다. 이 프레임워크는 LLM을 양자화함과 동시에 LoRA 미세 조정을 위한 적절한 저랭크 초기화를 찾는다. 이러한 초기화는 양자화된 모델과 완전 정밀도 모델 간의 불일치를 완화하고, 하위 작업에서의 일반화를 크게 개선한다. 우리는 자연어 이해, 질의 응답, 요약, 자연어 생성 작업에서 이 방법을 평가한다. 실험 결과, 특히 도전적인 2비트 및 2/4비트 혼합 정밀도 환경에서 기존 양자화 방법을 능가하는 높은 효과성을 보여준다. 우리는 코드를 공개할 예정이다.
대규모 언어 모델(LLM)은 실시간 컴퓨터 환경(예: MiniWoB++)에서 고수준 목표를 계획하고 실행하는 능력이 점차 향상되고 있습니다. 최근 연구에서는 특정 작업을 수행하기 위해 모델이 지도 학습 또는 소수/다수 샷 프롬프트를 통해 해당 작업의 실행 예제를 학습하도록 요구하는 경우가 많습니다. 이러한 실행 예제가 없을 경우, 에이전트가 컴퓨터를 자율적으로 제어하고 개선하는 방법은 여전히 어려운 과제로 남아 있으며, 이는 에이전트가 새로운 작업을 수행하는 능력을 제한합니다. 우리는 이 문제를 전문가의 실행 예제 없이도 작동하는 제로샷 에이전트로 접근합니다. 우리의 에이전트는 부분적으로 관찰 가능한 환경에서 실행 가능한 동작을 계획하고, 자기 반성과 구조화된 사고 관리를 통해 실수를 식별하고 학습함으로써 작업을 반복적으로 진행합니다. MiniWoB++의 간단한 작업에서 우리의 제로샷 에이전트는 최신 최첨단(SoTA) 모델을 능가하며 더 효율적인 추론을 보여줍니다. 더 복잡한 작업의 경우, 우리의 반성적 에이전트는 이전 연구들이 전문가의 실행 예제나 추가 화면 정보에 접근할 수 있었던 이점에도 불구하고, 이전 최고 모델과 동등한 성능을 발휘합니다.
질문 응답 및 기타 텍스트 생성 작업에 적용할 때, 언어 모델(LM)은 생성적으로(출력 분포에서 답변을 샘플링하여) 또는 판별적으로(후보 출력 집합을 점수 매기거나 순위를 매기기 위해 사용하여) 질의될 수 있습니다. 이러한 절차는 때때로 매우 다른 예측을 내놓습니다. 상호 호환되지 않는 점수 매기기 절차를 어떻게 조화시켜 일관된 LM 예측을 얻을 수 있을까요? 우리는 새로운, 훈련이 필요 없는 게임 이론적 절차를 언어 모델 디코딩에 도입합니다. 우리의 접근법은 언어 모델 디코딩을 정규화된 불완전 정보 순차 신호 게임으로 캐스팅합니다. 이를 CONSENSUS GAME이라고 부르며, 이 게임에서 GENERATOR는 자연어 문장을 사용하여 추상적인 정확성 매개변수를 DISCRIMINATOR에게 전달하려고 합니다. 우리는 이 게임의 근사적 균형을 찾기 위한 계산 절차를 개발하여 EQUILIBRIUM-RANKING이라는 디코딩 알고리즘을 만들었습니다. 이 알고리즘을 다양한 작업(독해, 상식 추론, 수학 문제 해결, 대화 등)에 적용한 결과, EQUILIBRIUM-RANKING은 기존 LM 디코딩 절차에 비해 일관되게, 때로는 상당히 성능을 개선했습니다. 여러 벤치마크에서 LLaMA-7B에 EQUILIBRIUM-RANKING을 적용한 결과, 훨씬 더 큰 LLaMA-65B와 PaLM-540B 모델을 능가하는 것을 관찰했습니다. 이러한 결과는 LM의 진실성과 일관성이라는 근본적인 문제를 해결하기 위한 게임 이론적 도구의 가능성을 강조합니다.
대규모 언어 모델(LLMs)은 다양한 자연어 처리(NLP) 작업에서 뛰어난 성능을 보여주며, 종종 최첨단 작업별 모델을 능가하거나 그에 필적하는 결과를 내놓고 있습니다. 본 연구는 LLMs의 금융 추론 능력을 평가하는 것을 목표로 합니다. 우리는 공인재무분석사(CFA) 프로그램의 모의 시험 문제를 활용하여 ChatGPT와 GPT-4의 금융 분석 능력을 제로샷(Zero-Shot, ZS), 사고 연쇄(Chain-of-Thought, CoT), 그리고 퓨샷(Few-Shot, FS) 시나리오를 고려하여 종합적으로 평가합니다. 우리는 모델의 성능과 한계에 대한 심층 분석을 제시하고, 이들이 CFA 시험을 통과할 가능성이 있는지 추정합니다. 마지막으로, LLMs의 금융 분야 적용 가능성을 높이기 위한 잠재적 전략과 개선 방안에 대한 통찰을 제시합니다. 이러한 관점에서, 우리는 이 연구가 엄격한 평가를 통해 금융 추론을 위한 LLMs의 지속적인 개선을 위한 미래 연구의 길을 열어주기를 바랍니다.
대형 언어 모델(LLMs)은 이미 HumanEval이나 MBPP 벤치마크와 같은 간단한 프로그래밍 과제를 해결하는 데 상당히 능숙해졌습니다. 그러나 더 복잡하고 경쟁적인 프로그래밍 과제를 해결하는 것은 여전히 이러한 모델에게는 상당히 어려운 과제로 남아 있습니다. 이는 아마도 모델이 해결책을 단일적인 코드 블록으로 생성하는 경향이 있어, 이를 논리적인 하위 작업과 하위 모듈로 분해하지 않기 때문일 것입니다. 반면, 경험 많은 프로그래머들은 복잡한 과제를 해결하기 위해 본능적으로 추상화된 모듈화된 코드를 작성하며, 종종 이전에 개발한 모듈을 재사용합니다. 이러한 격차를 해결하기 위해, 우리는 CodeChain이라는 새로운 추론 프레임워크를 제안합니다. 이 프레임워크는 일련의 자기 수정(self-revision)을 통해 모듈화된 코드 생성을 유도하며, 각 수정은 이전 반복에서 생성된 대표적인 하위 모듈에 의해 안내됩니다. 구체적으로, CodeChain은 먼저 LLM에게 사고의 연쇄(chain-of-thought) 프롬프트를 통해 모듈화된 코드를 생성하도록 지시합니다. 그런 다음 두 단계를 반복하여 일련의 자기 수정을 적용합니다: 1) 생성된 하위 모듈을 추출하고 클러스터링하여 더 일반적이고 재사용 가능한 구현으로 클러스터 대표를 선택하고, 2) 원래의 사고의 연쇄 프롬프트에 이러한 선택된 모듈 구현을 추가하고 LLM에게 새로운 모듈화된 해결책을 다시 생성하도록 지시합니다. 우리는 LLM이 이전에 개발되고 검증된 하위 모듈을 재사용하도록 자연스럽게 유도함으로써, CodeChain이 생성된 해결책의 모듈성과 정확성을 모두 크게 향상시킬 수 있음을 발견했습니다. 이는 APPS에서 35%, CodeContests에서 76%의 상대적인 pass@1 개선을 달성했습니다. CodeChain은 OpenAI의 LLM뿐만 아니라 WizardCoder와 같은 오픈소스 LLM에서도 효과적인 것으로 나타났습니다. 또한, 우리는 다양한 프롬프트 방법, 클러스터 수, 모델 크기, 프로그램 품질 등에 대한 포괄적인 절제 연구를 수행하여 CodeChain의 성공을 뒷받침하는 유용한 통찰을 제공합니다.
음성과 텍스트는 인간 언어의 두 가지 주요 형태입니다. 연구 커뮤니티는 오랜 기간 동안 음성을 텍스트로 또는 그 반대로 매핑하는 데 주력해 왔습니다. 그러나 언어 모델링 분야에서는 이 둘을 함께 모델링하려는 시도가 거의 이루어지지 않았습니다. 이에 따라, 우리는 음성 단위와 텍스트를 위한 통합 언어 모델링을 탐구합니다. 구체적으로, 우리는 연속적인 음성 신호를 이산 단위로 변환하기 위해 다양한 음성 토크나이저를 비교하고, 음성-텍스트 혼합 데이터를 구성하기 위한 다양한 방법을 사용합니다. 또한, 통합 언어 모델이 음성과 텍스트를 얼마나 잘 혼합하는지 평가하기 위한 자동화된 지표를 소개합니다. 우리는 다양한 양식(음성 또는 텍스트)을 사용하여 다운스트림 음성 언어 이해(SLU) 작업에 대해 언어 모델을 미세 조정하고, 공유 표현 학습을 평가하기 위해 모델의 성능을 테스트합니다. 우리의 결과는 제안된 혼합 기술을 통해 음성 단위와 텍스트를 혼합함으로써, 통합 언어 모델이 SLU 작업에서 음성 전용 기준선을 능가하며 제로샷 교차 양식 전이 가능성을 보여줍니다.