번역이 포함된 일일 선별된 AI 연구 논문
최근 강력한 독점 대형 언어 모델(LLM, 예: GPT-4)을 장문 응답 평가자로 사용하는 것이 사실상 표준으로 자리 잡았다. 그러나 대규모 평가 작업과 맞춤형 기준(예: 아동 가독성)을 고려해야 하는 실무자들에게는 독점 LLM을 평가자로 사용하는 것이 폐쇄형 소스, 통제되지 않은 버전 관리, 그리고 과도한 비용으로 인해 신뢰할 수 없는 방법이다. 본 연구에서는 적절한 참고 자료(참고 답안, 채점 기준표)가 제공될 때 GPT-4의 평가 능력과 동등한 수준의 완전 오픈소스 LLM인 Prometheus를 제안한다. 먼저, GPT-4가 생성한 1,000개의 세부 채점 기준표, 20,000개의 지시문, 그리고 100,000개의 응답 및 언어 피드백으로 구성된 새로운 데이터셋인 Feedback Collection을 구축한다. 이를 활용하여 사용자가 제공한 맞춤형 채점 기준표를 기반으로 주어진 장문 텍스트를 평가할 수 있는 130억 파라미터 규모의 평가자 LLM인 Prometheus를 학습시킨다. 실험 결과, Prometheus는 45개의 맞춤형 채점 기준표를 사용하여 평가할 때 인간 평가자와 0.897의 피어슨 상관관계를 보였으며, 이는 GPT-4(0.882)와 동등한 수준이고 ChatGPT(0.392)를 크게 능가하는 성능을 보였다. 또한, 4개의 벤치마크(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)에서 1,222개의 맞춤형 채점 기준표를 사용하여 GPT-4와의 상관관계를 측정한 결과에서도 유사한 경향을 보이며, Prometheus의 평가자 LLM으로서의 능력을 입증했다. 마지막으로, Prometheus는 인간 선호 데이터셋에 명시적으로 학습된 오픈소스 보상 모델들과 비교하여 두 개의 인간 선호 벤치마크(HHH Alignment & MT Bench Human Judgment)에서 가장 높은 정확도를 달성하며, 보편적인 보상 모델로서의 잠재력을 강조한다. 본 연구의 코드, 데이터셋, 모델은 https://github.com/kaistAI/Prometheus에서 공개한다.
Plan-and-Write는 장편 서사 텍스트 생성에서 일반적으로 사용되는 계층적 접근 방식으로, 먼저 서사 작성을 안내하기 위한 계획을 수립합니다. 이 접근 방식을 따르는 여러 연구에서는 대규모 언어 모델을 단순히 프롬프팅하여 계획을 생성하는데, 이는 종종 최적의 결과를 내지 못합니다. 본 논문에서는 장편 서사 텍스트 생성을 위한 새로운 프레임워크인 Evaluation-guided Iterative Plan Extraction (EIPE-text)를 제안합니다. 이 프레임워크는 서사 텍스트 코퍼스에서 계획을 추출하고, 추출된 계획을 활용하여 더 나은 플래너를 구축합니다. EIPE-text는 세 단계로 구성됩니다: 계획 추출, 학습, 그리고 추론. 계획 추출 단계에서는 서사 코퍼스에서 반복적으로 계획을 추출하고 개선하며, 계획 코퍼스를 구축합니다. 우리는 질문-응답(QA) 기반 평가 메커니즘을 제안하여 계획을 자동으로 평가하고, 반복적인 개선을 안내하는 상세한 계획 개선 지침을 생성합니다. 학습 단계에서는 계획 코퍼스를 활용하여 미세 조정(fine-tuning)하거나, 계획 코퍼스 내 예시를 활용한 인컨텍스트 학습(in-context learning)을 통해 더 나은 플래너를 구축합니다. 마지막으로, 계층적 접근 방식을 활용하여 장편 서사를 생성합니다. 우리는 EIPE-text의 효과를 소설 및 스토리텔링 분야에서 평가합니다. GPT-4 기반 평가와 인간 평가 모두 우리의 방법이 더 일관적이고 관련성 높은 장편 서사를 생성할 수 있음을 보여줍니다. 우리의 코드는 추후 공개될 예정입니다.
우리는 시각 및 언어 기반 내비게이션을 위한 지각 표현으로서 언어의 사용을 탐구한다. 우리의 접근 방식은 에이전트의 자기 중심적 파노라마 뷰를 각 시간 단계마다 자연어 설명으로 변환하기 위해 기성 시각 시스템(이미지 캡셔닝 및 객체 감지를 위한)을 사용한다. 그런 다음, 현재 뷰와 이동 경로 이력을 기반으로 내비게이션 지시를 가장 잘 수행할 수 있는 동작을 선택하도록 사전 학습된 언어 모델을 미세 조정한다. 사전 학습된 시각 모델의 연속적인 시각적 특징과 직접 작동하도록 사전 학습된 언어 모델을 적용하는 표준 설정과 달리, 우리의 접근 방식은 (이산적인) 언어를 지각 표현으로 사용한다. 우리는 R2R 시각 및 언어 내비게이션 벤치마크에서 언어 기반 내비게이션(LangNav) 접근 방식의 두 가지 사용 사례를 탐구한다: 프롬프트된 대형 언어 모델(GPT-4)로부터 합성 이동 경로를 생성하여 더 작은 언어 모델을 미세 조정하는 것; 그리고 시뮬레이션 환경(ALFRED)에서 학습된 정책을 실제 환경(R2R)으로 전이하는 시뮬레이션-투-리얼 전이이다. 우리의 접근 방식은 소수의 골드 이동 경로(10-100개)만 사용 가능한 설정에서 시각적 특징에 의존하는 강력한 베이스라인을 개선하는 것으로 나타나, 내비게이션 작업을 위한 지각 표현으로서 언어 사용의 잠재력을 입증한다.