번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 문맥 이해, 코드 생성, 언어 생성, 데이터 스토리텔링 등 다양한 분야와 작업에서 강력한 능력을 입증함에 따라, 많은 데이터 분석가들은 자신의 직업이 AI로 대체될지에 대한 우려를 제기하고 있다. 이 논쟁적인 주제는 대중의 많은 관심을 끌어왔으나, 여전히 명확한 결론 없이 다양한 의견이 공존하는 단계에 머물러 있다. 이에 동기를 받아, 본 연구에서는 "GPT-4가 훌륭한 데이터 분석가인가?"라는 연구 질문을 제기하고, 이를 해결하기 위해 직접적인 비교 연구를 수행하고자 한다. 구체적으로, GPT-4를 데이터 분석가로 간주하여 다양한 분야의 데이터베이스를 활용한 종단간 데이터 분석을 수행한다. 이를 위해 GPT-4가 실험을 수행할 수 있도록 프롬프트를 신중하게 설계한 프레임워크를 제안한다. 또한, 여러 전문 인간 데이터 분석가와 GPT-4의 성능을 체계적으로 비교하기 위해 여러 작업별 평가 지표를 설계한다. 실험 결과, GPT-4는 인간과 비슷한 수준의 성능을 달성할 수 있음을 보여준다. 또한, GPT-4가 데이터 분석가를 대체할 수 있다는 결론에 도달하기 전에, 본 연구의 결과에 대한 심층적인 논의를 제공하여 향후 연구에 대한 통찰을 제시한다.
최근 실용적인 환경에서 대형 언어 모델(LLMs)이 등장함에 따라, 사실적 불일치를 효과적으로 탐지할 수 있는 방법을 갖추는 것은 오정보의 확산을 줄이고 모델 출력에 대한 신뢰를 향상시키는 데 중요합니다. 기존의 사실적 일관성 벤치마크에서 테스트할 때, 몇몇 대형 언어 모델(LLMs)이 전통적인 비-LLM 방법에 비해 사실적 불일치 탐지를 위한 분류 벤치마크에서 경쟁력 있는 성능을 보이는 것을 확인했습니다. 그러나 보다 심층적인 분석 결과, 대부분의 LLMs이 더 복잡한 형태의 작업에서 실패하며 기존 평가 벤치마크의 문제점이 노출되어 평가 정밀도에 영향을 미치는 것으로 나타났습니다. 이를 해결하기 위해, 우리는 불일치 탐지 벤치마크 생성에 대한 새로운 프로토콜을 제안하고 이를 10개 도메인 벤치마크인 SummEdits에 구현했습니다. 이 새로운 벤치마크는 이전 벤치마크 대비 샘플당 20배 더 비용 효율적이며, 주석자 간 일치율을 약 0.9로 추정하여 높은 재현성을 보입니다. 대부분의 LLMs이 SummEdits에서 어려움을 겪으며, 성능이 무작위 선택에 가까운 수준입니다. 가장 성능이 뛰어난 모델인 GPT-4조차도 추정된 인간 성능보다 8% 낮은 성능을 보여, LLMs이 사실을 추론하고 불일치를 탐지하는 능력에 있어 여전히 격차가 있음을 강조합니다.
오픈월드 생존 게임은 다중 작업, 심층 탐색, 목표 우선순위 설정 등의 요구 사항으로 인해 AI 알고리즘에 상당한 도전을 제기한다. 강화학습(RL)이 게임 해결에 널리 사용되지만, 높은 샘플 복잡성으로 인해 Crafter나 Minecraft와 같은 복잡한 오픈월드 게임에서의 효과가 제한적이다. 본 연구에서는 게임의 원본 학술 논문을 읽고 이를 통해 학습한 지식을 활용하여 대형 언어 모델(LLM)을 통해 게임을 추론하고 플레이하는 새로운 접근법인 SPRING을 제안한다. LaTeX 소스를 게임 컨텍스트로, 그리고 에이전트의 현재 관측을 설명으로 프롬프트하여, SPRING 프레임워크는 게임 관련 질문을 노드로, 의존성을 엣지로 하는 방향성 비순환 그래프(DAG)를 사용한다. DAG를 탐색하고 위상 순서에 따라 각 노드에 대한 LLM 응답을 계산함으로써 환경에서 취할 최적의 행동을 식별하며, 최종 노드에 대한 LLM의 답변은 직접 환경 행동으로 변환된다. 실험에서는 Crafter 오픈월드 환경 설정 하에서 다양한 형태의 프롬프트에 의해 유도된 컨텍스트 내 "추론"의 질을 연구한다. 실험 결과, 일관된 사고의 연쇄(chain-of-thought)로 프롬프트된 LLM은 정교한 고수준 궤적을 완성하는 데 큰 잠재력을 보여준다. 양적으로, GPT-4를 사용한 SPRING은 1M 단계로 훈련된 모든 최신 RL 베이스라인을 훈련 없이 능가한다. 마지막으로, 게임이 LLM을 위한 테스트베드로서의 잠재력을 보여준다.
신경망 기계 번역(Neural Machine Translation, NMT)은 기계 번역(Machine Translation, MT)의 주요 접근법으로 자리 잡고 있지만, NMT 모델의 출력물은 여전히 오류를 수정하고 품질을 향상시키기 위해 번역 후 편집(translation post-editing)이 필요하며, 특히 중요한 환경에서는 더욱 그러하다. 본 연구에서는 대형 언어 모델(Large Language Models, LLMs)을 활용한 번역 후 편집 작업을 공식화하고, GPT-4를 사용하여 여러 언어 쌍에 걸쳐 NMT 출력물을 자동으로 후 편집하는 방법을 탐구한다. 우리의 결과는 GPT-4가 번역 후 편역에 능숙하며, 목표 언어가 영어가 아닌 경우에도 의미 있는 편집을 생성할 수 있음을 보여준다. 특히, GPT-4 기반 후 편집을 통해 WMT-22 영어-중국어, 영어-독일어, 중국어-영어 및 독일어-영어 언어 쌍에서 최신 기계 번역 품질 평가 지표를 기준으로 최첨단 성능을 달성하였다.
체인 오브 사고 프롬프팅과 같은 전략은 입력 예제를 중간 단계로 분해함으로써 복잡한 추론 작업에서 대형 언어 모델(LLM)의 성능을 향상시킨다. 그러나 이러한 방법을 긴 입력 문서에 적용하여 추론하는 방법은 여전히 명확하지 않다. 이는 분해와 각 중간 단계의 출력을 얻는 것이 모두 간단하지 않기 때문이다. 본 연구에서는 긴 문서에 대한 추론을 개선하기 위한 프롬프팅 프레임워크인 PEARL을 제안한다. PEARL은 액션 마이닝, 계획 수립, 계획 실행의 세 단계로 구성된다. 구체적으로, 긴 문서에 대한 질문이 주어지면 PEARL은 질문을 일련의 액션(예: 요약, 이벤트 찾기, 관계 찾기)으로 분해한 후 이를 문서에 적용하여 답을 얻는다. PEARL의 각 단계는 최소한의 인간 입력을 통해 LLM(본 연구에서는 GPT-4)의 제로샷 또는 퓨샷 프롬프팅으로 구현된다. 우리는 PEARL을 긴 서사 텍스트에 대한 복잡한 추론이 필요한 QuALITY 데이터셋의 도전적인 하위 집합에서 평가한다. PEARL은 이 데이터셋에서 제로샷 및 체인 오브 사고 프롬프팅을 능가하며, 각 단계가 성능에 중요한 역할을 한다는 것을 보여주는 절제 실험을 수행한다. 전반적으로, PEARL은 LLM을 활용하여 긴 문서에 대해 추론하는 첫 번째 단계이다.