번역이 포함된 일일 선별된 AI 연구 논문
머신러닝 커뮤니티는 언어 모델(LM)을 프롬프팅하고 이를 복잡한 작업을 해결하기 위한 파이프라인으로 구성하는 기술을 빠르게 탐구하고 있습니다. 그러나 기존의 LM 파이프라인은 일반적으로 시행착오를 통해 발견된 긴 문자열인 "프롬프트 템플릿"을 하드코딩하여 구현됩니다. LM 파이프라인을 체계적으로 개발하고 최적화하기 위한 접근법으로, 우리는 DSPy를 소개합니다. DSPy는 LM 파이프라인을 텍스트 변환 그래프, 즉 선언적 모듈을 통해 LM을 호출하는 명령형 계산 그래프로 추상화하는 프로그래밍 모델입니다. DSPy 모듈은 파라미터화되어 있어, 프롬프팅, 파인튜닝, 증강, 추론 기술의 조합을 어떻게 적용할지 학습할 수 있습니다(데모를 생성하고 수집함으로써). 우리는 주어진 메트릭을 최대화하기 위해 DSPy 파이프라인을 최적화하는 컴파일러를 설계했습니다. 두 가지 사례 연구를 통해, 간결한 DSPy 프로그램이 수학 단어 문제를 추론하고, 멀티홉 검색을 처리하며, 복잡한 질문에 답하고, 에이전트 루프를 제어하는 정교한 LM 파이프라인을 표현하고 최적화할 수 있음을 보여줍니다. 컴파일링 후 몇 분 안에, 몇 줄의 DSPy 코드로 GPT-3.5와 llama2-13b-chat이 표준 퓨샷 프롬프팅(일반적으로 각각 25%와 65% 이상)과 전문가가 작성한 데모를 사용한 파이프라인(각각 최대 5-46%와 16-40%)을 능가하는 파이프라인을 자체 부트스트랩할 수 있습니다. 또한, 770M 파라미터 T5와 llama2-13b-chat과 같은 상대적으로 작고 오픈된 LM으로 컴파일된 DSPy 프로그램은 전문가가 작성한 프롬프트 체인에 의존하는 접근법과 비교해도 경쟁력이 있습니다. DSPy는 https://github.com/stanfordnlp/dspy에서 이용 가능합니다.
"생각은 행동을 위한 것이다." 인간은 관찰을 통해 다른 사람의 정신 상태를 추론할 수 있으며, 이러한 능력을 마음이론(Theory-of-Mind, ToM)이라고 한다. 그리고 이러한 추론을 바탕으로 실용적으로 행동할 수 있다. 기존의 질의응답 벤치마크인 ToMi는 모델에게 이야기 속 등장인물의 믿음에 대해 추론하도록 질문하지만, 모델이 이러한 추론을 바탕으로 행동을 이끌어낼 수 있는지 테스트하지는 않는다. 우리는 대규모 언어 모델(LLM)을 위한 새로운 평가 패러다임인 "행동을 위한 생각(Thinking for Doing, T4D)"을 제안한다. T4D는 모델이 다른 사람의 정신 상태에 대한 추론을 사회적 시나리오에서의 행동과 연결하도록 요구한다. T4D에 대한 실험 결과, GPT-4와 PaLM 2와 같은 LLM은 이야기 속 등장인물의 믿음을 추적하는 데는 뛰어난 성능을 보이지만, 이러한 능력을 전략적 행동으로 전환하는 데는 어려움을 겪는다. 우리의 분석은 LLM의 핵심적인 도전 과제가 ToMi에서처럼 명시적으로 질문되지 않은 정신 상태에 대한 암묵적 추론을 식별하고, 이를 T4D에서 올바른 행동을 선택하는 데 연결하는 데 있음을 보여준다. 이러한 격차를 해소하기 위해, 우리는 "예측하고 반영하기(Foresee and Reflect, FaR)"라는 제로샷 프롬프팅 프레임워크를 도입한다. FaR는 LLM이 미래의 도전을 예측하고 잠재적인 행동에 대해 추론하도록 장려하는 추론 구조를 제공한다. FaR는 GPT-4의 T4D 성능을 50%에서 71%로 향상시키며, 사고의 연쇄(Chain-of-Thought) 및 자기 질문(Self-Ask)과 같은 다른 프롬프팅 방법을 능가한다. 또한, FaR는 ToM 추론을 통해 행동을 선택해야 하는 다양한 분포 외 이야기 구조와 시나리오에서도 일반화되며, 퓨샷 인컨텍스트 학습을 포함한 다른 방법들을 일관되게 능가한다.
GPT-4와 같은 대형 언어 모델(LLMs)은 다양한 작업에서 뛰어난 성능을 보여주지만, 이러한 강력한 성능은 종종 유료 API 서비스 사용에 따른 높은 비용을 수반합니다. 본 논문에서는 특히 수학적, 인과적 추론 작업을 수행할 때 LLM 사용 비용을 절감하기 위해 LLM 캐스케이드를 구축하는 연구를 진행했습니다. 우리의 캐스케이드 파이프라인은 더 단순한 질문은 더 약하지만 더 저렴한 LLM으로 해결할 수 있고, 도전적인 질문만이 더 강력하고 비용이 많이 드는 LLM을 필요로 한다는 직관을 따릅니다. 이러한 의사결정을 실현하기 위해, 우리는 더 약한 LLM의 "답변 일관성"을 질문의 난이도 신호로 간주하고, Chain-of-Thought와 Program-of-Thought라는 두 가지 사고 표현의 혼합을 활용한 답변 샘플링 및 일관성 검사 방법을 제안합니다. GPT-3.5-turbo와 GPT-4를 각각 더 약한 LLM과 더 강력한 LLM으로 설정하여 6개의 추론 벤치마크 데이터셋에서 실험을 진행한 결과, 제안된 LLM 캐스케이드는 더 강력한 LLM만을 사용했을 때와 비슷한 성능을 달성하면서도 비용은 단 40%만 소요되는 것을 입증했습니다.
오늘날 사용자들은 외부 지식이 필요한 질문에 답변하기 위해 대형 언어 모델(LLM)을 어시스턴트로 활용합니다. 특정 도시의 날씨, 주식 가격, 심지어 이웃 내 특정 위치에 대해 묻는 경우가 있습니다. 이러한 질문에는 사용자의 질문에 답하기 위해 외부 API를 호출하는 코드를 생성해야 하지만, LLM은 첫 시도에서 정확한 코드를 생성하는 경우가 드물며 실행 결과를 바탕으로 반복적인 코드 개선이 필요합니다. 또한, 높은 질문량을 처리하기 위해 LLM 어시스턴트를 사용하는 것은 비용이 많이 들 수 있습니다. 본 연구에서는 코드 기반 질문에 더 경제적이고 정확하게 답할 수 있도록 돕는 EcoAssistant 프레임워크를 제안합니다. EcoAssistant는 세 가지 구성 요소를 포함합니다. 첫째, LLM 어시스턴트가 자동 코드 실행기와 대화하여 실행 결과를 바탕으로 코드를 반복적으로 개선하거나 답변을 생성할 수 있도록 합니다. 둘째, 더 약하고 저렴한 LLM으로 먼저 질문에 답을 시도한 후, 필요 시 더 강력하고 비싼 LLM으로 전환하는 계층적 LLM 어시스턴트 구조를 사용합니다. 셋째, 이전에 성공한 질문의 해결책을 검색하여 후속 질문에 도움이 되는 컨텍스트 내 예시로 활용합니다. 실험적으로, EcoAssistant는 경제성과 정확성 측면에서 뚜렷한 이점을 제공하며, GPT-4의 비용의 50% 미만으로 GPT-4보다 10% 높은 성공률을 달성함을 보여줍니다.