번역이 포함된 일일 선별된 AI 연구 논문
오늘날, 대규모 언어 모델(LLMs)은 도구 사용법에 대한 몇 가지 데모를 제공함으로써 새로운 도구를 사용하도록 학습됩니다. 불행히도, 데모를 얻는 것은 어려우며, 잘못된 데모가 선택되면 바람직하지 않은 편향된 사용으로 이어질 수 있습니다. 데모가 쉽게 구할 수 있는 드문 시나리오에서조차, 얼마나 많은 데모를 제공할지, 그리고 어떤 데모를 제공할지 결정하는 원칙적인 선택 프로토콜이 없습니다. 작업이 더 복잡해질수록 선택 탐색은 조합적으로 증가하며 필연적으로 다루기 어려워집니다. 우리의 연구는 데모에 대한 대안으로서 도구 문서를 제시합니다. 우리는 데모보다는 개별 도구 사용법에 대한 설명인 도구 문서의 사용을 주장합니다. 우리는 시각 및 언어 모달리티에 걸친 6가지 작업에 대한 세 가지 주요 실증적 발견을 통해 이 주장을 입증합니다. 첫째, 기존 벤치마크에서 도구 문서만으로 구성된 제로샷 프롬프트는 적절한 도구 사용을 이끌어내기에 충분하며, 퓨샷 프롬프트와 동등한 성능을 달성합니다. 둘째, 수백 개의 사용 가능한 도구 API가 포함된 새로 수집된 현실적인 도구 사용 데이터셋에서, 도구 문서가 데모보다 훨씬 더 가치가 있음을 보여주며, 문서가 없는 퓨샷보다 제로샷 문서가 훨씬 더 우수한 성능을 보입니다. 셋째, 우리는 방금 출시된 최첨단 모델을 도구로 사용하여 이미지 생성 및 비디오 추적을 해결함으로써 도구 문서의 이점을 강조합니다. 마지막으로, 도구 문서를 사용하여 새로운 애플리케이션을 자동으로 활성화할 가능성을 강조합니다: GroundingDino, Stable Diffusion, XMem, 그리고 SAM의 문서만을 사용하여, LLMs는 방금 출시된 Grounded-SAM 및 Track Anything 모델의 기능을 재창조할 수 있습니다.
최근 대형 언어 모델(LLMs)의 발전, 특히 사고 사슬(CoT) 프롬프팅의 발명은 추론 문제를 해결할 수 있는 가능성을 열었습니다. 그러나 가장 강력한 LLMs조차도 비선형적 사고와 다단계 추론이 필요한 더 복잡한 문제에는 여전히 어려움을 겪고 있습니다. 본 연구에서는 LLMs가 외부 자원에 의존하지 않고 스스로의 오류를 인식할 수 있는 능력을 탐구합니다. 특히, 단계별 추론 과정에서 개별 오류를 식별하는 데 사용될 수 있는지 조사합니다. 이를 위해, 우리는 이러한 오류를 인식하기 위한 제로샷 검증 기법을 제안합니다. 그리고 이 검증 기법을 사용하여 생성된 다양한 답변에 대해 가중 투표를 수행함으로써 질문-응답 성능을 개선합니다. 이 방법을 GSM8K, MathQA, MATH라는 세 가지 수학 데이터셋에서 테스트한 결과, 이 방법이 오류를 성공적으로 인식하고 궁극적으로 예측 성능을 향상시키는 것을 확인했습니다.
우리는 새로운 유형의 프롬프팅 전략을 통해 대규모 언어 모델(LLM)의 조합적 일반화 능력을 이끌어내는 문제를 고려합니다. 조합적 일반화는 LLM이 이전에 접한 문제보다 더 어려운 문제를 해결할 수 있도록 하는 능력으로, 인간과 유사한 지능의 중요한 추론 능력입니다. 그러나 현재 최첨단 LLM조차도 이러한 형태의 추론에 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해, 우리는 기본 기술을 조합하여 더 복잡한 문제를 해결하는 방법을 LLM에 지시하는 기술-컨텍스트 내 프롬프팅(SKiC)을 제안합니다. 우리는 동일한 프롬프팅 컨텍스트 내에서 기술과 조합 예시를 모두 보여주는 것이 중요하다는 것을 발견했습니다. 단 두 개의 예시만으로도, SKiC 프롬프팅은 기술과 그 조합 능력 사이에 강력한 시너지를 일으킵니다. 특히, 이는 혁신적인 기술 조합이 필요한 새로운 문제를 해결할 수 있도록 LLM을 강화하며, 다양한 도전적인 조합성 작업에서 거의 완벽한 일반화를 달성합니다. 흥미롭게도, SKiC 프롬프팅은 LLM의 잠재력을 해제하여, 이전 사전 학습 단계에서 획득한 내부 기술을 프롬프팅 컨텍스트에서 명시적으로 제시되지 않았더라도 활용할 수 있게 합니다. 이는 LLM이 내부 역량을 활성화하고 조합함으로써 보지 못한 복잡한 문제를 해결할 수 있는 능력으로 이어집니다. 이러한 두드러진 특징 덕분에, SKiC 프롬프팅은 도전적인 수학적 추론 벤치마크(예: MATH)에서 최첨단 성능을 달성할 수 있습니다.
자기 지도 학습(self-supervised learning)은 레이블이 없는 데이터로부터 유용한 표현을 학습하기 위해 사전 작업(pretext task)을 구성함으로써 학습을 가능하게 하는 딥러닝의 유망한 패러다임입니다. 자연어 처리 분야에서는 마스크된 언어 모델링(Masked Language Modeling, MLM)이 주된 사전 작업으로 자리 잡았으며, 컴퓨터 비전 분야에서는 이에 상응하는 마스크된 이미지 모델링(Masked Image Modeling, MIM)이 존재합니다. 그러나 MIM은 정확한 위치에서 의미론적 내용을 예측해야 하기 때문에 어려운 과제입니다. 예를 들어, 개의 불완전한 사진이 주어졌을 때 꼬리가 있을 것이라고 추측할 수는 있지만 정확한 위치를 파악하는 것은 불가능합니다. 본 연구에서는 이러한 문제를 해결하기 위해 위치 불확실성을 모델에 통합한 확률적 모델인 FlexPredict를 제안합니다. 구체적으로, 우리는 모델이 위치 불확실성에 더 강건한 특징을 학습하도록 유도하기 위해 확률적으로 마스크된 토큰 위치를 조건으로 설정합니다. 우리의 접근 방식은 다양한 다운스트림 작업에서 성능을 향상시키며, 예를 들어 MIM 베이스라인과 비교했을 때 FlexPredict는 ViT-B를 사용한 ImageNet 선형 탐사(linear probing)에서 1.6%, ViT-L을 사용한 준지도 비디오 분할(semi-supervised video segmentation)에서 2.5%의 성능 향상을 달성했습니다.
생성된 텍스트와 자연 텍스트를 구별하는 작업은 점점 더 어려워지고 있다. 이러한 맥락에서 워터마킹은 생성된 텍스트를 특정 모델에 귀속시키기 위한 유망한 기술로 부상하고 있다. 이는 샘플링 생성 과정을 변경하여 생성된 출력에 보이지 않는 흔적을 남김으로써 나중에 탐지가 용이하도록 한다. 본 연구는 세 가지 이론적 및 실증적 고려 사항을 바탕으로 대규모 언어 모델(LLM)을 위한 워터마크를 통합한다. 첫째, 낮은 오탐률(10^{-6} 미만)에서도 유효한 강력한 이론적 보장을 제공하는 새로운 통계적 테스트를 소개한다. 둘째, 자연어 처리 분야의 고전적인 벤치마크를 사용하여 워터마크의 효과를 비교함으로써 실제 적용 가능성에 대한 통찰을 얻는다. 셋째, LLM에 접근이 가능한 시나리오와 다중 비트 워터마킹을 위한 고급 탐지 기법을 개발한다.