번역이 포함된 일일 선별된 AI 연구 논문
우리는 인간이 작성한 텍스트에 해당하는 지시문을 자동으로 레이블링하여 고품질의 지시문 수행 언어 모델을 구축하는 확장 가능한 방법을 제안합니다. 우리의 접근 방식인 '지시문 역번역(instruction backtranslation)'은 소량의 시드 데이터로 미세 조정된 언어 모델과 주어진 웹 코퍼스로 시작합니다. 시드 모델은 웹 문서에 대한 지시문 프롬프트를 생성하여(자기 증강) 훈련 예제를 구성한 후, 이러한 후보들 중에서 고품질의 예제를 선택합니다(자기 큐레이션). 이 데이터는 더 강력한 모델을 미세 조정하는 데 사용됩니다. LLaMa 모델을 우리의 접근 방식으로 두 번 반복하여 미세 조정한 결과, 증류 데이터에 의존하지 않고도 Alpaca 리더보드에서 다른 모든 LLaMa 기반 모델을 능가하는 모델을 얻었으며, 이는 매우 효과적인 자기 정렬(self-alignment)을 보여줍니다.
점점 더 강력해지는 대규모 언어 모델의 등장과 함께, 이러한 모델을 캐주얼 대화 및 롤플레이 애플리케이션에 활용하려는 관심이 급증하고 있습니다. 그러나 기존의 대화 및 롤플레이 데이터셋은 실제 롤플레이 참가자들이 보여주는 다양하고 미묘한 상호작용을 종종 제대로 포착하지 못합니다. 이러한 한계를 해결하고 빠르게 성장하는 이 분야에 기여하기 위해, 우리는 부분적으로 합성된 데이터셋인 PIPPA(Personal Interaction Pairs between People and AI)를 소개합니다. PIPPA는 롤플레이 애호가 그룹이 참여한 커뮤니티 주도의 크라우드소싱 노력의 결과물입니다. 이 데이터셋은 26,000개의 대화 세션에 걸쳐 분포된 100만 개 이상의 발화를 포함하며, 롤플레이 시나리오에서 대화형 AI 시스템을 탐구하고 개선하려는 연구자 및 AI 개발자들에게 풍부한 자원을 제공합니다.
최신 기술 수준의 신경망을 훈련시키는 데는 컴퓨팅 자원과 시간 측면에서 높은 비용이 요구됩니다. 모델 규모는 최신 기술을 달성하고 개선하기 위한 핵심 요소로 인식되고 있습니다. 신경망의 규모를 증가시키는 것은 일반적으로 모델의 모든 파라미터를 무작위로 초기화하여 처음부터 다시 시작해야 합니다. 이는 아키텍처 파라미터의 변경을 수반하기 때문에 더 작은 규모의 모델로부터의 지식을 직접적으로 전달하기 어렵기 때문입니다. 본 연구에서는 트랜스포머 기반 신경망의 크기를 점진적으로 증가시키면서도 기능을 보존할 수 있는 여섯 가지 구성 가능한 변환 방법을 제안합니다. 이를 통해 필요에 따라 모델의 용량을 확장할 수 있습니다. 각 변환에 대해 최소한의 초기화 조건 하에서 정확한 기능 보존을 증명합니다. 제안된 방법은 훈련 과정에서 아키텍처를 점진적으로 확장함으로써 더 크고 강력한 모델을 위한 효율적인 훈련 파이프라인을 가능하게 할 수 있습니다.
대규모 언어 모델(LLM)의 엄청난 성공은 LLM 기반 자율 에이전트(LAA)에 대한 새로운 탐구를 촉진하고 있습니다. LAA는 핵심 LLM을 통해 행동을 생성하고 환경과 상호작용할 수 있으며, 이를 통해 관찰과 행동과 같은 과거 상호작용을 조건으로 복잡한 작업을 해결하는 능력을 강화합니다. LAA에 대한 연구는 아직 초기 단계이기 때문에 제한된 탐구만이 이루어져 왔습니다. 따라서 본 논문에서는 에이전트 아키텍처와 LLM 백본 측면에서 LAA에 대한 포괄적인 비교를 제공합니다. 또한, 각 작업 LAA가 한 가지 유형의 행동에 집중하도록 다중 LAA를 조율하는 새로운 전략인 BOLAA를 제안합니다. 여기서 컨트롤러는 다중 에이전트 간의 통신을 관리합니다. 의사결정 및 다단계 추론 환경에서 시뮬레이션을 수행하여 LAA의 능력을 종합적으로 입증합니다. 성능 결과는 LAA 아키텍처 설계와 LLM의 최적 선택, 그리고 이 둘의 호환성에 대한 정량적 제안을 제공합니다. LAA 구현 코드는 https://github.com/salesforce/BOLAA에서 공개합니다.
지난 한 해 동안, 텍스트와 이미지 도메인이 공동으로 표현되는 교차 모달 표현 공간이라는 아이디어를 기반으로 한 텍스트 프롬프트 이미지 생성 분야에서 놀라운 진전이 있었습니다. 이 아이디어는 ASR(Automatic Speech Recognition) 분야에서도 적용되어, 짝을 이루지 않은 음성과 텍스트 데이터를 모두 학습함으로써 매우 큰 매개변수 모델의 능력까지 확장할 수 있는 공동 음성-텍스트 인코더로 구현되었습니다. 이러한 방법들은 유망한 결과를 보여주지만, 음성과 텍스트 간에 본질적으로 존재하는 시퀀스 길이 불일치 문제를 해결하기 위해 업샘플링 휴리스틱이나 명시적 정렬 모델과 같은 특별한 처리가 필요했습니다. 본 연구에서는 공동 음성-텍스트 인코더가 시퀀스 길이를 무시함으로써 자연스럽게 모달리티 간 일관된 표현을 달성한다는 증거를 제시하고, 일관성 손실(consistency loss)이 길이 차이를 용인하며 단순히 최적의 정렬을 가정할 수 있다고 주장합니다. 우리는 이러한 손실이 대규모 매개변수 단일 언어 및 다국어 시스템에서 하류 WER(Word Error Rate)을 개선한다는 것을 보여줍니다.
네트워크 토폴로지와 통신 그래프 분석은 현대 네트워크 관리에서 중요한 역할을 합니다. 그러나 일관된 접근 방식의 부재는 학습 곡선의 가파름, 오류 증가, 그리고 비효율성을 초래합니다. 본 논문에서는 자연어 기반 네트워크 관리 경험을 용이하게 하는 새로운 접근 방식을 소개하며, 대규모 언어 모델(LLM)을 활용하여 자연어 질의에서 작업별 코드를 생성합니다. 이 방법은 생성된 코드를 검사할 수 있도록 함으로써 설명 가능성, 확장성, 그리고 프라이버시 문제를 해결하며, LLM과 네트워크 데이터를 공유할 필요를 없애고, 일반적인 프로그램 합성 기술과 결합된 애플리케이션 특화 요청에 집중합니다. 벤치마크 애플리케이션을 사용하여 프로토타입 시스템을 설계하고 평가하며, 높은 정확도, 비용 효율성, 그리고 보완적인 프로그램 합성 기술을 통한 추가 개선 가능성을 보여줍니다.