번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델은 다목적 도구로 부상했지만, 큰 추론 예산과 대규모 도메인 내 훈련 데이터셋이 없는 작업에 적용하기는 어려운 문제가 있습니다. 본 연구는 이러한 제약 조건을 공식화하고 네 가지 중요한 변수를 구분합니다: 사전 훈련 예산(대상 도메인이 알려지기 전의 훈련), 전문화 예산(대상 도메인이 알려진 후의 훈련), 추론 예산, 그리고 도메인 내 훈련 데이터셋 크기입니다. 이러한 설정들에 걸쳐, 우리는 머신 러닝 문헌에서 다양한 접근법을 비교합니다. 추론 비용에 제한을 받는 상황에서, 우리는 매우 큰 일반 트랜스포머 모델을 훈련시키는 표준 관행보다 더 나은 대안을 찾았습니다. 특히, 우리는 하이퍼 네트워크와 전문가 혼합 모델이 큰 사전 훈련 예산에서 더 나은 복잡도를 보임을 입증했으며, 중요도 샘플링된 데이터셋으로 훈련된 소형 모델이 큰 전문화 예산에서 매력적임을 보여줍니다.
대형 언어 모델(LLMs)의 발전은 코드 생성 분야를 크게 촉진시켰다. 기존 연구에서는 컴파일러 피드백과 강화 학습(RL)을 통합하여 LLMs의 출력 공간을 탐색함으로써 코드 생성 품질을 향상시키고자 하였다. 그러나 복잡한 인간의 요구사항에 대응하여 LLMs가 생성하는 긴 코드는 RL 탐색을 어렵게 만든다. 또한, 단위 테스트가 복잡한 코드를 모두 커버하지 못할 수 있기 때문에, 실행되지 않은 코드 스니펫을 사용하여 LLMs를 최적화하는 것은 비효율적이다. 이러한 문제를 해결하기 위해, 우리는 코드 생성을 위한 새로운 RL 프레임워크인 StepCoder를 소개한다. StepCoder는 두 가지 주요 구성 요소로 이루어져 있다: CCCS(Curriculum of Code Completion Subtasks)는 긴 시퀀스의 코드 생성 작업을 코드 완성 하위 작업으로 나누어 탐색 문제를 해결하고, FGO(Fine-Grained Optimization)는 실행되지 않은 코드 세그먼트를 마스킹하여 모델을 최적화한다. 또한, RL 훈련을 위해 APPS+ 데이터셋을 구축하였으며, 이 데이터셋은 단위 테스트의 정확성을 보장하기 위해 수동으로 검증되었다. 실험 결과는 우리의 방법이 출력 공간 탐색 능력을 향상시키고, 해당 벤치마크에서 최신 접근법을 능가함을 보여준다.
계획은 인공지능의 초기 개념부터 핵심적인 연구 주제로 자리 잡아왔지만, 초기 AI 에이전트들은 인간 수준의 계획을 위해 필요한 많은 인지적 기반이 부족했기 때문에 주로 제한된 환경에 초점을 맞추었습니다. 최근, 대규모 언어 모델(LLM)로 구동되는 언어 에이전트들은 도구 사용과 추론과 같은 흥미로운 능력을 보여주었습니다. 이러한 언어 에이전트들이 이전 AI 에이전트들이 도달하지 못한 더 복잡한 환경에서 계획을 수립할 수 있을까요? 이 연구를 진전시키기 위해, 우리는 여행 계획이라는 일반적인 실세계 계획 시나리오에 초점을 맞춘 새로운 계획 벤치마크인 TravelPlanner를 제안합니다. 이 벤치마크는 풍부한 샌드박스 환경, 약 400만 개의 데이터 레코드에 접근할 수 있는 다양한 도구, 그리고 1,225개의 세심하게 선별된 계획 의도와 참조 계획을 제공합니다. 포괄적인 평가 결과, 현재의 언어 에이전트들은 이러한 복잡한 계획 작업을 처리할 능력이 아직 부족한 것으로 나타났습니다. GPT-4조차도 성공률이 0.6%에 불과했습니다. 언어 에이전트들은 작업에 집중하거나, 올바른 도구를 사용해 정보를 수집하거나, 여러 제약 조건을 추적하는 데 어려움을 겪었습니다. 그러나 언어 에이전트들이 이러한 복잡한 문제를 다룰 가능성 자체가 이미 중요한 진전임을 주목합니다. TravelPlanner는 미래의 언어 에이전트들을 위한 도전적이면서도 의미 있는 테스트베드를 제공합니다.
우리는 포켓몬 배틀에서 인간과 동등한 성능을 달성하는 최초의 LLM 구현체인 Pok\'eLLMon을 소개한다. Pok\'eLLMon의 설계는 세 가지 핵심 전략을 포함한다: (i) 배틀에서 도출된 텍스트 기반 피드백을 즉시 소비하여 정책을 반복적으로 개선하는 인-컨텍스트 강화 학습; (ii) 환각을 방지하고 에이전트가 적시에 적절하게 행동할 수 있도록 외부 지식을 검색하는 지식 증강 생성; (iii) 강력한 상대를 마주하고 전투를 회피하고자 할 때 발생하는 패닉 스위칭 현상을 완화하기 위한 일관된 행동 생성. 우리는 인간과의 온라인 배틀을 통해 Pok\'eLLMon이 인간과 유사한 전략과 적시 의사결정을 보여주며, Ladder 대회에서 49%, 초청 배틀에서 56%의 승률을 달성함을 입증한다. 우리의 구현 및 플레이 가능한 배틀 로그는 https://github.com/git-disl/PokeLLMon에서 확인할 수 있다.
풍부하고 제어 가능한 동작을 생성하는 것은 비디오 합성에서 핵심적인 과제입니다. 우리는 미세한 동작 제어를 위한 새로운 접근 방식인 Boximator를 제안합니다. Boximator는 하드 박스(hard box)와 소프트 박스(soft box)라는 두 가지 제약 유형을 도입합니다. 사용자는 조건 프레임에서 하드 박스를 사용해 객체를 선택한 후, 두 유형의 박스 중 하나를 사용해 미래 프레임에서 객체의 위치, 형태 또는 동작 경로를 대략적으로 또는 엄격하게 정의할 수 있습니다. Boximator는 기존 비디오 확산 모델에 플러그인 방식으로 작동합니다. 이의 학습 과정은 기본 모델의 지식을 보존하기 위해 원래 가중치를 고정하고 제어 모듈만을 학습시킵니다. 학습의 어려움을 해결하기 위해, 우리는 박스-객체 상관관계 학습을 크게 단순화하는 새로운 자체 추적(self-tracking) 기술을 도입했습니다. 실험적으로, Boximator는 두 가지 기본 모델을 개선한 최신 비디오 품질(FVD) 점수를 달성했으며, 박스 제약을 통합한 후 더욱 향상되었습니다. 강력한 동작 제어 가능성은 경계 상자 정렬 메트릭의 급격한 증가로 검증되었습니다. 또한 인간 평가에서도 사용자들이 기본 모델보다 Boximator의 생성 결과를 선호하는 것으로 나타났습니다.
트랜스포머는 시퀀스 모델링에서 지배적인 아키텍처이지만, 시퀀스 길이에 의존하지 않는 고정 크기의 잠재 상태를 사용하는 모델에 대한 관심이 증가하고 있으며, 이를 "일반화된 상태 공간 모델"(GSSMs)이라고 부른다. 본 논문에서는 GSSMs가 추론 시간 효율성 측면에서 유망하지만, 입력 컨텍스트에서 복사가 필요한 작업에서는 트랜스포머 모델에 비해 제한적임을 보인다. 우리는 문자열 복사라는 간단한 작업에 대한 이론적 분석을 시작으로, 두 층의 트랜스포머가 지수 길이의 문자열을 복사할 수 있는 반면 GSSMs는 고정 크기 잠재 상태로 인해 근본적으로 제한됨을 증명한다. 실험적으로, 컨텍스트 복사가 필요한 합성 작업에서 트랜스포머가 GSSMs보다 효율성과 일반화 측면에서 우수함을 확인한다. 마지막으로, 사전 훈련된 대규모 언어 모델을 평가한 결과, 트랜스포머 모델이 컨텍스트에서 정보를 복사하고 검색하는 작업에서 상태 공간 모델을 크게 능가함을 발견했다. 종합적으로, 이러한 결과는 실용적인 관심사 작업에서 트랜스포머와 GSSMs 사이에 근본적인 격차가 있음을 시사한다.
대형 언어 모델(LLMs)은 복잡한 추론 과제에서 뛰어난 능력을 보여왔지만, 비즈니스 전략 및 주식 시장 분석과 같은 동적, 상호작용적, 경쟁적 시나리오에서의 성과는 아직 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 본 연구는 급변하는 환경에서의 의사결정을 위한 LLMs의 동적 추론 능력을 체계적으로 탐구한다. 우리는 현실 세계의 동적 의사결정의 복잡성을 반영한 두 가지 게임 이론 기반 파일럿 과제를 소개한다. 이러한 과제는 명확하고 통제 가능하며 정밀한 평가를 가능하게 하여 LLMs의 동적 추론 능력을 평가할 수 있도록 설계되었다. 광범위한 실험을 통해, 기존의 추론 방법들은 k-수준 사고를 요구하는 동적 환경에서 취약한 경향이 있음을 발견했으며, 이는 기존 연구에서 다루지 않았던 핵심 개념이다. 이를 해결하기 위해, 우리는 "K-수준 추론"이라는 새로운 LLMs 추론 접근법을 제안한다. 이 접근법은 경쟁자의 관점을 채택하여 사용 가능한 역사적 정보를 기반으로 k-수준 사고를 재귀적으로 적용함으로써, 경쟁자의 후속 행동 예측 정확도를 크게 향상시키고 더 전략적인 의사결정을 가능하게 한다. 본 연구는 동적 추론 평가를 위한 강력한 정량적 벤치마크를 설정할 뿐만 아니라, 동적 맥락에서 LLMs의 숙련도를 현저히 향상시킨다.
본 기술 보고서는 nomic-embed-text-v1의 학습 과정을 설명한다. 이 모델은 완전히 재현 가능하며, 오픈소스, 오픈 가중치, 오픈 데이터로 제공되는 8192 컨텍스트 길이의 영어 텍스트 임베딩 모델로, 짧은 및 긴 컨텍스트 작업에서 OpenAI Ada-002와 OpenAI text-embedding-3-small을 모두 능가한다. 우리는 학습 코드와 모델 가중치를 Apache 2 라이선스 하에 공개한다. 다른 오픈소스 모델과 달리, 2억 3,500만 개의 정제된 텍스트 쌍을 포함한 학습 데이터 로더를 공개하여 nomic-embed-text-v1의 완전한 재현을 가능하게 한다. 모델을 재현하기 위한 코드와 데이터는 https://github.com/nomic-ai/contrastors에서 확인할 수 있다.
대형 모델(Large Models)의 등장은 기계 학습의 새로운 시대를 열었으며, 방대한 데이터셋을 활용하여 복잡한 패턴을 포착하고 종합함으로써 소규모 모델을 크게 능가합니다. 이러한 발전에도 불구하고, 특히 오디오 생성 분야에서의 스케일링에 대한 탐구는 여전히 제한적이며, 이전의 연구들은 고해상도(HiFi) 44.1kHz 영역까지 확장되지 못했고, 스펙트럼 불연속성과 고주파 영역에서의 흐릿함, 그리고 도메인 외 데이터에 대한 견고성 부족 등의 문제를 겪었습니다. 이러한 한계는 음악 및 노래 생성과 같은 다양한 사용 사례에 모델의 적용 가능성을 제한합니다. 본 연구는 확장 가능한 생성적 적대 네트워크(Scalable Generative Adversarial Networks)를 통해 향상된 다양한 오디오 생성(EVA-GAN)을 소개하며, 스펙트럼 및 고주파 재구성과 도메인 외 데이터 성능에서 이전의 최첨단 기술을 크게 개선합니다. 이를 위해 36,000시간 분량의 44.1kHz 오디오 데이터셋, 컨텍스트 인식 모듈, 인간 참여형(Human-In-The-Loop) 아티팩트 측정 도구를 사용하고, 모델을 약 2억 개의 파라미터로 확장하여 HiFi 오디오 생성을 가능하게 합니다. 본 연구의 데모는 https://double-blind-eva-gan.cc에서 확인할 수 있습니다.