번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 클라우드 비용 증가와 지연 시간 문제로 인해 모바일 기기에서 효율적인 대규모 언어 모델(LLM)의 필요성이 커짐에 따라 이를 다룬다. 우리는 모바일 배포에 실용적인 선택인 10억 개 미만의 매개변수를 가진 고품질 LLM 설계에 초점을 맞춘다. 모델 품질을 결정하는 데 데이터와 매개변수 양의 중요성을 강조하는 일반적인 믿음과는 달리, 우리의 연구는 10억 개 미만 규모의 LLM에서 모델 아키텍처의 중요성을 강조한다. 깊고 얇은 아키텍처와 임베딩 공유 및 그룹화된 쿼리 어텐션 메커니즘을 활용하여, 우리는 MobileLLM으로 명명된 강력한 기준 네트워크를 구축했으며, 이는 기존의 1억 2,500만/3억 5,000만 매개변수를 가진 최신 모델 대비 2.7%/4.3%의 정확도 향상을 달성했다. 또한, 모델 크기 증가 없이 지연 시간 오버헤드가 미미한 즉각적인 블록 단위 가중치 공유 방식을 제안한다. 그 결과로 도출된 MobileLLM-LS 모델은 MobileLLM 1억 2,500만/3억 5,000만 대비 0.7%/0.8%의 추가 정확도 향상을 보여준다. 더욱이, MobileLLM 모델 패밀리는 이전의 10억 개 미만 모델 대비 채팅 벤치마크에서 상당한 개선을 보였으며, API 호출 작업에서 LLaMA-v2 7B에 근접한 정확도를 보여주어, 일반적인 온디바이스 사용 사례에서 소규모 모델의 능력을 입증했다.
우리는 레이블이 없는 인터넷 동영상으로부터 비지도 방식으로 학습된 최초의 생성형 인터랙티브 환경인 Genie를 소개합니다. 이 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치로 설명된 다양한 액션 제어 가능 가상 세계를 끝없이 생성하도록 프롬프트될 수 있습니다. 110억 개의 파라미터를 가진 Genie는 기반 세계 모델로 간주될 수 있습니다. 이 모델은 시공간 비디오 토크나이저, 자기회귀적 동역학 모델, 그리고 간단하고 확장 가능한 잠재 액션 모델로 구성됩니다. Genie는 학습 과정에서 실제 액션 레이블이나 세계 모델 문헌에서 일반적으로 요구되는 도메인별 요구사항 없이도 사용자가 생성된 환경에서 프레임 단위로 행동할 수 있게 합니다. 더 나아가, 학습된 잠재 액션 공간은 보지 못한 동영상에서의 행동을 모방하도록 에이전트를 훈련하는 데 용이하여, 미래의 일반화된 에이전트 훈련을 위한 길을 열어줍니다.
최근 연구에 따르면, 대형 언어 모델(LLMs)은 주요 과제의 하위 과제를 먼저 해결하도록 유도할 때 추론 과제를 더 잘 수행할 수 있음이 입증되었습니다. 본 논문에서는 추론 과제를 문제 분해 단계와 문제 해결 단계로 나누는 유사한 전략을 고안하고, 이 전략이 단일 단계 해결 방식보다 우수한 성능을 보일 수 있음을 입증합니다. 더 나아가, 문제 해결 단계는 대량의 도메인 지식을 요구하는 반면, 문제 분해 단계는 일반적인 문제 해결 전략을 학습하는 것만으로 충분하므로, 문제 분해 단계가 더 작은 모델로의 지식 증류에 적합할 것이라는 가설을 제시합니다. 우리는 이 두 가지 능력을 증류하는 방법을 제안하고, 이들이 추론 결과와 추론 비용에 미치는 영향을 평가합니다. 연구 결과, 문제 분해 단계를 증류함과 동시에 다양한 과제, 데이터셋, 모델 간에 좋은 일반화 성능을 달성할 수 있음을 확인했습니다. 그러나 문제 해결 능력을 증류하는 것은 성능 저하 없이 이루어지기 어려우며, 증류된 모델은 일반화에 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 더 작은 크기의 증류된 문제 분해 모델을 문제 해결 LLMs와 결합하여 사용함으로써, 비용 효율적인 추론과 지역적 적응을 달성할 수 있음을 시사합니다.
본 논문은 LLM(대형 언어 모델)이 생성한 텍스트의 방사능(radioactivity), 즉 해당 입력이 학습 데이터로 사용되었는지를 탐지할 수 있는 가능성을 조사합니다. 멤버십 추론(membership inference)과 같은 기존 방법들은 어느 정도의 정확도로 이러한 탐지를 수행할 수 있습니다. 우리는 워터마크가 적용된 학습 데이터가 멤버십 추론보다 탐지가 훨씬 용이하고 신뢰할 수 있는 흔적을 남긴다는 것을 보여줍니다. 우리는 오염 수준을 워터마크의 견고성, 학습 데이터셋 내 비율, 그리고 미세 조정(fine-tuning) 과정과 연결지어 설명합니다. 특히, 학습 텍스트의 단 5%만 워터마크가 적용된 경우에도 워터마크가 적용된 합성 명령어(synthetic instructions)를 학습한 것을 높은 신뢰도(p-value < 1e-5)로 탐지할 수 있음을 입증합니다. 따라서, 원래 기계 생성 텍스트 탐지를 위해 설계된 LLM 워터마킹은 워터마크가 적용된 LLM의 출력이 다른 LLM을 미세 조정하는 데 사용되었는지를 쉽게 식별할 수 있는 능력을 제공합니다.
셀프 어텐션은 대규모 언어 모델(LLM)의 필수 구성 요소이지만, 긴 시퀀스에 대한 추론 지연의 주요 원인 중 하나입니다. 다중 테넌트 LLM 서비스 시나리오에서, 셀프 어텐션의 계산 및 메모리 연산 비용은 여러 LLM 요청이 접두사에서 공유 시스템 프롬프트를 가질 확률을 활용하여 최적화할 수 있습니다. 본 논문에서는 ChunkAttention을 소개합니다. 이는 접두사 인식 셀프 어텐션 모듈로, 여러 요청 간에 일치하는 프롬프트 접두사를 감지하고 런타임에 메모리에서 키/값 텐서를 공유하여 KV 캐시의 메모리 활용도를 향상시킬 수 있습니다. 이는 단일 키/값 텐서를 더 작은 청크로 분할하고 이를 보조 접두사 트리로 구조화함으로써 달성됩니다. 결과적으로, 접두사 트리 기반 KV 캐시 위에 효율적인 셀프 어텐션 커널을 설계하였으며, 여기서는 공유 시스템 프롬프트가 존재할 때 셀프 어텐션 계산 중 데이터 지역성을 개선하기 위해 2단계 분할 알고리즘이 구현되었습니다. 실험 결과, ChunkAttention은 최신 구현 대비 셀프 어텐션 커널을 3.2~4.8배 빠르게 수행할 수 있으며, 시스템 프롬프트의 길이는 1024에서 4096까지 다양합니다.
본 연구에서는 양자화 차원을 증가시킴으로써 신경망 양자화의 크기 대 정확도 트레이드오프를 크게 개선할 수 있음을 보여준다. 우리는 대규모 언어 모델(LLMs)에 잘 확장되는 새로운 사후 훈련 벡터 양자화(VQ) 방법인 GPTVQ를 제안한다. 우리의 방법은 레이어별 출력 재구성 MSE의 헤시안 정보를 활용하여 하나 이상의 열을 양자화하고 남은 양자화되지 않은 가중치를 업데이트하는 과정을 교차적으로 수행한다. 양자화 코드북은 EM 알고리즘의 효율적인 데이터 인식 버전을 사용하여 초기화된다. 이후 코드북은 업데이트되고, 정수 양자화와 SVD 기반 압축을 통해 추가로 압축된다. GPTVQ는 Llama-v2 및 Mistral과 같은 다양한 LLMs에서 크기 대 정확도 트레이드오프 측면에서 새로운 최첨단 기술을 확립한다. 또한, 우리의 방법은 효율적이다: 단일 H100에서 Llamav2-70B 모델을 처리하는 데 양자화 설정에 따라 3시간에서 11시간이 소요된다. 마지막으로, 모바일 CPU에서 VQ 압축 해제에 대한 온디바이스 타이밍을 통해 VQ가 4비트 정수 형식 사용에 비해 지연 시간을 개선함을 보여준다.
본 논문은 입력 길이 확장이 대규모 언어 모델(LLM)의 능력에 미치는 영향을 탐구합니다. 최근 LLM의 발전에도 불구하고, 다양한 입력 길이에 걸친 성능 일관성은 잘 이해되지 않고 있습니다. 우리는 입력 길이의 영향을 평가하기 위해 특별히 설계된 새로운 QA 추론 프레임워크를 도입하여 이 측면을 조사합니다. 동일한 샘플의 여러 버전을 사용하여 입력 길이의 효과를 분리하며, 각 버전은 길이, 유형 및 위치가 다른 패딩으로 확장됩니다. 우리의 연구 결과는 LLM의 추론 성능이 기술적 최대치보다 훨씬 짧은 입력 길이에서도 현저히 저하됨을 보여줍니다. 이 저하 경향은 데이터셋의 모든 버전에서 나타나지만, 그 강도는 다릅니다. 또한, 우리의 연구는 전통적인 perplexity 지표가 긴 입력 추론 작업에서의 LLM 성능과 상관관계가 없음을 밝혀냅니다. 우리는 결과를 분석하고 LLM의 한계를 해결하기 위한 전략에 유용한 지침이 될 수 있는 실패 모드를 식별합니다.
대형 언어 모델(LLM) 기반의 자율 에이전트는 상당한 연구 관심을 받고 있다. 그러나 다양한 데이터 소스의 이질적 특성과 다중 터제트로 구성된 데이터의 특성으로 인해, 에이전트 기반 작업에서 LLM의 잠재력을 완전히 활용하는 데는 본질적인 어려움이 존재한다. 본 논문에서는 이러한 문제를 해결하기 위한 포괄적인 솔루션으로 AgentOhana를 소개한다. AgentOhana는 다양한 환경에서 수집된 에이전트 터제트를 통합하며, 광범위한 시나리오를 아우른다. 이를 통해 터제트를 일관된 형식으로 표준화하고 통합함으로써, 에이전트 학습에 최적화된 일반적인 데이터 로더의 구성을 간소화한다. 데이터 통합을 활용하여, 우리의 학습 파이프라인은 다양한 데이터 소스 간의 균형을 유지하고, 데이터셋 분할 및 모델 학습 과정에서 디바이스 간 독립적인 무작위성을 보존한다. 또한, AI 에이전트를 위해 특화된 대형 액션 모델인 xLAM-v0.1을 제시하며, 이는 다양한 벤치마크에서 탁월한 성능을 보인다.
대규모 언어 모델(LLMs)이 도구와 외부 애플리케이션 프로그래밍 인터페이스(APIs)를 효과적으로 활용하여 작업을 계획하고 완료할 필요성이 점차 증가하고 있다. 이에 따라 도구/API 호출과 관련된 충분한 양의 훈련 및 테스트 데이터를 확보할 수 있는 방법에 대한 관심이 크게 높아지고 있다. 이러한 문제를 해결하기 위한 주요 전략으로 두 가지 연구 방향이 부각되고 있다. 첫 번째는 합성 데이터 생성 기술에 초점을 맞추는 것이며, 두 번째는 API/도구 기반 작업으로 변환할 수 있는 작업 인접 데이터셋을 큐레이팅하는 것이다. 본 논문에서는 기존 데이터셋을 식별, 큐레이팅 및 변환하는 작업에 초점을 맞추고, 이를 통해 도구가 강화된 LLMs의 훈련 및 체계적인 테스트를 위한 대규모 코퍼스인 API-BLEND를 소개한다. 이 데이터셋은 API/도구 탐지, 슬롯 채우기, 탐지된 API의 순서 지정과 같은 API 작업을 포함한 실제 시나리오를 모방한다. 우리는 API-BLEND 데이터셋이 훈련 및 벤치마킹 목적으로 유용함을 입증한다.
조건부 인간 동작 생성은 가상 현실, 게임, 로보틱스 등 다양한 분야에서 중요한 주제로 자리 잡고 있습니다. 기존 연구들은 텍스트, 음악, 또는 장면에 의해 유도된 동작 생성에 초점을 맞추었지만, 이는 주로 짧은 시간 동안 제한된 고립된 동작을 생성하는 데 그쳤습니다. 이에 반해, 우리는 다양한 텍스트 설명 시리즈에 의해 유도된 길고 연속적인 동작 시퀀스의 생성을 다룹니다. 이러한 맥락에서, 우리는 후처리나 불필요한 노이즈 제거 단계 없이도 원활한 인간 동작 구성(Human Motion Composition, HMC)을 생성하는 최초의 확산 기반 모델인 FlowMDM을 소개합니다. 이를 위해, 우리는 절대적 및 상대적 위치 인코딩을 모두 활용하는 Blended Positional Encodings 기법을 도입했습니다. 구체적으로, 절대적 단계에서는 전반적인 동작 일관성을 회복하고, 상대적 단계에서는 부드럽고 현실적인 전환을 구축합니다. 그 결과, 우리는 Babel 및 HumanML3D 데이터셋에서 정확성, 현실성, 그리고 부드러움 측면에서 최첨단 성능을 달성했습니다. FlowMDM은 Pose-Centric Cross-ATtention 덕분에 동작 시퀀스당 단일 설명만으로도 훈련할 수 있으며, 이는 추론 시 다양한 텍스트 설명에 대해 강건한 성능을 보장합니다. 마지막으로, 기존 HMC 메트릭의 한계를 해결하기 위해, 우리는 급격한 전환을 감지하기 위한 두 가지 새로운 메트릭인 Peak Jerk와 Area Under the Jerk를 제안합니다.