번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 다양한 분야에서 점점 더 중요해지고 있습니다. 그러나 LLM 추론을 가속화하는 데 있어 다음과 같은 과제들이 여전히 해결되지 않고 있습니다: (1) 동기화된 부분 소프트맥스 업데이트. 소프트맥스 연산은 각 부분 소프트맥스 결과 간의 동기화된 업데이트 연산을 필요로 하여, LLM의 어텐션 계산에서 약 20%의 오버헤드를 발생시킵니다. (2) 플랫 GEMM의 낮은 계산 활용도. LLM 추론에서 수행되는 GEMM의 행렬 형태가 플랫하여, 이전 설계에서 제로 패딩 후 50% 이상의 성능 손실이 발생합니다. (3) 정적 데이터플로우로 인한 성능 손실. LLM의 커널 성능은 다양한 입력 데이터 특성과 하드웨어 구성 등에 따라 달라집니다. 단일하고 정적인 데이터플로우는 LLM 추론에서 다양한 형태의 GEMM에 대해 최대 50.25%의 성능 손실을 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 주류 LLM과 하드웨어 백엔드를 지원하는 빠른 LLM 추론 엔진인 FlashDecoding++을 제안합니다. FlashDecoding++은 다음과 같은 혁신적인 기법을 제안합니다: (1) 통합 최대값을 사용한 비동기식 소프트맥스. FlashDecoding++은 서로 다른 부분 소프트맥스 계산 간의 동기화를 피하기 위해 통합 최대값 기법을 도입합니다. (2) 더블 버퍼링을 활용한 플랫 GEMM 최적화. FlashDecoding++은 다양한 형태의 플랫 GEMM이 서로 다른 병목 현상을 겪는다는 점을 지적하고, 더블 버퍼링과 같은 기법을 도입합니다. (3) 하드웨어 자원 적응형 휴리스틱 데이터플로우. FlashDecoding++은 입력의 동적 특성을 고려하여 다양한 하드웨어 자원을 활용해 데이터플로우를 휴리스틱하게 최적화합니다. FlashDecoding++의 다재다능한 최적화 덕분에, Hugging Face 구현 대비 NVIDIA와 AMD GPU에서 각각 최대 4.86배와 2.18배의 속도 향상을 달성할 수 있습니다. 또한, FlashDecoding++은 주류 LLM에서 최신 LLM 추론 엔진 대비 평균 1.37배의 속도 향상을 보여줍니다.
우리는 생성적 시뮬레이션을 통해 대규모로 다양한 로봇 기술을 자동으로 학습하는 생성형 로봇 에이전트인 RoboGen을 소개합니다. RoboGen은 최신의 기초 모델 및 생성 모델의 발전을 활용합니다. 이러한 모델을 직접 사용하거나 정책이나 저수준 동작을 생성하도록 조정하는 대신, 우리는 생성적 방식을 제안합니다. 이 방식은 이러한 모델을 사용하여 다양한 작업, 장면 및 훈련 감독을 자동으로 생성함으로써 최소한의 인간 감독으로 로봇 기술 학습을 확장합니다. 우리의 접근 방식은 로봇 에이전트에 자율적인 제안-생성-학습 사이클을 부여합니다: 에이전트는 먼저 개발할 흥미로운 작업과 기술을 제안한 다음, 관련 객체와 자산을 적절한 공간 구성으로 배치하여 해당 시뮬레이션 환경을 생성합니다. 이후, 에이전트는 제안된 상위 작업을 하위 작업으로 분해하고 최적의 학습 접근 방식(강화 학습, 모션 계획, 또는 궤적 최적화)을 선택한 후, 필요한 훈련 감독을 생성하고 제안된 기술을 습득하기 위한 정책을 학습합니다. 우리의 작업은 대규모 모델에 내재된 광범위하고 다재다능한 지식을 추출하여 로봇 공학 분야로 전달하려는 시도입니다. 우리의 완전한 생성 파이프라인은 반복적으로 질의될 수 있으며, 다양한 작업과 환경과 연관된 끝없는 기술 시연 스트림을 생성합니다.
우리는 신경망을 멱등(idempotent)적으로 학습시키는 새로운 생성 모델링 접근법을 제안한다. 멱등 연산자는 초기 적용 이후 결과를 변경하지 않고 순차적으로 적용할 수 있는 연산자로, 즉 f(f(z))=f(z)를 만족한다. 제안된 모델 f는 소스 분포(예: 가우시안 노이즈)를 타겟 분포(예: 사실적인 이미지)로 매핑하도록 다음과 같은 목표를 통해 학습된다: (1) 타겟 분포의 인스턴스는 자기 자신으로 매핑되어야 하며, 즉 f(x)=x이다. 우리는 f가 자기 자신으로 매핑하는 모든 인스턴스의 집합을 타겟 매니폴드로 정의한다. (2) 소스 분포를 구성하는 인스턴스는 정의된 타겟 매니폴드 위로 매핑되어야 한다. 이는 멱등 항 f(f(z))=f(z)를 최적화함으로써 달성되며, 이는 f(z)의 범위가 타겟 매니폴드 위에 있도록 유도한다. 이상적인 가정 하에서 이러한 과정은 타겟 분포로의 수렴을 보장한다. 이 전략은 한 단계에서 출력을 생성할 수 있는 모델을 만들어내며, 일관된 잠재 공간을 유지하면서도 순차적 적용을 통한 개선을 가능하게 한다. 추가적으로, 타겟 및 소스 분포 모두에서 입력을 처리함으로써 모델이 손상되거나 수정된 데이터를 타겟 매니폴드로 다시 투영하는 데 능숙함을 발견했다. 이 연구는 모든 입력을 타겟 데이터 분포로 투영할 수 있는 "글로벌 프로젝터"로 나아가는 첫 걸음이다.
우리는 확산(diffusion) 기반의 간단하고 효율적인 종단 간(end-to-end) 텍스트-음성 변환 모델인 Easy End-to-End Diffusion-based Text to Speech(E3 TTS)를 제안합니다. E3 TTS는 일반 텍스트를 직접 입력으로 받아 반복적인 정제 과정을 통해 오디오 파형을 생성합니다. 많은 기존 연구와 달리, E3 TTS는 스펙트로그램 특징이나 정렬 정보와 같은 중간 표현에 의존하지 않습니다. 대신, E3 TTS는 확산 과정을 통해 파형의 시간적 구조를 모델링합니다. 추가적인 조건 정보에 의존하지 않으면서도, E3 TTS는 주어진 오디오 내에서 유연한 잠재 구조를 지원할 수 있습니다. 이를 통해 E3 TTS는 추가적인 학습 없이도 편집과 같은 제로샷(zero-shot) 작업에 쉽게 적용될 수 있습니다. 실험 결과, E3 TTS는 최신 신경망 TTS 시스템의 성능에 근접한 고품질 오디오를 생성할 수 있음을 보여줍니다. 오디오 샘플은 https://e3tts.github.io에서 확인할 수 있습니다.
분포 변화는 머신러닝 모델의 실제 배포에서 주요한 과제로, 이 모델들이 현실 세계의 데이터에 적절히 대응하지 못할 수 있기 때문입니다. 이는 특히 텍스트-오디오 생성에서 두드러지게 나타나는데, 인코딩된 표현이 보지 못한 프롬프트에 의해 쉽게 훼손되어 생성된 오디오의 품질이 저하됩니다. 제한된 텍스트-오디오 쌍은 사용자 프롬프트가 불충분하게 명시된 상황에서 조건부 오디오 생성에 충분하지 않습니다. 특히, 우리는 학습 데이터셋의 프롬프트와 달리 사용자 프롬프트로 생성된 오디오 샘플에서 일관된 오디오 품질 저하를 관찰했습니다. 이를 해결하기 위해, 우리는 학습 캡션을 시범적인 예시로 활용하여 사용자 프롬프트를 재검토하는 검색 기반 인-컨텍스트 프롬프트 편집 프레임워크를 제안합니다. 이 프레임워크는 학습 캡션을 참조하여 편집된 사용자 프롬프트 세트에서 오디오 품질을 향상시켰음을 보여줍니다.
우리는 장기 및 중기 수준의 고차원적 추론에 사용 가능하며, 기존의 좁은 범위의 상향식 단계별 데이터 수집 방식보다 2.2배 높은 처리량을 자랑하는 확장 가능하고, 본질적으로 다양하며 하향식 접근 방식의 데이터 수집 체계를 제시합니다. 우리는 3개의 사무실 건물 전체에서 사용자 요청을 수행하고, 다중 로봇 및 인간 구현체를 활용하여 현실적인 데이터를 수집합니다. 이 데이터를 통해, 모든 구현체를 대상으로 훈련된 모델이 로봇 에피소드만으로 평가될 때조차도 로봇 데이터만으로 훈련된 모델보다 더 나은 성능을 보임을 입증합니다. 고정된 수집 예산 내에서 로봇 수집과 함께 더 저렴한 인간 수집을 활용하는 것이 유리하다는 점을 발견했습니다. 우리는 로보틱스 중심의 시각적 질의응답을 위해 829,502개의 (비디오, 텍스트) 쌍을 포함하며 29,520개의 독특한 지시문으로 구성된 대규모 및 고도로 다양한 데이터셋인 RoboVQA를 공개합니다. 또한, 개입 메커니즘을 통해 실제 로봇 실험을 평가함으로써 작업을 완료할 수 있게 하여, 불완전하더라도 인간 감독 하에 배포 가능하게 만들고 단일 성능 지표를 제공하는 방법을 보여줍니다. 우리는 RoboVQA-VideoCoCa라는 단일 비디오 조건 모델을 제시하며, 이 모델은 우리의 데이터셋으로 훈련되어 다양한 현실적인 설정에서 고차원적 추론 작업을 수행할 수 있고, 제로샷 상태의 최첨단 시각 언어 모델(VLM) 기준선보다 46% 낮은 인지 개입률을 보이며, 실제 로봇을 장기 작업을 통해 안내할 수 있습니다. 제로샷 최첨단 모델과의 성능 격차는 실제 세계 배포를 위해 많은 근거 데이터가 여전히 수집되어야 함을 나타내며, 확장 가능한 데이터 수집 접근 방식의 중요성을 강조합니다. 마지막으로, 비디오 VLM이 단일 이미지 VLM을 크게 능가하며, 모든 VQA 작업에서 평균 오류율이 19% 감소함을 보여줍니다. 데이터와 비디오는 https://robovqa.github.io에서 확인할 수 있습니다.