번역이 포함된 일일 선별된 AI 연구 논문
개인화된 텍스트-이미지 생성은 사용자가 특정 개념과 프롬프트를 기반으로 맞춤형 이미지를 생성할 수 있게 해주는 강력하고 수요가 많은 도구로 부상했습니다. 그러나 기존의 개인화 접근 방식은 긴 튜닝 시간, 큰 저장 공간 요구, 개별 신원당 다수의 입력 이미지 필요, 그리고 신원 보존과 편집 가능성의 한계 등 여러 가지 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 PhotoVerse를 제안합니다. 이 혁신적인 방법론은 텍스트와 이미지 영역 모두에서 이중 분기 조건화 메커니즘을 통합하여 이미지 생성 과정에 효과적인 제어를 제공합니다. 더불어, 우리는 훈련 중 신원 보존을 강화하기 위한 새로운 요소로 얼굴 신원 손실을 도입했습니다. 특히, 우리가 제안한 PhotoVerse는 테스트 시간 튜닝의 필요성을 없애고, 대상 신원의 단일 얼굴 사진만을 요구함으로써 이미지 생성과 관련된 자원 비용을 크게 줄였습니다. 단일 훈련 단계 이후, 우리의 접근 방식은 단 몇 초 만에 고품질 이미지를 생성할 수 있게 합니다. 또한, 우리의 방법은 다양한 장면과 스타일을 포함한 다양한 이미지를 생성할 수 있습니다. 광범위한 평가를 통해, 우리의 접근 방식이 신원 보존과 편집 가능성이라는 이중 목표를 달성하는 우수한 성능을 보여줌을 입증했습니다. 프로젝트 페이지: https://photoverse2d.github.io/
디퓨전 모델은 뛰어난 품질과 창의성으로 텍스트-이미지 생성 분야에 혁신을 가져왔습니다. 그러나 다단계 샘플링 과정이 느린 것으로 알려져 있으며, 만족스러운 결과를 얻기 위해서는 종종 수십 번의 추론 단계가 필요합니다. 이전의 증류(distillation)를 통해 샘플링 속도를 개선하고 계산 비용을 줄이려는 시도들은 기능적인 원스텝 모델을 달성하는 데 실패했습니다. 본 논문에서는 지금까지 소규모 데이터셋에만 적용되었던 Rectified Flow라는 최근 방법을 탐구합니다. Rectified Flow의 핵심은 확률 흐름의 궤적을 직선화하고, 노이즈와 이미지 간의 결합을 개선하며, 학생 모델을 통한 증류 과정을 용이하게 하는 리플로우(reflow) 절차에 있습니다. 우리는 Stable Diffusion(SD)을 초고속 원스텝 모델로 변환하기 위한 새로운 텍스트 조건부 파이프라인을 제안하며, 이 과정에서 리플로우가 노이즈와 이미지 간의 할당을 개선하는 데 중요한 역할을 한다는 것을 발견했습니다. 이 새로운 파이프라인을 활용하여, 우리는 SD 수준의 이미지 품질을 가진 최초의 원스텝 디퓨전 기반 텍스트-이미지 생성기를 개발했습니다. 이는 MS COCO 2017-5k에서 23.3의 FID(Frechet Inception Distance)를 달성하여, 이전의 최신 기술인 점진적 증류(progressive distillation)를 상당한 차이로 능가했습니다(FID 37.2 → 23.3). 1.7B 파라미터로 확장된 네트워크를 활용하여 FID를 22.4로 더욱 개선했습니다. 우리는 이 원스텝 모델을 InstaFlow라고 명명했습니다. MS COCO 2014-30k에서 InstaFlow는 단 0.09초 만에 13.1의 FID를 기록하며, ≤0.1초 영역에서 최고의 성능을 보였고, 최근의 StyleGAN-T(0.1초에서 13.9)를 능가했습니다. 특히, InstaFlow의 훈련 비용은 단 199 A100 GPU 일에 불과합니다. 프로젝트 페이지: https://github.com/gnobitab/InstaFlow.
대규모 언어 모델(LLM)의 고처리량 서빙을 위해서는 충분히 많은 요청을 한 번에 배치 처리해야 합니다. 그러나 기존 시스템은 각 요청에 대한 키-값 캐시(KV 캐시) 메모리가 크고 동적으로 증가 및 감소하기 때문에 어려움을 겪습니다. 이러한 메모리가 비효율적으로 관리되면 단편화와 중복 복제로 인해 상당한 메모리가 낭비되어 배치 크기가 제한됩니다. 이 문제를 해결하기 위해 우리는 운영 체제의 고전적인 가상 메모리 및 페이징 기술에서 영감을 받은 어텐션 알고리즘인 PagedAttention을 제안합니다. 이를 기반으로 (1) KV 캐시 메모리의 거의 제로 웨이스트와 (2) 요청 내 및 요청 간 KV 캐시의 유연한 공유를 통해 메모리 사용량을 더욱 줄이는 LLM 서빙 시스템인 vLLM을 구축했습니다. 우리의 평가 결과, vLLM은 FasterTransformer 및 Orca와 같은 최첨단 시스템과 동일한 지연 시간 수준에서 인기 있는 LLM의 처리량을 2-4배 향상시켰습니다. 이러한 개선은 더 긴 시퀀스, 더 큰 모델, 더 복잡한 디코딩 알고리즘에서 더 두드러졌습니다. vLLM의 소스 코드는 https://github.com/vllm-project/vllm에서 공개되어 있습니다.
대규모 언어 모델은 많은 인간 언어 작업에서 뛰어난 성능을 보이지만, 학문적 천문학과 같은 고도로 전문화된 분야에서는 종종 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 arXiv에서 수집한 30만 개 이상의 천문학 초록을 사용하여 LLaMA-2에서 미세 조정된 70억 개의 파라미터를 가진 AstroLLaMA를 소개합니다. 전통적인 인과적 언어 모델링에 최적화된 AstroLLaMA는 LLaMA-2 대비 30% 더 낮은 퍼플렉서티를 달성하며, 뚜렷한 도메인 적응을 보여줍니다. 우리의 모델은 훨씬 적은 파라미터를 가지고도 최첨단 기반 모델보다 더 통찰력 있고 과학적으로 관련성 높은 텍스트 완성 및 임베딩 추출을 생성합니다. AstroLLaMA는 광범위한 미세 조정 잠재력을 가진 강력한 도메인 특화 모델로 기능합니다. 이 모델의 공개는 자동 논문 요약 및 대화형 에이전트 개발을 포함한 천문학 중심 연구를 촉진하기 위한 목적을 가지고 있습니다.
민첩한 조작은 로보틱스 분야에서 오랜 기간 동안 해결되지 않은 과제로 남아있습니다. 기계 학습 기술이 일부 가능성을 보여주었지만, 그 결과는 대부분 시뮬레이션에 국한되어 있습니다. 이는 주로 적합한 하드웨어의 부재로 인한 것으로 볼 수 있습니다. 본 논문에서는 기계 학습 연구를 위한 저비용의 민첩하고 인간형적인 손인 LEAP Hand를 소개합니다. 기존의 손과 달리, LEAP Hand는 손가락 자세에 관계없이 최대의 민첩성을 허용하는 새로운 운동학적 구조를 가지고 있습니다. LEAP Hand는 저비용이며, 쉽게 구할 수 있는 부품으로 4시간 내에 조립할 수 있고, 비용은 2000달러입니다. 이 손은 장시간에 걸쳐 큰 토크를 일관되게 발휘할 수 있습니다. 우리는 LEAP Hand가 실제 세계에서 여러 조작 작업을 수행하는 데 사용될 수 있음을 보여줍니다 — 시각적 원격 조작부터 수동 비디오 데이터 학습 및 시뮬레이션에서 실제로의 전환(sim2real)까지. LEAP Hand는 가장 가까운 경쟁자인 Allegro Hand를 모든 실험에서 크게 능가하면서도 비용은 1/8 수준입니다. 우리는 상세한 조립 지침, Sim2Real 파이프라인 및 유용한 API가 포함된 개발 플랫폼을 https://leap-hand.github.io/ 웹사이트에 공개합니다.
애니메이션 가능하고 사실적인 인간 아바타를 학습하기 위해 엄청난 노력이 기울여져 왔습니다. 이를 위해 전체 인간(예: 신체, 의상, 얼굴 및 머리카락)의 포괄적인 모델링과 캡처를 위해 명시적 및 암묵적 3D 표현이 광범위하게 연구되었지만, 인간 아바타의 각 부분은 서로 다른 모델링 요구 사항을 가지고 있기 때문에 어느 표현도 표현 효율성 측면에서 최적의 선택이 아닙니다. 예를 들어, 메쉬는 일반적으로 의상과 머리카락을 모델링하는 데 적합하지 않습니다. 이러한 동기로부터, 우리는 하이브리드 명시적-암묵적 3D 표현으로 인간을 모델링하는 Disentangled Avatars~(DELTA)를 제안합니다. DELTA는 단안 RGB 비디오를 입력으로 받아 신체와 의상/머리카락 레이어가 분리된 인간 아바타를 생성합니다. 구체적으로, 우리는 DELTA의 두 가지 중요한 응용 사례를 보여줍니다. 첫 번째로, 인간 신체와 의상의 분리를 고려하고, 두 번째로, 얼굴과 머리카락의 분리를 고려합니다. 이를 위해, DELTA는 신체 또는 얼굴을 명시적 메쉬 기반 파라미터 3D 모델로 표현하고, 의상 또는 머리카락을 암묵적 신경 방사 필드로 표현합니다. 이를 가능하게 하기 위해, 우리는 메쉬를 볼륨 렌더링에 통합하는 엔드투엔드 미분 가능 렌더러를 설계하여 DELTA가 3D 감독 없이 단안 비디오로부터 직접 학습할 수 있도록 합니다. 마지막으로, 우리는 이 두 응용 사례가 어떻게 쉽게 결합되어 머리카락, 얼굴, 신체 및 의상이 완전히 분리되면서도 함께 렌더링될 수 있는 전신 아바타를 모델링할 수 있는지 보여줍니다. 이러한 분리는 임의의 신체 형태에 머리카락과 의상을 전송할 수 있게 합니다. 우리는 DELTA의 분리 효과를 분리된 재구성, 가상 의상 입어보기 및 헤어스타일 전송에서의 유망한 성능을 통해 실증적으로 검증합니다. 향후 연구를 촉진하기 위해, 우리는 하이브리드 인간 아바타 모델링 연구를 위한 오픈소스 파이프라인도 공개합니다.