번역이 포함된 일일 선별된 AI 연구 논문
이미지와 텍스트가 혼합된 자연 문서로 학습된 대규모 멀티모달 모델은 이미지-텍스트 쌍으로 학습된 모델보다 다양한 멀티모달 벤치마크에서 더 우수한 성능을 보입니다. 그러나 이러한 모델을 학습하는 데 사용된 데이터셋은 공개되지 않았으며, 데이터 수집 과정도 완전히 명시되지 않았습니다. 우리는 OBELICS 데이터셋을 소개합니다. 이는 Common Crawl에서 추출한 1억 4,100만 개의 웹 페이지, 3억 5,300만 개의 관련 이미지, 그리고 1,150억 개의 텍스트 토큰으로 구성된 오픈 웹 스케일 필터링된 혼합 이미지-텍스트 문서 데이터셋입니다. 우리는 데이터셋 생성 과정을 설명하고, 포괄적인 필터링 규칙을 제시하며, 데이터셋의 내용을 분석합니다. OBELICS의 실용성을 입증하기 위해, 우리는 90억 개와 800억 개의 파라미터를 가진 IDEFICS라는 비전 및 언어 모델을 학습시키고, 다양한 멀티모달 벤치마크에서 경쟁력 있는 성능을 얻습니다. 우리는 데이터셋, 모델 및 코드를 공개합니다.
단일 이미지 3D 복원은 자연 세계에 대한 광범위한 지식을 요구하는 중요하면서도 어려운 과제입니다. 기존의 많은 방법들은 2D 확산 모델의 지도 하에 신경 방사장(NeRF)을 최적화하여 이 문제를 해결하지만, 긴 최적화 시간, 3D 불일치 결과, 그리고 불량한 형상 문제를 겪습니다. 본 연구에서는 단일 이미지를 입력으로 받아 360도 3D 텍스처 메시를 단일 순방향 전달로 생성하는 새로운 방법을 제안합니다. 단일 이미지가 주어지면, 먼저 뷰 조건부 2D 확산 모델인 Zero123을 사용하여 입력 뷰에 대한 다중 뷰 이미지를 생성한 후, 이를 3D 공간으로 끌어올리는 것을 목표로 합니다. 기존의 복원 방법들은 일관되지 않은 다중 뷰 예측에 어려움을 겪기 때문에, 우리는 SDF 기반의 일반화 가능한 신경 표면 복원 방법을 기반으로 3D 복원 모듈을 구축하고, 360도 메시 복원을 가능하게 하는 몇 가지 중요한 학습 전략을 제안합니다. 비용이 많이 드는 최적화 없이도, 우리의 방법은 기존 방법들보다 훨씬 짧은 시간 내에 3D 형상을 복원합니다. 더 나아가, 우리의 방법은 더 나은 형상을 선호하며, 더 일관된 3D 결과를 생성하고, 입력 이미지에 더 밀접하게 부합합니다. 우리는 합성 데이터와 실제 이미지 모두에서 우리의 접근 방식을 평가하고, 메시 품질과 실행 시간 측면에서 우수성을 입증합니다. 또한, 우리의 접근 방식은 기존의 텍스트-이미지 확산 모델과 통합하여 텍스트-3D 작업을 원활하게 지원할 수 있습니다.
본 논문은 사고를 텍스트로 변환할 필요 없이 뇌파(EEG) 신호로부터 직접 고품질 이미지를 생성하는 새로운 방법인 DreamDiffusion을 소개한다. DreamDiffusion은 사전 학습된 텍스트-이미지 모델을 활용하고, 효과적이고 강건한 EEG 표현을 위해 시간적 마스크 신호 모델링을 사용하여 EEG 인코더를 사전 학습한다. 또한, 이 방법은 CLIP 이미지 인코더를 추가로 활용하여 제한된 EEG-이미지 쌍에서 EEG, 텍스트, 이미지 임베딩을 더 잘 정렬할 수 있도록 추가적인 지도를 제공한다. 전반적으로, 제안된 방법은 노이즈, 제한된 정보, 개인차와 같은 EEG 신호를 이미지 생성에 사용할 때의 어려움을 극복하고, 유망한 결과를 달성한다. 정량적 및 정성적 결과는 이 방법이 휴대 가능하고 저비용의 "사고-이미지" 변환을 위한 중요한 진전임을 보여주며, 신경과학과 컴퓨터 비전 분야에서의 잠재적 응용 가능성을 제시한다.
텍스트-이미지 확산 모델은 다양한 분야에서의 광범위한 적용 가능성으로 인해 상당한 관심을 끌고 있습니다. 그러나 개인화된 객체 생성을 위한 제어 가능한 모델을 만드는 데는 여전히 과제가 남아 있습니다. 본 논문에서는 먼저 기존의 개인화 생성 모델에서 발생하는 엔트렌글먼트(entanglement) 문제를 식별하고, 확산 모델이 객체의 정체성에만 집중하도록 유도하는 간단하고 효율적인 데이터 증강 훈련 전략을 제안합니다. 사전 훈련된 제어 가능 확산 모델의 플러그 앤 플레이 어댑터 레이어를 삽입함으로써, 우리의 모델은 생성된 개인화된 객체의 위치와 크기를 제어할 수 있는 능력을 얻습니다. 추론 과정에서는 생성된 이미지의 품질과 충실도를 유지하기 위해 지역적으로 유도된 샘플링 기법을 제안합니다. 우리의 방법은 개인화된 객체에 대해 비교 가능하거나 우수한 충실도를 달성하며, 현실적이고 개인화된 이미지를 생성할 수 있는 강력하고 다용도로 사용 가능하며 제어 가능한 텍스트-이미지 확산 모델을 제공합니다. 우리의 접근 방식은 예술, 엔터테인먼트, 광고 디자인과 같은 다양한 응용 분야에서 상당한 잠재력을 보여줍니다.
2D 이미지나 텍스트를 기반으로 일반적인 3D 형태를 생성하는 어려운 과제를 해결하기 위해, 우리는 새로운 정렬-후-생성(alignment-before-generation) 접근 방식을 제시합니다. 이미지나 텍스트에서 3D 형태로의 조건부 생성 모델을 직접 학습하는 것은, 3D 형태가 2D 이미지와 텍스트와는 크게 다른 분포를 가진 추가 차원을 가지고 있기 때문에, 조건과 일치하지 않는 결과를 생성하기 쉽습니다. 세 가지 모달리티 간의 도메인 격차를 해소하고 다중 모달리티 조건 하의 3D 형태 생성을 용이하게 하기 위해, 우리는 3D 형태를 형태-이미지-텍스트 정렬 공간(shape-image-text-aligned space)에서 표현하는 방법을 탐구합니다. 우리의 프레임워크는 두 가지 모델로 구성됩니다: 형태-이미지-텍스트 정렬 변분 자동 인코더(SITA-VAE)와 조건부 정렬 형태 잠재 확산 모델(ASLDM)입니다. 전자 모델은 3D 형태를 이미지와 텍스트에 정렬된 형태 잠재 공간으로 인코딩하고, 트랜스포머 기반 디코더를 통해 주어진 형태 임베딩에 해당하는 세밀한 3D 신경 필드를 재구성합니다. 후자 모델은 이미지나 텍스트 공간에서 잠재 형태 공간으로의 확률적 매핑 함수를 학습합니다. 우리의 광범위한 실험은 제안된 접근 방식이 시각적 또는 텍스트적 조건 입력에 더 잘 의미적으로 부합하는 더 높은 품질과 다양성을 가진 3D 형태를 생성할 수 있음을 보여주며, 교차 모달리티 3D 형태 생성을 위한 형태-이미지-텍스트 정렬 공간의 효과를 검증합니다.
사전 학습된 대규모 언어 모델(PLM)은 자연어 처리 분야의 대부분의 새로운 발전을 뒷받침하고 있습니다. 이 모델들은 특정 애플리케이션에 맞춰진 파이프라인에서 다양한 작업에 적응 가능한 단일 모델로의 전환을 이끌었습니다. GPT-3나 PaLM과 같은 자기회귀적 PLM들은 소수 샷 학습과 같은 기법과 함께 출력 방식을 분류나 회귀에서 생성으로 전환시켰습니다. 그러나 이러한 모델들이 널리 사용되고 있음에도 불구하고, 언어 모델의 생성 품질은 모델이 소개될 때 거의 평가되지 않습니다. 또한, 기존의 생성 작업들이 시스템을 높은 수준에서 비교하는 데 사용될 수는 있지만, 실제 사용 사례와 어떻게 연관되는지는 명확하지 않습니다. 본 연구에서는 기존의 애플리케이션 특화 생성 벤치마크를 PLM에 어떻게 적용할지 논의하고, 규모, 아키텍처, 입력 및 출력 언어와 같은 차원에서 PLM의 자연어 생성 작업에서의 한계와 능력에 대한 심층적인 실증 연구를 제공합니다. 우리의 결과는 PLM이 다양한 데이터 체계에 대한 적용 가능성과 다중 언어로의 일반화 능력에서 차이를 보이며, 주어진 생성 작업 설정에 어떤 PLM을 사용할지에 대한 정보를 제공합니다. 또한, 향후 PLM 개발 과정에서 생성 능력을 벤치마킹할 때 고려해야 할 모범 사례를 공유합니다.
본 연구에서는 합성 데이터만으로 훈련된 신경망이 실제 이미지에서의 3D 인간 자세 및 형태(HPS) 추정 문제에서 최첨단 정확도를 달성한다는 것을 처음으로 보여줍니다. 기존의 합성 데이터셋은 크기가 작거나 비현실적이었으며, 현실적인 의상을 포함하지 못했습니다. 충분한 현실감을 달성하는 것은 사소한 일이 아니며, 본 연구에서는 움직이는 전신에 대해 이를 어떻게 달성했는지를 보여줍니다. 구체적으로, 우리의 BEDLAM 데이터셋은 SMPL-X 형식의 정확한 3D 신체 데이터를 포함한 단안 RGB 비디오로 구성되어 있습니다. 이 데이터셋은 다양한 신체 형태, 동작, 피부색, 머리카락, 의상을 포함하고 있습니다. 의상은 상용 의상 물리 시뮬레이션을 사용하여 움직이는 신체에 현실적으로 시뮬레이션되었습니다. 우리는 다양한 조명과 카메라 움직임이 있는 현실적인 장면에서 여러 사람을 렌더링합니다. 그런 다음 BEDLAM을 사용하여 다양한 HPS 회귀 모델을 훈련시키고, 합성 데이터로 훈련했음에도 불구하고 실제 이미지 벤치마크에서 최첨단 정확도를 달성합니다. 우리는 BEDLAM을 사용하여 정확도를 위해 중요한 모델 설계 선택 사항에 대한 통찰을 얻습니다. 좋은 합성 훈련 데이터를 사용하면 HMR과 같은 기본 방법이 현재 최신 기술인 CLIFF의 정확도에 근접한다는 것을 발견했습니다. BEDLAM은 다양한 작업에 유용하며, 모든 이미지, 정확한 신체 데이터, 3D 의상, 지원 코드 등이 연구 목적으로 제공됩니다. 또한, 우리는 합성 데이터 생성 파이프라인에 대한 상세한 정보를 제공하여 다른 연구자들이 자신의 데이터셋을 생성할 수 있도록 합니다. 프로젝트 페이지를 참조하십시오: https://bedlam.is.tue.mpg.de/.
시각적 관찰로부터 학습된 동역학 모델은 다양한 로봇 조작 작업에서 효과적인 것으로 입증되었습니다. 이러한 동역학 모델을 학습하는 데 있어 핵심적인 질문 중 하나는 어떤 장면 표현을 사용할 것인가입니다. 기존 연구들은 일반적으로 고정된 차원이나 해상도의 표현을 가정하는데, 이는 단순한 작업에는 비효율적이고 더 복잡한 작업에는 효과적이지 않을 수 있습니다. 본 연구에서는 효율성과 효과성 사이의 최적의 균형을 달성하기 위해 다양한 추상화 수준에서 동적이고 적응적인 표현을 학습하는 방법을 탐구합니다. 구체적으로, 우리는 환경의 동적 해상도 입자 표현을 구성하고 그래프 신경망(GNN)을 사용하여 추상화 수준을 연속적으로 선택할 수 있는 통합 동역학 모델을 학습합니다. 테스트 시, 에이전트는 각 모델 예측 제어(MPC) 단계에서 최적의 해상도를 적응적으로 결정할 수 있습니다. 우리는 이 방법을 요리, 농업, 제조, 제약 응용 프로그램에서 흔히 접하는 물체 더미 조작 작업에서 평가합니다. 시뮬레이션과 실제 환경에서의 포괄적인 평가를 통해, 우리의 방법이 커피콩, 아몬드, 옥수수 등 다양한 재료로 만들어진 입자 더미의 수집, 분류, 재분배 작업에서 최신 고정 해상도 기준선보다 훨씬 더 나은 성능을 달성함을 보여줍니다.
딥 뉴럴 네트워크(DNN)는 머신 러닝 분야에서 널리 사용되고 있지만, 그 에너지 소비는 여전히 중요한 문제로 남아 있습니다. 공급 전압을 낮추는 것은 에너지 소비를 줄이기 위한 효과적인 전략입니다. 그러나 공급 전압을 과도하게 낮추면 모델 파라미터가 저장된 SRAM(정적 랜덤 액세스 메모리)에서 무작위 비트 플립이 발생하여 정확도가 저하될 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 NeuralFuse라는 새로운 애드온 모듈을 소개합니다. 이 모듈은 입력 변환을 학습하여 오류에 강한 데이터 표현을 생성함으로써 저전압 환경에서의 정확도와 에너지 간의 트레이드오프를 해결합니다. NeuralFuse는 정상 전압과 저전압 시나리오 모두에서 DNN의 정확도를 보호합니다. 또한, NeuralFuse는 구현이 간단하며, 비구성 가능한 하드웨어나 클라우드 기반 API에 대한 원격 접근과 같이 제한된 접근이 가능한 DNN에도 쉽게 적용할 수 있습니다. 실험 결과에 따르면, 1%의 비트 오류율에서 NeuralFuse는 SRAM 메모리 접근 에너지를 최대 24%까지 줄이면서 정확도를 최대 57%까지 향상시킬 수 있습니다. 우리가 아는 한, 이는 저전압으로 인한 비트 오류를 해결하기 위한 첫 번째 모델-불특정 접근법(즉, 모델 재훈련 없음)입니다. 소스 코드는 https://github.com/IBM/NeuralFuse에서 확인할 수 있습니다.
우리는 16x16 배열의 수직 슬라이딩 기둥과 촉각 센서가 통합된 분산 조작 시스템인 ArrayBot을 소개한다. 이 시스템은 테이블 위의 물체를 동시에 지지, 감지, 조작할 수 있다. 일반화 가능한 분산 조작을 위해, 우리는 강화 학습(RL) 알고리즘을 활용하여 제어 정책을 자동으로 발견한다. 대규모로 중복된 동작에 직면하여, 우리는 공간적으로 지역적인 동작 패치와 주파수 영역에서의 저주파 동작을 고려하여 동작 공간을 재구성한다. 이 재구성된 동작 공간을 통해, 우리는 촉각 관찰만으로 다양한 물체를 재배치할 수 있는 RL 에이전트를 훈련시킨다. 놀랍게도, 발견된 정책은 시뮬레이터에서 보지 못한 물체 형태로 일반화될 뿐만 아니라, 도메인 무작위화 없이도 실제 로봇으로 전이될 수 있다. 배포된 정책을 활용하여, 우리는 분산 조작을 위한 ArrayBot의 RL의 광대한 잠재력을 보여주는 다양한 실제 조작 작업을 제시한다.
최근 몇 년 동안 Transformer 기반 언어 모델은 자연어 처리 작업의 표준 접근 방식으로 자리 잡았습니다. 그러나 산업 애플리케이션에서 엄격한 처리량과 지연 시간 요구 사항으로 인해 이러한 모델의 채택이 제한되고 있습니다. 이러한 격차를 줄이기 위해 구조적 가지치기와 같은 모델 압축 기술이 추론 효율성을 개선하는 데 사용되고 있습니다. 그러나 대부분의 기존 신경망 추론 런타임은 구조적 희소성에 대한 적절한 지원이 부족합니다. 본 논문에서는 가중치가 일정한 블록 크기로 가지치기된 Transformer 기반 언어 모델을 위한 효율적인 희소 딥러닝 추론 소프트웨어 스택을 제안합니다. 우리의 희소 소프트웨어 가속기는 Intel Deep Learning Boost를 활용하여 CPU에서 희소 행렬-밀집 행렬 곱셈(일반적으로 SpMM로 약칭됨)의 성능을 극대화합니다. 우리의 SpMM 커널은 5가지 대표적인 희소 비율(70%, 75%, 80%, 85%, 90%)에서 다양한 GEMM 형태에 대해 기존의 희소 라이브러리(oneMKL, TVM, LIBXSMM)보다 한 차원 높은 성능을 보여줍니다. 또한, 우리의 SpMM 커널은 산업계에서 널리 사용되는 최적화된 밀집 라이브러리인 oneDNN의 밀집 GEMM 커널보다 최대 5배의 속도 향상을 보입니다. 우리는 Bert-Mini, DistilBERT, Bert-Base, BERT-Large와 같은 널리 사용되는 Transformer 기반 언어 모델에 희소 가속기를 적용했습니다. 우리의 희소 추론 소프트웨어는 Amazon Web Services의 Xeon에서 프록시 생산 지연 시간 제약 하에서 Neural Magic의 Deepsparse와 동일한 구성에서 최대 1.5배의 속도 향상을 보여줍니다. 또한, 우리의 솔루션을 ONNX Runtime과 PyTorch라는 두 가지 프레임워크 기반 추론 솔루션과 비교하여, Xeon에서 지연 시간 제약 하에서 ONNX Runtime보다 최대 37배, PyTorch보다 최대 345배의 속도 향상을 입증했습니다. 모든 소스 코드는 Github에서 공개적으로 제공됩니다: https://github.com/intel/intel-extension-for-transformers.