번역이 포함된 일일 선별된 AI 연구 논문
온라인 쇼핑이 증가함에 따라, 구매자가 자신의 환경에서 제품을 가상으로 시각화할 수 있는 능력, 즉 우리가 "가상 체험(Virtual Try-All)"로 정의하는 현상이 중요해지고 있다. 최근의 확산 모델은 본질적으로 세계 모델을 포함하고 있어, 인페인팅(inpainting) 맥락에서 이 작업에 적합하다. 그러나 전통적인 이미지 조건부 확산 모델은 종종 제품의 세밀한 디테일을 포착하지 못한다. 반면, DreamPaint와 같은 개인화 중심 모델은 아이템의 디테일을 잘 보존하지만 실시간 애플리케이션에 최적화되어 있지 않다. 우리는 "Diffuse to Choose"라는 새로운 확산 기반 이미지 조건부 인페인팅 모델을 제안한다. 이 모델은 빠른 추론과 주어진 참조 아이템의 고해상도 디테일 보존 사이의 효율적인 균형을 유지하면서, 주어진 장면 내용에서 정확한 의미론적 조작을 보장한다. 우리의 접근 방식은 참조 이미지의 세밀한 특징을 메인 확산 모델의 잠재 특징 맵에 직접 통합하고, 참조 아이템의 디테일을 더욱 보존하기 위해 지각 손실(perceptual loss)을 추가하는 것이다. 우리는 내부 데이터셋과 공개적으로 이용 가능한 데이터셋에 대해 광범위한 테스트를 수행했으며, Diffuse to Choose가 기존의 제로샷(zero-shot) 확산 인페인팅 방법과 DreamPaint와 같은 소수샷(few-shot) 확산 개인화 알고리즘보다 우수함을 보여준다.
대규모 언어 모델의 급속한 발전은 소프트웨어 개발 분야의 코드 인텔리전스를 혁신적으로 변화시켰습니다. 그러나 폐쇄형 모델의 우세로 인해 광범위한 연구와 개발이 제한되어 왔습니다. 이를 해결하기 위해, 우리는 1.3B에서 33B 크기의 오픈소스 코드 모델 시리즈인 DeepSeek-Coder를 소개합니다. 이 모델들은 2조 개의 토큰으로 처음부터 학습되었으며, 고품질 프로젝트 수준의 코드 코퍼스를 기반으로 사전 학습되었습니다. 또한 16K 윈도우를 사용한 빈칸 채우기 작업을 통해 코드 생성과 삽입 능력을 향상시켰습니다. 광범위한 평가를 통해 DeepSeek-Coder는 여러 벤치마크에서 오픈소스 코드 모델 중 최첨단 성능을 달성할 뿐만 아니라, Codex 및 GPT-3.5와 같은 기존의 폐쇄형 모델을 능가하는 것으로 나타났습니다. 더불어, DeepSeek-Coder 모델들은 연구와 제한 없는 상업적 사용을 모두 허용하는 허가형 라이선스 하에 있습니다.
본 연구에서는 마스크된 오토인코더(MAE)의 디코딩 메커니즘에서 패치 간 의존성을 재검토한다. 우리는 MAE에서 마스크된 패치 재구성을 위한 디코딩 메커니즘을 자기 주의(self-attention)와 교차 주의(cross-attention)로 분해하였다. 연구 결과, 마스크 패치 간의 자기 주의는 좋은 표현을 학습하는 데 필수적이지 않음을 보여준다. 이를 바탕으로, 우리는 새로운 사전 학습 프레임워크인 교차 주의 마스크 오토인코더(CrossMAE)를 제안한다. CrossMAE의 디코더는 마스크된 토큰과 가시적 토큰 간의 교차 주의만을 활용하며, 하위 작업 성능의 저하 없이 효율성을 높인다. 또한, 이 디자인은 소수의 마스크 토큰만을 디코딩할 수 있게 하여 효율성을 증대시킨다. 더 나아가, 각 디코더 블록은 서로 다른 인코더 특징을 활용할 수 있게 되어 표현 학습이 개선된다. CrossMAE는 MAE와 동등한 성능을 유지하면서 디코딩 계산량을 2.5배에서 3.7배까지 줄인다. 또한, 동일한 계산량 하에서 ImageNet 분류 및 COCO 인스턴스 세분화 작업에서 MAE를 능가한다. 코드와 모델은 https://crossmae.github.io에서 확인할 수 있다.
생성적 NLP의 역동적인 환경에서, 전통적인 텍스트 처리 파이프라인은 특정 데이터셋, 작업, 모델 조합에 맞춰져 있어 연구의 유연성과 재현성을 제한합니다. 시스템 프롬프트, 모델별 형식, 지시사항 등 점점 복잡해지는 요소들은 구조화되고 모듈화되며 사용자 정의가 가능한 솔루션으로의 전환을 요구합니다. 이러한 필요를 해결하기 위해, 우리는 생성적 언어 모델에 맞춤화된 텍스트 데이터 준비 및 평가를 위한 혁신적인 라이브러리인 Unitxt를 소개합니다. Unitxt는 HuggingFace 및 LM-eval-harness와 같은 일반적인 라이브러리와 기본적으로 통합되며, 처리 흐름을 모듈식 구성 요소로 분해하여 실무자 간의 쉬운 사용자 정의와 공유를 가능하게 합니다. 이러한 구성 요소는 모델별 형식, 작업 프롬프트, 그리고 다양한 포괄적인 데이터셋 처리 정의를 포함합니다. Unitxt-Catalog는 이러한 구성 요소를 중앙 집중화하여 현대적인 텍스트 데이터 워크플로우에서의 협업과 탐구를 촉진합니다. 단순한 도구를 넘어, Unitxt는 사용자들이 파이프라인을 구축하고 공유하며 협력적으로 발전시킬 수 있는 커뮤니티 주도 플랫폼입니다. Unitxt 커뮤니티에 참여하세요: https://github.com/IBM/unitxt!
6비트 양자화(FP6)는 대규모 언어 모델(LLM)의 크기를 효과적으로 줄이고 다양한 애플리케이션에서 모델 품질을 일관되게 유지할 수 있습니다. 그러나 기존 시스템은 FP6 양자화에 대한 Tensor Core 지원을 제공하지 않으며, LLM 추론 과정에서 실질적인 성능 향상을 달성하는 데 어려움을 겪고 있습니다. GPU에서 FP6 양자화를 지원하는 것은 (1) 불규칙한 비트 폭을 가진 모델 가중치의 비친화적인 메모리 접근과 (2) 가중치 역양자화의 높은 런타임 오버헤드로 인해 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 다양한 양자화 비트 폭에 대한 부동 소수점 가중치의 통합 Tensor Core 지원을 제공하는 최초의 풀스택 GPU 커널 설계 기법인 TC-FPx를 제안합니다. 우리는 TC-FPx 커널을 기존 추론 시스템에 통합하여 양자화된 LLM 추론을 위한 새로운 엔드투엔드 지원(FP6-LLM이라고 함)을 제공하며, 추론 비용과 모델 품질 간의 더 나은 균형을 달성합니다. 실험 결과, FP6-LLM은 단일 GPU만을 사용하여 LLaMA-70b의 추론을 가능하게 하며, FP16 기준 대비 1.69배에서 2.65배 더 높은 정규화된 추론 처리량을 달성합니다. 소스 코드는 곧 공개될 예정입니다.
본 연구에서는 원래 이미지 생성을 위해 개발된 디노이징 확산 모델(Denoising Diffusion Models, DDM)의 표현 학습 능력을 조사합니다. 우리의 철학은 DDM을 해체하여 점진적으로 고전적인 디노이징 오토인코더(Denoising Autoencoder, DAE)로 변환하는 것입니다. 이러한 해체적 접근을 통해 현대 DDM의 다양한 구성 요소가 자기 지도 표현 학습에 미치는 영향을 탐구할 수 있습니다. 우리는 좋은 표현을 학습하는 데 있어 현대적 구성 요소 중 극히 일부만이 중요하며, 나머지 다수는 불필요하다는 사실을 관찰했습니다. 본 연구는 궁극적으로 고전적인 DAE와 상당 부분 유사한 매우 단순화된 접근법에 도달했습니다. 우리는 이 연구가 현대 자기 지도 학습 영역 내에서 고전적 방법군에 대한 관심을 다시 불러일으키기를 바랍니다.
특정 모달리티의 트랜스포머를 다른 모달리티의 무관한 데이터를 활용하여 개선하는 방법을 제안한다. 예를 들어, ImageNet 모델을 오디오 또는 포인트 클라우드 데이터셋으로 개선하는 것이다. 우리의 방법은 대상 모달리티의 데이터 샘플이 다른 모달리티와 무관하다는 점에서, 다른 모달리티의 짝지어진(예: CLIP) 또는 교차된 데이터를 활용하는 기존 연구와 차별화된다. 우리는 'Multimodal Pathway'라는 방법론을 제안한다. 이는 대상 모달리티와 이를 위해 설계된 트랜스포머가 주어졌을 때, 다른 모달리티의 데이터로 훈련된 보조 트랜스포머를 사용하고 두 모델의 구성 요소를 연결하는 경로를 구성하여 대상 모달리티의 데이터가 두 모델에 의해 처리될 수 있도록 하는 것이다. 이를 통해 두 모달리티에서 얻은 트랜스포머의 보편적인 시퀀스-투-시퀀스 모델링 능력을 활용한다. 구체적인 구현으로, 우리는 일반적으로 모달리티 특화 토크나이저와 작업 특화 헤드를 사용하지만, 제안된 'Cross-Modal Re-parameterization'이라는 방법을 통해 보조 모델의 트랜스포머 블록을 활용한다. 이 방법은 추론 비용 없이 보조 모델의 가중치를 활용한다. 이미지, 포인트 클라우드, 비디오, 오디오 인식 작업에서 다른 모달리티의 무관한 데이터를 활용하여 상당하고 일관된 성능 향상을 관찰했다. 코드와 모델은 https://github.com/AILab-CVC/M2PT에서 확인할 수 있다.
가정과 같은 개방적이고 비정형적인 환경에 로봇을 배치하는 것은 오랫동안 연구되어 온 문제입니다. 그러나 로봇은 종종 폐쇄된 실험실 환경에서만 연구되며, 기존의 모바일 매니퓰레이션 작업은 피크-이동-배치에 국한되어 있어 이 분야의 빙산의 일각에 불과하다고 할 수 있습니다. 본 논문에서는 개방적이고 비정형적인 환경에서 현실적인 관절형 물체(예: 실제 문, 캐비닛, 서랍, 냉장고)를 조작하기 위한 전체적인 접근 방식인 Open-World Mobile Manipulation System을 소개합니다. 이 로봇은 적응형 학습 프레임워크를 활용하여 초기에는 소량의 데이터를 통해 행동 복제(behavior cloning)로 학습한 후, 훈련 분포를 벗어나는 새로운 물체에 대한 온라인 실습을 통해 학습합니다. 또한, 약 20,000달러의 비용으로 비정형 환경에서 안전하고 자율적인 온라인 적응이 가능한 저비용 모바일 매니퓰레이션 하드웨어 플랫폼을 개발했습니다. 실험에서는 CMU 캠퍼스 내 4개 건물에 걸쳐 20개의 관절형 물체를 사용했습니다. 각 물체에 대해 1시간 미만의 온라인 학습을 통해 시스템은 BC 사전 훈련의 50% 성공률에서 온라인 적응을 통해 95%로 성공률을 높일 수 있었습니다. 비디오 결과는 https://open-world-mobilemanip.github.io/에서 확인할 수 있습니다.
우리는 부분적으로 가려진 물체의 전체 형태와 외관을 추정하는 제로샷 아모달 분할(zero-shot amodal segmentation)을 위한 프레임워크인 pix2gestalt를 소개한다. 대규모 확산 모델(diffusion model)을 활용하고 그 표현을 이 작업에 전이함으로써, 우리는 예술과 같이 자연적 및 물리적 사전 지식을 깨는 예제를 포함한 도전적인 제로샷 사례에서 전체 물체를 재구성하기 위한 조건부 확산 모델을 학습한다. 학습 데이터로는 가려진 물체와 그 전체 대응물이 쌍을 이루는 합성 데이터셋을 사용한다. 실험 결과, 우리의 접근 방식은 기존 벤치마크에서 지도 학습 기반 방법들을 능가하는 성능을 보여준다. 또한, 우리의 모델은 가려짐이 존재하는 상황에서 기존 물체 인식 및 3D 재구성 방법의 성능을 크게 향상시키는 데 사용될 수 있다.
콘텐츠 기반 생성 작업을 위한 고품질 데이터의 부족은 이러한 작업의 발전을 가로막는 주요 장애물로 지적되어 왔습니다. 이러한 격차를 해결하기 위해, 우리는 고품질의 콘텐츠 기반 데이터를 자동으로 생성하는 새로운 방법인 Genie를 제안합니다. 이 방법은 세 단계로 구성됩니다: (a) 콘텐츠 준비, (b) 생성: 콘텐츠에서 작업별 예시를 생성(예: 질문-답변 쌍 또는 요약), (c) 생성된 데이터의 품질과 신뢰성을 보장하기 위한 필터링 메커니즘. 우리는 이 방법론을 장문형 질문-답변(LFQA), 요약, 정보 추출을 위한 세 가지 대규모 합성 데이터를 생성하여 입증합니다. 인간 평가에서, 우리가 생성한 데이터는 자연스럽고 고품질로 평가되었습니다. 또한, 우리는 우리의 데이터로 훈련된 모델과 인간이 작성한 데이터(ELI5 및 ASQA는 LFQA용, CNN-DailyMail은 요약용)로 훈련된 모델을 비교합니다. 우리의 모델은 인간이 생성한 데이터로 훈련된 모델과 동등하거나 더 나은 성능을 보이며, 특히 신뢰성 측면에서 일관되게 우수함을 보여줍니다. 마지막으로, 우리는 의료 영역 내에서 LFQA 데이터를 생성하기 위해 이 방법을 적용하고, 이를 다른 영역에서 훈련된 모델과 비교했습니다.