번역이 포함된 일일 선별된 AI 연구 논문
BigCode 커뮤니티는 코드 전용 대형 언어 모델(Code LLMs)의 책임 있는 개발을 위해 노력하는 오픈 과학적 협업체로, StarCoder와 StarCoderBase를 소개합니다. 이들은 15.5B 파라미터를 갖추고 있으며, 8K 컨텍스트 길이, 텍스트 채우기 기능, 그리고 멀티-쿼리 어텐션을 통해 빠른 대규모 배치 추론이 가능합니다. StarCoderBase는 The Stack에서 수집된 1조 토큰으로 학습되었는데, The Stack은 허가된 라이선스를 가진 GitHub 저장소의 대규모 컬렉션으로, 검사 도구와 옵트아웃 프로세스를 제공합니다. 우리는 StarCoderBase를 35B Python 토큰으로 미세 조정하여 StarCoder를 만들었습니다. 우리는 지금까지 가장 포괄적인 Code LLMs 평가를 수행했으며, StarCoderBase가 여러 프로그래밍 언어를 지원하는 모든 오픈 Code LLM을 능가하고 OpenAI의 code-cushman-001 모델과 동등하거나 더 나은 성능을 보임을 입증했습니다. 또한, StarCoder는 Python에 미세 조정된 모든 모델을 능가하며, HumanEval에서 40% pass@1을 달성할 수 있고, 다른 프로그래밍 언어에서도 여전히 뛰어난 성능을 유지합니다. 우리는 안전한 오픈 액세스 모델 출시를 위해 개선된 PII 편집 파이프라인과 새로운 속성 추적 도구를 포함한 여러 중요한 단계를 밟았으며, StarCoder 모델을 Open Responsible AI Model 라이선스의 더 상업적으로 실현 가능한 버전 하에 공개적으로 제공합니다.
본 연구에서는 비디오 이해에 대한 탐구를 시작하며, 종단 간(end-to-end) 채팅 중심 비디오 이해 시스템인 VideoChat을 소개합니다. 이 시스템은 학습 가능한 신경 인터페이스를 통해 비디오 기반 모델과 대형 언어 모델을 통합하며, 시공간적 추론, 이벤트 위치 파악, 그리고 인과 관계 추론에서 뛰어난 성능을 보입니다. 이 시스템을 효과적으로 조정하기 위해, 우리는 수천 개의 비디오와 상세한 설명 및 대화를 매칭한 비디오 중심 명령어 데이터셋을 제안합니다. 이 데이터셋은 시공간적 추론과 인과 관계에 중점을 두어, 채팅 중심 비디오 이해 시스템을 훈련하는 데 유용한 자원을 제공합니다. 예비 질적 실험을 통해 우리 시스템이 다양한 비디오 응용 분야에서의 잠재력을 보여주며, 향후 연구를 위한 기준을 제시합니다. 코드와 데이터는 https://github.com/OpenGVLab/Ask-Anything에서 확인할 수 있습니다.
생성형 AI(AIGC, AI 생성 콘텐츠)는 지난 몇 년 동안 눈부신 발전을 이루었으며, 그 중에서도 텍스트 기반 콘텐츠 생성은 인간의 지시와 AIGC 간의 상호작용을 가능하게 하여 가장 실용적인 분야로 꼽힙니다. 텍스트-이미지 및 3D 모델링 기술(예: NeRF)의 발전으로 인해, 텍스트-3D는 새롭게 등장했지만 매우 활발한 연구 분야로 자리 잡았습니다. 본 연구는 이 분야에 관심 있는 독자들이 빠르게 발전하는 동향을 파악할 수 있도록 텍스트-3D에 대한 첫 번째이자 포괄적인 조사를 진행합니다. 먼저, 유클리드 데이터와 비유클리드 데이터를 포함한 3D 데이터 표현 방식을 소개합니다. 이를 바탕으로 다양한 기반 기술을 소개하고, 최근 연구들이 이러한 기반 기술을 결합하여 만족스러운 텍스트-3D를 구현하는 방법을 요약합니다. 또한, 아바타 생성, 텍스처 생성, 형태 변환, 장면 생성 등 다양한 응용 분야에서 텍스트-3D 기술이 어떻게 활용되는지 정리합니다.
고해상도 인간 성능 표현은 영화 제작, 컴퓨터 게임, 화상 회의 등 다양한 애플리케이션에서 필수적인 구성 요소입니다. 프로덕션 수준의 품질에 근접하기 위해, 우리는 HumanRF를 소개합니다. 이는 다중 뷰 비디오 입력으로부터 움직임 중인 전신 외관을 포착하고, 새로운, 보지 못한 시점에서의 재생을 가능하게 하는 4D 동적 신경망 장면 표현입니다. 우리의 새로운 표현은 시공간을 시간적 행렬-벡터 분해로 인수분해함으로써 높은 압축률에서도 세부 사항을 포착하는 동적 비디오 인코딩으로 작동합니다. 이를 통해 긴 시퀀스에 걸쳐 인간 배우의 시간적 일관성을 유지한 재구성을 얻을 수 있으며, 도전적인 움직임 상황에서도 고해상도 세부 사항을 표현할 수 있습니다. 대부분의 연구가 4MP 이하의 해상도에서 합성에 초점을 맞추는 반면, 우리는 12MP에서 작동하는 도전 과제를 해결합니다. 이를 위해, 우리는 ActorsHQ라는 새로운 다중 뷰 데이터셋을 소개합니다. 이 데이터셋은 160대의 카메라로부터 16개의 시퀀스에 대해 12MP 영상을 제공하며, 고해상도의 프레임별 메쉬 재구성을 포함합니다. 우리는 이러한 고해상도 데이터 사용에서 발생하는 도전 과제를 보여주고, 새로 소개된 HumanRF가 이 데이터를 효과적으로 활용하여 프로덕션 수준 품질의 새로운 시점 합성에 중요한 진전을 이루었음을 입증합니다.
애니메이션 가능한 3D 모델을 구축하는 것은 3D 스캔, 수작업이 필요한 정합(registration), 그리고 수동 리깅(rigging)이 필요하기 때문에 어려운 작업이며, 이를 임의의 카테고리로 확장하기는 더욱 어렵습니다. 최근에는 미분 가능 렌더링(differentiable rendering)을 통해 단안 영상(monocular video)에서 고품질 3D 모델을 얻는 방법이 제시되었지만, 이는 단일 인스턴스나 고정된 카테고리에 한정됩니다. 우리는 RAC를 제안하며, 이는 단안 영상으로부터 카테고리별 3D 모델을 구축하면서 인스턴스 간의 변이와 시간에 따른 움직임을 분리합니다. 이 문제를 해결하기 위해 세 가지 핵심 아이디어를 도입했습니다: (1) 최적화를 통해 인스턴스별로 스켈레톤을 특수화하는 방법, (2) 카테고리 전체에서 공유 구조를 장려하면서도 인스턴스별 세부 사항을 유지하는 잠재 공간 정규화(latent space regularization) 방법, (3) 3D 배경 모델을 사용하여 객체를 배경과 분리하는 방법. 우리는 인간, 고양이, 개의 3D 모델을 50-100개의 인터넷 영상으로부터 학습할 수 있음을 보여줍니다.
우리는 단순하고 확장 가능한 멀티모달 다중 작업 학습 및 모델링 접근 방식인 통합 멀티모달 인지(Integrated Multimodal Perception, IMP)를 제안합니다. IMP는 이미지, 비디오, 텍스트, 오디오를 포함한 멀티모달 입력을 최소한의 모달리티별 구성 요소만으로 단일 트랜스포머 인코더에 통합합니다. IMP는 효율적인 모델 및 작업 확장을 위해 교대 경사 하강법(Alternating Gradient Descent, AGD)과 전문가 혼합(Mixture-of-Experts, MoE)을 결합한 새로운 설계를 활용합니다. 우리는 IMP에 대한 광범위한 실험적 연구를 수행하고 다음과 같은 주요 통찰을 도출했습니다: 1) 다양한 이질적 모달리티, 손실 함수, 작업에 대해 교대로 경사 하강법 업데이트를 수행하면서 입력 해상도를 다양화하는 것이 멀티모달 이해를 효율적으로 개선합니다. 2) 단일 모달리티-불특정 인코더에 MoE를 적용한 모델 희소화는 모달리티별 인코더나 추가 융합 계층을 사용하는 밀집 모델을 크게 능가하며, 모달리티 간 충돌을 크게 완화합니다. IMP는 이미지 분류, 비디오 분류, 이미지-텍스트 및 비디오-텍스트 검색을 포함한 다양한 다운스트림 작업에서 경쟁력 있는 성능을 달성합니다. 특히, 비디오 작업에 초점을 맞춘 희소 IMP-MoE-L 모델을 학습시켜 제로샷 비디오 분류에서 새로운 최첨단 성능을 달성했습니다. 우리의 모델은 Kinetics-400에서 77.0%, Kinetics-600에서 76.8%, Kinetics-700에서 76.8%의 제로샷 분류 정확도를 달성하며, 이전 최첨단 성능을 각각 +5%, +6.7%, +5.8% 향상시키면서도 전체 학습 계산 비용의 15%만 사용합니다.
우리는 차등 프라이버시(DP) 대규모 언어 모델(LLM)을 활용하여 프라이버시를 보존하는 대규모 추천 시스템을 개발하기 위한 새로운 접근 방식을 제안합니다. 이 방법은 복잡한 시스템을 DP로 학습시키는 데 있어 특정한 도전 과제와 한계를 극복합니다. 우리의 방법은 특히 LLM 기반 추천 시스템이라는 새로운 영역에 적합하지만, 자연어 입력 표현을 처리하는 모든 추천 시스템에 쉽게 적용할 수 있습니다. 우리의 접근 방식은 공개적으로 사전 학습된 LLM을 쿼리 생성 작업에 대해 DP 학습 방법으로 미세 조정하는 것을 포함합니다. 이를 통해 생성된 모델은 원본 쿼리를 대표하는 프라이버시가 보장된 합성 쿼리를 생성할 수 있으며, 이는 추가적인 프라이버시 비용 없이 다운스트림 비공개 추천 학습 절차에 자유롭게 공유될 수 있습니다. 우리는 이 방법이 효과적인 딥 검색 모델을 안전하게 학습시키는 능력을 평가했으며, 검색 모델을 직접 DP 학습시키는 방법과 비교하여 쿼리 수준의 프라이버시 보장을 저해하지 않으면서 검색 품질에서 상당한 개선을 관찰했습니다.
범용 로봇을 구현하기 위해서는 로봇이 인간과 같이 일상적으로 관절형 물체를 조작할 수 있어야 합니다. 현재의 로봇 조작은 주로 평행 그리퍼를 사용하는 데 의존하고 있어, 로봇이 다룰 수 있는 물체의 범위가 제한적입니다. 반면, 다지 로봇 손을 사용하면 인간의 행동에 더 가깝게 근사할 수 있으며, 다양한 관절형 물체를 조작할 수 있게 됩니다. 이를 위해 우리는 물리 시뮬레이터 내에서 관절형 물체를 능숙하게 조작하는 'DexArt'라는 새로운 벤치마크를 제안합니다. 이 벤치마크에서는 여러 복잡한 조작 작업을 정의하고, 각 작업 내에서 로봇 손이 다양한 관절형 물체를 조작해야 합니다. 우리의 주요 초점은 학습된 정책이 보지 못한 관절형 물체에 대해 일반화 능력을 평가하는 데 있습니다. 이는 손과 물체 모두의 높은 자유도로 인해 매우 도전적인 과제입니다. 우리는 일반화를 달성하기 위해 3D 표현 학습과 강화 학습을 결합하여 사용합니다. 광범위한 연구를 통해 3D 포인트 클라우드 입력을 사용한 강화 학습에서 3D 표현 학습이 의사결정에 미치는 영향에 대한 새로운 통찰을 제공합니다. 자세한 내용은 https://www.chenbao.tech/dexart/에서 확인할 수 있습니다.
본 논문에서는 대화형 추천 작업, 즉 사용자가 대화에서 명시적으로 표현한 선호도를 기반으로 추천을 제공하는 작업에 대해 멀티태스크 종단간(end-to-end) 트랜스포머 모델의 성능을 분석합니다. 이 분야의 기존 연구들은 대화 관리와 엔티티 추천 작업을 별도의 구성 요소로 처리하는 복잡한 다중 구성 요소 접근 방식을 채택했지만, 본 연구에서는 T5 텍스트-텍스트 트랜스포머 모델을 기반으로 한 통합 트랜스포머 모델이 관련 항목을 추천하고 대화를 생성하는 두 작업 모두에서 경쟁력 있는 성능을 보일 수 있음을 입증합니다. 우리는 ReDIAL 대화형 영화 추천 데이터셋에서 모델을 미세 조정하고, MovieLens에서 파생된 추가 학습 작업(예: 입력 영화를 기반으로 한 영화 속성 및 관련 영화 예측)을 멀티태스크 학습 설정에서 생성합니다. 일련의 프로브 연구를 통해, 추가 작업에서 학습된 지식이 대화형 설정으로 전이되며, 각 작업이 관련 프로브 점수에서 9%~52%의 증가를 가져온다는 것을 보여줍니다.