번역이 포함된 일일 선별된 AI 연구 논문
Qwen-Audio의 최신 발전을 소개합니다. 대규모 오디오-언어 모델인 Qwen2-Audio는 다양한 오디오 신호 입력을 수용하고 음성 지시에 대한 오디오 분석 또는 직접적인 텍스트 응답을 수행할 수 있습니다. 복잡한 계층적 태그와 달리, 우리는 다양한 데이터와 작업에 자연어 프롬프트를 활용하여 사전 학습 과정을 단순화하고 데이터 양을 더욱 확장했습니다. Qwen2-Audio의 지시 수행 능력을 강화하고 음성 채팅과 오디오 분석을 위한 두 가지 독특한 오디오 상호작용 모드를 구현했습니다. 음성 채팅 모드에서는 사용자가 텍스트 입력 없이 Qwen2-Audio와 자유롭게 음성 상호작용을 할 수 있습니다. 오디오 분석 모드에서는 사용자가 상호작용 중에 오디오와 텍스트 지시를 제공하여 분석을 요청할 수 있습니다. 음성 채팅과 오디오 분석 모드 간 전환을 위해 시스템 프롬프트를 사용하지 않는다는 점에 유의하십시오. Qwen2-Audio는 오디오 내 콘텐츠를 지능적으로 이해하고 음성 명령을 따라 적절히 응답할 수 있습니다. 예를 들어, 소리, 다중 화자 대화, 음성 명령이 동시에 포함된 오디오 세그먼트에서 Qwen2-Audio는 명령을 직접 이해하고 오디오에 대한 해석과 응답을 제공할 수 있습니다. 또한, DPO는 모델의 사실성과 원하는 행동 준수 측면에서 성능을 최적화했습니다. AIR-Bench의 평가 결과에 따르면, Qwen2-Audio는 오디오 중심의 지시 수행 능력 테스트에서 Gemini-1.5-pro와 같은 이전 SOTA를 능가했습니다. Qwen2-Audio는 다중 모달 언어 커뮤니티의 발전을 촉진하기 위해 오픈소스로 공개되었습니다.
대규모 언어 모델(LLM)의 장문맥 처리 능력을 평가함에 있어, 원본 장문 문서에서 사용자 질의와 관련된 내용을 식별하는 것은 LLM이 장문 텍스트를 기반으로 질문에 답변하기 위한 중요한 전제 조건입니다. 본 논문에서는 NeedleBench를 제안합니다. 이는 점점 더 도전적인 과제들로 구성된 프레임워크로, 다중 길이 구간(4k, 8k, 32k, 128k, 200k, 1000k 및 그 이상)과 다양한 깊이 범위에 걸쳐 이중 언어 장문맥 능력을 평가하도록 설계되었습니다. 이를 통해 텍스트의 다양한 깊이 영역에 중요한 데이터 포인트를 전략적으로 삽입함으로써, 다양한 맥락에서 모델의 정보 검색 및 추론 능력을 엄격하게 테스트할 수 있습니다. 우리는 NeedleBench 프레임워크를 사용하여 주요 오픈소스 모델들이 질문과 관련된 핵심 정보를 얼마나 잘 식별하고, 이 정보를 이중 언어 장문 텍스트에서의 추론에 적용할 수 있는지를 평가했습니다. 더 나아가, 실제 세계의 장문맥 과제에서 발생할 가능성이 높은 논리적 추론의 복잡성을 모방한 Ancestral Trace Challenge(ATC)를 제안하여, 복잡한 장문맥 상황에서 LLM을 평가할 수 있는 간단한 방법을 제공합니다. 우리의 결과는 현재의 LLM들이 실제 장문맥 응용에서 상당한 개선의 여지가 있음을 시사하며, 이는 실제 세계의 장문맥 과제에서 발생할 가능성이 높은 논리적 추론의 복잡성을 다루는 데 어려움을 겪기 때문입니다. 모든 코드와 리소스는 OpenCompass에서 확인할 수 있습니다: https://github.com/open-compass/opencompass.
본 논문에서는 확산 트랜스포머의 희소 버전인 DiT-MoE를 소개하며, 이는 고밀도 네트워크와 경쟁력이 있으면서도 고도로 최적화된 추론을 보여줍니다. DiT-MoE는 두 가지 간단한 설계를 포함합니다: 공유 전문가 라우팅과 전문가 수준의 균형 손실로, 이를 통해 공통 지식을 포착하고 다양한 라우팅된 전문가 간의 중복성을 줄입니다. 조건부 이미지 생성에 적용할 때, 전문가 전문화에 대한 심층 분석은 몇 가지 흥미로운 관찰을 제공합니다: (i) 전문가 선택은 공간 위치와 노이즈 제거 시간 단계에 대한 선호도를 보이지만, 다른 클래스 조건 정보에는 둔감합니다; (ii) MoE 층이 깊어질수록, 전문가 선택은 특정 공간 위치에서 점점 분산과 균형으로 이동합니다. (iii) 전문가 전문화는 초기 시간 단계에서 더 집중되는 경향이 있으며, 이후 절반 이후에는 점점 균일해집니다. 우리는 이를 확산 과정에 기인한다고 보며, 이 과정은 먼저 저주파 공간 정보를 모델링한 후 고주파 복잡 정보를 모델링합니다. 위의 지침을 바탕으로, 일련의 DiT-MoE는 실험적으로 고밀도 네트워크와 동등한 성능을 달성하면서도 추론 중에 훨씬 적은 계산 부하를 요구합니다. 더욱 고무적으로, 우리는 합성된 이미지 데이터를 통해 DiT-MoE의 잠재력을 입증하며, 16.5B 매개변수로 확산 모델을 확장하여 512x512 해상도 설정에서 1.80의 새로운 SoTA FID-50K 점수를 달성했습니다. 프로젝트 페이지: https://github.com/feizc/DiT-MoE.
기존의 참조 분할(reference segmentation) 작업은 주로 무음의 시각적 장면에 초점을 맞추어 왔으며, 인간 경험에서 중요한 역할을 하는 다중 모드(multimodal) 인식과 상호작용을 간과해 왔습니다. 본 연구에서는 시각적 영역 내 객체를 다중 모드 단서를 포함한 표현을 기반으로 분할하는 새로운 작업인 참조 오디오-비주얼 분할(Reference Audio-Visual Segmentation, Ref-AVS)을 소개합니다. 이러한 표현은 자연어 형태로 표현되지만, 오디오 및 시각적 설명을 포함한 다중 모드 단서로 풍부하게 구성됩니다. 이 연구를 지원하기 위해, 우리는 해당 다중 모드 단서 표현에서 설명된 객체에 대한 픽셀 수준의 주석을 제공하는 최초의 Ref-AVS 벤치마크를 구축했습니다. Ref-AVS 작업을 해결하기 위해, 우리는 다중 모드 단서를 적절히 활용하여 정확한 분할 지침을 제공하는 새로운 방법을 제안합니다. 마지막으로, 우리는 세 가지 테스트 하위 집합에서 양적 및 질적 실험을 수행하여 우리의 접근 방식을 관련 작업의 기존 방법과 비교합니다. 결과는 우리의 방법이 다중 모드 단서 표현을 사용하여 객체를 정확하게 분할할 수 있는 능력을 강조하며, 그 효과성을 입증합니다. 데이터셋은 https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}에서 확인할 수 있습니다.
대형 언어 모델(LLM) 기반의 기존 에이전트들은 LLM의 내재적 지식, 강력한 문맥 내 학습 및 제로샷 능력, 그리고 인간이 설계한 정교한 LLM 호출 워크플로우와 도구 사용을 통합함으로써 견고한 문제 해결 능력을 보여줍니다. 그러나 이러한 에이전트들은 여전히 장기적 추론에서 부족함을 보이며, 기존 도구의 잠재력을 충분히 활용하지 못해 복잡한 현실 세계 추론 시나리오에서 눈에 띄는 결함을 드러냅니다. 이러한 한계를 해결하기 위해, 우리는 최소한의 도구 세트를 효율적으로 활용하여 복잡한 추론 과제를 해결하도록 설계된 간단하지만 강력한 LLM 기반 에이전트 프레임워크인 Sibyl을 소개합니다. Sibyl은 글로벌 작업 공간 이론(Global Workspace Theory)에서 영감을 받아, 시스템 전반에 걸쳐 지식과 대화 기록의 관리 및 공유를 강화하기 위해 글로벌 작업 공간을 도입했습니다. 또한, 마음의 사회 이론(Society of Mind Theory)에 따라, Sibyl은 다중 에이전트 토론 기반의 배심원을 구현하여 최종 답변을 자체적으로 개선함으로써 포괄적이고 균형 잡힌 접근 방식을 보장합니다. 이 접근법은 시스템 복잡성을 줄이면서도 해결 가능한 문제의 범위를 확장하는 것을 목표로 합니다. 즉, 인간이 몇 분 안에 해결하는 문제에서 몇 시간 또는 며칠이 걸리는 문제까지 다룰 수 있도록 하여, 시스템-1 사고에서 시스템-2 사고로의 전환을 촉진합니다. Sibyl은 확장성과 디버깅 용이성에 초점을 맞춰 설계되었으며, 함수형 프로그래밍에서의 재진입(reentrancy) 개념을 처음부터 도입함으로써 다른 LLM 애플리케이션에 원활하고 저비용으로 통합되어 능력을 향상시킬 수 있도록 했습니다. GAIA 벤치마크 테스트 세트에서의 실험 결과, GPT-4로 인스턴스화된 Sibyl 에이전트는 GPT-4 기반의 다른 에이전트들과 비교하여 평균 34.55%의 점수로 최첨단 성능을 달성했습니다. 우리는 Sibyl이 복잡한 현실 세계 추론 과제를 해결하기 위해 더 신뢰할 수 있고 재사용 가능한 LLM 기반 에이전트 솔루션을 고무할 수 있기를 바랍니다.
저희는 PyTorch 기반의 대규모 다중 모달리티 모델 평가를 위한 오픈소스 툴킷인 VLMEvalKit을 소개합니다. 이 툴킷은 연구자와 개발자들이 기존의 다중 모달리티 모델을 평가하고 재현 가능한 평가 결과를 발표할 수 있도록 사용자 친화적이고 포괄적인 프레임워크를 제공하는 것을 목표로 합니다. VLMEvalKit에서는 70종 이상의 다양한 대규모 다중 모달리티 모델(상용 API 및 오픈소스 모델 포함)과 20종 이상의 다중 모달 벤치마크를 구현했습니다. 단일 인터페이스를 구현함으로써 새로운 모델을 쉽게 툴킷에 추가할 수 있으며, 툴킷은 데이터 준비, 분산 추론, 예측 후처리, 메트릭 계산 등의 나머지 작업을 자동으로 처리합니다. 현재 이 툴킷은 주로 대규모 시각-언어 모델 평가에 사용되고 있지만, 오디오 및 비디오와 같은 추가 모달리티를 통합할 수 있도록 설계되어 향후 업데이트와도 호환됩니다. 툴킷을 통해 얻은 평가 결과를 바탕으로, 다중 모달리티 학습 연구의 진행 상황을 추적하기 위한 포괄적인 리더보드인 OpenVLM Leaderboard를 운영하고 있습니다. 이 툴킷은 https://github.com/open-compass/VLMEvalKit에서 공개되었으며, 지속적으로 유지 관리되고 있습니다.
스코어 증류 샘플링(Score Distillation Sampling, SDS)은 고유의 3D 일관성 덕분에 텍스트 기반 3D 편집 작업에서 효과적인 프레임워크로 부상했습니다. 그러나 기존의 SDS 기반 3D 편집 방법들은 확산 모델의 샘플링 역학에서 벗어나기 때문에 과도한 학습 시간과 낮은 품질의 결과를 초래하는 문제가 있습니다. 본 논문에서는 SDS 기반 편집을 확산 역과정으로 해석하는 새로운 프레임워크인 DreamCatalyst를 제안합니다. 우리의 목적 함수는 샘플링 역학을 고려하여 DreamCatalyst의 최적화 과정이 편집 작업에서의 확산 역과정을 근사하도록 합니다. DreamCatalyst는 학습 시간을 단축하고 편집 품질을 향상시키는 것을 목표로 합니다. DreamCatalyst는 두 가지 모드를 제공합니다: (1) 약 25분 만에 NeRF 장면을 편집하는 빠른 모드와 (2) 70분 이내에 우수한 결과를 생성하는 고품질 모드. 특히, 우리의 고품질 모드는 현재 최첨단 NeRF 편집 방법들을 속도와 품질 모두에서 능가합니다. 더 많은 결과는 프로젝트 페이지(https://dream-catalyst.github.io)에서 확인할 수 있습니다.
Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
좋은 가중치 초기화는 심층 신경망(DNN) 모델의 학습 비용을 줄이는 효과적인 방법으로 작용합니다. 매개변수를 초기화하는 방법을 선택하는 것은 어려운 작업이며 수동 조정이 필요할 수 있어 시간이 많이 소요되고 인간의 실수가 발생하기 쉽습니다. 이러한 한계를 극복하기 위해, 본 연구는 신경망 가중치를 초기화하기 위해 가중치 생성기를 구축하는 새로운 접근 방식을 제안합니다. 우리는 다양한 범위의 모델 가중치를 쉽게 수집할 수 있기 때문에 생성적 적대 신경망(GANs)을 사용한 이미지-이미지 변환 작업을 예시로 사용합니다. 구체적으로, 우리는 먼저 다양한 이미지 편집 개념과 그에 해당하는 학습된 가중치로 구성된 데이터셋을 수집한 후, 이를 가중치 생성기의 학습에 사용합니다. 계층 간의 서로 다른 특성과 예측해야 할 가중치의 방대한 수를 해결하기 위해, 우리는 가중치를 동일한 크기의 블록으로 나누고 각 블록에 인덱스를 할당합니다. 이후, 개념과 블록 인덱스의 텍스트 조건을 모두 사용하여 확산 모델을 해당 데이터셋으로 학습시킵니다. 우리의 확산 모델이 예측한 노이즈가 제거된 가중치로 이미지 변환 모델을 초기화함으로써, 학습에는 단 43.3초만이 소요됩니다. 처음부터 학습하는 경우(즉, Pix2pix)와 비교했을 때, 새로운 개념에 대해 15배의 학습 시간 가속을 달성하면서도 더 나은 이미지 생성 품질을 얻을 수 있습니다.
비전 언어 모델(VLMs)은 다양한 응용 분야에서 인상적인 진전을 이루며 주요 연구 방향으로 자리 잡았습니다. 본 논문에서는 27개의 소스 데이터셋에서 도출된 110만 개의 다중 턴 대화로 구성된 피드백 정제 데이터셋인 FIRE를 구축하여, VLMs이 다양한 작업에서 사용자 피드백을 기반으로 응답을 자발적으로 개선할 수 있도록 지원합니다. 데이터 수집을 확장하기 위해 FIRE는 FIRE-100K와 FIRE-1M 두 가지 구성 요소로 수집되었으며, FIRE-100K는 GPT-4V로 생성되었고 FIRE-1M은 FIRE-100K로 훈련된 모델을 통해 자유롭게 생성되었습니다. 이후, VLMs의 피드백 정제 능력을 종합적으로 평가하기 위한 벤치마크인 FIRE-Bench를 구축했습니다. 이 벤치마크는 11,000개의 피드백 정제 대화를 테스트 데이터로 포함하며, 두 가지 평가 설정과 VLMs에 피드백을 제공하는 모델로 구성됩니다. FIRE-100K와 FIRE-1M으로 LLaVA를 미세 조정하여 개발한 FIRE-LLaVA 모델은 FIRE-Bench에서 뛰어난 피드백 정제 능력을 보여주며, 미훈련 VLMs보다 50% 더 우수한 성능을 달성하여 사용자-에이전트 상호작용의 효율성을 높이고 FIRE 데이터셋의 중요성을 강조합니다.
미국 수화(American Sign Language, ASL)와 같이 더 잘 연구된 수화 언어조차도 데이터는 머신러닝 연구의 병목 현상으로 남아 있습니다. 전 세계의 농/청각 장애인 커뮤니티에서 사용되는 수많은 다른 수화 언어들의 상황은 더욱 심각합니다. 본 논문에서는 YouTube에서 수집된 잘 정렬된 캡션을 포함한 대규모 오픈 도메인 다국어 수화 비디오 코퍼스인 YouTube-SL-25를 소개합니다. 25개 이상의 수화 언어에 걸쳐 3000시간 이상의 비디오를 포함하는 YouTube-SL-25는 a) YouTube-ASL보다 3배 이상 크며, b) 현재까지 가장 큰 병렬 수화 데이터셋이고, c) 포함된 많은 수화 언어들 중 최초이거나 가장 큰 병렬 데이터셋입니다. 우리는 T5 기반의 통합 다국어 다중 작업 모델을 사용하여 수화-텍스트 작업을 위한 베이스라인을 제공하고, 4개 수화 언어에 걸친 벤치마크에서의 점수를 보고합니다. 결과는 다국어 전이가 YouTube-SL-25 내에서 고자원 및 저자원 수화 언어 모두에 이점을 제공함을 보여줍니다.
대규모 언어 모델(LLM)은 현대 자연어 처리와 인공지능의 핵심 요소입니다. 그러나 이러한 모델은 상당한 메모리 요구 사항을 관리하는 데 어려움을 겪고 있습니다. 양자화 인지 훈련(QAT)은 낮은 비트 표현을 통해 메모리 소비를 줄이고 정확도 손실을 최소화하는 해결책을 제공하지만, 모델 가중치와 양자화 매개변수를 최적화하기 위해 상당한 훈련 자원을 요구합니다. 이를 해결하기 위해 우리는 LLM 압축을 위한 새로운 양자화 기술인 Efficient Quantization-Aware Training(EfficientQAT)을 제안합니다. EfficientQAT은 두 가지 연속적인 단계로 구성됩니다: 모든 매개변수의 블록 단위 훈련(Block-AP)과 양자화 매개변수의 종단 간 훈련(E2E-QP). Block-AP는 각 트랜스포머 블록의 모든 매개변수에 대해 블록 단위 재구성을 통해 양자화 인지 훈련을 순차적으로 수행하며, 전체 LLM을 훈련하지 않음으로써 효율성을 유지합니다. 양자화된 모델로 초기화된 E2E-QP는 양자화 매개변수(스텝 크기)만을 종단 간 훈련하여, 고정된 양자화 백본과 감소된 훈련 가능 매개변수 수로 효율성을 향상시킵니다. 광범위한 실험을 통해 EfficientQAT이 기본 LLM, 지시 튜닝된 LLM, 다중 모달 LLM을 포함한 다양한 모델에서 7B에서 70B 매개변수 규모의 다양한 양자화 비트에서 이전 양자화 방법들을 능가함을 입증했습니다. 예를 들어, EfficientQAT은 단일 A100-80GB GPU에서 41시간 만에 2비트 Llama-2-70B 모델을 얻었으며, 전체 정밀도 대비 3% 미만의 정확도 저하를 보였습니다(69.48 대 72.41). 특히, 이 INT2 양자화된 70B 모델은 Llama-2-13B 모델 대비 1.67의 정확도 향상을 달성하면서 더 적은 메모리를 요구했습니다(19.2GB 대 24.2GB). 코드는 https://github.com/OpenGVLab/EfficientQAT에서 확인할 수 있습니다.
현대의 대형 언어 모델(LLMs)은 수십억 개의 요소로 구성된 행렬들로 이루어져 있어, 이들의 저장 및 처리는 계산 자원과 메모리 사용 측면에서 상당히 요구적입니다. 이러한 대규모 행렬은 종종 저랭크(low-rank) 형식으로 표현될 수 있어 자원 요구 사항을 완화할 가능성이 있습니다. 기존 연구들이 새로운 행렬 분해 알고리즘 개발에 초점을 맞췄던 것과 달리, 본 연구에서는 먼저 LLM의 다양한 계층 내 행렬들에서 저랭크 구조의 출현을 연구하고, 그래디언트 역학과 행렬의 저랭크 표현성 간의 중요한 관계를 규명합니다. 우리의 연구 결과는 서로 다른 계층들이 다양한 수준의 저랭크 구조로 수렴함을 보여주며, 압축으로 인한 성능 저하를 최소화하기 위해 이들 간에 비균일한 랭크 감소가 필요함을 시사합니다. 이를 고려하여, 우리는 가중치 압축과 메모리 효율적인 미세 조정을 데이터에 구애받지 않고 일회성으로 통합한 Weight Low-Rank Projection(WeLore)을 제안합니다. WeLore은 특이값의 헤비테일 분포를 활용하여 LLM 내 행렬들에 적합한 랭크 감소 비율을 식별합니다. 단순한 압축 기술을 넘어, WeLore은 가중치 행렬을 저랭크로 표현할 수 있는 능력에 따라 저랭크 성분(LRCs)과 비저랭크 성분(N-LRCs)으로 분류합니다. 우리의 그래디언트 관점과 광범위한 실험은 LRCs가 더 나은 미세 조정 능력을 가지며, 전체 미세 조정의 학습 손실 궤적과 성능을 밀접하게 모방(때로는 능가)할 수 있음을 보여줍니다. 이는 메모리와 계산 비용을 크게 줄이면서 가능합니다. 예를 들어, LLaMa-2 7B 모델을 50% 압축한 상태에서 LRCs의 일부 매개변수만을 사용하여 미세 조정(WeLore)을 수행하면, 전체 미세 조정을 능가하면서도 처리량은 약 3배 향상되고 GPU 요구량은 약 0.6배로 감소합니다. 우리의 코드는 https://github.com/VITA-Group/welore에서 확인할 수 있습니다.
최근 다양한 모달리티를 활용한 인간-컴퓨터 상호작용은 GPT-4o와 Gemini와 같은 유망한 애플리케이션을 보여주고 있습니다. 이해 및 생성 파이프라인에서 다중모달 결합 표현의 기초적인 역할을 고려할 때, 고품질의 오믹니(omni) 결합 표현은 더 다양한 다중모달 정보를 동시에 처리하는 데 한 걸음 더 나아가는 것이 될 것입니다. 본 연구에서는 3D, 오디오, 이미지, 언어 입력을 지원하며 70억에서 300억 개의 파라미터 규모를 가진 대규모 다중모달 결합 표현 모델인 OmniBind를 제시합니다. 모든 모달리티 간의 데이터 쌍이 부족한 상황을 고려하여, 대규모 모델을 처음부터 학습시키는 대신, 사전 학습된 전문가 모델들의 공간을 재매핑하고 결합하는 방식을 제안합니다. 이 접근 방식은 모델 파라미터와 관측된 데이터 양을 간접적으로 증가시켜 "스케일 업"을 가능하게 합니다. 다양한 공간을 효과적으로 통합하기 위해, 우리는 두 가지 목표를 가진 라우터를 학습하여 다른 공간에 동적으로 가중치를 할당합니다: 크로스모달 전반적 정렬과 언어 표현 분리. 특히, 결합과 라우팅 공간 모두 경량 네트워크만 필요하기 때문에 OmniBind는 매우 학습 효율적입니다. 가장 큰 300억 파라미터 모델을 학습하는 데는 단일 8-4090 노드에서 약 3일과 짝을 이루지 않은 단일모달 데이터만 필요합니다. 광범위한 실험은 OmniBind가 오믹니 표현 모델로서의 다재다능함과 우수성을 입증하며, any-query 및 조합 가능한 다중모달 이해와 같은 다양한 애플리케이션에 대한 큰 잠재력을 강조합니다.
우리는 시뮬레이션된 휴머노이드가 물체를 잡고 물체 궤적을 따라 이동하도록 제어하는 방법을 제안합니다. 민첩한 손을 가진 휴머노이드를 제어하는 데 있어서의 어려움으로 인해, 기존 방법들은 종종 손만 분리하여 사용하고 수직 리프트나 짧은 궤적만을 고려했습니다. 이러한 제한된 범위는 애니메이션과 시뮬레이션에 필요한 물체 조작의 적용 가능성을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 1200개 이상의 다양한 물체를 집어들어 무작위로 생성된 궤적을 따라 운반할 수 있는 제어기를 학습합니다. 우리의 핵심 통찰은 인간과 유사한 운동 능력을 제공하며 학습 속도를 크게 향상시키는 휴머노이드 동작 표현을 활용하는 것입니다. 단순화된 보상, 상태, 그리고 물체 표현만을 사용하여, 우리의 방법은 다양한 물체와 궤적에서 유리한 확장성을 보여줍니다. 학습을 위해, 우리는 전체 신체 동작과 물체 궤적이 짝지어진 데이터셋이 필요하지 않습니다. 테스트 시에는 물체 메시와 잡고 운반하기 위한 원하는 궤적만 필요합니다. 우리 방법의 능력을 입증하기 위해, 물체 궤적을 따르는 데 있어서 최첨단 성공률과 보지 못한 물체에 대한 일반화 능력을 보여줍니다. 코드와 모델은 공개될 예정입니다.
Vibravox는 일반 데이터 보호 규정(GDPR)을 준수하는 데이터셋으로, 5가지 다른 체전도 오디오 센서를 사용하여 녹음된 오디오 데이터를 포함합니다. 이 센서들은 두 개의 이어폰 마이크, 두 개의 골전도 진동 픽업, 그리고 하나의 후두 마이크로 구성되어 있습니다. 또한, 이 데이터셋은 참조용으로 사용된 공기 전달 마이크의 오디오 데이터도 포함하고 있습니다. Vibravox 코퍼스는 고차 앰비소닉스 3D 공간화 장치에 의해 부과된 다양한 음향 조건 하에서 188명의 참가자로부터 녹음된 38시간 분량의 음성 샘플과 생리적 소리를 담고 있습니다. 녹음 조건에 대한 주석과 언어학적 전사도 코퍼스에 포함되어 있습니다. 우리는 음성 인식, 음성 향상, 화자 검증 등 다양한 음성 관련 작업에 대한 일련의 실험을 수행했습니다. 이러한 실험은 최신 모델을 사용하여 Vibravox 데이터셋이 제공하는 다양한 오디오 센서로 캡처된 신호에 대한 성능을 평가하고 비교함으로써 각 센서의 개별 특성을 더 잘 이해하기 위해 진행되었습니다.
대규모 멀티모달 생성 모델의 등장은 인공지능을 급격히 발전시켜 전례 없는 수준의 성능과 기능을 도입했습니다. 그러나 이러한 모델의 최적화는 역사적으로 모델 중심과 데이터 중심의 개발 경로가 분리되어 있어 최적의 결과를 얻지 못하고 자원 활용이 비효율적이라는 점에서 여전히 어려운 과제로 남아 있습니다. 이에 대응하여, 우리는 통합된 데이터-모델 공동 개발을 위해 특별히 설계된 새로운 샌드박스 제품군을 제시합니다. 이 샌드박스는 포괄적인 실험 플랫폼을 제공하여 데이터와 모델 모두에 대한 신속한 반복 및 통찰 기반 개선을 가능하게 합니다. 우리가 제안한 "탐색-분석-개선" 워크플로우는 최신 LLaVA 유사 모델과 DiT 기반 모델에 대한 응용을 통해 검증되었으며, VBench 리더보드 정상에 오르는 등 상당한 성능 향상을 이끌어냈습니다. 또한, 우리는 철저한 벤치마크를 통해 얻은 유익한 통찰을 발견하여 데이터 품질, 다양성 및 모델 행동 간의 중요한 상호작용을 밝혀냈습니다. 멀티모달 데이터와 생성 모델링에 대한 더 깊은 이해와 미래의 진전을 촉진하고자, 우리의 코드, 데이터셋 및 모델은 https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md에서 유지 및 접근 가능합니다.
3D 가우시안 스플래팅(3D Gaussian Splatting)의 실시간 렌더링 능력 덕분에, 3D 가우시안의 인터랙티브 세분화는 3D 장면의 실시간 조작에 큰 기회를 제공합니다. 그러나 현재의 방법들은 노이즈가 있는 세분화 출력을 처리하기 위해 시간이 많이 소요되는 후처리 과정을 필요로 합니다. 또한, 3D 장면의 세밀한 조작에 중요한 상세한 세분화를 제공하는 데 어려움을 겪고 있습니다. 본 연구에서는 시간이 많이 소요되는 후처리 없이도 세분화를 용이하게 하는 두 가지 수준의 세분화 가능한 특징 필드를 학습하는 Click-Gaussian을 제안합니다. 우리는 3D 장면과 독립적으로 얻어진 2D 세분화로부터 발생하는 일관성 없이 학습된 특징 필드로 인한 문제를 깊이 탐구합니다. 3D 세분화의 주요 단서인 다양한 뷰 간의 2D 세분화 결과가 충돌할 때 3D 세분화 정확도가 저하됩니다. 이러한 문제를 극복하기 위해, 우리는 글로벌 특징-가이드 학습(Global Feature-guided Learning, GFL)을 제안합니다. GFL은 다양한 뷰에서 얻은 노이즈가 있는 2D 세그먼트로부터 글로벌 특징 후보 클러스터를 구성하여, 3D 가우시안의 특징을 학습할 때 노이즈를 완화합니다. 우리의 방법은 클릭당 10ms로 실행되며, 이전 방법들보다 15~130배 빠른 속도를 보이면서도 세분화 정확도를 크게 향상시킵니다. 우리의 프로젝트 페이지는 https://seokhunchoi.github.io/Click-Gaussian에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 다양한 고위험 분야에서 활용되며, 이들의 출력 신뢰도가 매우 중요한 요소로 작용합니다. LLM 응답의 신뢰성을 평가하기 위해 일반적으로 사용되는 방법 중 하나는 불확실성 추정으로, 이는 모델의 답변이 정확할 가능성을 측정합니다. 많은 연구가 LLM의 불확실성 추정 정확도를 개선하는 데 초점을 맞추는 반면, 본 연구는 불확실성 추정의 취약성을 조사하고 잠재적 공격 가능성을 탐구합니다. 우리는 공격자가 LLM에 백도어를 삽입할 수 있음을 보여주며, 이 백도어는 입력에서 특정 트리거가 활성화될 때 최종 출력에는 영향을 미치지 않으면서 모델의 불확실성을 조작할 수 있습니다. 구체적으로, 제안된 백도어 공격 방법은 LLM의 출력 확률 분포를 변경하여 확률 분포가 공격자가 사전에 정의한 분포로 수렴하도록 만들면서도 상위 1개 예측값은 그대로 유지되도록 합니다. 우리의 실험 결과는 이 공격이 객관식 문제에서 모델의 자기 평가 신뢰도를 효과적으로 훼손함을 보여줍니다. 예를 들어, 네 가지 모델에서 세 가지 다른 트리거 전략에 대해 100%의 공격 성공률(ASR)을 달성했습니다. 또한, 이러한 조작이 다양한 프롬프트와 도메인에 걸쳐 일반화되는지 여부를 추가로 조사했습니다. 이 연구는 LLM의 신뢰성에 대한 중대한 위협을 강조하며, 이러한 공격에 대비한 미래의 방어 메커니즘의 필요성을 강조합니다. 코드는 https://github.com/qcznlp/uncertainty_attack에서 확인할 수 있습니다.