번역이 포함된 일일 선별된 AI 연구 논문
GPT-4의 현저한 다중 모달 기능과 상호 작용 경험은 실용적인 응용 프로그램에서 필수적임을 강조하지만, 오픈 소스 모델은 이 두 영역에서 드물게 뛰어나지 않습니다. 본 논문에서는 비디오, 이미지, 텍스트 및 오디오 모달리티를 동시에 처리하고 분석하는 데 능숙한 최초의 오픈 소스 다중 모달 대형 언어 모델(VITA)을 소개합니다. 동시에 고급 다중 모달 상호 작용 경험을 갖추고 있습니다. 언어 기반으로 Mixtral 8x7B를 시작으로 중국어 어휘를 확장하고 이중 언어 지시 조정을 수행합니다. 또한, 다중 모달 정렬 및 지시 조정의 이중 단계 다중 작업 학습을 통해 시각 및 오디오 기능을 언어 모델에 부여합니다. VITA는 다국어, 비전 및 오디오 이해의 견고한 기본 기능을 보여주며, 단일 모달 및 다중 모달 벤치마크 범위에서 강력한 성능을 나타냅니다. 기본 기능 이상으로, 자연스러운 다중 모달 인간-컴퓨터 상호 작용 경험을 향상시키는 데 상당한 진전을 이루었습니다. 우리는 MLLM에서 비각성 상호 작용과 오디오 중단을 활용하는 최초의 연구자로 알려져 있습니다. VITA는 오픈 소스 커뮤니티가 다중 모달 이해와 상호 작용의 원활한 통합을 탐구하기 위한 첫걸음입니다. VITA에는 닫힌 소스와 유사한 모델에 가까워지기 위해 많은 작업이 남아 있지만, 이를 선구자로서의 역할로 후속 연구의 기초로 제공할 수 있기를 희망합니다. 프로젝트 페이지: https://vita-home.github.io.
희소 오토인코더(SAE)는 신경망의 잠재 표현을 희소하게 분해하여 해석 가능한 특징으로 보이도록 학습하는 비지도 학습 방법입니다. 최근 그들의 잠재력에 대한 흥미가 높아지고 있지만, 산업 외의 연구 응용은 SAE의 포괄적인 스위트를 훈련하는 높은 비용으로 제한됩니다. 본 연구에서는 Gemma 2 2B 및 9B의 모든 레이어 및 서브 레이어에서 훈련된 JumpReLU SAE의 오픈 스위트인 Gemma Scope를 소개합니다. 우리는 주로 Gemma 2 사전 훈련 모델에서 SAE를 훈련하지만, 비교를 위해 지시 조정된 Gemma 2 9B에서 훈련된 SAE도 추가로 공개합니다. 각 SAE의 품질을 표준 지표로 평가하고 이러한 결과를 공개합니다. 이러한 SAE 가중치를 공개함으로써 더 많은 야심찬 안전성 및 해석 가능성 연구가 커뮤니티에게 더 쉽게 이루어지길 희망합니다. 가중치와 튜토리얼은 https://huggingface.co/google/gemma-scope에서 찾을 수 있으며, 대화형 데모는 https://www.neuronpedia.org/gemma-scope에서 확인할 수 있습니다.
다중 모달 대형 언어 모델(MLLMs)은 다양한 단일 이미지 작업에 대한 지시를 실행하는 놀라운 능력을 보여주었습니다. 이러한 진전에도 불구하고, 긴 이미지 시퀀스를 모델링하는 데 중요한 도전 과제가 남아 있습니다. 본 연구에서는 다양한 이미지-텍스트 지식을 통합하고 교차된 이미지-텍스트 및 긴 비디오를 포함하는 시나리오에서 긴 이미지 시퀀스 이해 능력을 향상시키는 다목적 다중 모달 대형 언어 모델인 mPLUG-Owl3을 소개합니다. 구체적으로, 우리는 새로운 하이퍼 어텐션 블록을 제안하여 시각과 언어를 효율적으로 통합하여 공통 언어로 안내된 의미 공간으로 처리를 용이하게 하여 확장된 다중 이미지 시나리오를 처리합니다. 광범위한 실험 결과는 mPLUG-Owl3이 유사한 크기의 모델들 중에서 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 최고 수준의 성능을 달성한다는 것을 시사합니다. 더불어, 우리는 모델이 주의를 집중시키는 능력을 평가하는 어려운 긴 시각적 시퀀스 평가인 Distractor Resistance를 제안합니다. 마지막으로, 제안된 아키텍처로 mPLUG-Owl3은 초장기 시각적 시퀀스 입력에서 뛰어난 성능을 보여줍니다. 우리는 mPLUG-Owl3이 더 효율적이고 강력한 다중 모달 대형 언어 모델의 발전에 기여할 수 있기를 희망합니다.
비전-언어 모델 (VLM) 훈련 방법을 확장하고 개선하기 위해 상당한 연구 노력이 기울어졌습니다. 그러나 점점 더 많아지는 여러 벤치마크로 인해 연구자들은 각 프로토콜을 구현하고 상당한 계산 비용을 감당하며 이러한 모든 벤치마크가 의미 있는 진전의 축으로 어떻게 번역되는지 이해해야 하는 무거운 부담이 있습니다. VLM 진전을 체계적으로 평가하기 위해 우리는 UniBench를 소개합니다. 이는 객체 인식부터 공간 인식, 계수 등 다양한 능력을 주의 깊게 분류한 50개 이상의 VLM 벤치마크를 아우르는 통합 구현입니다. 우리는 UniBench의 유용성을 보여주기 위해 거의 60개의 공개적으로 이용 가능한 비전-언어 모델을 평가하고, 최대 128억 개의 샘플 규모로 훈련된 것까지 다양한 규모로 훈련된 모델을 평가합니다. 훈련 데이터나 모델 크기를 확장하는 것이 많은 비전-언어 모델 능력을 향상시킬 수 있지만, 추론이나 관계에 대해서는 큰 이점을 제공하지 않는다는 것을 발견했습니다. 놀랍게도, 오늘날의 최고의 VLM은 간단한 숫자 인식 및 계수 작업, 예를 들어 MNIST에서 매우 간단한 네트워크가 해결할 수 있는 작업에서도 어려움을 겪는 것을 발견했습니다. 규모가 부족한 부분에서는 데이터 품질이나 맞춤형 학습 목표와 같은 더 정밀한 개입이 더 많은 약속을 제공한다는 것을 발견했습니다. 실무자들을 위해 특정 응용 프로그램에 적합한 VLM을 선택하는 데 대한 안내도 제공합니다. 마지막으로, 59개 모델 간의 50개 이상의 벤치마크 및 비교를 포함하는 쉽게 실행할 수 있는 UniBench 코드베이스와 단일 GPU에서 5분 안에 실행되는 요약된 대표적인 벤치마크 세트를 공개합니다.
최근 대형 언어 모델 (LLMs)의 발전은 실제 세계의 문제를 해결하는 데 도움을 주는 도구 지원 LLMs에 대한 연구 관심을 촉발시켰으며, 이는 도구 사용 능력의 포괄적인 평가를 요구합니다. 이전 연구는 상태 없는 웹 서비스 (RESTful API)를 통한 평가 또는 단일 턴 사용자 프롬프트를 기반으로 한 것에 초점을 맞추었지만, ToolSandbox에는 상태를 가진 도구 실행, 도구 간의 암시적 상태 의존성, 온-폴리시 대화 평가를 지원하는 내장 사용자 시뮬레이터, 임의의 트라젝토리에 대한 중간 및 최종 마일스톤에 대한 동적 평가 전략이 포함되어 있습니다. 우리는 오픈 소스와 프로프리어터리 모델 간에 상당한 성능 차이가 있음을 보여주며, ToolSandbox에서 정의된 상태 의존성, 정규화 및 정보 부족과 같은 복잡한 작업은 가장 능숙한 SOTA LLMs조차 어렵다는 것을 보여주며, 도구 사용 LLM 능력에 대한 새로운 통찰을 제공합니다. ToolSandbox 평가 프레임워크는 https://github.com/apple/ToolSandbox에서 공개되었습니다.
얼굴 이미지 초해상화의 유망한 진전에도 불구하고, 비디오 얼굴 초해상화는 비교적 탐구되지 않은 상태입니다. 기존 접근 방식은 일반 비디오 초해상화 네트워크를 얼굴 데이터셋에 적응시키거나 개별 비디오 프레임에 독립적으로 확립된 얼굴 이미지 초해상화 모델을 적용합니다. 이러한 패러다임은 얼굴 세부사항을 재구성하거나 시간적 일관성을 유지하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 Kalman 필터링 원칙을 활용한 안정적인 얼굴 선행을 유지하는 KEEP(Kalman-inspired Feature Propagation)라는 새로운 프레임워크를 소개합니다. 이 원칙은 이전에 복원된 프레임에서의 정보를 사용하여 현재 프레임의 복원 과정을 안내하고 조절하는 재귀 능력을 제공합니다. 광범위한 실험을 통해 우리의 방법이 비디오 프레임 전체에서 일관되게 얼굴 세부사항을 포착하는 데 효과적임을 입증했습니다. 코드와 비디오 데모는 https://jnjaby.github.io/projects/KEEP에서 확인할 수 있습니다.
텍스트 역전은 새로운 주제와 스타일을 모델에 가르치기 위해 개인화된 확산 모델에 대한 인기 있는 방법으로 남아 있습니다. 우리는 UNet 대안을 사용하여 텍스트 역전을 탐구하지 않았음을 주목하며, 비전 트랜스포머를 활용한 텍스트 역전 실험을 진행합니다. 또한 UNet 및 그 독특한 레이어의 명시적 사용이 필요하지 않은 전략을 활용하여 텍스트 역전을 최적화하고자 하며, 이를 위해 보너스 토큰을 추가하고 직교성을 강화합니다. 보너스 토큰의 사용은 소스 이미지에 대한 일치도를 향상시키고, 비전 트랜스포머의 사용은 프롬프트에 대한 일치도를 향상시킵니다. 코드는 https://github.com/jamesBaker361/tex_inv_plus에서 확인할 수 있습니다.
본 논문에서는 Moore Threads의 MooER, LLM 기반 대규모 자동 음성 인식 (ASR) / 자동 음성 번역 (AST) 모델을 제시합니다. 오픈 소스 및 자체 수집 음성 데이터가 포함된 5000시간의 가짜 레이블 데이터셋을 학습에 활용했습니다. 수백만 시간의 레이블된 음성 데이터로 훈련된 다른 오픈 소스 모델과 유사한 성능을 달성했습니다. 한편, Covost2 Zh2en 테스트 세트에서 수행된 실험 결과, 우리 모델이 다른 오픈 소스 음성 LLMs보다 우수한 성과를 보였습니다. BLEU 점수는 25.2를 얻을 수 있었습니다. 본 논문의 주요 기여는 다음과 같이 요약됩니다. 첫째, 본 논문은 소량의 가짜 레이블 데이터를 활용하여 음성 관련 작업 (ASR 및 AST 포함)에 대한 인코더 및 LLM의 훈련 전략을 제시합니다. 추가적인 수동 주석 및 선택 없이 진행되었습니다. 둘째, 우리는 ASR 및 AST 모델을 공개하고 향후 교육 코드와 전략을 오픈 소스로 공개할 계획입니다. 게다가, 8wh 규모의 훈련 데이터로 훈련된 모델이 나중에 공개될 예정입니다.
음성 변환은 원본 화자의 음성을 유지하면서 대상 화자와 유사하게 변환하는 것을 목표로 합니다. 요즘 음성 변환 기술은 상당한 발전을 이루고 있지만, 다국어 음성 변환(단일 언어 및 교차 언어 시나리오 모두 포함)은 아직 체계적으로 연구되지 않았습니다. 이는 두 가지 주요 도전에 직면하고 있습니다: 1) 언어 간 이성 및 조음 습관의 상당한 변이; 그리고 2) 동일 화자의 다국어 데이터가 부족한 점입니다. 본 논문에서는 MulliVC라는 새로운 음성 변환 시스템을 제안합니다. 이 시스템은 다국어 페어 데이터 없이 음색만 변환하고 원본 콘텐츠와 소스 언어의 이성을 유지합니다. 구체적으로 MulliVC의 각 훈련 단계에는 세 가지 하위 단계가 포함되어 있습니다. 첫 번째 단계에서는 모델이 단일 언어 음성 데이터로 훈련되고, 그 다음 두 번째와 세 번째 단계에서는 역 번역에서 영감을 받아 음색과 다른 정보(콘텐츠, 이성 및 다른 언어 관련 정보)를 다국어 데이터 없이 분리하는 순환 프로세스를 구축합니다. 객관적 및 주관적 결과 모두가 MulliVC가 단일 언어 및 교차 언어 맥락에서 다른 방법들을 크게 능가한다는 것을 보여주며, 이는 시스템의 효과성과 순환 일관성을 갖춘 세 단계 접근 방식의 타당성을 입증합니다. 오디오 샘플은 저희 데모 페이지(mullivc.github.io)에서 확인하실 수 있습니다.
신경망 언어 모델(LMs)은 복잡한 언어 지식을 성공적으로 포착하는 것으로 입증되었습니다. 그러나 언어 습득을 이해하는 데에 대한 그들의 유용성은 여전히 논란 중에 있습니다. 저희는 LMs를 시뮬레이션 학습자로 사용하여 인간들과 실험적 가설을 도출하기 위해 새로운 실험 사례를 제시함으로써 이 논쟁에 기여합니다. 우리는 어린이에게 맞춰진 말을 훈련시킨 LMs를 사용하여 크로스-데이티브 일반화(CDG)를 연구하기 위해 이 패러다임을 적용합니다. CDG는 새로운 동사를 데이티 구성을 통해 생산적으로 일반화하는 것을 의미합니다(그녀가 나에게 공을 던졌다/그녀가 공을 내게 던졌다) -- 이는 맥락적 특징의 많은 공간을 포함하는 것으로 알려져 있습니다. 특히 우리는 "훈련 노출의 어떤 특성이 새로운 동사의 다른 구성으로의 일반화를 용이하게 하는가?"라는 질문을 제기합니다. 이에 대한 대답으로, 우리는 새로운 데이티 동사가 나타나는 노출 맥락의 속성을 주제와 수혜자의 속성을 기준으로 체계적으로 변화시키고, 그 후 LMs가 모델링되지 않은 데이티 구성에서 새로운 동사를 사용하는 방식을 분석합니다. 우리는 LMs가 어린이들의 CDG의 알려진 패턴을 복제하는 것을 발견하며, 새로운 가설을 탐구하기 위한 전제로서의 역할을 합니다. 이어지는 시뮬레이션에서는 새로운 동사의 노출 맥락의 속성이 LMs의 CDG에 미치는 미묘한 역할을 밝혀냅니다. 우리는 CDG가 노출 맥락의 첫 번째 동사 뒤 주어가 대명사이고 명확하며 짧으며 노출 데이티의 전형적인 생명력 기대에 부합할 때 용이해진다는 것을 발견합니다. 이러한 패턴은 데이티에서 조화롭게 정렬된 것으로, 논평가 중요도 척도에서 높은 순위를 차지하는 특징을 가진 주장이 다른 주장 앞에 오는 경향이 있습니다. 이는 노출 맥락의 특성 -- 특히 그 첫 번째 동사 뒤 주어 -- 가 조화롭게 정렬될수록 CDG가 용이해진다는 새로운 가설을 도출합니다. 우리는 이 가설을 어린이들을 대상으로 실험할 수 있는 미래 실험을 제안하며 결론을 내립니다.