번역이 포함된 일일 선별된 AI 연구 논문
확산 기반 비디오 생성 기술의 도입으로 최근 오디오 조건부 인간 비디오 생성은 움직임의 자연스러움과 초상 세부 사항의 합성에서 상당한 진전을 이루었습니다. 인간의 움직임을 주도하는 오디오 신호의 제한된 제어로 인해 기존 방법은 종종 보조 공간 신호를 추가하여 움직임을 안정화시키는데, 이는 움직임의 자연스러움과 자유를 저해할 수 있습니다. 본 논문에서는 오디오만을 조건으로 하는 비디오 확산 모델인 Loopy를 제안합니다. 구체적으로, 우리는 클립 간 및 클립 내 시간 모듈 및 오디오-잠재 모듈을 설계하여 모델이 데이터에서 장기간 움직임 정보를 활용하여 자연스러운 움직임 패턴을 학습하고 오디오-초상 움직임 상관 관계를 향상시킬 수 있도록 했습니다. 이 방법은 추론 중 움직임을 제약하기 위해 기존 방법에서 사용되는 수동으로 지정된 공간 움직임 템플릿의 필요성을 제거합니다. 광범위한 실험 결과 Loopy가 최근의 오디오 주도 초상 확산 모델을 능가하여 다양한 시나리오에서 더 생동감 있고 고품질의 결과를 제공함을 보여줍니다.
다중 모달 대형 언어 모델(MLLMs)의 장거리 문맥 기능을 확장하는 것은 비디오 이해, 고해상도 이미지 이해 및 다중 모달 에이전트에 대해 중요하다. 이는 모델 아키텍처, 데이터 구축 및 교육 전략을 포함한 일련의 체계적인 최적화를 필요로 하며, 특히 더 많은 이미지와 높은 계산 비용과 같은 과제에 대한 성능 하락 문제를 해결해야 한다. 본 논문에서는 Mamba와 Transformer 블록의 혼합을 통한 모델 아키텍처를 적응하고, 다중 이미지 사이의 시간적 및 공간적 종속성을 고려한 데이터 구축 방법을 채택하고, 점진적 교육 전략을 활용한다. LongLLaVA(Long-Context Large Language and Vision Assistant)라는 공개된 모델은 효율성과 효과성 사이의 더 나은 균형을 달성한 최초의 하이브리드 MLLM이다. LongLLaVA는 다양한 벤치마크에서 경쟁력 있는 결과를 달성할 뿐만 아니라 높은 처리량과 낮은 메모리 소비를 유지한다. 특히, 단일 A100 80GB GPU에서 거의 천 장의 이미지를 처리할 수 있어 다양한 작업에 대한 유망한 응용 가능성을 보여준다.
현재의 긴 문맥 대형 언어 모델(Large Language Models, LLMs)은 방대한 텍스트를 기반으로 사용자 질문에 대답하는 능력을 인상적으로 보여주고 있지만, 그들의 응답에는 인용이 없어 사용자 확인이 어려워져 신뢰성에 대한 우려가 생기고 있습니다. 이 연구에서는 긴 문맥 LLMs가 세밀한 문장 수준의 인용을 포함한 응답을 생성할 수 있도록 하여 그들의 충실성과 검증 가능성을 향상시키는 것을 목표로 합니다. 우리는 먼저 LongBench-Cite를 소개합니다. 이는 현재 LLMs의 성능을 평가하는 자동화된 벤치마크로, 긴 문맥 질의 응답과 인용(LQAC)에 대한 것으로 상당한 개선 여지를 보여줍니다. 이를 위해 우리는 CoF (Coarse to Fine)를 제안합니다. 이는 오프더셸프 LLMs를 활용하여 자동으로 정확한 문장 수준의 인용을 포함한 긴 문맥 QA 인스턴스를 생성하고, 이 파이프라인을 활용하여 LQAC를 위한 대규모 SFT 데이터셋인 LongCite-45k를 구축합니다. 마지막으로, LongCite-45k 데이터셋을 사용하여 LongCite-8B 및 LongCite-9B를 훈련시킴으로써, 이들이 정확한 응답과 세밀한 문장 수준의 인용을 단일 출력으로 생성할 수 있도록 성공적으로 활성화합니다. LongBench-Cite에서의 평가 결과는 우리의 훈련된 모델이 GPT-4o를 포함한 고급 프로프라이어터리 모델을 능가하는 최첨단 인용 품질을 달성했음을 보여줍니다.
본 논문은 Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) 벤치마크의 강력한 버전인 MMMU-Pro를 소개합니다. MMMU-Pro는 MMMU를 기반으로 한 세 단계 프로세스를 통해 다중 모달 모델의 진정한 이해와 추론 능력을 엄격하게 평가합니다: (1) 텍스트만으로 답변 가능한 질문을 걸러내는 단계, (2) 후보 옵션을 보강하는 단계, (3) 이미지 내에 질문이 포함된 비전만 입력 설정을 도입하는 단계. 이 설정은 AI에게 동시에 "보고"하고 "읽는" 능력을 요구하여 시각적 및 텍스트 정보를 매끄럽게 통합하는 인간의 핵심 인지 기술을 테스트합니다. 결과는 모델 성능이 MMMU에 비해 MMMU-Pro에서 상당히 낮음을 보여줍니다. 모델별로 16.8%에서 26.9% 범위에 이르며, OCR 프롬프트와 Chain of Thought (CoT) 추론의 영향을 탐구했습니다. 결과는 OCR 프롬프트가 거의 영향을 미치지 않는 반면, CoT가 일반적으로 성능을 향상시킨다는 것을 보여줍니다. MMMU-Pro는 실제 시나리오를 밀접하게 모방하고 다중 모달 AI 연구의 가치 있는 방향을 제시하는 보다 엄격한 평가 도구를 제공합니다.
최근 연구들은 언어 모델의 효과적인 사전 학습을 위해 고품질 데이터가 중요하다는 점을 점점 더 입증하고 있습니다. 그러나 "고품질"의 정확한 정의는 아직 탐구되지 않은 상태입니다. 코드 도메인에 초점을 맞춰, 우리는 Arctic-SnowCoder-1.3B를 소개합니다. 이는 555B 토큰을 통해 세 단계의 점진적으로 정제된 데이터를 거친 데이터 효율적인 기본 코드 모델 사전 학습을 한 것입니다. 첫째, 500B의 표준 품질 코드 토큰을 기본 필터링, 중복 제거 및 오염 제거를 거친 후 사전 학습하였으며, 둘째, BERT 스타일 품질 주석기에 의해 선별된 50B의 고품질 토큰을 이용하여 계속된 사전 학습을 진행하였습니다. 이 주석기는 높은 품질의 코드 파일에서 추출된 긍정적 예시를 사용하여 좋은 코드와 무작위 데이터를 구별하도록 훈련되었으며, Magicoder 및 StarCoder2-Instruct로부터의 지시 데이터를 사용하였습니다. 셋째, 두 번째 단계 데이터를 시드로 사용하여 Llama-3.1-70B에 의해 생성된 5B의 합성 데이터를 이용하여 강화된 사전 학습을 하였습니다. 이는 사전 학습을 위해 Magicoder 접근법을 적용한 것입니다. 제한된 데이터셋에서 훈련되었음에도 불구하고, Arctic-SnowCoder는 BigCodeBench에서 최신 기술을 선보이며, 1T 토큰 이상으로 훈련된 유사 규모의 모델들을 능가하여 Phi-1.5-1.3B를 36%로 앞섭니다. 모든 평가 벤치마크에서 Arctic-SnowCoder-1.3B는 1T 토큰으로 사전 학습된 StarCoderBase-3B를 이기고 있습니다. 게다가, 이는 수조 토큰으로 훈련된 주요 소규모 기본 코드 모델들의 성능과 일치합니다. 예를 들어, Arctic-SnowCoder-1.3B는 3.3T 토큰 이상으로 사전 학습된 StarCoder2-3B를 HumanEval+에서 앞섰으며, BigCodeBench에서 경쟁력을 유지하고 있습니다. 우리의 평가는 Arctic-SnowCoder의 다양한 설계 선택을 정당화하는 포괄적인 분석을 제시합니다. 가장 중요한 것은 고품질 데이터의 핵심이 하위 응용 프로그램의 분포와 일치하는 것이라는 점을 발견했습니다.
저희는 도움을 주는 로봇 조작을 위한 프레임워크를 제시합니다. 이 프레임워크는 두 가지 주요 도전 과제에 초점을 맞춥니다. 첫째, 특히 인간을 포함한 다중 작업 데이터 수집이 고통스러운 노력을 필요로 하는 일상 생활 시나리오에서 대규모 모델을 효율적으로 조정하여 하류 장면 가용성 이해 작업에 적응하는 것입니다. 둘째, 시각적 가용성 모델을 기반으로 로봇 궤적을 효과적으로 학습하는 것입니다. 첫 번째 도전 과제는 학습 가능한 텍스트 프롬프트를 얼린 비전 모델에 앞부분에 추가하여 다중 작업 시나리오에서 조작 가능성을 예측하기 위한 매개 변수 효율적 프롬프트 튜닝 방법을 사용하여 해결합니다. 그런 다음 우리는 가용성에 따라 안내되는 로봇 궤적을 학습하기 위해 지도된 Flow Matching 방법을 제안합니다. Flow matching은 로봇 시각운동 정책을 무작위 웨이포인트를 흐르게 하여 원하는 로봇 궤적으로 조건부 프로세스로 나타냅니다. 마지막으로, 우리는 일상 생활 활동을 통해 10가지 작업을 수행하는 실제 데이터셋을 소개하여 우리의 프레임워크를 테스트합니다. 우리의 포문트 튜닝 방법은 언어 프롬프터를 사용하여 조작 가능성을 학습하는 데 경쟁력 있는 성능을 달성하고 다른 파인튜닝 프로토콜을 데이터 규모 전반에 걸쳐 능가하면서 매개 변수 효율성을 충족시킵니다. 단일 플로우 매칭 정책으로 다중 작업 로봇 궤적을 학습하는 것은 다른 행동 복제 방법보다 일관되게 더 나은 성능을 보여줍니다, 특히 다중 모달 로봇 액션 분포가 제공될 때. 우리의 프레임워크는 로봇 조작을 위한 가용성 모델 학습과 궤적 생성을 흐름 일치로 통합합니다.
사회과학자들은 지도 학습 없이 문서를 주석 달 수 있는 능력으로 알려진 제로샷 학습 능력을 갖춘 대형 언어 모델을 신속하게 채택했습니다. 그러나 이러한 모델은 연산 요구, 비용 및 종종 독점적인 성격으로 인해 복제 및 공개 과학 표준과 자주 충돌합니다. 본 논문에서는 정치 문서의 제로샷 및 퓨샷 분류를 위한 Political DEBATE(DeBERTa Algorithm for Textual Entailment) 언어 모델을 소개합니다. 이러한 모델은 대형 언어 모델과 비교하여 제로 및 퓨샷 분류에서 우수하거나 더 나은 성능을 보이며, 수십 배 더 효율적이고 완전히 오픈 소스입니다. 이 모델들을 10-25개의 문서를 간단한 무작위 샘플로 학습시킴으로써, 수백 또는 수천 개의 문서로 학습된 지도 분류기 및 복잡하고 공학적으로 설계된 프롬프트를 사용하는 최첨단 생성 모델보다 우수한 성능을 발휘할 수 있습니다. 더불어, 이러한 모델을 학습하는 데 사용된 PolNLI 데이터셋을 공개합니다. 이 데이터셋은 200,000개 이상의 정치 문서로 구성되어 있으며 800개 이상의 분류 작업에 걸쳐 매우 정확한 레이블을 제공합니다.
확산 기반 음성 변환 (VC) 기술인 VoiceGrad와 같은 기술은 발화 품질과 화자 유사성 측면에서 높은 VC 성능으로 인해 관심을 끌었습니다. 그러나, 다단계 역확산에 의한 느린 추론이 주목할 만한 제한 사항입니다. 따라서, 우리는 다수 단계의 확산 기반 VC의 높은 VC 성능을 유지하면서 반복 횟수를 수십 번에서 한 번으로 줄이는 혁신적인 단일 단계 확산 기반 VC인 FastVoiceGrad를 제안합니다. 우리는 생성 적 적대 신경망과 확산 모델의 능력을 활용하면서 샘플링에서 초기 상태를 재고려하는 적대적 조건부 확산 증류 (ACDD)를 사용하여 모델을 얻습니다. 한 번의 어떠한-어떠한 VC의 평가는 FastVoiceGrad가 이전 다단계 확산 기반 VC와 비교하여 뛰어난 VC 성능을 달성하면서 추론 속도를 향상시킨다는 것을 보여줍니다. 오디오 샘플은 다음 링크에서 확인할 수 있습니다: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.