번역이 포함된 일일 선별된 AI 연구 논문
최근 비디오 오토인코더(Video AEs)의 발전으로 비디오 생성의 품질과 효율이 크게 향상되었습니다. 본 논문에서는 비디오를 두 가지 다른 잠재 공간으로 분리하는 혁신적이고 간결한 비디오 오토인코더 VidTwin을 제안합니다. 이는 전반적인 콘텐츠와 전역적인 움직임을 포착하는 구조 잠재 벡터와 세부적인 세부사항과 빠른 움직임을 나타내는 동역학 잠재 벡터로 비디오를 분해합니다. 구체적으로, 저품질 모션 트렌드를 추출하기 위해 Q-Former를 활용하는 첫 번째 서브모듈이 Encoder-Decoder 백본을 보완하고, 이어서 중복 내용 세부사항을 제거하기 위한 다운샘플링 블록이 사용됩니다. 두 번째 서브모듈은 빠른 움직임을 포착하기 위해 잠재 벡터를 공간 차원을 따라 평균화합니다. 광범위한 실험 결과 VidTwin은 MCL-JCV 데이터셋에서 28.14의 PSNR로 높은 재구성 품질을 달성하면서 0.20%의 높은 압축률을 보여주며, 하류 생성 작업에서 효율적이고 효과적으로 수행됩니다. 더불어, 우리의 모델은 설명 가능성과 확장성을 보여주며, 비디오 잠재 표현 및 생성에 대한 미래 연구를 위한 길을 열어줍니다. 우리의 코드는 https://github.com/microsoft/VidTok/tree/main/vidtwin에서 공개되었습니다.
대규모 언어 모델(LLMs)의 효과적인 사전 훈련은 엄청난 자원 요구와 기술적 과정의 복잡성으로 어려움을 겪어왔습니다. 본 논문은 2.42B 개의 매개변수를 갖춘 높은 성능을 발휘하는 기본 모델인 YuLan-Mini에 대한 자세한 기술 보고서를 제시합니다. 저희의 사전 훈련 접근 방식은 훈련 효율성을 향상시키기 위해 세 가지 핵심 기술 기여에 초점을 맞춥니다: 정교한 데이터 파이프라인은 데이터 정리와 데이터 일정 전략을 결합하며, 훈련 불안정성을 완화하기 위한 견고한 최적화 방법, 그리고 목표 지향적 데이터 선택과 긴 문맥 훈련을 통합한 효과적인 어닐링 접근 방식을 포함합니다. 놀랍게도, 1.08T 토큰으로 훈련된 YuLan-Mini는 훨씬 더 많은 데이터가 필요한 산업 선도 모델과 유사한 성능을 달성합니다. 재현을 용이하게 하기 위해 각 훈련 단계의 데이터 구성에 대한 모든 세부 정보를 공개합니다. 프로젝트 세부 정보는 다음 링크에서 확인할 수 있습니다: https://github.com/RUC-GSAI/YuLan-Mini.
본 연구에서는 큰 언어 모델에서 장기 맥락 처리를 향상시키기 위한 핵심 기반 컨텍스트 압축 방법을 철저히 조사합니다. 우리는 두 가지 주요 질문에 초점을 맞춥니다: (1) 이러한 방법이 완전한 주의 모델을 얼마나 잘 대체할 수 있는가? 그리고 (2) 압축으로 인해 발생하는 잠재적인 실패 패턴은 무엇인가? 광범위한 실험을 통해, 우리는 기본을 기반으로 한 압축이 검색 증강 생성 및 장문 질의응답과 같은 작업에서 거의 손실이 없는 성능을 달성할 수 있지만, 합성 회상과 같은 작업에서 도전에 직면한다는 것을 보여줍니다. 게다가, 우리는 세 가지 주요 실패 패턴을 식별합니다: 경계에서 손실, 놀람이 있으면 손실, 그리고 길을 따라 손실. 이러한 문제를 완화하기 위해, 우리는 두 가지 효과적인 전략을 제안합니다: 세밀한 자동 부호화, 이는 원래 토큰 정보의 재구성을 강화하며, 세그먼트별 토큰 중요도 추정, 이는 토큰 종속성에 기반한 최적화를 조정합니다. 우리의 연구는 기본 토큰 기반 컨텍스트 압축의 이해에 대한 소중한 통찰력을 제공하며, 압축 능력을 향상시키기 위한 실용적인 전략을 제시합니다.
기초 및 시각-언어 모델의 발전과 효과적인 세밀 조정 기술로 다양한 시각 작업을 위해 일반 및 특수 목적 모델이 개발되었습니다. 이러한 모델들의 유연성과 접근성에도 불구하고, 잠재적 사용자가 상상할 수 있는 모든 작업 및/또는 응용 프로그램을 처리할 수 있는 단일 모델은 없습니다. 최근에는 시각 프로그래밍 및 통합 도구를 갖춘 다중모달 LLMs와 같은 접근 방식이 프로그램 합성을 통해 복잡한 시각 작업에 대응하려고 합니다. 그러나 이러한 방식은 사용자 제약 조건(예: 성능/계산 요구 사항)을 간과하며, 배포하기 어려운 테스트 시간 특정 솔루션을 생성하며 때로는 순진한 사용자의 능력을 벗어나는 저수준 지침이 필요할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 MMFactory를 소개합니다. 이는 모델 및 메트릭 라우팅 구성 요소를 포함하는 범용 프레임워크로, 다양한 사용 가능한 모델을 횡단하는 솔루션 검색 엔진처럼 작동합니다. 작업 설명과 몇 가지 입력-출력 쌍 및 (선택적으로) 리소스 및/또는 성능 제약 조건에 따라, MMFactory는 모델 저장소에서 시각-언어 도구를 인스턴스화하고 결합하여 프로그래밍 솔루션의 다양한 풀을 제안할 수 있습니다. 이러한 솔루션을 합성하는 것 외에도 MMFactory는 사용자가 고유한 설계 제약 조건을 충족하는 솔루션을 선택할 수 있도록 성능/리소스 특성을 제안하는 메트릭 및 벤치마크도 제안합니다. 기술적인 측면에서, 우리는 또한 사용자를 위해 실행 가능하고 다양하며 범용적이며 견고한 솔루션을 생성하기 위해 다중 에이전트 LLM 대화를 활용하는 위원회 기반 솔루션 제안자를 소개했습니다. 실험 결과는 MMFactory가 사용자 문제 사양에 맞춘 최첨단 솔루션을 제공하여 기존 방법을 능가한다는 것을 보여줍니다. 프로젝트 페이지는 https://davidhalladay.github.io/mmfactory_demo에서 확인할 수 있습니다.
지난 10년 동안 순차 추천 (SR) 시스템은 전통적인 협업 필터링에서 심층 학습 방법으로, 그리고 더 최근에는 대형 언어 모델 (LLM)로 진화해왔습니다. LLM의 도입으로 상당한 발전이 이루어졌지만, 이러한 모델은 협업 필터링 정보가 부족하며 주로 텍스트 콘텐츠 데이터에 의존하여 다른 모드를 무시하고 최적의 추천 성능을 달성하지 못합니다. 이 한계를 해결하기 위해 우리는 Molar이라는 다중 콘텐츠 모드와 ID 정보를 효과적으로 포착하기 위해 협업 신호를 통합하는 대규모 언어 순차 추천 프레임워크를 제안합니다. Molar은 텍스트 및 비텍스트 데이터에서 통합된 항목 표현을 생성하기 위해 MLLM을 사용하여 포괄적인 다중 모달 모델링을 용이하게 하고 항목 임베딩을 풍부하게 합니다. 또한 콘텐츠 기반 및 ID 기반 모델에서 사용자 표현을 조정하는 후방 정렬 메커니즘을 통해 협업 필터링 신호를 통합하여 정확한 개인화와 견고한 성능을 보장합니다. 다중 모달 콘텐츠를 협업 필터링 통찰력과 원활하게 결합함으로써 Molar은 사용자 관심사와 문맥 의미를 모두 포착하여 우수한 추천 정확도를 제공합니다. 광범위한 실험을 통해 Molar이 전통적인 LLM 기반 기준선을 크게 능가함을 검증하며, 다중 모달 데이터 및 협업 신호를 활용하는 능력을 강조합니다. 소스 코드는 https://anonymous.4open.science/r/Molar-8B06/에서 확인할 수 있습니다.