번역이 포함된 일일 선별된 AI 연구 논문
최근 로봇학 과제에서 시각-언어-행동(VLA) 모델의 발전에도 불구하고, 이러한 모델은 미처 보지 못한 과제에 대한 일반화 능력이 부족한 등 중요한 문제점을 겪고 있습니다. 이는 성공적인 실행만을 본뜬 행동 복제에 의존하기 때문입니다. 더욱이, 이러한 모델들은 주로 전문가들이 다른 환경에서 수집한 데모를 복제하기 위해 미세 조정되며, 이는 분포 편향을 도입하고 효율성, 안전성, 작업 완료 등과 같은 다양한 조작 목표에 대한 적응성을 제한합니다. 이 간극을 메우기 위해 우리는 GRAPE를 소개합니다: 일반화된 로봇 정책을 선호 정렬을 통해 구현하는 방법. 구체적으로, GRAPE는 VLAs를 궤적 수준에서 정렬하고 성공과 실패 시행으로부터 보상을 암시적으로 모델링하여 다양한 과제에 대한 일반화 능력을 향상시킵니다. 더불어, GRAPE는 복잡한 조작 과제를 독립적인 단계로 분해하고 대형 시각-언어 모델이 제안한 키포인트와 함께 맞춤형 시공간 제약을 통해 선호 모델링을 자동으로 안내합니다. 특히, 이러한 제약 조건은 유연하며 안전성, 효율성 또는 작업 성공과 같은 다양한 목표에 모델을 맞춤화할 수 있습니다. 우리는 GRAPE를 실제 환경과 시뮬레이션 환경에서 다양한 과제에 대해 평가합니다. 실험 결과는 GRAPE가 최신 VLA 모델의 성능을 향상시키며, 도메인 내 및 미처 보지 못한 조작 과제에 대한 성공률을 각각 51.79%와 60.36% 향상시킨다는 것을 보여줍니다. 게다가, GRAPE는 안전성 및 효율성과 같은 다양한 목표에 맞춰질 수 있으며, 충돌률을 44.31% 줄이고 실행 단계 길이를 11.15% 줄일 수 있습니다. 모든 코드, 모델 및 데이터는 https://grape-vla.github.io/에서 제공됩니다.
동영상 깊이 추정은 모노클 동영상 클립을 3D로 끌어올려 각 프레임에서 밀도 있는 깊이를 추론합니다. 대형 기반 모델의 등장과 합성 훈련 데이터의 사용으로 인해 최근에는 단일 이미지 깊이 추정 기술이 발전하면서 동영상 깊이에 대한 관심이 새롭게 불붙었습니다. 그러나 동영상의 각 프레임에 단일 이미지 깊이 추정기를 단순히 적용하는 것은 시간적 연속성을 무시하며 깜박임을 초래할 뿐만 아니라 카메라 움직임으로 인해 깊이 범위에 급격한 변화가 발생할 수 있습니다. 명백하고 원칙적인 해결책은 동영상 기반 모델을 기반으로 구축하는 것이지만, 이러한 모델은 비용이 많이 들고 훈련 및 추론이 불완전하며 고정 길이(짧은) 출력에 대한 스티칭 루틴이 포함되어 있습니다. 우리는 한 걸음 물러나 단일 이미지 잠재 확산 모델(LDM)을 최첨단 동영상 깊이 추정기로 변환하는 방법을 보여줍니다. 우리가 RollingDepth라고 부르는 이 모델은 두 가지 주요 구성 요소를 갖추고 있습니다: (i) 단일 이미지 LDM에서 파생된 다중 프레임 깊이 추정기로 매우 짧은 동영상 스니펫(일반적으로 프레임 삼쌍)을 깊이 스니펫으로 매핑합니다. (ii) 다양한 프레임 속도에서 샘플링된 깊이 스니펫을 일관된 동영상으로 최적으로 조립하는 강력한 최적화 기반 등록 알고리즘입니다. RollingDepth는 수백 프레임의 긴 동영상을 효율적으로 처리하고 전용 동영상 깊이 추정기 및 고성능 단일 프레임 모델보다 더 정확한 깊이 동영상을 제공합니다. 프로젝트 페이지: rollingdepth.github.io.
맥락 학습 (In-context Learning, ICL)은 대규모 언어 모델 (Large Language Models, LLMs)이 정교한 프롬프팅과 고품질 데모를 통해 하류 작업에 대처할 수 있도록 하는 기술이다. 그러나 이 전통적인 ICL 패러다임은 복잡한 수학적 추론 작업에 직면할 때 예제 품질에 대한 과도한 의존과 어려운 시나리오에서의 인간 개입 필요로 인해 한계가 있다. 이러한 한계를 극복하기 위해 본 논문에서는 HiAR-ICL이라는 고수준 자동 추론 패러다임을 제안한다. 이는 ICL에서 맥락의 전통적인 개념을 확장하여 구체적인 예제에서 추상적 사고 패턴에 초점을 맞춘다. HiAR-ICL은 연쇄 구조 패턴을 구성하는 데 필수적인 다섯 가지 원자 추론 액션을 소개한다. 몬테카를로 트리 탐색을 사용하여 추론 경로를 탐색하고 후속 추론을 안내하기 위한 사고 카드를 구성한다. 그런 다음 문제를 적절한 사고 카드와 동적으로 매칭하는 인지 복잡성 프레임워크를 개발한다. 실험 결과는 HiAR-ICL의 효과를 입증하며, Qwen2.5-7B-Instruct를 사용하여 MATH 벤치마크에서 최첨단 정확도(79.6%)를 달성하여 GPT-4o(76.6%)와 Claude 3.5(71.1%)를 능가한다.
최근 몇 년간 일반적인 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급속한 발전이 목격되었습니다. 그러나 과학 분야와 산업 응용 프로그램과 같은 특정 도메인에 대한 일반 MLLMs의 적응은 덜 탐구되어 왔습니다. 본 논문은 데이터 합성, 훈련 파이프라인 및 작업 평가에 초점을 맞춰 MLLMs의 도메인 적응을 체계적으로 조사합니다. (1) 데이터 합성: 오픈 소스 모델을 사용하여 도메인별 이미지 캡션 쌍에서 다양한 시각적 지시 작업을 효과적으로 생성하는 시각적 지시 합성기를 개발합니다. 저희의 합성 작업은 수동 규칙, GPT-4 및 GPT-4V로 생성된 작업을 뛰어넘어 MLLMs의 도메인별 성능을 향상시킵니다. (2) 훈련 파이프라인: 이미지 캡션 쌍에서 시작하여 시각적 지시 작업으로 이어지는 두 단계 훈련은 일반 MLLMs 개발에 일반적으로 채택되지만, 우리는 도메인별 후속 훈련의 작업 다양성을 향상시키기 위해 단일 단계 훈련 파이프라인을 적용합니다. (3) 작업 평가: 생명 과학 및 식품 두 도메인에서 Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B와 같은 다양한 소스 및 규모의 MLLMs를 후속 훈련하고 다양한 도메인별 작업에 대한 MLLM 성능을 평가합니다. MLLM 도메인 적응에 대한 추가 연구를 지원하기 위해 저희는 구현을 오픈 소스로 공개할 예정입니다.
본 기술 보고서는 우리의 최신 주력 대형 언어 모델 (LLM)인 이-라이트닝(Yi-Lightning)을 소개합니다. 이 모델은 특히 중국어, 수학, 코딩, 그리고 어려운 프롬프트와 같은 전문 분야에서 특히 강력한 결과(2위에서 4위)를 달성하여 Chatbot Arena 전체 순위에서 6위를 기록했습니다. 이-라이트닝은 향상된 전문가 혼합(MoE) 아키텍처를 활용하며, 고급 전문가 분할 및 라우팅 메커니즘과 최적화된 KV-캐싱 기술을 결합했습니다. 우리의 개발 과정은 포괄적인 사전 훈련, 지도된 세밀 조정(SFT), 그리고 인간 피드백으로부터의 강화 학습(RLHF)을 포함하며, 다단계 훈련, 합성 데이터 구성, 그리고 보상 모델링을 위한 신중한 전략을 마련했습니다. 더불어, 우리는 RAISE(책임 있는 AI 안전 엔진)이라는 네 가지 구성 요소 프레임워크를 구현하여 사전 훈련, 사후 훈련, 그리고 서비스 단계에서 안전 문제를 해결합니다. 확장 가능한 초고속 컴퓨팅 인프라로 능력을 갖춘 이러한 혁신들은 훈련, 배포, 그리고 추론 비용을 크게 줄이면서 높은 성능 기준을 유지합니다. 공개 학술 벤치마크에서 추가 평가를 거친 결과, 이-라이트닝은 실용적인 응용 프로그램을 위한 더 지능적이고 강력한 AI 시스템 개발을 이끄는 데 있어 최고 수준의 LLM에 대항하는 경쟁력 있는 성능을 보여주었으며, 전통적이고 정적인 벤치마크 결과와 실제 동적인 인간 선호도 사이에 주목할만한 불일치를 관찰했습니다. 이 관찰은 더 지능적이고 강력한 AI 시스템을 위한 개발을 이끄는 데 있어 전통적인 벤치마크의 유용성에 대한 중요한 재평가를 촉발했습니다. 이-라이트닝은 이제 https://platform.lingyiwanwu.com을 통해 우리의 개발자 플랫폼을 통해 이용 가능합니다.
확산 모델은 고품질 이미지, 비디오 및 3D 콘텐츠를 생성하는 강력한 도구로 등장했습니다. CFG와 같은 샘플링 가이드 기술은 품질을 향상시키지만 다양성과 움직임을 줄입니다. Autoguidance는 이러한 문제를 완화하지만 추가 약한 모델 훈련을 필요로 하여 대규모 모델에 대한 실용성을 제한합니다. 본 연구에서는 Spatiotemporal Skip Guidance (STG)를 소개합니다. 이는 트랜스포머 기반 비디오 확산 모델을 향상시키기 위한 간단한 훈련이 필요 없는 샘플링 가이드 방법입니다. STG는 자가 교란을 통해 암시적인 약한 모델을 활용하여 외부 모델이나 추가 훈련이 필요하지 않습니다. 시공간 레이어를 선택적으로 건너뛰어 STG는 다양성이나 동적 정도를 희생하지 않고 샘플 품질을 향상시키기 위해 원본 모델의 정렬된 하향 버전을 생성합니다. 우리의 기여는 다음과 같습니다: (1) 비디오 확산 모델을 위한 효율적이고 성능이 우수한 가이드 기술로서 STG를 소개하는 것, (2) 레이어 건너뛰기를 통해 약한 모델을 시뮬레이션함으로써 보조 모델의 필요성을 제거하는 것, (3) CFG와는 달리 샘플 다양성이나 동역학을 희생하지 않으면서 품질 향상된 가이드를 보장하는 것입니다. 추가 결과는 https://junhahyung.github.io/STGuidance에서 확인할 수 있습니다.
역사적 사고는 인간의 추론에서 중요한 역할을 합니다. 인간은 문제에서 해결책으로의 추론뿐만 아니라 그 반대인 즉, 해결책에서 문제로의 추론도 할 수 있습니다. 이는 종종 전방 및 후방 사고 간의 일관성 확인을 가능하게 하여 전체적인 추론 성능을 향상시킵니다. 대규모 언어 모델(LLMs)이 역사적 사고를 수행할 수 있도록 하기 위해 데이터 증강과 학습 목표로 이루어진 Reverse-Enhanced Thinking(RevThink) 프레임워크를 소개합니다. RevThink에서는 원래 질문, 전방 추론, 후방 질문, 후방 추론으로 구성된 교사 모델에서 구조화된 전방-후방 추론을 수집하여 데이터셋을 증강합니다. 그런 다음 세 가지 목표를 사용하여 작은 학생 모델을 다중 작업 학습 방식으로 훈련합니다: (a) 질문으로부터 전방 추론 생성, (b) 질문으로부터 후방 질문 생성, (c) 후방 질문으로부터 후방 추론 생성. 상식, 수학, 논리 추론을 다루는 12개 데이터셋에서의 실험 결과는 학생 모델의 제로샷 성능 대비 평균 13.53% 향상과 가장 강력한 지식 증류 기준선 대비 6.84% 향상을 보여줍니다. 더불어, 우리의 방법은 샘플 효율성을 나타냅니다 - 훈련 데이터에서 올바른 전방 추론의 10%만 사용하여, 10배 더 많은 전방 추론을 훈련한 표준 파인튜닝 방법을 능가합니다. RevThink은 또한 분포 밖의 보류된 데이터셋에 대한 강력한 일반화 능력을 보여줍니다.
비디오 생성의 기본적인 기반이 되는 확산 모델은 노이즈 제거의 순차적 특성으로 인해 추론 속도가 낮다는 도전을 받고 있습니다. 이전 방법들은 모델 출력을 캐싱하고 재사용하여 균일하게 선택된 타임스텝에서 모델을 가속화했습니다. 그러나 이러한 전략은 모델 출력 간의 차이가 타임스텝마다 균일하지 않다는 사실을 무시하여, 올바른 모델 출력을 캐싱하는 데 어려움을 일으키며, 추론 효율과 시각적 품질 사이의 적절한 균형을 방해합니다. 본 연구에서는 Timestep Embedding Aware Cache (TeaCache)라는 훈련 없이 캐싱하는 접근 방식을 소개합니다. 이 방식은 타임스텝 간 모델 출력의 변동하는 차이를 추정하고 활용합니다. TeaCache는 시간이 많이 소요되는 모델 출력을 직접 사용하는 대신, 모델 출력과 강한 상관 관계를 가지면서 무시할 만한 계산 비용을 발생시키는 모델 입력에 초점을 맞춥니다. TeaCache는 먼저 노이즈가 있는 입력을 타임스텝 임베딩을 사용하여 조절하여 그 차이가 모델 출력의 차이를 더 잘 근사하도록 합니다. 그런 다음 TeaCache는 추정된 차이를 정제하기 위한 재조정 전략을 도입하고 이를 사용하여 출력 캐싱을 지시합니다. 실험 결과, TeaCache는 시각적 품질의 저하가 미미한 (-0.07% Vbench 점수) 상태에서 Open-Sora-Plan 대비 최대 4.41배의 가속을 달성합니다.
대형 언어 모델 (LLM)은 놀라운 능력을 보여주었지만 추론 중에 높은 계산 비용으로 인해 채택이 제한되고 있습니다. 매개 변수 수를 증가시키면 정확도가 향상되지만 최첨단 능력과 실용적인 배포 가능성 사이의 격차도 커집니다. 우리는 Puzzle이라는 프레임워크를 제시합니다. 이 프레임워크는 특정 하드웨어에서 LLM 추론을 가속화하면서 그들의 능력을 보존합니다. 전례 없는 규모의 신경 구조 검색 (NAS)을 혁신적으로 적용하여 Puzzle은 수십 억 개의 매개 변수를 가진 모델을 하드웨어 제약 조건 하에 체계적으로 최적화합니다. 우리의 방법론은 병렬 아키텍처 탐색을 위해 블록별 지식 증류 (BLD)를 활용하고 정확한 제약 조건 최적화를 위해 혼합 정수 프로그래밍을 사용합니다. 우리는 Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)를 통해 우리의 프레임워크의 현실적인 영향을 입증합니다. 이 모델은 Llama-3.1-70B-Instruct에서 파생된 공개적으로 이용 가능한 모델입니다. Nemotron-51B는 98.4%의 원래 모델 능력을 보존하면서 단일 NVIDIA H100 GPU에 맞춰 2.17배의 추론 처리량 가속을 달성합니다. Nemotron-51B는 현재 단일 GPU에서 대형 배치 크기로 추론이 가능한 가장 정확한 언어 모델로서 성능을 발휘합니다. 놀랍게도, 이 변환에는 70B 모델로부터 파생된 모델에 사용된 15조 토큰 대비 단지 450억 훈련 토큰이 필요했습니다. 이는 강력한 모델이 능력의 거의 희생 없이 효율적인 배포를 위해 최적화될 수 있는 새로운 패러다임을 수립하며, 매개 변수 수만이 아닌 추론 성능이 모델 선택을 이끌어야 함을 입증합니다. Nemotron-51B의 공개와 Puzzle 프레임워크의 제시를 통해 우리는 실무자들에게 최첨단 언어 모델링 능력을 상당히 줄인 계산 비용으로 즉시 이용할 수 있게 합니다.
확산 모델은 고품질 이미지를 생성하는 데 능숙합니다. 그러나 학습 중 사용된 해상도에서만 효과적입니다. 축소된 해상도에서의 추론은 반복적인 패턴과 구조적 왜곡을 유발합니다. 고해상도에서의 재학습은 빠르게 제한적이 됩니다. 따라서 기존의 확산 모델이 유연한 테스트 시간 해상도에서 작동할 수 있도록 하는 방법이 매우 바람직합니다. 이전 연구는 빈번한 아티팩트와 큰 지연 오버헤드를 유발하는 문제가 있습니다. 우리는 이러한 문제를 해결하기 위해 두 가지 간단한 모듈을 제안합니다. 우리는 전역 구조 일관성을 향상시키기 위해 푸리에 영역을 활용하는 주파수 변조(FM) 모듈과 이전 연구에서 주로 무시된 지역 텍스처 패턴 일관성을 향상시키는 어텐션 변조(AM) 모듈을 소개합니다. 우리의 방법인 Fam 확산은 어떤 잠재적 확산 모델에도 매끄럽게 통합되며 추가적인 훈련이 필요하지 않습니다. 방대한 질적 결과는 우리의 방법이 구조적 및 지역 아티팩트를 해결하는 데 효과적임을 강조하며, 양적 결과는 최신 기술을 보여줍니다. 또한 우리의 방법은 패치 기반이나 점진적 생성과 같은 일관성 향상을 위한 중복된 추론 트릭을 피함으로써 무시할 수 있는 지연 오버헤드를 유발합니다.
신경 음성 코덱 모델을 사용한 음성의 토큰화는 현대 AI 파이프라인에서 음성의 생성 또는 이해를 위한 중요한 부분으로, 단독 또는 다중 모달 컨텍스트에서 사용됩니다. 기존에는 저 파라미터 수를 가진 아키텍처에 집중하여 강한 귀납 편향을 가진 구성 요소만 사용하는 토큰화 모델이 전통적으로 사용되었습니다. 본 연구에서는 대규모 파라미터 수를 가진 트랜스포머 아키텍처를 이 문제에 적용하고 유연한 유한 스칼라 양자화(FSQ) 기반 병목 현상을 적용함으로써, 초저 비트율인 초당 400 또는 700비트에서 최첨단 음성 품질을 달성할 수 있다는 것을 보여줍니다. 훈련된 모델은 객관적 및 주관적 테스트에서 기존의 기준선을 크게 능가합니다.
최근 비디오 생성 분야의 발전은 비디오 확산 모델에 크게 영향을 받았으며, 카메라 움직임 제어가 시각 맞춤형 시각 콘텐츠 생성에서 중요한 과제로 부상했습니다. 본 논문은 궤적 주의(trajectory attention)를 소개하는데, 이는 세밀한 카메라 움직임 제어를 위해 사용 가능한 픽셀 궤적을 따라 주의를 수행하는 새로운 방법론입니다. 기존 방법들과는 달리 종종 부정확한 출력물을 내거나 시간적 상관관계를 무시하는 것과는 대조적으로, 우리의 방법론은 비디오 생성 과정에 궤적 정보를 자연스럽게 주입하는 강한 귀납 편향을 가지고 있습니다. 중요한 점은, 우리의 방법론은 전통적인 시간 주의와 함께 보조 분기로서 궤적 주의를 모델링합니다. 이 설계는 원래의 시간 주의와 궤적 주의가 시너지를 발휘하도록 하여 정확한 움직임 제어와 새로운 콘텐츠 생성 능력을 보장하며, 궤적이 부분적으로만 사용 가능한 경우에 중요합니다. 이미지와 비디오에 대한 카메라 움직임 제어 실험은 고정밀도와 장거리 일관성이 유지되면서 높은 품질의 생성을 보여줍니다. 더불어, 우리의 방법론이 첫 프레임 안내 비디오 편집과 같은 다른 비디오 움직임 제어 작업으로 확장될 수 있음을 보여주며, 이러한 작업에서 큰 공간 및 시간 범위에서 콘텐츠 일관성을 유지하는 데 뛰어남을 입증합니다.
비디오 데이터의 규모와 복잡성이 증가함에 따라 기존의 트랜스포머 기반 대규모 다중 모달 모델(LMM)과 관련된 메모리 및 계산 요구가 제곱으로 증가하여 긴 비디오 시퀀스를 효율적으로 처리하는 것은 중요한 도전을 제기합니다. 이러한 문제를 해결하기 위해 우리는 어텐션 메커니즘을 대체하는 State Space Models(SSMs)를 Mamba-2 프레임워크 내에 통합한 새로운 아키텍처인 Video-Ma^2mba를 소개합니다. 이를 통해 LMM은 시간 및 메모리 요구 사항 측면에서 선형으로 확장되어 긴 지속 시간 비디오 콘텐츠를 처리할 수 있게 되었습니다. 더불어, 우리는 Multi-Axis Gradient Checkpointing(MA-GC) 방법을 도입하여 메모리 효율성을 향상시켰습니다. 이 방법은 여러 계산 축을 횡단하여 필수 활성화만 유지함으로써 메모리를 전략적으로 관리합니다. 우리의 접근법은 표준 그래디언트 체크포인팅에 비해 메모리 풋프린트를 크게 줄였습니다. 경험적 분석 결과, Video-Ma^2mba는 단일 GPU에서 1 FPS로 수백만 토큰 또는 2시간 이상의 연속된 시퀀스에 해당하는 방대한 비디오 시퀀스를 처리할 수 있음을 보여줍니다. 시간적 동적의 상세한 캡처를 유지함으로써 우리의 모델은 긴 비디오 이해 작업에서 응답의 정확성과 관련성을 향상시키며 기존 프레임워크에 비해 상당한 장점을 보여줍니다.
인간 동작은 본질적으로 연속적이고 동적이며, 생성 모델에 상당한 어려움을 제공합니다. 그들의 우세함에도 불구하고, VQ-VAE와 같은 이산 양자화 방법은 제한된 표현력과 프레임별 잡음 아티팩트와 같은 본질적인 한계로 고통 받습니다. 연속적인 방법은 더 부드럽고 자연스러운 동작을 생성하지만, 고차원 복잡성과 제한된 훈련 데이터로 인해 종종 실패합니다. 이산적인 표현과 연속적인 표현 사이의 "불일치"를 해결하기 위해, 우리는 DisCoRD를 소개합니다: 이산 모션 토큰을 연속적인 모션으로 변환하는 혁신적인 방법으로, 이는 정정된 플로우 디코딩을 통해 이산 모션 토큰을 연속적인 모션으로 해독합니다. 연속적인 공간에서 반복적인 정제 과정을 적용함으로써, DisCoRD는 세밀한 동역학을 포착하고 더 부드럽고 자연스러운 동작을 보장합니다. 이산 기반 프레임워크와 호환되는 우리의 방법은 조건 신호에 대한 충실성을 희생하지 않고 자연스러움을 향상시킵니다. 철저한 평가 결과는 DisCoRD가 HumanML3D에서 0.032의 FID 및 KIT-ML에서 0.169의 성능을 달성한다는 것을 입증합니다. 이러한 결과는 DisCoRD를 이산 효율성과 연속적인 현실감 사이의 간극을 메우는 견고한 솔루션이라고 확고히 합니다. 저희 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://whwjdqls.github.io/discord.github.io/.
수학적 추론 능력은 도구 보조 언어 에이전트를 통해 증가하고 있지만, 방법은 종종 폐쇄 소스나 대규모 모델, 외부 데이터 또는 방대한 프롬프트 엔지니어링에 의존합니다. 본 연구는 MATATA를 소개하는데, 이는 추론, 계획 및 도구 사용을 통해 탭 데이터 문제에 대한 LLM 에이전트를 훈련하기 위한 혁신적이고 비용 효율적인 방법입니다. 점진적 자가 향상 패러다임과 반복적인 약한 지도 학습을 통해, 이는 데이터 프라이버시가 중요한 로컬 호스팅 및 민감한 비즈니스 환경에 특히 적합한 3.8B/8B 소형 언어 모델(SLMs)을 강화합니다. 다양한 데이터셋에 걸쳐 유연하고 재사용 가능한 도구를 활용함으로써, 공유 작업에 걸쳐 효과적인 확장성으로 견고한 성능을 달성합니다. 실험 결과 MATATA는 오픈 소스 모델을 기반으로 한 추론 프레임워크 중 FinQA 및 TAT-QA에서 최첨단 성능을 달성합니다. 더불어, MATATA 모델은 SLMs임에도 불구하고 TabMWP에서 GPT-4 기반 프레임워크와 경쟁합니다.
최근 많은 연구들이 기초적인 텍스트 대 동영상 모델에 3D 카메라 제어를 통합해왔지만, 그 결과로 나타나는 카메라 제어는 종종 부정확하며, 동영상 생성 품질이 저하됩니다. 본 연구에서는 카메라 움직임을 초점으로 한 첫 번째 원칙적인 관점에서 분석하여, 합성 품질을 저해하지 않으면서도 정확한 3D 카메라 조작을 가능하게 하는 통찰력을 발견했습니다. 먼저, 비디오에서 카메라 움직임에 의해 유발된 움직임이 저주파성임을 확인했습니다. 이로 인해 우리는 훈련 및 테스트 포즈 조건 일정을 조정하여 훈련 수렴을 가속화하고 시각 및 움직임 품질을 향상시키는 것을 동기로 삼았습니다. 그런 다음, 무조건적 비디오 확산 트랜스포머의 표현을 조사함으로써, 그들이 내재적으로 카메라 포즈 추정을 수행하고 있음을 발견했으며, 그들의 일부 레이어만이 카메라 정보를 포함하고 있음을 알았습니다. 이로 인해 다른 비디오 기능과의 간섭을 방지하기 위해 일부 아키텍처에 카메라 조건을 주입하는 것을 제안하였고, 이는 훈련 매개변수의 4배 감소, 향상된 훈련 속도 및 10% 더 높은 시각 품질을 이끌어 냈습니다. 마지막으로, 일반적인 카메라 제어 학습 데이터셋을 20,000개의 다양한 동적 비디오와 정지된 카메라로 구성된 선별된 데이터셋으로 보완했습니다. 이는 모델이 카메라와 장면 움직임의 차이를 명확히 하고, 생성된 포즈 조건 비디오의 동적을 향상시키는 데 도움이 되었습니다. 이러한 발견들을 종합하여, 카메라 제어를 통한 생성적 비디오 모델링을 위한 최신 기술 모델인 고급 3D 카메라 제어(AC3D) 아키텍처를 설계했습니다.
우리는 3D 평면의 혁신적이고 일반적인 표현인 AlphaTablets을 소개합니다. AlphaTablets은 연속적인 3D 표면과 정확한 경계를 나타냅니다. 알파 채널을 가진 직사각형으로 3D 평면을 표현함으로써, AlphaTablets은 현재의 2D 및 3D 평면 표현의 장점을 결합하여 3D 평면의 정확하고 일관된 유연한 모델링을 가능하게 합니다. 우리는 AlphaTablets 위에 미분 가능한 래스터화를 유도하여 3D 평면을 이미지로 효율적으로 렌더링하고, 단안 비디오로부터 3D 평면 재구성을 위한 혁신적인 하향식 파이프라인을 제안합니다. 2D 초픽셀과 사전 훈련된 모델로부터 기하학적 단서를 활용하여, 우리는 3D 평면을 AlphaTablets로 초기화하고 미분 렌더링을 통해 최적화합니다. 효과적인 병합 체계가 도입되어 AlphaTablets의 성장과 정제를 용이하게 합니다. 반복적 최적화와 병합을 통해 우리는 단단한 표면과 명확한 경계를 갖춘 완전하고 정확한 3D 평면을 재구성합니다. ScanNet 데이터셋에서의 광범위한 실험은 3D 평면 재구성에서 최첨단 성능을 입증하며, 다양한 응용 프로그램에 대한 일반적인 3D 평면 표현으로서의 AlphaTablets의 큰 잠재력을 강조합니다. 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://hyzcluster.github.io/alphatablets
대규모 신경망을 훈련하는 데는 일반적으로 가속기 간의 그래디언트를 전문화된 고속 인터커넥트를 통해 공유해야 합니다. 주파수 분해와 에너지 압축의 신호 처리 원리를 활용하여, 훈련 중 전체 옵티마이저 상태와 모델 매개변수를 동기화하는 것이 불필요함을 입증합니다. 모멘텀 업데이트를 분리하고 가속기 간 옵티마이저 상태에서 제어된 발산을 허용함으로써, 최신 옵티마이저와 비교하여 향상된 수렴을 달성합니다. 저희는 {De}coupled {Mo}mentum (DeMo)이라는 퓨즈드 옵티마이저와 데이터 병렬 알고리즘을 소개합니다. 이를 통해 가속기 간 통신 요구 사항을 여러 단계 줄여 대규모 신경망을 훈련할 수 있게 되었습니다. 이는 제한된 네트워크 대역폭과 이질적 하드웨어에서도 가능해졌습니다. 우리의 방법은 토폴로지에 구애받지 않으며 아키텍처에 독립적이며, 무시할 만한 계산 및 메모리 오버헤드로 확장 가능한 시계 동기 분산 훈련을 지원합니다. 경험적 결과는 DeMo로 훈련된 모델이 AdamW로 훈련된 동등한 모델의 성능을 뛰어넘거나 맞추는 것을 보여주며, 대규모 기반 모델 사전 훈련 시 고속 인터커넥트가 필요 없어졌음을 보여줍니다. GitHub(https://github.com/bloc97/DeMo)에 공개된 PyTorch 참조 구현이 있습니다.
온라인에서 제공되는 뉴스 이야기의 수가 계속해서 증가함에 따라, 언어와 관계없이 주제별로 분류하는 것이 관련 콘텐츠에 대한 독자들의 접근성을 향상시키는 데 중요해졌습니다. 이러한 도전에 대응하기 위해, 우리는 대규모 언어 모델 (LLMs)을 기반으로 한 교사-학생 프레임워크를 제안하여 수작업 데이터 주석이 필요 없는 합리적 크기의 다국어 뉴스 분류 모델을 개발합니다. 이 프레임워크는 교사 모델로 Generative Pretrained Transformer (GPT) 모델을 활용하여 슬로베니아어, 크로아티아어, 그리스어 및 카탈로니아어의 뉴스 기사를 자동 주석 처리하여 IPTC 미디어 주제 교육 데이터셋을 개발합니다. 교사 모델은 네 언어 모두에서 높은 제로샷 성능을 나타냅니다. 인간 주석자들 간의 일치와 유사한 수준의 결과를 보여줍니다. 매일 수백만 개의 텍스트를 처리해야 하는 계산상의 제약을 완화하기 위해, GPT로 주석 처리된 데이터셋에서 작은 BERT와 유사한 학생 모델을 파인튜닝합니다. 이러한 학생 모델은 교사 모델과 유사한 높은 성능을 달성합니다. 또한, 학생 모델의 성능에 대한 훈련 데이터 크기의 영향을 탐구하고, 그들의 단일 언어, 다국어 및 제로샷 교차 언어 능력을 조사합니다. 연구 결과는 학생 모델이 상대적으로 적은 수의 훈련 인스턴스로 높은 성능을 달성할 수 있으며, 강력한 제로샷 교차 언어 능력을 보여준다는 것을 나타냅니다. 마지막으로, 우리는 최고 성능의 뉴스 주제 분류기를 공개하여 IPTC 미디어 주제 스키마의 최상위 범주를 사용한 다국어 분류를 가능하게 합니다.
최근 연구에서는 확산 모델이 강력한 신경 렌더링 엔진으로 사용될 수 있음을 보여주었는데, 이는 가상 객체를 이미지에 삽입하는 데 활용될 수 있다. 그러나 전형적인 물리 기반 렌더러와 달리, 신경 렌더링 엔진은 종종 원하는 이미지 결과를 개선하거나 개인화하는 데 중요한 조명 설정에 대한 수동 제어 부재로 제한된다. 본 논문에서는 객체 조명을 위해 원하는 그림자를 명시함으로써 정확한 조명 제어가 가능함을 보여준다. 놀랍게도, 사전 훈련된 확산 기반 신경 렌더러에 객체의 그림자만 주입함으로써, 원하는 빛 위치에 따라 객체를 정확하게 음영 처리하고, 객체(및 그 그림자)를 목표 배경 이미지 내에서 적절하게 조화시킬 수 있다는 것을 보여준다. 우리의 방법인 SpotLight는 기존의 신경 렌더링 접근 방식을 활용하며 추가 훈련 없이 조정 가능한 조명 결과를 달성한다. 구체적으로, 우리는 최근 문헌에서 두 가지 신경 렌더러와 함께 그 사용을 시연한다. SpotLight가 기존의 조명 설정을 위해 특별히 설계된 확산 기반 모델을 능가하는 사용자 연구에 의해 확인된 것처럼, 양적 및 인지적으로 우수한 객체 합성 결과를 달성함을 보여준다.
본 연구에서는 비전 트랜스포머를 위한 훈련 노이즈 토큰(TNT) 가지치기를 제안합니다. 우리의 방법은 이산적인 토큰 삭제 조건을 연속적인 가산적 노이즈로 완화하여 훈련 중에 부드러운 최적화를 제공하면서, 배포 환경에서 이산적인 삭제의 계산상 이점을 유지합니다. 우리는 Rate-Distortion 문헌과의 이론적 연결을 제시하고, ViT와 DeiT 아키텍처를 사용하여 ImageNet 데이터셋에서 TNT의 이전 가지치기 방법에 비해 우월성을 입증하는 경험적 평가를 제공합니다.