번역이 포함된 일일 선별된 AI 연구 논문
이미지 확산 모델은 GAN 기반 방법에서 발생하는 과도한 평활화 문제를 해결하기 위해 실제 비디오 초해상도에 적응되었습니다. 그러나 이러한 모델은 정적 이미지에서 훈련되어 시간적 일관성을 유지하는 데 어려움을 겪으며 시간적 동역학을 효과적으로 포착하는 능력이 제한됩니다. 텍스트-비디오(T2V) 모델을 비디오 초해상도에 통합하여 개선된 시간적 모델링을 달성하는 것은 간단합니다. 그러나 실제 환경에서의 복잡한 약화로 인한 아티팩트와 강력한 T2V 모델(e.g., CogVideoX-5B)의 강력한 생성 능력으로 인한 희생된 충실도라는 두 가지 주요 도전 과제가 남아 있습니다. 복원된 비디오의 공간-시간적 품질을 향상시키기 위해, 우리는 실제 비디오 초해상도를 위해 T2V 모델을 활용하는 새로운 방법인 STARS (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution)를 소개합니다. 이 방법은 현실적인 공간 세부 정보와 견고한 시간적 일관성을 달성합니다. 구체적으로, 우리는 전역 주의 블록 이전에 지역 세부 정보 강화 모듈(LIEM)을 도입하여 지역 세부 정보를 풍부하게 하고 약화 아티팩트를 완화합니다. 또한, 확산 단계별로 다양한 주파수 구성 요소에 초점을 맞추도록 모델을 안내하여 충실도를 강화하는 Dynamic Frequency (DF) Loss를 제안합니다. 광범위한 실험 결과 STARS가 합성 및 실제 데이터셋 모두에서 최첨단 방법을 능가한다는 것을 입증합니다.
복잡한 추론에서 o1 모델의 놀라운 성능은 테스트 시간 컴퓨팅 스케일링이 모델의 잠재력을 더욱 발휘할 수 있음을 보여주며 강력한 시스템-2 사고를 가능하게 합니다. 그러나 테스트 시간 컴퓨팅 스케일링에 대한 포괄적인 조사가 아직 부족합니다. 우리는 테스트 시간 컴퓨팅 개념을 시스템-1 모델로 거슬러 올라가봅니다. 시스템-1 모델에서 테스트 시간 컴퓨팅은 분포 변화를 다루고 매개변수 업데이팅, 입력 수정, 표현 편집, 출력 보정을 통해 견고성과 일반화를 향상시킵니다. 시스템-2 모델에서는 반복 샘플링, 자가 수정, 트리 탐색을 통해 복잡한 문제를 해결하기 위해 모델의 추론 능력을 향상시킵니다. 우리는 시스템-1에서 시스템-2 사고로의 추세에 따라 이 조사를 구성하며 시스템-1 모델에서 약한 시스템-2 모델, 그리고 강력한 시스템-2 모델로의 전환에서 테스트 시간 컴퓨팅의 핵심 역할을 강조합니다. 또한 몇 가지 가능한 미래 방향을 지적합니다.
최첨단 대형 언어 모델(LLM)은 분할 정복 파이프라인과 맥락 내 학습(ICL) 예제의 지원을 통해 복잡한 수학 문제를 해결하는 데 유망한 성능을 보여줍니다. 그러나 그들의 개선 가능성은 ICL 예제 내 두 가지 핵심 문제에 의해 제한됩니다: 세분성 불일치와 그로 인한 부정적 영향 잡음 문제. 구체적으로, LLM은 분할 과정을 수행할 수 있지만 대부분의 정복 단계에서 부정확한 추론으로 실패하며, 질문 단위로 검색된 ICL 예제는 때로는 특정 어려운 추론 단계에 대한 관련 단계가 부족합니다. 더 나아가, 이러한 연결 끊김은 관련성 부족으로 인해 올바른 추론을 방해할 수 있습니다. 이에 우리는 각 단계 내에서 추론 품질을 향상시키는 데 초점을 맞추고 BoostStep을 제안합니다. BoostStep은 검색 및 추론 간의 세분성을 조정하고 각 추론 단계에 대해 새로운 '첫 시도' 전략을 사용하여 매우 관련된 ICL 예제를 제공합니다. BoostStep은 거친 질문 단위 전략보다 더 많은 관련 예제를 제공하여 각 단계 내에서 모델 추론 품질을 꾸준히 향상시킵니다. BoostStep은 독립적인 추론 성능을 향상시키는 데 그치지 않고 Monte Carlo Tree Search 방법(MCTS)과 원활하게 통합하여 후보 생성 및 의사 결정을 미세 조정합니다. 양적으로, 다양한 수학적 벤치마크에서 GPT-4o 및 Qwen2.5-Math-72B의 성능을 각각 3.6\% 및 2.0\% 향상시키고, MCTS와 결합하여 7.5\%의 이득을 얻습니다.
비디오 LLM과의 활발한 실시간 상호작용은 사용자 의도를 이해하는 것뿐만 아니라 실시간으로 스트리밍 비디오를 지속적으로 처리하면서 응답하는 새로운 패러다임을 인간-컴퓨터 상호작용에 도입합니다. 오프라인 비디오 LLM과는 달리, 활발한 실시간 상호작용은 질문에 대답하기 전에 전체 비디오를 분석하는 대신 3가지 능력이 필요합니다: 1) 지각: 실시간 비디오 모니터링 및 상호작용 캡처, 2) 결정: 적절한 상황에서 선행적 상호작용 제시, 3) 반응: 사용자와의 지속적인 상호작용. 그러나 원하는 능력 사이에는 내재적인 충돌이 존재합니다. 결정과 반응은 상반되는 지각 척도와 세분성을 필요로 하며, 자기 회귀 디코딩은 반응 중에 실시간 지각과 결정을 방해합니다. 상충되는 능력을 조화롭게 통합하기 위해 우리는 Perception, Decision 및 Reaction을 분리하는 Dispider 시스템을 제안합니다. Dispider는 비디오 스트림을 추적하고 상호작용하기에 최적인 순간을 식별하는 경량 선행적 스트리밍 비디오 처리 모듈을 특징으로 합니다. 상호작용이 트리거되면 비동기 상호작용 모듈이 자세한 응답을 제공하며, 처리 모듈은 동시에 비디오를 계속 모니터링합니다. 우리의 분리 및 비동기식 설계는 적시에, 맥락에 맞게 정확하고 계산 효율적인 응답을 보장하여 Dispider를 장기간 비디오 스트림에 대한 활발한 실시간 상호작용에 이상적으로 만듭니다. 실험 결과, Dispider는 전통적인 비디오 QA 작업에서 강력한 성능을 유지할 뿐만 아니라 스트리밍 시나리오 응답에서 이전 온라인 모델을 크게 능가하여 우리 아키텍처의 효과를 입증합니다. 코드 및 모델은 https://github.com/Mark12Ding/Dispider에서 공개되어 있습니다.
대형 언어 모델(LLMs)이 발전함에 따라, 개인화되고 문맥에 민감한 응답을 제공하는 능력은 사용자 경험을 개선하는 혁신적 잠재력을 제공합니다. 그러나 기존의 개인화 접근법은 종종 프롬프트를 보강하기 위해 사용자 이력에만 의존하여, 특히 희소 데이터로 이루어진 콜드 스타트 시나리오에서 맞춤 출력을 생성하는 데 효과가 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 개인화된 그래프 기반 검색 보강 생성(Personalized Graph-based Retrieval-Augmented Generation, PGraphRAG)을 제안합니다. 이 프레임워크는 사용자 중심의 지식 그래프를 활용하여 개인화를 풍부하게 합니다. 구조화된 사용자 지식을 검색 프로세스에 직접 통합하고 프롬프트를 사용자 관련 문맥으로 보강함으로써, PGraphRAG는 문맥 이해와 출력 품질을 향상시킵니다. 또한 사용자 이력이 희소하거나 없는 실제 환경에서 개인화된 텍스트 생성 작업을 평가하기 위해 설계된 개인화된 그래프 기반 벤치마크를 소개합니다. 실험 결과는 PGraphRAG가 다양한 작업에서 최첨단 개인화 방법을 크게 능가하여, 그래프 기반 검색이 개인화에 대한 독특한 장점을 입증하고 있음을 보여줍니다.
텍스트-비디오 생성 모델은 중요한 발전을 이루어 왔으며, 엔터테인먼트, 광고 및 교육 분야에서 다양한 응용 프로그램을 가능하게 했습니다. 그러나 투명도를 위한 알파 채널을 포함하는 RGBA 비디오를 생성하는 것은 제한된 데이터셋과 기존 모델을 적응시키는 어려움으로 인해 여전히 어려운 과제입니다. 알파 채널은 시각 효과 (VFX)에 중요하며, 연기나 반사물과 같은 투명한 요소가 장면에 매끄럽게 혼합되도록 합니다. 저희는 TransPixar를 소개합니다. 이는 사전 훈련된 비디오 모델을 RGBA 생성으로 확장하는 방법으로, 원래의 RGB 기능을 유지합니다. TransPixar는 확산 트랜스포머 (DiT) 아키텍처를 활용하며, 알파 특정 토큰을 통합하고 LoRA 기반의 세밀한 조정을 사용하여 RGB 및 알파 채널을 높은 일관성으로 동시에 생성합니다. 주의 메커니즘을 최적화함으로써, TransPixar는 원래의 RGB 모델의 강점을 유지하고 훈련 데이터가 제한되더라도 RGB와 알파 채널 간의 강력한 일치를 달성합니다. 저희의 접근 방식은 다양하고 일관된 RGBA 비디오를 효과적으로 생성하여 VFX 및 대화형 콘텐츠 작성의 가능성을 발전시킵니다.
저 정밀도 훈련은 훈련 및 하류 추론 비용을 줄이는 효과적인 전략으로 간주됩니다. 이전 정밀도에 대한 스케일링 법칙은 주로 정수 양자화에 초점을 맞추었으며, 부동 소수점 양자화의 구성 요소에 대해 충분한 주의를 기울이지 않아 이러한 상황에서 LLM 손실에 잘 맞지 않습니다. 반면에, 부동 소수점 양자화 훈련은 보다 일반적으로 제작되지만, 이에 대한 연구는 비교적 피상적입니다. 본 논문에서는 부동 소수점 양자화 대상, 지수 비트, 가수 비트, 그리고 부동 소수점 양자화 훈련의 스케일링 요소의 계산 세분성이 LLM 모델의 성능에 미치는 영향을 철저히 탐구합니다. 정확한 부동 소수점 양자화 통합 스케일링 법칙을 제시하면서, 커뮤니티에 유용한 제언을 제공합니다: (1) 지수 비트가 가수 비트보다 모델 성능에 약간 더 기여합니다. 다양한 비트 수에 대한 최적의 지수-가수 비트 비율을 제시하여 하드웨어 제조업체가 참고할 수 있습니다; (2) 저 정밀도 LLM 훈련에서 중요한 데이터 크기의 형성을 발견했습니다. 중요 데이터 크기를 초과하는 과도한 훈련 데이터는 오히려 LLM 성능의 저하를 가져올 수 있습니다; (3) 최적의 부동 소수점 양자화 정밀도는 계산 능력과 직접적으로 비례하지만, 넓은 계산 능력 범위 내에서 최상의 비용-성능 정밀도는 4-8 비트 사이에 있다고 추정됩니다.
우리는 이미지에서 비디오(이미지에서 비디오) 생성 작업을 고려합니다. 이 작업은 텍스트 설명을 기반으로 정적 이미지를 현실적인 비디오 시퀀스로 변환하는 것을 포함합니다. 최근의 발전은 사실적인 출력물을 생성하지만, 특히 다중 객체 시나리오에서 정확하고 일관된 객체 움직임을 만드는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 이미지에서 비디오 생성을 두 단계로 분해하는 두 단계 합성 프레임워크를 제안합니다: (i) 명시적 중간 표현 생성 단계, 이어서 (ii) 이 표현에 의존하는 비디오 생성 단계. 우리의 주요 혁신은 중간 표현으로 마스크 기반의 움직임 궤적을 도입하는 것입니다. 이는 의미 있는 객체 정보와 움직임을 모두 포착하여 움직임과 의미를 표현하는 표현을 표현합니다. 두 번째 단계에서 학습된 표현을 통합하기 위해 객체 수준의 주의 목표를 활용합니다. 구체적으로, 우리는 공간, 개체별, 마스크된 교차 주의 목표를 고려하며, 개체별 프롬프트를 해당 잠재 공간 영역으로 통합하고, 프레임 간 일관성을 보장하는 마스크된 시공간 자기 주의 목표를 통합합니다. 우리의 방법을 다중 객체 및 고 움직임 시나리오의 어려운 벤치마크에서 평가하고, 제안된 방법이 시간적 일관성, 움직임 현실성 및 텍스트 프롬프트 충실도에서 최첨단 결과를 달성하는 것을 경험적으로 증명합니다. 또한 이미지에서 비디오 생성을 위한 단일 객체 및 다중 객체에 대한 새로운 어려운 벤치마크인 \benchmark를 소개하고, 이 벤치마크에서 우리의 방법의 우수성을 증명합니다. 프로젝트 페이지는 https://guyyariv.github.io/TTM/에서 확인할 수 있습니다.
우리는 METAGENE-1이라고 하는 70억 개 파라미터의 자기회귀 트랜스포머 모델을 사전훈련합니다. 이 모델은 메타게놈 기초 모델로 지칭되며, 1.5조 개 이상의 염기쌍으로 이루어진 다양한 메타게놈 DNA 및 RNA 서열로 구성된 새로운 말뭉치에 대해 사전훈련합니다. 이 데이터셋은 심층 메타게놈(차세대) 시퀀싱 방법을 사용하여 처리 및 시퀀싱된 대규모 인간 하수 샘플에서 유래되었습니다. 개별 유전체나 특정 종의 세트에 중점을 둔 유전 모델과는 달리, METAGENE-1의 목표는 이 하수에 존재하는 유전 정보의 전체 분포를 포착하여 전염병 모니터링 및 병원체 탐지와 관련된 작업에 도움을 주는 것입니다. 우리는 메타게놈 서열에 맞게 맞춤화된 바이트 페어 인코딩(BPE) 토큰화를 수행한 후 모델을 사전훈련합니다. 본 논문에서는 먼저 사전훈련 데이터셋, 토큰화 전략 및 모델 아키텍처에 대해 상세히 설명하며, 메타게놈 데이터를 효과적으로 모델링할 수 있도록 하는 고려 사항과 설계 선택 사항을 강조합니다. 그런 다음, 이 메타게놈 데이터셋에서 이 모델을 사전훈련한 결과를 보여주며, 사전훈련 과정에서의 손실, 시스템 메트릭 및 훈련 안정성에 대한 세부 정보를 제공합니다. 마지막으로, 우리는 METAGENE-1의 성능을 증명하여, 유전체 벤치마크 세트 및 인간-병원체 탐지 및 유전 서열 임베딩에 초점을 맞춘 새로운 평가에서 최첨단 결과를 달성함으로써, 전염병 모니터링, 생물 감시 및 신촌 보건 위협의 조기 탐지에 대한 잠재력을 보여줍니다.
자동화된 레드팀은 대형 언어 모델(LLM)에서 취약점을 발견하는 데 중요한 방법으로 자리 잡았습니다. 그러나 대부분의 기존 방법은 고립된 안전 결함에 초점을 맞추어 동적 방어에 적응하고 복잡한 취약점을 효율적으로 발견하는 능력을 제한합니다. 이 문제에 대응하기 위해 우리는 자동으로 공격 전략을 탐색하고 최적화하여 악의적 쿼리를 통해 보안 취약점을 효과적으로 발견하는 Auto-RT라는 강화 학습 프레임워크를 제안합니다. 구체적으로, 우리는 탐사 복잡성을 줄이고 전략 최적화를 향상시키기 위해 두 가지 핵심 메커니즘을 소개합니다: 1) 조기 종료 탐사는 높은 잠재적인 공격 전략에 초점을 맞춤으로써 탐사를 가속화합니다. 2) 중간 다운그레이드 모델을 사용한 점진적 보상 추적 알고리즘은 성공적인 취약점 이용을 위해 검색 궤적을 동적으로 정제합니다. 다양한 LLM을 대상으로 한 광범위한 실험 결과, Auto-RT는 탐사 효율성을 크게 향상시키고 공격 전략을 자동으로 최적화함으로써 기존 방법에 비해 더 넓은 범위의 취약점을 감지하며 빠른 감지 속도와 16.63% 더 높은 성공률을 달성합니다.
비디오 생성에서 4D 비디오 제어는 중요합니다. 왜냐하면 다중 카메라 촬영 및 돌리 줌과 같은 정교한 렌즈 기술을 사용할 수 있게 하며, 현재의 방법에서는 지원되지 않습니다. 비디오 확산 트랜스포머(DiT)를 직접 4D 콘텐츠를 제어하도록 훈련하는 것은 비용이 많이 드는 다중 뷰 비디오가 필요합니다. 카메라 포즈 및 객체 이동 편집과 같은 다양한 4D 요소에 따라 비디오를 렌더링하는 Monocular Dynamic novel View Synthesis (MDVS)에서 영감을 받아, 우리는 가짜 4D 가우시안 필드를 비디오 생성에 가져왔습니다. 구체적으로, 우리는 밀도 있는 3D 포인트 추적으로 가짜 4D 가우시안 필드를 구성하고 모든 비디오 프레임에 대해 가우시안 필드를 렌더링하는 새로운 프레임워크를 제안합니다. 그런 다음 사전 훈련된 DiT를 세밀한 비디오의 안내에 따라 비디오를 생성하도록 세밀하게 조정합니다. 이를 GS-DiT라고 합니다. GS-DiT의 훈련을 강화하기 위해 우리는 가짜 4D 가우시안 필드 구성을 위한 효율적인 밀도 있는 3D 포인트 추적(D3D-PT) 방법도 제안합니다. 우리의 D3D-PT는 정확성에서 최첨단 희소 3D 포인트 추적 방법인 SpatialTracker를 능가하며 추론 속도를 2차례 가속화합니다. 추론 단계에서 GS-DiT는 현재의 비디오 생성 모델의 중요한 제한 사항을 해결하면서 동일한 동적 콘텐츠로 비디오를 생성할 수 있습니다. GS-DiT는 강력한 일반화 능력을 보여주며 가우시안 스플래팅의 4D 제어성을 카메라 포즈 이상의 비디오 생성으로 확장합니다. 가우시안 필드 및 카메라 내재 파라미터 조작을 통해 고급 시네마틱 효과를 지원하여 창의적인 비디오 제작을 위한 강력한 도구로 작용합니다. 데모는 https://wkbian.github.io/Projects/GS-DiT/에서 확인할 수 있습니다.
확산-소음 패러다임 내에서의 단안 깊이 추정은 높은 일반화 능력을 보이지만 추론 속도가 낮은 단점을 가지고 있습니다. 최근의 방법들은 비교 가능한 성능을 유지하면서 추론 효율성을 향상시키기 위해 단일 단계 결정론적 패러다임을 채택했습니다. 그러나 이러한 방법들은 생성적 및 판별적 특징 간의 간극을 간과하여 최적이 아닌 결과를 초래합니다. 본 연구에서는 생성적 특징을 판별적 깊이 추정 작업에 적응시키기 위해 설계된 단일 단계 확산 모델인 DepthMaster를 제안합니다. 먼저, 생성적 특징에 의해 도입된 질감 세부 사항에 대한 과적합을 완화하기 위해 고품질 의미론적 특징을 통합하여 소음 제거 네트워크의 표현 능력을 향상시키는 특징 정렬 모듈을 제안합니다. 둘째, 단일 단계 결정론적 프레임워크 내 세부적인 세부 사항 부족에 대응하기 위해 저주파 구조와 고주파 세부 사항을 적응적으로 균형있게 조절하는 푸리에 강화 모듈을 제안합니다. 두 모듈의 잠재력을 최대한 활용하기 위해 두 단계 학습 전략을 채택합니다. 첫 번째 단계에서는 특징 정렬 모듈을 사용하여 전역 장면 구조를 학습하고, 두 번째 단계에서는 푸리에 강화 모듈을 활용하여 시각적 품질을 향상시킵니다. 이러한 노력을 통해 우리 모델은 다양한 데이터셋을 통해 다른 확산 기반 방법을 능가하는 일반화 및 세부 사항 보존 면에서 최첨단 성능을 달성합니다. 프로젝트 페이지는 https://indu1ge.github.io/DepthMaster_page에서 확인할 수 있습니다.
과정 수준 보상 모델(PRMs)은 중요한 중간 단계가 추론 과정에서 중요한 역할을 하는 복잡한 추론 및 의사 결정 작업에 중요합니다. 언어 모델은 추론 과정 중 다양한 유형의 오류에 취약하기 때문에 PRMs는 현실 세계 시나리오에서 다양한 암시적 오류 유형을 감지하기 위한 세심한 능력을 가져야 합니다. 그러나 현재의 벤치마크는 주로 단계 정확성에 초점을 맞추어 PRMs의 성능을 체계적으로 평가하지 못하고 있습니다. 이러한 공백을 해결하기 위해 PRMs의 세밀한 오류 감지 능력을 평가하기 위해 특별히 설계된 과정 수준 벤치마크인 PRMBench를 소개합니다. PRMBench는 6,216개의 신중히 설계된 문제와 83,456개의 단계 수준 레이블로 구성되어 있으며, 모델을 간단성, 타당성 및 민감도를 포함한 여러 차원에서 평가합니다. 15개 모델에 대한 실험에서 오픈 소스 PRMs와 비포장된 대형 언어 모델을 비평가 모델로 사용하여 현재 PRMs의 중요한 약점을 발견했습니다. 이러한 발견은 과정 수준 평가에 내재된 도전과 미래 연구의 주요 방향을 강조합니다. PRMBench가 PRM 평가 및 개발 연구를 진전시키는 견고한 벤치마크가 될 수 있기를 희망합니다.
다중 점프 도구 사용의 효과적인 평가는 대형 언어 모델 (LLM)의 이해, 추론 및 기능 호출 능력을 분석하는 데 중요합니다. 그러나 신뢰할 수 있는 평가 데이터셋의 부족으로 인해 진전이 더딘 상황입니다. 이를 해결하기 위해 우리는 ToolHop을 제시합니다. 이 데이터셋은 995개의 사용자 쿼리와 3,912개의 관련 도구로 구성되어 있으며, 다중 점프 도구 사용의 엄격한 평가를 위해 특별히 설계되었습니다. ToolHop은 새로운 쿼리 주도형 데이터 구축 방법을 통해 다양한 쿼리, 의미 있는 상호 의존성, 로컬에서 실행 가능한 도구, 자세한 피드백 및 검증 가능한 답변을 보장합니다. 우리는 LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 및 GPT와 같은 다섯 가지 모델 패밀리에서 14개의 LLM을 평가하여, 다중 점프 도구 사용 시나리오를 처리하는 데 중요한 도전에 대해 밝혀냅니다. 선도 모델인 GPT-4o는 49.04%의 정확도를 달성하여, 개선할 여지가 많다는 점을 강조합니다. 추가 분석에서는 다양한 패밀리에 대한 도구 사용 전략의 차이를 밝혀, 보다 효과적인 접근 방법 개발을 지원하는 실질적인 통찰을 제공합니다. 코드와 데이터는 https://huggingface.co/bytedance-research/ToolHop에서 찾을 수 있습니다.
우리는 새로운 Mamba 아키텍처를 활용한 최첨단 자동 음성 인식(ASR) 모델인 Samba ASR을 제안합니다. 이 모델은 인코더와 디코더로서 Mamba 아키텍처를 활용하며 상태 공간 모델(SSM)의 기초 위에 구축되었습니다. 의존성을 포착하기 위해 자가 주의 메커니즘에 의존하는 트랜스포머 기반 ASR 모델과는 달리, Samba ASR은 효율적인 상태 공간 동역학을 사용하여 로컬 및 글로벌 시간 의존성을 효과적으로 모델링하여 현저한 성능 향상을 달성합니다. 입력 길이와 장거리 의존성 처리의 어려움과 같은 트랜스포머의 한계를 해결함으로써 Samba ASR은 우수한 정확도와 효율성을 달성합니다. 실험 결과는 Samba ASR이 다양한 표준 벤치마크에서 기존의 오픈 소스 트랜스포머 기반 ASR 모델을 능가하여 ASR의 새로운 최첨단 기술로 자리매김함을 입증합니다. 벤치마크 데이터셋에 대한 포괄적인 평가는 단어 오류율(WER)에서 상당한 개선을 보여주며, 낮은 자원 상황에서도 경쟁력 있는 성능을 보입니다. 또한 Mamba 아키텍처의 계산 효율성과 매개변수 최적화는 Samba ASR을 다양한 ASR 작업에 대한 확장 가능하고 견고한 솔루션으로 만듭니다. 우리의 기여는 다음과 같습니다: 음성 시퀀스 처리를 위한 SSMs의 우월성을 보여주는 새로운 Samba ASR 아키텍처, 최첨단 성능을 보여주는 공개 벤치마크에 대한 포괄적인 평가, 계산 효율성, 잡음에 대한 견고성 및 시퀀스 일반화에 대한 분석. 이 연구는 효율적이고 정확한 ASR을 위한 트랜스포머 없는 대안으로서 Mamba SSM의 타당성을 강조합니다. 상태 공간 모델링의 진보를 활용하여 Samba ASR은 ASR 성능과 미래 연구를 위한 새로운 기준을 설정합니다.
본 논문은 비디오 생성을 사용자 정의하기 위한 강력한 프레임워크를 제시하며, 다중 특정 신원(ID) 사진을 비디오 확산 Transformer에 통합하는 Ingredients로 불리는 방법을 제안합니다. 일반적으로, 우리의 방법은 세 가지 주요 모듈로 구성됩니다: (i) 각 인간 ID에 대해 전역 및 지역적 관점에서 다재다능하고 정확한 얼굴 특징을 캡처하는 얼굴 추출기; (ii) 얼굴 임베딩을 비디오 확산 Transformer의 이미지 쿼리의 맥락적 공간으로 매핑하는 다중 스케일 프로젝터; (iii) 다중 ID 임베딩을 동적으로 결합하고 해당 공간-시간 영역에 할당하는 ID 라우터. 정교하게 구성된 텍스트-비디오 데이터셋과 다단계 훈련 프로토콜을 활용하여, Ingredients는 사용자 지정 사진을 동적이고 개인화된 비디오 콘텐츠로 변환하는 데 우수한 성능을 보입니다. 질적 평가는 제안된 방법의 장점을 강조하며, 기존 방법과 비교하여 Transformer 기반 아키텍처에서 더 효과적인 생성 비디오 제어 도구로서의 중요한 발전으로 위치시킵니다. 데이터, 코드 및 모델 가중치는 다음에서 공개적으로 이용 가능합니다: https://github.com/feizc/Ingredients.
의사 소통 요구에 있어서 프레젠테이션 슬라이드와 같은 구조화된 시각 자료를 디자인하는 것은 콘텐츠 작성과 시각적 계획 능력이 필수적입니다. 본 연구에서는 자연어 (NL) 지침에서 슬라이드 프레젠테이션을 생성하는 자동화된 슬라이드 생성 과제를 다룹니다. 먼저, 10개 도메인에서 파생된 310개 슬라이드 덱으로부터 7천 개의 훈련 및 585개의 테스트 예제로 이루어진 최초의 슬라이드 생성 벤치마크인 SlidesBench 벤치마크를 소개합니다. SlidesBench는 (i) 대상 슬라이드와의 유사성을 측정하기 위한 참조 기반 평가 및 (ii) 생성된 슬라이드의 디자인 품질을 측정하기 위한 참조 없는 평가를 지원합니다. 다양한 모델을 사용하여 엔드 투 엔드 이미지 생성 및 프로그램 생성 방법을 벤치마킹하고, 프로그래밍 방법이 사용자 상호 작용 가능한 형식의 더 높은 품질의 슬라이드를 생성한다는 결과를 얻었습니다. 프로그램 생성의 성공을 기반으로, 슬라이드 생성을 위한 7천 개의 지시문과 코드로 구성된 쌍으로 훈련된 8B Llama 기반 모델인 AutoPresent를 생성하고, GPT-4o라는 폐쇄 소스 모델과 유사한 결과를 달성했습니다. 모델이 자체 출력을 자가 세밀화하는 작업을 수행하도록 하는 반복적 디자인 세련화를 더 탐구하였고, 이 과정이 슬라이드의 품질을 향상시키는 것을 발견했습니다. 우리의 연구가 구조화된 시각 자료 생성에 대한 미래 연구의 기초를 제공할 것을 희망합니다.
시각 언어 모델(VLMs)의 신속한 발전은 엄격하고 신뢰할 수 있는 평가를 요구한다. 그러나 현재의 시각 질문 응답(VQA) 벤치마크는 종종 개방형 질문에 의존하며, 자연어 응답의 다양성으로 인해 정확한 평가가 어려워진다. 이를 해결하기 위해 우리는 AutoConverter를 소개한다. 이는 개방형 질문을 자동으로 객관식 형식으로 변환하여 객관적인 평가를 가능하게 하며, 비용이 많이 드는 질문 작성 과정을 줄인다. 우리의 실험 결과 AutoConverter는 정확하고 도전적인 객관식 질문을 생성할 수 있으며, VLMs는 이러한 질문에 대해 인간이 작성한 것과 비교하여 일관되게 유사하거나 낮은 정확도를 보여준다. AutoConverter를 사용하여 우리는 20개의 기존 VQA 데이터셋을 통합된 객관식 형식으로 변환하여 총 9,018개의 질문을 포함하는 VMCBench를 구축한다. 우리는 VMCBench에서 33개의 최첨단 VLMs를 철저하게 평가하여 확장 가능하고 일관되며 재현 가능한 VLM 평가의 새로운 기준을 설정한다.
본 논문에서는 비디오 내 임의의 점에 대한 강력하고 정확한 장기 밀도 추적을 위한 혁신적인 프레임워크인 ProTracker를 제안합니다. 우리 방법의 핵심 아이디어는 확률적 통합을 통해 광학 흐름과 의미적 특징으로부터 여러 예측을 정제하여 강력한 단기 및 장기 추적을 하는 것입니다. 구체적으로, 우리는 확률적 방식으로 광학 흐름 추정을 통합하여 각 예측의 가능성을 극대화하여 부드럽고 정확한 궤적을 생성합니다. 가령, 가려짐으로 인해 사라지고 나타나는 어려운 점을 효과적으로 재지정하기 위해 장기적인 특징 대응을 우리의 흐름 예측에 추가하여 연속적인 궤적 생성을 합니다. 광범위한 실험 결과 ProTracker가 비지도 및 자가 감독 접근법 중 최고의 성능을 달성하며, 몇 가지 벤치마크에서 지도 학습 방법을 능가한다는 것을 보여줍니다. 우리의 코드와 모델은 발표 후에 공개될 예정입니다.