번역이 포함된 일일 선별된 AI 연구 논문
XR 기기의 폭넓은 보급으로 고품질 스테레오 영상에 대한 수요가 급증하고 있으나, 여전히 제작 비용이 높고 아티팩트 발생 가능성이 큰 실정입니다. 이러한 문제를 해결하기 위해 본 논문에서는 사전 훈련된 비디오 생성기를 고화질 단안-스테레오 비디오 생성으로 전용(轉用)하는 end-to-end 프레임워크인 StereoWorld를 제안합니다. 우리의 프레임워크는 단안 비디오 입력을 모델에 공동으로 조건화하는 동시에 3D 구조적 정확도를 보장하기 위해 기하학적 인식 정규화를 통해 생성 과정을 명시적으로 지도합니다. 또한 시공간 타일링 기법을 통합하여 효율적인 고해상도 합성이 가능하도록 했습니다. 대규모 학습 및 평가를 위해 자연스러운 인간 동공 간격(IPD)에 정렬된 1,100만 프레임 이상의 고화질 스테레오 비디오 데이터셋을 구축했습니다. 폭넓은 실험을 통해 StereoWorld가 기존 방법을 크게 능가하며 우수한 시각적 충실도와 기하학적 일관성을 지닌 스테레오 영상을 생성함을 입증했습니다. 프로젝트 웹페이지는 https://ke-xing.github.io/StereoWorld/에서 확인할 수 있습니다.
디퓨전 모델의 최근 발전으로 이미지 생성 및 편집 기술이 크게 향상되었으나, 투명 알파 채널을 포함한 계층적 PSD 파일의 생성 또는 재구성은 여전히 매우 어려운 과제로 남아 있습니다. 본 연구에서는 Flux 생태계 기반의 통합 디퓨전 프레임워크인 OmniPSD를 제안합니다. 이 프레임워크는 인-컨텍스트 학습을 통해 텍스트-to-PSD 생성과 이미지-to-PSD 분해를 모두 가능하게 합니다. 텍스트-to-PSD 생성의 경우 OmniPSD는 여러 대상 레이어를 공간적으로 단일 캔버스에 배열하고 공간 어텐션을 통해 이들의 구성 관계를 학습함으로써 의미적으로 일관되고 계층 구조를 가진 레이어를 생성합니다. 이미지-to-PSD 분해의 경우, 단일 평면화된 이미지에서 편집 가능한 PSD 레이어를 재구성하기 위해 반복적인 인-컨텍스트 편집을 수행하여 텍스트 및 전경 요소를 점진적으로 추출하고 제거합니다. 구조 학습에 영향을 주지 않으면서 투명도를 보존하기 위해 RGBA-VAE를 보조 표현 모듈로 활용합니다. 새로 구축한 RGBA 계층 데이터셋을 이용한 폭넓은 실험을 통해 OmniPSD가 높은 정확도의 생성, 구조적 일관성, 투명도 인식을 달성함을 입증하며, 디퓨전 트랜스포머를 이용한 계층적 디자인 생성 및 분해의 새로운 패러다임을 제시합니다.
인간 뇌가 시각적 개념을 어떻게 표현하는지, 그리고 이러한 표현이 어떤 뇌 영역에 인코딩되는지 이해하는 것은 오랜 과제로 남아있다. 수십 년에 걸친 연구를 통해 시각적 표현에 대한 이해는 진전되었으나, 뇌 신호는 여전히 규모가 크고 복잡하며 가능한 시각적 개념의 범위는 방대하다. 그 결과 대부분의 연구는 소규모로 진행되고, 수동 검사에 의존하며, 특정 영역과 속성에 집중하는 경향이 있어 체계적인 검증은 드물게 이루어진다. 본 연구에서는 인간 대뇌 피질 전반에 걸쳐 시각적 표현을 발견하고 설명하기 위한 대규모 자동화 프레임워크를 제시한다. 우리의 방법은 두 가지 주요 단계로 구성된다. 먼저, 비지도 데이터 기반 분해 방법을 통해 fMRI 활동에서 해석 가능한 후보 패턴을 발견한다. 다음으로, 각 패턴을 가장 강하게 유발하는 자연 이미지 집합을 식별하고 이들이 공유하는 시각적 의미에 대한 자연어 설명을 생성하여 각 패턴을 설명한다. 이 과정을 확장하기 위해 여러 후보 설명을 테스트하고 정량적 신뢰도 점수를 부여하며 각 복셀 패턴에 대해 가장 일관된 설명을 선택하는 자동화 파이프라인을 도입한다. 우리의 프레임워크는 이전에 보고되지 않은 세분화된 표현을 포함하여 다양한 시각적 개념에 걸쳐 수천 개의 해석 가능한 패턴을 밝혀낸다.
시각적 개념 구성은 이미지와 동영상의 서로 다른 요소들을 단일한 일관된 시각적 결과물로 통합하는 것을 목표로 하지만, 여전히 시각적 입력에서 복잡한 개념을 정확하게 추출하고 이미지와 동영상의 개념을 유연하게 결합하는 데 한계가 있습니다. 본 연구에서는 시각적 개념을 해당 프롬프트 토큰에 바인딩하고 다양한 소스의 바인딩된 토큰으로 대상 프롬프트를 구성함으로써 유연한 시각적 개념 구성을 가능하게 하는 원샷 방법인 Bind & Compose를 소개합니다. 이 방법은 Diffusion Transformer의 교차 주의 조건화를 위한 계층적 바인더 구조를 채택하여 복잡한 시각적 개념의 정확한 분해를 위해 시각적 개념을 해당 프롬프트 토큰으로 인코딩합니다. 개념-토큰 바인딩 정확도를 향상시키기 위해, 다양화된 프롬프트로 학습할 때 개념과 무관한 세부 사항의 영향을 제거하기 위한 추가 흡수 토큰을 사용하는 다양화 및 흡수 메커니즘을 설계했습니다. 이미지와 동영상 개념 간의 호환성을 강화하기 위해, 시간적 모델링을 위한 이중 분기 바인더 구조로 동영상 개념의 학습 과정을 두 단계로 분리하는 시간적 분리 전략을 제시합니다. 평가 결과, 우리의 방법이 기존 접근법보다 우수한 개념 일관성, 프롬프트 충실도 및 모션 품질을 달성하여 시각적 창의성을 위한 새로운 가능성을 열어줍니다.
우리는 동작 중심 이미지 편집, 즉 주체의 동작과 상호작용을 수정하면서도 정체성, 구조 및 물리적 타당성을 보존하는 과제를 위해 새로운 데이터셋인 MotionEdit을 소개합니다. 기존의 정적 외관 변화에 초점을 맞추거나 희소하고 저품질의 동작 편집만을 포함하는 이미지 편집 데이터셋과 달리, MotionEdit은 연속 비디오에서 추출 및 검증된 현실적인 동작 변형을 묘사하는 고품질 이미지 쌍을 제공합니다. 이 새로운 과제는 과학적으로 도전적일 뿐만 아니라 프레임 제어 비디오 합성 및 애니메이션과 같은 다운스트림 애플리케이션을 지원함으로써 실질적으로 중요한 의미를 가집니다. 이 새로운 과제에서 모델 성능을 평가하기 위해, 우리는 동작 중심 편집에서 모델을 테스트하고 생성적, 판별적, 선호도 기반 지표로 모델 성능을 측정하는 벤치마크인 MotionEdit-Bench를 도입했습니다. 벤치마크 결과는 동작 편집이 기존 최첨단 확산 기반 편집 모델들에게 여전히 매우 어려운 과제로 남아 있음을 보여줍니다. 이 격차를 해결하기 위해 우리는 MotionNFT(Motion-guided Negative-aware Fine Tuning)를 제안합니다. 이는 사후 훈련 프레임워크로, 입력 이미지와 모델이 편집한 이미지 간의 모션 플로우가 실제 모션과 얼마나 잘 일치하는지에 기반하여 모션 정렬 보상을 계산하여 모델이 정확한 동작 변형을 학습하도록 유도합니다. FLUX.1 Kontext 및 Qwen-Image-Edit에 대한 광범위한 실험을 통해 MotionNFT가 일반적인 편집 능력을 희생하지 않으면서 동작 편집 과제에서 두 기본 모델의 편집 품질과 모션 충실도를 지속적으로 향상시킴을 확인하여 그 효과성을 입증했습니다.
체인 오브 쏘트(CoT) 추론은 자연어 처리 분야의 복잡한 과제 해결에 큰 성공을 거두었으며, 최근의 다중 모달 대규모 언어 모델(MLLM)들은 이러한 패러다임을 비디오 추론으로 확장하였습니다. 그러나 이러한 모델들은 일반적으로 긴 추론 체인과 다수의 시각적 입력 토큰에 의존합니다. 본 연구의 벤치마크 분석을 통해 얻은 실증적 관찰에 기반하여, 우리는 간결한 추론과 축소된 시각 토큰 집합의 결합이 효과적인 비디오 추론에 충분할 수 있다는 가설을 세웁니다. 이 가설을 검증하기 위해, 비디오 MLLM의 추론 능력을 향상시키는 효율적인 사후 학습 및 추론 프레임워크를 설계하고 검증합니다. 우리의 프레임워크는 모델이 압축된 시각 토큰으로 동작하고 답변 전에 간략한 추론 과정을 생성하도록 합니다. 그 결과, 해당 모델들은 추론 효율성이 크게 개봉되었으며, 다양한 벤치마크에서 경쟁력 있는 성능을 보였고, 수동 CoT 주석이나 지도 미세 조정에 대한 의존성을 피했습니다. 종합적으로, 우리의 결과는 인간과 유사한 긴 CoT 추론이 일반적인 비디오 추론에 필수적이지 않을 수 있으며, 간결한 추론이 효과적이고 효율적일 수 있음을 시사합니다. 우리의 코드는 https://github.com/LaVi-Lab/Rethink_CoT_Video에서 공개될 예정입니다.
윈도우 어텐션과 선형 어텐션은 Vision-Language Model(VLM)의 이차 복잡도와 지속적으로 증가하는 KV 캐시 문제를 완화하기 위한 두 가지 주요 전략입니다. 그러나 우리는 윈도우 기반 VLM이 시퀀스 길이가 윈도우 크기를 초과할 때 성능 저하를 겪는 반면, 선형 어텐션은 OCR 및 문서 이해와 같은 정보 집약적 작업에서 성능이 떨어진다는 점을 관찰했습니다. 이러한 한계를 극복하기 위해 우리는 슬라이딩 윈도우 어텐션(SWA)과 Gated DeltaNet을 결합한 선형 복잡도 VLM 아키텍처인 InfiniteVL을 제안합니다. 제한된 자원 조건에서 경쟁력 있는 멀티모달 성능을 달성하기 위해 지식 증류 사전 학습, 지시어 튜닝, 장시퀀스 SFT로 구성된 3단계 학습 전략을 설계했습니다. 주류 VLM이 필요로 하는 학습 데이터의 2% 미만을 사용함에도 불구하고, InfiniteVL은 기존 선형 복잡도 VLM을 크게 능가할 뿐만 아니라 선두 Transformer 기반 VLM의 성능에도 필적하면서 효과적인 장기 기억 보유 능력을 입증했습니다. FlashAttention-2로 가속화된 동일 규모 Transformer 기반 VLM과 비교 시, InfiniteVL은 일정한 지연 시간과 메모리 사용량을 유지하면서 3.6배 이상의 추론 속도 향상을 달성했습니다. 스트리밍 비디오 이해 시나리오에서는 장기 기억 캐시를 보존하면서도 안정적인 24 FPS 실시간 프리필 속도를 유지합니다. 코드와 모델은 https://github.com/hustvl/InfiniteVL에서 확인할 수 있습니다.
자율주행(AD) 시스템은 제한된 세계 지식과 취약한 시각적 동역학 모델링으로 인해 롱테일 시나리오에서 어려움을 겪습니다. 기존의 시각-언어-행동(VLA) 기반 방법은 시각적 인과 관계 학습을 위해 레이블이 없는 비디오를 활용할 수 없으며, 세계 모델 기반 방법은 대규모 언어 모델의 추론 능력이 부족합니다. 본 논문에서는 복잡한 시나리오에 대한 추론 및 계획 주석을 제공하는 여러 전문 데이터 세트를 구축합니다. 그런 다음, UniUGP라는 통합 이해-생성-계획 프레임워크를 제안하여 하이브리드 전문가 아키텍처를 통해 장면 추론, 미래 비디오 생성 및 경로 계획을 상호 연동합니다. 사전 학습된 VLM과 비디오 생성 모델을 통합함으로써 UniUGP는 시각적 동역학과 의미론적 추론을 활용하여 계획 성능을 향상시킵니다. 다중 프레임 관측 데이터와 언어 명령을 입력으로 받아 해석 가능한 사고 연쇄 추론, 물리적으로 일관된 궤적, 그리고 일관성 있는 미래 비디오를 생성합니다. 여러 기존 AD 데이터 세트와 제안된 전문 데이터 세트를 통해 이러한 능력을 점진적으로 구축하는 4단계 학습 전략을 도입합니다. 실험 결과, 인식, 추론 및 의사 결정 분야에서 최첨단 성능을 보여주며, 까다로운 롱테일 상황에서도 우수한 일반화 능력을 입증했습니다.
비전-언어-행동(VLA) 모델은 최근 시각 및 언어적 단서를 행동으로 연결함으로써 로봇 매니�레이션을 가능하게 해왔습니다. 그러나 대부분의 VLA 모델은 마르코프 속성을 가정하여 현재 관측값에만 의존함으로써 시간적 근시안성으로 인해 장기적 일관성이 저하되는 문제를 겪습니다. 본 연구에서는 움직임을 시간적 맥락과 세계 역학의 더 간결하고 유익한 표현으로 간주하며, 상태 간 변화를 포착하는 동시에 정적 픽셀 수준의 노이즈를 필터링합니다. 이 아이디어를 바탕으로 우리는 움직임을 활용한 양방향 시간 추론을 위한 통합 프레임워크인 HiF-VLA(Hindsight, Insight, and Foresight for VLAs)를 제안합니다. HiF-VLA는 후향적 사전 지식을 통해 과거 역학을 인코딩하고, 전향적 추론을 통해 미래 움직임을 예측하며, 양자를 후향적 조정 결합 전문가를 통해 통합하여 장기적 매니�레이션을 위한 '행동 중 사고' 패러다임을 가능하게 합니다. 그 결과 HiF-VLA는 LIBERO-Long 및 CALVIN ABC-D 벤치마크에서 강력한 기준 모델들을 능가하며, 추론 지연 시간은 무시할 수준으로 증가하는 데 그쳤습니다. 더 나아가 HiF-VLA는 실제 장기적 매니�이션 작업에서도 상당한 성능 향상을 달성하여 실용적인 로봇 환경에서의 광범위한 효과성을 입증했습니다.
본 논문에서는 단일 이미지로부터 다중 공간 규모에 걸친 콘텐츠를 갖는 3D 장면을 생성하는 새로운 접근법인 WonderZoom을 제안합니다. 기존 3D 세계 생성 모델은 단일 규모 합성에 한정되어 있으며, 다양한 세부 수준에서 일관된 장면 콘텐츠를 생성하지 못합니다. 근본적인难题는 크게 다른 공간 크기를 가진 콘텐츠를 생성 및 렌더링할 수 있는 규모 인식 3D 표현의 부재입니다. WonderZoom은 두 가지 핵심 혁신을 통해 이 문제를 해결합니다: (1) 다중 규모 3D 장면 생성 및 실시간 렌더링을 위한 규모 적응형 가우시안 서펠, (2) 더 미세한 규모의 3D 콘텐츠를 반복적으로 생성하는 점진적 디테일 합성기. 본 접근법을 통해 사용자는 3D 영역으로 "확대"하고, 풍경에서 미시적 특성에 이르기까지 기존에 존재하지 않았던 미세한 디테일을 자기회귀적으로 합성할 수 있습니다. 실험 결과, WonderZoom이 화질과 정렬 측면에서 최첨단 비디오 및 3D 모델을 크게 능가하며, 단일 이미지로부터 다중 규모 3D 세계 생성이 가능함을 입증합니다. 생성된 다중 규모 3D 세계의 비디오 결과 및 인터랙티브 뷰어는 https://wonderzoom.github.io/에서 확인할 수 있습니다.
확산 대형 언어 모델(dLLM)은 자기회귀 모델에 대한 유망한 대안이지만, 느리고 반복적인 샘플링으로 인해 실제 활용도가 크게 제한됩니다. 본 연구에서는 전체 범위 로짓 마진을 집계하고, 원활하며 진행 상황에 따른 신뢰도 임계값에 도달하면 디코딩을 중단하는 학습 불필요 및 모델 독립적인 조기 종료 알고리즘인 SchED를 제안합니다. SchED를 두 가지 dLLM 패밀리(Dream 및 LLaDA)의 기본 및 지시어 튜닝 변형에 대해, 객관식 질의응답(MCQ), 수학, 장문 QA/요약, 번역을 포함한 하위 작업들로 구성된 10개 벤치마크에서 평가했습니다. SchED는 크고 안정적인 가속 효과를 제공합니다: 지시어 튜닝 모델에서는 평균 3.8-4.0배의 속도 향상을 달성하면서 기준 점수의 99.8-100%를 유지했습니다. 기본 모델에서는 99.1-100%의 성능 유지와 함께 일관된 속도 향상 이점을 제공하며, 더 공격적인 설정에서 최대 2.34배의 속도 향상을 보였습니다. 품질 손실에 대해 엄격하게 패널티를 부과(γ=4)하는 보수적인 속도 지표(QPS)를 사용하여 SchED가 강력하며, 장문 생성에서 제대로 작동하지 않는 기존 신뢰도 기반 조기 종료 방법들을 명확히 능가함을 보여줍니다. 모델의 토큰 예측에 대한 엔트로피 분석 결과, 지시어 튜닝이 예측 엔트로피의 감소 속도를 높이는 것으로 나타났습니다. 진정한 신뢰도 안정화를 계산 효율로 전환함으로써, SchED는 dLLM 디코딩을 상당히 더 효율적으로 만듭니다.
지식 편집은 대규모 언어 모델(LLM)의 특정 사실을 전체 재학습 없이 갱신하는 것을 목표로 합니다. 기존 연구들은 LLM의 지식 계층을 조정하는 방식을 탐구하며 선택적 편집의 효과성을 입증해왔습니다. 그러나 통제된 교사 강제 평가에서의 성능과 평생 학습 시나리오에서의 실제 효과성 사이에는 상당한 격차가 존재하며, 이는 실용적 적용 가능성을 크게 제한합니다. 본 연구의 실증적 분석을 통해 이 격차와 관련된 두 가지 반복적인 문제를 확인했습니다: (1) 대부분의 기존 방법은 편집된 모델이 새로운 사실에 과적합되도록 하여 사전 학습된 능력을 저하시킵니다; (2) 지식 통합 단계가 결정적으로 부재하여 새로운 사실이 자동회귀 생성 시 LLM의 추론 단계 행동에 충분히 통합되지 않아, 매개변수화된 지식과 실제 생성 행동 간 불일치가 발생합니다. 이를 위해 우리는 이론적 지식 편집 방법과 실제 적용 가능성 간의 격차를 해소하려는 새로운 지식 편집 패러다임인 Edit-then-Consolidate를 제안합니다. 구체적으로, (1) 우리의 프레임워크는 신뢰 영역 목적 함수를 통해 편집을 지역화하여 정책 이탈을 제한하는 표적 근위 지도 미세 조정(TPSFT)을 통해 과적합을 완화합니다; (2) 이후 그룹 상대 정책 최적화(GRPO)를 사용하는 통합 단계는 포괄적 보상 신호 하에서 궤적 수준 행동을 최적화하여 편집된 지식을 CoT 기반 추론 정책과 정렬시킵니다. 폭넓은 실험을 통해 우리 프레임워크가 실제 평가에서 편집 신뢰성과 일반화를 꾸준히 향상시키면서 지역성과 사전 학습된 능력을 더 잘 보존함을 입증했습니다.
에이전트, 즉 추론, 계획, 행동이 가능한 언어 모델(LM) 기반 시스템은 실생활 AI 애플리케이션의 지배적인 패러다임으로 자리 잡고 있습니다. 이러한 보급에도 불구하고, 그 성능을 결정하는 원칙은 충분히 연구되지 않아 실무자들이 원칙적인 설계 선택보다는 경험적 방법론에 의존해야 하는 상황입니다. 본 연구는 이러한 격차를 해소하기 위해 에이전트 시스템에 대한 정량적 확장 원칙을 도출합니다. 우리는 Finance-Agent, BrowseComp-Plus, PlanCraft, Workbench라는 네 가지 다양한 벤치마크에서 이를 평가했습니다. 세 가지 LLM 계열에 걸쳐 구현된 다섯 가지 주요 아키텍처(단일, 독립, 중앙 집중형, 분산, 하이브리드)를 사용하여 표준화된 도구와 토큰 예산으로 180개 구성에 대한 통제 평가를 수행했습니다. 효율성, 오버헤드, 오류 증폭, 중복성을 포함한 경험적 조정 메트릭을 사용하여 교차 검증된 R²=0.513을 달성하는 예측 모델을 도출했습니다. 우리는 세 가지 주요 효과를 확인했습니다: (1) 도구-조정 상충 관계: 고정된 컴퓨팅 예산 하에서 도구 사용이 많은 작업은 다중 에이전트 오버헤드로 인해 불균형적으로 큰 손실을 입습니다. (2) 능력 포화: 단일 에이전트 기준선이 약 45%를 초과하면 조정을 통한 이익이 체감되거나 오히려 감소합니다(베타=-0.408, p<0.001). (3) 위상에 따른 오류 증폭: 독립 에이전트는 검증되지 않은 전파로 인해 오류를 17.2배 증폭시키는 반면, 중앙 집중형 조정은 이를 4.4배로 억제합니다. 중앙 집중형 조정은 금융 추론과 같은 병렬화 가능한 작업에서 성능을 80.9% 향상시키는 반면, 분산 조정은 동적 웹 탐색에서 뛰어난 성능을 보입니다(+9.2% vs. +0.2%). 그러나 순차적 추론 작업의 경우 모든 다중 에이전트 변형이 성능을 39-70% 저하시켰습니다. 이 프레임워크는 보유된 구성의 87%에 대해 최적의 조정 전략을 예측하며, 측정 가능한 작업 속성에 기반한 에이전트 확장의 예측 원리를 제공합니다.
정적 3D 장면 표현에서 3D 가우시안 스플래팅(3DGS)의 성공을 바탕으로, 일반적으로 4DGS 또는 동적 3DGS라고 불리는 동적 장면으로의 확장이 점점 더 많은 관심을 받고 있습니다. 그러나 동적 3DGS 표현을 위해 더 컴팩트하고 효율적인 변형 기법과 비율-왜곡 최적화 압축 전략을 함께 설계하는 것은 아직 충분히 탐구되지 않은 분야로 남아 있습니다. 기존 방법들은 과도하게 지정되고 수명이 짧은 가우시안 기본 요소를 사용하는 시공간 4DGS에 의존하거나, 명시적인 시간적 제어가 부족한 변형을 가진 표준 3DGS에 의존합니다. 이를 해결하기 위해 우리는 두 방식의 장점을 통합한 비율-왜곡 최적화 4DGS 압축을 위한 시간 활성화 및 임베딩 기반 변형 기법인 TED-4DGS를 제시합니다. TED-4DGS는 희소 앵커 기반 3DGS 표현 위에 구축됩니다. 각 표준 앵커에는 시간에 따른 출현 및 소멸 전환을 지정하기 위해 학습 가능한 시간 활성화 매개변수가 할당되며, 경량의 앵커별 시간 임베딩은 공유 변형 뱅크를 조회하여 앵커별 변형을 생성합니다. 비율-왜곡 압축을 위해, 우리는 앵커 속성 분포를 모델링하기 위해 암묵적 신경망 표현(INR) 기반 하이퍼프라이어를 도입하고, 앵커 내 상관관계를 포착하기 위해 채널 단위 자기회귀 모델을 함께 사용합니다. 이러한 새로운 요소들을 통해 우리의 기법은 여러 실제 데이터셋에서 최첨단 비율-왜곡 성능을 달성합니다. 우리가 알고 있는 한, 이 작업은 동적 3DGS 표현을 위한 비율-왜곡 최적화 압축 프레임워크를 추구한 최초의 시도 중 하나입니다.
확산(대형) 언어 모델(dLLM)은 이제 많은 과제에서 자기회귀 모델과 동등한 하류 작업 성능을 보이면서도 추론 과정에서 더 높은 효율성을 약속하고 있습니다. 특히 성공적인 변종 중 하나는 마스크된 이산 확산으로, 특수 마스크 토큰으로 채워진 버퍼가 점진적으로 모델의 어휘 집합에서 샘플링된 토큰으로 대체되는 방식입니다. 여러 토큰을 병렬로 마스크 해제하면 효율성을 높일 수 있지만, 한 번에 너무 많은 토큰을 처리하면 생성 품질이 저하될 위험이 있습니다. 따라서 dLLM의 중요한 설계 측면은 확산 과정의 각 단계에서 대체할 토큰을 선택하는 샘플링 절차입니다. 실제로 최근 연구에서는 확신도 임계값 설정과 같은 경험적 전략이 무작위 마스크 해제보다更高的 품질과 토큰 처리량을 동시에 달성한다는 사실을 발견했습니다. 그러나 이러한 경험적 방법에는 단점이 있습니다: 수동 조정이 필요하며, 버퍼 크기가 커질수록 성능이 저하된다는 점을 우리는 확인했습니다. 본 연구에서는 대신 강화 학습을 사용하여 샘플링 절차를 훈련하는 방법을 제안합니다. 구체적으로, 우리는 마스크된 확산 샘플링을 dLLM이 환경 역할을 하는 마르코프 결정 과정으로 공식화하고, dLLM 토큰 확신도를 마스크 해제 결정에 매핑하는 단일 계층 트랜스포머 기반의 경량 정책 아키텍처를 제안합니다. 우리의 실험 결과는 이러한 훈련된 정책들이 준-자기회귀 생성과 결합했을 때 최신 경험적 전략의 성능에 필적하며, 완전 확산 설정에서는 이를 능가함을 보여줍니다. 또한 우리는 이러한 정책들의 전이 가능성을 검토한 결과, 새로운 기반 dLLM과 더 긴 시퀀스 길이로 일반화될 수 있음을 확인했습니다. 그러나 해당 정책들을 도메인 외 데이터에 적용하면 성능이 저하되며, 우리의 접근 방식으로는 정확도-효율성 트레이드오프의 미세 조정이 어려울 수 있다는 점도 관찰했습니다.
최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 다양한 벤치마크에서 인상적인 진전이 이루어졌습니다. 그러나 적외선 영상 이해 능력은 아직 탐구되지 않은 상태입니다. 이러한 격차를 해결하기 위해 우리는 적외선 영식에 대한 멀티모달 이해 능력을 평가하기 위해 설계된 최초의 고품질 벤치마크인 IF-Bench를 소개합니다. IF-Bench는 23개의 적외선 데이터셋에서 수집한 499개의 영상과 10가지 핵심 영상 이해 차원을 포괄하는 신중하게 구성된 680개의 시각 질의-응답 쌍으로 구성됩니다. 이를 바탕으로 40개 이상의 오픈소스 및 클로즈드소스 MLLM을 체계적으로 평가하며, 순환 평가, 이중 언어 평가, 혼합 판단 전략을 활용하여 결과의 신뢰성을 높였습니다. 우리의 분석은 모델 규모, 아키텍처, 추론 패러다임이 적외선 영상 이해에 미치는 영향을 밝혀 이 분야에 유용한 통찰을 제공합니다. 나아가 우리는 고급 영상 편집 모델을 활용하여 적외선 영상을 의미론적·공간적으로 정렬된 RGB 영상으로 변환함으로써 도메인 분포 차이를 완화하는 학습이 필요 없는 생성형 시각 프롬프팅(GenViP) 방법을 제안합니다. 폭넓은 실험을 통해 우리의 방법이 다양한 MLLM에 걸쳐 지속적으로 상당한 성능 향상을 가져온다는 것을 입증했습니다. 벤치마크와 코드는 https://github.com/casiatao/IF-Bench에서 이용할 수 있습니다.
자기회귀(AR) 확산 모델은 인과적인 방식으로 프레임을 생성하여 스트리밍 및 대화형 장영상 생성이 가능하지만, 누적 오류, 모션 드리프트 및 내용 반복으로 인해 분 단위 시간 범위에서의 일관성 유지는 여전히 과제로 남아 있습니다. 우리는 이 문제를 메모리 관점에서 접근하며, 비디오 합성을 단기 및 장기 맥락의 조정이 필요한 반복적 역학 과정으로 간주합니다. 본 논문에서는 AR 확산과 하이브리드 상태 공간 메모리를 통합한 장영상 모델인 VideoSSM을 제안합니다. 상태 공간 모델(SSM)은 전체 시퀀스에 걸친 장면 역학의 진화하는 글로벌 메모리 역할을 하며, 컨텍스트 윈도우는 모션 단서와 세부 사항을 위한 로컬 메모리를 제공합니다. 이러한 하이브리드 설계는 고정적이고 반복적인 패턴 없이 글로벌 일관성을 유지하며, 프롬프트 적응형 상호작용을 지원하고, 시퀀스 길이에 선형적으로 확장됩니다. 단기 및 장거리 벤치마크에서의 실험은 특히 분 단위 범위에서 자기회귀 비디오 생성기 중 최첨단의 시간적 일관성과 모션 안정성을 입증하며, 다양한 콘텐츠 생성과 프롬프트 기반 대화형 제어를 가능하게 하여 확장 가능한 메모리 인식 장영상 생성 프레임워크를 정립합니다.
경량 실시간 텍스트-음성 변환 시스템은 접근성 측면에서 매우 중요합니다. 그러나 가장 효율적인 TTS 모델은 종종 문맥 의존적 문제에 취약한 경량 음소 변환기에 의존합니다. 반면, 더 깊은 언어학적 이해를 바탕으로 한 고급 음소 변환기는 일반적으로 높은 계산 비용으로 인해 실시간 성능을 달성하기 어렵습니다. 본 논문은 G2P 기반 TTS 시스템에서 음소 변환 품질과 추론 속도 간의 상관관계를 분석하며, 이러한 격차를 해소하기 위한 실용적인 프레임워크를 소개합니다. 우리는 문맥 인식 음소 변환을 위한 경량화 전략과 이러한 모듈을 독립적인 서비스로 실행하는 서비스 지향 TTS 아키텍처를 제안합니다. 이 설계는 고부하 문맥 인식 구성 요소를 핵심 TTS 엔진에서 분리하여 지연 시간 장벽을 효과적으로 극복하고 고품질 음소 변환 모델의 실시간 사용을 가능하게 합니다. 실험 결과는 제안 시스템이 실시간 응답성을 유지하면서 발음 건전성과 언어적 정확도를 향상시켜 오프라인 및 단말기 TTS 애플리케이션에 매우 적합함을 입증합니다.
강건한 VLM을 위한 강건성과 성능 간의 트레이드오프 문제를 해결하기 위해, 본 연구에서는 기능어(function word)가 VLM의 교차 모달 적대적 공격에 대한 취약성을 유발할 수 있음을 관찰하고, 이에 따라 기능어의 영향을 완화하기 위한 기능어 주의력 감소(Function-word De-Attention, FDA) 기법을 제안합니다. 차동 증폭기와 유사하게, 우리의 FDA는 어텐션 헤드 내에서 원본 교차 주의력과 기능어 교차 주의력을 각각 계산한 후, 전자에서 후자를 차동적으로 제거하여 더 정렬되고 강건한 VLM을 구현합니다. 포괄적인 실험은 2개의 하류 작업, 3개의 데이터셋, 3개의 모델에 대해 6가지 서로 다른 공격 하에서 2개의 SOTA(State-Of-The-Art) 베이스라인을 포함하여 수행되었습니다. 전반적으로, 우리의 FDA는 검색 작업에서 테스트한 3개 모델 각각에 대해 성능 저하가 단지 0.2/0.3/0.6%에 불과함에도 평균 18/13/53%의 공격 성공률(ASR) 감소를 달성했으며, 시각적 기반(visual grounding) 작업에서는 0.3%의 성능 향상과 함께 90%의 ASR 감소를 보였습니다. 우리는 실험을 통해 FDA의 확장성, 일반화 성능 및 제로샷 성능을 입증함과 동시에, 심층적인 애블레이션 연구 및 분석을 제공합니다. 코드는 https://github.com/michaeltian108/FDA에서 공개될 예정입니다.
임상 대화는 자연스러운 대화의 공감적 유창성과 증거 기반 의학의 엄격한 정밀성을 모두 요구하는 복잡한 이중성을 나타냅니다. 대규모 언어 모델은 전례 없는 언어 능력을 보유하고 있지만, 반응형 및 상태 비저장 처리에 대한 구조적 의존성으로 인해 사실적 정확성보다 확률적 타당성을 선호하는 경향이 있습니다. 이러한 구조적 한계는 의료 AI 분야에서 생성형 텍스트 예측에서 능동적 자율성으로의 패러다임 전환을 촉진하였으며, 여기서 모델은 신중한 계획과 지속적 메모리가 가능한 중추적 추론 엔진으로 기능합니다. 하류 응용 프로그램을 주로 분류하는 기존 논평을 넘어, 본 고찰은 이러한 전환을 지탱하는 인지 아키텍처에 대한 원리 기반 분석을 제공합니다. 우리는 지식 출처와 행위 주체성 목표라는 직교 축을 따라 구조화된 새로운 분류 체계를 도입하여 시스템의 운영 범위 대비 임상 지식의 기원을 명확히 합니다. 이 프레임워크는 방법론을 네 가지 원형(잠재 공간 임상의, 창발적 계획자, 접지된 종합자, 검증 가능한 워크플로 자동화 도구)으로 범주화함으로써 창의성과 신뢰성 간의 내재적 트레이드오프에 대한 체계적인 분석을 용이하게 합니다. 각 패러다임에 대해 우리는 전략적 계획, 메모리 관리, 행동 실행, 협업, 진화를 아우르는 전체 인지 파이프라인에 걸친 기술적 구현을 해체하여 상이한 아키텍처 선택이 자율성과 안전성 간의 긴장을 어떻게 균형 있게 조절하는지 밝힙니다.
텍스트-비디오 생성 분야의 최근 발전은 놀라운 현실성을 달성했지만, 카메라 운동 및 방향에 대한 세밀한 제어는 여전히 어려운 과제로 남아 있습니다. 기존 접근법은 일반적으로 상대적이거나 모호한 표현을 통해 카메라 궤적을 인코딩하므로 명시적인 기하학적 제어가 제한됩니다. 본 연구에서는 중력을 전역 기준으로 활용하여 물리적 세계 좌표에 기반한 카메라 제어를 가능하게 하는 GimbalDiffusion 프레임워크를 소개합니다. 우리의 방법은 이전 프레임에 대한 상대적 운동을 설명하는 대신 절대 좌표계에서 카메라 궤적을 정의함으로써 초기 참조 프레임 없이도 카메라 매개변수에 대한 정밀하고 해석 가능한 제어를 허용합니다. 파노라마 360도 비디오를 활용하여 기존 비디오 데이터에서 주로 관찰되는 직선형 전방 주시 궤적을 훨씬 넘어서는 다양한 카메라 궤적을 구축합니다. 또한 카메라 안내를 강화하기 위해, 텍스트 내용과 카메라 사양이 충돌할 때(예: 카메라가 하늘을 향하는 상황에서 잔디 생성) 모델의 텍스트 내용 의존도를 줄이는 주석 전략인 null-pitch conditioning을 도입합니다. 마지막으로, SpatialVID-HQ 데이터셋을 재조정하여 광범위한 카메라 피치 변화 하에서 포괄적인 평가가 가능한 카메라 인식 비디오 생성 벤치마크를 구축합니다. 이러한 기여들을 종합하면 생성 프레임워크 내에서 중력에 정렬된 정밀한 카메라 조작을 가능하게 하여 텍스트-비디오 모델의 제어성과 견고성을 향상시킵니다.
비트코인 채굴 하드웨어 확보는 변동성이 큰 시장 상황, 빠른 기술 노후화, 그리고 프로토콜에 따른 수익 주기로 인해 전략적인 시기 선택이 필요합니다. 채굴이 자본 집약적 산업으로 진화했음에도 불구하고, 새로운 전용 집적 회로(ASIC) 하드웨어를 구매할 적절한 시기에 대한 지침은 거의 없으며, 이 의사결정 문제를 다루는 기존의 컴퓨테이션 프레임워크도 존재하지 않습니다. 본 연구는 하드웨어 확보 문제를 시계열 분류 작업으로 공식화하여 ASIC 장치 구매가 1년 이내에 수익성 있는(투자 수익률(ROI) >= 1), 보통의(0 < ROI < 1), 또는 비수익성(ROI <= 0) 수익을 낼지 예측함으로써 이 격차를 해소하고자 합니다. 우리는 채굴 수익성의 다중 규모 시계열 패턴을 포착하도록 설계된 오픈 소스 Transformer 기반 아키텍처인 MineROI-Net을 제안합니다. 2015년부터 2024년 사이에 출시된 20종의 ASIC 채굴기 데이터를 다양한 시장 상황에서 평가한 결과, MineROI-Net은 LSTM 기반 및 TSLANet 기준 모델을 능가하며 83.7%의 정확도와 83.1%의 macro F1-점수를 달성했습니다. 해당 모델은 비수익 기간 탐지에서 93.6%, 수익 기간 탐지에서 98.5%의 높은 정밀도를 보여주며 수익 시나리오를 비수익으로, 또는 그 반대로 오분류하는 것을 피하는 강력한 경제적 관련성을 입증했습니다. 이러한 결과는 MineROI-Net이 채굴 하드웨어 확보 시기를 결정하는 실용적이고 데이터 기반의 도구를 제공하여 자본 집약적 채굴 운영의 재정적 위험을潜在적으로 줄일 수 있음을 시사합니다. 해당 모델은 https://github.com/AMAAI-Lab/MineROI-Net을 통해 이용 가능합니다.