번역이 포함된 일일 선별된 AI 연구 논문
우리는 비디오 생성 모델에 모션 제어 기능을 부여하는 간단하고 확장 가능한 프레임워크인 Wan-Move를 소개합니다. 기존 모션 제어 방법들은 일반적으로 제어 세분화가 거칠고 확장성이 제한되어 실제 활용에 부적합한 결과물을 생성하는 한계를 지니고 있습니다. 우리는 정밀하고 고품질의 모션 제어를 구현하여 이러한 격차를 해소하고자 합니다. 우리의 핵심 아이디어는 비디오 합성을 안내하기 위해 원본 조건 특징을 직접 모션 인식(motion-aware) 상태로 만드는 것입니다. 이를 위해 먼저 객체의 움직임을 조밀한 점 궤적(dense point trajectories)로 표현하여 장면에 대한 세분화된 제어를 가능하게 합니다. 다음으로 이러한 궤적들을 잠재 공간(latent space)에 투영한 후, 첫 번째 프레임의 특징을 각 궤적을 따라 전파하여 각 장면 요소가 어떻게 움직여야 하는지를 알려주는 정렬된 시공간 특징 맵(aligned spatiotemporal feature map)을 생성합니다. 이 특징 맵은 업데이트된 잠재 조건(latent condition) 역할을 하며, Wan-I2V-14B와 같은 기존 이미지-비디오(model-to-video) 모델에 아키텍처 변경 없이 모션 가이드로 자연스럽게 통합됩니다. 이는 별도의 보조 모션 인코더 필요성을 제거하고 기본 모델의 미세 조정(fine-tuning)을 용이하게 하여 확장성을 높입니다. 규모 확장 훈련(scaled training)을 통해 Wan-Move는 생성하는 5초 길이의 480p 비디오의 모션 제어 능력이 사용자 연구 결과에 따르면 Kling 1.5 Pro의 상용 Motion Brush 기능에 필적하는 수준입니다. 포괄적인 평가를 지원하기 위해 우리는 다양한 콘텐츠 범주와 혼합 검증(Hybrid-verified) 주석을 특징으로 하는 엄격하게 구성된 벤치마크 MoveBench를 추가로 설계했습니다. MoveBench는 더 큰 데이터량, 더 긴 비디오 지속 시간, 그리고 고품질의 모션 주석으로 차별화됩니다. MoveBench와 공개 데이터셋을 이용한 폭넓은 실험을 통해 Wan-Move의 뛰어난 모션 품질이 일관되게 입증되었습니다. 코드, 모델 및 벤치마크 데이터는 공개될 예정입니다.
신경 렌더링, 특히 3D 가우시안 스플래팅(3DGS)은 빠르게 발전하며 세계 모델 구축의 핵심 구성 요소로 자리잡았습니다. 그러나 기존 뷰어 솔루션은 여전히 파편화되고 무겁거나 레거시 파이프라인에 제약을 받아 배포 장벽이 높고 동적 콘텐츠 및 생성형 모델에 대한 지원이 제한적입니다. 본 연구에서는 실시간 다양한 가우시안 스플래팅 및 메시 렌더링을 위한 개방형 웹 네이티브 플랫폼인 Visionary를 소개합니다. 프레임 단위 ONNX 추론을 지원하는 효율적인 WebGPU 렌더러를 기반으로 구축된 Visionary는 가벼운 '클릭 한 번으로 실행' 가능한 브라우저 경험을 유지하면서 동적 신경 처리를 가능하게 합니다. 이 플랫폼은 표준 3DGS 렌더링을 지원할 뿐만 아니라 플러그 앤 플레이 알고리즘이 매 프레임마다 가우시안을 생성하거나 업데이트할 수 있도록 하는 표준화된 가우시안 생성기 계약을 도입합니다. 이러한 추론은 순방향 생성형 후처리 적용도 가능하게 합니다. 또한 플랫폼은 기존 웹 애플리케이션에 원활하게 통합할 수 있도록 간결한 TypeScript API를 가진 three.js 라이브러리 플러그인을 제공합니다. 실험 결과, 동일한 3DGS 자산 하에서 Visionary는 GPU 기반 기본 요소 정렬 덕분에 현재 웹 뷰어 대비 우수한 렌더링 효율을 달성합니다. 이 플랫폼은 이미 MLP 기반 3DGS, 4DGS, 신경 아바타, 스타일 변환 또는 향상 네트워크를 포함한 여러 변형을 지원합니다. 브라우저에서 직접 추론과 렌더링을 통합함으로써 Visionary는 3DGS 계열 방법의 재현, 비교 및 배포 장벽을 크게 낮추며 재구성 및 생성 패러다임 모두를 위한 통합 세계 모델 캐리어 역할을 수행합니다.
비디오 얼굴 교체 기술은 영화 및 엔터테인먼트 제작에서 중요한 요소로, 길고 복잡한 비디오 시퀀스에서 높은 정확도와 시간적 일관성을 달성하는 것은 여전히 큰 과제로 남아 있습니다. 최근 참조 기반 이미지 편집 기술의 발전에 영감을 받아, 소스 비디오의 풍부한 시각적 속성을 유사하게 활용하여 비디오 얼굴 교체의 정확도와 시간적 일관성을 모두 향상시킬 수 있는지 탐구합니다. 이러한 통찰을 바탕으로, 본 연구는 비디오 참조 기반 얼굴 교체 모델인 LivingSwap을 최초로 제안합니다. 우리의 접근 방식은 키프레임을 조건 신호로 활용하여 대상 신원을 주입함으로써 유연하고 제어 가능한 편집을 가능하게 합니다. 키프레임 조건 설정과 비디오 참조 안내를 결합함으로써, 모델은 시간적 스티칭을 수행하여 긴 비디오 시퀀스 전반에 걸쳐 안정적인 신원 보존과 높은 정확도의 재구성을 보장합니다. 참조 기반 훈련을 위한 데이터 부족 문제를 해결하기 위해, 우리는 paired 얼굴 교체 데이터셋인 Face2Face를 구축하고 데이터 쌍을 반전시켜 신뢰할 수 있는 ground-truth supervision을 보장합니다. 광범위한 실험을 통해 우리의 방법이 최첨단 결과를 달성하며, 대상 신원을 소스 비디오의 표정, 조명, 동작에 자연스럽게 통합하고 제작 워크플로우에서의 수작업을 크게 줄일 수 있음을 입증합니다. 프로젝트 웹페이지: https://aim-uofa.github.io/LivingSwap
실세계 비디오의 스토리텔링은 종종 여러 샷을 통해 전개됩니다. 이는 불연속적이지만 의미적으로 연결된 클립들이 모여 일관된 서사를 전달하는 방식입니다. 그러나 기존의 다중 샷 비디오 생성(MSV) 방법은 제한된 시간적 윈도우나 단일 키프레임 조건화에 의존하기 때문에 장거리 교차 샷 컨텍스트를 효과적으로 모델링하지 못하며, 이로 인해 복잡한 서사 하에서 성능이 저하됩니다. 본 연구에서는 일관적이고 확장 가능한 서사 생성을 위해 전역적이면서도 간결한 교차 샷 컨텍스트 모델링을 가능하게 하는 OneStory를 제안합니다. OneStory는 MSV를 다음 샷 생성 작업으로 재정의하여 사전 학습된 이미지-비디오(I2V) 모델의 강력한 시각적 조건화를 활용하면서 자기회귀적 샷 합성을 가능하게 합니다. 우리는 두 가지 핵심 모듈을 도입했습니다: 이전 샷들의 정보성 높은 프레임을 기반으로 의미적으로 관련된 전역 메모리를 구성하는 프레임 선택 모듈과, 중요도 가이드 패치화를 수행하여 직접 조건화를 위한 간결한 컨텍스트를 생성하는 적응형 조건기입니다. 또한 실세계 스토리텔링 패턴을 반영하는 참조 캡션을 포함한 고품질 다중 샷 데이터셋을 구축하고, 다음 샷 패러다임 하에서 효과적인 학습 전략을 설계했습니다. 우리가 구축한 60K 데이터셋으로 사전 학습된 I2V 모델을 미세 조정한 OneStory는 텍스트 및 이미지 조건 설정 모두에서 다양하고 복잡한 장면에 걸쳐 최첨단 수준의 서사적 일관성을 달성하며, 제어 가능하고 몰입감 있는 장편 비디오 스토리텔링을 가능하게 합니다.
추론 시점 연산 확장은 대규모 언어 모델(LLM)이 강력한 추론 성능을 달성할 수 있게 했지만, 본질적으로 순차적인 디코딩 방식은 특히 복잡한 작업에서 상당한 지연 시간을 초래합니다. 최근 등장한 적응형 병렬 추론 연구는 문제 해결 과정을 필요에 따라 동시 실행되는 추론 스레드로 분해하여 추론 효율을 향상시키고자 합니다. 그러나 현실적인 작업에서 기존 방법들은 지도 학습 방식의 행동 복제에 국한되거나, 널리 사용되는 순차적 장문 사고 연쇄(CoT) 기준선 대비 정확도가 크게 떨어지는 한계가 있습니다. 또한 많은 방법들이 맞춤형 추론 엔진을 필요로 하여 배포가 복잡해집니다. 본 논문은 적응형 병렬 추론 프레임워크인 ThreadWeaver를 소개합니다. ThreadWeaver는 비교 가능한 크기의 인기 순차 추론 모델들과 동등한 정확도를 유지하면서 추론 지연 시간을 크게 단축합니다. ThreadWeaver의 성능은 세 가지 핵심 혁신에서 비롯됩니다: 1) 지도 미세 조정을 위한 병렬 주석이 포함된 대규모 고품질 CoT 데이터를 생성하는 2단계 병렬 궤적 생성기, 2) 위치 임베딩이나 KV 캐시 수정 없이 기존의 모든 자기회귀 추론 엔진에서 병렬 추론을 가능하게 하는 트라이 기반의 학습-추론 공동 설계, 3) 모델이 정확도와 효과적인 병렬화 사이의 균형을 잡도록 가르치는 병렬화 인식 강화 학습 프레임워크. 6개의 도전적인 수학적 추론 벤치마크에서 Qwen3-8B 기반으로 학습된 ThreadWeaver는 최첨단 순차 추론 모델들과 비견되는 정확도(평균 71.9%, AIME24에서 79.9%)를 달성하면서 토큰 지연 시간 기준 최대 1.53배의 평균 속도 향상을 제공하여 정확도와 효율성 사이의 새로운 파레토 최적점을 수립했습니다.
Video Instance Segmentation(VIS)은 픽셀 수준의 마스크와 시간적 일관성 레이블이라는 이중 요구 사항으로 인해 중요한 어노테이션 과제에 직면해 있습니다. VideoCutLER와 같은 최근의 비지도 학습 방법이 합성 데이터를 통해 광학 흐름 의존성을 제거했지만, 여전히 합성-실제 도메인 간격에 의해 제약을 받습니다. 우리는 품질 주도 자기 훈련을 통해 이 간격을 해소하는 새로운 비지도 학습 프레임워크인 AutoQ-VIS를 제시합니다. 우리의 접근 방식은 가짜 레이블 생성과 자동 품질 평가 사이에 폐쇄형 시스템을 구축하여 합성 비디오에서 실제 비디오로의 점진적 적응을 가능하게 합니다. 실험 결과, YouTubeVIS-2019 검증 세트에서 52.6 AP_{50}의 최첨단 성능을 보여 인간 어노테이션 없이 기존 최고 방법인 VideoCutLER를 4.4% 능가함을 입증했습니다. 이는 비지도 VIS를 위한 품질 인식 자기 훈련의 실현 가능성을 보여줍니다. 코드는 https://github.com/wcbup/AutoQ-VIS 에서 공개할 예정입니다.
현대 대규모 언어 모델은 긴 사고 사슬을 통해 인상적인 추론 능력을 달성하지만, 추론 과정에서 상당한 계산 비용이 발생하며, 이는 성능 대비 비용 효율을 개선하기 위한 기술 개발의 동기가 됩니다. 이러한 기술 중 하나인 예측 디코딩은 빠르지만 부정확한 초안 모델을 활용하여 토큰을 자동회귀적으로 제안한 후, 더 우수한 대상 모델이 이를 병렬로 검증하는 방식으로 추론 속도를 높입니다. 그러나 의미적으로 동등한 단계에서 발생하는 토큰 불일치로 인한 불필요한 기각으로 인해 기존 토큰 수준 예측 디코딩은 추론 과제에서 어려움을 겪습니다. 최근 연구에서는 전체 추론 단위의 승인 또는 기각을 통해 효율성을 향상시키는 단계 수준 의미 검증으로 전환되었으나, 기존 단계 수준 방법론은 여전히 많은 기각된 단계를 재생성하여 개선 효과가 미미하고 소중한 대상 모델 계산 자원을 낭비합니다. 이러한 문제를 해결하기 위해 우리는 초안 모델과 대상 모델 간 상대적 우위에 기반하여 동적으로 생성을 라우팅하는 새로운 단계 수준 예측 생성 프레임워크인 Arbitrage를 제안합니다. 고정된 승인 기준을 적용하는 대신, Arbitrage는 대상 모델이 의미 있게 더 나은 단계를 생성할 가능성을 예측하도록 훈련된 경량 라우터를 사용합니다. 이 라우팅은 항상 더 높은 품질의 단계를 선택하는 이상적인 Arbitrage Oracle을 근사화하여 거의 최적에 가까운 효율성-정확성 균형을 달성합니다. 다양한 수학적 추론 벤치마크에서 Arbitrage는 기존 단계 수준 예측 디코딩 기준선을 지속적으로 능가하며, 동일 정확도 기준으로 추론 지연 시간을 최대 약 2배까지 감소시켰습니다.
신체화 모방 학습은 다양하고 장기적인 로봇 매니휴레이션 데이터의 부족으로 인해 제약을 받습니다. 이 분야의 기존 비디오 생성 모델은 단순한 동작의 짧은 클립 합성에만 그치고 종종 수동으로 정의된 궤적에 의존합니다. 이를 위해 우리는 물리적으로 타당하고 논리적으로 일관된 장기 로봇 매니휴레이션 비디오를 합성하기 위해 설계된 계층적 프레임워크인 MIND-V를 소개합니다. 인지 과학에서 영감을 받은 MIND-V는 세 가지 핵심 구성 요소를 통해 높은 수준의 추론과 픽셀 수준의 합성을 연결합니다: 사전 훈련된 시각-언어 모델을 활용하여 작업 계획을 수립하는 의미론적 추론 허브(SRH), 추상적 지시를 도메인 불변 표현으로 변환하는 행동 의미론적 연결다리(BSB), 조건부 비디오 렌더링을 위한 운동 비디오 생성기(MVG). MIND-V는 장기적 견고성을 향상시키기 위한 테스트 시간 최적화 전략인 단계적 시각적 미래 롤아웃을 사용합니다. 생성된 비디오가 물리 법칙과 일치하도록 하기 위해, 새로운 물리적 예측 일관성(PFC) 보상으로 안내되는 GRPO 강화 학습 사후 훈련 단계를 도입합니다. PFC는 V-JEPA 세계 모델을 활용하여 특징 공간에서 예측된 동적 진화와 실제 동적 진화를 정렬함으로써 물리적 타당성을 강제합니다. MIND-V는 장기 로봇 매니휴레이션 비디오 생성 분야에서 최첨단 성능을 보여주며, 신체화 데이터 합성을 위한 확장 가능하고 제어 가능한 패러다임을 정립합니다.
다중 모달 대규모 언어 모델(MLLMs)은 시각, 청각, 언어 정보를 종합적으로 해석할 것으로 기대되지만, 기존의 비디오 벤치마크는 인간 음성에 대한 세밀한 추론 능력을 거의 평가하지 않습니다. 많은 과업이 시각 정보만으로 해결 가능하거나 음성을 대략적으로만 평가하여, 모델이 누가 말하는지, 무엇을 말하는지, 언제 발생하는지를 정확히 연관 짓는 능력을 파악하는 데 한계가 있습니다. 우리는 실제 세계 비디오에서 화자 중심의 시청각 추론에 초점을 맞춘 3,212개의 객관식 질문으로 구성된 AV-SpeakerBench 벤치마크를 소개합니다. 이 벤치마크의 특징은 다음과 같습니다: (1) 장면이 아닌 화자를 핵심 추론 단위로 삼는 화자 중심 구성; (2) 질문 의미에 시청각 의존성을 내재한 융합 기반 질문 설계; (3) 시간적 정밀성과 크로스 모달 타당성을 보장하는 전문가 기반 주석. 종합적 평가 결과, Gemini 패밀리가 오픈소스 시스템들을 꾸준히 능가했으며, Gemini 2.5 Pro가 가장 우수한 성적을 거두었습니다. 오픈 모델 중에서는 Qwen3-Omni-30B가 Gemini 2.0 Flash에 근접했지만 시각적 인식보다는 약한 시청각 융합 능력으로 인해 Gemini 2.5 Pro에는 크게 뒤처졌습니다. 우리는 AV-SpeakerBench가 향후 다중 모달 시스템의 세밀한 시청각 추론 발전을 위한 엄격한 기반을 마련했다고 믿습니다.
대규모 언어 모델(LLM)의 최근 발전은 강력한 코딩 에이전트를 탄생시켜 코드 어시스턴트가 코드 엔지니어로 진화할 수 있는 계기를 마련했습니다. 그러나 기존 방법론들은 정보 과부하와 LLM의 컨텍스트 병목 현상 사이의 근본적인 충돌로 인해, 과학 논문을 코드로 변환하는 것과 같은 고품질의 문서-코드베이스 합성에 여전히 상당한 어려움을 겪고 있습니다. 본 연구에서는 원칙 기반 정보 흐름 관리를 통해 이러한 문제를 근본적으로 해결하는 완전 자율 프레임워크인 DeepCode를 소개합니다. DeepCode는 저장소 합성을 채널 최적화 문제로 접근하여 유한한 컨텍스트 예산 내에서 작업 관련 신호를 극대화하기 위해 네 가지 정보 연산을 원활하게 조율합니다: 청사진 추출을 통한 소스 압축, 상태 저장 코드 메모리를 활용한 구조화된 인덱싱, 검색 증강 생성 기반 조건부 지식 주입, 그리고 폐쇄형 오류 수정이 그것입니다. PaperBench 벤치마크에 대한 포괄적인 평가 결과, DeepCode는 최첨단 성능을 달성하며 Cursor 및 Claude Code와 같은 주요 상용 에이전트를 결정적으로 능가했을 뿐만 아니라, 특히 핵심 재현 지표에서 최상위 기관의 박사급 인간 전문가를 능가하는 것으로 나타났습니다. 본 연구는 논문 명세를 인간 전문가 수준의 프로덕션급 구현체로 체계적으로 변환함으로써, 연구 평가와 발견을 가속화할 수 있는 자율 과학 재현의 새로운 기초를 마련했습니다.
강화 학습(RL) 후속 훈련은 생성 모델을 인간의 선호도에 맞추는 데 중요하지만, 과도한 계산 비용으로 인해 널리 채택되는 데 주요 장벽으로 남아 있습니다. 본 논문에서는 디노이징 과정을 검색 트리로 재구성하여 훈련 효율을 극적으로 개선하는 새로운 RL 프레임워크인 TreeGRPO를 소개합니다. TreeGRPO는 공유된 초기 노이즈 샘플에서 출발하여 공통 접두사를 효율적으로 재사용하면서 여러 후보 궤적을 생성하기 위해 전략적으로 분기합니다. 이 트리 구조 접근법은 세 가지 주요 이점을 제공합니다: (1) 동일한 훈련 샘플 하에서 더 나은 성능을 달성하는 높은 샘플 효율성, (2) 단계별 이점을 계산하는 보상 역전파를 통한 세분화된 신용 할당으로 궤적 기반 방법의 균일한 신용 할당 한계를 극복, (3) 다중 자식 분기를 통해 순방향 패스당 여러 정책 업데이트를 가능하게 하는 분할 계산. 확산 모델과 흐름 기반 모델 모두에 대한 광범위한 실험을 통해 TreeGRPO가 효율성-보상 트레이드오프 공간에서 우수한 파레토 최적선을 구축하면서 2.4배 빠른 훈련을 달성함을 입증했습니다. 본 방법론은 여러 벤치마크와 보상 모델에서 GRPO 기준선을 지속적으로 능가하며, RL 기반 시각 생성 모델 정렬을 위한 확장 가능하고 효과적인 경로를 제공합니다. 프로젝트 웹사이트는 treegrpo.github.io에서 확인할 수 있습니다.
본 논문은 모듈식 신경망 이미지 신호 처리(ISP) 프레임워크를 제시하며, 이는 RAW 입력을 처리하여 고품질의 디스플레이 참조 이미지를 렌더링한다. 기존 신경망 ISP 설계와 달리, 우리의 방법은 높은 수준의 모듈성을 도입하여 렌더링 과정의 여러 중간 단계에 대한 완전한 제어를 제공한다. 이러한 모듈식 설계는 높은 렌더링 정확도를 달성할 뿐만 아니라 확장성, 디버깅 용이성, 보지 않은 카메라에 대한 일반화 능력, 그리고 다양한 사용자 선호 스타일을 맞출 수 있는 유연성을 향상시킨다. 이 설계의 장점을 입증하기 위해, 우리는 우리의 신경망 ISP를 활용하여 다양한 편집 작업과 사진 스타일을 지원하는 사용자 상호작용형 사진 편집 도구를 구축하였다. 이 도구는 우리 신경망 ISP의 고품질 렌더링을 활용하고 무제한의 사후 편집 가능한 재렌더링을 가능하게 하도록 세심하게 설계되었다. 우리의 방법은 다양한 용량의 변종을 가진 완전 학습 기반 프레임워크로, 전체 파이프라인 기준 보통 크기의 매개변수(~0.5M ~ ~3.9M)를 가지며, 여러 테스트 세트에서 일관되게 경쟁력 있는 정성적 및 정량적 결과를 제공한다. 보충 영상은 다음에서 확인할 수 있다: https://youtu.be/ByhQjQSjxVM
대규모 언어 모델(LLM)은 생성 작업에서 뛰어난 성능을 보이지만, 주류인 자기회귀(AR) 디코딩은 본질적으로 순차적이어서 처리량 병목 현상을 초래합니다. 확산 언어 모델(DLM), 특히 블록 방식 변종은 병렬 생성 및 블록 내 양방향 추론을 가능하게 하지만, 대규모 DLM을 처음부터 학습하는 것은 비용이 많이 들고 성숙한 AR 체크포인트의 지식을 낭비하게 됩니다. 기존의 "적응" 시도는 로짓을 수정하거나 어텐션 마스크를 전체 시퀀스 확산에 무작위로 확장하거나, 단순히 AR 가중치를 블록 확산 방식에 이식하는 데 그쳐 AR의 인과성과 블록 방식의 양방향성 사이의 근본적인 불일치를 해결하지 못했습니다. 우리는 AR을 블록 크기=1인 블록 확산으로 재해석함으로써 적응을 AR에서 블록 확산으로의 패러다임 내 경로로 재정의합니다. 구체적으로, 우리는 다음과 같은 적응 경로를 설계합니다: 컨텍스트-인과적 어텐션 마스크(컨텍스트 내에서는 인과적, 활성 블록 내에서만 양방향), 효율적인 병렬 적응 절차, 데이터 활용도 극대화 및 사전 학습 지식 보존을 위한 보조 AR 손실 함수, 그리고 생성 블록 크기의 점진적 증가입니다. 이 방법론은 마스킹된 블록 확산과 깔끔하게 통합되며 학습-추론 일관성을 유지합니다. 이러한 구성 요소를 바탕으로 개발된 NBDiff-7B(Base 및 Instruct)는 장문 컨텍스트 모델링 및 추론 능력을 계승할 수 있었고, 7B 규모 DLM 중 최고 수준의 성능을 달성하여 일반 지식, 수학, 코드 벤치마크에서 강력한 기준선 대비 상당한 성능 향상을 보여주었습니다. 이러한 결과는 원칙에 기반한 AR-to-블록-확산 적응이 DLM을 처음부터 학습하는 것에 대한 효과적이고 계산 효율적인 대안임을 입증합니다. 코드: https://github.com/YuchuanTian/NBDiff.
동영상으로부터 동적 장면의 복잡한 기하학적 구조와 운동을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 난제로 남아 있습니다. 본 논문은 이 과제를 효율적으로 해결하기 위해 설계된 간단하면서도 강력한 순전파 모델인 D4RT를 소개합니다. D4RT는 통합 트랜스포머 아키텍처를 활용하여 단일 동영상으로부터 깊이, 시공간 대응 관계 및 완전한 카메라 파라미터를 공동으로 추론합니다. 핵심 혁신은 조밀한 프레임별 디코딩의 막대한 계산량과 여러 개의 작업별 디코더를 관리하는 복잡성을 피하는 새로운 쿼리 메커니즘에 있습니다. 우리의 디코딩 인터페이스는 모델이 시공간 상의 임의의 점에 대한 3차원 위치를 독립적이고 유연하게 탐색할 수 있게 합니다. 그 결과 매우 효율적인 학습과 추론을 가능하게 하는 경량이면서도 확장성이 뛰어난 방법을 얻었습니다. 우리의 접근 방식이 다양한 4차원 재구성 작업에서 기존 방법들을 능가하는 새로운 최첨단 성능을 달성함을 보여줍니다. 애니메이션 결과는 프로젝트 웹페이지(https://d4rt-paper.github.io/)를 참조하시기 바랍니다.
최근 대규모 시각-언어 모델(VLM)의 발전으로 시각-언어 항법(VLN)의 일반화 성능이 향상되었지만, 기존 방법론은 대부분 시각-언어 입력을 단기 이산 행동에 직접 매핑하는 종단간 파이프라인에 의존합니다. 이러한 설계 방식은 종종 단편적인 동작을 생성하고, 높은 지연 시간을 초래하며, 동적 장애물 회피와 같은 실제 환경의 과제에 대처하는 데 어려움을 겪습니다. 본 연구에서는 고수준 추론과 저수준 행동 실행을 상호 보완적으로 통합한 최초의 이중 시스템 VLN 기초 모델인 DualVLN을 제안합니다. 시스템 2는 VLM 기반 전역 경로 계획기로, 이미지 기반 추론을 통해 중기 웨이포인트 목표를 예측함으로써 '신중하게 기반을 형성'합니다. 시스템 1은 경량 다중 모드 조건부 디퓨전 트랜스포머 정책으로, 시스템 2로부터의 명시적 픽셀 목표와 잠재 특성을 모두 활용하여 부드럽고 정확한 궤적을 생성함으로써 '신속하게 이동'합니다. 이중 시스템 설계는 복잡하고 동적인 환경에서 강력한 실시간 제어 및 적응형 지역 의사 결정을 가능하게 합니다. 학습을 분리함으로써 VLM은 일반화 성능을 유지하고, 시스템 1은 해석 가능하고 효과적인 지역 항법을 달성합니다. DualVLN은 모든 VLN 벤치마크에서 기존 방법론을 능가하며, 실제 실험을 통해 동적 환경에서의 강건한 장기 경로 계획 및 실시간 적응 능력을 입증했습니다.
파운데이션 에이전트의 현실 환경 추론 및 상호작용 능력이 빠르게 발전하면서 핵심 역량 평가의 중요성이 부각되고 있습니다. 다양한 에이전트 성능 벤치마크가 개발되었으나, 대부분 학술적 설정이나 인위적으로 설계된 시나리오에 집중하여 실제 응용 환경에서 발생하는 과제를 간과하고 있습니다. 이러한 문제를 해결하기 위해 본 연구는 실용성이 높은 현실 세계 설정인 전자상거래 영역에 주목합니다. 이 영역은 다양한 사용자 상호작용, 동적 시장 조건, 실제 의사결정 과정과 직결된 업무를 대규모로 포함합니다. 이에 우리는 현실적인 전자상거래 환경에서 에이전트 성능을 평가하기 위한 종합적 벤치마크인 EcomBench를 소개합니다. EcomBench는 글로벌 주요 전자상거래 생태계에 내재된 실제 사용자 요구를 기반으로 구축되었으며, 명확성, 정확성, 도메인 관련성을 보장하기 위해 전문가에 의해 세심하게 선별 및 주석 처리되었습니다. 본 벤치마크는 전자상거래 시나리오 내 여러 작업 범주를 포괄하며, 심층 정보 검색, 다단계 추론, 크로스소스 지식 통합 등 핵심 역량을 평가하는 세 가지 난이도 수준을 정의합니다. 실제 전자상거래 맥락에 기반한 평가를 통해 EcomBench는 현대 전자상거래 환경에서 에이전트의 실용적 능력을 측정하는 엄격하고 동적인 테스트베드를 제공합니다.
대규모 추론 모델은 복잡한 사고 연쇄를 생성하여 복잡한 작업에서 강력한 성능을 달성하지만, 종종 "과도 사고(overthink)"를 합니다: 정답을 도출할 충분한 정보를 얻은 후에도 오랫동안 추론을 지속하는 것입니다. 이는 추론 시점의 컴퓨팅 자원을 낭비하고 정확도를 저하시킬 수 있습니다. 기존의 조기 중단 시도는 추가 샘플링 및 휴리스틱으로 디코딩을 조작하거나, 보조 검증 모델에 의존하거나, 형식적 보장 없이 사후 분석 파이프라인으로만 작동합니다. 우리는 모델의 자체 은닉 상태 인식을 신뢰도 기반 중단 결정으로 전환하는 온라인 조기 종료 메커니즘인 LYNX를 소개합니다. LYNX는 생성 과정에서 자연스럽게 발생하는 추론 신호(예: "흠", "잠깐")에 종료 결정을 부착하고, 강제 종료에서 얻은 감독 정보를 사용하여 해당 신호 토큰 위치의 은닉 상태에 대해 경량 프로브를 훈련시키며, 결과 점수를 분할 콘포멀 예측(split conformal prediction)으로 래핑하여 조기 종료에 대한 분포 독립적 제어를 획득합니다. 중요한 것은, 우리가 이 프로브를 일반적인 수학 코퍼스에서 한 번 훈련 및 보정한 후 벤치마크, 디코딩 온도, 심지어 비수학적 작업에 걸쳐 변경 없이 재사용한다는 점입니다. 15B에서 32B 파라미터에 이르는 세 가지 모델 패밀리 전체에서, 기본 모델당 단일 수학 훈련 프로브는 강력한 정확도-효율성 트레이드오프를 제공합니다. GSM8K에서 LYNX는 기준선 정확도를 유지하거나 개선하면서 토큰 수를 40-65% 절감합니다; MATH-500에서는 토큰 수를 약 35-60% 줄이면서 정확도를 최대 12점까지 향상시킵니다; AIME 2024에서는 기준선 정확도를 회복하면서 50% 이상의 토큰을 절약합니다; 그리고 비수학 벤치마크인 CommonsenseQA에서는 제로샷 전이로 약간의 정확도 향상과 최대 70%의 토큰 절감 효과를 보입니다. 최신 조기 종료 방법과 비교했을 때, LYNX는 경쟁력 있거나 우수한 파레토 프론티어를 제공하면서도 완전히 온라인 상태를 유지하고, 추론 시 프록시 모델이 필요 없으며, 명시적이고 사용자 조정 가능한 신뢰도 보장을 제공합니다.
단안 3D 추적은 단일 단안 비디오에서 픽셀의 장기적 3D 공간 운동을 포착하는 것을 목표로 하며, 최근 빠른 발전을 이루고 있습니다. 그러나 기존 단안 3D 추적 방법들은 여전히 카메라 운동을 전경 동적 운동으로부터 분리하는 데 한계가 있으며, 비디오에서 새롭게 등장하는 동적 객체를 밀집하게 추적하지 못한다는 문제점이 있습니다. 이러한 두 가지 한계를 해결하기 위해 우리는 세계 중심(world-centric) 3D 좌표계 내에서 거의 모든 픽셀의 밀집한 3D 추적을 위한 새로운 파이프라인인 TrackingWorld를 제안합니다. 먼저, 임의의 희소 2D 트랙을 효율적으로 고밀도 2D 트랙으로 전환하는 추적 업샘플러를 도입합니다. 그런 다음 현재 추적 방법을 새롭게 등장하는 객체로 일반화하기 위해 업샘플러를 모든 프레임에 적용하고 중복 영역의 트랙을 제거하여 2D 트랙의 중복성을 줄입니다. 마지막으로, 효율적인 최적화 기반 프레임워크를 통해 카메라 포즈와 이러한 2D 트랙의 3D 좌표를 추정함으로써 고밀도 2D 트랙을 세계 중심 3D 궤적으로 역투영하는 방법을 제시합니다. 합성 및 실제 데이터셋에 대한 포괄적 평가를 통해 우리 시스템이 세계 중심 좌표계에서 정확하고 밀집한 3D 추적을 달성함을 입증합니다.
뇌종양은 인간의 생명에 심각한 위협을 가하므로, 보다 나은 진단과 치료를 위해 초기 단계에서 정확하게 검출하는 것이 매우 중요합니다. 뇌종양은 방사선 전문의가 환자의 MRI 스캔 이미지를 통해 수동으로 검출할 수 있습니다. 그러나 최근 몇 년간 소아 및 청소년에서 뇌종양 발생률이 증가하면서 방대한 양의 데이터가 생성되어 수동 검출에는 시간이 많이 소요되고 어려움이 따릅니다. 현대 사회에서 인공지능의 등장과 의료 분야에서의 광범위한 적용으로, 우리는 자동적인 뇌종양 조기 발견을 위한 CAD(컴퓨터 보조 진단) 시스템에 접근할 수 있습니다. 이 작업을 위한 기존의 모든 모델은 완전히 일반화되지 않으며 검증 데이터에서 성능이 낮습니다. 따라서 우리는 두 가지 새로운 딥러닝 아키텍처를 제안합니다: (a) 다양한 종류의 뇌종양을 분류하기 위한 SAETCN(자기 주의력 향상 종양 분류 네트워크). 우리는 검증 데이터셋에서 99.38%의 정확도를 달성하여 정확하게 뇌종양을 감지할 수 있는 몇 안 되는 새로운 딥러닝 기반 아키텍처 중 하나를 만들었습니다. 우리는 3가지 유형의 종양(교종, 수막종, 뇌하수체 종양)과 비종양 사례의 이미지를 포함하는 데이터셋으로 모델을 학습시켰습니다. 그리고 (b) 뇌종양의 정확한 분할을 위한 SAS-Net(자기 주의적 분할 네트워크). 우리는 전체 픽셀 정확도 99.23%를 달성했습니다.
메모리 증강 대규모 언어 모델(LLM)은 관련 메모리를 저장하고 이를 컨텍스트로 통합함으로써 장기간 대화 동안 뛰어난 일관성을 보여주고 있습니다. 이러한 메모리 기반 개인화는 사용자가 대화와 데이터를 비공개로 유지할 수 있는 온디바이스 환경에서도 핵심적입니다. 그러나 메모리 증강 시스템은 일반적으로 로컬 온디바이스 배포에 비용이 너무 많이 드는 LLM에 의존합니다. 소규모 언어 모델(SLM)이 LLM보다 온디바이스 추론에 더 적합함에도 불구하고, 이들은 충분한 성능을 달성하지 못합니다. 또한 이러한 LLM 기반 시스템은 기본적인 시각 능력이 부족하여 다중 모달리티 컨텍스트에서의 적용이 제한됩니다. 본 논문에서는 (i) 특화된 메모리 어댑터를 통해 SLM을 구축하여 로컬 배포를 가능하게 하는 새로운 메모리 시스템인 MemLoRA와, (ii) 소규모 시각-언어 모델(SVLM)을 메모리 시스템에 통합하여 기본적인 시각 이해를 가능하게 하는 MemLoRA의 시각 확장판인 MemLoRA-V를 소개합니다. 지식 증류 원리에 따라 각 어댑터는 특정 메모리 작업(지식 추출, 메모리 갱신, 메모리 증강 생성)에 대해 별도로 훈련됩니다. 메모리 어댑터를 장착한 소규모 모델은 클라우드 의존 없이 정확한 온디바이스 메모리 작업을 가능하게 합니다. 텍스트 전용 작업에서 MemLoRA는 10배 더 큰 기준 모델(예: Gemma2-27B)을 능가하며 LoCoMo 벤치마크에서 60배 더 큰 모델(예: GPT-OSS-120B)에 버금가는 성능을 달성합니다. 시각 이해 작업을 평가하기 위해, 우리는 직접적인 시각 추론을 요구하는 도전적인 시각 질의응답 작업으로 LoCoMo를 확장했습니다. 여기서 우리의 VLM 통합 MemLoRA-V는 캡션 기반 접근법보다 엄청난 향상(정확도 81.3 대 23.7)을 보여주면서도 텍스트 기반 작업에서 강력한 성능을 유지하여, 다중 모달리티 컨텍스트에서 우리 방법의 효용성을 입증했습니다.
인간 메쉬 복원(HMR)은 2D 관측으로부터 3D 인간 자세와 형태를 재구성하는 것을 목표로 하며, 현실 세계 시나리오에서 인간 중심 이해의 기초를 이룹니다. SAM 3D Body와 같은 최근의 이미지 기반 HMR 방법은 야외 이미지에서 강력한 견고성을 달성하지만, 비디오에 적용할 때 프레임 단위 추론에 의존하여 시간적 불일치와 폐색 상황에서 성능 저하를 초래합니다. 우리는 비디오의 내재된 인간 연속성을 활용하여 추가 학습 없이 이러한 문제를 해결합니다. 우리는 비디오로부터 시간적으로 일관되고 폐색에 강건한 HMR을 위한 학습 불필요 프레임워크인 SAM-Body4D를 제안합니다. 우리는 먼저 프롬프트 가능한 비디오 분할 모델을 사용하여 신원 일관성 있는 마스클릿을 생성한 다음, 폐색 인식 모듈로 정제하여 손실된 영역을 복원합니다. 정제된 마스클릿은 SAM 3D Body가 일관된 전신 메쉬 궤적을 생성하도록 유도하는 한편, 패딩 기반 병렬 전략을 통해 효율적인 다중 인간 추론을 가능하게 합니다. 실험 결과는 SAM-Body4D가 어떠한 재학습 없이도 도전적인 야외 비디오에서 향상된 시간적 안정성과 견고성을 달성함을 보여줍니다. 우리의 코드와 데모는 https://github.com/gaomingqi/sam-body4d에서 확인할 수 있습니다.
불안정 유동에 대한 빠르고 형상을 일반화하는 대리 모델의 개발은 여전히 과제로 남아 있습니다. 본 연구에서는 매개변수화 및 비매개변수화 형상 주변의 중간 레이놀즈 수 유동에 대한 속도장을 예측하는 시간 의존적, 형상 인식 Deep Operator Network를 제시합니다. 이 모델은 부호 거리 함수(SDF) 트렁크를 통해 형상을 인코딩하고 CNN 브랜치를 통해 유동 이력을 인코딩하며, 841개의 고충실도 시뮬레이션 데이터로 학습되었습니다. 검증 형상에서 약 5%의 상대 L2 단일 단계 오차를 달성하고 전산유체역학(CFD) 대비 최대 1000배의 속도 향상을 보였습니다. 장기간의 정확도를 정량화하기 위해 프로브에서의 위상 오차 및 발산 노름을 포함한 물리 중심 롤아웃 진단법을 제공합니다. 이를 통해 단기 과도 현상은 정확하게 예측하나 미세 규모 후류 영역에서는 오차가 누적되며, 특히 날카로운 모서리를 가진 형상에서 이러한 현상이 두드러짐을 확인했습니다. 우리는 실패 모드를 분석하고 실용적인 완화 방안을 제시합니다. 재현성 및 벤치마킹을 지원하기 위해 코드, 데이터 분할 및 스크립트를 https://github.com/baskargroup/TimeDependent-DeepONet 에 공개하였습니다.
3D 가우시안 스플래팅(3DGS)은 실시간 고품질 3D 재구성 및 새로운 시점 합성을 가능하게 하는 강력한 명시적 표현법으로 부상했습니다. 그러나 수백 만 개의 가우시안을 저장하고 렌더링하는 데 필요한 막대한 메모리 및 계산량으로 인해 실제 활용이 제한되고 있습니다. 이러한 문제는 4D 동적 장면에서 더욱 심화됩니다. 이러한 문제를 해결하기 위해 효율적 가우시안 스플래팅 분야가 빠르게 발전하며, 재구성 품질을 유지하면서 중복성을 줄이는 방법론들이 제안되고 있습니다. 본 조사 논문은 효율적인 3D 및 4D 가우시안 스플래팅 기법을 최초로 통합적으로 조망합니다. 3D와 4D 설정 모두에 대해, 기존 방법론을 매개변수 압축과 재구성 압축이라는 두 가지 주요 방향으로 체계적으로 분류하고, 각 범주 내의 핵심 아이디어와 방법론적 동향을 포괄적으로 정리합니다. 또한 널리 사용되는 데이터셋, 평가 메트릭, 그리고 대표적인 벤치마크 비교 결과를 다룹니다. 마지막으로, 정적 및 동적 3D 장면 표현을 위한 확장 가능하고 경량화된 실시간 가우시안 스플래팅을 향한 현재의 한계점과 유망한 연구 방향을 제시합니다.
다중모드 대규모 언어 모델(MLLM)의 교차 모드 불일치를 체계적으로 평가할 수 있는 두 가지 새로운 벤치마크인 REST와 REST+(Render-Equivalence Stress Tests)를 소개합니다. MLLM은 시각과 언어를 동일한 임베딩 공간에 표현하도록 훈련되었음에도 불구하고 두 모드에서 동일한 작업을 수행하지 못합니다. 본 벤치마크는 세 가지 모드(이미지, 텍스트, 혼합)로 동일한 의미 정보를 포함하는 샘플로 구성되어 있으며, 최첨단 MLLM들이 이러한 서로 다른 모드에 대해 일관적으로 추론하지 못함을 보여줍니다. 15개의 MLLM을 평가한 결과, 텍스트 인식(OCR)의 문제점을 고려하더라도 모드 불일치 정도가 크게 다양함을 확인했습니다. 텍스트를 이미지로 렌더링하거나 이미지를 텍스트로 렌더링하는 것 모두 불일치 문제를 해결하지 못했습니다. OCR이 정확하더라도 시각적 특성(텍스트 색상 및 해상도, 단 글꼴은 제외)과 시각 토큰의 수가 모델 성능에 영향을 미친다는 사실을 발견했습니다. 마지막으로, 본 연구의 일관성 점수는 텍스트와 이미지 간의 모드 격차와 상관관계가 있어 교차 모드 불일치 MLLM의 메커니즘적 해석을 강조합니다.
수십 년 동안 절차적 세계는 퍼린 노이즈와 같은 절차적 노이즈 함수에 기반해 구축되어왔습니다. 이러한 함수들은 빠르고 무한하지만, 사실성과 대규모 일관성 측면에서 근본적인 한계를 지닙니다. 우리는 퍼린 노이즈를 AI 시대에 계승하는 Terrain Diffusion을 소개합니다. 이는 확산 모델의 높은 정확도와 절차적 노이즈가 필수적으로 여겨지게 만든 핵심 특성—끊임없는 무한 확장, 시드 일관성, 상수 시간 임의 접근—을 결합합니다. 그 핵심에는 InfiniteDiffusion이라는 무한 생성 알고리즘이 자리하며, 이는 끊임없고 실시간으로 경계 없는 지형을 합성할 수 있게 합니다. 계층적 확산 모델 스택은 행성 수준의 맥락과 지역적 디테일을 결합하며, 컴팩트한 라플라시안 인코딩은 지구 규모의 동적 범위에 걸쳐 출력을 안정화합니다. 오픈소스 무한 텐서 프레임워크는 무제한 텐서의 상수 메모리 조작을 지원하고, Few-Step 일관성 증류는 효율적인 생성을 가능하게 합니다. 이러한 구성 요소들이 함께 작동하여 확산 모델이 절차적 세계 생성의 실용적인 기반으로 자리매김하게 하며, 전체 행성을 일관성 있고 제어 가능하며 제한 없이 합성할 수 있는 능력을 제공합니다.