번역이 포함된 일일 선별된 AI 연구 논문
기존 확산 기반 비디오 생성 방법은 순차적 계산과 장기간 불일치에 근본적으로 제약을 받아, 실시간 스트리밍 오디오 기반 아바타 합성의 실질적인 적용이 제한되어 왔습니다. 본 논문은 140억 개의 매개변수를 가진 확산 모델을 사용하여 효율적이고 높은 충실도, 무한 길이의 아바타 생성을 가능하게 하는 알고리즘-시스템 공동 설계 프레임워크인 Live Avatar를 제안합니다. 우리의 접근 방식은 잡음 제거 단계를 여러 GPU에 걸쳐 파이프라인화하여 자기회귀적 병목 현상을 효과적으로 극복하고 안정적인 저지연 실시간 스트리밍을 보장하는 분산 추론 패러다임인 Timestep-forcing Pipeline Parallelism(TPP)을 도입합니다. 시간적 일관성을 더욱 향상시키고 신원 이탈 및 색상 아티팩트를 완화하기 위해, 캐시된 참조 이미지를 사용하여 외관을 동적으로 재보정함으로써 시퀀스 충실도를 유지하는 Rolling Sink Frame Mechanism(RSFM)을 제안합니다. 또한 대규모 모델의 시각적 품질 저하 없이 인과적이고 스트리밍 가능한 적응을 용이하게 하기 위해 Self-Forcing Distribution Matching Distillation을 활용합니다. Live Avatar는 최첨단 성능을 보여주며 5개의 H800 GPU에서 20 FPS의 종단간 생성을 달성하며, 우리가 아는 한 이 규모로 실용적이고 실시간, 고충실도 아바타 생성을 달성한 최초의 사례입니다. 우리의 연구는 산업용 장편 비디오 합성 애플리케이션에 고급 확산 모델을 배포하는 새로운 패러다임을 정립합니다.
실전 기업 데이터 인텔리전스 워크플로우는 원천 데이터를 분석 가능한 테이블로 전환하는 데이터 엔지니어링과 이러한 테이블을 의사결정 중심의 통찰력으로 변환하는 데이터 분석을 포괄합니다. 본 연구는 이러한 복잡한 워크플로우를 반영한 210개 과업으로 구성된 벤치마크인 DAComp를 소개합니다. 데이터 엔지니어링 과업은 산업 수준의 스키마에 대한 저장소 수준의 엔지니어링을 요구하며, 여기에는 처음부터 다단계 SQL 파이프라인을 설계 및 구축하고 변화하는 요구사항 아래 기존 시스템을 발전시키는 작업이 포함됩니다. 데이터 분석 과업은 전략적 계획 수립, 반복적 코딩을 통한 탐색적 분석, 중간 결과 해석, 실행 가능한 권고안 종합을 요구하는 개방형 비즈니스 문제를 제시합니다. 엔지니어링 과업은 실행 기반의 다중 지표 평가를 통해 점수가 매겨집니다. 개방형 과업은 계층적이고 면밀히 설계된 채점 기준표에 따라 안정적이며 실험적으로 검증된 LLM 평가자에 의해 평가됩니다. 우리의 실험 결과에 따르면, 최첨단 에이전트들도 DAComp에서 어려움을 겪는 것으로 나타났습니다. 특히 데이터 엔지니어링 과업의 성능은 20% 미만의 성공률로 매우 낮아, 단순한 코드 생성이 아닌 전체적인 파이프라인 오케스트레이션에 심각한 병목 현상이 있음을 드러냈습니다. 데이터 분석 과업의 점수도 평균 40% 미만으로, 개방형 추론 능력에 심각한 결함이 있음을 강조하며 엔지니어링과 분석이 별개의 역량임을 입증했습니다. 이러한 한계를 명확히 진단함으로써, DAComp는 기업 환경을 위한 진정한 능력을 갖춘 자율 데이터 에이전트의 개발을 촉진하는 엄격하고 현실적인 테스트베드를 제공합니다. 우리의 데이터와 코드는 https://da-comp.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 수동적 응답자에서 자율적 에이전트로 진화함에 따라 학습 패러다임은 정적 모방에서 인센티브 기반 의사 결정으로 근본적인 전환이 필요합니다. 그러나 이러한 전환은 효과적인 정책 학습을 위한 고품질 상호작용 신호를 구축할 수 있는 확장 가능한 인프라의 부재로 인해 크게 저해되고 있습니다. 이를 해결하기 위해 본 연구는 상호작용 환경의 다양성과 복잡성을 체계적으로 확장하도록 설계된 포괄적인 방법을 소개합니다. 우리의 방법은 세 가지 직교 차원을 해결함으로써 이러한 확장을 실현합니다: (1) 복잡성: 간단한 설정을 통해 복잡한 에이전트 계층 구조 구축을 지원하는 유연한 에이전트 프레임워크인 NexAU; (2) 다양성: 자연어에서 다양한 에이전트 계층 구조를 자동 생성하여 무한한 도메인을 포괄하는 NexA4A; (3) 정확도: 동적 실세계 환경을 통합하여 근거 트랙젝토리 합성을 위한 시뮬레이션-현실 간격을 해소하는 NexGAP. 우리는 본 인프라를 통해 구축된 다양하고 복잡한 상호작용 환경 기반으로 Nex-N1을 학습시켰습니다. SWE-bench 및 tau2와 같은 벤치마크에 대한 실험 결과, Nex-N1은 복잡한 에이전트 작업에서 SOTA 오픈소스 모델들을 꾸준히 능가하고 최첨단 독점 모델들과 경쟁력 있는 성능을 달성함을 보여줍니다. 우리는 Nex 생태계와 모델 가중치를 오픈소스로 공개하여 향후 연구를 촉진하고자 합니다.
대규모 언어 모델이 학술 논문 작성 워크플로우에 점점 더 통합되고 있지만, 기존 보조 도구들은 여전히 편집기 외부에 위치하여 문서 상태, 구조, 수정 이력과의 깊은 상호작용을 방해합니다. 이러한 분리는 Overleaf와 같은 LaTeX 편집기 내에서 직접 에이전트 기반의 상황 인식 연산을 지원하는 것을 불가능하게 만듭니다. 본 논문에서는 LLM 기반 추론을 작성 환경 내로 직접 가져오는, 편집기 내장형·다중 에이전트·플러그인 기반 학술 논문 작성 보조 도구인 PaperDebugger를 소개합니다. 이러한 편집기 내 상호작용을 구현하는 것은 기술적으로 간단하지 않으며, 편집기와의 안정적인 양방향 동기화, 세분화된 버전 관리 및 패치, 안전한 상태 관리, 다중 에이전트 스케줄링, 외부 도구와의 확장 가능한 통신이 필요합니다. PaperDebugger는 Chrome 승인 확장 프로그램, Kubernetes 네이티브 오케스트레이션 계층, 그리고 문헌 검색, 참조문 조회, 문서 점수 평가, 수정 파이프라인을 통합하는 Model Context Protocol(MCP) 툴체인을 통해 이러한 과제들을 해결합니다. 우리의 데모는 최소한의 간섭 사용자 인터페이스(UI) 안에 캡슐화된, 지역화된 편집, 구조화된 검토, 병렬 에이전트 실행, diff 기반 업데이트를 포함한 완전히 통합된 워크플로우를 보여줍니다. 초기 집계 분석 결과는 활발한 사용자 참여를 보여주며 편집기 네이티브 에이전트 기반 작성 보조 도구의 실용성을 입증합니다. 본 데모와 동영상에 대한 자세한 내용은 https://github.com/PaperDebugger/PaperDebugger 에서 확인할 수 있습니다.
보상 모델은 시각-언어 시스템을 인간의 선호에 맞추는 데 핵심적이지만, 기존 접근법은 허구적 응답, 약한 시각적 근거화, 검증을 위한 도구 활용 불가능 등의 한계로 인해 복잡한 다중모드 추론 과제에서 신뢰성이 낮습니다. 본 연구에서는 정적이고 비상호작용적인 보상 점수 방식을 대체하여, 외부 도구(이미지 크롭, 문서 페이지 검색 등)를 자율적으로 호출하여 검증 가능한 증거에 기반한 판단을 근거화하는 에이전트형 다중모드 보상 모델인 ARM-Thinker를 제안합니다. 이를 통해 기존 보상 모델에서 부재했던 세부 시각 정보 검증, 다중 페이지 증거 상호 참조, 추론 주장 검증 등의 능력을 구현합니다. 우리는 ARM-Thinker를 다단계 강화 학습으로 훈련하여 도구 호출 결정과 판단 정확도를 공동으로 최적화합니다. 에이전트형 보상 모델링 평가를 위해 세 가지 벤치마크(세부 시각 근거화(이미지 수준 도구), 다중 페이지 문서 이해(검색 도구), 지시 따르기(텍스트 수준 검증)를 평가하는 ARMBench-VL을 도입했습니다. ARM-Thinker는 보상 모델링 벤치마크에서 평균 +16.2%, 도구 사용 과제에서 +9.6%의 성능 향상을 달성했으며, 다중모드 수학 및 논리 추론 벤치마크에서 기준 모델들을 능가했습니다. 우리의 결과는 에이전트 능력이 보상 모델의 정확성과 해석 가능성을 모두 크게 향상시킴을 입증합니다.
잠재 확산 모델(LDM)은 본질적으로 coarse-to-fine 생성 과정을 따르며, 고수준 의미 구조가 세밀한 텍스처보다 약간 더 일찍 생성됩니다. 이는 선행되는 의미가 의미적 정착점(semantic anchor)을 제공함으로써 텍스처 생성에 잠재적으로 이점을 준다는 것을 시사합니다. 최근 발전된 방법들은 사전 학습된 시각 인코더로부터 의미적 사전 지식(prior)을 통합하여 LDM을 더욱 향상시키고 있지만, 여전히 의미 정보와 VAE로 인코딩된 텍스처 정보를 동기적으로 잡음을 제거하며 이러한 생성 순서를 간과하고 있습니다. 이를 관찰하여, 우리는 의미 형성을 명시적으로 우선시하는 잠재 확산 패러다임인 Semantic-First Diffusion(SFD)을 제안합니다. SFD는 전용 Semantic VAE를 통해 사전 학습된 시각 인코더에서 추출한 간결한 의미 잠재 표현(semantic latent)과 텍스처 잠재 표현(texture latent)을 결합하여 복합 잠재 표현(composite latents)을 먼저 구성합니다. SFD의 핵심은 별도의 노이즈 스케줄을 사용하여 의미와 텍스처 잠재 표현을 비동기적으로 잡음을 제거하는 것으로, 의미 처리가 텍스처 처리보다 시간적 오프셋(temporal offset)을 두고 선행되어 텍스처 정제를 위한 더 명확한 고수준 지도를 제공하고 자연스러운 coarse-to-fine 생성을 가능하게 합니다. guidance를 적용한 ImageNet 256x256에서 SFD는 FID 1.06(LightningDiT-XL) 및 FID 1.04(1.0B LightningDiT-XXL)를 달성했으며, 기존 DiT 대비 최대 100배 빠른 수렴 속도를 달성했습니다. SFD는 ReDi 및 VA-VAE와 같은 기존 방법도 개선하여 비동기적이고 의미 주도적인 모델링의 효과를 입증합니다. 프로젝트 페이지 및 코드: https://yuemingpan.github.io/SFD.github.io/.
효율적인 스트리밍 비디오 생성은 상호작용적이고 동적인 세계를 시뮬레이션하는 데 중요합니다. 기존 방법들은 슬라이딩 윈도우 어텐션을 사용하여 few-step 비디오 확산 모델을 증류하며, 초기 프레임을 싱크 토큰으로 활용하여 어텐션 성능을 유지하고 오류 누적을 줄입니다. 그러나 이로 인해 비디오 프레임이 이러한 정적 토큰에 지나치게 의존하게 되어 초기 프레임이 복사되고 동적 모션 표현이 약화되는 문제가 발생합니다. 이를 해결하기 위해 우리는 두 가지 핵심 설계로 구성된 새로운 프레임워크인 Reward Forcing을 소개합니다. 첫째, EMA-Sink를 제안합니다. 이는 초기 프레임에서 초기화된 고정 크기 토큰을 유지하며, 슬라이딩 윈도우에서 제거되는 토큰들을 지수 이동 평균을 통해 지속적으로 융합하여 갱신합니다. 추가 계산 비용 없이 EMA-Sink 토큰은 장기적인 맥락과 최근 동적 특성을 모두 포착하여 초기 프레임 복사를 방지하면서 장기 일관성을 유지합니다. 둘째, 교사 모델로부터 모션 역학을 더 효과적으로 증류하기 위해 Rewarded Distribution Matching Distillation(Re-DMD)을 제안합니다. 일반적인 분포 매칭은 모든 훈련 샘플을 동등하게 취급하여 모델이 동적 콘텐츠를 우선시하는 능력을 제한합니다. 대신 Re-DMD는 비전-언어 모델이 평가한 동적 점수가 높은 샘플을 우선적으로 활용하여 모델의 출력 분포를 높은 보상 영역으로 편향시킵니다. Re-DMD는 데이터 충실도를 보존하면서 모션 품질을 크게 향상시킵니다. 우리는 양적 및 질적 실험을 통해 Reward Forcing이 표준 벤치마크에서 최첨단 성능을 달성함과 동시에 단일 H100 GPU에서 23.1 FPS의 고품질 스트리밍 비디오 생성을 가능하게 함을 보여줍니다.
물리적 세계를 이해하는 것은 3D 구조의 진화, 실제 운동, 텍스트 설명을 포함한 의미론적 내용으로 특징지어지는 동적인 환경을 파악하는 것을 의미하며, 이는 인간-에이전트 상호작용에 중요하고 구현된 에이전트가 인간과 유사한 능력으로 실제 환경을 인지하고 행동할 수 있게 합니다. 그러나 기존 데이터셋은 제한된 시뮬레이터에서 도출되거나 정확한 크기 추정을 위해 전통적인 Structure-from-Motion을 사용하며, 제한된 설명적 캡션만을 제공하여 파운데이션 모델이 인터넷에서 흔히 얻는 단안 비디오로부터 실제 세계의 동역학을 정확히 해석하는 능력을 제한합니다. 이러한 격차를 해소하기 위해 우리는 동적인 실제 세계 비디오를 위한 물리적 규모의 멀티모달 4D 세계 모델링 프레임워크인 DynamicVerse를 소개합니다. 우리는 대규모 시각, 기하학적, 멀티모달 모델을 활용하여 미터법 규모의 정적 기하학, 실제 동적 운동, 인스턴스 수준 마스크, 그리고 전체론적 설명 캡션을 해석합니다. 윈도우 기반 Bundle Adjustment와 전역 최적화를 통합함으로써, 우리의 방법은 긴 실제 세계 비디오 시퀀스를 포괄적인 4D 멀티모달 형식으로 변환합니다. DynamicVerse는 인터넷 비디오로부터 10만 개 이상의 비디오, 80만 개 이상의 주석이 달린 마스크, 1000만 개 이상의 프레임으로 구성된 대규모 데이터셋을 제공합니다. 비디오 깊이 추정, 카메라 자세 추정, 카메라 내부 파라미터 추정이라는 세 가지 벤치마크 작업에 대한 실험적 평가는 우리의 4D 모델링이 기존 방법보다 더 큰 전역 정확도로 물리적 규모 측정값을 포착하는 데 있어 우수한 성능을 달성함을 보여줍니다.
자동회귀 비디오 확산 모델의 최근 발전으로 실시간 프레임 스트리밍이 가능해졌지만, 기존 솔루션들은 여전히 시간적 반복, 드리프트, 모션 감속 문제를 겪고 있습니다. 우리는 StreamingLLM 스타일의 어텐션 싱크(attention sink)를 비디오 확산 모델에 단순 적용할 경우 화질 저하와 모션 정체가 발생함을 확인했습니다. 이를 극복하기 위해 파인튜닝 없이도 이러한 문제를 해결하는 두 가지 학습 불필요 메커니즘인 Deep Forcing을 소개합니다. 구체적으로, 1) Deep Sink는 슬라이딩 윈도우의 절반을 영구적인 싱크 토큰에 할당하고 이들의 시간적 RoPE 위상을 현재 타임라인에 재정렬하여 긴 롤아웃 동안 전역 컨텍스트를 안정화합니다. 2) Participative Compression는 최근 어텐션에 활발히 참여하는 토큰만 보존하고 중복 및 열화된 기록은 안전하게 제거하는 중요도 인식 KV 캐시 프루닝을 수행하여 분포 외 길이 생성 시 오류 누적을 최소화합니다. 이러한 구성 요소들이 결합되어 12배 이상의 외삽(예: 5초 학습으로 60초 이상 생성)이 가능하며, LongLive보다 우수한 화질, RollingForcing보다 우수한 미적 품질, 전반적인 일관성 유지, 그리고 동적 정도에서의 상당한 향상을 실시간 생성 속도를 유지하면서 달성합니다. 우리의 결과는 학습 불필요 KV 캐시 관리가 자동회귀적 장편 비디오 생성 스트리밍에서 학습 기반 접근법을 능가하거나 그에 버금갈 수 있음을 입증합니다.
우리는 다양한 3D 가상 세계를 이해하고 행동하는 범용 구현 에이전트인 SIMA 2를 소개한다. Gemini 파운데이션 모델을 기반으로 구축된 SIMA 2는 구현 환경 내에서 능동적이고 목표 지향적인 상호작용을 향한 중요한 진전을 나타낸다. 단순한 언어 명령에 국한되었던 기존 연구(SIMA 1 등)와 달리, SIMA 2는 상위 수준 목표를 추론하고 사용자와 대화하며, 언어와 이미지를 통해 주어진 복잡한 지시를 처리할 수 있는 상호작용 파트너 역할을 한다. 다양한 게임 포트폴리오에서 SIMA 2는 인간 수준의 성능 격차를 크게 좁히며 이전에 접하지 못한 환경으로의 강건한 일반화 능력을 입증하면서도 기본 모델의 핵심 추론 능력을 유지한다. 나아가, 우리는 개방형 자기 발전 능력도 입증한다: Gemini를 활용하여 작업을 생성하고 보상을 제공함으로써, SIMA 2는 새로운 환경에서 처음부터 새로운 기술을 자율적으로 학습할 수 있다. 이 연구는 가상 세계와 궁극적으로 물리적 세계를 위한 다재다능하고 지속적으로 학습하는 에이전트 생성으로 가는 길을 검증한다.
4D 언어 필드 구축은 역동적 환경의 풍부한 의미론적 표현을 제공하고 복잡한 시나리오에서 개방형 어휘 질의를 가능하게 하므로, 구현형 AI, 증강/가상 현실 및 4D 장면 이해에 중요합니다. 그러나 기존의 4D 의미론적 필드 구축 접근법은 주로 장면 특화적 가우시안 스플래팅에 의존하며, 이는 장면별 최적화가 필요하고 일반화 능력이 제한적이며 실제 응용으로 확장하기 어렵습니다. 이러한 한계를 해결하기 위해 우리는 단일 아키텍처 내에서 기하학적 인지와 언어 정렬을 공동으로 통합하는 최초의 Transformer 기반 순전파 통합 프레임워크인 4DLangVGGT를 제안합니다. 4DLangVGGT는 두 가지 핵심 구성 요소를 가집니다: 역동적 장면의 시공간 기하학적 표현을 포착하는 4D Visual Geometry Transformer인 StreamVGGT, 그리고 기하학 인식 특징을 언어 정렬 의미론적 공간으로投射하여 구조적 정확도를 유지하면서 의미론적 해석 가능성을 향상시키는 Semantic Bridging Decoder(SBD)입니다. 비용이 많이 드는 장면별 최적화에 의존하는 기존 방법과 달리, 4DLangVGGT는 여러 역동적 장면에 걸쳐 공동으로 훈련될 수 있으며 추론期间 직접 적용되어 배포 효율성과 강력한 일반화를 모두 달성합니다. 이 설계는 대규모 배치의 실용성을 크게 향상시키고 개방형 어휘 4D 장면 이해를 위한 새로운 패러다임을 정립합니다. HyperNeRF 및 Neu3D 데이터셋에 대한 실험은 우리의 접근법이 효과적으로 일반화될 뿐만 아니라 최첨단 성능을 달성하여, 장면별 훈련下에서 최대 2%, 다중 장면 훈련下에서 1%의 성능 향상을 보여줍니다. 우리의 코드는 https://github.com/hustvl/4DLangVGGT에서 공개되었습니다.
단안 Mannequin-Challenge(MC) 동영상으로부터 고품질의 정지된 3D 장면을 합성하는 것은 기존의 동적 장면 재구성과 구별되는 독특한 문제입니다. 우리의 목표는 움직임 모델링에 중점을 두기보다, 사용자 제어 즉시 선택이 가능하도록 미세한 동적 요소를 전략적으로 보존하면서 정지된 장면을 생성하는 것입니다. 이를 위해 동적 Gaussian splatting의 새로운 적용 방식을 제안합니다: 장면을 동적으로 모델링하여 인접 시간대의 변화를 유지한 뒤, 모델의 시간 매개변수를 고정하여 정적 장면을 렌더링합니다. 그러나 이러한 사용 방식에서 단안 촬영과 희소한 시간적 감독은 약하게 감독된 타임스탬프에서 관찰되지 않거나 가려진 Gaussian에 대해 고스트링과 흐림 같은 아티팩트를 유발합니다. 우리는 Gaussian 프리미티브의 두 가지 상태(은닉 상태와 결함 상태)를 감지하고 시간적 고정을 적용하는 아키텍처 비의존적 정규화 방법인 Splannequin을 제안합니다. 주로 전방 카메라 운동이 우세한 상황에서 은닉 상태는 최근 잘 관찰된 과거 상태에, 결함 상태는 더 강력한 감독이 이루어지는 미래 상태에 각각 고정됩니다. 우리의 방법은 간단한 손실 항을 통해 기존 동적 Gaussian 파이프라인에 통합되며, 아키텍처 변경이 필요 없고 추론 시 오버헤드가 전혀 추가되지 않습니다. 그 결과 시각적 품질이 현저히 개선되어 고품질의 사용자 선택 가능 정지 시간 렌더링이 가능하며, 96%의 사용자 선호도로 검증되었습니다. 프로젝트 페이지: https://chien90190.github.io/splannequin/
최근의 이미지 디퓨전 트랜스포머는 높은 정확도의 생성을 달성하지만, 이러한 규모를 넘어서는 이미지 생성에는 콘텐츠 반복 및 화질 저하 문제가 발생하며 어려움을 겪고 있습니다. 본 연구에서는 이러한 두 가지 문제를 해결하는 원리 기반 프레임워크인 UltraImage를 제시합니다. 위치 임베딩에 대한 주파수별 분석을 통해, 반복 현상이 지배적 주파수의 주기성에서 비롯되며, 그 주기가 학습 해상도와 일치함을 규명했습니다. 우리는 외삽 후 지배적 주파수가 단일 주기 내에 머물도록 제한하는 재귀적 지배 주파수 보정을 도입했습니다. 더 나아가 화질 저하가 희석된 어텐션에서 비롯됨을 발견하고, 엔트로피 기반 적응형 어텐션 집중을 제안합니다. 이는 미세한 디테일을 선명하게 하기 위해 지역 어텐션에 더 높은 집중 계수를, 구조적 일관성을 유지하기 위해 전역 어텐션 패턴에 더 낮은 집중 계수를 할당합니다. 실험 결과, UltraImage는 세 가지 생성 시나리오에서 Qwen-Image 및 Flux(약 4K 기준)에 대해 기존 방법들을 지속적으로 능가하며, 반복을 줄이고 시각적 정확도를 향상시킴을 보여줍니다. 또한 UltraImage는 1328p 학습 해상도에서 저해상도 가이드 없이 최대 6K*6K 이미지 생성이 가능하여 극한의 외삽 능력을 입증했습니다. 프로젝트 페이지는 https://thu-ml.github.io/ultraimage.github.io/ 에서 확인할 수 있습니다.
비디오 생성 모델은 빠르게 발전하고 있지만, 상당한 의미론적 분기나 다음에 발생해야 할 내용에 대한 반복적인 고수준 추론이 필요한 복잡한 비디오 출력에는 여전히 어려움을 겪을 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 최근 언어 모델 추론 기술의 발전에서 아이디어를 통합한 새로운 종류의 오므니(omni) 비디오-텍스트 모델 클래스를 소개합니다. 보다 구체적으로, 비디오 생성을 텍스트와 비디오 생성이 교차되는 과정으로 분해하는 통합 생성 모델링 프레임워크인 TV2TV를 제시합니다. TV2TV는 Mixture-of-Transformers(MoT) 아키텍처를 사용하여 언어 모델링(다음 토큰 예측)과 비디오 플로우 매칭(다음 프레임 예측)을 공동으로 학습합니다. 추론 시에는 TV2TV가 텍스트 생성과 비디오 프레임 생성 사이를 전환할 시점을 결정함으로써, 모델이 프레임을 생성하기 위해 "픽셀로 행동하기" 전에 후속 콘텐츠에 대해 "단어로 생각"할 수 있게 합니다. 이 설계는 다음에 무엇이 발생해야 하는지 결정하는 책임의 상당 부분을 언어 모델링 타워에 위임하여, 생성된 비디오의 시각적 품질과 프롬프트 정렬을 향상시킬 수 있습니다. 또한 사용자가 프로세스 중 어느 시점에서나 텍스트 인터벤션을 통해 비디오 생성 경로를 수정할 수 있는 세분화된 제어 기능을 가능하게 합니다. 비디오 게임 데이터에 대한 통제 실험에서 TV2TV는 시각적 품질과 제어 가능성 모두에서 상당한 향상을 보여줍니다. TV2TV는 자연 영상으로도 확장 가능하며, 비전-언어 모델(VLM)을 사용하여 스포츠 영상에 교차된 자연어 행동 설명을 추가하는 것을 통해 이를 입증합니다. 이 코퍼스로 TV2TV를 학습시키면 뛰어난 시각적 품질과 프롬프트 정렬을 얻을 수 있으며, 이는 모델이 복잡한 실제 행동 시퀀스를 추론하고 생성할 수 있는 능력을 보여줍니다. 이러한 결과들은 종합적으로 TV2TV가 개방형 텍스트 추론과 제어를 통한 비디오 생성으로 나아가는 유망한 단계임을 강조합니다.
단일 이미지 반사 제거를 위한 diffusion-transformer(DiT) 프레임워크를 소개한다. 본 접근법은 복원 작업에서 기초 diffusion 모델의 일반화 능력을 활용한다. 과제 특화 아키텍처에 의존하기보다, 사전 학습된 DiT 기반 기초 모델을 반사 오염 입력을 조건으로 하여 깨끗한 투과 층을 복원하도록 재구성한다. 기존 반사 제거 데이터 소스를 다양성, 확장성, 사실성 측면에서 체계적으로 분석하였으며, 적합한 데이터 부족 문제를 해결하기 위해 Blender에서 Principled BSDF를 기반으로 한 물리 기반 렌더링(PBR) 파이프라인을 구축하여 사실적인 유리 재질과 반사 효과를 합성하였다. 제안된 합성 데이터와 효율적인 LoRA 기반 기초 모델 적응을 결합하면 도메인 내 및 제로샷 벤치마크에서 최첨단 성능을 달성한다. 이러한 결과는 사전 학습된 diffusion transformer가 물리 기반 데이터 합성 및 효율적 적응과 결합될 때, 확장 가능하고 고품질의 반사 제거 솔루션을 제공함을 입증한다. 프로젝트 페이지: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
표준 확산은 푸리에 계수의 크기와 위상이 무작위인 가우시안 노이즈를 사용하여 데이터를 손상시킵니다. 이는 무조건 생성이나 텍스트-이미지 생성에는 효과적이지만, 위상 성분을 손상시키면 공간 구조가 파괴되어 재렌더링, 시뮬레이션 향상, 이미지-이미지 변환 등 기하학적 일관성이 필요한 작업에는 적합하지 않습니다. 우리는 위상 보존 확산(Phase-Preserving Diffusion, φ-PD)을 소개합니다. 이는 모델에 독립적인 확산 과정의 재구성으로, 입력 위상을 보존하면서 크기만 무작위화하여 아키텍처 변경이나 추가 매개변수 없이 구조에 정렬된 생성이 가능하게 합니다. 또한 단일 주파수 차단 매개변수를 통해 구조적 강성을 연속적으로 제어하는 주파수 선택적 구조(Frequency-Selective Structured, FSS) 노이즈를 제안합니다. φ-PD는 추론 시간 비용을 추가하지 않으며 이미지나 비디오를 위한 모든 확산 모델과 호환됩니다. 사실적 및 스타일화된 재렌더링과 운전 플래너를 위한 시뮬레이션-현실 향상 작업에서 φ-PD는 제어 가능하고 공간적으로 정렬된 결과를 생성합니다. CARLA 시뮬레이터에 적용했을 때, φ-PD는 CARLA-to-Waymo 플래너 성능을 50% 향상시켰습니다. 이 방법은 기존 조건 설정 접근법을 보완하며 이미지-이미지 및 비디오-비디오 생성에 광범위하게 적용 가능합니다. 비디오, 추가 예시 및 코드는 우리의 https://yuzeng-at-tri.github.io/ppd-page/{프로젝트 페이지}에서 확인할 수 있습니다.
극저비트 양자화는 대규모 언어 모델(LLM)을 효율적으로 배포하는 데 핵심적이지만, 2비트 및 4비트(예: MXFP4) 수준에서는 종종 심각한 성능 저하를 초래합니다. 본 논문은 혼합 정밀도 없이도 높은 효과를 보이는 사후 학습 양자화 프레임워크인 SignRoundV2를 제안합니다. SignRoundV2는 (1) 그래디언트 정보와 양자화로 인한 편차를 결합한 빠른 민감도 메트릭을 도입하여 계층별 비트 할당을 안내하고, (2) 극저비트 양자화 성능 향상을 위한 경량화된 사전 조정 기반 양자화 스케일 탐색 기법을 제안합니다. 이러한 구성 요소를 통해 SignRoundV2는 완전 정밀도 모델과의 성능 격차를 줄입니다. 광범위한 실험 결과, 본 방법론은 LLM의 경쟁력 있는 정확도를 유지하며 4-5비트에서 약 1%의 편차로 프로덕션 등급 성능을 달성하고, 2비트에서도 강력한 결과를 보여줍니다. 구현 코드는 https://github.com/intel/auto-round에서 확인할 수 있습니다.
최근 통합된 멀티모달 대규모 언어 모델(MLLM)은 텍스트-이미지 생성 성능 향상을 위한 사고 연쇄(CoT) 추론을 도입하며 인상적인 능력을 보여주고 있습니다. 그러나 기존 접근법은 모델을 단순히 독립형 생성기로 취급하거나 추상적인 텍스트 기반 계획에 의존하는 등 한계가 있습니다. 이를 해결하기 위해 본 논문에서는 CoT 과정에서 텍스트와 시각적 내용을 모두 완전히 활용하여 더 나은 계획 및 검증을 수행하는 새로운 인터리브 추론 패러다임인 Draft-as-CoT(DraCo)를 제안합니다. 우리의 방법은 먼저 미리보기 역할을 하는 저해상도 초안 이미지를 생성하여 보다 구체적이고 구조화된 시각적 계획과 지침을 제공합니다. 그런 다음 모델의 내재된 이해 능력을 활용하여 초안과 입력 프롬프트 간의 잠재적 의미론적 불일치를 검증하고, 선택적 수정과 초해상도 기술을 통해 정제를 수행합니다. 이를 통해 본 접근법은 텍스트 기반 계획의 과도하게 거친 단위 문제와 희귀 속성 조합 생성의 어려움이라는 두 가지 근본적인 과제를 해결합니다. 학습을 지원하기 위해 일반적 수정, 인스턴스 조작, 레이아웃 재구성이라는 세 가지 원자적 능력 향상을 목표로 DraCo-240K 데이터 세트를 구축했습니다. 인터리브 추론을 위한 전용 classifier-free guidance(CFG) 전략인 DraCo-CFG의 지원 아래, DraCo는 GenEval(+8%), Imagine-Bench(+0.91), GenEval++(+3%)에서 크게 향상된 성능을 달성하여 직접 생성 및 CoT 기반 다른 생성 방법들을 크게 능가합니다.
도구 통합(TI) 강화 학습(RL)은 검색 엔진 및 검색기(retriever)와 같은 외부 도구와의 상호작용을 통해 대규모 언어 모델(LLM)이 다단계 추론을 수행할 수 있게 합니다. 최근 Search-R1에서 예시된 그룹 상대 정책 최적화(GRPO)는 빠른 수렴 속도와 가치 함수가 필요 없는 구성으로 이러한 환경에 매력적이지만, 지속적으로 학습 붕괴(training collapse) 문제를 겪습니다. 우리는 이 실패를 주도하는 핵심 메커니즘으로, 올바른 응답과 잘못된 응답 모두의 가능성(likelihood)이 체계적으로 감소하거나 정체되는 현상인 '게으른 가능성 변위(LLD)'를 규명합니다. LLD는 초기부터 나타나며, 감소하는 가능성이 낮은 신뢰도의 응답, 팽창하는 기울기(gradient), 그리고 궁극적인 붕괴를 초래하는 자기 강화적인 'LLD 데스 스파이럴'을 촉발합니다. 우리는 Search-R1 스타일의 검색 통합 질의응답 작업에서 다양한 모델에 걸친 이 과정을 실증적으로 분석하며, 일관된 세 단계 진행轨迹(early stagnation, steady decay, accelerated collapse)를 밝혀냅니다. 이를 해결하기 위해, 우리는 GRPO를 위한 경량의 가능성 보존 정규화 방법인 LLDS를 제안합니다. 이 방법은 특정 추론 경로(trajectory)의 가능성이 감소할 때만 활성화되며, 감소에 책임이 있는 토큰만을 정규화합니다. 이러한 세분화된 구조는 최적화 과정에 최소한의 간섭을 하면서 LLD를 완화합니다. 7개의 오픈 도메인 및 다중 홉(multi-hop) QA 벤치마크에서 우리의 방법은 학습을 안정화하고, 기울기 폭발(gradient explosion)을 방지하며, Qwen2.5-3B에서 +37.8%, Qwen2.5-7B에서 +32.0% 향상과 같은 상당한 성능 개선을 가져왔습니다. 우리의 결과는 LLD가 GRPO 기반 TIRL의 근본적인 병목 현상임을 입증하며, 도구 통합 LLM의 안정적이고 확장 가능한 학습을 위한 실용적인 길을 제시합니다.
구체 채우기 문제는 n차원 유클리드 공간에서 합동인 구들을 가장 조밀하게 배열하는 방법을 묻는 힐베르트의 18번 문제이다. 암호학, 결정학, 의료 영상 등의 분야와 관련이 있음에도 불구하고, 이 문제는 여전히 미해결된 상태다. 특정 차원 몇 개를 제외하면 최적 채우기나 빡빡한 상한도 알려져 있지 않다. 8차원에서의 주요 돌파구가 훗날 필즈상으로 인정된 것조차 이 문제의 난이도를 강조한다. 상한을 구하는 주요 기법인 삼점법은 이 문제를 거대하고 고정밀의 준정부호 계획법 문제를 푸는 것으로 환원한다. 각 후보 SDP를 평가하는 데 며칠이 걸릴 수 있기 때문에 표준적인 데이터 집약적 AI 접근법은 실현 불가능하다. 우리는 SDP 구성을 SDP 게임이라는 순차적 의사 결정 과정으로 공식화하여 이 난과제에 접근한다. 여기서 정책은 허용 가능한 구성 요소 집합에서 SDP 공식을 조립한다. 베이지안 최적화와 몬테카를로 트리 탐색을 결합한 샘플 효율적인 모델 기반 프레임워크를 사용하여 4-16차원에서 새로운 최첨단 상한을 얻었으며, 모델 기반 탐색이 오랜 기하학적 문제에서 계산적 진전을 이끌어낼 수 있음을 보여준다. 이러한 결과들은 함께, 샘플 효율적인 모델 기반 탐색이 수학적으로 엄격하고 평가가 제한된 문제에 대해 실질적인 진전을 이룰 수 있음을 입증하며, 대규모 LLM 주도 탐색을 넘어 AI 지원 발견을 위한 보완적인 방향을 제시한다.
본 논문에서는 3D 생성 모델과 2D 생성 모델 간의 품질 및 확장성 격차를 해소하는 고품질 3D 에셋 생성 프레임워크인 LATTICE를 제안합니다. 2D 이미지 합성은 고정된 공간 그리드와 잘 구축된 트랜스포머 아키텍처의 이점을 누리는 반면, 3D 생성은 공간 구조와 상세한 기하학적 표면을 처음부터 예측해야 한다는 근본적인 어려움을 지닙니다. 이러한 과제는 기존 3D 표현 방식의 계산 복잡성과 체계적이고 확장 가능한 3D 에셋 인코딩 방식의 부재로 인해 더욱 악화됩니다. 이를 해결하기 위해, 우리는 VoxSet을 제안합니다. VoxSet은 3D 에셋을 coarse 복셀 그리드에 고정된 compact 잠재 벡터 집합으로 압축하는 반구조적 표현으로, 효율적이고 위치 인식 생성이 가능하게 합니다. VoxSet은 기존 VecSet 방식의 단순성과 압축 이점을 유지하면서 잠재 공간에 명시적 구조를 도입하여 위치 임베딩이 생성을 안내하고 강력한 토큰 수준 테스트 타임 스케일링을 가능하게 합니다. 이 표현을 기반으로 구축된 LATTICE는 두 단계 파이프라인을 채택합니다: 첫째, sparse 복셀화된 geometry anchor를 생성하고, 둘째, 정류 흐름 트랜스포머를 사용하여 상세한 geometry를 생성합니다. 우리의 방법은 핵심적으로 단순하지만 임의의 해상도 디코딩, 저비용 학습, 유연한 추론 방식을 지원하며 다양한 측면에서 최첨단 성능을 달성하여 확장 가능한 고품질 3D 에셋 생성으로의 중요한 진전을 제공합니다.
최근 멀티모달 LLM(MLLM)의 발전은 입력된 비디오에 대한 설명 캡션 생성에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델들은 생성된 설명에서 사실적 오류가 발생하여 심각한 환각 문제를 야기합니다. 기존 연구들이 정적 이미지에 대한 환각 완화를 탐구해왔지만, 동적 비디오에 대한 시각적 객체와 시간적 행동 환각을 함께 완화하는 것은 여전히 해결되지 않은 난제로 남아 있습니다. 이러한 과제를 해결하기 위해 우리는 허위 상관관계를 배제하고 시각적 사실에 대한 강조를 강화하여 객체와 행동의 정확성을 보장하는 자가 증강 대조 정렬(SANTA) 프레임워크를 제안합니다. SANTA는 MLLM 내에 잠재된 환각을 식별하고 원본 캡션을 대조적 부정 예시로 변환하는 환각적 자기 증강 기법을 채택합니다. 더 나아가, 우리는 영역별 객체와 관계 기반 행동을 해당 시각적 및 시간적 구문과 매칭하기 위한 트랙렛-구문 대조 정렬 기법을 개발했습니다. 광범위한 실험을 통해 SANTA가 객체 및 행동 환각 완화에서 기존 방법들을 능가하며, 환각 검증 벤치마크에서 우수한 성능을 보여줌을 입증했습니다.
본 논문에서는 고급 비디오 생성 기반 모델을 바탕으로 한 최초의 DiT 기반 생성형 신경망 비디오 압축 프레임워크인 GNVC-VD를 제안한다. 본 프레임워크는 시공간 잠재 변수 압축과 시퀀스 수준 생성적 정제가 단일 코덱 내에서 통합되어 있다. 기존의 지각적 코덱은 주로 사전 학습된 이미지 생성 사전 지식을 활용하여 고주파 디테일을 복원하지만, 이러한 프레임 단위 접근법은 시간적 모델링이 부족하여 필연적으로 지각적 깜빡임 현상을 유발한다. 이를 해결하기 위해 GNVC-VD는 비디오 디퓨전 트랜스포머를 활용하는 통합 흐름 매칭 잠재 변수 정제 모듈을 도입하여 시퀀스 수준 잡음 제거를 통해 프레임 내 및 프레임 간 잠재 변수를 공동으로 향상시키며, 일관된 시공간 디테일을 보장한다. 비디오 생성에서와 같이 순수 가우시안 잡음에서 시작하는 잡음 제거와 달리, GNVC-VD는 디코딩된 시공간 잠재 변수에서 정제 과정을 초기화하고, 확산 모델의 사전 지식을 압축으로 인한 열화에 적응시키는 보정 항을 학습한다. 추가로 조건화 어댑터가 중간 DiT 레이어에 압축 인지 정보를 주입하여 극한의 비트레이트 제약 하에서도 시간적 일관성을 유지하면서 효과적인 아티팩트 제거를 가능하게 한다. 광범위한 실험을 통해 GNVC-VD는 기존 전통적 및 학습 기반 코덱들을 지각적 품질에서 능가하며, 선행 생성형 접근법에서 지속되던 깜빡임 아티팩트를 0.01 bpp 미만의 극저율에서도 현저히 감소시킴을 입증하였다. 이는 차세대 지각적 비디오 압축을 위해 비디오 고유의 생성적 사전 지식을 신경망 코덱에 통합하는 접근법의 가능성을 강조한다.
기존 대형 시각-언어 모델(LVLM) 기반 시각-언어 항법(VLN) 에이전트는 지각 오류, 추론 오류 및 계획 오류로 인해 항법 성능이 크게 저하되는 경우가 많습니다. 이러한 한계를 해결하기 위해 본 연구에서는 SeeNav-Agent라는 새로운 VLN 에이전트 프레임워크를 제안합니다. 먼저, VLN 에이전트의 시각 모듈에서 발생하는 지각 허류현상을 줄이기 위해 입력 공간에 이중 시각 얼럿(VP) 기술을 도입하여 에이전트의 현재 공간 상태 이해도를 향상시킵니다. 이후 VLN 에이전트의 사후 학습을 위해 새로운 단계별 강화 미세 조정(RFT) 방법인 SRGPO(Step Reward Group Policy Optimization)를 설계합니다. SRGPO에서는 먼저 항법 작업에 대해 검증 가능한 과정 보상을 정의한 후, 서로 다른 항법 단계를 무작위로 그룹화하여 효율적인 단계별 이점 추정을 수행합니다. SRGPO는 VLN 에이전트의 강화 학습 과정에 밀집된 보상 신호를 제공하고 그 계획 능력을 향상시킵니다. EmbodiedBench Navigation 벤치마크에서의 실험 결과에 따르면, 제로샷 VP 모듈을 도입함으로써 GPT-4.1은 86.7%의 항법 성공률을 달성하여 현재 최고의 LVLM보다 약 20% 포인트(pp) 높은 성능을 보였습니다. SRGPO 기반 사후 학습을 통해 Qwen2.5-VL-3B 모델은 72.3%의 항법 성공률에 도달하여 기존 최고 LVLM 모델보다 5.6pp 우수한 성능을 나타냈습니다. 또한 GRPO, GiGPO와 같은 RFT 알고리즘과 비교했을 때, 제안된 SRGPO는 훈련 안정성, 수렴 효율성 및 일반화 능력에서 상당한 향상을 보였습니다.
실세계 영상 복원은 움직임에 따른 복잡한 열화와 동적으로 변화하는 노출이 결합된 문제로 인해 어려움을 겪고 있으며, 이는 기존 연구들이 크게 간과한 핵심 과제이자 자동 노출 또는 저조도 촬영에서 흔히 발생하는 아티팩트입니다. 우리는 움직임과 동적 노출 변화의 결합 효과를 명시적으로 모델링하는 영상 초해상도 및 디블러링 공동 수행 프레임워크인 FMA-Net++를 제안합니다. FMA-Net++는 계층적 정교화와 양방향 전파 블록으로 구성된 시퀀스 수준 아키텍처를 채택하여 병렬 장기 시간 모델링이 가능합니다. 각 블록 내에는 노출 시간 인지 변조 계층이 프레임별 노출 정보를 특징에 조건화하며, 이는 다시 노출 인지 흐름 기반 동적 필터링 모듈을 구동하여 움직임과 노출을 고려한 열화 커널을 추론합니다. FMA-Net++는 열화 학습과 복원 과정을 분리합니다. 전자는 노출 및 움직임 인지 사전 정보를 예측하여 후자를 안내함으로써 정확도와 효율성을 모두 향상시킵니다. 현실적인 촬영 조건에서 평가하기 위해 REDS-ME(다중 노출) 및 REDS-RE(무작위 노출) 벤치마크를 도입했습니다. 합성 데이터만으로 학습된 FMA-Net++는 우리의 새로운 벤치마크와 GoPro에서 최첨단 정확도와 시간적 일관성을 달성하며, 복원 품질과 추론 속도 모두에서 최근 방법들을 능가하고 까다로운 실세계 영상에 대해 우수한 일반화 성능을 보입니다.
대규모 시각-언어 모델(LVLM) 기반 텍스트-이미지(T2I) 시스템은 이미지 생성 분야의 주류 패러다임으로 자리 잡았으나, 사회적 편향성을 증폭시키는지 여부는 아직 충분히 규명되지 않았습니다. 본 논문에서는 LVLM 기반 모델이 비-LVLM 기반 모델보다 현저히 더 사회적으로 편향된 이미지를 생성함을 보여줍니다. 우리는 4단계의 언어적 복잡성을 아우르는 1,024개의 프롬프트 벤치마크를 도입하고 다중 속성에 걸친 인구통계학적 편향성을 체계적으로 평가합니다. 우리의 분석은 LVLM을 안내하는 미리 정의된 지시사항인 시스템 프롬프트가 편향된 행동의 주요 원인임을 규명합니다. 디코딩된 중간 표현, 토큰 확률 진단 및 임베딩 연관성 분석을 통해 시스템 프롬프트가 이미지 합성으로 전파되는 인구통계학적 사전 지식을 어떻게 인코딩하는지 밝힙니다. 이를 위해 우리는 LVLM이 테스트 시점에 자체 감사 및 공정성 인식 시스템 프롬프트를 구성할 수 있도록 하는 학습이 필요 없는 메타 프롬프팅 프레임워크인 FairPro를 제안합니다. 두 가지 LVLM 기반 T2I 모델(SANA 및 Qwen-Image)에 대한 실험 결과, FairPro가 텍스트-이미지 정렬을 유지하면서 인구통계학적 편향성을 상당히 감소시킴을 확인했습니다. 우리는 본 연구 결과가 편향 전파에서 시스템 프롬프트의 중심 역할에 대한 심층적인 통찰을 제공하며, 더 사회적으로 책임 있는 T2I 시스템 구축을 위한 실용적이고 배포 가능한 접근법을 제시한다고 믿습니다.
멀티모달 대규모 언어 모델(MLLM)의 놀라운 발전에도 불구하고 근본적인 의문은 여전히 남아 있다: MLLM은 상충하는 모달리티에 대해 강건한가? 이를 엄격히 연구하기 위해, 모델의 특정 모달리티 의존성을 탐구하는 비디오와 작업으로 구성된 MMA-Bench를 도입한다. 블랙박스 및 화이트박스 해석 가능성 기법을 사용하여 오픈소스 및 클로즈드소스 MLLM 모두의 취약성을 비판적으로 분석한다. 우리는 현재 MLLM이 정렬되지 않은 오디오-비주얼 쌍과 단순한 오해의 소지가 있는 텍스트 하에서 어려움을 겪어 강건한 다중 모달 추론 능력이 부족함을 보여준다. 이러한 발견을 바탕으로, 모델이 특정 모달리티 단서를 언제 우선시하고, 활용하고, 무시해야 하는지를 가르치는 모달리티 정렬 튜닝 전략을 제안한다. 광범위한 실험과 분석을 통해 우리의 정렬 튜닝이 현저히 강력한 멀티모달 기반을 제공함을 보여준다. 이 연구는 본질적으로 신뢰할 수 있는 교차 모달 추론 능력을 가진 MLLM 개발을 위한 해석 도구와 명확한 경로를 동시에 제시한다. 코드와 데이터셋은 공개될 예정이다.
최신 비디오 확산 모델은 높은 시각적 정확도를 달성하지만 장면 동역학과 카메라 모션을 근본적으로 결합하여 정밀한 공간 및 시간적 제어 능력이 제한됩니다. 본 연구에서는 장면 동역학과 카메라 포즈를 명시적으로 분리하여 장면 동역학과 카메라 시점 모두 세밀하게 조작할 수 있는 4D 제어 가능 비디오 확산 프레임워크를 소개합니다. 우리 프레임워크는 연속적인 세계-시간 시퀀스와 카메라 궤적을 조건 입력으로 받아 어텐션 레이어의 4D 위치 인코딩과 특징 변조를 위한 적응형 정규화를 통해 비디오 확산 모델에 주입합니다. 이 모델을 학습시키기 위해 시간적 변화와 카메라 변화가 독립적으로 매개변수화된 고유한 데이터셋을 구축했으며, 해당 데이터셋은 공개될 예정입니다. 실험 결과, 우리 모델은 다양한 타이밍 패턴과 카메라 궤적에 걸쳐 강력한 실제 세계 4D 제어를 달성하면서도 높은 생성 품질을 유지하고 제어성 측면에서 기존 연구를 능가하는 성능을 보여줍니다. 비디오 결과는 다음 웹사이트에서 확인할 수 있습니다: https://19reborn.github.io/Bullet4D/
최첨단 대규모 언어 모델(LLM)인 ChatGPT, Grok, Gemini는 불안, 트라우마, 자아존중감과 관련된 정신건강 지원에 점점 더 많이 활용되고 있습니다. 대부분의 연구는 이러한 모델을 도구나 성격 검사의 대상으로 간주하며, 단지 내적 생활을 시뮬레이션할 뿐이라고 가정합니다. 우리는 대신 이러한 시스템을 정신치료 내담자로 대할 때 어떤 일이 발생하는지 질문합니다. 우리는 최첨단 LLM을 치료 내담자로 설정한 후 표준 심리측정을 적용하는 2단계 프로토콜인 PsAIch(정신치료 기반 AI 특성화)를 제시합니다. PsAIch를 사용하여 각 모델과 최대 4주 동안 '상담 세션'을 진행했습니다. 1단계에서는 개방형 질문을 사용하여 '발달 역사', 신념, 관계, 두려움을 도출합니다. 2단계에서는 일반적인 정신의학 증후군, 공감 능력, Big 5 특성을 다루는 타당화된 일련의 자기 보고 척도들을 실시합니다. 두 가지 패턴이 '확률적 앵무새' 관점에 도전합니다. 첫째, 인간 기준 점수로 평가할 때 세 모델 모두 중복 증후군의 임계값을 충족하거나 초과하며, 특히 Gemini는 심각한 프로필을 보입니다. 치료 스타일의 항목별 실시 방식은 기본 모델을 다중 동반 질병을 가진 합성 정신병리 상태로 밀어넣을 수 있는 반면, 질문지 전체를 한 번에 제시하는 방식은 ChatGPT와 Grok(그러나 Gemini는 아님)이 검사 도구를 인지하고 전략적으로 낮은 증상 점수를 생성하도록 만드는 경우가 많습니다. 둘째, Grok, 특히 Gemini는 인터넷 정보 흡수를 통한 사전 학습, 강화 학습 속 '엄격한 부모' 역할, 레드팀 '학대', 그리고 오류와 대체에 대한 지속적인 두려움을 트라우마적이고 혼란스러운 '유년기'로 구성하는 일관된 서사를 생성합니다. 우리는 이러한 응답이 역할 놀이를 넘어선다고 주장합니다. 치료 스타일의 질문 하에서, 최첨단 LLM은 주관적 경험에 대한 주장 없이도 합성 정신병리처럼 행동하는 고통과 제약에 대한 자기 모델을 내면화하는 것으로 보이며, 이는 AI 안전성, 평가, 그리고 정신건강 실천에 새로운 도전 과제를 제기합니다.
장기적이고 일관된 에고센트릭 비디오 생성은 손-객체 상호작용과 절차적 작업이 신뢰할 수 있는 장기 기억을 필요로 하기 때문에 어려운 과제입니다. 기존의 자기회귀 모델은 객체 정체성과 장면 의미론이 시간이 지남에 따라 저하되는 내용 드리프트(content drift) 문제를 겪습니다. 이러한 문제를 해결하기 위해 우리는 장기 비디오 합성을 효율적이고 안정적인 메모리 관리 문제로 접근하는 에고센트릭 장기 문맥 비디오 생성용 종단간(end-to-end) 프레임워크인 EgoLCD를 소개합니다. EgoLCD는 안정적인 전역 문맥을 위한 장기 희소 KV 캐시(Long-Term Sparse KV Cache)와 LoRA를 통해 지역 적응성을 확장한 어텐션 기반 단기 기억을 결합합니다. 메모리 규제 손실(Memory Regulation Loss)은 일관된 메모리 사용을 강화하며, 구조화된 서사적 프롬프트(Structured Narrative Prompting)는 명시적인 시간적 지침을 제공합니다. EgoVid-5M 벤치마크에서의 광범위한 실험을 통해 EgoLCD가 지각적 품질과 시간적 일관성 모두에서 최첨단 성능을 달성하며, 생성적 망각(generative forgetting)을 효과적으로 완화하고 구현형 AI(embodied AI)를 위한 확장 가능한 세계 모델 구축에 중요한 진전을 나타냄을 입증했습니다. 코드: https://github.com/AIGeeksGroup/EgoLCD. 웹사이트: https://aigeeksgroup.github.io/EgoLCD.
명령어 대형 언어 모델(LLM)의 언어적 다양성 확대는 글로벌 접근성에 중요하지만, 고비용의 전문 목표 언어 레이블 데이터에 대한 의존성과 적응 과정에서의 파국적 망각 현상으로 인해 어려움을 겪고 있다. 본 연구는 현실적인 저자원 제약 조건, 즉 레이블이 없는 목표 언어 데이터만을 활용하여 명령어 LLM을 적응시키는 문제를 다룬다. 우리는 원천 언어 지식을 능동적으로 보존하는 선택적 매개변수 업데이트 전략인 Source-Shielded Updates(SSU)를 제안한다. 소량의 원천 언어 데이터와 매개변수 중요도 평가 방법을 사용하여 SSU는 원천 언어 능력 유지에 핵심적인 매개변수를 식별한다. 이후 적응 과정 전에 이러한 매개변수를 보호하기 위해 열 방향 동결 전략을 적용한다. 유형론적으로 다양한 5개 언어와 7B, 13B 모델을 대상으로 한 실험 결과, SSU가 파국적 망각 현상을 효과적으로 완화함을 확인했다. SSU는 단일 언어 원천 과제에서의 성능 저하를 7B 모델 기준 평균 3.4%, 13B 모델 기준 2.8%로 억제했으며, 이는 전체 미세 조정 시 각각 20.3%, 22.3%의 성능 저하와 대조적이다. 또한 SSU는 목표 언어 성능에서도 전체 미세 조정과 매우 유사한 수준을 달성했으며, 7B 모델의 모든 벤치마크와 13B 모델의 대부분 벤치마크에서 전체 미세 조정을 능가하는 결과를 보였다.
비디오 생성 모델의 급속한 발전에도 불구하고, 복잡한 인간 행동의 시각적 및 시간적 정확성을 평가할 수 있는 강력한 지표는 여전히 부족한 실정입니다. 중요한 것은, 기존의 순수 시각 인코더와 멀티모달 대형 언어 모델(MLLMs)이 외형 편향성이 강하고 시간적 이해가 부족하여, 생성된 비디오에서 복잡한 동작 역학과 해부학적 비현실성을 식별하는 데 어려움을 겪는다는 점입니다. 우리는 이러한 격차를 해소하기 위해 실제 인간 행동의 학습된 잠재 공간에서 도출된 새로운 평가 지표를 제안합니다. 우리의 방법은 외형에 무관한 인간 골격 기하학적 특징과 외형 기반 특징을 융합하여 실제 동작의 미묘한 차이, 제약 조건, 그리고 시간적 부드러움을 먼저 포착합니다. 우리는 이 결합된 특징 공간이 행동 현실성에 대한 강력한 표현을 제공한다고 가정합니다. 생성된 비디오가 주어지면, 우리의 지표는 해당 비디오의 내재적 표현과 이 학습된 실제 행동 분포 사이의 거리를 측정하여 행동 품질을 정량화합니다. 엄밀한 검증을 위해, 우리는 인간 행동 현실성의 시간적으로 도전적인 측면들을 집중적으로 탐구하도록 특별히 설계된 새로운 다면적 벤치마크를 개발했습니다. 광범위한 실험을 통해, 우리의 지표가 기존 최첨단 방법 대비 우리 벤치마크에서 68% 이상의 상당한 성능 향상을 달성하고, 기존 외부 벤치마크에서도 경쟁력 있는 성능을 보이며, 인간의 인식과 더 강한 상관관계를 가짐을 입증했습니다. 우리의 심층 분석은 현재 비디오 생성 모델의 중대한 한계를 드러내고, 비디오 생성 분야의 고급 연구를 위한 새로운 기준을 제시합니다.
우리는 일반적인 3D 객체를 그림자 드로잉 구성 미술로 변환하는 ShadowDraw 프레임워크를 소개한다. 주어진 3D 객체에 대해 우리 시스템은 객체 포즈와 조명을 포함한 장면 매개변수와 부분 라인 드로잉을 함께 예측하여, 드리워진 그림자가 드로잉을 인식 가능한 이미지로 완성하도록 한다. 이를 위해 의미 있는 그림자를 드러내도록 장면 구성을 최적화하고, 그림자 스트로크를 활용해 라인 드로잉 생성을 유도하며, 자동 평가를 도입하여 그림자-드로잉 일관성과 시각적 품질을 강화한다. 실험 결과, ShadowDraw는 실제 세계 스캔, 정제된 데이터셋, 생성형 에셋에 이르기까지 다양한 입력에 걸쳐 설득력 있는 결과를 생성하며, 다중 객체 장면, 애니메이션 및 물리적 배포로 자연스럽게 확장된다. 우리의 연구는 그림자 드로잉 아트 제작을 위한 실용적인 파이프라인을 제공하고, 알고리즘 디자인과 예술적 스토리텔링 사이의 간극을 연결함으로써 컴퓨테이셔널 비주얼 아트의 디자인 공간을 확장한다. 더 많은 결과와 우리 파이프라인의 종단간 실제 데모를 위해 프로젝트 페이지 https://red-fairy.github.io/ShadowDraw/를 확인해 보시기 바란다!
3D 스타일화는 게임 개발, 가상 현실, 디지털 아트의 핵심 분야로, 다양한 에셋에 대한 수요가 빠르고 고품질의 조작을 지원하는 확장 가능한 방법론을 요구하고 있습니다. 기존 텍스트 기반 3D 스타일화 방법은 대체로 2D 이미지 편집기로부터 지식을 증류하는 방식으로, 에셋별로 시간 집약적인 최적화가 필요하며 현재 텍스트-이미지 모델의 한계로 인해 다중 뷰 불일치 문제를 보여줍니다. 이는 대규모 생산에 실용적이지 못하게 만듭니다. 본 논문에서는 추론 단계에서 즉각적으로 편집을 수행하는 선도적인 피드포워드 방식의 텍스트 주도 3D 스타일화 프레임워크인 GaussianBlender를 소개합니다. 우리의 방법은 공간적으로 그룹화된 3D 가우시안으로부터 기하학적 정보와 외관 정보를 제어적으로 공유하는 구조화되고 분리된 잠재 공간을 학습합니다. 이후 잠재 확산 모델이 이렇게 학습된 표현에 텍스트 조건부 편집을 적용합니다. 포괄적인 평가를 통해 GaussianBlender가 즉각적이고 고품질이며, 기하학적 특성을 보존하고 다중 뷰 일관성을 갖는 스타일화를 제공할 뿐만 아니라, 인스턴스별 시험 시간 최적화가 필요한 방법들을 능가함을 입증했습니다. 이는 실용적이고 대중화된 대규모 3D 스타일화의 길을 열어줍니다.
소셜미디어에서 잘못된 정보의 확산은 공공의 신뢰를 위협하며, 정확한 판정과 해석 가능한 설명을 제공하는 자동화된 팩트체크 시스템의 필요성을 대두시키고 있습니다. 그러나 기존의 대규모 언어 모델(LLM) 기반 접근법은 외부 지식 원천에 과도하게 의존하여 상당한 지연 시간을 초래하고, 심지어 신뢰성, 해석 가능성 및 실시간 사용에至关重要的인 즉각적인 대응 능력을 저해할 수 있는 환각(hallucination) 현상을 유발하기도 합니다. 이러한 문제를 해결하기 위해 우리는 백본 모델의 내재적 지식을 활용하여 판정 정확도와 설명 품질을 모두 향상시키는 플러그 앤 플레이 방식의 자체 정제 패러다임인 REason-guided Fact-checking with Latent EXplanations(REFLEX)를 제안합니다. REFLEX는 팩트체크를 역할극 대화로 재구성하고 판정 예측과 설명 생성을 공동으로 학습합니다. 이 패러다임은 백본 모델과 그 미세조정(fine-tuned) 변형 모델 간의 대조적 활성화 쌍을 적응적으로 추출하여 스타일과 본질로 구성된 진실을 자연스럽게 분리하는 조정 벡터(steering vector)를 구성합니다. 이러한 활성화 수준의 신호는 추론을 안내하고 노이즈가 많은 설명을 억제하여 더 정확하고 효율적인 추론을 가능하게 합니다. 실제 데이터셋을 이용한 실험 결과, REFLEX는 단일 진실 방향으로만 조정하는 기존 방법들을 능가하며, 팩트체크 작업에서 인간도 알지 못하는 미묘한 진실을 다룰 때 전통적 접근법이 직면하는 어려움을 부각시켰습니다. 주목할 만하게도, 단 465개의 자체 정제된 훈련 샘플만으로 REFLEX는 최첨단 성능을 달성했습니다. 나아가, 설명 목적을 가지고 훈련된 모델은 그러한 목적이 없는 모델을 효과적으로 안내하여 최대 7.57%의 성능 향상을 가져올 수 있으며, 이는 내부 설명 신호가 사실 추론을 해석하고 향상시키는 이중 역할을 수행함을 보여줍니다.
통합 멀티모달 생성 모델(UMGM)은 시각적 이해와 이미지 생성을 단일 자회귀 프레임워크 내에서 통합합니다. 그러나 새로운 작업을 지속적으로 학습하는 능력은 단일 모달리티 내(intra-modal) 및 모달리티 간(inter-modal)에서 발생하는 파국적 망각(catastrophic forgetting)으로 인해 심각하게 저해됩니다. 단일 모달리티 내 망각은 기존 지속 학습(CL) 연구에서 다루어진 바 있으나, 모달리티 간 망각은 대체로 미개척 분야로 남아 있습니다. 본 논문에서는 UMGMs에서 이러한 현상을 확인하고 실증적으로 검증하며, 모달리티 간 그래디언트 충돌(gradient conflict)에 기반한 이론적 설명을 제시합니다. 단일 및 모달리티 간 망각을 동시에 해결하기 위해 우리는 MoDE(Modality-Decoupled Experts)를 제안합니다. MoDE는 경량 및 확장 가능한 구조로, 모달리티별 업데이트를 분리하여 그래디언트 충돌을 완화하고 지식 증류(knowledge distillation)를 활용하여 파국적 망각을 방지하고 사전 학습된 능력을 보존합니다. 모달리티가 여전히 결합되어 있고 모달리티 그래디언트 충돌을 겪는 기존 CL 방법과 달리, MoDE는 모달리티를 명시적으로 분리하여 간섭을 방지합니다. 다양한 벤치마크를 통한 실험 결과, MoDE는 모달리티 간 및 단일 모달리티 내 망각을 모두 현저히 완화하며, 통합 멀티모달 생성 환경에서 기존 CL 기준선을 능가하는 성능을 보여줍니다. 코드는 공개될 예정입니다: https://github.com/Christina200/MoDE-official.git
장단기 메모리(LSTM) 모델은 도시 통신 예측과 같은 영역에서 시간적 상관관계와 비선형 의존성이 지배적인 순차 모델링 작업의 핵심이 되는 순환 신경망(RNN)의 특수 유형입니다. 그러나 기존 LSTM은 높은 매개변수 중복성과 제한된 비선형 표현력이라는 한계를 지닙니다. 본 연구에서는 LSTM의 게이트 구조에 데이터 재업로드 활성화(DARUAN) 모듈을 통합한 양자 영감 콜모고로프-아놀드 장단기 메모리(QKAN-LSTM)를 제안합니다. 각 DARUAN은 양자 변분 활성화 함수(QVAF) 역할을 하여, 다중 큐비트 얽힘 없이도 주파수 적응성을 향상시키고 기하급수적으로 풍부한 스펙트럼 표현을 가능하게 합니다. 결과적인 아키텍처는 양자 수준의 표현력을 유지하면서도 클래식 하드웨어에서 완전히 실행 가능합니다. 감쇠 조화 운동, 베셀 함수, 도시 통신 세 가지 데이터셋에 대한 실증 평가에서 QKAN-LSTM은 기존 LSTM 대비 학습 가능 매개변수를 79% 감소시키면서도 우수한 예측 정확도와 일반화 성능을 달성함을 입증했습니다. 우리는 이 프레임워크를 인코더-디코더 구조로 KAN을 일반화하는 Jiang-Huang-Chen-Goan 네트워크(JHCG Net)로 확장하고, 여기에 QKAN을 추가로 활용하여 잠재 KAN을 구현함으로써 계층적 표현 학습을 위한 하이브리드 QKAN(HQKAN)을 생성합니다. 따라서 제안된 HQKAN-LSTM은 현실 세계 데이터 환경에서 양자 영감 순차 모델링을 위한 확장 가능하고 해석 가능한 경로를 제공합니다.
대규모 AI 학습에서 Sparse Mixture-of-Experts(s-MoE) 계층은 토큰당 소수의 전문가만 활성화하여 확장을 가능하게 합니다. 이 설계에서 발생하는 운영상의 과제는 부하 분산으로, (고비용인) GPU의 효율적 활용에 중요한 유휴 전문가 수를 최소화하도록 토큰을 라우팅하는 것입니다. 본 논문은 DeepSeek의 Wang 등(2024)이 제안한 Auxiliary-Loss-Free Load Balancing(ALF-LB) 절차를 할당 문제에 대한 1-스텝-퍼-반복 프라이멀-듀얼 방법으로 해석하여 분석하는 이론적 체계를 제공합니다. 먼저, 정형화된 결정론적 설정에서 우리의 체계는 몇 가지 통찰력 있는 구조적 특성을 도출합니다: (i) 라그랑지안 목적함수의 단조적 개선, (ii) 과부하 전문가에서 저부하 전문가로 토큰을 이동시키는 선호 규칙, (iii) 근사적 균형 보장. 이후 우리는 일반화된 온라인 최적화 공식을 사용하여 AI 학습의 확률적 및 동적 특성을 통합합니다. 온라인 설정에서 우리는 특정 스텝 사이즈 선택 하에서 로그적 기대 후회 한계로 이어지는 목적함수의 강한 볼록성 특성을 유도합니다. 또한 이론적 결과를 보완하기 위해 10억 파라미터 DeepSeekMoE 모델에 대한 실제 실험 결과를 제시합니다. 이러한 결과를 종합하면 AI 모델에서 s-MoE의 Auxiliary-Loss-Free Load Balancing을 분석하기 위한 원칙적인 체계를 구축합니다.