번역이 포함된 일일 선별된 AI 연구 논문
세계 모델은 현재 관찰과 행동에 기반하여 환경 동역학을 예측하며, 추론 및 계획을 위한 핵심 인지 메커니즘으로 기능한다. 본 연구에서는 언어 모델 기반의 세계 모델링이 어떻게 일반 에이전트의 경계를 더욱 확장할 수 있는지 탐구한다. (i) 먼저 에이전트 환경 시뮬레이션을 위한 기초 모델 구축에 초점을 맞춘다. 우리는 긴 사고 사슬 추론을 통해 7개 도메인을 포괄하는 에이전트 환경을 시뮬레이션할 수 있는 최초의 언어 세계 모델인 Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B를 소개한다. 실제 환경에서 7개 도메인의 1천만 개 이상의 환경 상호작용 궤적을 활용하여, 3단계 훈련 파이프라인을 통해 Qwen-AgentWorld를 개발한다: CPT는 상태 전이 동역학과 증강된 전문 코퍼스로부터 일반 목적의 세계 모델링 능력을 주입하고, SFT는 다음 상태 예측 추론을 활성화하며, RL은 하이브리드 루브릭 및 규칙 기반 보상을 갖춘 맞춤형 프레임워크를 통해 시뮬레이션 충실도를 개선한다. 언어 세계 모델을 평가하기 위해, 9개의 정립된 벤치마크에서 5개의 최첨단 모델의 실제 상호작용으로 구축된 종합 벤치마크인 AgentWorldBench를 제시한다. 실증 결과는 Qwen-AgentWorld가 기존 최첨단 모델을 크게 능가함을 보여준다. (ii) 기초 모델을 넘어, 세계 모델링이 일반 에이전트를 향상시키는 두 가지 상보적 패러다임을 추가로 탐구한다. 첫째, 분리된 환경 시뮬레이터로서 Qwen-AgentWorld는 에이전트 강화 학습을 위해 수천 개의 실제 환경에 대한 확장 가능하고 제어 가능한 시뮬레이션을 지원하며, 이는 실제 환경 훈련만으로는 얻을 수 없는 이득을 제공한다. 둘째, 통합 에이전트 기초 모델로서 세계 모델 훈련은 매우 효과적인 워밍업 역할을 하여 7개의 에이전트 벤치마크에서 다운스트림 성능을 향상시킨다. 코드: https://github.com/QwenLM/Qwen-AgentWorld
우리는 NatureBench를 소개한다. 이는 동료 검토를 거친 Nature 계열 학술지에서 추출한 90개의 과제로 구성된 학제 간 벤치마크로, AI 코딩 에이전트가 실제 과학 문제에서 재현을 넘어 발견으로 나아갈 수 있는지 평가하기 위해 설계되었다. NatureBench는 NatureGym을 기반으로 구축되었으며, NatureGym은 원본 논문에서 표준화된 과제별 컨테이너화 환경을 구축하는 자동화 파이프라인으로, 이전 연구용 에이전트 벤치마크의 신뢰성을 제한했던 환경 분열 문제를 해결한다. 엄격한 웹 검색 비활성화 프로토콜 하에서 10개의 최첨단 에이전트 구성을 평가한 결과, 가장 강력한 모델이 g>0.1 기준 하에서 17.8%의 과제에 대해서만 SOTA를 능가하는 것으로 나타났다. 방법론적 경로 분석은 에이전트가 진정한 과학적 발명보다는 방법론적 번역, 즉 과학적 과제를 익숙한 지도 예측 문제로 변환함으로써 주로 성공한다는 것을 보여준다. 실패의 주요 원인은 과제 오해가 아니라 잘못된 방법 선택과 불충분한 계산 예산이다. 우리는 벤치마크, NatureGym 파이프라인 및 유지보수자 측 재현이 가능한 공개 리더보드를 공개한다. 코드: https://github.com/FrontisAI/NatureBench
MLLM 기반 모바일 GUI 에이전트는 UI 이해 및 액션 실행에서 상당한 진전을 이루었지만, 실제 대상 앱에 적용하는 데는 여전히 높은 비용이 소요된다. 이는 모바일 앱이 다양하고 자주 업데이트되며, 사람이 작성한 작업, 시연 데이터 또는 보상 레이블로 모든 앱을 포괄하기 어렵기 때문이다. 기존의 주석 없는 GUI 학습은 수동 감독을 줄여주지만, 대상 앱 탐색, 커리큘럼 마이닝, 롤아웃 실행, 피드백을 연결하는 통합 기반(substrate)이 부재하며, 정책 최적화는 종종 독립적인 롤아웃과 신뢰할 수 있는 개선 신호로 변환하기 어려운 조악한 보상에 의존한다. 본 논문에서는 모바일 GUI 에이전트를 위한 주석 없는 적응 시스템인 MobileForge를 제안한다. MobileForge는 실제 모바일 앱 상호작용에서 작업 생성 및 롤아웃 평가를 기반으로 하는 MobileGym과, 궤적 결과, 단계별 프로세스 피드백 및 수정 힌트를 힌트-맥락화된 단계별 GRPO 업데이트로 변환하는 계층적 피드백 유도 정책 최적화(Hierarchical Feedback-Guided Policy Optimization, HiFPO)로 구성된다. 자동 생성된 주석 없는 적응 데이터만을 사용하여, MobileForge는 Qwen3-VL-8B를 AndroidWorld에서 67.2% Pass@3로 적응시켰으며, 이는 비공개 데이터로 학습된 GUI 특화 GUI-Owl-1.5-8B 기본 모델의 69.0%에 근접한 수치이다. MobileForge로 적응된 ForgeOwl-8B는 AndroidWorld에서 77.6% Pass@3, 도메인 외부(out-of-domain) MobileWorld GUI 전용 분할에서 41.0% 성공률을 달성하여, 본 평가에서 가장 강력한 공개 데이터 기반 모바일 GUI 에이전트를 확립하였다. 코드, 데이터 및 학습된 모델은 https://mobile-forge.github.io/에서 공개될 예정이다.
MLLM 기반 모바일 GUI 에이전트는 단기 과제에서 상당한 진전을 이루었지만, 여러 단계와 앱 전환에 걸쳐 중간 사실을 유지해야 하는 장기 과제에서는 여전히 신뢰성이 낮습니다. 우리는 이러한 한계를 ReAct 스타일 프롬프팅에 기인한다고 보는데, 이는 단계별 기록을 수동적으로 축적하여 프롬프트가 팽창하고 중요한 교차 앱 사실이 희석되게 만듭니다. 이를 해결하기 위해, 우리는 선제적 컨텍스트 관리를 갖춘 종단 간 장기 과제 모바일 GUI 에이전트인 MemGUI-Agent를 소개합니다. MemGUI-Agent는 Context-as-Action(ConAct)을 기반으로 구축되었으며, ConAct는 컨텍스트 관리를 UI 액션을 선택하는 것과 동일한 정책이 생성하는 일급 액션으로 간주합니다. ConAct는 수동적으로 기록을 추가하는 대신, 접힌 액션 이력, 접힌 UI 상태, 최근 단계 기록이라는 세 가지 구조화된 컨텍스트 필드를 유지하여 컨텍스트를 간결하게 유지하면서 중요한 UI 사실을 보존합니다. 선제적 컨텍스트 관리를 다양한 모델 규모에서 학습 가능하게 만들기 위해, 우리는 지도 학습 및 오프라인 분석을 위한 전체 ConAct 주석이 포함된 2,956개 트래젝토리 데이터셋인 MemGUI-3K를 구축했습니다. MemGUI-3K로 8B 모델을 학습시킨 결과, MemGUI-Bench에서 최고의 공개 데이터 8B 성능을 달성하고 분포 외인 MobileWorld 벤치마크로 일반화되는 8B MemGUI-Agent인 MemGUI-8B-SFT를 얻었습니다. 코드, 데이터 및 학습된 모델은 https://memgui-agent.github.io/에서 공개될 예정입니다.
에이전틱 언어 모델은 AI의 응용 분야를 획기적으로 확장하지만, 광범위한 능력을 갖춘 에이전트를 위한 훈련 데이터를 어떻게 큐레이션해야 하는지에 대해서는 공개적으로 알려진 바가 거의 없다. SWE-Smith, SERA, Nemotron-Terminal과 같은 기존의 공개 프로젝트들은 주로 단일 벤치마크를 대상으로 하여, 다양한 에이전틱 작업에 걸쳐 일반화되는 모델을 훈련하는 방법에 대한 질문은 여전히 열려 있다. OpenThoughts-Agent(OT-Agent) 프로젝트는 에이전틱 모델 훈련을 위한 완전히 공개된 데이터 큐레이션 파이프라인을 제공함으로써 이러한 격차를 해소한다. 우리는 100회 이상의 통제된 절제 실험을 수행하여 파이프라인의 각 단계를 체계적으로 조사했으며, 작업 소스와 다양성의 중요성에 대한 통찰을 얻었다. 이후 우리는 파이프라인에서 100K개의 예시로 구성된 훈련 세트를 구축하고 이 데이터셋으로 Qwen3-32B를 미세 조정하여, 7개의 에이전틱 벤치마크에서 평균 정확도 44.8%를 달성했으며, 이는 기존 최고의 공개 데이터 에이전트 모델(Nemotron-Terminal-32B, 40.9%) 대비 3.9%포인트 향상된 수치이다. 또한 우리의 훈련 데이터는 강력한 확장 특성을 보여주며, 모든 훈련 세트 크기에서 계산 자원 제어 비교 시 대체 공개 데이터셋보다 뛰어난 성능을 보인다. 우리는 훈련 세트, 데이터 파이프라인, 실험 데이터 및 모델을 openthoughts.ai에 공개하여 향후 에이전틱 모델 훈련에 대한 공개 연구를 지원하고자 한다.
AI 에이전트는 도구 자동 호출, 정보 추출, 메모리 관리, 그리고 여러 애플리케이션과 데이터 소스를 아우르는 작업 완료 능력을 갖춘 새로운 소프트웨어 패러다임을 주도하고 있다. 그러나 현재 대부분의 최종 사용자 운영체제는 애플리케이션 중심 워크플로우에 맞춰 설계되어 AI 에이전트에 대한 기본적인 지원이 거의 없다. 이러한 부조화는 에이전트의 광범위한 채택을 제한할 뿐만 아니라, 기존 시스템에서 에이전트를 실행할 때 실행 오버헤드와 안전 위험을 초래한다. 에이전트 네이티브 운영체제 개념이 등장하고 있지만, 연구 커뮤니티는 에이전트 매개 상호작용에 필요한 아키텍처 프리미티브를 탐색할 수 있는 개방형 테스트베드가 부족한 실정이다. 본 논문에서는 Android Open Source Project(AOSP) 기반의 OS 수준 에이전트 하네스인 AOHP(Android Open Harness Project)를 제시한다. AOHP의 핵심 설계 원칙은 에이전트를 일급 OS 액터로 취급하여 적응형 사용자 인터페이스와 에이전트 친화적 런타임 환경을 가능하게 하는 것이다. AOHP는 성숙한 Android 소프트웨어 및 하드웨어 생태계를 유지하면서, 세 가지 에이전트 지향 시스템 메커니즘(개인화된 서비스 구성, 효율적인 에이전트 인터페이스, 안전한 정보 흐름)을 도입한다. OS 에이전트의 핵심 기능을 포괄하는 까다로운 작업에 대한 예비 실험 결과, AOHP는 작업 완료율(+21.12% 완료율), 실행 비용(-51.55% 토큰 비용), 보안 정책 준수 측면에서 명확한 우위를 보여준다.
정신 질환은 전 세계적으로 유병률이 매우 높지만, 정신과 의사의 부족과 면담 기반 진단의 내재적 주관성으로 인해 시의적절하고 일관된 정신 건강 평가에 상당한 장애가 존재합니다. AI 기반 정신과 진단의 발전은 현실적인 환자 시뮬레이션, 임상의가 검증한 진단 레이블, 그리고 동적 다회차 상담 지원을 동시에 제공하는 벤치마크의 부재로 인해 제약을 받고 있습니다. 본 연구에서는 중국어 기반의 정적 진단 추론과 동적 다회차 정신과 상담 모두에서 LLM을 평가하는 대규모 멀티에이전트 벤치마크인 LingxiDiagBench를 제시합니다. 이 벤치마크의 핵심에는 12개의 ICD-10 정신과 범주에 걸쳐 실제 임상 인구통계학적 및 진단적 분포를 재현하도록 설계된 16,000개의 EMR 정렬 합성 상담 대화 데이터셋인 LingxiDiag-16K가 있습니다. 최첨단 LLM을 대상으로 한 광범위한 실험을 통해 다음과 같은 주요 결과를 도출했습니다. (1) LLM은 이분법적 우울증-불안 분류에서 높은 정확도(최대 92.3%)를 달성하지만, 우울증-불안 동반 질환 인식(43.0%) 및 12개 항목 감별 진단(28.5%)에서는 성능이 현저히 저하됩니다. (2) 동적 상담은 종종 정적 평가보다 낮은 성능을 보이며, 이는 비효율적인 정보 수집 전략이 하위 진단 추론을 심각하게 저해함을 나타냅니다. (3) LLM-as-a-Judge로 평가한 상담 품질은 진단 정확도와 중간 정도의 상관관계만 보여, 잘 구조화된 질문만으로는 올바른 진단 결정이 보장되지 않음을 시사합니다. 재현 가능한 연구를 지원하기 위해 LingxiDiag-16K와 전체 평가 프레임워크를 https://github.com/Lingxi-mental-health/LingxiDiagBench 에서 공개합니다.
단일 이미지로부터 탐색 가능한 3D 장면을 생성하려면 강력한 생성적 사전 지식과 다운스트림 활용에 적합한 정확한 기하학적 표현이 필요하다. 현재 비디오 확산 모델은 고품질 생성을 제공하며 잠재 공간에서 다중 시점 기하 구조를 암시적으로 인코딩한다. 그러나 기존의 피드포워드 잠재 장면 디코더는 일반적으로 명확한 표면이 정의되지 않은 체적 3D 가우시안을 출력하므로 시뮬레이션이나 표준 그래픽 파이프라인에서의 사용이 제한된다. 이에 따라 렌더링이 가능할 뿐만 아니라 명시적 기하 자산에 더 가까운 표면 정렬 프리미티브를 디코딩할 필요성이 제기된다. 본 연구에서는 압축된 비디오 확산 잠재 변수를 단일 패스로 명시적 표면 프리미티브에 직접 매핑할 수 있는지 질문한다. 이를 위해 FLAT을 도입하며, 처음으로 비디오 확산 잠재 변수로부터 삼각형 스플랫을 직접 디코딩할 수 있음을 보여준다. 3D 가우시안을 디코딩하는 것과 비교하여 평면 프리미티브를 예측하는 것은 프리미티브 방향에 대한 높은 민감성으로 인해 훨씬 더 어려운 것으로 악명 높으며, 종종 기울기 흐름이 좋지 않다. FLAT은 두 가지 핵심 요소, 즉 삼각형 회귀를 위한 광선 중심 회전 매개변수화와 미분 가능 삼각형 렌더링 중 기울기 흐름을 개선하는 새로운 곱 윈도우 함수를 통해 이 문제를 해결한다. 표준 벤치마크에서 FLAT은 최신 피드포워드 기준선과 비교하여 경쟁력 있는 시각적 품질을 유지하면서 기하학적 정확도를 크게 향상시킨다. 또한 가벼운 테스트 시점 정제 단계를 통해 예측된 삼각형 집합을 완전히 불투명한 게임 엔진 준비 표현으로 변환하여 실시간 렌더링을 지원함을 보여준다. 동일한 학습 설정 하에서 3DGS, 2DGS 및 삼각형 스플랫 변형을 평가함으로써 피드포워드 장면 생성에서 표현의 트레이드오프에 대한 최초의 체계적 분석을 제공한다. 프로젝트 페이지는 https://flat-splat.github.io 에서 확인할 수 있다.
최신 텍스트-이미지 모델은 시각적 충실도와 프롬프트 준수 측면에서 뛰어난 성능을 보인다. 그러나 이러한 엄격한 준수는 다양성을 희생하는 대가를 치른다. 즉, 생성된 샘플이 단일 시각적 해석으로 수렴하는 경향이 있다. 기존의 다양성 개선 방법은 의미 있는 설계 선택보다는 우연한 변이에 의해 결정되는 출력을 생성한다. 이는 생성된 샘플에 구조를 부여하는 새로운 형태의 다양성 과제의 필요성을 제기한다. 본 논문에서는 사용자가 구조화된 이미지 갤러리를 탐색하고 의미 있고 해석 가능한 변이 축을 따라 체계적으로 이동하며 창의적 탐구를 경험할 수 있는 '의미 기반 탐색(Semantic Browsing)'을 가능하게 하는 제어된 다양성 방법을 소개한다. 이러한 수준의 의미적 제어를 달성하려면 장면에 대한 깊은 이해가 필요하다. 우리는 최근 텍스트-이미지 모델이 정교한 캡션으로 훈련되어 의미 결정 과정을 픽셀 생성으로부터 효과적으로 분리한다는 사실을 활용한다. 이는 패러다임 전환을 가능하게 한다. 즉, 텍스트-이미지 모델 내의 확률적 변이에 의존하는 대신 텍스트 수준에서 직접 다양성을 유도하는 것이다. 풍부한 텍스트 표현을 활용함으로써 비전-언어 모델(VLM)이 전체 장면 맥락에서 작동할 수 있도록 한다. 표준 VLM의 전형적인 일반적 출력 문제를 극복하기 위해, 원래 프롬프트에 부합하는 구조화된 변이를 명시적으로 강제하는 에이전트 기반 워크플로우(agentic workflow)를 사용한다. 우리는 제안된 방법이 다양하고 탐색 가능한 설계 공간을 생성하며, 모든 변이가 사용자가 이해할 수 있는 특정 의미적 결정에 해당함을 입증한다.
에이전트란 무엇인가? 행위 주체성(agency)은 무엇으로 구성되는가? '코딩 에이전트', 'AI 공동 과학자' 등 생산성 향상을 약속하는 '에이전트적(agentic)' 도구로 홍보되는 대규모 언어 모델(LLM) 시스템의 부상과 동시에, AI가 인간을 향한 투기적 '기계적 행위 주체성(machine agency)' 하에서 파괴적 능력을 지닌 채 인간 통제를 벗어난다는 '실존적' 우려가 제기됨에 따라, 자동화가 끝나고 행위 주체성이 시작되는 지점을 명확히 하는 것이 필수적이 되었다. 이는 유능한 시스템을 구축하기 위해서이자, 무엇을 두려워해야 하는지 그리고 두려워해야 하는지 여부를 이해하기 위해서이다. 독립적 사고에 기반한 행위 주체성에 대한 데카르트의 기초와 공상과학 속 자율적 존재의 묘사에서 출발하여, 우리는 현재 AI 에이전트 환경을 조사하고, 다섯 가지 차원(목표, 정체성, 의사 결정, 자기 조절, 학습)에 따라 에이전트 아키텍처를 분석한다. 구체적으로, 우리는 진정한 행위 주체성은 이러한 구조가 외부적 지원 구조(external scaffolding)를 통해 조립되는 것이 아니라 시스템 자체 내에 내재화되어야 한다고 주장한다. 이러한 구분, 즉 역량이 엔지니어링된 워크플로에 존재하는 에이전트적 시스템과 (사회적 상호작용을 포함한) 능력이 내생적으로 발생하는 에이전티브(agentive) 시스템 간의 구분은 규정된 작업을 위해 설계된 시스템과 진정한 자율성으로 열린 세계에서 작동할 수 있는 시스템 사이의 경계를 정의한다. 이 분석을 바탕으로, 우리는 범용 에이전트 모델을 위한 목표-정체성-구성자(GIC) 아키텍처를 제안한다. 이는 계층적 목표 분해, 정체성 진화, 별도로 학습된 세계 모델에 기반한 시뮬레이션적 추론, 학습된 자기 조절, 그리고 실제 및 시뮬레이션 경험으로부터의 자기 주도적 학습을 결합한다. 더 나아가, 우리는 더 큰 자율성과 '행위 주체성'을 가지지만 여전히 인간의 감독 하에 있는 에이전티브 시스템의 감사 가능성, 제어 가능성, 그리고 안전성에 대한 통찰을 공유한다.
연합 학습(FL) 내에서 잠재 확산 모델(LDM)을 학습하는 것은 LDM의 강력한 생성 능력과 FL의 개인정보 보호 특성을 결합할 수 있어 점점 더 주목받고 있다. 그러나 FL은 여러 참여자와 글로벌 모델을 공유해야 하므로, 악의적인 클라이언트에 의한 무단 모델 배포 또는 재판매의 위험이 존재한다. 직관적인 접근법으로 FL 내 LDM에 기존 VAE 기반 워터마킹 기술을 적용하는 방법을 생각할 수 있지만, 이 전략은 두 가지 근본적인 과제로 인해 이러한 위협을 해결하는 데 부족하다: (1) 기존 방법은 소유권 검증을 지원하지만 특정 악의적인 클라이언트로의 모델 누출을 추적하는 기능이 부족하다; (2) VAE 기반 워터마크는 취약하여 디코더를 깨끗한 디코더로 교체하는 것만으로 제거될 수 있다. 본 논문에서는 연합 LDM에서 소유권 검증 및 누출 추적을 위한 최초의 프레임워크인 FedOT를 제안한다. 구체적으로, 첫 번째 과제를 해결하기 위해 분할 워터마크를 설계하였는데, 첫 번째 부분은 소유권 검증을 위한 것이고 두 번째 부분은 클라이언트 식별에 사용된다. 나아가 두 번째 과제를 극복하고 VAE 교체 공격으로부터 모델을 보호하기 위해 잠재 벡터 변환(LVT)을 도입한다. 이는 VAE의 원래 잠재 분포를 수정함으로써 VAE와 U-Net 잠재 공간 간의 연결을 강화한다. 결과적으로, 워터마크 제거를 위해 VAE를 교체하려는 모든 시도는 심각한 이미지 품질 저하를 초래하여 LDM 모델을 사용할 수 없게 만든다. 광범위한 실험을 통해 FedOT가 소유권 검증과 추적 가능성 모두에서 우수한 성능을 달성함을 입증한다. 프로젝트 페이지: https://spyzixuan.github.io/FedOT/.
경험 기반 자기 진화는 대규모 언어 모델(LLM) 에이전트가 개방형 세계 상호작용을 통해 개선하는 데 중요하다. 그러나 기존의 경험 학습 방법은 대부분 단일 에이전트 루프에 의존하는데, 이는 동일한 에이전트가 작업을 실행하고, 결과를 요약하며, 메모리 내용을 결정하는 구조이다. 이러한 설정은 에이전트가 자기 확증 함정(Self-Confirmation Trap)에 취약하게 만든다. 즉, 틀렸지만 자기 일관적인 궤적이 성공적인 경험으로 잘못 식별되어 검색 및 재사용 시 누적 오류를 초래한다. 이 문제를 해결하기 위해 우리는 신뢰할 수 있는 경험 학습을 위한 실행-증류-검증(Execute-Distill-Verify) 프레임워크인 EDV를 제안한다. 실행(Execute) 단계에서는 여러 이질적 에이전트가 동일한 작업 공간을 병렬로 탐색하여 다양한 후보 궤적을 생성한다. 증류(Distill) 단계에서는 전용 제3자 에이전트가 이러한 궤적을 비교 분석하여 후보 경험을 생성함으로써 실행자 중심의 요약 편향을 줄인다. 검증(Verify) 단계에서는 실행 그룹이 합의 메커니즘을 통해 후보를 검증하고, 승인된 경험만 공유 또는 개인 메모리에 기록된다. 세 단계를 분리함으로써 EDV는 경험 학습을 고립된 자기 성찰에서 협력적 구축으로 전환하여, 메모리 삽입 전에 오류 및 잡음 콘텐츠를 필터링한다. 우리는 EDV를 세 가지 도전적인 장기 벤치마크(tau2-bench, Mind2Web, MMTB)에서 평가한다. 결과는 EDV가 강력한 기준선을 일관되게 능가함을 보여주며, 신뢰할 수 있는 경험 구축이 강건한 에이전트 자기 진화에 필수적임을 입증한다. 우리의 코드는 https://github.com/shidingz/EDV에서 확인할 수 있다.
텍스트-이미지(T2I) 생성 모델은 자연어 프롬프트로부터 시각적으로 사실적인 이미지를 생성하는 데 있어 놀라운 진전을 이루었다. 그러나 이러한 성공이 진정한 인과적 이해를 반영하는지, 아니면 시각-텍스트 상관관계에 대한 정교한 패턴 매칭을 반영하는지는 여전히 불분명하다. 러셀의 귀납주의적 칠면조(Russell's inductivist turkey)에서 영감을 얻어, 우리는 텍스트-이미지 모델이 현실 세계의 사전 지식과 체계적으로 모순되는 규칙 하에서 이미지를 생성할 수 있는지 조사하기 위해 반사실적 벤치마크인 Counterfactual-World(CF-World)를 도입한다. CF-World는 각 시나리오를 세 가지 점진적 수준, 즉 일반적인 세계 지식 하의 사실적 생성, 직접적인 시각적 지침이 있는 명시적 반사실적 생성, 그리고 변경된 규칙으로부터 인과적 추론이 필요한 암시적 반사실적 생성으로 구성한다. 우리는 시각 언어 모델(VLM) 기반 평가기(CF-Eval)를 사용하여 오픈소스 및 폐쇄형 T2I 모델을 모두 평가한다. 또한, 모델이 고착된 현실 세계의 사전 지식을 극복하는 능력을 측정하는 사전 확률 저항률(PRR)과, 모델이 명시적인 시각적 단서 없이 추론에 의존하는 반사실적 생성을 유지할 수 있는지 평가하는 추론 유지율(RRR)이라는 두 가지 지표를 도입한다. 실험 결과, 모든 모델이 사실적 설정에서 반사실적 설정으로 갈수록 급격한 성능 저하를 보였다. 추가 분석에 따르면 이러한 실패는 현재 T2I 모델이 세계 지식과 시각적 외양을 밀접하게 결합된 패턴으로 인코딩하기 때문에 발생한다. 결과적으로, 이러한 모델이 훈련 데이터 내 빈번한 시각적 공기(共起)에 크게 의존함에 따라, 반사실적 세계를 렌더링해야 할 때 익숙한 상식적 사전 지식으로 회귀하게 된다.
이미지 생성을 위한 확산 트랜스포머(DiT) 연구는 ImageNet에서의 클래스 조건부 생성이라는 단일 평가 설정으로 수렴하고 있다. 방법론들이 FID 및 관련 지표를 개선하고 있지만, 이것들이 생성 모델링의 실질적인 진전을 반영하는지 여부는 점점 불분명해지고 있다. 자연스러운 대안인 텍스트-투-이미지(T2I) 생성은 훈련 및 평가에 너무 많은 비용이 들거나 불편하다고 인식되어 종종 생략된다. 우리는 이러한 인식이 더 이상 유효하지 않다고 주장한다. 우리는 통합된 DiT 훈련 및 평가 프레임워크인 NanoGen을 소개한다. NanoGen은 ImageNet에서 최첨단 DiT 기준선과 일치하는 성능을 보이며, 단 12줄의 구성 변경만으로도 경쟁력 있는 텍스트-투-이미지 모델을 훈련한다. 현재 NanoGen은 ImageNet과 T2I 설정 모두에서 RAE, VAE, 픽셀 공간, MeanFlow 확산 방법을 지원한다. NanoGen에서 T2I 훈련은 ImageNet과 유사한 계산량을 필요로 한다. NanoGen으로 21개의 잠재 확산 모델을 훈련한 후, 방법 순위가 ImageNet과 T2I 생성 간에 강한 상관관계를 보이지 않음을 관찰했다: 세 가지 지표에서 피어슨 상관계수는 -0.377에서 -0.580 사이였다. 이는 클래스 조건부 ImageNet FID를 개선하는 방법이 T2I에서 상응하는 개선을 보이지 않을 수 있음을 시사하며, DiT를 두 작업 모두에서 평가해야 할 필요성을 분명히 보여준다. 이를 위해 ImageNet 및 텍스트-투-이미지 결과를 요약하여 DiT 연구를 위한 포괄적 벤치마크인 DiffusionBench를 도출했다. 우리는 ImageNet 단독 대신 DiffusionBench를 보고할 것을 권장한다: DiffusionBench를 개선하는 방법이 더 광범위한 진전을 반영할 가능성이 높다.
시각적 수학적 추론을 위한 강화 학습 확장은 단순히 더 어려운 질문을 생성하는 것 이상을 요구한다. 데이터의 양이 증가함에 따라 보상 레이블 자체도 신뢰할 수 있어야 하기 때문이다. 그러나 기존의 데이터 파이프라인은 레이블 작성자를 신뢰하면서 감독을 확장하고, 정책 측면 방법은 기본 답변이 이미 정확하다고 가정한다. 반면 우리는 확장을 검증 가능한 데이터 구성 문제로 간주하고, 정책 업데이트 전에 두 가지 축, 즉 경로별 진화 연산자로 확장되는 프롬프트 난이도와 오프라인 가설 검증 반증으로 강화되는 답변 신뢰성을 분리한다. 이를 VeriEvol로 구현했으며, 이는 두 가지 확장 가능한 구성 요소를 갖춘 반복적 프레임워크이다: 낮은 난이도의 이미지-질문 시드를 더 어렵고 이미지 기반의 프롬프트로 재작성하는 유형 인식 진화 모듈과, 다중 소스 반증 증거가 이를 반박하는 데 실패한 후에만 답변을 수락하는 검증기 HTV-에이전트이다. 이렇게 생성된 검증된 데이터는 양적으로 확장되며, 진화 경로나 검증기 채널을 추가함으로써 확장 가능하고, 기존의 GRPO 스타일 강화 학습 레시피에 직접 적용된다. 다섯 개의 벤치마크 시각적 수학 평가 세트에서, 진화된 지도 미세 조정 데이터를 10K에서 250K 샘플로 확장하면 평균 정확도가 35.42에서 54.73으로 상승한다. 그런 다음, 백본, 지도 미세 조정 초기화, GRPO 레시피를 고정한 상태에서 VeriEvol은 진화되지 않은 강화 학습 기준선 대비 누적 +3.88을 추가하며, 이 중 +1.82는 진화된 프롬프트에서, +2.06은 HTV-에이전트 검증기에서 비롯된다. 우리는 프롬프트, 데이터, 모델, 코드 및 모든 샘플의 전체 검증기 추적을 공개하여, 후속 연구가 출력물만 검사하는 대신 파이프라인을 확장하고 감사할 수 있도록 한다.
훈련 데이터의 구성은 데이터 소스의 다양성과 혼합 전략에 의해 결정되며, 이는 대규모 언어 모델(LLM) 사전 훈련의 초석이다. 훈련 중 데이터 혼합을 적응적으로 조정하는 기법인 온라인 데이터 혼합(ODM)은 효율성을 개선하기 위한 유망한 방향으로 부상했다. 그러나 기존 방법은 단일 최적화 관점에 의존한다는 한계를 지니며, 이는 복잡한 LLM 사전 훈련이 다차원에서 동적 데이터 구성을 고려해야 할 필요성을 근본적으로 간과한다. 이러한 한계를 극복하기 위해, 우리는 새로운 온라인 데이터 혼합 프레임워크인 HDS(Holistic Data Scheduler)를 소개한다. HDS는 데이터 스케줄링 문제를 연속 제어 공간에서의 강화 학습 문제로 정식화하고, 고차원 정책 공간 탐색에서의 안정성과 샘플 효율성을 위해 SAC(Soft Actor-Critic) 알고리즘을 활용한다. HDS의 핵심에는 데이터 기반 품질 보상, 도메인 간 영향을 포착하는 손실 기반 보상, 가중치 노름에 기반한 모델 기반 보상이라는 세 가지 중요한 관점을 통합하는 새로운 다중 목표의 전체적 보상 함수가 자리한다. 설계의 타당성을 검증하고 최적 구성을 결정하기 위해, 우리는 다양한 크기의 LLM에 대해 체계적인 실험을 수행했다. The Pile 벤치마크에서 HDS는 다음으로 우수한 방법의 최종 검증 퍼플렉서티(perplexity)에 도달하면서 훈련 반복 횟수를 44% 줄였다. 또한 MMLU 제로샷 태스크에서 7.2%의 성능 향상을 달성하고 다른 벤치마크에서도 일관된 개선을 보여, 훈련 효율성과 최종 모델 성능을 모두 향상시킬 수 있는 능력을 입증한다.
고밀도 검색 임베딩 모델은 현대 검색 기반 AI 시스템의 핵심 구성 요소입니다. 대부분의 고밀도 검색기는 대비 학습 목적 함수(contrastive objectives)로 훈련되며, 이는 레이블이 지정된 긍정 및 부정 문서 쌍을 필요로 하는데, 이러한 쌍은 종종 비용이 많이 들고 획득하기 어렵습니다. 본 연구에서는 대규모 언어 모델(LLM)의 자기회귀적 다음 토큰 예측 목적 함수가 고밀도 검색에 대한 지도 신호를 제공할 수 있는지 조사합니다. 기본 직관은 간단합니다. 문서에 질의와 관련된 정보가 포함되어 있다면, 해당 문서를 조건으로 할 때 LLM이 목표 출력을 더 쉽게 예측할 수 있어야 한다는 것입니다. 주요 과제는 다음 토큰 예측 손실이 LLM 내부에서 계산되는 반면, 검색기는 별도의 임베딩 모델이라는 점입니다. 이 과제를 해결하기 위해, 우리는 DREAM(Dense Retrieval Embeddings via Autoregressive Modeling)을 제안합니다. 이 방법은 검색기에서 생성된 질의-문서 유사도 점수를 고정된 LLM의 선택된 어텐션 헤드에 주입합니다. 훈련 중에 이 점수들은 LLM이 목표 출력을 예측할 때 각 후보 문서가 얼마나 많은 어텐션을 받을지를 결정합니다. 결과적인 예측 손실은 어텐션 메커니즘을 통해 검색기 훈련을 위한 그래디언트를 제공합니다. 우리는 0.5B에서 3B 파라미터 범위의 임베딩 백본을 사용하여 검색 벤치마크 BEIR 및 RTEB에서 DREAM을 평가합니다. DREAM은 다양한 모델 규모에서 기존 기준선을 일관되게 능가합니다. 이러한 결과는 DREAM이 자기회귀적 모델링을 통해 고밀도 검색기를 훈련하는 유망한 접근법을 제공함을 보여줍니다.
크로스 차트 검색 증강 생성(RAG)은 과학, 비즈니스, 정치 등 다양한 분야의 복잡한 다중 모드 분석 작업에 필수적이다. 그러나 기존 벤치마크는 구조화되고 텍스트화된 표에 초점을 맞추거나, 단순히 핵심 사항을 추출하여 크로스 차트 질문을 생성하는 경향이 있는데, 이는 종종 질의와 증거 간의 어휘적 중복을 유발하고 논리적으로 일관되지 않은 추론 체인을 초래한다. 이를 해결하기 위해, 우리는 도전적인 크로스 차트 RAG 작업을 구성하기 위한 새로운 프레임워크인 ChartWalker를 소개한다. ChartWalker는 차트에 맞춤화된 계층적 지식 그래프 구축 방법을 특징으로 하며, 이는 분석 구조를 보존하기 위해 개체와 관계를 세분성별로 구성한다. 또한 우리는 의미적으로 일관된 다중 홉 추론 경로를 합성하는 구조 인식 샘플링 알고리즘을 제안하여, 질의응답 생성을 위한 질의 난이도와 세분성을 명시적으로 제어할 수 있게 한다. 이 프레임워크로 구축된 ChartWalker-Bench를 공개하는데, 이는 다양한 도메인과 크로스 차트 질의 유형을 포괄하는 종합적인 벤치마크이다. 주요 RAG 패러다임에 걸친 광범위한 평가는 상당한 성능 차이를 드러내며, 이 벤치마크의 난이도와 유용성을 강조한다. 또한, 분석을 촉진하고 향후 시스템 설계에 영감을 주기 위해 에이전트 기반 베이스라인인 ChartWalker-Agent를 제공한다.
의학 영상에서 주의 기반 다중 인스턴스 학습(Attention-based Multiple Instance Learning) 집계기는 주의 집중(attention concentration) 현상이 발생하기 쉬워 과신하고 불안정한 예측을 초래합니다. 본 논문에서는 이러한 문제를 해결하기 위해 QG-MIL이라는 게이트 변환기 집계기(gated transformer aggregator)를 제안합니다. QG-MIL은 네 가지 상호 보완적인 아키텍처 구성 요소, 즉 RMSNorm 기반 사전 정규화(pre-normalization), 헤드별 QK 정규화(per-head QK normalization), 세분화된 주의 출력 게이팅(fine-grained attention output gating), 그리고 SwiGLU 스타일 피드포워드 모듈(SwiGLU-style feed-forward modules)을 통해 이를 해결합니다. 이러한 설계 선택은 보조 손실(auxiliary losses), 마스킹(masking), 또는 다단계 정규화(multi-stage regularization) 없이도 훈련을 안정화하고 인스턴스 간 주의를 더 균일하게 분배합니다. 우리는 전 슬라이드 병리학(whole-slide pathology)과 세포 수준 혈액학(cell-level hematology)을 포함한 여섯 개의 벤치마크에서 QG-MIL을 평가하였으며, 이는 근본적으로 다른 두 가지 MIL 규모를 포괄합니다. 최고 성능의 QG-MIL 변형은 모든 여섯 개 벤치마크에서 주요 기준선(baselines)을 능가하며, 평균 매크로 F1 점수에서 +6.1 포인트의 향상을 보였습니다. 주의 오버레이(attention overlays)와 주의 질량 분석(attention mass analysis)은 더 분산된 인스턴스 가중치를 확인해 줍니다. 절제 연구(ablation studies)는 개별 구성 요소가 특정 데이터셋에서 전체 모델과 일치할 수 있지만, QG-MIL 설계가 선택된 기준선과 비교하여 가장 일관된 교차 도메인 성능과 가장 좁은 분산을 제공함을 보여줍니다. 우리는 재현성 지원을 위해 구성 가능한 구현을 공개합니다: https://github.com/unica-visual-intelligence-lab/QG-MIL
멀티모달 허위 정보 탐지는 바이럴 게시물이 긴 다국어 서사, 여러 이미지, 혼합된 출처, 그리고 미묘한 텍스트-이미지 프레이밍 오류를 결합함에 따라 점점 더 중요해지고 있다. 기존 벤치마크와 방법은 이러한 설정에 부적합한 상태로 남아 있는데, 이는 일반적으로 짧은 캡션, 단일 이미지, 이진 레이블 또는 단일 조작 출처만을 다루며, 에이전트 기반 검증은 현실적인 증거 검색 환경에서 여전히 비용이 많이 든다. 본 논문에서는 멀티모달 허위 정보 탐지를 위한 현실적인 다국어 다중 이미지 에이전트 기반 검증 프레임워크인 ReMMD를 제시한다. ReMMD는 ReMMDBench를 포함하며, 이는 500개 샘플, 2,756개 이미지, 5개 단일 언어, 2개 교차 언어 설정, 3가지 텍스트 길이 계층, 다중 이미지 게시물, 5단계 진실성 레이블, 8가지 왜곡 레이블, 증거 출처 및 근거를 갖춘 실제 세계 멀티모달 허위 정보 탐지 벤치마크이다. 또한 ReMMD-Agent를 포함하며, 이는 지속적 메모리 검증기로서 게시물을 원자적 포인트로 분해하고, 재사용 가능한 증거 세트를 구축하며, 구조화된 L1/L2/L3 출력을 예측한다. 독점 시스템, 오픈 LVLM, MMD-Agent 및 T2-Agent 중에서 ReMMD-Agent가 최고의 5단계 진실성 성능을 달성하였으며, GPT-5.2를 사용하여 정확도 41.80%, 매크로 F1 39.12%를 기록하였고, MMD-Agent 대비 17.5%, T2-Agent 대비 79.9%의 비용 절감을 보였다. 프로젝트는 https://dang-ai.github.io/ReMMD에서 확인할 수 있다.
메모리는 장기 로봇 조작에서 여전히 중요한 병목 현상으로 남아 있으며, 표준 비전-언어-행동(VLA) 정책은 시간이 지남에 따라 작업 관련 단서가 가려지거나 관찰 불가능해질 때 종종 실패한다. 기존의 메모리 증강 방법은 과거 맥락을 활용하지만, 심각한 정보 병목 현상을 겪거나, 분리된 이중 시스템을 통해 높은 지연 시간을 유발하거나, 엄청난 시각적 중복을 축적하는 비선별적 버퍼에 의존한다. 이러한 한계를 해결하기 위해, 우리는 희소 시각적 증거 메모리 개념에 기반한 엔드 투 엔드 프레임워크인 EventVLA를 소개한다. 이 프레임워크는 두 가지 핵심 구성 요소로 이루어져 있다: 초기 및 단기 맥락을 유지하는 기초 시각적 앵커와 동적 키프레임 증거 메모리(KEM) 모듈. 구체적으로, KEM은 VLA의 잠재 임베딩으로부터 미래 키프레임 확률을 직접 예측하여 희소하고 작업에 중요한 시각적 사건을 자율적으로 캡처 및 저장한다. 이러한 예측 기반 메커니즘은 정책이 현재 관찰의 미래 인과적 유용성을 동적으로 평가하여, 일시적 시각적 증거가 관찰 불가능해지기 전에 보존할 수 있게 한다. 또한, 상호작용 시각적 증거를 갖춘 비마르코프 조작 작업을 평가하기 위해 특별히 설계된 진단 벤치마크인 RoboTwin-MeM을 제안한다. 광범위한 평가 결과, 17개의 메모리 요구 시뮬레이션 작업과 4개의 실제 양손 작업에서 EventVLA는 최첨단 메모리 증강 VLA 대비 평균 성공률이 +40% 향상됨을 보여준다.
일반화 가치 모델은 대규모의 혼합 품질 데이터로부터 로봇 정책 학습을 확장하는 데 핵심적인 역할을 한다. 수학적으로 정확한 가치 추정은 깊은 시간적 이해를 요구하며, 모델은 과거 맥락을 이용해 현재 신념을 grounding하는 동시에 미래 결과에 대한 계획을 수립할 수 있어야 한다. 그러나 기존의 대부분 로봇 가치 모델은 주로 정적이거나 시간적으로 희소한 시각 관측 데이터로 사전 학습된 비전-언어 모델(VLM) 백본 위에 구축되어 있어, 가치 추정에 필요한 시간적 모델링 능력이 부족하다. VLM과 달리 세계 모델은 시간적 모델링과 미래 계획에 자연스럽게 탁월하여 일반화 가능한 가치 함수를 학습하기 위한 이상적인 기반이 된다. 이러한 통찰에 기반하여, 우리는 세계 모델과 가치 추정을 결합하여 새로운 일반화 로봇 가치 모델인 World Value Model(WVM)을 구축했으며, 이는 데이터 품질을 평가하기 위한 정확한 작업 진행 상황을 제공한다. 표준 벤치마크에서 WVM은 최고 수준(SOTA)의 가치 순서 상관관계(VOC) 결과를 달성한다. 전문가 데이터만 포함하는 표준 평가 스위트를 보완하기 위해, 우리는 800개의 차선 궤적과 고충실도 인간 주석 프레임으로 구성된 다중 체현 벤치마크인 Suboptimal-Value-Bench를 추가로 도입한다. 평가 결과, WVM은 Suboptimal-Value-Bench에서도 SOTA 성능을 유지하여 전문가 데이터와 차선 데이터 모두를 처리하는 강건성을 입증한다. 정책 학습에 배치되었을 때, WVM은 시뮬레이션 및 실제 배치 환경 모두에서 다양한 정책 추출 접근법의 조작 성능을 향상시키며, 혼합 품질 데이터로부터 학습을 위한 강력한 지침을 제공한다.
다중 모드 주행 계획은 두 패러다임 간의 오랜 긴장 관계에 직면해 있다: 점수 기반 방법은 조밀한 보상 감독의 이점을 누리지만 고정된 행동 어휘에 국한되는 반면, 앵커 기반 방법은 동적으로 제안을 생성하지만 단일 실제 궤적으로 제한된 희소 감독의 문제를 겪는다. 본 연구에서는 시뮬레이션 기반 보상을 판별적 목표에서 생성적 조건으로 재구성함으로써 이러한 긴장을 해결하는 FlowR2A를 제안한다. 플로우 매칭 디코더를 사용하여 조밀한 궤적-보상 쌍으로부터 보상 조건부 행동 분포를 학습함으로써, FlowR2A는 점수 기반 방법의 조밀한 감독과 앵커 기반 방법의 제안 생성을 단일 생성 모델에서 통합하며, 모델이 안전성, 진행, 편안함 및 규칙 준수 측면에서 행동과 그 결과 간의 상관관계를 내재화하도록 강제한다. 엄격한 안전 제약과 완화된 진행 목표 간의 균형을 맞추기 위해, 세분화된 시간 단위별 보상 조건화와 보상 노이즈 증강을 도입한다. 생성적 공식은 보상 유도 및 앵커 샘플링을 통한 제어 가능한 테스트 시간 샘플링을 자연스럽게 지원하여 고품질 제안을 생성한다. FlowR2A는 NAVSIM v1 및 v2 벤치마크에서 최첨단 결과를 달성하며, 이전 방법보다 훨씬 더 높은 품질의 다중 모드 제안을 제공한다.
불확실성이 존재하는 마이크로그리드의 최적 용량 결정 및 전력 스케줄링 문제는 제어 학계에 잘 알려져 있다. 일반적으로 최적 제어 문제는 에너지 저장 시스템에서 발생하는 논리적 제약을 모델링하기 위해 혼합 정수 계획법으로 정식화되며, 이후 시나리오 접근법과 같은 수치적 방법을 사용하여 근사적으로 해결된다. 본 논문에서는 사용자의 전력 수요, 태양광 발전, 전력망 전기 가격 및 배터리 효율에 불확실성과 논리적 제약이 존재하는 강건한 마이크로그리드 용량 결정 및 전력 스케줄링 최적 제어 문제에 대한 두 가지 정식화를 제안하고 비교한다. 첫 번째 정식화는 이진 변수와 big-M 제약을 사용하여 혼합 정수 선형 계획법을 도출한다. 두 번째 정식화는 추가적인 모델링 변수와 비볼록 제약으로 구성된 논리적 제약의 정확한 평활 재정식화를 통해 문제를 연속 비선형 계획법으로 변환한다. 그런 다음 기존 방법을 확장한 새로운 국소 축소 알고리즘을 제안하여 두 문제를 모두 해결한다. 두 정식화는 100,000개 표본의 몬테카를로 시뮬레이션을 사용하여 국소 축소가 반환한 해를 평가함으로써 비교되며, 두 경우 모두 평균 실현 가능성 비율이 90% 이상으로 유망한 결과를 달성한다.
시각-언어-행동(VLA) 모델은 시연으로부터 조작 기술을 학습할 수 있지만, 그 능력은 훈련 데이터 내 기술에 의해 제한됩니다. 우리는 VLA를 기본 행동 수준(예: "그리퍼를 그릇으로 이동", "위로 들어 올리기", "병 따르기")에서 조종 가능하게 함으로써 자율적인 기술 습득을 가능하게 하는 프레임워크인 InSight를 제시합니다. InSight는 두 가지 주요 단계로 구성됩니다: (1) VLM 계획 분해와 엔드 이펙터 자세를 통해 시연을 레이블된 기본 동작으로 분할하여 VLA 기본 동작 제어 가능성을 구현하는 자동 분할 파이프라인, (2) 새로운 작업을 완료하는 데 필요한 누락된 기본 동작을 식별하고, VLM이 제안한 저수준 제어를 사용하여 누락된 기본 동작의 시연을 자율적으로 시도하며, 성공적인 시연을 자동으로 레이블링, 저장, VLA 훈련 세트에 통합하는 VLM 기반 데이터 플라이휠입니다. 우리는 블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 따르기 등 시뮬레이션 및 실제 조작 작업에서 이러한 대상 기술에 대한 인간의 시연 없이 InSight를 평가했습니다. 학습된 후에는 이러한 기본 동작을 조합하여 추가 인간 시연 없이 새로운 장기 작업을 실행할 수 있습니다. 우리의 연구 결과는 기본 동작 제어 가능성이 VLA 정책에서 지속적인 기술 습득을 위한 실용적인 기반을 제공함을 보여줍니다. 프로젝트 웹사이트: https://insight-vla.github.io.
희소 복셀 표현은 이미지-3D 가우시안 스플래팅(3DGS) 생성을 위한 확장 가능한 기반으로 부상했지만, 현재 방법들은 두 가지 구조적 병목 현상으로 인해 입력 이미지의 고주파 시각적 디테일을 보존하는 데 어려움을 겪고 있다. 첫째, 의미적 추상화에 최적화된 판별적 2D 특징을 채택하여 희소 복셀 잠재 변수를 구성함으로써 재구성 신호를 억제하고 표현 병목 현상을 유발한다. 둘째, 생성 단계에서 표준 확산 트랜스포머는 조밀한 2D 이미지 토큰과 희소 3D 복셀 잠재 변수를 정렬하는 효과적인 메커니즘이 부족하여 교차 모달 대응 병목 현상을 초래한다. 이러한 문제를 해결하기 위해 우리는 FLUX3D를 제안한다. 이는 생성 과정에서 표현 학습과 교차 모달 정렬을 모두 향상시키는 확장 가능한 이미지-3DGS 프레임워크이다. 먼저 희소 복셀 기반 3D 표현 학습을 위한 2D 특징 선택을 재검토하고, 확산 정렬 구조화 잠재 변수(DA-SLAT)를 제안하며 이를 디코더 전용 아키텍처와 결합하여 3DGS 재구성 충실도를 개선한다. 또한 희소 구조 인식 확산 프레임워크를 설계하여 희소 구조 다중 모달 확산 트랜스포머(SMDiT)와 모달 인식 회전 위치 임베딩(MARoPE)을 통합함으로써 기하학에 구애받지 않는 2D-3D 정렬을 달성한다. 광범위한 벤치마크 실험을 통해 FLUX3D가 외관 충실도에서 상당한 개선을 가져오며 고품질 3DGS 자산 생성에 있어 모든 최신(SOTA) 방법보다 현저히 뛰어난 성능을 보임을 입증한다.
대규모 언어 모델은 매개변수 지식으로 답변하기보다 문서를 추론하는 에이전트로 점점 더 배치되고 있다. 우리는 아카이브 기반 추론을 연구한다. 이는 크고 복잡한 업무 파일 모음에서 희소한 증거를 찾아내고, 일관되지 않은 용어, 단위 및 시간 표기법을 조정하여 답을 계산하는 것을 의미한다. 기존 벤치마크는 이 설정의 일부만 다루며, 아카이브 기반성, 에이전트적 탐색, 교차 도메인 범위를 동시에 강조하는 벤치마크는 없다. 우리는 Agora를 소개한다. 이는 362개의 질문과 9,664개의 실제 문서, 3억 7,200만 개의 토큰으로 구성된 8개 도메인 컬렉션을 짝지은 벤치마크로, 어떤 모델의 컨텍스트 윈도우보다 훨씬 크기 때문에 에이전트는 철저히 스캔하기보다 의도적으로 탐색해야 한다. Agora는 문서 간 작업 합성, 누출 방지 난독화, 난이도 필터링을 결합한 에이전트 파이프라인에 의해 구축되었다. 여덟 개의 모델을 평가한 결과, 이 작업이 아직 해결되지 않았음을 발견했다. 가장 강력한 모델조차도 59.4%의 정확도에 그치며, 도메인 간에 현저한 변동을 보인다.
동적 3D 가우시안 스플래팅은 움직임 일관성과 시각적 충실도 사이의 근본적인 긴장 관계에 직면해 있다. 변형 기반 접근 방식은 시간적 대응 관계를 유지하지만, 움직임의 과분해화로 인해 고주파 역학이 과도하게 평활화되는 문제가 있다. 반면, 4D 프리미티브 방법은 미세한 시각적 세부 정보를 포착하지만 시간적 과잉 매개변수화를 초래하여 객체 정체성을 깨뜨리고 심각한 저장 공간 오버헤드를 유발한다. 이를 해결하기 위해, 우리는 다중 수준 경쟁적 할당에 기반한 고충실도 동적 가우시안 스플래팅 프레임워크인 Multi4D를 제안한다. 단일 표현 대신, 모델링 용량을 세 가지 구조화된 수준(정적 구조, 지속적 동적 기하, 과도적 외형 프리미티브)에 분산한다. 공유 래스터화와 잔차 기반 최적화를 통해, 이 수준들은 동적으로 경쟁하여 측광 오차를 설명하며, 사전 할당된 분해 없이 적응적 전문화를 가능하게 한다. 이 할당은 장기 움직임 일관성을 유지하면서 미세한 동적 세부 정보를 포착하여, 훨씬 적은 수의 동적 프리미티브로 최첨단 렌더링 품질과 실시간 성능을 달성한다. 또한, 우리의 표현은 시간에 따라 컴팩트한 지속적 가우시안을 명시적으로 추적하므로, 이후에 의미론적 특징을 내장할 수 있으며, 이를 통해 Multi4D는 최첨단 4D 분할 정확도를 달성하면서도 한 자릿수 속도 향상을 이룬다. 프로젝트 페이지: https://batfacewayne.github.io/Multi4D.io/