번역이 포함된 일일 선별된 AI 연구 논문
객관적 물리 법칙을 학습, 시뮬레이션, 추론할 수 있는 세계 모델(World Model)의 구축은 인공 일반 지능(AGI) 추구의 근본적인 과제이다. Sora와 같은 비디오 생성 모델로 대표되는 최근의 발전은 데이터 중심의 스케일링 법칙(scaling laws)이 물리 역학을 근사할 수 있는 잠재력을 보여주었으며, 새롭게 부상하는 통합 멀티모달 모델(UMM)은 지각, 언어, 추론을 통합하기 위한 유망한 아키텍처 패러다임을 제시한다. 이러한 발전에도 불구하고, 해당 분야는 여전히 일반 세계 모델에 필요한 핵심 속성을 정의하는 원칙적인 이론 체계가 부족하다. 본 논문에서는 세계 모델이 '일관성 삼위일체(Trinity of Consistency)'에 기반해야 함을 제안한다. 즉, 의미론적 인터페이스로서의 모달 일관성(Modal Consistency), 기하학적 기반으로서의 공간 일관성(Spatial Consistency), 인과적 엔진으로서의 시간 일관성(Temporal Consistency)이다. 이 삼중적 관점을 통해 우리는 멀티모달 학습의 진화를 체계적으로 검토하며, 느슨하게 결합된 특화 모듈에서 내부 세계 시뮬레이터의 시너지적 발현을 가능하게 하는 통합 아키텍처로 나아가는 발전 궤적을 밝힌다. 이러한 개념적 체계를 보완하기 위해 다중 프레임 추론 및 생성 시나리오에 중점을 둔 벤치마크인 CoW-Bench를 소개한다. CoW-Bench는 통합 평가 프로토콜 하에서 비디오 생성 모델과 UMM을 모두 평가한다. 본 연구는 일반 세계 모델을 향한 원칙적인 경로를 수립함으로써 현재 시스템의 한계와 미래 발전을 위한 아키텍처 요구 사항을 명확히 한다.
대규모 멀티모달 모델(LMM)의 규모가 확대되고 강화학습(RL) 방법이 성숙됨에 따라, LMM은 복잡한 추론 및 의사 결정 영역에서 뚜렷한 진전을 보였습니다. 그러나 여전히 훈련은 정적 데이터와 고정된 레시피에 의존하여 능력의 사각지대를 진단하거나 동적이고 표적화된 강화를 제공하기 어렵습니다. 테스트 주도 오류 노출과 피드백 기반 수정이 반복적인 연습보다 우수하다는 연구 결과에 기반하여, 우리는 진단이 데이터 생성과 강화를 주도하고 각 반복에서 갱신된 모델을 재진단하여 다음 차례의 표적 개선을 이끄는 선순환 구조인 '진단 주도 점진적 진화(DPE)'를 제안합니다. DPE는 두 가지 핵심 구성 요소를 갖습니다. 첫째, 다중 에이전트가 웹 검색 및 이미지 편집과 같은 도구를 사용하여 방대한 레이블 없는 멀티모달 데이터에 주석을 달고 품질을 관리함으로써 다양하고 현실적인 샘플을 생성합니다. 둘째, DPE는 실패를 특정 약점으로 귀속시키고, 데이터 구성을 동적으로 조정하며, 에이전트가 표적 강화를 위해 약점 중심 데이터를 생성하도록 유도합니다. Qwen3-VL-8B-Instruct 및 Qwen2.5-VL-7B-Instruct에 대한 실험은 11개 벤치마크에서 안정적이고 지속적인 성능 향상을 보여주며, DPE가 개방형 작업 분포 하에서 지속적인 LMM 훈련을 위한 확장 가능한 패러다임임을 시사합니다. 우리의 코드, 모델 및 데이터는 https://github.com/hongruijia/DPE에서 공개되어 있습니다.
대규모 언어 모델(LLM) 기반 경로 계획 에이전트는 자연어 상호작용과 도구 기반 의사 결정을 통해 일상적인 인간 이동성을 지원하는 유망한 패러다임으로 부상했습니다. 그러나 실제 이동 환경에서의 체계적인 평가는 다양한 경로 요구사항, 비결정적 매핑 서비스, 제한된 재현성으로 인해 어려움을 겪고 있습니다. 본 연구에서는 실제 이동 시나리오에서 LLM 기반 경로 계획 에이전트를 평가하기 위한 확장성 있는 벤치마크인 MobilityBench를 소개합니다. MobilityBench는 Amap에서 수집된 대규모의 익명화된 실제 사용자 쿼리로부터 구성되었으며, 전 세계 여러 도시에 걸친 광범위한 경로 계획 의도를 포괄합니다. 재현 가능한 종단 간 평가를 위해, 실시간 서비스로 인한 환경 변동성을 제거하는 결정론적 API 재생 샌드박스를 설계했습니다. 또한 결과 타당성을 중심으로 하며, 지시 이해, 계획 수립, 도구 사용, 효율성 평가를 보완하는 다차원 평가 프로토콜을 제안합니다. MobilityBench를 활용하여 다양한 실제 이동 시나리오에서 여러 LLM 기반 경로 계획 에이전트를 평가하고, 그 동작과 성능에 대한 심층 분석을 제공합니다. 연구 결과에 따르면, 현재 모델들은 기본 정보 검색 및 경로 계획 작업에서는 유능한 성능을 보이지만, 선호도 기반 제약 경로 계획에서는 상당히 어려움을 겪어 개인화된 이동 애플리케이션 분야에서 개선이 필요함이 확인되었습니다. 벤치마크 데이터, 평가 도구 키트 및 문서는 https://github.com/AMAP-ML/MobilityBench 에 공개했습니다.
인간의 지능은 시각, 청각, 언어에 걸친 전(全)모달리티 인식을 복잡한 추론 및 도구 사용과 자연스럽게 결합하여 세계와 상호작용합니다. 그러나 현재의 다중 모달리티 LLM은 주로 이중 모달리티 상호작용(예: 시각-언어)에 국한되어 있어 일반 AI 어시스턴트에 필요한 통합 인지 능력이 부족합니다. 이러한 격차를 해소하기 위해 우리는 비디오, 오디오, 이미지 모달리티에 걸친 심층 추론 및 다중 턴 도구 실행이 필요한 작업에서 전모달리티 에이전트를 평가하기 위한 포괄적인 벤치마크인 OmniGAIA를 소개합니다. 새로운 전모달리티 이벤트 그래프 접근법을 통해 구축된 OmniGAIA는 교차 모달리티 추론과 외부 도구 통합을 필요로 하는 현실 세계 데이터에서 유래한 복잡한 다중 홉 질의를 종합합니다. 더 나아가, 우리는 도구 통합 추론 패러다임과 능동적 전모달리티 인식을 기반으로 한 네이티브 전모달리티 기반 에이전트인 OmniAtlas를 제안합니다. 후견적 안내 트리 탐색 전략과 세분화된 오류 수정을 위한 OmniDPO를 통해 합성된 궤적으로 학습된 OmniAtlas는 기존 오픈소스 모델들의 도구 사용 능력을 효과적으로 향상시킵니다. 이 연구는 현실 세계 시나리오를 위한 차세대 네이티브 전모달리티 AI 어시스턴트로 나아가는 한 걸음을 표시합니다.
잠재 시각 추론은 다중모드 대규모 언어 모델의 숨겨진 상태를 통해 명상함으로써 인간의 상상 과정을 모방하는 것을 목표로 한다. 시각 추론의 유망한 패러다임으로 인식되고 있지만, 그 효과를驱动하는 근본적인 메커니즘은 여전히 불분명하다. 그 효용의 진정한 원인을 규명하고자 하는 동기에서, 우리는 인과 매개 분석을 사용해 잠재 추론의 타당성을 조사한다. 우리는 이 과정을 입력을 처치로, 잠재 토큰을 매개체로, 최종 답변을 결과로 하는 인과적 사슬로 모델링한다. 우리의 연구 결과는 두 가지 중요한 단절을 밝혀낸다: (a) 입력-잠재 단절: 입력에 대한 극단적 perturbation이 잠재 토큰에는 미미한 변화만을 초래하며, 이는 잠재 토큰이 입력 시퀀스를 효과적으로 주의하지 않음을 시사한다. (b) 잠재-답변 단절: 잠재 토큰에 대한 perturbation이 최종 답변에 미치는 영향이 최소화되어, 잠재 토큰이 결과에 미치는 인과적 효과가 제한적임을 나타낸다. 더 나아가, 광범위한 프로빙 분석은 잠재 토큰이 제한된 시각 정보를 인코딩하며 높은 유사성을 보인다는 것을 밝힌다. 결과적으로, 우리는 잠재 추론의 필요성에 의문을 제기하고 CapImagine이라는 간단한 대안을 제안한다. 이는 모델이 텍스트를 사용하여 명시적으로 상상하도록 가르친다. 시각 중심 벤치마크에서의 실험은 CapImagine이 복잡한 잠재 공간 기반 모델들을 크게 능가하며, 명시적 상상을 통한 시각 추론의 우수한 잠재력을 강조한다.
강화학습으로 훈련된 대규모 언어 모델 에이전트의 핵심 병목 현상은 여전히 탐색(exploration)입니다. 기존 방법들은 사전 훈련된 지식을 활용하지만, 새로운 상태 발견이 필요한 환경에서는 실패합니다. 본 연구에서는 메모리를 활용한 탐색과 온-정책 및 오프-정책 업데이트를 결합한 하이브리드 강화학습 프레임워크인 EMPO²를 제안합니다. 이를 통해 LLM이 메모리를 활용할 때 우수한 성능을 발휘하면서도, 메모리 없이도 강건성을 보장합니다. ScienceWorld와 WebShop 환경에서 EMPO²는 GRPO 대비 각각 128.6%, 11.3%의 성능 향상을 달성했습니다. 또한 분포 외 테스트에서 EMPO²는 새로운 작업에 대한 우수한 적응력을 보였으며, 메모리를 활용한 소수 시행만으로 매개변수 업데이트 없이도 효과적으로 수행했습니다. 이러한 결과는 EMPO²가 보다 탐색적이고 일반화 능력이 뛰어난 LLM 기반 에이전트 구축을 위한 유망한 프레임워크임을 입증합니다.
다중 에이전트 시스템(MAS)은 복잡한 추론에서 탁월한 성능을 보이지만, 개별 참가자가 생성한 오류 정보의 연쇄적 영향에 취약합니다. 기존 솔루션은 경직된 구조 설계나 고비용 미세 조정에 의존하는 경우가 많아 배포성과 적응성이 제한됩니다. 본 연구에서는 재학습 없이 MAS 정보 흐름을 동적으로 최적화하기 위해 설계된 테스트 시점 수정-또는-거절 프레임워크인 AgentDropoutV2를 제안합니다. 우리의 접근 방식은 능동형 방화벽처럼 작동하여 에이전트 출력을 차단하고, 검색 기반 수정기를 활용하여 실패 기반 지표 풀을 바탕으로 오류를 반복적으로 수정합니다. 이 메커니즘은 정제된 실패 패턴을 사전 지식으로 활용하여 잠재적 오류를 정확하게 식별할 수 있게 합니다. 수복 불가능한 출력은 오류 전파를 방지하기 위해 제거되며, 폴백 전략을 통해 시스템 무결성을 유지합니다. 다양한 수학 벤치마크에 대한 실험 결과, AgentDropoutV2가 MAS의 작업 성능을 크게 향상시켜 수학 벤치마크에서 평균 6.3%p의 정확도 향상을 달성했음을 보여줍니다. 더 나아가 본 시스템은 과제 난이도에 기반하여 수정 노력을 동적으로 조절하고, 상황 인식 지표를 활용하여 다양한 오류 패턴을 해결함으로써 강력한 일반화 능력과 적응성을 나타냅니다. 우리의 코드와 데이터셋은 https://github.com/TonySY2/AgentDropoutV2에서 공개되었습니다.
MediX-R1을 소개합니다. 이는 의료 멀티모달 대규모 언어 모델(MLLM)을 위한 개방형 강화 학습(RL) 프레임워크로, 객관식 형식을 넘어 임상적으로 근거 있는 자유 형식 답변을 가능하게 합니다. MediX-R1은 그룹 기반 RL 및 의료 추론에 맞춤화된 복합 보상 함수를 사용하여 베이스라인 비전-언어 백본을 미세 조정합니다. 이 보상 함수는 의미적 정확성을 YES/NO로 엄격하게 판단하는 LLM 기반 정확도 보상, 파라프레이즈 및 용어 변형을 포착하는 의료 임베딩 기반 의미 보상, 해석 가능한 추론과 모달리티 인식을 강화하는 경량의 형식 및 모달리티 보상으로 구성됩니다. 이러한 다중 신호 설계는 검증 가능한 보상이나 객관식 전용 보상으로는 부족한 개방형 출력에 대해 안정적이고 유익한 피드백을 제공합니다. 진행 상황을 측정하기 위해 텍스트 전용 및 이미지+텍스트 작업 모두를 위한 통합 평가 프레임워크를 제안합니다. 이 프레임워크는 취약한 문자열 중복 메트릭 대신 참조 기반 LLM-as-judge를 사용하여 의미적 정확성, 추론, 맥락적 일관성을 포착합니다. 단 51K개의 시뮬레이션 지시 예시만을 사용했음에도 불구하고, MediX-R1은 표준 의료 LLM(텍스트 전용) 및 VLM(이미지 + 텍스트) 벤치마크 전반에서 우수한 결과를 달성하며, 강력한 오픈소스 베이스라인을 능가하고 특히 개방형 임상 작업에서 큰 성능 향상을 보여줍니다. 우리의 결과는 포괄적인 보상 신호와 LLM 기반 평가를 통한 개방형 RL이 멀티모달 모델에서 신뢰할 수 있는 의료 추론을 위한 실용적인 경로임을 입증합니다. 학습된 모델, 정제된 데이터셋 및 소스 코드는 https://medix.cvmbzuai.com에서 이용 가능합니다.
최근의 심화 연구 에이전트는 주로 추론 깊이를 확장하여 성능을 향상시키지만, 이는 검색 집약적인 시나리오에서 높은 추론 비용과 지연 시간을 초래합니다. 더욱이 이질적인 연구 환경 간 일반화는 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 효율성과 일반화를 모두 목표로 하는 장기적 에이전트 검색 프레임워크인 'Search More, Think Less'(SMTL)를 제안합니다. SMTL은 순차적 추론을 병렬 증거 수집으로 대체하여 제한된 컨텍스트 예산 하에서 효율적인 컨텍스트 관리를 가능하게 합니다. 다양한 작업 유형 간 일반화를 지원하기 위해, 우리는 결정론적 질의응답과 개방형 연구 시나리오를 아우르는 검색 작업을 구성하고 작업에 적합한 평가 지표를 제공하는 통합 데이터 합성 파이프라인을 추가로 도입합니다. 지도 미세 조정과 강화 학습을 통해 종단간 에이전트를 학습시켜 BrowseComp(48.6%), GAIA(75.7%), Xbench(82.0%), DeepResearch Bench(45.9%) 등 다양한 벤치마크에서 강력하고 종종 최첨단 수준의 성능을 달성했습니다. Mirothinker-v1.0과 비교했을 때, 최대 100개의 상호작용 단계를 가진 SMTL은 BrowseComp에서 평균 추론 단계 수를 70.7% 줄이면서도 정확도를 향상시켰습니다.
우리는 오프라인 피드-포워드 방식의 중요한 한계점, 즉 입력 이미지 수에 따라 계산 및 메모리 요구량이 이차적으로 증가하는 문제를 해결하는 확장 가능한 3D 재구성 모델을 제안합니다. 우리의 접근법은 이러한 병목 현상이 장면 기하학의 가변 길이 키-값(KV) 공간 표현에서 비롯된다는 핵심 통찰에 기반하며, 이를 테스트 시간 학습을 통해 고정 크기 MLP(Multi-Layer Perceptron)로 정제합니다. VGG-T^3(Visual Geometry Grounded Test Time Training)은 온라인 모델과 유사하게 입력 뷰 수에 대해 선형적으로 확장되며, 1,000장의 이미지 컬렉션을 단 54초 만에 재구성하여 소프트맥스 어텐션에 의존하는 기준 방법 대비 11.6배의 속도 향상을 달성했습니다. 우리의 방법은 전역 장면 집계 능력을 유지하므로 포인트 맵 재구성 오류가 다른 선형 시간 방법들을 큰 차이로 능가합니다. 마지막으로, 보지 않은 이미지로 장면 표현을 질의함으로써 우리 모델의 시각적 위치 인식 능력을 입증합니다.
확산 모델은 고품질 이미지, 비디오, 오디오 생성에서 뛰어난 진전을 이루었으나, 추론 과정은 여전히 계산 비용이 많이 듭니다. 그럼에도 현재 분산 병렬화에 기반한 확산 가속 방법은 뚜렷한 생성 아티팩트를 보이며 GPU 수에 비례하는 실질적인 가속을 달성하지 못하고 있습니다. 따라서 본 연구에서는 조건부 확산 모델에서 생성 지연 시간을 줄이고 높은 생성 품질을 달성하기 위해, 새로운 데이터 병렬 전략인 조건 기반 분할과 최적의 파이프라인 스케줄링 방법인 적응형 병렬 전환을 결합한 하이브리드 병렬화 프레임워크를 제안합니다. 핵심 아이디어는 (i) 조건부 및 무조건부 노이즈 제거 경로를 새로운 데이터 분할 관점으로 활용하고, (ii) 두 경로 간 노이즈 제거 불일치에 따라 최적의 파이프라인 병렬화를 적응적으로 활성화하는 것입니다. 우리의 프레임워크는 두 개의 NVIDIA RTX 3090 GPU를 사용하여 SDXL과 SD3에서 각각 2.31배, 2.07배의 지연 시간 감소를 달성하면서 이미지 품질을 유지했습니다. 이 결과는 U-Net 기반 확산 모델과 DiT 기반 흐름 매칭 아키텍처 모두에서 우리 접근법의 일반성을 확인시켜 줍니다. 또한 우리의 접근법은 고해상도 합성 설정에서 기존 방법보다 우수한 가속 성능을 보입니다. 코드는 https://github.com/kaist-dmlab/Hybridiff에서 확인할 수 있습니다.
범용 에이전트 - 즉, 도메인 특화 엔지니어링 없이도 익숙하지 않은 환경에서 작업을 수행하는 시스템 - 의 가능성은 여전히 대부분 실현되지 않은 상태입니다. 기존 에이전트는 대부분 특화되어 있으며, OpenAI SDK Agent나 Claude Code와 같은 새로운 구현체들이 더 넓은 능력을 암시하기는 하지만, 이들의 일반적인 성능에 대한 체계적인 평가는 이루어지지 않았습니다. 현재의 에이전트 벤치마크는 도메인 특화 통합을 전제로 하여, 작업 정보를 범용 에이전트의 공정한 평가를 방해하는 방식으로 인코딩합니다. 본 논문은 범용 에이전트 평가를 1차 연구 목표로 설정합니다. 우리는 이러한 평가를 위한 개념적 원칙, 에이전트-벤치마크 통합을 가능하게 하는 통합 프로토콜, 그리고 실용적인 범용 에이전트 평가 프레임워크인 Exgentic을 제안합니다. 우리는 최초의 공개 범용 에이전트 리더보드로서 6가지 환경에서 5개의 주요 에이전트 구현체에 대한 벤치마크를 수행합니다. 우리의 실험 결과, 범용 에이전트는 다양한 환경에 걸쳐 일반화 능력을 보여주며, 환경 특화 조정 없이도 도메인 특화 에이전트에 버금가는 성능을 달성함을 확인했습니다. 우리는 평가 프로토콜, 프레임워크, 리더보드를 공개하여 범용 에이전트에 대한 체계적인 연구의 기초를 마련하고자 합니다.
실제 세계에서의 인간 행동은 인식, 이해 및 행동을 위한 구체화 에이전트를 훈련하는 데 활용될 수 있는 풍부한 장기 문맥 정보를 자연스럽게 인코딩합니다. 그러나 기존의 동작 캡처 시스템은 일반적으로 고가의 스튜디오 설정과 웨어러블 장치에 의존하여, 자연 환경에서의 대규모 장면 조건 인간 동작 데이터 수집을 제한합니다. 이를 해결하기 위해 우리는 두 대의 이동식 아이폰을 사용하는 휴대성 있고 경제적인 데이터 수집 파이프라인인 EmbodMocap을 제안합니다. 우리의 핵심 아이디어는 이중 RGB-D 시퀀스를 공동 보정하여 인간과 장면을 통합된 미터법 세계 좌표계 내에서 재구성하는 것입니다. 제안된 방법은 고정 카메라나 마커 없이 일상 환경에서 미터법 규모 및 장면 일관성 캡처를 가능하게 하여 인간 동작과 장면 기하학을 원활하게 연결합니다. 광학 캡처 기준값과 비교하여, 우리는 이중 뷰 설정이 깊이 모호성을 현저히 완화하는 뛰어난 능력을 보여 단일 아이폰 또는 단안 모델보다 우수한 정렬 및 재구성 성능을 달성함을 입증합니다. 수집된 데이터를 기반으로 우리는 세 가지 구체화 AI 작업을 구현합니다: 미터법 규모의 세계 좌표계 정렬 인간과 장면을 출력하는 피드포워드 모델을 미세 조정하는 단안 인간-장면 재구성; 우리 데이터가 인간-객체 상호작용 기술과 장면 인식 동작 추적을 확장하는 데 사용될 수 있음을 입증하는 물리 기반 캐릭터 애니메이션; 그리고 시뮬레이션-실물 강화학습을 통해 휴머노이드 로봇이 비디오에 묘사된 인간 동작을 재현하도록 훈련시키는 로봇 동작 제어입니다. 실험 결과는 우리 파이프라인의 효과성과 구체화 AI 연구 발전에 대한 기여를 검증합니다.
기계 지능을 인간의 광범위한 일반 지능 스펙트럼에 대해 엄격하게 평가하는 것은 기술이 빠르게 발전하는 현 시대에 점점 더 중요해지고 어려운 과제가 되었습니다. 기존의 AI 벤치마크는 일반적으로 제한된 범위의 인간 활동에서 좁은 능력만을 평가합니다. 또한 대부분은 정적이며, 개발자가 명시적 또는 암묵적으로 벤치마크에 최적화함에 따라 빠르게 포화 상태에 도달합니다. 우리는 AI 시스템에서 인간과 유사한 일반 지능을 평가하는 더 유망한 방법이 특히 강력한 형태의 일반 게임 플레이, 즉 AI 시스템이 모든 상상 가능한 인간 게임을 어떻게, 얼마나 잘 플레이하고 배우는지를 동일한 경험, 시간 또는 기타 자원을 가진 인간 플레이어와 비교하여 연구하는 것이라고 제안합니다. 우리는 "인간 게임"을 인간이 인간을 위해 설계한 게임으로 정의하며, 사람들이 상상하고 즐길 수 있는 모든 그러한 게임들의 공간인 "인간 게임의 다중우주"의 평가 적합성을 주장합니다. 이러한 비전을 향한 첫걸음으로, 우리는 AI GameStore를 소개합니다. 이는 확장 가능하고 개방형 플랫폼으로, 인간이 참여하는 루프와 LLM을 활용하여 인기 있는 인간 디지털 게임 플랫폼에서 표준화되고 컨테이너화된 게임 환경 변형을 자동으로 수집 및 적용하여 새로운 대표적인 인간 게임을 합성합니다. 개념 증명으로, 우리는 Apple App Store와 Steam의 인기 차트를 기반으로 100개의 이러한 게임을 생성하고, 단기 플레이 에피소드에 대해 7개의 최첨단 시각-언어 모델(VLM)을 평가했습니다. 최고 성능 모델들도 대부분의 게임에서 인간 평균 점수의 10% 미만을 달성했으며, 특히 세계 모델 학습, 기억 및 계획 능력을考验하는 게임에서 어려움을 겪었습니다. 우리는 AI GameStore를 인간과 유사한 일반 지능으로의 진전을 측정하고 추진하는 실용적인 방법으로 구축하기 위한 다음 단계들을 제시하며 결론을 맺습니다.
에너지 기반 예측 세계 모델은 픽셀을 생성하는 대신 잠재 에너지 지형을 추론함으로써 다단계 시각적 계획을 위한 강력한 접근법을 제공합니다. 그러나 기존 방법론은 두 가지 주요 과제에 직면해 있습니다: (i) 잠재 표현이 일반적으로 유클리드 공간에서 학습되어 상태 간의 기하학적 및 계층적 구조를 간과하며, (ii) 장기간 예측에 어려움을 겪어 연장된 롤아웃에서 성능이 급격히 저하됩니다. 이러한 과제를 해결하기 위해 우리는 GeoWorld를 소개합니다. 이는 쌍곡 JEPA(Hyperbolic JEPA)를 통해 잠재 표현을 유클리드 공간에서 쌍곡 다양체로 매핑하여 기하학적 구조와 계층적 관계를 보존하는 기하학적 세계 모델입니다. 또한 쌍곡 잠재 공간에서 안정적인 다단계 계획을 가능하게 하는 에너지 기반 최적화를 위한 기하학적 강화 학습(Geometric Reinforcement Learning)을 도입합니다. CrossTask 및 COIN에 대한 광범위한 실험을 통해 기존 최첨단 V-JEPA 2 대비 3단계 계획에서 약 3% SR 향상, 4단계 계획에서 약 2% SR 향상을 입증했습니다. 프로젝트 웹사이트: https://steve-zeyu-zhang.github.io/GeoWorld.
최근 모션 디퓨전 모델의 발전으로 인간 모션 합성의 현실감이 크게 향상되었습니다. 그러나 기존 접근법은 시간적 인과성과 실시간 적용성을 제한하는 양방향 생성 기반의 전체 시퀀스 디퓨전 모델에 의존하거나, 불안정성과 누적 오류 문제가 있는 자기회귀 모델에 의존하고 있습니다. 본 연구에서는 의미론적으로 정렬된 잠재 공간에서 작동하는 인과적 디퓨전 트랜스포머 기반의 통합 자기회귀 모션 생성 프레임워크인 CMDM(Causal Motion Diffusion Models)을 제안합니다. CMDM은 모션 시퀀스를 시간적으로 인과적인 잠재 표현으로 인코딩하는 Motion-Language-Aligned Causal VAE(MAC-VAE)를 기반으로 합니다. 이 잠재 표현 위에, 인과적 디퓨전 강화를 사용하여 모션 프레임 간 시간 순서대로 디노이징을 수행하는 자기회귀 디퓨전 트랜스포머가 학습됩니다. 빠른 추론을 위해 부분적으로 디노이즈된 이전 프레임으로부터 후속 프레임을 예측하는 인과적 불확실성을 고려한 프레임 단위 샘플링 스케줄을 도입합니다. 결과적인 프레임워크는 고품질 텍스트-모션 생성, 스트리밍 합성 및 상호작용 속도에서의 장기간 모션 생성을 지원합니다. HumanML3D 및 SnapMoGen에 대한 실험 결과, CMDM이 의미론적 정확도와 시간적 부드러움 모두에서 기존 디퓨전 및 자기회귀 모델을 능가하면서도 추론 지연 시간을 크게 단축하는 것으로 나타났습니다.
완전 분산 데이터 병렬(FSDP, 일명 ZeRO)은 대규모 모델 학습에 널리 사용되며 유연성과 모델 코드에 대한 최소한의 침습성을 특징으로 합니다. 그러나 현재 FSDP 시스템은 구조 인식 학습 방법(예: 블록 단위 양자화 학습)과 최첨단 모델(예: Gemini, Kimi K2)에서 사용되는 비 요소 단위 최적화 도구(예: Shampoo, Muon)에 대해 어려움을 겪고 있습니다. FSDP의 고정된 요소 또는 행 단위 분산 형식은 블록 구조 연산과 충돌합니다. 또한 현재 구현체는 통신 및 메모리 효율성 측면에서 부족하여 수만 개의 GPU로의 확장을 제한하고 있습니다. 본 논문에서는 유연한 분산 형식인 RaggedShard와 구조 인식 계획 알고리즘을 결합하여 대규모로 유연성과 성능을 동시에 제공하는 재설계된 FSDP 시스템인 veScale-FSDP를 소개합니다. veScale-FSDP는 FSDP에 필요한 효율적인 데이터 배치를 기본적으로 지원하여 블록 단위 양자화 및 비 요소 단위 최적화 도구를 구현합니다. 그 결과, veScale-FSDP는 기존 FSDP 시스템 대비 5~66% 높은 처리량과 16~30% 낮은 메모리 사용량을 달성하면서 수만 개의 GPU로 효율적으로 확장됩니다.
오픈-보커뷸러리 분할(Open-Vocabulary Segmentation, OVS)은 시각-언어 모델(Vision-Language Models, VLMs)의 제로-샷 인식 능력을 픽셀 수준 예측으로 확장하여 텍스트 프롬프트로 지정된 임의의 범주에 대한 분할을 가능하게 합니다. 최근 발전에도 불구하고, OVS는 VLM 훈련에 사용된 거친 이미지 수준 감독과 자연어의 의미적 모호성이라는 두 가지 과제로 인해 완전 지도 학습 방식보다 성능이 낮습니다. 우리는 픽셀 주석이 달린 이미지로 구성된 지원 세트(Support Set)를 텍스트 프롬프트에 추가하는 퓨-샷(Few-Shot) 설정을 도입하여 이러한 한계를 해결합니다. 이를 기반으로, 텍스트 및 시각 지원 특징을 융합하여 경량의 이미지별 분류기를 학습하는 검색 증강 테스트-타임 어댑터(Retrieval-Augmented Test-Time Adapter)를 제안합니다. 후기 단계의 수작업 융합에 의존하는 기존 방법과 달리, 우리의 접근 방식은 학습된 쿼리별 융합을 수행하여 양식 간의 더 강력한 시너지를 달성합니다. 이 방법은 지속적으로 확장 가능한 지원 세트를 활용하며, 개인화된 분할과 같은 세분화된 작업에도 적용 가능합니다. 실험 결과, 우리의 방법이 오픈-보커뷸러리 능력을 유지하면서 제로-샷 분할과 지도 분할 간의 성능 격차를 크게 좁힘을 보여줍니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 주요 패러다임으로 자리 잡았습니다. 그러나 표준 RLVR 알고리즘은 잘 알려진 한계를 지닙니다: 샘플링을 예리하게 만들어 Pass@1 정확도는 향상시키지만, 동시에 모델의 추론 경계를 좁히고 생성 다양성을 감소시킵니다. 우리는 기존 방법들이 간과한 근본 원인을 규명했는데, 바로 오류에 대한 균일한 처벌입니다. 난이도에 따라 프롬프트를 선택하는 데이터 필터링 방법이든, 어드밴티지 정규화 기법이든, 현재의 접근법들은 그룹 내 모든 잘못된 롤아웃을 동일하게 취급합니다. 우리는 이러한 균일성이 강화 학습 과정에서 허위로 강화된 과도하게 자신감 있는 오류들이 지속되고 확률 질량을 독점하게 하여, 결국 유효한 탐색 궤적을 억압한다는 것을 보여줍니다. 이를 해결하기 위해 우리는 비대칭 신뢰도 인식 오류 패널티(ACE)를 제안합니다. ACE는 롤아웃별 신뢰도 변화 지표(c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)))를 도입하여 부정적 어드밴티지를 동적으로 조절합니다. 이론적으로 우리는 ACE의 그래디언트가 과도하게 자신감 있는 오류에만 제한적으로 적용되는 선택적 정규화기의 그래디언트와, 해당 정규화기의 강도를 부분적으로 완화하는 잘 규정된 잔차로 분해될 수 있음을 증명합니다. 우리는 VERL 프레임워크 내에서 GRPO와 DAPO를 사용하여 Qwen2.5-Math-7B, Qwen3-8B-Base, Llama-3.1-8B-Instruct 모델을 DAPO-Math-17K 데이터셋으로 미세 조정하는 광범위한 실험을 수행했습니다. MATH-500과 AIME 2025에서 평가한 결과, ACE는 기존 방법과 원활하게 결합되어 세 가지 모델 패밀리와 모든 벤치마크에서 전체 Pass@k 스펙트럼을 일관되게 향상시켰습니다.
대규모 언어 모델(LLM)의 환각 현상은 일반적으로 모델 또는 디코딩 전략의 결함으로 간주된다. 본 연구는 고전 언어학을 바탕으로 질의의 형태가 청자(및 모델)의 응답 형성에 영향을 미칠 수 있음을 주장한다. 우리는 이러한 통찰력을 절차화하기 위해 절 구조 복잡성, 어휘 희귀도, 그리고 인간 이해력에 영향을 미치는 것으로 알려진 공시적 지시, 부정, 응답 가능성, 의도 기반 등을 포괄하는 22차원 질의 특징 벡터를 구성하였다. 369,837개의 실제 질의를 활용하여 우리는 다음과 같은 의문을 제기한다: 특정 유형의 질의가 환각 발생 가능성을 높이는가? 대규모 분석 결과, 깊은 수준의 절 중첩과 명세 부족과 같은 특정 특징은 높은 환각 성향과 연관되는 일관된 "위험 지형도"를 드러냈다. 반면, 명확한 의도 기반과 응답 가능성은 낮은 환각률과 연관되었다. 도메인 특이성과 같은 다른 특징들은 데이터셋 및 모델에 따라 혼재된 효과를 보였다. 따라서 이러한 연구 결과는 환각 위험과 상관관계가 있는 경험적으로 관찰 가능한 질의-특징 표현을 확립하며, 체계적인 질의 재구성과 향후 중재 연구의 길을 열어준다.
본 연구에서는 분산원장기술(DLT) 연구를 위한 최대 규모의 도메인 특화 텍스트 컬렉션인 DLT-Corpus를 소개한다: 과학 문헌(37,440편), 미국 특허청(USPTO) 특허(49,023건), 소셜 미디어(22백만 게시물) 등 22.12백만 개 문서에서 추출한 29.8억 개의 토큰으로 구성된다. 기존 DLT용 자연어 처리(NLP) 자원은 암호화폐 가격 예측과 스마트 계약에 국한되어 있어, 약 3조 달러에 달하는 시가총액과 빠른 기술 발전에도 불구하고 도메인 특화 언어 연구가 미진한 실정이다. 본 연구는 기술 등장 패턴과 시장-혁신 상관관계 분석을 통해 DLT-Corpus의 유용성을 입증한다. 연구 결과에 따르면 기술은 과학 문헌에서 기원하여 특허와 소셜 미디어로 확산되는 전통적인 기술 이전 패턴을 따른다. 암호화폐 시장 침체기에도 소셜 미디어 정서는 압도적으로 낙관적인 반면, 과학 및 특허 활동은 시장 변동과 무관하게 성장하며 전체 시장 확장을 추종한다. 이는 연구가 경제 성장을 선도하고 가능하게 하며, 이로 인한 자금이 추가 혁신을 지원하는 선순환 구조를 보여준다. 본 연구팀은 전체 DLT-Corpus와 DLT 특화 개체명 인식(NER) 작업에서 BERT-base 대비 23% 성능 향상을 달성한 도메인 적응 모델 LedgerBERT, 관련 모든 도구 및 코드를 공개한다.
대규모 언어 모델(LLM)의 고급 추론 능력은 환각 현상을 더 빈번하게 초래했으나, 대부분의 완화 연구는 오픈소스 모델에 대한 사후 탐지 및 매개변수 편집에 집중하고 있습니다. 기관 배포 모델의 절대 다수를 차지하는 폐쇄형 모델의 환각 현상에 대한 연구가 부족하다는 점은 특히 우려스러운 상황입니다. 본 논문은 실증적으로 검증 및 보정된 보상 함수를 활용하여 최적의 질의 재작성 전략을 온라인으로 적응적으로 학습하는 모델 불문 콘텍스츄얼 밴딧 프레임워크인 QueryBandits를 소개합니다. 16개의 질의응답 시나리오에서 최고 성능의 QueryBandits(톰슨 샘플링)은 재작성 없음 기준선 대비 87.5%의 승률을 기록했으며, 제로샷 정적 정책(예: 파라프레이즈 또는 확장)을 각각 42.6%, 60.3% outperformed 하였습니다. 또한 모든 콘텍스츄얼 밴딧은 모든 데이터셋에서 기본 밴딧을 outperformed 했으며, 특징 변동성이 높을수록 행동 선택의 변동성도 커졌습니다. 이는 모든 질의에 최적인 단일 재작성 정책이 없음을 입증합니다. 또한 특정 정적 정책이 재작성 없음 정책보다 더 높은 누적 후회를 초래한다는 점을 발견했는데, 이는 유연하지 않은 질의 재작성 정책이 오히려 환각 현상을 악화시킬 수 있음을 시사합니다. 따라서 QueryBandits를 통해 의미론적 특징에 대한 온라인 정책을 학습하면 순전히 순전파 메커니즘을 통해 모델 동작을 전환할 수 있어 폐쇄형 모델에서도 사용이 가능하며, 재학습이나 그래디언트 기반 적응이 필요 없습니다.
모방 학습(IL)과 대규모 운전 데이터셋의 발전에 힘입어 최근 엔드투엔드 자율주행(E2E-AD)이 큰 진전을 보였습니다. 현재 IL 기반 방법론은 주류 패러다임으로 자리 잡았으며, 모델은 전문가가 제공하는 표준 운전 행동에 의존하여 자신의 행동과 전문가 행동 간 차이를 최소화하도록 학습합니다. 그러나 "오직 전문가처럼 운전하기"라는 이 목표는 제한된 일반화 성능을 보입니다: 전문가 시범 데이터 분포를 벗어난 희귀하거나 보지 못한 롱테일 시나리오에 직면할 때, 모델은 사전 경험의 부재로 인해 안전하지 않은 결정을 내리는 경향이 있습니다. 이는 근본적인 질문을 제기합니다: 전문가 행동 감독 없이도 E2E-AD 시스템이 신뢰할 수 있는 결정을 내릴 수 있을까요? 이에 동기를 받아, 우리는 전문가 시범 데이터에 의존하지 않고 강건한 제어를 통해 이 일반화 딜레마를 해결하는 통합 프레임워크인 위험 인지 세계 모델 예측 제어(RaWMPC)를 제안합니다. 실제로 RaWMPC는 세계 모델을 활용하여 여러 후보 행동의 결과를 예측하고 명시적 위험 평가를 통해 저위험 행동을 선택합니다. 세계 모델이 위험한 운전 행동의 결과를 예측할 수 있는 능력을 갖추도록 하기 위해, 우리는 세계 모델이 체계적으로 위험 행동에 노출되도록 하여 치명적 결과를 예측 가능하고 thus 회피 가능하게 만드는 위험 인지 상호작용 전략을 설계합니다. 더 나아가 테스트 시점에 저위험 후보 행동을 생성하기 위해, 우리는 잘 훈련된 세계 모델의 위험 회피 능력을 전문가 시범 데이터 없이 생성적 행동 제안 네트워크로 증류하는 자기 평가 증류 방법을 도입합니다. 광범위한 실험을 통해 RaWMPC가 분포 내 및 분포 외 시나리오 모두에서 최첨단 방법론을 능가하는 동시에 우수한 결정 해석 가능성을 제공함을 입증했습니다.
의료 영상 분할은 훈련용 주석 데이터의 부족, 모호한 해부학적 특징, 도메인 변화로 인해 여전히 어려운 과제로 남아 있습니다. CLIP과 같은 비전-언어 모델이 강력한 교차 모달리티 표현을 제공하지만, 텍스트 기반 고밀도 의료 영상 분할에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구는 CLIP을 강건하고 데이터 효율적이며 불확실성 인식 의료 영상 분할에 적용하는 새로운 프레임워크인 MedCLIPSeg를 제안합니다. 우리의 접근법은 확률론적 교차 모달리티 어텐션을 통해 패치 수준 CLIP 임베딩을 활용하여 영상과 텍스트 토큰 간의 양방향 상호작용과 예측 불확실성의 명시적 모델링을 가능하게 합니다. 다양한 텍스트 프롬프트 간 미세한 의미론적 학습을 장려하는 소프트 패치 수준 대조 손실과 결합하여 MedCLIPSeg는 데이터 효율성과 도메인 일반화 성능을 효과적으로 향상시킵니다. 5가지 영상 방식과 6개 장기를 아우르는 16개 데이터셋에 대한 폭넓은 실험을 통해 MedCLIPSeg가 정확도, 효율성, 강건성에서 기존 방법을 능가함을 입증하였으며, 분할 결과의 지역적 신뢰도를 강조하는 해석 가능한 불확실성 맵을 제공합니다. 본 연구는 텍스트 주도 의료 영상 분할을 위한 확률론적 비전-언어 모델링의 잠재력을 입증합니다.
현실적인 대화적 제스처 생성은 디지털 휴먼과 자연스럽고 사회적으로 매력적인 상호작용을 달성하는 데 필수적입니다. 그러나 기존 방법들은 일반적으로 단일 오디오 스트림을 한 화자의 동작에 매핑할 뿐, 사회적 맥락을 고려하거나 대화에 참여하는 두 사람 간의 상호 역동성을 모델링하지 않습니다. 본 논문에서는 다이어딕(dyadic) 오디오 신호로부터 맥락에 적합한 인간 동작을 생성하는 다중 모드 확산 트랜스포머인 DyaDiT를 제안합니다. Seamless Interaction Dataset으로 학습된 DyaDiT는 선택적 사회적 맥락 토큰과 함께 다이어딕 오디오를 입력받아 맥락에 적절한 동작을 생성합니다. 이 모델은 양쪽 화자의 정보를 융합하여 상호작용 역동성을 포착하고, 모션 사전을 사용하여 모션 사전 지식을 인코딩하며, 선택적으로 대화 상대의 제스처를 활용하여 더 반응적인 동작을 생성할 수 있습니다. 우리는 DyaDiT를 표준 모션 생성 메트릭으로 평가하고 정량적 사용자 연구를 수행하여, 이 방법이 객관적 지표에서 기존 방법을 능가할 뿐만 아니라 사용자들에게도 강력하게 선호되어 그 견고성과 사회적으로 바람직한 모션 생성 능력을 입증했습니다. 코드와 모델은 논문 승인 후 공개될 예정입니다.
비디오와 오디오 간의 멀티모달 정합을 확장하는 것은 데이터의 제한성과 텍스트 설명과 프레임 단위 비디오 정보 간의 불일치로 인해 특히 어려운 과제입니다. 본 연구에서는 멀티모달-오디오 생성에서의 확장 과제를 다루며, 짧은 인스턴스로 훈련된 모델이 테스트 시 더 긴 인스턴스로 일반화될 수 있는지 검토합니다. 이 문제를 해결하기 위해 우리는 최신 비디오-오디오 모델의 향상된 확장판인 MMHNet이라는 멀티모달 계층적 네트워크를 제시합니다. 우리의 접근 방식은 계층적 방법과 비인과적 맘바를 통합하여 장편 오디오 생성을 지원합니다. 제안한 방법은 5분 이상의 긴 오디오 생성 성능을 크게 향상시킵니다. 또한 더 긴 지속 시간으로 훈련하지 않고도 비디오-오디오 생성 작업에서 '짧게 훈련하고 길게 테스트'가 가능함을 입증합니다. 실험을 통해 우리의 방법이 장편 비디오-오디오 벤치마크에서 비디오-오디오 작업의 기존 방법들을 능가하는 뛰어난 결과를 달성할 수 있음을 보여줍니다. 더 나아가, 기존 비디오-오디오 방법들이 긴 지속 시간 생성에 어려움을 겪는 반면, 우리 모델이 5분 이상의 오디오를 생성하는 능력을 입증합니다.
데이터 효율적 신경 디코딩은 음성 뇌-컴퓨터 인터페이스의 핵심 과제입니다. 본 연구는 인지와 생성을 아우르는 MEG 기반 음성 모델에 대해 전이 학습과 교차 과제 디코딩을 최초로 구현한 사례를 제시합니다. 단일 피실험자의 50시간 청취 데이터를 바탕으로 Conformer 기반 모델을 사전 학습한 후, 18명의 피실험자 각각에 대해 5분 분량의 데이터만으로 미세 조정을 수행했습니다. 전이 학습은 인지 과제 내 정확도 1-4% 향상, 교차 과제 간 최대 5-6% 향상 등 일관된 성능 개선을 보였습니다. 사전 학습은 각 과제 내 성능을 향상시킬 뿐만 아니라, 인지와 생성 간의 안정적인 교차 과제 디코딩도 가능하게 했습니다. 특히 중요한 것은 음성 생성으로 학습된 모델이 수동 청취 상태를 우연 수준 이상으로 디코딩했다는 점으로, 이는 학습된 표현이 과제 특화적 운동 활동이 아닌 공유 신경 과정을 반영함을 입증합니다.
지속 학습은 배포된 언어 모델의 핵심 요구사항이지만, 표준 학습 및 미세 조정 파이프라인은 비정상 데이터 환경에서 취약성을 보입니다. 온라인 업데이트는 종종 파국적 망각을 유발하는 반면, 안정성을 향상시키는 방법들은 긴 문맥에 효과적으로 확장되지 않는 방식으로 지연 시간, 메모리 사용량 또는 집중 계산을 증가시키는 경우가 많습니다. 본 논문에서는 아키텍처 수준에서 지속 학습을 해결하는 디코더 전용 백본인 TRC²(시상 라우팅 피질 컬럼)을 소개합니다. TRC²는 피질 컬럼에 대한 희소 시상 라우팅을 변조, 예측, 기억, 피드백 메커니즘과 결합하고, 느린 매개변수를 불안정하게 만들지 않으면서 빠른 적응을 지원하는 신속 교정 경로를 포함합니다. 결과적인 블록은 희소성과 청크 병렬 처리를 통해 효율적인 학습과 추론을 가능하게 하며 각 하위 시스템의 명확한 절제 연구를 보존합니다. 우리는 재현 가능한 학습 및 평가 스택과 스트리밍 도메인 변화 하에서 프록시 망각을 측정하는 지속 학습 헤드니스를 구현합니다. 언어 모델링 및 지속 학습 벤치마크 전반에 걸쳐 TRC²는 유사한 연산 비용 대비 안정성-가소성 트레이드오프를 개선하여 기존에 습득한 행동을 보존하면서도 스트림 상에서의 빠른 적응을 가능하게 합니다.