번역이 포함된 일일 선별된 AI 연구 논문
최근 하이퍼 커넥션(HC)을 비롯한 연구들은 지난 10년간 정립된 보편적인 잔차 연결 패러다임을 잔차 스트림의 폭 확장과 연결 패턴 다양화를 통해 확장해 왔습니다. 이러한 다양화는 상당한 성능 향상을 가져왔으나, 근본적으로 잔차 연결에 내재된 항등 매핑 특성을 훼손하여 심각한 훈련 불안정성과 확장성 제한을 초래하며, 추가적으로 상당한 메모리 접근 오버헤드를 유발합니다. 이러한 문제들을 해결하기 위해 우리는 HC의 잔차 연결 공간을 특정 매니폴드에 투영하여 항등 매핑 특성을 복원하는 일반화 프레임워크인 매니폴드-제약 하이퍼 커넥션(mHC)을 제안하며, 효율성을 보장하기 위한 엄격한 인프라 최적화를 함께 도입합니다. 실험 결과는 mHC이 대규모 훈��에 효과적이며, 실질적인 성능 향상과 우수한 확장성을 제공함을 입증합니다. 우리는 mHC이 HC의 유연하고 실용적인 확장으로서 위상 구조 설계에 대한 깊은 이해에 기여하고, 기초 모델 진화를 위한 유망한 방향성을 제시할 것으로 기대합니다.
저희는 높은 계산 효율성과 본질적인 에이전트 능력을 조화시킨 경량이면서도 강력한 언어 모델인 Youtu-LLM을 소개합니다. 지식 증류에 의존하는 일반적인 소형 모델과 달리, Youtu-LLM(1.96B)은 추론 및 계획 능력을 체계적으로 함양하기 위해 처음부터 사전 학습되었습니다. 주요 기술적 발전은 다음과 같습니다. (1) 장문맥 지원을 위한 컴팩트 아키텍처: 새로운 STEM 중심 어휘 사전을 갖춘 조밀한 MLA 아키텍처를 기반으로 구축된 Youtu-LLM은 128k 컨텍스트 창을 지원합니다. 이 설계는 최소 메모리 사용량으로 강력한 장문맥 추론 및 상태 추적을 가능하게 하여 장기간의 에이전트 및 추론 작업에 이상적입니다. (2) 체계적인 "상식-STEM-에이전트" 커리큘럼: 약 11T 토큰에 달하는 방대한 코퍼스를 구성하고 다단계 학습 전략을 구현했습니다. 사전 학습 데이터 분포를 일반 상식에서 복잡한 STEM 및 에이전트 작업으로 점진적으로 전환함으로써, 모델이 피상적인 정렬이 아닌 깊은 인지 능력을 습득하도록 보장합니다. (3) 확장 가능한 에이전트 중간 학습: 특히 에이전트 중간 학습을 위해, 수학, 코딩, 도구 사용 분야에 걸쳐 풍부하고 다양한 행동 궤적을 합성하기 위해 다양한 데이터 구성 방식을 사용합니다. 이러한 고품질 데이터는 모델이 계획 및 성찰 행동을 효과적으로 내면화할 수 있게 합니다. 광범위한 평가 결과, Youtu-LLM은 20억 파라미터 미만 LLM 중 새로운 최첨단 성능을 보여줍니다. 일반 벤치마크에서는 대형 모델에 필적하는 성능을 달성하는 한편, 에이전트 특화 작업에서는 기존 SOTA 기준선을 크게 능가하여 경량 모델도 강력한 내재적 에이전트 능력을 가질 수 있음을 입증합니다.
에이전트형 크래프팅은 LLM이 행동을 취하고 결과를 관찰하며 산출물을 반복적으로 개선함으로써 다중 턴에 걸쳐 실제 환경에서 작동하도록 요구합니다. 그 중요성에도 불구하고 오픈소스 커뮤니티에는 에이전트 개발을 효율화할 원칙적이고 종단간(end-to-end) 생태계가 부족합니다. 본 논문은 에이전트 LLM의 생산 파이프라인을 최적화하는 기반 인프라인 Agentic Learning Ecosystem(ALE)을 소개합니다. ALE는 세 가지 구성 요소로 이루어집니다: 가중치 최적화를 위한 사후 훈련 프레임워크인 ROLL, 궤적 생성을 위한 샌드박스 환경 관리자 ROCK, 효율적인 컨텍스트 엔지니어링을 위한 에이전트 프레임워크 iFlow CLI입니다. 우리는 ALE에 기반을 두고 백만 개 이상의 궤적으로 훈련된 오픈소스 에이전트 ROME(ROME is Obviously an Agentic Model)을 공개합니다. 우리의 접근 방식에는 복잡한 행동을 합성하기 위한 데이터 구성 프로토콜과, 개별 토큰이 아닌 의미적 상호작용 덩어리 단위로 신용을 할당하여 장기적 훈련 안정성을 향상시키는 새로운 정책 최적화 알고리즘인 Interaction-based Policy Alignment(IPA)가 포함됩니다. 실증적으로, 우리는 구조화된 환경 내에서 ROME을 평가하고 규모와 오염 통제가 개선된 벤치마크인 Terminal Bench Pro를 소개합니다. ROME은 SWE-bench Verified 및 Terminal Bench와 같은 벤치마크에서 강력한 성능을 보여주며 ALE 인프라의 효과성을 입증합니다.
3차원 재구성 기술의 최근 발전은 조밀한 다중 시점 이미지로부터 고품질 장면 복원에 있어 주목할만한 진전을 이루었으나, 입력 시점이 제한될 경우 어려움을 겪습니다. 이러한 문제를 해결하기 위해 정규화 기법, 시맨틱 사전지식, 기하학적 제약 조건 등 다양한 접근법이 도입되었습니다. 최근 등장한 디퓨전 기반 방법들은 새로운 카메라 포즈에서의 신규 시점을 생성하여 훈련 데이터를 증강함으로써 기존 정규화 및 사전지식 기반 기법을 능가하는 상당한 개선을 입증했습니다. 그러나 이러한 최첨단 접근법에도 세 가지 중요한 한계점이 존재합니다: 알려진 시점 주변부를 벗어난 불충분한 커버리지, 생성된 시점 간의 기하학적 불일치, 그리고 계산 비용이 많이 드는 파이프라인이 바로 그것입니다. 본 논문에서는 다중 시점 외삽을 통해 희소 시점 재구성을 재정의하는 GaMO(Geometry-aware Multi-view Outpainter) 프레임워크를 소개합니다. GaMO는 새로운 시점을 생성하는 대신 기존 카메라 포즈에서 시야각을 확장함으로써 기하학적 일관성을 본질적으로 보존하면서 더 넓은 장면 커버리지를 제공합니다. 우리의 접근법은 훈련 없이 제로샷 방식으로 다중 시점 조건화 및 기하학 인식 잡음 제거 전략을 활용합니다. Replica 및 ScanNet++에 대한 광범위한 실험을 통해 3, 6, 9개의 입력 시점에서 최첨단 재구성 품질을 입증하였으며, PSNR과 LPIPS 기준으로 기존 방법들을 능가하는 동시에 SOTA 디퓨전 기반 방법 대비 25배 빠른 속도(10분 미만 처리 시간)를 달성했습니다. 프로젝트 페이지: https://yichuanh.github.io/GaMO/
로그 이상 탐지는 운영 체제의 보안을 유지하는 데 중요합니다. 로그 데이터 수집 원천에 따라 다양한 정보가 로그에 기록되며, 이러한 정보는 로그 양식으로 간주될 수 있습니다. 이러한 직관에 비추어 볼 때, 단일 양식 방법은 로그 데이터의 서로 다른 양식을 무시함으로써 종종 어려움을 겪습니다. 한편, 다중 양식 방법은 이러한 양식 간의 상호작용을 처리하지 못합니다. 다중 양식 감정 분석을 로그 이상 탐지에 적용하여, 우리는 다양한 양식을 활용하여 로그를 협력적으로 인코딩하는 CoLog 프레임워크를 제안합니다. CoLog는 협력형 트랜스포머와 다중 헤드 임프레스드 어텐션을 활용하여 여러 양식 간의 상호작용을 학습함으로써 포괄적인 이상 탐지를 보장합니다. 이러한 상호작용으로 인한 이질성을 처리하기 위해 CoLog는 서로 다른 로그 양식에서 오는 표현을 조정하는 양식 적응 계층을 포함합니다. 이 방법론을 통해 CoLog는 데이터 내의 미묘한 패턴과 의존성을 학습하여 이상 탐지 능력을 향상시킵니다. 광범위한 실험을 통해 CoLog가 기존 최첨단 방법들보다 우수함을 입증했습니다. 더 나아가, 점 이상과 집합 이상 모두를 탐지하는 데 있어 CoLog는 로그 기반 이상 탐지를 위한 7개의 벤치마크 데이터셋에서 평균 정밀도 99.63%, 평균 재현율 99.59%, 평균 F1 점수 99.61%를 달성했습니다. CoLog의 포괄적인 탐지 능력은 사이버 보안, 시스템 모니터링 및 운영 효율성에 매우 적합하게 만듭니다. CoLog는 통합된 프레임워크를 통해 점 이상 및 집합 이상 탐지에 대한 정교하고 효과적인 솔루션을 제공하고, 자동 로그 데이터 분석이 제기하는 복잡한 과제에 대한 해결책을 제시함으로써 로그 이상 탐지 분야의 중요한 진전을 나타냅니다. 또한 https://github.com/NasirzadehMoh/CoLog 에서 CoLog의 구현을 제공합니다.
텍스트-비디오(T2V) 생성 분야의 최근 발전은 우수한 시각적 품질을 달성했으나, 물리 법칙을 충실히 따르는 비디오 합성은 여전히 해결 과제로 남아 있습니다. 그래픽 기반 또는 프롬프트 확장에 주로 의존하는 기존 방법론들은 단순한 시뮬레이션 환경을 벗어나거나 암묵적인 물리 추론을 학습하는 데 일반화하기 어렵습니다. 또한 풍부한 물리적 상호작용과 현상을 포함한 훈련 데이터의 부족 역시 문제입니다. 본 논문에서는 먼저 비전-언어 모델(VLM)과 사고 연쇄 추론을 활용하여 대규모 훈련 데이터셋인 PhyVidGen-135K를 수집하는 물리 증강 비디오 데이터 구축 파이프라인인 PhyAugPipe를 소개합니다. 그런 다음 쌍별 비교를 넘어선 전체적 선호도를捕捉하기 위해 그룹별 Plackett-Luce 확률 모델에 기반한 원리 기반의 물리 인식 그룹별 직접 선호 최적화 프레임워크인 PhyGDPO를 정형화합니다. PhyGDPO에서는 VLM 기반 물리 보상을 내재화하여 최적화가 물리적 일관성을 향하도록 유도하는 물리 유도 보상(PGR) 기법을 설계합니다. 또한 메모리 부담이 큰 참조 모델 복제를 제거하여 효율적인 훈련을 가능하게 하는 LoRA-스위치 참조(LoRA-SR) 기법도 제안합니다. 실험 결과, 우리의 방법은 PhyGenBench 및 VideoPhy2 벤치마크에서 최첨단 오픈소스 방법론들을 크게 능가하는 성능을 보입니다. 더 많은 비디오 결과는 프로젝트 페이지(https://caiyuanhao1998.github.io/project/PhyGDPO)에서 확인하실 수 있습니다. 코드, 모델 및 데이터는 https://github.com/caiyuanhao1998/Open-PhyGDPO에서 공개될 예정입니다.
고위험 의사 결정은 미래에 대한 불확실성 속에서 이뤄지는 추론 과정을 수반합니다. 본 연구에서는 언어 모델이 개방형 예측 질문에 대한 예측을 수행하도록 훈련시킵니다. 훈련 데이터를 확장하기 위해 일일 뉴스에 보도된 글로벌 이슈로부터 새로운 예측 질문을 합성하는 완전 자동화된 신중한 데이터 선별 방법을 사용합니다. 우리는 OpenForesight 데이터셋으로 Qwen3 사고 모델을 훈련합니다. 훈련 및 평가 중 미래 정보 유출을 방지하기 위해 예측 시스템의 데이터 생성과 검색 모두에 오프라인 뉴스 코퍼스를 활용합니다. 소규모 검증 세트의 지도를 통해 검색의 이점과 강화 학습(RL)을 위한 개선된 보상 함수의 효과를 입증합니다. 최종 예측 시스템을 확보한 후, 2025년 5월부터 8월까지 보유 데이터를 활용한 실험을 수행합니다. 우리의 전문화된 모델인 OpenForecaster 8B는 상용 대형 모델에 버금가는 성능을 보이며, 훈련을 통해 예측의 정확도, 보정(calibration), 일관성이 개선됩니다. 예측 훈련을 통한 보정 개선 효과는 널리 사용되는 벤치마크에서도 일반화됨을 확인합니다. 언어 모델 예측 연구의 광범위한 접근성을 위해 모든 모델, 코드, 데이터를 오픈소스로 공개합니다.
기억은 과거와 미래를 잇는 핵심 연결 고리로서 인간과 AI 시스템 모두에 복잡한 과제를 해결하는 데 필수적인 개념과 경험을 제공합니다. 최근 자율 에이전트 연구는 인지 신경과학에서 통찰을 도출하여 효율적인 메모리 워크플로우를 설계하는 데 집중하고 있습니다. 그러나 학제 간 장벽으로 인해 기존 연구들은 인간 기억 메커니즘의 본질을 체계적으로 흡수하는 데 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 우리는 인지 신경과학과 LLM 기반 에이전트의 통찰을 연결하며 기억에 대한 학제적 지식을 체계적으로 종합합니다. 구체적으로, 우리는 먼저 인지 신경과학에서 LLM을 거쳐 에이전트에 이르는 점진적 궤적을 따라 기억의 정의와 기능을 명확히 합니다. 다음으로 생물학적 관점과 인공적 관점에서 메모리 분류 체계, 저장 메커니즘, 그리고 완전한 관리 생애주기에 대한 비교 분석을 제공합니다. 이후 에이전트 메모리 평가를 위한 주류 벤치마크를 검토합니다. 추가로 공격과 방어의 이중 관점에서 메모리 보안을 탐구합니다. 마지막으로 멀티모달 메모리 시스템과 기술 습득에 중점을 둔 미래 연구 방향을 전망합니다.
비전-언어-행동(VLA) 모델은 언어 조건화된 장기간 로봇 매니픈레이션을 가능하게 했지만, 대부분의 기존 시스템은 그리퍼에 국한되어 있습니다. 높은 자유도(DoF)를 가진 양손 디텍터러스 핸드 탑재 양손 로봇으로 VLA 정책을 확장하는 것은 확장된 행동 공간, 빈번한 핸드-객체 폐색, 그리고 실제 로봇 데이터 수집 비용으로 인해 여전히 어려운 과제입니다. 본 연구에서는 양손 디텍터러스 핸드 로봇에서 VLA 기반 일반화 매니픈레이션을 위한 통합 하드웨어-모델-데이터 프레임워크인 GR-Dexter를 소개합니다. 우리의 접근 방식은 컴팩트한 21-DoF 로봇 핸드 설계, 실제 로봇 데이터 수집을 위한 직관적인 양손 원격 조작 시스템, 그리고 원격 조작된 로봇 궤적과 대규모 비전-언어 데이터셋 및 신중하게 선별된 크로스 임보디먼트 데이터셋을 활용하는 훈련 방법을 결합합니다. 일상적인 장기간 매니픈레이션과 일반화 가능한 피크-앤-플레이스를 아우르는 실제 평가에서 GR-Dexter는 도메인 내 우수한 성능과 보이지 않는 객체 및 지시에 대한 향상된 강건성을 달성했습니다. 우리는 GR-Dexter가 일반화된 디텍터러스 핸드 로봇 매니픈레이션을 위한 실용적인 단계가 되기를 바랍니다.
최근 대규모 언어 모델(LLM)의 추론 능력이 향상되고 있지만, 추론 과정에서의 내부 메커니즘은 아직 충분히 연구되지 않았다. 기존 접근법들은 단어 수준에서 인간이 정의한 개념(예: 과도 사고, 성찰)에 의존하여 지도 방식으로 추론을 분석하는 경우가 많았다. 그러나 이러한 방법은 잠재적 추론 행동의 전체 스펙트럼을 포착하는 것이 불가능하며, 많은 행동들이 토큰 공간에서 정의하기 어렵기 때문에 한계가 있다. 본 연구에서는 별개의 추론 행동을 인코딩하는 활성화 공간 내 방향으로 정의하는 '추론 벡터'를 발견하기 위한 비지도 프레임워크(RISE: Reasoning behavior Interpretability via Sparse auto-Encoder)를 제안한다. 생각의 연쇄(chain-of-thought) 추적을 문장 수준의 '단계'로 분할하고 단계별 활성화에 대해 희소 오토인코더(SAE)를 학습함으로써, 성찰이나 백트래킹과 같은 해석 가능한 행동에 해당하는 분리된 특징을 발견한다. 시각화 및 클러스터링 분석은 이러한 행동들이 디코더 열 공간에서 분리 가능한 영역을 점유함을 보여준다. 더 나아가, SAE에서 도출된 벡터에 대한 표적 개입은 재학습 없이 특정 추론 행동을 제어 가능하게 증폭하거나 억제하여 추론 궤적을 변경할 수 있다. 행동 특정 분리 이외에도, SAE는 응답 길이와 같은 구조적 특성을 포착하여 길고 짧은 추론 흔적의 클러스터를 드러낸다. 더 흥미롭게도, SAE는 인간의 감독을 넘어서는 새로운 행동의 발견을 가능하게 한다. 우리는 SAE 디코더 공간에서 신뢰도 관련 벡터를 식별함으로써 응답 신뢰도를 제어할 수 있는 능력을 입증한다. 이러한 발견들은 LLM의 추론을 해석하고 제어 가능하게 조종하는 데 비지도 잠재 발견의 잠재력을 강조한다.
호흡음 분류는 ICBHI 2017과 같은 벤치마크 데이터셋의 제한된 크기, 높은 노이즈 수준, 심각한 클래스 불균형으로 인해 어려움을 겪고 있습니다. Transformer 기반 모델은 강력한 특징 추출 능력을 제공하지만, 이러한 제한된 의료 데이터로 학습할 때 과적합되기 쉽고 손실 함수 지형상 날카로운 최소점으로 수렴하는 경향이 있습니다. 이를 해결하기 위해 우리는 Sharpness-Aware Minimization(SAM)을 사용하여 Audio Spectrogram Transformer(AST)를 향상시키는 프레임워크를 제안합니다. 우리의 접근법은 단순히 학습 손실을 최소화하는 대신, 손실 표면의 기하학적 구조를 최적화하여 보지 않은 환자 데이터에 대해 더 잘 일반화되는 평평한 최소점으로 모델을 이끕니다. 또한 클래스 불균형을 효과적으로 처리하기 위해 가중치 샘플링 전략을 구현했습니다. 우리의 방법은 ICBHI 2017 데이터셋에서 68.10%의 최첨단 성적을 달성하여 기존 CNN 및 하이브리드 기준선 모델들을 능가합니다. 더 중요하게는 신뢰할 수 있는 임상 스크리닝에至关重要的한 개선인 68.31%의 민감도에 도달했습니다. t-SNE와 어텐션 맵을 활용한 추가 분석을 통해 이 모델이 배경 노이즈를 단순히 암기하는 것이 아니라 강건하고 판별력 있는 특징을 학습함을 확인했습니다.
우리는 긴 동영상을 짧은 컨텍스트로 압축하는 신경망 구조인 PFP를 제안하며, 임의의 시간적 위치에서 단일 프레임의 고주파 디테일을 보존하는 명시적 사전 학습 목표를 갖춘 모델입니다. 기준 모델은 20초 길이의 동영상을 약 5k 길이의 컨텍스트로 압축할 수 있으며, 여기서 무작위 프레임을 지각적으로 보존된 외형으로 검색할 수 있습니다. 이러한 사전 학습된 모델은 자동회귀 비디오 모델을 위한 메모리 인코더로 직접 미세 조정될 수 있어, 낮은 컨텍스트 비용과 상대적으로 낮은 충실도 손실로 긴 기록 메모리를 가능하게 합니다. 우리는 이 프레임워크를 다양한 제어 실험 설정으로 평가하고 가능한 신경망 구조 설계의 절충점에 대해 논의합니다.
공간과 시간을 분리하여 제어 가능한 생성적 렌더링을 구현하는 비디오 확산 모델인 SpaceTimePilot을 제안합니다. SpaceTimePilot은 단안 비디오가 주어지면 생성 과정 내에서 카메라 시점과 모션 시퀀스를 독립적으로 변경하여, 공간과 시간을 가로지르는 연속적이고 자유로운 탐색을 위해 장면을 재렌더링할 수 있습니다. 이를 위해 확산 과정에 효과적인 애니메이션 시간 임베딩 메커니즘을 도입하여 소스 비디오 대비 출력 비디오의 모션 시퀀스를 명시적으로 제어할 수 있도록 합니다. 연속적인 시간 변화를 갖는 동일한 동적 장면의 짝을 이룬 비디오 데이터셋이 존재하지 않기 때문에, 기존的多視点 데이터셋을 시간 차이를 모방하도록 재활용하는 간단하면서 효과적인 시간 왜핑 훈련 기법을 제안합니다. 이 전략은 모델이 시간 제어를 학습하고 강력한 시공간 분리를 달성하도록 효과적으로 지도합니다. 이중 제어의 정밀도를 더욱 향상시키기 위해 두 가지 추가 구성 요소를 도입합니다: 첫 번째 프레임부터 카메라 변경을 허용하는 개선된 카메라 조건 설정 메커니즘과, 장면 내에서 완전히 자유로운 시공간 비디오 궤적을 제공하는 최초의 합성 시공간 전체 커버리지 렌더링 데이터셋인 CamxTime입니다. 시간 왜핑 기법과 CamxTime 데이터셋에 대한 공동 훈련은 더 정밀한 시간 제어를 가능하게 합니다. SpaceTimePilot을 실제 및 합성 데이터에 대해 평가하여, 기존 연구 대비 명확한 시공간 분리와 우수한 결과를 입증합니다. 프로젝트 페이지: https://zheninghuang.github.io/Space-Time-Pilot/ 코드: https://github.com/ZheningHuang/spacetimepilot
전략적 대화를 위해서는 에이전트가 서로 다른 대화 행위를 수행해야 하며, 이를 위해 믿음 추정이 필수적입니다. 기존 연구들은 믿음을 정확히 추정하는 경우가 많았지만, 생성 과정에서 그러한 믿음을 활용하는 원리적인 메커니즘이 부족했습니다. 우리는 이 격차를 해소하기 위해 먼저 적대적 행위와 조정 행위라는 두 가지 핵심 행위를 공식화하고, 에이전트가 생성할 수 있는 내용에 대한 확률적 제약을 통해 이를 운영화했습니다. 우리는 이러한 아이디어를 BEDA 프레임워크에 구현했으며, 이는 세계 집합, 믿음 추정을 위한 믿음 추정기, 그리고 추론된 믿음과 일관된 행위를 선택하고 발화를 실현하는 조건부 생성기로 구성됩니다. 조건형 키퍼-강도(CKBG, 적대적), 상호 친구(MF, 협력적), CaSiNo(협상)라는 세 가지 설정에서 BEDA는 강력한 기준 모델들을 일관되게 능가했습니다: CKBG에서는 백본 모델별로 성공률을 최소 5.0점, GPT-4.1-nano를 사용할 때는 20.6점 향상시켰으며; Mutual Friends에서는 평균 9.3점의 향상을 달성했고; CaSiNo에서는 모든 기준 모델 대비 최적의 거래를 달성했습니다. 이러한 결과는 믿음 추정을 제약 조건으로 설정하는 것이 신뢰할 수 있는 전략적 대화를 위한 단순하면서도 일반적인 메커니즘을 제공함을 시사합니다.
자율주행 차량과 드론을 포함한 자율 시스템의 급속한 발전으로, 다중 모달 온보드 센서 데이터에서 진정한 공간 지능을 구축할 필요성이 더욱 부각되고 있습니다. 파운데이션 모델은 단일 모달 환경에서는 뛰어난 성능을 보이지만, 카메라와 LiDAR와 같은 다양한 센서 간의 능력을 통합하여 통합된 이해를 생성하는 것은 여전히 난제로 남아 있습니다. 본 논문은 다중 모달 사전 학습을 위한 포괄적인 프레임워크를 제시하며, 이 목표를 향한 진전을 주도하는 핵심 기술들을 규명합니다. 우리는 기본적인 센서 특성과 학습 전략 간의 상호작용을 분석하고, 이러한 발전을 가능하게 하는 플랫폼별 데이터셋의 역할을 평가합니다. 우리의 주요 기여는 사전 학습 패러다임에 대한 통합 분류 체계를 정립한 것입니다. 이는 단일 모달리티 기준 모델부터 3D 객체 감지 및 의미론적 점유율 예측과 같은 고급 작업을 위한 전체론적 표현을 학습하는 정교한 통합 프레임워크에 이르기까지 그 범위를涵盖합니다. 나아가, 개방형 세계 인식 및 계획을 용이하게 하기 위해 텍스트 입력과 점유율 표현의 통합을 탐구합니다. 마지막으로, 계산 효율성 및 모델 확장성과 같은 중요한 병목 현상을 지적하고, 현실 세계 배치를 위한 강력한 공간 지능을 달성할 수 있는 범용 다중 모달 파운데이션 모델을 향한 로드맵을 제안합니다.
최근 비디오-언어 모델들은 비디오 이해에 있어 큰 잠재력을 보여주고 있지만, 이벤트 수준 인식을 위한 정확한 시간적 근거 파악(temporal grounding)에는 여전히 어려움을 겪고 있습니다. 우리는 비디오 이해의 두 가지 주요 요소(즉, 시간적 근거 파악과 텍스트 응답 생성)가 논리적 위계를 형성한다는 점을 관찰했습니다: 정확한 시간적 증거 파악은 신뢰할 수 있는 텍스트 응답의 기초를 제공합니다. 그러나 기존 연구들은 일반적으로 명확한 논리적 구조 없이 이 두 과제를 결합된 방식으로 처리하여 최적이 아닌 목표를 초래했습니다. 우리는 이를 인수분해 학습(factorized learning) 관점에서 접근합니다. 우리는 먼저 이 두 과제의 학습을 분리하면서도 그들의 내재적 의존성을 강조하는 D²VLM 프레임워크를 제안합니다. 우리는 "증거 참조를 통한 근거 파악 후 응답 생성(grounding then answering with evidence referencing)" 패러다임을 채택하고, 증거 파악을 위한 증거 토큰(e evidence tokens)을 도입합니다. 이는 기존 연구들이 타임스탬프 표현에 집중하는 것을 넘어 이벤트 수준의 시각적 의미 포착을 강조합니다. 이 두 과제의 학습을 더욱 촉진하기 위해, 우리는 새로운 인수분해 선호도 최적화(FPO) 알고리즘을 소개합니다. 표준 선호도 최적화와 달리, FPO는 확률적 시간적 근거 모델링을 명시적으로 최적화 목표에 통합하여 시간적 근거 파악과 텍스트 응답 생성 모두에 대한 선호도 학습을 가능하게 합니다. 또한 우리는 명시적 시간적 근거 파악을 포함한 인수분해 선호도 학습에 적합한 데이터셋의 부족 문제를 해결하기 위해 합성 데이터셋을 구축했습니다. 다양한 과제에 대한 실험 결과는 우리 접근법의 뚜렷한 우위를 입증합니다. 우리의 소스 코드는 https://github.com/nusnlp/d2vlm에서 확인할 수 있습니다.
확산 모델은 (조건부) 데이터 분포 전체를 포착하는 강력한 능력을 보여줍니다. 그러나 낮은 확률 영역을 학습하기 위한 충분한 훈련과 데이터의 부족으로 인해, 모델은 이러한 영역에 해당하는 고품질 이미지를 생성하지 못할 경우 패널티를 받게 됩니다. 더 나은 생성 품질을 달성하기 위해, Classifier Free Guidance(CFG)와 같은 guidance 전략은 샘플링 단계에서 샘플을 높은 확률 영역으로 유도할 수 있습니다. 그러나 표준 CFG는 종종 지나치게 단순화되거나 왜곡된 샘플을 초래합니다. 한편, 열화된 버전의 모델로 확산 모델을 guidance하는 대안적인 접근법은 신중하게 설계된 열화 전략, 추가 훈련 및 추가 샘플링 단계에 의해 제한됩니다. 본 논문에서는 훈련 과정에서 중간 계층에 대한 보조 supervision을 도입하고, 샘플링 과정에서는 중간 및 깊은 계층의 출력을 외삽하여 생성 결과를 얻는 간단하면서 효과적인 전략인 Internal Guidance(IG)를 제안합니다. 이 간단한 전략은 다양한 베이스라인에서 훈련 효율성과 생성 품질 모두에서 상당한 향상을 가져옵니다. ImageNet 256x256에서 SiT-XL/2+IG는 80 및 800 epoch에서 FID=5.31 및 FID=1.75를 달성했습니다. 더욱 인상적으로는, LightningDiT-XL/1+IG는 FID=1.34를 달성하여 이러한 모든 방법들 사이에 큰 격차를 보여줍니다. CFG와 결합했을 때, LightningDiT-XL/1+IG는 현재 최고 수준인 1.19의 FID를 달성합니다.
복잡한 추론 문제에는 공간적, 기하학적, 구조적 관계가 암묵적으로 내포되어 있으나 텍스트로는 명시적으로 표현되지 않는 경우가 많습니다. 최근 추론 모델들은 여러 분야에서 강력한 성능을 보여주고 있지만, 순수 텍스트 기반 추론은 복잡한 상황에서 전역적 구조적 제약 조건을 표현하는 데 어려움을 겪습니다. 본 논문에서는 종단간 강화 학습을 통해 능동적 시각적 사고를 다중 턴 추론에 통합하는 FIGR을 제안합니다. FIGR은 문제 해결 과정에서 시각적 표현을 구축함으로써 중간 단계의 구조적 가설을 외부화합니다. 시각적 추론이 언제, 어떻게 실행되어야 하는지를 적응적으로 조절함으로써 FIGR은 텍스트만으로는 파악하기 어려운 전역적 구조적 속성에 대해 더욱 안정적이고 일관된 추론을 가능하게 합니다. 난이도 높은 수학적 추론 벤치마크에서의 실험 결과, FIGR이 강력한 텍스트 전용 사고 연쇄(chain-of-thought) 기준 모델들을 능가하는 것으로 나타났습니다. 특히 FIGR은 AIME 2025에서 기본 모델 대비 13.12%, BeyondAIME에서 11.00%의 성능 향상을 보여주며, 도형 주도 다중 모드 추론이 복잡한 추론의 안정성과 신뢰성 향상에 효과적임을 입증했습니다.
본 논문은 음향-비디오(JAV)의 통합적 이해 및 생성을 위한 최초의 통합 멀티모달 대규모 언어 모델(MLLM)인 JavisGPT를 소개한다. JavisGPT는 간결한 인코더-LLM-디코더 구조를 채택하며, 사전 학습된 JAV-DiT 생성기를 연결하기 위한 시공간적 음향-비디오 융합을 위한 SyncFusion 모듈과 동기화 인지 학습 가능 쿼리를 특징으로 한다. 이 설계는 멀티모달 지시어로부터 시간적 일관성을 갖는 비디오-오디오 이해 및 생성을 가능하게 한다. 기존 시각-언어 모델로부터 점진적으로 멀티모달 이해 및 생성을 구축하기 위해 멀티모달 사전 학습, 음향-비디오 미세 조정, 대규모 지시어 조정으로 구성된 효과적인 3단계 학습 파이프라인을 설계하였다. 이를 지원하기 위해 다양하고 다중 수준의 이해 및 생성 시나리오를 아우르는 20만 개 이상의 GPT-4o 기반 음향-비디오-텍스트 대화로 구성된 고품질 지시어 데이터셋 JavisInst-Omni를 추가로 구축하였다. JAV 이해 및 생성 벤치마크에 대한 폭넓은 실험 결과, JavisGPT가 기존 MLLM을 능가하며 특히 복잡하고 시간적 동기화가 필요한 환경에서 우수한 성능을 보여줌을 확인하였다.
현대 AI 시스템은 부동소수점 연산을 사용해 저장 및 검색되는 벡터 임베딩에 의존합니다. 이는 근사 유사성 검색에는 효과적이지만, 이러한 설계는 근본적인 비결정론을 초래합니다. 즉, 동일한 모델, 입력, 코드라도 하드웨어 아키텍처(x86 대 ARM)에 따라 서로 다른 메모리 상태와 검색 결과를 생성할 수 있습니다. 이로 인해 재현 가능성이 저해되고 안전한 배포가 어려워지며, 규제 산업에서 사후 검증과 감사 추적을 불가능하게 하는 침묵적인 데이터 이질화가 발생합니다. 본 논문에서는 부동소수점 메모리 연산을 고정소수점 연산(Q16.16)으로 대체하고 메모리를 재생 가능한 상태 머신으로 모델링하는 결정론적 AI 메모리 기반 시스템인 Valori를 제시합니다. Valori는 플랫폼 간에 비트 단위로 동일한 메모리 상태, 스냅샷 및 검색 결과를 보장합니다. 우리는 비결정론이 인덱싱 또는 검색 이전에 발생함을 입증하고 Valori가 메모리 경계에서 어떻게 결정론을 강제하는지 보여줍니다. 연구 결과는 결정론적 메모리가 신뢰할 수 있는 AI 시스템을 위한 필수 요소임을 시사합니다. 참조 구현은 오픈소스이며 https://github.com/varshith-Git/Valori-Kernel(기록 보관: https://zenodo.org/records/18022660)에서 확인할 수 있습니다.