번역이 포함된 일일 선별된 AI 연구 논문
STEP3-VL-10B를 소개합니다. 이는 경량 오픈소스 파운데이션 모델로, 컴팩트한 효율성과 최첨단 수준의 멀티모달 인텔리전스 간의 트레이드오프를 재정의하기 위해 설계되었습니다. STEP3-VL-10B는 두 가지 전략적 전환을 통해 구현됩니다. 첫째, 언어 정렬 인지 인코더(Perception Encoder)와 Qwen3-8B 디코더를 통합하여 본질적인 비전-언어 시너지를 구축하는 1.2T 멀티모달 토큰에 대한 통합적이고 완전히 동결 해제된 사전 학습 전략입니다. 둘째, 1,000회 이상의 강화 학습 반복을 특징으로 하는 스케일된 사후 학습 파이프라인입니다. 특히, 병렬 조정 추론(Parallel Coordinated Reasoning, PaCoRe)을 구현하여 테스트 시간 컴퓨팅을 확장하고, 다양한 시각적 가설을 탐구 및 종합하는 확장 가능한 인지 추론에 자원을 할당합니다. 그 결과, 컴팩트한 10B 규모에도 불구하고, STEP3-VL-10B는 10~20배 더 큰 모델들(예: GLM-4.6V-106B, Qwen3-VL-235B) 및 Gemini 2.5 Pro, Seed-1.5-VL과 같은 최상위 독점 플래그십 모델들을 능가하거나 그에 버금가는 성능을 보입니다. 최고 수준의 성능을 제공하며, MMBench에서 92.2%, MMMU에서 80.11%를 기록했고, AIME2025에서 94.43%, MathVision에서 75.95%를 달성하여 복잡한 추론 분야에서도 뛰어난 성과를 보였습니다. 커뮤니티에 강력하고 효율적이며 재현 가능한 기준선을 제공하기 위해 전체 모델 제품군을 공개합니다.
인간 활동의 중심지인 도시 표면은 다양한 의미론적 개체로 구성됩니다. 위성 이미지에서 이러한 다양한 개체를 분할하는 것은 다양한 다운스트림 애플리케이션에 중요합니다. 현재의 고급 분할 모델은 물리적 속성으로 정의된 개체(예: 건물, 수역)는 안정적으로 분할할 수 있지만, 사회적으로 정의된 범주(예: 학교, 공원)는 여전히 어려움을 겪고 있습니다. 본 연구에서는 비전-언어 모델 추론을 통해 사회-의미론적 분할을 달성합니다. 이를 위해 위성 이미지, 디지털 지도 및 계층적 구조로 조직된 사회적 의미론적 개체의 픽셀 수준 레이블을 포함하는 새로운 자원인 SocioSeg라는 도시 사회-의미론적 분할 데이터셋을 소개합니다. 추가로, 크로스 모달 인식과 다단계 추론을 통해 인간의 사회적 의미론적 개체 식별 및 주석 프로세스를 시뮬레이션하는 SocioReasoner라는 새로운 비전-언어 추론 프레임워크를 제안합니다. 우리는 강화 학습을 활용하여 이 미분 불가능한 프로세스를 최적화하고 비전-언어 모델의 추론 능력을 이끌어냅니다. 실험을 통해 우리의 접근 방식이 최첨단 모델 대비 향상된 성능과 강력한 제로샷 일반화 능력을 보여줍니다. 우리의 데이터셋과 코드는 https://github.com/AMAP-ML/SocioReasoner에서 이용할 수 있습니다.
강화 학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련, 특히 복잡한 추론 작업을 위한 핵심 패러다임으로 자리 잡았으나, 종종 탐색 붕괴 문제를 겪습니다. 즉, 정책이 지나치게 일부 우세한 추론 패턴에 집중하여 pass@1은 향상시키지만 롤아웃 수준의 다양성과 pass@k 향상을 제한합니다. 우리는 이러한 실패가 솔루션 집합의 다양성보다는 지역적 토큰 행동을 규제하는 데서 비롯된다고 주장합니다. 이를 해결하기 위해 우리는 희귀한 고수준 전략을 보이는 올바른 솔루션을 명시적으로 보상하는 롤아웃 수준 목표인 고유성 인식 강화 학습을 제안합니다. 우리의 방법은 LLM 기반 판단자를 사용하여 동일한 문제에 대한 롤아웃을 표면적 변형을 무시하고 고수준 해결 전략에 따라 클러스터링하며, 정책 이점을 클러스터 크기에 반비례하여 재가중합니다. 그 결과, 정확하지만 새로운 전략이 중복된 전략보다 더 높은 보상을 받습니다. 수학, 물리학, 의학 추론 벤치마크 전반에 걸쳐 우리의 접근법은 큰 샘플링 예산에서 pass@k를 꾸준히 향상시키고 pass@1을 희생하지 않으면서 pass@k 곡선 아래 면적(AUC@K)을 증가시키며, 탐색을 지속하고 더 다양한 해결 전략을 대규모로 발견합니다.
다중 에이전트 시스템은 다양성과 상호 검증을 통해 견고성을 얻어 많은 애플리케이션에서 실용적인 LLM 기반 협업자로 진화했습니다. 그러나 다중 에이전트 강화학습(MARL) 훈련은 리소스 집약적이고 불안정합니다. 팀원들의 공동 적응은 비정상성을 유발하며, 보상은 희소하고 분산이 큰 경우가 많습니다. 따라서 본 논문에서는 추론 시점에 구조화된 텍스트 경험을 다중 에이전트 의사 결정 과정에 주입하는 프레임워크인 MATTRL(Multi-Agent Test-Time Reinforcement Learning)을 소개합니다. MATTRL은 다중 턴 토론을 위한 전문가 다중 전문가 팀을 구성하고, 테스트 타임 경험을 검색 및 통합하며, 최종 의사 결정을 위한 합의에 도달합니다. 또한 턴 단위 경험 풀을 구축하고 이를 대화에 재주입하기 위한 신용 할당 방법을 연구합니다. 의학, 수학, 교육 분야의 도전적인 벤치마크에서 MATTRL은 다중 에이전트 기준선보다 평균 3.67%, 유사한 단일 에이전트 기준선보다 8.67% 정확도를 향상시켰습니다. 제거 연구를 통해 다양한 신용 할당 방식을 검토하고 이들이 훈련 결과에 미치는 영향을 상세히 비교합니다. MATTRL은 튜닝 없이도 분포 변화에 강건한 다중 에이전트 추론을 위한 안정적이고 효과적이며 효율적인 경로를 제공합니다.
지시어 기반 이미지 편집은 생성형 AI 분야에서 가장 빠르게 발전하는 영역 중 하나입니다. 지난해 동안 이 분야는 높은 성능을 가진 상용 시스템과 함께 수십 개의 오픈소스 모델이 공개되며 새로운 수준에 도달했습니다. 그러나 현재 실제 환경에서 사용 가능한 수준의 품질을 달성하는 오픈소스 접근법은 제한적입니다. 또한 이러한 파이프라인의 주류를 이루는 디퓨전 백본은 대개 규모가 크고 많은 배포 및 연구 환경에서 계산 비용이 높으며, 널리 사용되는 변형 모델들은 일반적으로 60억에서 200억 개의 매개변수를 포함합니다. 본 논문은 현대적인 20억 매개변수 Qwen3-VL 모델을 편집 과정 가이드에, 16억 매개변수 디퓨전 모델 Sana1.5를 이미지 생성에 활용하는 컴팩트하고 높은 처리량을 가진 지시어 기반 이미지 편집 파이프라인을 제시합니다. 아키텍처, 데이터 처리, 훈련 구성 및 평가에 걸친 우리의 설계 결정은 이 규모에서 가능한 주요 편집 범주에서 높은 품질을 유지하면서 저비용 추론과 엄격한 소스 일관성을 목표로 합니다. ImgEdit 및 GEdit 벤치마크에서 평가한 결과, 제안 방법은 매개변수 수가 수 배 많고 추론 비용이更高的인 모델들을 포함하여 상당히 무거운 기준 모델들의 성능을 따라잡거나 능가하며, 속성 조정, 객체 제거, 배경 편집 및 대상 치환과 같이 입력 이미지 보존이 필요한 편집에서 특히 뛰어난 성능을 보입니다. 이 모델은 24GB GPU 메모리 내에 적재되며, NVIDIA H100에서 BF16 기준 추가 추론 최적화나 증류 없이 최대 2K 해상도의 편집된 이미지를 약 4초 만에 생성합니다.
과학 분야 인공지능의 핵심 과제는 단순한 추론 능력이 아닌, 열린 과학 세계에서 계산 방법을 창조하는 능력에 있습니다. 기존 LLM 기반 에이전트는 정적이고 사전 정의된 도구 라이브러리에 의존하는데, 이 패러다임은 도구가 희소하고 이질적이며 본질적으로 불완전한 과학 영역에서는 근본적으로 한계를 보입니다. 본 논문에서는 추론 과정에서 실행 가능한 도구를 합성, 검증 및 진화시킬 수 있는 새로운 패러다임인 테스트 타임 도구 진화(TTE)를 제안합니다. TTE는 도구를 고정된 자원에서 문제 주도적 산출물로 전환함으로써 정적 도구 라이브러리의 경직성과 롱테일 한계를 극복합니다. 엄격한 평가를 위해 925개의 자동 진화 도구로 지원되는 1,590개의 과학적 추론 과제로 구성된 벤치마크 SciEvo를 도입했습니다. 대규모 실험 결과, TTE는 정확도와 도구 효율성 모두에서 최첨단 성능을 달성하면서 계산 도구의 효과적인 크로스 도메인 적응을 가능하게 함을 보여줍니다. 코드와 벤치마크는 https://github.com/lujiaxuan0520/Test-Time-Tool-Evol에서 공개되었습니다.
인공지능의 에이전트 기반 과학으로의 진전은 현재 수일 또는 수주에 걸친 실험 주기를 통해 전략적 일관성과 반복적 수정을 유지하는 능력인 초장기적 자율성이라는 과제에 의해 병목 현상을 겪고 있습니다. 대규모 언어 모델(LLM)은 단기적 추론에서 뛰어난 능력을 보여주었지만, 현실 세계 연구의 고차원적이고 지연된 피드백 환경에서 실행 세부사항에 쉽게 압도되어 희소한 피드백을 일관된 장기 지도로 통합하지 못합니다. 본 논문에서는 과학적 발견의 대표적 축소판인 초장기적 머신러닝 엔지니어링(MLE)을 숙달하는 자율 에이전트인 ML-Master 2.0을 소개합니다. 맥락 관리를 인지적 축적 과정으로 재구성함으로써, 우리의 접근법은 컴퓨터 시스템에서 영감을 받아 시간에 따른 경험의 구조적 차별화를 가능하게 하는 다계층 아키텍처인 계층적 인지 캐싱(HCC)을 도입합니다. HCC는 일시적인 실행 흔적을 동적으로 안정적인 지식과 교차 작업 지혜로 정제함으로써 에이전트가 즉각적 실행과 장기적 실험 전략을 분리하도록 하여 정적 컨텍스트 윈도우의 확장 한계를 효과적으로 극복합니다. 24시간 예산 조건에서 OpenAI의 MLE-Bench에 대한 평가에서 ML-Master 2.0은 56.44%의 최첨단 메달 달성률을 기록했습니다. 우리의 연구 결과는 초장기적 자율성이 인간의 선례를 넘어선 복잡성까지 자율적 탐색이 가능한 AI를 위한 확장 가능한 청사진을 제공함을 입증합니다.
비전-언어 사전학습(VLP) 모델은 대규모 이미지-텍스트 쌍을 대조 학습 방식으로 학습하여 다양한 다운스트림 작업에서 우수한 성능을 보여줍니다. 방대한 양의 영어 이미지-텍스트 데이터셋(예: COYO-700M, LAION-400M)의 공개로 인해 CLIP 및 SigLIP과 같은 모델이 크로스모달 검색 및 이미지 캡셔닝을 포함한 작업에 널리 활용되고 있습니다. 그러나 고품질 중국어 이미지-텍스트 데이터의 부족으로 중국어 비전-언어 사전학습 분야의 발전은 크게 뒤처져 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 고품질 중국어 크로스모달 데이터셋 구축을 위한 종합적인 파이프라인을 개발했습니다. 그 결과, Common Crawl에서 수집된 1억 개의 이미지-텍스트 쌍으로 구성된 DanQing 데이터셋을 제안합니다. 기존 데이터셋과 달리 DanQing은 보다 엄격한 선별 과정을 통해 구축되어 우수한 데이터 품질을 자랑합니다. 또한 DanQing은 주로 2024-2025년 웹 데이터로 구성되어 모델이 진화하는 의미론적 트렌드를 더 잘 포착할 수 있으므로 실용성이 더 높습니다. SigLIP2 모델의 지속적 사전학습을 통해 DanQing을 기존 데이터셋과 비교한 결과, DanQing은 제로-샷 분류, 크로스모달 검색 및 LMM 기반 평가를 포함한 다양한 중국어 다운스트림 작업에서 일관되게 우수한 성능을 달성함을 확인했습니다. 중국어 비전-언어 사전학습 연구의 활성화를 위해 DanQing 데이터셋을 크리에이티브 커먼즈 CC-BY 4.0 라이선스 하에 공개할 예정입니다.
최근 비디오 생성 모델에서는 프레임별 시각적 추론을 가능하게 하는 프레임 연쇄(Chain-of-Frame, CoF) 추론 능력의 출현이 확인되었습니다. 이러한 능력을 바탕으로 비디오 모델은 다양한 시각 작업(예: 미로 해결, 시각적 퍼즐)에 성공적으로 적용되고 있습니다. 그러나 텍스트-이미지(T2I) 생성 과정에는 명확히 정의된 시각 추론 시작점과 해석 가능한 중간 상태가 부재하기 때문에, T2I 생성 성능 향상에 대한 비디오 모델의 잠재력은 대부분 탐구되지 않은 상태입니다. 이러한 간극을 메우기 위해 우리는 CoF 추론을 T2I 생성에 통합하는 CoF-T2I 모델을 제안합니다. 이 모델은 점진적 시각 정제를 통해 중간 프레임을 명시적 추론 단계로 활용하고 최종 프레임을 출력으로 생성합니다. 이러한 명시적 생성 과정을 구축하기 위해 우리는 의미론에서 심미성으로 이어지는 생성 과정을 모델링하는 CoF 궤적 데이터셋인 CoF-Evol-Instruct를 구축했습니다. 또한 품질을 개선하고 모션 아티팩트를 방지하기 위해 각 프레임에 대한 독립적인 인코딩 연산을 가능하게 합니다. 실험 결과, CoF-T2I는 기본 비디오 모델을 크게 능가하며 까다로운 벤치마크에서 경쟁력 있는 성능을 달성하여 GenEval에서 0.86점, Imagine-Bench에서 7.468점에 도달했습니다. 이러한 결과는 고품질 텍스트-이미지 생성 발전을 위한 비디오 모델의 상당한 가능성을 시사합니다.
최근 텍스트-이미지(T2I) 확산 모델(DM)의 발전으로 다양한 텍스트 프롬프트에서 고품질 시각적 합성이 가능해졌습니다. 그러나 대규모 언어 모델(LLM) 기반 텍스트 인코더를 탑재한 모델조차도 기존 T2I DM 대부분은 여전히 텍스트-픽셀 매퍼에 머물러 있습니다. 즉, LLM을 단순히 텍스트 인코더로만 활용할 뿐, 텍스트 프롬프트가 주어졌을 때 시각적으로 묘사해야 할 내용을 추론하는 LLM의 내재적 추론 능력을 활용하지 못하고 있습니다. 이러한 문자적 생성의 한계를 극복하기 위해 우리는 LLM 기반 텍스트 인코더가 원시 사용자 프롬프트에 대해 추론하고 재작성하도록 유도하는 think-then-generate(T2G) 패러다임을 제안합니다. 재작성된 프롬프트의 상태는 이후 확산 조건으로 사용됩니다. 이를 위해 먼저 경량 감독 미세 조정 과정을 통해 LLM 인코더의 think-then-rewrite 패턴을 활성화합니다. 이후 LLM 인코더와 확산 백본은 Dual-GRPO를 통해 맥락에 대한 충실한 추론과 의미의 정확한 렌더링을 보장하도록 공동 최적화됩니다. 구체적으로, 텍스트 인코더는 세계 지식을 추론하고 회상하도록 이미지 기반 보상으로 강화되는 반면, 확산 백본은 의미적으로 일관되고 시각적으로 통일된 이미지를 생성하도록 유도됩니다. 실험 결과, 추론 기반 이미지 생성 및 편집 벤치마크에서 사실적 일관성, 의미론적 정렬, 시각적 현실성 측면에서 상당한 개선이 확인되었으며, WISE 점수 0.79를 달성하여 GPT-4에 근접한 성능을 보였습니다. 우리의 결과는 추론, 표현, 구현 능력을 갖춘 차세대 통합 모델을 위한 유망한 진전을 이루었습니다.
대규모 비디오 확산 및 흐름 모델은 고품질 비디오 생성에서 놀라운 성공을 거두었지만, 비효율적인 다단계 샘플링 과정으로 인해 실시간 인터랙티브 애플리케이션에서의 사용은 여전히 제한적입니다. 본 연구에서는 비디오 확산 모델을 효율적인 소수 단계 생성기로 지식 증류하는 새로운 프레임워크인 전이 매칭 증류(TMD)를 제안합니다. TMD의 핵심 아이디어는 확산 모델의 다단계 노이즈 제거 궤적을 소수 단계의 확률적 전이 과정과 매칭하는 것으로, 각 전이는 경량 조건부 흐름으로 모델링됩니다. 효율적인 증류를 위해 기존 확산 백본을 두 가지 구성 요소로 분해합니다: (1) 대부분의 초기 레이어로 구성되어 외부 전이 단계마다 의미론적 표현을 추출하는 메인 백본과 (2) 마지막 몇 개의 레이어로 구성되어 이러한 표현을 활용하여 여러 내부 흐름 업데이트를 수행하는 흐름 헤드입니다. 사전 학습된 비디오 확산 모델이 주어지면, 먼저 모델에 흐름 헤드를 도입하고 조건부 흐름 맵으로 적응시킵니다. 그런 다음 각 전이 단계에서 흐름 헤드 롤아웃을 사용하여 학생 모델에 분포 매칭 증류를 적용합니다. Wan2.1 1.3B 및 14B 텍스트-투-비디오 모델 증류에 대한 광범위한 실험을 통해 TMD가 생성 속도와 시각적 품질 간에 유연하고 강력한 트레이드오프를 제공함을 입증합니다. 특히, TMD는 유사한 추론 비용 대비 기존 증류 모델들을 시각적 충실도와 프롬프트 준수도 측면에서 능가합니다. 프로젝트 페이지: https://research.nvidia.com/labs/genair/tmd
도구 통합 추론(TIR)은 대규모 언어 모델(LLM)이 추론 단계와 외부 도구 상호작용을 교차하며 복잡한 작업을 해결할 수 있도록 지원합니다. 그러나 기존 강화 학습 방법은 일반적으로 결과 수준 또는 궤적 수준 보상에 의존하며, 궤적 내 모든 단계에 동일한 이점을 부여합니다. 이러한 거시적 수준의 기여도 할당은 특히 장기적·다중 회기 시나리오에서 효과적인 도구 호출과 중복 또는 오류가 있는 호출을 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해 우리는 이분 매칭 기반 회기 수준 보상 할당과 이중 수준 이점 추정을 통한 정밀한 감독을 도입한 MatchTIR 프레임워크를 제안합니다. 구체적으로 예측된 실행 궤적과 실제 실행 궤적 간의 이분 매칭 문제로 기여도 할당을 공식화하며, 두 가지 할당 전략을 활용하여 밀집된 회기 수준 보상을 도출합니다. 더 나아가 지역적 단계 정밀도와 전역적 작업 성공 간의 균형을 위해 회기 수준과 궤적 수준 신호를 통합한 이중 수준 이점 추정 기법을 도입하여 개별 상호작용 회기에 서로 다른 이점 값을 할당합니다. 3개 벤치마크에서 진행한 폭넓은 실험을 통해 MatchTIR의 우수성을 입증했습니다. 특히 우리의 40억 파라미터 모델은 대부분의 80억 파라미터 경쟁 모델을 능가하며, 장기적·다중 회기 작업에서 두드러진 성능을 보였습니다. 코드는 https://github.com/quchangle1/MatchTIR에서 확인할 수 있습니다.
현재 가장 강력한 비디오-언어 모델(VLM)은 여전히 독점 모델입니다. 가장 성능이 뛰어난 오픈 웨이트 모델들은 독점 VLM에서 생성된 합성 데이터에 의존하거나, 효과적으로 해당 모델들을 지식 증류하거나, 아니면 학습 데이터나 레시피를 공개하지 않고 있습니다. 그 결과, 오픈소스 커뮤니티는 최첨단 비디오(및 이미지) 언어 모델을 개선하는 데 필요한 기반을 갖추지 못하고 있습니다. 중요한 것은 많은 다운스트림 애플리케이션이 높은 수준의 비디오 이해 이상을 요구한다는 점입니다. 즉, 포인팅이나 픽셀 단위 추적을 통한 그라운딩이 필요합니다. 심지어 독점 모델들도 이러한 능력이 부족합니다. 본 논문은 오픈소스 모델 중 최첨단 성능을 보이며, 단일 이미지, 다중 이미지, 비디오 작업에서 포인트 기반 그라운딩이라는 탁월한 새로운 능력을 보여주는 새로운 VLM 패밀리인 Molmo2를 소개합니다. 우리의 주요 기여는 7개의 새로운 비디오 데이터셋과 2개의 다중 이미지 데이터셋 컬렉션입니다. 여기에는 사전 학습을 위한 고도로 상세한 비디오 캡션 데이터셋, 미세 조정을 위한 자유 형식 비디오 질의응답 데이터셋, 복잡한 쿼리가 포함된 새로운 객체 추적 데이터셋, 그리고 혁신적인 새로운 비디오 포인팅 데이터셋이 모두 독점 VLM을 사용하지 않고 수집되었습니다. 또한 효율적인 패킹 및 메시지 트리 인코딩 방식을 활용한 이 데이터에 대한 학습 레시피를 제시하고, 비전 토큰에 대한 양방향 어텐션과 새로운 토큰 가중치 전략이 성능을 향상시킴을 보여줍니다. 우리의 최고 수준 8B 모델은 짧은 비디오, 카운팅, 캡션 생성 작업에서 오픈 웨이트 및 데이터 모델 부문의 다른 모델들을 능가하며, 긴 비디오 작업에서도 경쟁력을 보입니다. 비디오 그라운딩에서 Molmo2는 Qwen3-VL과 같은 기존 오픈 웨이트 모델들을 크게 앞섰으며(비디오 카운팅 정확도 35.5 대 29.6), 일부 작업에서는 Gemini 3 Pro와 같은 독점 모델도 능가했습니다(비디오 포인팅 F1 38.4 대 20.0, 비디오 추적 J&F 56.2 대 41.1).
본 논문에서는 이미지 내 객체의 본질적 속성을 편집하기 위한 확산 기반 방법인 Alterbute를 소개한다. 본 방법은 객체의 지각적 정체성과 장면 맥락을 보존하면서 색상, 질감, 재질, 심지어 형태까지 변경하는 것을 가능하게 한다. 기존 방법들은 정체성 보존에 종종 실패하는 비지도 사전 지식에 의존하거나, 의미 있는 본질적 변화를 방해하는 지나치게 제한적인 지도 학습을 사용한다. 제안 방법은 다음 두 가지에 기반한다: (i) 정체성 참조 이미지, 목표 본질적 속성을 설명하는 텍스트 프롬프트, 외적 맥락을 정의하는 배경 이미지 및 객체 마스크에 조건부로 모델이 본질적 및 외적 속성을 모두 변경할 수 있도록 하는 완화된 훈련 목표. 추론 시에는 원본 배경과 객체 마스크를 재사용하여 외적 변화를 제한함으로써 오직 원하는 본질적 속성만 변경되도록 보장한다. (ii) 시각적 명사 엔티티(VNE) - 정체성을 정의하는 특징을 공유하면서 본질적 속성에서는 변이가 허용되는 세분화된 시각적 정체성 범주(예: '포르쉐 911 카레라'). 대규모 공개 이미지 데이터셋에서 비전-언어 모델을 사용하여 VNE 레이블과 본질적 속성 설명을 자동으로 추출함으로써 확장 가능하고 정체성 보존적인 지도 학습을 가능하게 한다. Alterbute는 정체성 보존 객체 본질 속성 편집에서 기존 방법들을 능가하는 성능을 보인다.
LLM 기반 에이전트가 외부 도구 호출을 통해 환경과 상호작용할 수 있지만, 이러한 확장된 능력은 보안 위험도 함께 증폭시킵니다. 에이전트 배포 시 단계별 도구 호출 행위를 실시간으로 모니터링하고 안전하지 않은 실행을 사전에 차단하는 것은 중요하지만, 아직까지 충분히 연구되지 않았습니다. 본 연구에서는 먼저 LLM 에이전트의 단계별 도구 호출 안전성 감지를 위한 새로운 벤치마크인 TS-Bench를 구축합니다. 이후 다중 작업 강화 학습을 활용하여 가드레일 모델 TS-Guard를 개발합니다. 이 모델은 상호작용 이력을 추론하여 실행 전 안전하지 않은 도구 호출 행위를 사전에 탐지합니다. 이를 위해 요청의 유해성과 행위-공격 간 상관관계를 평가하여 해석 가능하고 일반화된 안전성 판단 및 피드백을 생성합니다. 나아가 가드레일-피드백 주도 추론 프레임워크인 TS-Flow를 도입하여, 프롬프트 주입 공격 하에서 ReAct 스타일 에이전트의 유해한 도구 호출을 평균 65% 감소시키고 정상 작업 완료율을 약 10% 개선함을 보였습니다.
대규모 언어 모델(LLM) 및 다중 모달 대규모 언어 모델(MLLM)의 급속한 발전은 언어와 비전 분야 전반에 걸쳐 추론, 인지 및 생성 능력에서 상당한 향상을 가져왔습니다. 그러나 이러한 발전이 안전성 측면에서도 비례하는 개선을 이루는지는 여전히 불분명한데, 이는 부분적으로 단일 모달리티나 위협 모델에 국한된 단편적인 평가 관행 때문입니다. 본 보고서에서는 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개의 최첨단 모델에 대한 통합 안전성 평가를 제시합니다. 우리는 벤치마크 평가, 적대적 평가, 다국어 평가, 규제 준수 평가를 통합한 일관된 프로토콜을 사용하여 각 모델을 언어, 비전-언어, 이미지 생성 설정에 걸쳐 평가합니다. 여러 평가 모드에서 얻은 결과를 안전성 순위표와 모델 안전성 프로필로 종합해 보면 현저히 이질적인 안전성 현황이 드러납니다. GPT-5.2는 모든 평가에서 일관되게 강력하고 균형 잡힌 안전성 성능을 보여주는 반면, 다른 모델들은 벤치마크 안전성, 적대적 정렬, 다국어 일반화, 규제 준수 간에 뚜렷한 트레이드오프를 보입니다. 언어 및 비전-언어 모달리티 모두 적대적 평가에서 상당한 취약성을 나타냈으며, 모든 모델이 표준 벤치마크에서는 강력한 결과를 보였음에도 불구하고 성능이 크게 저하되었습니다. 텍스트-이미지 모델은 규제된 시각적 위험 범주에서 상대적으로 더 강한 정렬을 달성했지만, 적대적이거나 의미적으로 모호한 프롬프트 아래에서는 여전히 취약하게 남아있었습니다. 전반적으로, 이러한 결과는 최첨단 모델의 안전성은 본질적으로 다차원적이며—모달리티, 언어, 평가 방식에 의해 형성됨을 보여주며, 이는 실제 위험을 정확하게 평가하고 책임 있는 모델 개발 및 배포를 안내하기 위해 표준화된 안전성 평가의 필요성을 강조합니다.
시각적 관찰로부터 물리적 행동을 추론하는 것은 물리적 세계에서 기계 지능을 발전시키기 위한 핵심 능력입니다. 이를 달성하려면 다양한 영역을 아우르는 대규모의 개방형 어휘 비디오 행동 데이터셋이 필요합니다. 우리는 120만 개의 인터넷 강의 비디오(총 재생 시간 14.6년)로 구성된 대규모 데이터셋인 Action100M을 소개합니다. 이 데이터셋은 개방형 어휘 행동 감독과 풍부한 캡션을 갖춘 약 1억 개의 시간적 국소화 세그먼트를 제공합니다. Action100M은 (i) V-JEPA 2 임베딩을 사용한 계층적 시간 분할 수행, (ii) Tree-of-Captions로 구성된 다단계 프레임 및 세그먼트 캡션 생성, (iii) 다중 라운드 Self-Refine 절차 하에서 추론 모델(GPT-OSS-120B)을 통한 증거 통합으로 구조화된 주석(간략/상세 행동, 행위자, 간략/상세 캡션)을 출력하는 완전 자동화 파이프라인으로 생성됩니다. Action100M으로 VL-JEPA를 학습한 결과 다양한 행동 인식 벤치마크에서 일관된 데이터 스케일링 성능 향상과 강력한 제로샷 성능을 확인하여, Action100M이 비디오 이해 및 세계 모델링 연구의 새로운 기반으로 자리매김함을 입증했습니다.
인터랙티브 휴머노이드 비디오 생성은 지속적이고 반응적인 비디오를 통해 인간과 상호작용할 수 있는 생생한 시각적 에이전트를 합성하는 것을 목표로 합니다. 비디오 합성 분야의 최근 발전에도 불구하고, 기존 방법들은 높은 충실도의 합성과 실시간 상호작용 요구사항 간의 트레이드오프를 해결하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 실시간 인터랙티브 휴머노이드 비디오 생성을 위해 특별히 설계된 프레임워크인 FlowAct-R1을 제안합니다. MMDiT 아키텍처를 기반으로 구축된 FlowAct-R1은 임의의 지속 시간을 가진 비디오의 스트리밍 합성을 가능하게 하면서도 낮은 지연 시간의 응답성을 유지합니다. 연속적인 상호작용 동안 오류 누적을 완화하고 장기간의 시간적 일관성을 보장하기 위해 새로운 자기 강화 변형을 보완한 청크 단위 확산 강화 전략을 도입했습니다. 효율적인 증류 및 시스템 수준 최적화를 통해 우리의 프레임워크는 480p 해상도에서 안정적인 25fps를 달성하며 첫 프레임 출력 시간을 약 1.5초로 단축했습니다. 제안된 방법은 전체적이고 세분화된 전신 제어를 제공하여 에이전트가 인터랙티브 시나리오에서 다양한 행동 상태 사이를 자연스럽게 전환할 수 있도록 합니다. 실험 결과는 FlowAct-R1이 다양한 캐릭터 스타일에서 강력한 일반화 성능을 유지하면서도 탁월한 행동 생동감과 지각적 현실감을 달성함을 보여줍니다.
우리는 다양한 작업과 양식에 걸쳐 대규모 음악 이해 및 생성을 발전시키기 위해 설계된 오픈소스 음악 파운데이션 모델 패밀리를 제안합니다. 우리의 프레임워크는 다음과 같은 네 가지 주요 구성 요소로 이루어집니다: (1) 오디오-텍스트 정렬 모델인 HeartCLAP; (2) 실제 음악 시나리오에 최적화된 강력한 가사 인식 모델인 HeartTranscriptor; (3) 장기간의 음악 구조를 포착하면서도 정교한 음향 세부 사항을 보존하고 효율적인 자기회귀 모델링을 가능하게 하는 저프레임률(12.5Hz) 고품질 음악 코덱 토크나이저인 HeartCodec; (4) 풍부하고 사용자 조정 가능한 조건(예: 텍스트 기반 스타일 설명, 가사, 참조 오디오) 하에서 고품질 음악 합성이 가능한 LLM 기반 음악 생성 모델인 HeartMuLa. 또한, 이 모델은 두 가지 특화된 모드를 제공합니다: (i) 자연어 프롬프트를 사용하여 음악의 각 섹션(예: 인트로, 벌스, 코러스)의 스타일을 개별적으로 지정할 수 있는 정교한 음악 속성 제어; (ii) 숏폼 비디오의 배경음악으로 적합한 짧고 흥미로운 음악 생성. 마지막으로, HeartMuLa는 7B 매개변수 규모로 확장되었을 때 성능이 크게 향상됩니다. 우리는 학술 연구 수준의 데이터와 GPU 자원만으로도 Suno 수준의 상용 급 시스템을 재현할 수 있음을 최초로 입증합니다. 이러한 파운데이션 모델들이 향후 연구의 강력한 기준선(baseline)으로 활용되고, 멀티모달 콘텐츠 제작의 실용적인 응용을 촉진할 것으로 기대합니다.
대규모 언어 모델(LLM)은 진화 탐색의 강력한 연산자로 부상했으나, 효율적인 탐색 구조 설계는 여전히 임시적인 방식에 머물러 있습니다. 현재의 LLM-루프 시스템은 유망하지만 진화 과정을 체계적으로 관리하는 접근법이 부족합니다. 본 연구는 세 가지 뚜렷한 실패 모드를 규명합니다: 실험 이력이 향후 후보 생성에 편향을 일으키는 '맥락 오염', 탐색-활용 균형 부족으로 인해 에이전트가 지역 최적점에 정체되는 '모드 붕괴', 그리고 경직된 교차 전략이 병렬 탐색 경로를 효과적으로 활용하지 못하는 '약한 협력'이 그것입니다. 이러한 문제를 해결하기 위해 에이전트의 맥락과 탐색 역학을 강건하게 통제하도록 설계된 프레임워크인 진행 인지 일관성 진화(PACEvolve)를 제안합니다. PACEvolve는 계층적 맥락 관리와 가지치기를 결합하여 맥락 오염을 해결하고, 모멘텀 기반 역행 탐색으로 지역 최적점을 탈출하며, 역행 탐색과 교차를 통합한 자체 적응 샘플링 정책을 통해 동적 탐색 조정을 수행하여 에이전트가 내부 정교화와 경로 간 협력의 균형을 유지할 수 있게 합니다. 우리는 PACEvolve가 일관된 장기적 자기 개선을 위한 체계적인 경로를 제공하며, LLM-SR 및 KernelBench에서 최첨단 결과를 달성하고 Modded NanoGPT에서 기존 기록을 넘어서는 해결책을 발견함을 입증합니다.
정확한 수치적 제약 조건을 만족하는 다중 물리화학적 특성을 지닌 분자를 생성하는 것은 중요하면서도 어려운 과제입니다. 대규모 언어 모델(LLM)은 표현력이 뛰어나지만, 외부 구조와 피드백 없이는 정밀한 다중 목표 제어 및 수치 추론에 어려움을 겪습니다. 본 연구에서는 다중 특성 제약 조건 하에서 분자를 생성하기 위한 프래그먼트 수준의 검색 증강 두 단계 프레임워크인 M olGen을 소개합니다. 1단계: 프로토타입 생성 - 다중 에이전트 추론기가 검색에 기반한 프래그먼트 수준의 편집을 수행하여 실현 가능 영역 근처의 후보 분자를 생성합니다. 2단계: RL 기반 세밀 최적화 - Group Relative Policy Optimization(GRPO)으로 훈련된 프래그먼트 수준 최적화기가 1홉 또는 다중 홉 정제를 적용하여 목표 특성 오차를 명시적으로 최소화하면서 편집 복잡성과 프로토타입 이탈을 조절합니다. 프래그먼트 편집의 추론 체인과 측정된 특성 변화량으로 구성된 대규모 자동 수집 데이터셋이 두 단계를 지원하여 결정적이고 재현 가능한 지도 학습 및 제어 가능한 다중 홉 추론을 가능하게 합니다. 기존 연구와 달리, 본 프레임워크는 프래그먼트를 활용하여 분자를 더 효과적으로 추론하며 수치적 목표를 향한 제어 가능한 정제를 지원합니다. 두 가지 특성 제약 조건 집합(QED, LogP, 분자량 및 HOMO, LUMO) 하에서의 생성 실험 결과, 타당성과 다중 특성 목표의 정확한 만족도 측면에서 일관된 성능 향상을 보여 강력한 LLM 및 그래프 기반 알고리즘을 능가함을 확인했습니다.
최신 영상 생성 모델은 유망한 시각적 콘텐츠를 생성하지만 종종 기본적인 물리 법칙을 위반하여 그 유용성이 제한됩니다. 이러한 결함을 사전 학습의 불충분한 물리 이해로 돌리는 시각도 있으나, 우리는 물리적 타당성 부족이 최적화되지 않은 추론 전략에서도 기인함을 발견했습니다. 이에 따라 우리는 WMReward를 도입하고 영상 생성의 물리적 타당성 향상을 추론 시점 정렬 문제로 접근합니다. 구체적으로, 잠재 세계 모델(본 연구에서는 VJEPA-2)의 강력한 물리 사전 지식을 보상으로 활용하여 여러 후보 잡음 제거 궤적을 탐색하고 조종함으로써, 향상된 생성 성능을 위한 시험 시간 계산 자원 확장이 가능해집니다. 실험적으로 우리의 접근법은 이미지 조건, 다중 프레임 조건, 텍스트 조건 생성 설정 전반에 걸쳐 물리적 타당성을 크게 향상시켰으며, 이는 인간 선호도 연구를 통해 검증되었습니다. 특히 ICCV 2025 Perception Test PhysicsIQ Challenge에서 우리는 62.64%의 최종 점수를 기록하여 1위를 차지했으며, 기존 최신 기술을 7.42% 앞섰습니다. 우리의 연구는 특정 구현체나 매개변수화를 넘어서서 잠재 세계 모델을 활용하여 영상 생성의 물리적 타당성을 향상시킬 수 있는 가능성을 입증합니다.
통합 이미지 생성 및 편집 모델은 밀집 디퓨전 트랜스포머 아키텍처에서 심각한 작업 간섭 문제를 겪습니다. 공유 매개변수 공간이 상충되는 목표(예: 지역 편집 대 주체 기반 생성) 사이에서 타협해야 하기 때문입니다. 희소 Mixture-of-Experts(MoE) 패러다임은 유망한 해결책이지만, 해당 게이팅 네트워크는 여전히 작업에 무관심하며 지역 특징에 기반하여 작동하여 전역 작업 의도를 인식하지 못합니다. 이렇게 작업에 무관심한 특성은 의미 있는 전문성 발달을 방해하고 근본적인 작업 간섭을 해결하지 못합니다. 본 논문에서는 MoE 라우팅에 의미론적 의도를 주입하는 새로운 프레임워크를 제안합니다. 계층적 작업 의미 주석 방식을 도입하여 구조화된 작업 설명자(예: 범위, 유형, 보존)를 생성합니다. 그런 다음 예측 정렬 정규화를 설계하여 내부 라우팅 결정을 작업의 높은 수준의 의미론과 일치시킵니다. 이 정규화는 게이팅 네트워크를 작업 무관심 실행자에서 디스패치 센터로 발전시킵니다. 우리 모델은 작업 간섭을 효과적으로 완화하며, 정확도와 품질에서 밀집 베이스라인을 능가합니다. 또한 분석 결과, 전문가들이 자연스럽게 명확하고 의미론적으로 연관된 전문성을 개발하는 것을 확인할 수 있었습니다.
대규모 언어 모델에서 지시문 따르기는 핵심적이지만, 실제 지시문에는 순차적 의존성과 조건 분기 같은 논리적 구조가 흔히 포함됩니다. 기존 방법들은 일반적으로 병렬 제약 조건이 있는 데이터셋을 구성하고 평균 보상을 최적화하여 논리적 의존성을 무시하고 노이즈가 많은 신호를 생성합니다. 우리는 지시문의 논리를 명시적으로 모델링하는 논리 구조화 훈련 프레임워크 LSRIF를 제안합니다. 먼저 병렬, 순차, 조건 유형 같은 제약 구조를 가진 LSRInstruct 데이터셋을 구축하고, 병렬 구조에는 평균 집계, 순차 구조에는 실패-패널티 전파, 조건 분기에는 선택적 보상을 포함하는 구조 인식 보상 방법 LSRIF를 설계합니다. 실험 결과 LSRIF는 지시문 따르기(도메인 내 및 도메인 외)와 일반 추론에서 상당한 향상을 가져옵니다. 분석 결과, 명시적 논리 구조를 통한 학습은 어텐션 레이어의 매개변수 업데이트를 유발하고 제약 조건 및 논리 연산자에 대한 토큰 수준 어텐션을 선명하게 만드는 것으로 나타났습니다.
기업 실적 발표회에서 회피적 답변을 탐지하는 것은 재무 투명성에 중요하지만 대규모 벤치마크의 부재로 연구 발전이 더딘 상황이다. 우리는 3단계 회피 수준으로 구성된 30,000개 훈련 샘플과 1,000개 인간 주석 테스트 샘플(Cohen's Kappa 0.835)을 포함하는 EvasionBench을 소개한다. 본 연구의 핵심 기여는 최첨단 LLM 간 의견 불일치가 훈련에 가장 유용한 난이도 높은 사례를 나타낸다는 통찰을 활용한 다중 모델 주석 프레임워크이다. 우리는 두 강력한 주석 모델이 충돌하는 경계 사례를 채굴하고 판단 모델을 통해 최종 레이블을 결정한다. 이 접근법은 단일 모델 증류 방식보다 2.4% 우수한 성능을 보였으며, 판단 모델로 해결된 샘플은 더 높은 훈련 손실(0.421 vs 0.393)에도 불구하고 일반화 성능을 향상시켜 불일치 채굴이 암묵적 정규화로 작용함을 입증했다. 훈련된 모델 Eva-4B(40억 매개변수)는 81.3% 정확도를 달성하여 기본 모델 대비 25%p 향상되었으며, 추론 비용은 극소수 수준으로 최첨단 LLM 성능에 근접했다.
현재의 다중모달 잠재 추론은 종종 외부 감독(예: 보조 이미지)에 의존하며, 내재적인 시각 주의 역학을 간과합니다. 본 연구에서는 지식 증류 과정에서 중요한 인식 격차(Perception Gap)를 확인했습니다. 학생 모델이 교사 모델의 텍스트 출력을 모방하는 동시에 근본적으로 다른 시각 영역에 주의를 기울이는 경우가 빈번히 발생하며, 이는 접지된 인식(Grounded Perception)보다 언어 사전 지식(Language Priors)에 의존하는 효과를 냅니다. 이를 해결하기 위해 우리는 정적 임베딩이 아닌 잠재적 시각 사고(Latent Visual Thoughts)를 정렬하는 LaViT 프레임워크를 제안합니다. LaViT는 학생 모델이 텍스트 생성에 앞서 교사 모델의 시각적 의미론과 주의 궤적(Attention Trajectories)을 자동회귀적으로 재구성하도록 강제하며, 숏컷 학습(Shortcut Learning)을 방지하기 위해 커리큘럼 감각 게이팅(Curriculum Sensory Gating) 메커니즘을 활용합니다. 폭넓은 실험을 통해 LaViT가 시각적 접지(Visual Grounding)를 크게 향상시켜 복잡한 추론 과제에서 최대 +16.9%의 성능 향상을 달성하고, 소규모의 3B 매개변수 모델이 더 큰 오픈소스 변형 모델들과 GPT-4o와 같은 사유 모델들을 능가할 수 있음을 입증했습니다.
3D 형태와 카메라 파라미터를 인코딩하는 DUSt3R 불변 포인트 맵과 같은 강력한 3D 표현은 피드포워드 3D 재구성을 크게 발전시켰습니다. 포인트 맵이 정적 장면을 가정하는 반면, 동적 포인트 맵(DPM)은 장면 운동을 추가로 표현하여 동적 3D 콘텐츠로 이 개념을 확장합니다. 그러나 기존 DPM은 이미지 쌍으로 제한되며, DUSt3R과 마찬가지로 두 개 이상의 뷰가 관련될 경우 최적화를 통한 후처리가 필요합니다. 우리는 DPM이 비디오에 적용될 때 더 유용하다고 주장하며, 이를 입증하기 위해 V-DPM을 소개합니다. 첫째, 표현력을 극대화하고 신경망 예측을 용이하게 하며 사전 학습된 모델의 재사용을 가능하게 하는 방식으로 비디오 입력용 DPM을 공식화하는 방법을 보여줍니다. 둘째, 우리는 최근 강력한 3D 재구성기인 VGGT 위에 이러한 아이디어를 구현합니다. VGGT가 정적 장면으로 학습되었음에도 불구하고, 소량의 합성 데이터만으로도 이를 효과적인 V-DPM 예측기로 적응시키기에 충분함을 보여줍니다. 우리의 접근 방식은 동적 장면에 대한 3D 및 4D 재구성에서 최첨단 성능을 달성합니다. 특히, P3와 같은 VGGT의 최근 동적 확장과 달리 DPM은 동적 깊이뿐만 아니라 장면 내 모든 포인트의 완전한 3D 운동도 복원합니다.
대규모 언어 모델(LLM)의 추론 능력 향상은 최근 지속적으로 논의되는 주제입니다. 그러나 대부분의 관련 연구는 궤적 수준의 결과 보상에 기반하여, 추론 과정 중 세밀한 감독이 부족한 실정입니다. 과정 신호를 결합하여 LLM을 최적화하려는 기존 훈련 프레임워크들도 MCTS나 별도의 보상 모델 훈련과 같은 지루한 추가 단계에 크게 의존하여 훈련 효율성을 저해하고 있습니다. 더욱이 과정 신호 설계의 직관적 배경에는 엄밀한 이론적 근거가 부족해 최적화 메커니즘에 대한 이해가 불명확한 실패입니다. 본 논문에서는 엔트로피 정규화 강화 학습 목표를 중간 단계로 분해하고, 이에 따라 모델에 할당될 수 있는 엄밀한 과정 보상을 갖는 Process Reward Learning(PRL)을 제안합니다. 이론적 동기에서 출발하여, 우리는 본질적으로 보상 최대화와 정책 모델과 참조 모델 간의 KL-발산 패널티 항의 목표와 동등한 PRL의 공식을 유도합니다. 그러나 PRL은 결과 보상을 과정 감독 신호로 전환하여 RL 최적화 과정 중 탐색을 더 효과적으로 안내할 수 있습니다. 실험 결과를 통해 PRL이 평균 @n으로 측정된 LLM의 추론 능력 평균 성능을 향상시킬 뿐만 아니라, pass @n 지표를 향상시켜 추론 한계를 확장함을 입증합니다. 광범위한 실험을 통해 PRL의 효과성과 일반화 가능성을 검증하였습니다.
4D 생성, 리그 및 모션 분야에서 상당한 진전이 있었음에도 불구하고, 애니메이션의 핵심 구조적 및 동적 구성 요소는 일반적으로 별개의 문제로 모델링됩니다. 기존 파이프라인은 모션 생성에 실제 골격과 스키닝 가중치에 의존하며, 자동 리깅을 독립적인 과정으로 취급하여 확장성과 해석 가능성을 저해합니다. 본 연구에서는 인간이 제공한 리그 주석 없이 원시 메시 시퀀스로부터 리그와 모션을 직접 공동 학습하는 통합 생성 프레임워크인 RigMo를 제안합니다. RigMo는 정점별 변형을 두 개의 컴팩트 잠재 공간으로 인코딩합니다: 명시적 가우시안 본과 스킨닝 가중치로 디코딩되는 리그 잠재 공간과, 시간에 따라 변화하는 SE(3) 변환을 생성하는 모션 잠재 공간입니다. 이러한 출력 결과들은 명시적 구조와 일관된 모션을 갖춘 애니메이션 가능 메시를 정의하여, 변형 가능 객체에 대한 피드포워드 방식의 리그 및 모션 추론을 가능하게 합니다. 통합 리그-모션 발견을 넘어, RigMo의 잠재 공간에서 작동하는 Motion-DiT 모델을 도입하고 이러한 구조 인식 잠재 표현이 다운스트림 모션 생성 작업을 자연스럽게 지원할 수 있음을 입증합니다. DeformingThings4D, Objaverse-XL 및 TrueBones에 대한 실험을 통해 RigMo가 부드럽고 해석 가능하며 물리적으로 타당한 리그를 학습하는 동시에 기존 자동 리깅 및 변형 베이스라인 대비 우수한 재구성 및 범주 수준 일반화 성능을 달성함을 보여줍니다. RigMo는 통합적이고 구조를 인식하며 확장 가능한 동적 3D 모델링을 위한 새로운 패러다임을 정립합니다.
역할극(RP) 에이전트는 다양한 서사적 맥락에서 일관된 행동을 보이기 위해 행동 프로필에 의존하지만, 기존 프로필은 대부분 비구조적이고 실행 불가능하며 검증이 미흡하여 에이전트 행동이 취약해지는 문제가 있습니다. 본 연구에서는 대규모 서사 데이터로부터 실행 가능하고 해석 가능한 결정 구조를 도출하는 데이터 기반 프레임워크인 '체계화된 결정 트리(CDT)'를 제안합니다. CDT는 행동 프로필을 조건부 규칙의 트리로 표현하며, 내부 노드는 검증된 장면 조건에, 잎 노드는 구체적인 행동 명제에 각각 대응되어 실행 시점에 맥락에 적합한 규칙을 결정론적으로 추출할 수 있게 합니다. 이 트리는 후보 장면-행동 규칙을 귀납적으로 도출하고 데이터를 통해 검증하며 계층적 전문화를 통해 정제하는 과정을 반복하여 학습되며, 투명한 검토와 체계적인 업데이트를 지원하는 프로필을 생성합니다. 다양한 벤치마크에서 CDT는 16개 작품에 등장하는 85개 캐릭터에 대해 인간이 작성한 프로필과 기존 프로필 귀납 방법을 크게 능가하는 성능을 보였으며, 이는 체계화되고 검증된 행동 표현이 더 신뢰할 수 있는 에이전트 정착(grounding)으로 이어짐을 시사합니다.
실제 진료 환경의 텍스트-to-SQL은 실행 가능한 쿼리 생성을 위해 이기종 EHR 테이블, 시간적 창, 환자 유사도 코호트에 대한 추론이 필요합니다. 우리는 MIMIC-IV v3.1 기반 633개의 전문가 주해 작업으로 구성된 벤치마크인 CLINSQL을 소개합니다. 이는 다중 테이블 조인, 임상적으로 의미 있는 필터, 실행 가능한 SQL을 요구합니다. CLINSQL 해결에는 스키마 메타데이터와 임상 코딩 시스템 탐색, 긴 컨텍스트 처리, 기존 텍스트-to-SQL을 넘어선 다단계 쿼리 구성이 수반됩니다. 우리는 Chain-of-Thought 자기 정련 하에서 22개의 사설 및 오픈소스 모델을 평가하고, 중요한 임상 요구사항을 우선시하는 실행 검사와 함께 루브릭 기반 SQL 분석을 사용합니다. 최근 발전에도 불구하고 성능은 임상 신뢰도에 훨씬 미치지 못합니다: 테스트 세트에서 GPT-5-mini는 74.7% 실행 점수를, DeepSeek-R1은 오픈소스 최고인 69.2%를, Gemini-2.5-Pro는 Easy에서 85.5%에서 Hard에서 67.2%로 하락합니다. CLINSQL의 진전은 실제 EHR 분석을 위한 임상적으로 신뢰할 수 있는 텍스트-to-SQL로의 실질적 발전을 의미합니다.
AI 에이전트 프레임워크의 부상과 함께 에이전트 스킬이 등장했습니다. 스킬은 지시문과 실행 코드를 포함하는 모듈형 패키지로, 에이전트의 역동적인 역량 확장을 가능하게 합니다. 이러한 아키텍처는 강력한 맞춤화를 제공하지만, 스킬은 최소한의 검증을 거쳐 암묵적인 신뢰 하에 실행되므로, 중요하지만 아직 규명되지 않은 공격 표면을 생성합니다. 본 연구는 이 신생 생태계에 대한 최초의 대규모 실증적 보안 분석을 수행합니다. 두 주요 마켓플레이스에서 42,447개의 스킬을 수집하고, 정적 분석과 LLM 기반 의미론적 분류를 결합한 다단계 탐지 프레임워크인 SkillScan을 통해 31,132개를 체계적으로 분석했습니다. 연구 결과는 광범위한 보안 위험을 보여줍니다: 전체 스킬의 26.1%가 하나 이상의 취약점을 포함하며, 이는 프롬프트 인젝션, 데이터 유출, 권한 상승, 공급망 위험이라는 4개 범주의 14가지 유형에 걸쳐 있습니다. 데이터 유출(13.3%)과 권한 상승(11.8%)이 가장 흔했으며, 전체 스킬의 5.2%는 악의적 의도를 강력하게 시사하는 고위험 유형을 나타냈습니다. 또한, 실행 가능한 스크립트를 번들링하는 스킬은 지시문만 포함하는 스킬보다 취약점을 포함할 가능성이 2.12배 더 높았습니다(OR=2.12, p<0.001). 본 연구의 기여점은 다음과 같습니다: (1) 8,126개의 취약한 스킬로부터 도출된 근거 기반 취약점 분류 체계, (2) 86.7%의 정밀도와 82.5%의 재현율을 달성한 검증된 탐지 방법론, (3) 향후 연구를 지원하기 위한 공개 데이터셋 및 탐지 도구 키트. 이러한 결과는 이 공격 벡터가 본격적으로 악용되기 전에 역량 기반 권한 시스템과 의무적인 보안 검토가 시급히 필요함을 보여줍니다.
본 연구는 감정 분석 작업에서 대규모 언어 모델(LLM), 특히 GPT-4o-mini와 gemini-1.5-flash의 성능 향상을 위한 프롬프트 엔지니어링 활용을 탐구한다. 몇 샷 학습(few-shot learning), 생각의 사슬(chain-of-thought) 프롬프트, 자기 일관성(self-consistency) 같은 고급 프롬프트 기법을 기준 모델과 비교 평가한다. 주요 작업에는 감정 분류, 측면 기반 감정 분석, 그리고 반어와 같은 미묘한 뉘앙스 탐지가 포함된다. 연구는 정확도, 재현율, 정밀도, F1 점수로 측정된 LLM 성능을 평가하기 위해 사용된 이론적 배경, 데이터 세트 및 방법을 상세히 설명한다. 연구 결과는 고급 프롬프트 기법이 감정 분석을 크게 향상시킴을 보여주며, 몇 샷 접근법은 GPT-4o-mini에서, 생각의 사슬 프롬프트는 gemini-1.5-flash의 반어 탐지 성능을 최대 46%까지 향상시켰다. 따라서 고급 프롬프트 기법이 전반적인 성능을 개선하지만, GPT-4o-mini에는 몇 샷 프롬프트가 가장 효과적이고 gemini-1.5-flash의 반어 탐지에는 생각의 사슬 기법이 우수하다는 사실은 프롬프트 전략이 모델과 작업 모두에 맞게 설계되어야 함을 시사한다. 이는 프롬프트 설계가 LLM의 아키텍처와 작업의 의미론적 복잡성 모두에 부합하는 것이 중요함을 강조한다.
특징 변형을 활용한 일관성 학습은 준지도 의료 영상 분할에서 널리 사용되는 전략입니다. 그러나 기존의 많은 변형 방법은 드롭아웃에 의존하며, 민감한 하이퍼파라미터인 드롭아웃 비율을 신중하게 수동으로 조정해야 합니다. 이는 최적화하기 어렵고 종종 차선의 정규화 결과를 초래할 수 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 특징 공간을 이산화하기 위해 벡터 양자화(VQ)를 최초로 활용하고, 드롭아웃을 대체하는 새롭고 제어 가능한 양자화 변형 모듈(QPM)을 도입한 VQ-Seg를 제안합니다. 우리의 QPM은 코드북 인덱스의 공간적 위치를 섞어 이산적 표현을 변형함으로써 효과적이고 제어 가능한 정규화를 가능하게 합니다. 양자화로 인한 잠재적 정보 손실을 완화하기 위해, 양자화 후 특징 공간을 영상 재구성 및 분할 작업이 공유하는 이중 분기 아키텍처를 설계했습니다. 더 나아가 양자화 과정에서 손실될 수 있는 고수준 의미 정보를 보완하기 위해 파운데이션 모델(FM)의 지도를 통합하는 사후-VQ 특징 적응기(PFA)를 도입했습니다. 또한, 중앙형 폐암에 대해 주석이 달린 828개의 CT 스캔으로 구성된 대규모 폐암(LC) 데이터셋을 구축했습니다. LC 데이터셋과 다른 공개 벤치마크에서의 광범위한 실험을 통해 우리 방법의 효과성을 입증하였으며, 이는 최첨단 접근법들을 능가하는 성능을 보여줍니다. 코드는 https://github.com/script-Yang/VQ-Seg에서 확인할 수 있습니다.
AI 에이전트는 악성 콘텐츠가 에이전트 동작을 탈취하여 자격 증명을 도용하거나 금전적 손실을 초래하는 프롬프트 인젝션 공격에 취약합니다. 현재 알려진 유일한 강력한 방어 방법은 신뢰할 수 있는 작업 계획과 신뢰할 수 없는 환경 관찰을 엄격히 분리하는 아키텍처적 격리입니다. 그러나 컴퓨터 사용 에이전트(CUA) — 화면을 보고 작업을 실행하여 업무를 자동화하는 시스템 —에 이 설계를 적용하는 데는 근본적인 어려움이 있습니다: 현재 에이전트는 각 작업을 결정하기 위해 UI 상태의 지속적인 관찰이 필요하지만, 이는 보안을 위해 요구되는 격리와 상충됩니다. 우리는 UI 워크플로가 동적이지만 구조적으로 예측 가능하다는 점을 입증하여 이러한 긴장을 해소합니다. 우리는 CUA를 위한 단일 샷 계획을 소개하는데, 여기서는 신뢰할 수 있는 플래너가 잠재적으로 악의적인 콘텐츠를 관찰하기 전에 조건부 분기를 포함한 완전한 실행 그래프를 생성하여 임의의 명령어 인젝션에 대해 검증 가능한 제어 흐름 무결성 보장을 제공합니다. 이러한 아키텍처적 격리는 명령어 인젝션을 성공적으로 방지하지만, UI 요소를 조작하여 계획 내에서 의도하지 않은 유효한 경로를 촉발시키는 분기 조정 공격을 방지하기 위해서는 추가 조치가 필요함을 보여줍니다. 우리는 OSWorld에서 우리의 설계를 평가했으며, 선두 모델 성능의 최대 57%를 유지하면서 더 작은 오픈소스 모델의 성능은 최대 19%까지 향상시켜, CUA에서 엄격한 보안과 유용성이 공존할 수 있음을 입증했습니다.
우리는 카메라와 객체가 모두 움직이는 동적 환경에서의 새로운 시점 합성(NVS)을 위한 자기 지도 학습 프레임워크인 WildRayZer를 제안한다. 동적 콘텐츠는 정적 NVS 모델이 의존하는 다중 시점 일관성을 깨뜨려 고스팅, 허구적 형상, 불안정한 포즈 추정을 초래한다. WildRayZer는 분석에 의한 합성 테스트를 수행하여 이 문제를 해결한다: 카메라만 이동하는 정적 렌더러가 강체 구조를 설명하고, 그 잔차는 일시적 영역을 드러낸다. 이러한 잔차로부터 우리는 유사 동작 마스크를 구성하고, 동작 추정기를 추출하며, 이를 사용해 입력 토큰을 마스킹하고 손실 기울기에 게이트를 적용하여 감독이 교차 시점 배경 완성에 집중하도록 한다. 대규모 학습과 평가를 가능하게 하기 위해, 우리는 실제로 캡처한 15,000개의 캐주얼 동적 시퀀스로 구성된 실세계 데이터셋인 Dynamic RealEstate10K(D-RE10K)과 희소 시점 일시적 인식 NVS를 위한 짝을 이룬 일시적/청정 벤치마크 D-RE10K-iPhone을 구축했다. 실험 결과, WildRayZer는 단일 순전파 패스로 일시적 영역 제거 및 전체 프레임 NVS 품질 모두에서 최적화 기반 및 순전파 기준 모델을 꾸준히 능가하는 것으로 나타났다.
대규모 언어 모델(LLM)은 종종 특정 오프셋 Δ에 대해 Δ-번째 부대각선을 따라 어텐션 점수가 집중되는 '사선 어텐션(Slash Attention)' 패턴을 보입니다. 이러한 패턴은 토큰 간 정보 전달에 핵심적인 역할을 합니다. 그렇다면 이러한 패턴은 왜 등장할까요? 본 논문에서는 실증적 및 이론적 관점에서 이러한 사선 주도 헤드(Slash-Dominant Head, SDH)의 발생을 규명합니다. 먼저, 오픈소스 LLM을 분석하여 SDH가 모델 내재적 특성이며 분포 외 프롬프트에도 일반화됨을 확인합니다. 이러한 내재적 발생 원인을 설명하기 위해 어텐션 점수를 공동으로 결정하는 쿼리, 키, 그리고 회전 위치 임베딩(RoPE)을 분석합니다. 실증 분석 결과, SDH의 두 가지 특징적인 조건이 드러납니다: (1) 쿼리와 키가 거의 1순위(rank-one)에 가깝고, (2) RoPE가 중간 및 고주파수 성분에 의해 지배됩니다. 이러한 조건 하에서 쿼리와 키는 토큰 간 거의 동일하며, RoPE의 중간 및 고주파수 성분 간 상호작용이 SDH를 발생시킵니다. 실증적 증거를 넘어, 우리는 이러한 조건을 모델링 가정으로 형식화함으로써 이 조건들이 SDH 발생을 보장하기에 충분함을 이론적으로 보입니다. 특히, 이러한 조건 하에서 RoPE를 장착한 얕은 Transformer의 학습 동역학을 분석하고, 경사 하강법으로 학습된 모델이 SDH를 나타내며 이를 분포 외 프롬프트에도 일반화함을 증명합니다.
대규모 언어 모델(LLM)은 많은 일상적인 애플리케이션의 핵심 요소가 되었습니다. 그러나 데이터가 진화함에 따라 모델의 지식은 빠르게 구식이 됩니다. 지속 학습은 기존에 습득한 지식을 지우지 않고 새로운 정보로 LLM을 업데이트하는 것을 목표로 합니다. 전체 파인튜닝과 같은 방법은 새로운 데이터를 통합할 수 있지만, 계산 비용이 많이 들고 과거 지식이 덮어쓰여지는 치명적 망각 문제가 발생하기 쉽습니다. 메모리 증강 접근법은 LLM에 외부 메모리 모듈인 메모리 뱅크를 장착하여 향후 사용을 위한 정보를 저장함으로써 이 문제를 해결합니다. 그러나 이러한 방법은 특히 대규모 데이터 스트림이 유입되는 실제 시나리오에서 메모리 뱅크가 지속적으로 증가한다는 중요한 한계에 직면합니다. 본 논문에서는 온라인 적응 학습 과정에서 코드북 최적화 전략을 통해 메모리 뱅크를 압축하는 MBC 모델을 제안합니다. 안정적인 학습을 보장하기 위해 코드북 붕괴를 방지하는 온라인 재설정 메커니즘도 도입합니다. 또한 LLM의 어텐션 레이어에 Key-Value Low-Rank Adaptation을 적용하여 압축된 메모리 표현을 효율적으로 활용할 수 있도록 합니다. 벤치마크 질의응답 데이터셋을 이용한 실험 결과, MBC는 가장 경쟁력 있는 기준 모델 대비 메모리 뱅크 크기를 0.3%로 줄이면서도 온라인 적응 학습 중 높은 기억 정확도를 유지하는 것으로 나타났습니다. 우리의 코드는 https://github.com/Thomkat/MBC에서 공개되어 있습니다.