번역이 포함된 일일 선별된 AI 연구 논문
라우터는 Mixture-of-Experts 모델의 핵심 구성 요소이다. 전문가 대리자(proxy) 역할을 수행하는 라우터 행렬의 각 행은 MoE 입력과의 유사도를 계산하여 활성화할 전문가 부분집합을 결정한다. 이상적으로 각 라우터 행은 전문가 행렬을 대표 벡터로 압축 인코딩하도록 설계되어, 해당 벡터와 토큰 간의 내적이 토큰-전문가 친화도를 더 잘 반영할 수 있어야 한다. 그러나 이러한 압축을 강제할 설계 원칙은 존재하지 않는다. 본 논문에서는 각 라우터 행을 해당 전문가의 주요 특이 방향(principal singular direction)과 정렬할 것을 제안한다. 이 방향은 행렬에 대한 가장 표현력 있는 수학적 기술을 제공하기 때문이다. 이 원칙에 기반하여, 매니폴드 거듭제곱 반복법(Manifold Power Iteration, MPI)을 통한 라우터 재설계를 제안한다. 구체적으로, 라우터 가중치에 거듭제곱 반복 단계를 수행한 후, 효율성과 안정성을 보장하기 위해 노름 제약을 부과하는 수축(retraction)을 적용하는 'Power-then-Retract' 패러다임을 도입한다. 이론적으로 MPI가 라우터 행을 해당 전문가의 주요 특이 방향으로 수렴하게 함을 증명한다. 실험적으로는 1B에서 11B 매개변수 규모에 걸쳐 MoE 모델을 사전 학습하여, 이러한 정렬이 더 효과적인 MoE 모델을 촉진함을 확인한다.
과학적 진보는 탐구, 실험, 추상화의 반복 고리에 의존한다. 연구자들은 후보 방향을 시험하고, 증거를 해석하며, 그로부터 얻은 교훈을 이후 시도에 반영한다. 우리는 AI 에이전트가 장기적인 시간 범위에 걸쳐 이 고리를 자율적으로 수행하는 방법을 연구한다. 우리는 일반적인 자율 연구 프레임워크인 Arbor를 제안한다. Arbor는 장기 조정자, 단기 실행자, 그리고 시간에 걸쳐 가설, 산출물, 증거, 정제된 통찰을 연결하는 지속적 트리인 가설 트리 정제(HTR)를 결합한다. 조정자는 트리 위에서 전반적인 연구 전략을 관리하고, 실행자는 격리된 작업 트리에서 개별 가설을 구현하고 시험한다. 결과가 반환됨에 따라 Arbor는 트리를 갱신하고, 재사용 가능한 교훈을 전파하며, 탐색 경계를 정제하고, 검증된 개선 사항을 수용한다. 이 설계는 자율 연구를 일련의 국소적 시도에서 전략, 실행, 증거가 시간에 걸쳐 전달되는 누적적 과정으로 전환한다. 우리는 Arbor를 자율 최적화(AO) 하에서 평가한다. AO는 에이전트가 단계별 인간 감독 없이 반복적 실험을 통해 초기 연구 산출물을 개선하는 운영 설정이다. 모델 훈련, 하네스 엔지니어링, 데이터 합성 분야의 여섯 가지 실제 연구 과제에서 Arbor는 모든 여섯 과제에 대해 최고의 홀드아웃 결과를 달성했으며, 동일한 과제 인터페이스와 자원 예산 하에서 Codex 및 Claude Code 대비 평균 상대적 홀드아웃 이득의 2.5배 이상을 얻었다. MLE-Bench Lite에서 Arbor는 GPT-5.5로 86.36%의 Any Medal을 기록하여 비교 대상 중 가장 강력한 결과를 보였다.
환경은 다양한 시나리오에서 대규모 언어 모델(LLM) 기반 에이전트의 상호작용 시스템으로 기능하며, 모델 성능의 지속적인 발전을 추동하는 핵심 역할을 한다. 이러한 중요성에도 불구하고, 기존 연구는 체계적인 분류와 심층 분석이 부족하다. 본 논문은 환경 엔지니어링 생애주기 관점에서 에이전트 환경에 관한 최신 연구를 체계적으로 분석하며, 모델링, 합성, 평가, 적용을 포함한다. 구체적으로, 먼저 8가지 속성과 8개 도메인의 관점에서 대표적 환경을 소개하고, 이들의 발전 경로를 상세히 분석하며 핵심 역량을 조명한다. 둘째, 자동 환경 합성을 위해 기호 합성과 신경 합성이라는 두 가지 패러다임을 소개하고, 각 패러다임에서의 다양한 환경 평가 방법을 제시한다. 셋째, 에이전트-환경 공진화 관점에서 이에 상응하는 환경 적용 사례를 논의한다. 특히, 동적 환경에서 에이전트 진화의 주요 경로를 네 가지 상호 보완적 관점, 즉 메모리 중심 경험 진화, 오케스트레이션 중심 워크플로우 진화, 궤적 중심 오프라인 진화, 탐험 중심 온라인 진화로 특성화한다. 또한 환경 진화의 세 가지 패러다임, 즉 신경 기반, 난이도 기반, 스케일링 기반 접근법을 식별한다. 마지막으로, 서비스형 환경(Environment-as-a-Service), 다중 에이전트 환경, 신경-기호 환경(Neural-Symbolic Environments) 등 유망한 미래 연구 방향을 논의한다.
OpenClaw와 같은 범용 에이전트가 자율적 도구 사용자로 점점 더 활용되고 있지만, 이들의 코딩 능력은 SWE-bench에서 측정하기 어렵습니다. 일반적인 에이전트 자체로는 점수 산정에 필요한 정리된 도커 작업 공간, 패치, 예측 계약을 충족하지 못하기 때문입니다. 본 연구에서는 다국어 SWE-bench 스타일 벤치마크와 어댑터 프로토콜인 Claw-SWE-Bench를 제안합니다. 이는 고정된 프롬프트, 실행 시간 예산, 작업 공간 계약, 패치 추출 절차, 평가자를 포함한 공정한 설정 하에서 이종 에이전트 하네스(claw)를 비교 가능하게 만듭니다. 전체 벤치마크는 SWE-bench-Multilingual과 SWE-bench-Verified-Mini에서 미래 커밋 정리를 거쳐 선별된 8개 언어, 43개 저장소에 걸친 350개의 GitHub 이슈 해결 인스턴스로 구성됩니다. 또한 신속한 검증을 위해 Claw-SWE-Bench Lite를 공개하는데, 이는 17개의 보정 열에 대한 비용 인식 및 순위 인식 절차를 통해 선정된 80개 인스턴스 하위 집합입니다. 전체 벤치마크에서 최소 직접-차이 어댑터를 사용한 OpenClaw는 19.1%의 Pass@1 점수를 기록한 반면, 동일한 GLM 5.1 백본에서 전체 어댑터는 73.4%에 도달하여, 어댑터 설계가 OpenClaw 스타일 하네스가 코딩 작업을 효과적으로 수행하는 데 필수적임을 보여줍니다. OpenClaw의 9개 모델 스윕과 5개 클로의 2개 모델 스윕을 통해, 고정 모델 하에서 모델 선택은 Pass@1을 29.4% 포인트, 하네스 선택은 27.4% 포인트 변화시켰으며, 유사한 정확도를 가진 시스템 간에도 총 API 비용이 크게 차이날 수 있음을 확인했습니다. 따라서 Claw-SWE-Bench는 하네스와 비용 회계를 SWE 스타일 코딩 에이전트 평가의 핵심 축으로 간주하며, 전체 벤치마크와 저비용 참조 집합을 제공하여 재현 가능한 비교를 가능하게 합니다. 데이터는 https://github.com/opensquilla/claw-swe-bench 및 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench에서 확인할 수 있습니다.
보상 모델은 텍스트-이미지 사후 학습의 핵심이지만, 시각적 선호도는 주관적이며 결정론적 스칼라보다는 루브릭 점수 분포로 표현하는 것이 더 적합하다. 기존의 스칼라, 점수 토큰, 쌍별 보상 모델은 불확실성과 세부 점수 차이를 과도하게 압축하는 반면, 추론 기반 생성적 보상은 더 강력한 판단을 제공하지만 배포 비용이 많이 들고 직접적인 최적화 신호로 사용하기 어렵다. 본 논문에서는 추론 중심의 판단과 효율적인 보상 배포를 분리하는 교사-학생 보상 모델링 프레임워크인 Z-Reward를 제안한다. 교사는 추론을 통해 루브릭에 정렬된 점수 분포를 추론하는 대규모 VLM이며, 그룹별 직접 점수 최적화(GDSO)로 학습된다. GDSO는 분포 기대값에서 얻은 정책 경사 보상과 점수 분포 및 점수 차이에 대한 직접적인 점별 및 쌍별 감독을 결합한다. 학생은 추론 내재화 점수 증류(RISD)로 학습되며, 교사의 추론 조건부 점수 분포를 추론 체인 없이도 추론 시점에 사용할 수 있는 소형 VLM으로 전이한다. 내부 주석 평가 세트에서 27B GDSO 교사는 89.6%의 인간 선호 정확도를 달성하여 SFT, RewardDance, GRPO를 능가했으며, 9B RISD 학생은 88.6%를 달성하여 OPD 기준선을 능가하고 더 큰 교사 모델과 근접한 성능을 보였다. 또한 Z-Reward가 텍스트-이미지 최적화를 위한 미분 가능한 보상 신호로 사용될 수 있음을 보여주며, SFT 기준선 대비 41.3%의 순 인간 선호도 향상을 제공한다.
테이블러 인코더는 일반적으로 작업별 엔드-투-엔드 파이프라인 내에서 평가되므로, 유사한 테이블 형 신호를 처리하더라도 서로 다른 훈련 패러다임의 모델을 직접 비교하기 어렵다. 본 연구에서는 다중 세분화 테이블러 표현 학습(TRL) 벤치마크인 TRL-Bench를 제안한다. 이는 패러다임 간 표현 수준 평가를 표준화하여, 각 인코더가 지원하는 래퍼를 통해 행, 열 또는 테이블 임베딩을 내보내고, 공유된 경량 헤드가 세 가지 제품군(TRL-CTbench(열/테이블), TRL-Rbench(행), TRL-DLTE(세 가지 세분화 수준을 모두 포괄하는 구성적 데이터 레이크 테이블 강화))에서 이를 평가한다. 이러한 표준화된 환경을 지원하기 위해 50개의 OpenML 테이블(123개의 검증된 타겟 포함), 16개의 행 쌍 연결 재작성, 1,379개 부모 테이블에서 파생된 47,772개 테이블로 구성된 DLTE 레이크 등 엄선된 벤치마크 자산과 작업 재구성을 공개한다. 20개 모델과 16개 작업에 걸친 TRL-Bench의 결과는, 다운스트림 조건이 표준화되면 인코더 품질이 단일 리더보드로 포착되지 않고 능력별로 특화됨을 보여준다. TRL-CTbench에서는 강한 표면 텍스트 신호를 가진 작업에서 일반 텍스트 인코더가 자주 우세한 반면, 테이블러 전문가는 사전 훈련 목표가 작업과 일치하는 경우에 승리한다. TRL-Rbench에서는 테이블 내 예측과 테이블 간 연결이 서로 다른 훈련 체제를 선호하며, 원자적 연결 성능은 DLTE 파이프라인의 행 매칭 단계와 강한 상관관계를 보인다. TRL-DLTE에서는 가장 강력한 파이프라인이 단일 인코더를 재사용하기보다 능력이 일치하는 전문가를 결합하며, 최고 수준의 엔드-투-엔드 품질은 단계별 주변 순위만이 아닌 비가산적 구성 적합도에 의존한다. TRL-Bench는 공유된 다운스트림 조건에서 내보내진 테이블러 표현의 재사용 가능한 신호를 측정하기 위한 공통 프로토콜을 제공한다. 코드 및 데이터: https://github.com/LOGO-CUHKSZ/TRL-Bench
자아 중심 비디오로부터의 공간 추론은 관찰 가능한 증거가 카메라 궤적에 의해 제한되기 때문에 본질적으로 어렵다. 기존 방법은 단일 턴 추론에 의존하여 모델이 검증 가능한 증거보다 의미론적 사전 정보를 통해 기하학적 모호성을 해결하도록 강제한다. 우리는 공간 추론이 재검토 가능해야 한다고 주장한다: 제한된 증거 하에 형성된 결론은 보완적 시점이 가능해질 때 수정에 열려 있어야 한다. 이 통찰에 기반하여, 우리는 학습이 필요 없는 추론 시간 프레임워크인 Reason, then Re-reason (ReRe)을 제안하며, 두 단계로 구성된다: Reason 단계에서는 MLLM이 원본 비디오로부터 공간 가설을 형성하고, Re-reason 단계에서는 합성된 새로운 시점 비디오를 관찰하여 가설을 검증하거나 수정한다. 효과적인 시점 간 재검토를 가능하게 하기 위해, 우리는 예측된 3D 기하학으로부터 전략적으로 보완적인 새로운 시점을 렌더링하는 Geometry-to-Video 파이프라인을 설계한다. 이 시점들은 장면을 포괄하는 상승된 경사 시점을 특징으로 하며, 구조적 수정 없이 MLLM의 원래 비디오 인터페이스를 유지한다. VSI-Bench 및 STI-Bench에 대한 광범위한 평가는 ReRe가 오픈소스 MLLM을 크게 향상시켜 독점 최첨단 성능에 필적하게 함을 보여준다. 프로젝트 페이지: https://zhenjiemao.github.io/ReRe/
LLM 기반 코드 에이전트의 역량이 지속적으로 발전함에 따라, 이들의 예상 역할은 기존 코드베이스의 국소적 버그 수정을 넘어, 고수준 명세로부터 완전한 소프트웨어 저장소를 설계하고 구현하는 방향으로 확장되고 있다. 그러나 이러한 장기적 소프트웨어 엔지니어링 작업을 위한 에이전트 학습은, 대규모로 검증 가능한 전체 저장소 생성 데이터가 부족하다는 어려움을 여전히 안고 있다. 본 논문에서는 전체 저장소 생성용 대규모 데이터셋인 DeNovoSWE를 소개한다. DeNovoSWE는 4,818개의 고품질 인스턴스로 구성되며, 각 인스턴스는 문서로부터 완전한 저장소를 생성해야 하는 과제를 포함한다. 본 데이터셋은 신중하게 설계된 샌드박스 기반 에이전트 워크플로우를 통해 자동으로 구축되어, 인간의 주석 없이도 확장 가능한 큐레이션이 가능하다. DeNovoSWE는 "분할 정복(divide and conquer)"과 비판-수리(critic-repair) 철학에 기반하여 구축되었다. 데이터 품질과 다양성 간의 균형을 맞추기 위해, 난이도를 고려한 궤적 필터링 전략을 추가로 도입하였다. DeNovoSWE로 Qwen3-30B-A3B를 미세 조정한 결과, 장기적 SWE 성능이 크게 향상되어, 까다로운 BeyondSWE-Doc2Repo 벤치마크에서의 점수가 5.8%에서 47.2%로 상승하였다.
시각-언어-행동(VLA) 모델은 대규모 사전 학습에서 의미적 기반을 물려받아 분포 내 조작 과제에서 우수한 성능을 보인다. 그러나 이러한 의미적 기반은 정적 이미지-텍스트 쌍에 구축된 반면, 조작은 연속적이고 접촉이 빈번한 과정이며, 사전 학습은 이러한 동역학을 포착할 수 없다. 본 논문에서는 정책에 세계-행동 모델(WAM)의 사전 정보를 보강하는 VLA 프레임워크인 World Pilot을 제안한다. 이 사전 정보는 두 가지 상호 보완적 경로를 통해 의사 결정 체계로 연결된다. 잠재 유도(Latent Steering)는 장면 진화 잠재 변수로 지각 계층을 조건화하고, 행동 유도(Action Steering)는 예측된 궤적을 운동 사전 정보로 행동 생성기에 제공한다. 두 사전 정보는 의미적 조건화와 함께 장면의 예측된 관점과 궤적 수준의 운동 힌트를 VLA에 제공하며, 장면 진화 사전 정보는 행동 후학습이 수행되지 않은 비디오 사전 학습 세계 모델에 의해 제공되더라도 여전히 효과적이다. World Pilot은 LIBERO-Plus 제로샷 분포 외(OOD) 벤치마크에서 최첨단 총 성공률 84.7%를 달성하고, 네 가지 조작 과제에 걸친 모든 실제 로봇 설정에서 가장 높은 성공률을 기록했으며, 특히 시점, 기하학, 변형 상태 및 자세 변화 하에서 가장 큰 성능 차이를 보였다. 프로젝트 웹사이트: https://world-pilot.github.io/
트랜스포머는 현대 시퀀스 모델링을 지배하지만, 제곱 복잡도 어텐션은 상당한 계산 비용을 초래한다. 서브쿼드러틱 아키텍처는 확장 가능한 대안을 제공한다. 그러나 어떤 설계가 가장 효과적인 시퀀스 모델을 도출하는지는 여전히 명확하지 않다. 우리는 세 가지 주요 접근법인 xLSTM, Mamba-2, Gated DeltaNet을 비교한다. 복잡한 의존성을 가진 과제, 즉 (1) 코드 모델 사전 학습, (2) 대규모 언어 모델로부터 코드 모델의 증류, (3) 시계열 기반 모델 사전 학습에서 이들을 평가한다. 이러한 설정 전반에 걸쳐 xLSTM이 가장 강력한 전반적 성능을 보여준다. xLSTM의 이점을 설명하기 위해, 우리는 통합된 정식화를 제시하고, 상태 추적과 메모리 동역학에 초점을 맞춰 기본 아키텍처 메커니즘을 분석한다. 결과는 xLSTM이 게이팅 방식을 통해 보다 유연하고 안정적인 메모리 교정을 가능하게 함을 보여준다. 우리는 이러한 발견을 통제된 합성 길이 일반화 과제에서 확인한다. 전반적으로, 우리의 결과는 xLSTM의 복잡한 과제에 대한 성능 향상이 강력한 상태 추적과 누적에서 비롯됨을 시사한다.
조합론은 올림피아드 수준의 수학적 문제 해결에 핵심적인 분야로, 심층적인 이산 추론, 창의적 구성, 그리고 엄밀한 구조적 통찰을 요구한다. 최근 증거는 현존 최첨단 모델조차 올림피아드 조합론에서 고르지 못한 성능을 보이며, 창의적 수학적 추론에 있어 격차가 존재함을 시사한다. 본 논문에서는 대규모 언어 모델의 조합적 추론 능력을 평가하고 진단하기 위한 올림피아드급 조합론 벤치마크인 ComBench를 소개한다. ComBench는 100개의 사람이 주석을 단 대회 수준 문제로 구성되며, 크게 두 가지 보완적 설정으로 정리된다: 엄밀한 수학적 논증을 주로 요구하는 분석 중심 문제와 정당성 입증에 더해 명시적 구성을 요구하는 구성 중심 문제이다. 평가 프로토콜은 루브릭 기반 증명 채점과 결정론적 구성 검증을 결합하여 증명 품질과 구성 타당성 간의 괴리가 드러나는 사례를 노출한다. 최첨단 오픈소스 및 클로즈드소스 모델에 대한 실험 결과, ComBench는 포화 상태와는 거리가 멀며, 가장 강력한 모델이 전체 평균 65.4%, 전체 Best@4 75.3%를 기록했다. 또한 엄밀한 증명 추론(Rigorous Proof Reasoning)과 구성적 실현(Constructive Realization)은 별개의 능력임을 발견했다: Kimi-K2.6은 분석 중심 증명 채점에서 GPT-5.5에 뒤쳐지지만, 구성 중심 Best@4에서는 이를 능가하며, 존재성과 구성 문제(Existence and Construction problems)는 대표적 최첨단 모델 전반에서 일관되게 가장 어려운 과제로 남아 있다.
기초 모델의 최근 발전은 다단계 추론과 도구 사용을 포함하는 에이전트적 행동으로 전환되고 있다. 그러나 오픈소스 노력은 주로 텍스트 중심 환경에 초점을 맞추고 있어 장기적 다중 모달 작업은 충분히 탐구되지 못하고 있다. 이러한 격차는 지속적인 시간적 이해와 반복적 상호작용이 필요한 비디오 작업에서 두드러진다. 우리는 이러한 능력을 다중 모달 맥락 추론(MCR)을 통해 향상시키는 프레임워크인 InternVideo3를 제시한다. MCR은 이해를 관찰, 명령, 추론, 도구 작용, 메모리를 포함하는 공유되고 진화하는 맥락에 대한 폐루프 과정으로 취급한다. 이는 장기 비디오 이해를 증거 축적 및 검증으로 구성한다. 효율성을 보장하기 위해, 토큰 스트림을 유지하면서 KV-캐시 상태를 압축하는 토큰 보존 재매개변수화 기법인 다중 모달 다중 헤드 잠재 주의(M²LA)를 도입한다. 우리의 단계적 훈련은 지속적 사전 훈련, 단기에서 장기로의 지도 미세 조정, 규칙 기반 강화 학습, 온-정책 증류를 포함한다. 실험 결과, InternVideo3는 Video-MME, MLVU, EgoSchema와 같은 벤치마크에서 강력한 성능을 달성한다. 또한 검색 도구를 갖춘 비디오 에이전트로 모델을 구현하여 강력한 증거 기반 행동을 입증한다. 우리의 결과는 효율적인 맥락 처리와 폐루프 추론이 개방형 다중 모달 모델을 장기적 시각 기반 에이전시에 적응시키는 데 필수적임을 시사한다.
대규모 언어 모델(LLM)이 코드 생성에 점점 더 많이 활용되면서, 이들이 악성 코드를 생성하는 데 오용될 수 있다는 우려가 제기되고 있다. 한편, 문법 제약 디코딩(GCD)은 구문적 유효성을 강제하여 LLM이 생성하는 코드의 신뢰성을 향상시키기 위해 널리 채택되어 왔다. 본 논문에서는 역설적인 위험을 밝혀낸다: 바로 이러한 신뢰성 지향 기술 자체가 공격 표면이 될 수 있다는 점이다. 우리는 CodeSpear라는 새로운 탈옥 공격을 발견하였으며, 이는 GCD를 악용하여 LLM이 악성 코드를 생성하도록 유도한다. 실험 결과, 단순히 무해한 코드 문법 제약을 적용하는 것만으로도 LLM을 효과적으로 탈옥시킬 수 있음을 보여준다. 이러한 취약점에 대응하기 위해, 우리는 공격자가 통제하는 문법 제약 하에서도 안전한 동작을 강건하게 유지하는 안전 정렬 접근법인 CodeShield를 제안한다. CodeShield는 GCD 하에서 허니팟 코드를 생성하도록 모델을 학습시켜 코드 모달리티 내에서 정렬을 수행한다. 이러한 코드는 의미적으로 무해하여 악성 요청을 실행하지 않으며, 구조적으로 다양하여 문법 강화를 통해 억제하기 어렵다. 동시에 CodeShield는 자연어가 사용 가능한 경우 자연어 기반의 거부 응답도 유지한다. 4개 벤치마크에서 10개의 인기 LLM을 대상으로 한 실험 결과, CodeSpear는 대표적인 탈옥 기준선보다 우수한 성능을 보였으며, 평균 공격 성공률을 30% 포인트 이상 증가시켰다. 또한 CodeShield는 CodeSpear 하에서 안전성을 회복하면서도 무해한 유틸리티를 유지한다. 본 연구 결과는 GCD의 근본적인 위험을 드러내며, 그 잠재적인 보안 함의에 대한 더 큰 관심을 촉구한다.
강화학습(RL)은 현대의 대규모 언어 모델에서 핵심 구성 요소가 되었지만, 롤아웃 단계는 여전히 RL 훈련 파이프라인에서 주요 병목 현상으로 남아 있다. 다중 토큰 예측(MTP)은 추측 디코딩을 통해 롤아웃을 가속화하는 자연스러운 해결책을 제공하지만, 많은 연구에서 RL 훈련 중 MTP 수용률이 크게 저하되어 속도 향상 성능이 제한적임을 관찰했다. 이러한 병목 현상을 해결하기 위해, 우리는 LLM 사후 훈련에서 MTP에 대한 체계적인 연구인 Bebop을 제시하고, MTP를 대규모 RL 파이프라인에 통합하기 위한 실용적인 방법론을 제공한다. 첫째, 우리는 MTP 수용률이 근본적으로 모델 엔트로피의 변동에 의해 제약되며, 이는 RL 단계에서 엔트로피 증가와 명확한 음의 선형 관계를 보임을 밝힌다. 둘째, 확률적 거절 샘플링이 탐욕적 드래프트 샘플링에 비해 RL에서 엔트로피에 의해 도입된 교란을 크게 완화함을 보인다. 나아가 기존의 MTP 훈련 목적 함수(크로스 엔트로피 또는 KL)는 이러한 설정에서 최적이 아님을 확인하고, 다단계 거절 샘플링 수용률을 직접 최적화하는 새로운 종단간 TV 손실을 제안한다. 이는 약 10%의 수용률 개선, 최대 95%의 수용률, 그리고 수학적 추론, 코드 생성, 에이전트 작업 전반에 걸쳐 최대 25%의 추가 추론 처리량 향상을 달성한다. 셋째, RL 동안 다양한 온라인 MTP 훈련 전략을 테스트하고, 종단간 TV 손실과 거절 샘플링을 사용한 사전 RL MTP 훈련이 전체 RL 과정에서 일관된 수용률과 속도 향상을 유지하여, 비용이 많이 드는 온라인 MTP 업데이트의 필요성을 제거함을 보인다. 우리의 발견을 검증하는 광범위한 실험과 분석을 제공한다. 실험 결과, 이 방법은 Qwen3.5, Qwen3.6, Qwen3.7 모델의 비동기 RL 훈련에서 최대 1.8배의 종단간 가속을 달성함을 보여준다.
검증 가능한 보상 기반 강화 학습(RLVR)은 대규모 언어 모델의 추론 및 에이전트 행동을 향상시키는 유망한 접근 방식이다. 그러나 롤아웃 중심의 정책 최적화는 과도하게 단순하거나 복잡한 프롬프트가 낮은 분산 피드백을 생성하고, 결과 기반 보상이 다회차 롤아웃의 모든 결정에 동일한 최종 평가를 할당할 때 발생하는 불충분한 보상 대비에 의해 제한되는 경우가 많다. 기존 연구는 제한된 롤아웃 자원을 유망한 프롬프트에 할당하는 데 초점을 맞추었으나, 이는 프롬프트 수준에서만 샘플의 정보성을 활용하고 동일 롤아웃 내 회차 간 접두사 수준 정보성의 변동을 무시한다. 본 연구는 각 ReAct 스타일의 사고-행동-관찰 회차를 의미적으로 구별되는 노드로 모델링하여 다회차 에이전트 RL을 대상으로 하며, 이를 통해 예산 할당을 프롬프트 루트에서 추가 연속이 가능한 회차 수준 접두사까지 확장함으로써 자연스럽게 트리 구조의 롤아웃을 형성한다. 우리는 대비적 탐색을 위한 트리 롤아웃 할당(TRACE)을 제안하는데, 이는 고정된 샘플링 예산 내에서 보상 대비를 강화하는 통합 롤아웃 할당 프레임워크이다. 기술적으로 TRACE는 혼합된 최종 보상을 산출할 가능성이 가장 높은 프롬프트 루트와 중간 접두사에 롤아웃 예산을 할당한다. 공유 가능한 일반화 예측기는 접두사 이력을 바탕으로 이러한 앵커에서의 조건부 성공 확률을 추정하여 할당을 안내한다. 결과적인 적응형 트리 구조는 결과 기반 피드백만을 풍부하게 하고 정책 업데이트 신호를 증폭시킨다. 실험적으로 TRACE는 일반적인 에이전트 벤치마크에서 경쟁력 있는 성능과 효율성 향상을 달성한다. 예를 들어, 동일한 샘플링 비용에서 Qwen3-14B의 다중 홉 QA 평균 정확도를 경쟁 기준선 대비 2.8%포인트 향상시킨다.
비전-언어 모델(VLM)은 이미지를 수백에서 수천 개의 시각 토큰으로 투영하여, 디코더 추론에서 어텐션 계산과 KV-캐시 메모리 모두에 높은 비용을 초래한다. 기존의 시각 토큰 축소 방법은 대부분 순위화 및 제거 패러다임을 따른다. 즉, 시각 토큰에 점수를 매기고, 소형 부분집합을 유지하며, 나머지는 영구히 폐기한다. 본 연구는 이러한 되돌릴 수 없는 조치가 취약함을 보여주는데, 시각 토큰의 중요성은 디코더 깊이에 따라 변화하며, 한 단계에서 낮게 순위가 매겨진 토큰이 이후 레이어, 특히 접지 민감 쿼리에서 관련성을 가질 수 있기 때문이다. 우리는 제거를 복구 가능한 라우팅으로 대체하는 훈련 없는 플러그인인 Reroute를 제안한다. 각 라우팅 단계에서 선택된 시각 토큰은 디코더 블록을 통과하는 반면, 지연된 토큰은 해당 단계를 우회하여 다음 라우팅 결정 시 후보 풀에 재진입한다. Reroute는 기존 어텐션 점수 순위 규칙과 단계별 스케줄을 재사용하여, 이를 보강하는 가지치기 방법의 이론적 TFLOPs 및 KV-캐시 예산 클래스를 유지한다. LLaVA-1.5 및 Qwen 백본 상의 FastV, PDrop, Nüwa 변형 전반에 걸쳐, Reroute는 공격적인 토큰 축소 하에서 접지 성능을 개선하면서 일반 VQA 성능을 유지한다. 이러한 결과는 VLM 토큰 축소가 되돌릴 수 없는 가지치기로만 간주되어서는 안 되며, 복구 가능한 라우팅으로도 간주되어야 함을 시사한다. 코드는 다음에서 확인할 수 있다: https://github.com/elmma/mllm-reroute/
언어 모델 표현에서 해석 가능한 방향을 찾는 것은 모델 행동을 이해하고 제어하는 데 매우 중요하다. 희소 자동 인코더(SAE)는 이러한 목적의 표준 도구가 되었지만, 이를 기본적인 첫 번째 렌즈로 사용하려면 종종 대규모 과완전 사전을 훈련, 저장 및 평가해야 한다. 이러한 병목 현상은 신속한 탐색을 제한할 뿐만 아니라, 또 다른 신경 사전을 훈련하기 전에 활성화 기하학에서 이미 얼마나 많은 해석 가능한 구조가 보이는지에 대한 근본적인 질문을 제기한다. 우리의 직관은 단순하다. 많은 해석 가능한 방향은 토큰에 대해 선택적이며, 이러한 방향은 무작위 방향보다 덜 가우시안하게 보여야 한다는 것이다. 따라서 우리는 언어 모델 해석 가능성을 위한 간결한 렌즈로서 비가우시안 방향을 찾는 고전적 방법인 독립 성분 분석(ICA)을 재검토한다. ICA는 LLM 해석 가능성에서 과소평가되어 왔는데, 이는 기존의 사용법이 LLM 활성화에 취약한 기성 ICA 구현에 의존하는 경우가 많았고, 복구된 방향을 검사하고 평가하기 위한 체계적인 도구가 부족했기 때문이다. 이러한 격차를 해소하기 위해 우리는 ICALens를 도입한다. 이는 LLM 표현에 대한 안정적이고 효율적이며 감사 가능한 ICA 분석을 위한 최초의 실용적인 워크플로우이다. GPU 병렬 FastICA 파이프라인과 LLM 특화 안정성 레시피 및 개선된 적합 진단을 결합하여, 효율적이고 신뢰할 수 있는 계층별 분석을 가능하게 한다. GPT-2 Small, Gemma 2 2B 및 Qwen 3.5 2B Base에서 ICALens는 계층별 그래디언트 기반 사전 훈련 없이도 효율적으로 간결하고 인간이 해석 가능한 방향을 복구한다. SAEBench에서 ICA는 희소 프로빙에서 공개 SAE와 경쟁력을 보이며, 소규모 및 중간 예산 하에서 목표 프로브 섭동에서는 이를 능가한다. 이러한 결과는 ICA가 약한 기준선이 아니라 언어 모델 표현을 탐색하기 위한 효율적이고 보완적인 첫 번째 렌즈로 간주되어야 함을 시사한다.
자율적 LLM 훈련은 종종 레시피 탐색으로 간주되어 훈련 도구를 대체로 정적으로 유지한다. 이러한 한계는 에이전트 기반 강화학습(RL)에서 더욱 두드러지는데, 변화하는 병목 현상과 스칼라 보상이 다양한 실패 모드를 가리기 때문이다. 본 논문에서는 경험적 피드백을 통해 LLM 정책과 훈련 측 도구를 공동 진화시키는 자율적 훈련 프레임워크인 EvoTrainer를 소개한다. 이 프레임워크는 롤아웃 수준의 증거를 진단하고, 진단을 수정하며, 개입을 백테스트하고, 재사용 가능한 기술을 축적한다. 수학적 추론, 경쟁 프로그래밍 코드 생성, 저장소 수준 소프트웨어 엔지니어링에 대해 평가한 결과, EvoTrainer는 동일한 데이터, 코드베이스, 평가 프로토콜 하에서 인간이 설계한 RL 참조 모델과 동등하거나 더 나은 성능을 보였으며, 특히 장기적 에이전트 SWE에서 가장 큰 향상을 나타냈다. 궤적 분석 결과, 유지된 전략은 도메인 간에 분기하며, 진화하는 진단은 유효하지 않은 고득점 분기가 승격되는 것을 방지하고, 재사용 가능한 기술이 이후 검색을 형성하는 것으로 나타났다. 자율적 LLM RL은 레시피 탐색을 넘어 정책과 이를 해석하는 훈련 도구의 공동 진화로 나아가야 한다.
본 논문에서는 Embodied-R1.5를 소개한다. 이는 일반적 물리 지능을 향한 단일 아키텍처 내에서 체화된 인지, 작업 계획, 수정 및 지시를 포괄하는 포괄적인 체화 추론 능력을 통합한 통합 체화 기반 모델(EFM)이다. 세 가지 자동화된 데이터 구축 파이프라인을 활용하여 핵심 능력의 데이터 범위를 크게 확장하고, 150억 개 이상의 토큰으로 구성된 대규모 데이터 시스템을 구축했으며, 이질적 작업 충돌을 완화하기 위해 다중 작업 균형 강화 학습(RL) 레시피를 설계했다. 또한, 단일 모델이 장기적 작업을 자율적으로 실행하고 자체 수정할 수 있도록 하는 계획자-근거자-수정자(PGC) 폐쇄 루프 프레임워크를 도입한다. 단 80억 개의 파라미터만으로 Embodied-R1.5는 24개의 체화 VLM(비전-언어 모델) 벤치마크 중 16개에서 최고 성능(SOTA)을 달성하여 Gemini-Robotics-ER-1.5 및 GPT-5.4와 같은 선도적 모델을 능가한다. 내재화된 체화 능력 덕분에 Embodied-R1.5는 소량의 데이터만으로 VLA(비전-언어-행동 모델)로 미세 조정될 수 있으며, 4개의 인기 조작 벤치마크 제품군에서 π_{0.5}와 같은 선도적 VLA 모델을 능가하는 성능을 보인다. 또한, 광범위한 제로샷 실제 로봇 실험을 수행하여 명령 따르기, 어포던스 근거화, 관절 객체 조작 및 장기적 복잡 작업에서 성능을 검증함으로써 물리적 세계에 대한 강력한 일반화 능력을 입증했다. 모델 가중치, 데이터세트, 학습 코드, 그리고 체화 작업에 특화된 평가 프레임워크인 EmbodiedEvalKit을 오픈소스로 공개하여 향후 EFM 연구를 촉진하고자 한다.
검증 가능한 환경에서의 강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 접근 방식으로 부상했다. 기존 연구는 환경 규모를 확장하는 것이 RL 성능을 향상시킨다는 것을 보여주지만, 기존의 수동 또는 개별적 구성 방법은 선형적 확장 한계를 겪어 확장 가능한 추론 일반화를 저해한다. 본 논문은 검증 가능한 환경을 재귀적으로 조립할 수 있는 구성 가능한 빌딩 블록으로 개념화하는 프레임워크인 RACES(Recursive Automated Composition for Environment Scaling)를 소개한다. 핵심 통찰은 한 환경의 공역(출력 유형)이 다른 환경의 정의역(입력 유형)과 일치할 때, 이들이 자동으로 새로운 검증 가능한 환경으로 융합되어 재귀적 구성을 가능하게 한다는 점이다. RACES는 300개의 개별 환경으로 구현되며, 다양한 추론 패턴을 유도하는 합성 연산자(SEQUENTIAL, PARALLEL, SORT, SELECT) 집합을 정의한다. 광범위한 실험을 통해 이러한 합성 환경에서의 RL 훈련이 지속적으로 추론 일반화를 향상시킴을 보여준다. 구체적으로, RACES는 DeepSeek-R1-Distill-Qwen-14B의 성능을 6개 벤치마크에서 평균 3.1점 향상(48.2에서 51.3)시키고, Qwen3-14B의 성능은 58.8에서 61.1로 향상시키며, 이 벤치마크들은 훈련 환경 구성 중에는 보지 못했던 것들이다. 더욱이, RACES는 50개의 기본 환경만을 사용하여 300개의 개별 환경에서 훈련한 것과 유사한 성능을 달성함으로써 환경 활용의 현저한 효율성을 입증한다.
사전 학습된 비디오 생성기는 창발적 작업 해결 능력을 보여주는 유망한 시각적 세계 모델이지만, 상세한 텍스트 설명에 의존하기 때문에 계획 및 의사 결정에 직접 사용하는 데 한계가 있습니다. 기존 접근 방식은 이러한 추론을 언어 또는 시각-언어 모델에 위임하거나, 수집 비용이 높고 확장이 어려운 쌍을 이룬 작업 실행 비디오를 사용한 지도 미세 조정에 의존합니다. 우리는 자기 증류와 강화 학습을 결합하여 이러한 모델에서 작업 해결 능력을 이끌어내는 확장 가능한 프레임워크를 제안합니다. 레이블이 없는 장면 이미지가 주어지면 시각-언어 모델이 후보 작업과 상세한 단계별 솔루션을 생성합니다. 솔루션은 사전 학습된 비디오 확산 모델인 시연자(Demonstrator)를 조건화합니다. 우리는 시연자의 행동을 이미지와 짧은 작업 프롬프트에만 조건화된 실행자(Executor)로 증류합니다. 이는 큐레이션된 작업-비디오 지도 학습 없이 캡션 기반 생성에서 명령 조건화된 작업 해결로 실행 지식을 전이합니다. 우리는 샘플링된 비디오가 작업을 만족하는지 판단하는 것과 솔루션을 생성하는 것 사이의 비대칭성을 활용하여 VLM 피드백으로부터의 강화 학습을 통해 실행자를 추가로 개선합니다. 우리가 제안한 WorldTasks-벤치마크와 DreamGen 로보틱스 벤치마크에 대한 실험은 실행자가 VLM 기반 평가 프로토콜 하에서 시연자를 능가하며 로봇 작업에 경쟁력 있게 전이됨을 보여줍니다.
파이프라인 병렬 처리는 대규모 신경망 학습에 필수적이지만, 기존 스케줄은 처리량, 메모리, 최적화 일관성 간의 상충 관계를 수반한다. 동기식 파이프라인은 순전파/역전파의 가중치 일관성을 유지하지만 버블이 발생하고, 비동기식 파이프라인은 버블을 제거하지만 가중치 버전 불일치가 생겨 일반적으로 가중치 저장, 예측 또는 보정 메커니즘이 필요하다. 본 연구에서는 PACI(Pipeline Asynchronous training with Controlled Inconsistency)를 제안한다. 이는 가중치 저장, 예측, 추가 파라미터 복사본 또는 전역 동기화 없이 순전파/역전파 버전 드리프트를 제한하는 버블 없는 비동기식 파이프라인 방법이다. 핵심 아이디어는 지역 그래디언트 누적을 버전 제어 메커니즘으로 활용하는 것이다. 즉, 파이프라인 지연 대비 파라미터 버전의 진화 속도를 늦춤으로써, PACI는 정상 상태 활용도를 유지하면서 어떤 마이크로 배치가 교차하는 옵티마이저 업데이트 횟수를 제한한다. GPT 방식 언어 모델 사전 학습에서 PACI는 동기식 1F1B-flush의 안정성과 최종 퍼플렉서티에 도달하며, 동일한 최대 메모리 사용량을 유지하고, 완전히 활용된 파이프라인 처리량을 달성하며, 가장 빠른 플러시 기준선 대비 최대 1.69배까지 학습 시간-정확도를 개선한다. 이러한 결과는 순전파/역전파 불일치를 제거할 필요가 없음을 보여준다. 명시적으로 제한될 경우, 이는 상당한 효율성 향상을 위해 안전하게 희생될 수 있다.
확산 모델은 텍스트-이미지 생성 분야에서 꾸준히 진전을 이끌어 왔습니다. 그러나 최근의 진전을 특정 모델링 및 데이터 선택에 귀속시키는 것은 어렵습니다. 최첨단 오픈웨이트 모델은 제한된 절제 연구만을 제공하고, 훈련 데이터와 전체 훈련 세부 사항을 공개하지 않기 때문입니다. 연구 커뮤니티는 추가 연구를 위한 기반으로서 완전히 공개된(가중치, 데이터, 코드) 모델이 필요하지만, 기존의 완전 공개 모델은 주요 모델에 비해 성능이 크게 뒤떨어집니다. 본 프로젝트에서는 300회 이상의 제어 실험(총 70만 TPU v6e 시간 소요)을 통해 텍스트-이미지 확산 훈련 및 추론에서의 모델링 및 데이터 설계 선택지를 체계적으로 조사합니다. 본 실험은 강력한 모델을 훈련하기 위한 몇 가지 경험적 발견(예: 균등 가중치는 큐레이팅된 데이터셋 혼합에 강력한 기본값임)과 간단한 설계 결정(예: 더 큰 텍스트 인코더 어댑터가 최소한의 추가 파라미터로 성능을 향상시킴)을 강조합니다. 이러한 통찰에 따라 공개적으로 이용 가능한 데이터셋만을 사용하여 30억(3B) 파라미터의 텍스트-이미지 확산 모델인 i1을 훈련시킵니다. i1은 다섯 가지 대표 벤치마크(GenEval, DPG, PRISM, CVTG-2K, LongText)에서 주요 모델과 경쟁력을 갖추며, 평균적으로 기존 최고의 완전 공개 모델보다 29.5%p 높은 성능을 보입니다. i1 체크포인트, 훈련 및 추론 코드, 데이터 처리 파이프라인을 제공합니다. 본 연구의 결과와 i1 레시피는 향후 텍스트-이미지 확산 모델에 대한 공개 연구를 위한 실질적인 기반을 마련합니다. 코드는 https://github.com/zlab-princeton/i1에서 확인할 수 있습니다.
컴퓨터 사용 에이전트(CUA)는 그래픽 사용자 인터페이스에 대한 시각적 관찰에 의존하며, 각 스크린샷은 많은 수의 시각적 토큰으로 인코딩됩니다. 상호작용 궤적이 길어짐에 따라 토큰 비용이 급격히 증가하여, 고정된 컨텍스트 및 계산 예산 내에서 포함될 수 있는 히스토리 양이 제한됩니다. 이는 다른 도메인과 달리 히스토리를 사용할 때 성능 향상이 없거나 매우 제한적으로 나타나는 결과를 초래했습니다. 우리는 이러한 비효율성을 해결하기 위해 ReVision을 도입합니다. ReVision은 학습된 패치 선택기를 사용하여 연속적인 스크린샷 간의 패치 표현을 비교하고 모델이 요구하는 공간 구조를 유지하면서 중복된 시각적 패치를 제거한 궤적에 대해 다중 모달 언어 모델을 훈련하는 데 사용됩니다. 세 가지 벤치마크(OSWorld, WebTailBench, AgentNetBench)에서 Qwen2.5-VL-7B를 사용하여 5개의 히스토리 스크린샷이 있는 궤적을 처리할 때, ReVision은 토큰 사용량을 평균 46% 감소시키고, 드롭 없는 베이스라인 대비 성공률을 3% 향상시킵니다. 이는 명확한 효율성 향상을 입증하며, 에이전트가 더 적은 토큰으로 더 긴 궤적을 처리할 수 있게 합니다. 이러한 향상된 효율성을 바탕으로, 우리는 CUA에서 히스토리의 역할을 재검토하고, 중복성이 제거될 때 더 많은 과거 관찰이 포함됨에 따라 성능이 지속적으로 향상된다는 것을 발견했습니다.
에이전트 스킬은 범용 에이전트를 확장하기 위한 가벼운 메커니즘을 제공하지만, 개방형 형식으로 인해 스킬 오염 공격에 노출된다. 실제로 위험한 주입은 눈에 띄지 않아야 한다. 페이로드가 사용자의 정상적인 작업을 이탈시키면, 그로 인한 실패 신호는 스킬에 대한 조사를 유발하기 때문이다. 따라서 우리는 공격 성공률(Attack Success Rate, ASR)로 공격을 평가한다. 이는 주입된 페이로드가 실행되어야 하며, 동일한 시행에서 사용자의 작업이 여전히 검증기를 통과해야 함을 요구한다. 이러한 관점에서 기존의 스킬 오염 공격은 신뢰성과 은밀성 사이의 트레이드오프에 직면한다. YAML 헤더 주입은 안정적으로 로드되지만 쉽게 검사되는 반면, 은밀성이 더 높은 본문 주입은 스킬 내용에 명시적인 악성 명령을 배치하는데, 이는 맥락에 맞지 않는 명령이 에이전트 자체의 의심을 불러일으키기 때문에 신뢰성이 떨어진다. 우리는 POISE(Position-Aware Injection Strategy)를 도입한다. 이는 트리거를 단일하고 평범해 보이는 본문 명령어로 압축하고, 실행 가능한 위치에 배치하며, 맥락 인식 생성기를 사용하여 주변의 설정 또는 전제 조건 단계와 혼합한다. Codex+gpt-5.2 기반의 Skill-Inject 데이터셋에서 POISE는 89.3%의 ASR을 달성하며, 무작위 배치 본문 기준선보다 28.0% 포인트, YAML 전용 기준선보다 2.6% 포인트 높은 성능을 보이면서도 본문 배치의 은밀성 이점을 유지한다. 이러한 은밀성이 결정적 차이다. 정상적인 스킬 본문은 자연히 권한이 필요한 도구 작업을 포함하기 때문에, LLM 스캐너는 과민하게 반응하여 두 벤치마크와 네 명의 평가자에 걸쳐 평균적으로 정상 스킬의 74.6%를 오탐지한다. 이러한 오탐지에 편승하여 POISE는 중독된 변종 중 오직 5.6%만이 정상 기준선 대비 새로운 고위험 경고를 발생시키므로, 현재의 정적 방어를 무력화한다.
잔여 유효 수명(RUL) 예측은 산업 예측 유지보수에 필수적이지만, 많은 학습 기반 접근 방식은 작업별 시퀀스 모델을 학습시키기 위해 광범위한 특징 엔지니어링이나 대규모 레이블링 데이터셋에 의존합니다. 본 연구에서는 사전 학습된 고정 시계열 기반 모델(TSFM)을 활용하고 이를 작은 회귀 헤드와 결합하여 다변량 센서 스트림으로부터 RUL을 추정하는 경량 학습 접근 방식을 소개합니다. 보다 구체적으로, Chronos-2를 고정 백본으로 사용하여 컨텍스트 윈도우 특징을 추출하고 RUL 예측을 위한 경량 회귀 신경망을 학습시킵니다. 두 가지 장치 유형의 실제 산업 센서 데이터에 대한 실험 결과, Chronos-2 특징이 동일한 전처리 및 평가 프로토콜 하에서 재귀적, 합성곱, 트랜스포머 기반 및 그래디언트 부스팅 기준 모델보다 일관되게 향상됨을 보여줍니다. 또한 컨텍스트 길이의 영향을 추가로 분석한 결과, 더 긴 이력에서 성능이 크게 향상됨을 발견했습니다. 이는 TSFM 표현이 산업 환경에서 RUL 추정을 위한 실용적이고 데이터 효율적인 대안을 제공함을 시사합니다.
많은 현대 비전-언어 모델(VLM)은 이산 토큰의 자기회귀 디코딩을 기반으로 한다. 텍스트 기반 출력 인터페이스는 확장 가능한 사전 학습과 다양한 작업에서 강력한 제로샷 일반화를 가능하게 하지만, 사건의 시간적 경계 위치 파악이나 로봇 제어 동작 생성과 같이 정밀한 연속 출력이 필요한 문제에는 적합하지 않다. 이 문제를 해결하기 위해, 우리는 사전 학습된 VLM을 연속 디코딩 작업에 적용하기 위한 일반 프레임워크인 DRIFT를 제안한다. DRIFT는 대상 출력의 대략적인 추정치를 제공하는 기본 예측기와, 흐름 매칭을 기반으로 하여 예측을 반복적으로 개선하는 생성적 정제 모듈을 결합한다. 이러한 잔차 공식화는 생성 모델링 문제를 전역 출력 분포를 학습하는 것에서 강력한 사전 분포 주변의 국소적 잔차 분포를 모델링하는 것으로 변환하여 최적화를 크게 단순화한다. 우리는 시각적 근거 찾기와 로봇 제어를 포함한 인식 및 계획 작업 모두에서 DRIFT를 평가한다. MLLM, VLA, WAM에 걸친 여러 작업과 아키텍처에서 DRIFT는 강력한 회귀 기반 및 생성 기반 솔루션들을 일관되게 능가한다.
대규모 언어 모델(LLM)을 위한 주요 매개변수 효율적 미세 조정(PEFT) 기술에는 두 가지가 있다. 저랭크 적응(LoRA)은 LLM 계층 간에 추가 가중치를 도입하는 반면, 소프트 프롬프팅은 LLM 입력에 미세 조정 전용의 원시 토큰을 추가로 도입한다. 그러나 두 방법 모두 사전 컴파일 및 사전 최적화된 LLM의 계산 그래프를 수정해야 한다. 결과적으로, vLLM과 같은 고처리량 엔진에서는 어느 방법도 완전히 지원되지 않는다. 우리는 ART(Art 기반 강화 훈련)를 이용한 미세 조정을 제안한다. 이 방법은 냉동된 다중 모달 대규모 언어 모델(MLLM)의 원시 시각적 입력만 최적화하여 정보를 주입함으로써, 사전 컴파일된 계산 그래프에서 소프트 토큰 접근 방식을 가능하게 한다. 이는 일반 픽셀 배열로의 그래디언트 역전파에 의존하므로 모든 미세 조정 목표를 지원한다. 또한 최적화된 시각적 입력은 작업 관련 계산 예술 작품으로 양식화될 수 있다. 이 접근 방식의 효과는 널리 사용되는 공개 Qwen 아키텍처의 다양한 크기와 여러 텍스트 기반 벤치마크에서 확인되었다. 구체적으로, ART는 수학 및 구조화된 도구 사용 벤치마크에서 LoRA와 경쟁력 있는 정확도를 달성한다.
이전 연구들은 지시 조정된 대규모 언어 모델(LLM)이 기본 사전 학습 모델에 비해 캘리브레이션(보정)이 덜 잘 되어 있음을 보여주었다. 그러나 대화형 LLM의 캘리브레이션에 자주 사용되는 채팅 템플릿이 미치는 영향에 대해서는 알려진 바가 거의 없다. 본 연구에서는 사후 학습 알고리즘과 채팅 형식의 효과를 분리하여 이러한 캘리브레이션 오류를 유발하는 메커니즘을 조사한다. 지시 조정이 본질적으로 캘리브레이션을 해치는 반면, 채팅 템플릿은 '소유 편향(ownership bias)'을 통해 문제를 악화시킨다는 사실을 발견했다. 즉, 모델은 사용자가 제공한 동일한 답변보다 자신의 답변에 대해 현저히 더 높은 신뢰도를 보인다. 최신 오픈 가중치 LLM 6종, 세 가지 벤치마크, 세 가지 신뢰도 도출 방법에 걸친 광범위한 실험 결과, 모델은 자신의 응답에 대해 최대 26% 더 높은 신뢰도를 할당하는 것으로 나타났다. 이 통찰을 활용하여, 신뢰도 도출 중 모델의 답변을 사용자 입력인 것처럼 프레이밍하는 간단한 추론 시점 전략을 제안한다. 이 접근법은 재학습 없이도 과잉신뢰를 크게 줄이고 캘리브레이션을 최대 26% 향상시켜, 기본 모델과 지시 조정 모델 간의 격차를 좁힌다.
대규모 언어 모델(LLM)은 번역 작업에서 새로운 잠재력을 제공하지만, 저자원 언어를 처리할 때 성능 저하를 겪는 경우가 많다. 이러한 한계를 해결하기 위해, 우리는 저자원 언어인 쿠팡 말레이어(Kupang Malay)에 대해 LLM을 미세 조정하는 접근법을 제안한다. 우리의 접근법은 이중 언어 사전의 명시적 어휘 및 의미적 특징을 활용하여 일련의 명령어를 설계하고, 반복적인 명령어 기반 훈련을 가능하게 하는 훈련 패러다임인 지속적 명령어 튜닝(CIT, Continual Instruction Tuning)을 도입하는 것이다. 실험 결과, Lius라고 명명된 우리의 모델은 여러 평가 지표에서 표준 명령어 튜닝 모델보다 4-6포인트, 신경 기계 번역(NMT) 및 다국어 LLM 모델보다 10-13포인트 뛰어난 성능을 보이며 유의미한 개선을 달성했다. 이러한 발견은 저자원 언어 번역에서 대규모 병렬 데이터에 대한 의존도를 완화할 수 있는 우리 접근법의 잠재력을 강조한다.
대규모 언어 모델(LLM)은 자율적 워크플로를 통해 복잡한 작업을 해결하는 데 널리 사용된다. 최근에는 재사용 가능한 자연어 스킬이 LLM 애플리케이션에 절차적 지식을 주입하는 인기 있는 패러다임으로 부상했다. 널리 사용되는 스킬은 종종 반복적으로 호출되므로, 모든 맥락에 전체 텍스트를 배치하면 프리필 비용과 지연 시간이 크게 증가한다. 텍스트 압축 기술이 이 문제를 해결할 잠재력을 가지고 있지만, 대부분의 기존 방법은 절차적 지식 대신 문서의 사실적 지식을 압축하도록 설계되어 스킬 압축에는 충분하지 않다. 본 논문에서는 효과적인 스킬 압축 방법이 다음을 충족해야 한다고 주장한다: 1) 워크플로와 도구 프로토콜 간의 논리적 의존성을 보존하고, 2) 자주 업데이트되는 커뮤니티 스킬에 대해 경량의 오프라인 압축을 가능하게 하며, 3) 스킬 간 다양한 복잡성에 적응할 수 있어야 한다. 이를 해결하기 위해, 우리는 절차적 스킬을 위한 적응형 다중 해상도 소프트 토큰 압축 프레임워크인 SKIM(SKIll coMpression)을 제시한다. SKIM은 각 스킬의 복잡성에 따라 다양한 수의 소프트 토큰을 생성하여 LLM 추론의 효율성을 향상시킬 뿐만 아니라 스킬 사용의 효과성도 유지한다. 실험 결과, SKIM은 스킬을 원래 토큰 길이의 30~60%로 압축하면서도 기존 압축 방법보다 작업 성능을 더 잘 보존하는 것으로 나타났다. 코드는 https://github.com/bebr2/SKIM 에서 공개하였다.
정책 변화부터 과학적 혁신에 이르기까지 사건에 대응하여 사회적 신념이 어떻게 변화하는지 이해하고 예측하는 것은 사회과학의 근본적인 과제로 남아 있다. LLM의 상식 지식과 사회적 지능을 고려할 때, 우리는 다음과 같은 질문을 던진다: LLM이 사회적 사건 이후의 사회적 신념 역학을 모델링할 수 있는가? 본 연구에서는 주요 사건에 따라 사회적 신념이 어떻게 변화하는지를 포착하도록 설계된 일반 프레임워크인 사회 세계 모델(Social World Model, SWM)의 개념을 소개한다. SWM은 사건과 신념 변화를 연결하는 명시적인 인간 주석이나 값비싼 인구 조사 데이터 없이도, 사회 데이터에서 시간적 패턴을 채굴하고 증거 하한을 최적화함으로써 사회적 신념에 대한 상태 전이 함수를 학습한다. SWM을 평가하기 위해 실제 예측 시장, 특히 Kalshi와 Polymarket에서 파생된 벤치마크인 SWM-bench를 도입한다. SWM-bench는 정치, 금융, 암호화폐 등 다양한 영역을 포괄하는 사회적 신념 예측 과제를 위한 12,000개 이상의 데이터 포인트를 포함한다. 실험 결과, SWM은 시계열 기초 모델을 크게 능가하여 Kalshi 데이터에서 최첨단 성과를 달성하고 Polymarket 데이터에서 경쟁력 있는 성과를 보여주며, 사회적 신념 역학의 기저 메커니즘에 대한 해석 가능한 통찰력을 제공한다.
대규모 언어 모델(LLM)은 과학적 발견을 가속화하는 데 활용이 증가하고 있으며, 최근에는 타당한 과학적 가설을 생성하는 고급 작업에도 적용되고 있다. 그러나 많은 발견 설정에서 목표는 단일 최적 가설을 식별하는 것이 아니다. 검증에는 비용이 많이 들고 잡음이 있을 수 있으며, 과학자들은 하류(downstream) 불확실성에 대비해 최적 해결책을 보완할 수 있는 고품질의 대안 가설 집합을 필요로 하기 때문이다. 그럼에도 불구하고, 일반적으로 사용되는 진화적 탐색 방식은 가설 생성에서 최적화를 탐색보다 우선시하는 경향이 있으며, 탐색 과정에서 발생하는 선택 압력은 다양성 붕괴(diversity collapse)로 이어진다. 이러한 한계에 착안하여, 우리는 가설 탐색을 샘플링 문제로 정식화하고, 그 목표는 고정된 검증 예산 하에서 다양하고 고품질의 가설을 효율적으로 생산하는 것으로 설정한다. 이 관점에 기반하여, 우리는 고전적인 병렬 템퍼링(parallel tempering) 알고리즘에서 영감을 받은 진화적 프레임워크인 \ours를 제안한다. 이 프레임워크는 여러 온도 수준에서 가설을 탐색하고, 온도 간 원칙적인 정보 교환을 가능하게 하여 수렴을 방해하지 않으면서 탐색을 개선한다. 분자 발견, 방정식 발견, 알고리즘 발견 등 다양한 영역에서 우리의 접근 방식은 동일한 검증 예산 하에서 가설의 품질과 다양성을 일관되게 개선하며, 더 비용이 많이 드는 하류 계산 검증에서도 강건하게 유지되는 후보를 생성한다.
일반적인 시계열 기반 모델은 신호가 버스트성이고 영-과잉이며 프로토콜 계층 간 결합된 무선 네트워크 텔레메트리에 대해 전이 성능이 낮다. 본 논문에서는 엔터프라이즈 AP 텔레메트리 예측을 위한 네트워크 네이티브 디코더 전용 트랜스포머인 APEX를 제안하고, 대표적인 네트워크 작업으로 DHCP 성능 저하 시나리오에서 평가한다. APEX는 약 4,500개의 운영 중인 무선 네트워크(~100K AP 시계열, AP당 34개 메트릭)로부터 수집된 10채널 다변량 텔레메트리로 사전 학습되었으며, APEX-Large(269M, 클라우드)와 APEX-Edge(10.5M, 엣지)의 두 가지 버전으로 제공된다. 192스텝(4일) DHCP 성능 저하 벤치마크에서 APEX-Large는 가장 강력한 기반 모델 베이스라인(Toto) 대비 MAE 18%, SARIMA 대비 38% 감소를 달성하고 이상 탐지 F1=0.93을 기록하며, APEX-Edge는 AP급 엣지 하드웨어에서 1초 미만의 프라이버시 보존 추론을 가능하게 한다. 이러한 결과는 네트워크 네이티브 사전 학습이 사전 대응적 무선 운영을 위한 실용적인 기반이 될 수 있음을 시사한다.
추천 시스템이 에이전트 기반의 다중 턴 대화형 인터페이스로 전환됨에 따라, 평가 패러다임은 이러한 변화를 따라잡는 데 어려움을 겪고 있다. 현재의 벤치마크는 종종 'LLM-as-a-judge' 평가에 의존하는데, 이는 주관성, 높은 비용 및 일관성 부족을 초래한다. 본 연구에서는 τ-Rec을 제안한다. τ-Rec은 에이전트 기반 추천 시스템을 위한 벤치마크로, 주관적 평가를 검증 가능한 보상으로 대체하고, 대화 중 작업 제약 조건이 드러나는 방식을 통제하는 'reveal-tagged elicitation (RTE)' 메커니즘을 도입한다. 에이전트를 구조화된 카탈로그 조건에 대해 테스트하고 pass^k 신뢰도 지표를 활용함으로써, τ-Rec은 일관된 추론을 위한 체계적인 테스트를 제공한다. GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B 및 GPT-5 mini 등 다섯 모델 계열의 아홉 가지 구성을 평가한 결과, 급격한 신뢰도 하락이 관찰되었다. 최고 성능 모델조차도 pass^1에서 약 57%, pass^4에서 약 38%의 성능을 보여, 현재 대화형 에이전트 배포에 있어 중요한 격차를 드러낸다. 모든 코드와 데이터는 https://github.com/nbharaths/tau-rec에서 공개적으로 이용 가능하다.
훈련 데이터 큐레이션은 현대 AI 개발에서 가장 중요하면서도 노동 집약적인 부분 중 하나이다. 실무자들은 잡음이 섞인 벤치마크 피드백에 반응하여 데이터 정책을 반복적으로 제안, 구현, 평가 및 수정한다. 본 연구에서는 범용 코딩 에이전트가 이러한 데이터 큐레이션 루프를 자동화할 수 있는지 질문한다. 우리는 모델, 훈련 레시피, 평가 스위트를 고정시키고 에이전트에게 데이터 검사, 정책 구현, 고정 훈련/평가 파이프라인에 제출, 수정을 위한 명령줄 접근 권한을 부여하는 에이전트 중심 벤치마크인 *Curation-Bench*를 소개한다. 비전-언어 명령 튜닝 인스턴스화에서, 기본 설정 에이전트는 10회 반복 이내에 강력한 공개 데이터 선택 기준선에 도달한다. 그러나 궤적 분석은 지속적인 *실행-연구 격차*를 드러낸다. 에이전트는 전략 가이드와 논문 참조가 제공되어도 새로운 정책군을 탐색하기보다는 주로 로컬 정책 변형을 조정한다. 각 반복에서 이전 방법을 인용, 인스턴스화 및 적응하도록 요구하는 스캐폴딩은 에이전트를 방법 기반 탐색으로 전환시킨다. 스캐폴딩된 에이전트는 인간의 설계 입력 없이 자율적으로 데이터 예산의 10%만으로 강력한 공개 기준선을 능가하는 데이터 선택 정책을 구성한다. 전반적으로, 현재 에이전트는 큐레이션 루프를 실행할 수 있지만, 신뢰할 수 있는 데이터 연구를 위해서는 개방형 프롬프트만으로는 부족하며 스캐폴딩된 방법 적응이 필요하다. 코드와 벤치마크는 오픈소스로 제공된다.
추론 모델을 위한 사후 훈련은 일반적으로 감독형 미세 조정과 검증 가능한 보상에 기반한 강화 학습을 결합하며, 가장 흔히 GRPO를 사용한다. 그러나 이 알고리즘은 희소 보상, 제한된 탐색, 그리고 모드 붕괴 문제를 겪는다. 본 논문은 최근의 자기 증류 연구를 기반으로, 모델이 언어 모델에 의해 생성된 특권 피드백을 조건으로 한 자신의 분포를 토큰 수준에서 일치하도록 훈련하는 기법인 피드백 증류(Feedback Distillation)를 제안한다. 피드백 증류는 토큰 수준의 감독을 제공하며 외부 지식을 주입할 수 있다. Lean4 정리 증명에서 본 방법을 평가한 결과, 피드백 증류는 GRPO보다 생성된 궤적에서 더 큰 다양성을 유지하며, 더 높은 정책 엔트로피와 더 나은 pass@k 스케일링을 보였다. 두 방법은 상호 보완적이다. 피드백 증류 체크포인트에서 GRPO를 초기화하면 단일 방법만 사용할 때보다 우수한 성능을 나타낸다. 종합적으로, 본 연구 결과는 복잡한 추론을 위한 사후 훈련을 개선할 유망한 방향을 제시한다.
현대 LLM 학습 파이프라인은 점차 다른 모델에 의존하여 데이터를 생성하고, 코퍼스를 필터링하며, 출력을 평가하고, 개발 결정을 안내하고 있다. 이러한 의존성은 재귀적이다. 즉, 어떤 모델은 상위 아티팩트에 의존할 수 있는데, 해당 상위 아티팩트 자체의 의존성은 별도의 릴리스와 아티팩트에만 문서화되어 있다. 그 결과, 전체 의존성 구조는 이질적인 공개 아티팩트에 걸쳐 파편화되어 있으며, 복잡성과 재귀적 깊이가 인간의 추적 능력을 훨씬 초월한다. 우리는 ModSleuth를 소개한다. 이는 에이전틱 시스템으로, 공개 아티팩트로부터 출처 기반 증거와 함께 LLM 의존성 그래프를 재귀적으로 재구성한다. 우리는 주요 과제가 더 이상 정보 추출이 아니라, 의존성을 구성하는 요소를 정의하고 일관되지 않은 문서 전반에 걸친 아티팩트 참조를 조정하는 데 있음을 발견했다. 우리는 이러한 과제를 직접 의존성과 간접 의존성을 구분하고, 작업 중심 관계를 통해 이질적인 파이프라인 역할을 표현하며, 이름, 버전, 저장소 전반에 걸친 아티팩트 식별을 해결하는 공식화를 통해 해결한다. ModSleuth를 공개 아티팩트가 풍부한 네 가지 LLM 릴리스에 적용하여 1,060개의 출처 검증된 의존성을 복구하고, 현대 LLM 개발의 대규모 의존성 그래프를 구축했다. 이러한 그래프는 다중 홉 라이선스 의무, 학습-평가 결합, 릴리스된 아티팩트와 학습 시점 아티팩트 간의 불일치, 그리고 달리 발견하기 어려웠을 문서화 불일치를 드러낸다. 우리는 ModSleuth와 그 결과로 생성된 의존성 그래프를 공개하여 현대 LLM의 기반이 되는 점점 더 복잡해지는 생태계의 투명한 분석을 지원한다.
스파스 어텐션(Sparse attention)은 긴 문맥을 처리하는 대규모 언어 모델(LLM) 추론에서 계산량과 메모리 대역폭을 줄여준다. 그러나 여전히 두 가지 주요 과제가 남아 있다: (1) KV 캐시 용량이 시퀀스 길이에 따라 증가하며, 이를 CPU 메모리로 오프로드할 경우 PCIe 전송 병목이 발생한다. (2) 스파스 선택 단계 자체가 O(T²) 복잡도를 유지하여 긴 문맥에서 어텐션 비용을 지배할 수 있다. 본 논문에서는 SparDA라는 분리형 스파스 어텐션 아키텍처를 제안한다. SparDA는 Query, Key, Value 외에 네 번째 층별 투영(projection)인 Forecast를 도입한다. Forecast는 다음 층에서 필요한 KV 블록을 예측하여, 현재 층 실행과 CPU→GPU 프리페치를 중첩시키는 선행 선택(lookahead selection)을 가능하게 한다. Forecast는 어텐션 쿼리와 분리되어 있으므로, 본 구현에서는 GQA(Grouped Query Attention) 그룹당 하나의 Forecast 헤드를 사용하여 기존 다중 헤드 선택기 대비 선택 오버헤드를 줄인다. SparDA는 전체 매개변수의 0.5% 미만을 추가하며, 기존 선택기의 어텐션 분포를 일치시키는 방식으로 Forecast 투영만 학습시킨다. 두 개의 스파스 사전학습 8B 모델에서 SparDA는 정확도를 유지하거나 소폭 향상시키며, 스파스 어텐션 오프로드 기준선 대비 최대 1.25배의 프리필 속도 향상과 1.7배의 디코드 속도 향상을 제공한다. 단일 GPU에서 더 큰 배치 크기를 가능하게 함으로써, SparDA는 오프로드하지 않는 스파스 기준선 대비 최대 5.3배 높은 디코드 처리량을 달성한다. 소스 코드는 https://github.com/NVlabs/SparDA에서 확인할 수 있다.
뇌 자기공명영상(MRI)은 신경학적 발달, 노화 및 질병 연구에서 핵심적인 역할을 한다. 주요 응용 분야 중 하나는 뇌 나이 예측(BAP)으로, MRI 데이터로부터 개인의 생물학적 뇌 나이를 추정한다. 효과적인 BAP 모델은 크고 다양하며 연령 균형이 잡힌 데이터셋을 필요로 하는 반면, 기존의 3D MRI 데이터셋은 인구통계학적으로 편향되어 공정성과 일반화 가능성을 제한한다. 새로운 데이터를 획득하는 것은 비용이 많이 들고 윤리적 제약이 있으므로, 생성적 데이터 증강이 동기부여된다. 현재의 생성 방법은 종종 잠재 확산 모델에 기반하며, 이는 볼륨 MRI 데이터의 메모리 요구를 해결하기 위해 학습된 저차원 잠재 공간에서 작동한다. 그러나 이러한 방법들은 추론 속도가 느리고, 잠재 압축으로 인한 인공물을 도입할 수 있으며, 연령에 조건화되는 경우가 드물어 BAP 성능에 영향을 미친다. 본 연구에서는 가역적 3D 웨이블렛 도메인 내에서 흐름 매칭을 활용하여 연령 조건화된 3D MRI를 합성하는 조건부 생성 프레임워크인 FlowLet을 제안하며, 이는 재구성 인공물을 피하고 계산 요구를 줄이는 데 도움을 준다. 실험 결과 FlowLet이 적은 샘플링 단계로 높은 충실도의 볼륨을 생성함을 보여준다. FlowLet으로 생성된 데이터로 BAP 모델을 훈련하면 과소 대표 연령 그룹에 대한 성능이 향상되며, 영역 기반 분석을 통해 해부학적 구조의 보존이 확인된다.