번역이 포함된 일일 선별된 AI 연구 논문
언어 모델 개발의 최근 진보는 규모에 의해 정의되어 왔으며, 각 세대는 더 많은 세계 지식을 가중치에 흡수하고 있다. 그러나 많은 실제 응용에서는 광범위한 파라미터 지식보다는 강건한 추론이 더 큰 이점을 제공한다. 이러한 환경에서 작업별 특화 소형 언어 모델(SLM)은 원칙적인 설계 선택을 제공한다. 우리는 이러한 전제를 바탕으로 구축된 SLM 제품군인 최적 인지 핵심(OCC)을 소개한다. OCC의 변형으로서, 제공된 맥락에 기반한 충실한 질의응답(QA)에 최적화된 OCC-RAG를 제시한다. 이 작업은 제공된 구절에 대한 다중 추론을 요구하면서 기억된 지식을 무시해야 하므로 OCC 설계 접근 방식과 직접적으로 일치한다. OCC-RAG를 훈련하기 위해, 대규모로 다중 맥락 및 다중 추론 QA 데이터를 합성하는 새로운 파이프라인을 구현하여, 다중 추론, 엄격한 맥락 충실도, 조정된 기권을 대상으로 하는 300만 개 이상의 예제로 구성된 코퍼스를 생성한다. 우리는 이 코퍼스로 중간 훈련된 OCC-RAG-0.6B와 OCC-RAG-1.7B를 공개한다. 이 모델들은 맥락의 직인용에 기반한 출처 인용을 포함한 구조화된 추론 흔적을 생성한다. OCC-RAG를 통해, 우리는 소형의 작업별 특화 SLM이 다중 추론(HotpotQA, MuSiQue, TAT-QA), 충실도(ConFiQA), 거절(MuSiQue-Un) 벤치마크에서 크기가 2~6배 더 큰 범용 모델과 동등하거나 더 뛰어난 성능을 낼 수 있음을 입증한다.
인간 뇌에서 시각적 개념을 대표하는 뇌 영역을 식별하는 것은 신경과학의 핵심 과제이다. 기존 접근법은 활성화 최대화를 통해 대략적인 기능적 영역(예: 얼굴, 장소)을 국소화하여, 특정 개념에 대해 다른 개념보다 강하게 활성화되는 영역을 식별해 왔다. 그러나 강한 활성화만으로는 해당 영역이 개념 자체를 대표한다는 증명이 되지 않는데, 이는 반응이 대신 상관된 시각적 또는 의미적 단서에 의해 유발될 수 있기 때문이다. 우리는 BrainCause를 소개한다. 이는 생성 모델과 뇌 모델을 결합하여 통제된 자극을 합성하고 표적 인과 검증을 통해 신경 표현을 검증하는 자동화된 프레임워크이다. 관심 개념을 명시하는 쿼리가 주어지면, 우리의 프레임워크는 개념 이미지, 다른 이미지 내용은 유지하면서 표적 개념을 제거하는 반사실적 편집, 그리고 후보 상관 방해 자극이 포함된 이미지들로 구성된 표적 자극 세트를 구축한다. 그런 다음 영상-기능적자기공명영상 부호화 모델을 사용하여 뇌 반응을 예측하고, 상관 대안보다 표적 개념에 특이적으로 반응하는 표현을 탐색한다. BrainCause는 검증된 후보 표현을 반환하고, 이를 추가로 검증하거나 발견을 확장하기 위한 후속 fMRI 실험을 제안한다. 우리의 접근법은 수십 가지 개념에 걸쳐 예측 및 측정된 fMRI 데이터 모두에서 검증된 기존의 기능적 국소화를 성공적으로 재발견하고 새로운 후보 표현을 식별한다. 중요한 점은, 인과 검증 없이는 국소화의 상당 부분이 거짓 양성이 될 것임을 보여주며, 이는 활성화만으로는 표현의 충분한 증거가 아님을 확인한다는 것이다.
온-정책 증류(On-Policy Distillation, OPD)는 대규모 언어 모델(LLM)의 효율적인 사후 학습을 위한 기본 기법으로, 에이전트 학습, 다중 작업 강화, 모델 압축 등에 폭넓게 적용된다. 그러나 OPD 학습은 교사와 학생 분포가 크게 다를 때 불안정해지는데, 학생이 생성한 토큰에 대한 교사의 감독이 신뢰할 수 없는 정책 기울기를 초래하고 최적화 실패로 이어질 수 있다. 본 연구는 신용 할당 전략을 통해 신뢰할 수 있는 온-정책 토큰 수준 감독 문제를 해결하며, 신뢰 영역 온-정책 증류(Trust Region On-Policy Distillation, TrOPD)를 제안한다. TrOPD는 다음과 같은 특징을 가진다: 1) 신뢰 영역 온-정책 학습: TrOPD는 교사가 신뢰할 수 있는 감독을 제공하는 영역에서만 OPD를 수행하여, 분포 불일치 하에서 K1 역방향-KL 추정기의 최적화 어려움을 완화한다. 2) 이상치 추정: 이상치 영역의 경우, 기울기 클리핑, 마스킹, 순방향-KL 추정을 탐색하여 신뢰할 수 없는 감독의 부정적 영향을 줄인다. 3) 오프-정책 가이던스: 학생은 교사 접두사로부터 생성을 계속하고 순방향 KL을 사용하여 오프-정책 가이던스를 모방함으로써, 신뢰할 수 있는 영역으로의 온-정책 탐색을 장려한다. 실험 결과, TrOPD는 수학적 추론, 코드 생성 및 일반 도메인 벤치마크에서 OPD, EOPD, REOPOLD 등 최신 OPD 기준선을 일관되게 능가함을 보여준다.
우리는 Humanoid-GPT를 소개한다. 이는 인과적 주의를 갖춘 GPT 스타일의 트랜스포머로, 전신 제어를 위해 10억 프레임 규모의 모션 코퍼스에서 훈련되었다. 희소한 데이터와 민첩성-일반화 트레이드오프에 의해 제약받던 기존의 얕은 MLP 트래커와 달리, Humanoid-GPT는 모든 주요 모션 캡처 데이터셋과 대규모 자체 녹화 데이터를 통합한 20억 프레임의 리타겟팅 코퍼스에서 사전 훈련되었다. 데이터와 모델 용량을 모두 확장함으로써, 매우 동적인 행동을 추적하면서도 보지 못한 동작 및 제어 작업에 대해 전례 없는 제로샷 일반화를 달성하는 단일 생성형 트랜스포머를 얻을 수 있었다. 광범위한 실험과 스케일링 분석을 통해 우리의 모델이 새로운 성능 최전선을 구축하며, 매우 동적이고 복잡한 동작을 동시에 추적하면서 보지 못한 작업에 대한 강건한 제로샷 일반화를 입증함을 보여준다.
테스트 시간 스케일링은 대규모 언어 모델에서 더 나은 추론을 얻기 위한 강력한 접근 방식이지만, KV-캐시가 증가함에 따라 긴 시간 범위 디코딩에서 메모리 병목 현상이 발생한다. KV-캐시 양자화는 이를 개선하는 데 도움이 될 수 있지만, 현재 방법들은 프리필(prefill)과 유사한 설정에서 평가되며, 오류는 자기회귀 디코딩에서 다르게 동작한다. 후자의 경우, 양자화 오류가 주로 잘못된 토큰 스케일에 의해 주도되며 시간 단계에 걸쳐 누적된다는 점을 보여준다. 우리는 Hadamard 회전과 K 및 V 행렬의 두 축에 걸친 이중 스케일링 분산 정규화를 결합한 교정 불필요(calibration-free) KV-캐시 양자화기인 KVarN을 소개한다. 이러한 조합이 이상치 토큰 스케일 오류를 수정하고 기존 기준선에 비해 오류 누적을 상당히 줄인다는 것을 발견했다. KVarN은 MATH500, AIME24 및 HumanEval을 포함한 생성 벤치마크에서 2비트 정밀도로 KV-캐시 양자화에 대한 새로운 최고 수준을 확립한다. KVarN 방법의 vLLM 구현은 https://github.com/huawei-csl/KVarN에서 확인할 수 있다.
강화학습(RL) 사후 학습은 수학적 추론, 코드 생성, 질의응답, 창작 글쓰기(CW) 등 개별 도메인에서 대규모 언어 모델(LLM)의 성능을 향상시키지만, 한 도메인에서의 학습은 종종 다른 도메인의 성능을 저하시킨다. 파괴적 망각 또는 전역 기울기 충돌에 기반한 기존 설명은 완전하지 않다. 전체 모델 기울기가 거의 직교하는 경우에도 상당한 간섭이 발생할 수 있기 때문이다. 본 연구는 단일 도메인 RL이 상위 변화 뉴런 간 중복이 약한 희소하고 작은 크기의 매개변수 편집을 생성하는 반면, 서로 다른 도메인은 여전히 상당한 활성 계산 경로를 공유하며, 이 경로에서 업데이트 방향이 상승적 또는 충돌적 작용을 결정함을 보여준다. 이러한 관찰에 기반하여, 다중 도메인 RL의 국소 섭동 모델 하에서 후속 도메인 학습이 주로 2차 손상 항을 통해 이전 도메인에 해를 끼친다는 것을 증명하며, 이 손상 항은 관찰된 희소 경로 구조 하에서 저차원 공유 충돌 부분공간에 집중된다. 또한, 짧은 도메인 갱신은 이 부분공간에서 유해한 구성 요소를 수축시켜 제한된 부수적 손상으로 선택적 회복을 가능하게 한다. 이론과 일관되게, Code → Math → QA → CW 후의 짧은 Re-Math 갱신은 Math를 57.66에서 66.04로 회복시키면서 다른 도메인의 성능을 대부분 유지하여 최고 평균 점수 66.39를 달성한다. 갱신 외에도, Math-QA 쌍에 대한 희소 대리 충돌 좌표 집합에서의 훈련 없는 롤백이 Math를 부분적으로 회복시켜, 국소화된 손상에 대한 직접적인 대리 수준 증거를 제공한다. 이러한 결과는 다중 도메인 RL에서 간섭과 회복의 국소화된 기계론적 설명을 제시한다.
세계 모델과 다중모드 대규모 언어 모델(MLLM)은 정적 시각 관찰로부터 미래 결과를 예측하는 데 상호 보완적 기능을 제공한다. 세계 모델은 가능한 미래의 구체적인 시각적 롤아웃(rollout)을 생성할 수 있는 반면, MLLM은 질문, 목표 및 규칙에 대해 추상적으로 추론할 수 있다. 그러나 생성된 롤아웃은 확률적이며 시각적으로 그럴듯하지만 작업에 부적절할 수 있으므로, 시각적 시뮬레이션이 언제 유용한지, 롤아웃이 신뢰할 수 있는지, 그리고 최종 답변에 어떻게 영향을 미쳐야 하는지 결정하는 것이 필요하다. 우리는 이 문제를 통제된 구체적 추론(controlled concrete reasoning)으로 정식화하며, 여기서 모델은 추상적 추론과 함께 시각적 미래 시뮬레이션을 호출하고, 검증하며, 통합하는 방법을 학습한다. 이 설정을 연구하기 위해, 우리는 제어 가능한 공간적 예측(controllable spatial lookahead)을 위한 VRQABench와 개방형 도메인 물리적 예측(open-domain physical prediction)을 위한 OpenWorldQA라는 두 가지 인간 검증 벤치마크를 구축하고, 특권 미래 온-정책 자기 증류(Privileged-Future On-Policy Self-Distillation, PF-OPSD)를 제안한다. 훈련 중에 PF-OPSD는 실제 미래 비디오와 답변만을 교사 측 특권 컨텍스트로 사용하여 온-정책 구체적 추론 궤적을 평가하는 반면, 배포 가능한 학생은 테스트 시점에 실제 미래를 관찰하지 않는다. 실험 결과 PF-OPSD는 VRQABench와 OpenWorldQA에서 각각 기준 대비 10.6%와 10.9% 더 나은 성능을 보였으며, 노이즈가 있거나 상충되는 롤아웃에 대한 견고성을 증가시켰다. 우리의 코드와 데이터셋은 https://github.com/yczhou001/PF-OPSD에서 확인할 수 있다.
자율적 에이전트는 단순한 예측 작업이나 단답형 임상 질의응답을 넘어, 의료-AI 연구 워크플로우의 전 과정(엔드 투 엔드)을 지원할 것으로 점점 더 기대되고 있다. 그러나 기존 의료 에이전트 벤치마크는 주로 최종 출력만 평가할 뿐, 연구 과정 내에서의 에이전트 행동에 대한 가시성은 제한적이다. 이러한 격차를 해소하기 위해, 우리는 AutoMedBench를 제시한다. 이는 다양한 의료 영상 및 다중 모달 추론 작업에 걸친 자율적 의료-AI 연구를 위한 워크플로우 인식 벤치마크로, 에이전트 실행을 통합된 다섯 단계 워크플로우(S1-S5)로 구성한다: 계획(Plan), 설정(Setup), 검증(Validate), 추론(Inference), 제출(Submit). 각 실행은 평균 33회의 에이전트 턴(turn)으로 구성된 장기 과제(long-horizon task)를 포함하며, 분할(Segmentation), 영상 개선(Image Enhancement), 시각 질의응답(VQA), 보고서 생성(Report Generation), 병변 검출(Lesion Detection)의 다섯 가지 연구 트랙에 걸쳐 있다. 각 과제는 Lite와 Standard의 두 가지 난이도 계층으로 평가되며, 동일한 데이터와 지표를 사용하지만 작업 요약(task-brief)의 지원 정도가 다르다. 각 실행은 최종 과제 성능과 S1-S5 단계 점수를 모두 사용하여 평가되며, 초기 작업 요약부터 최종 제출된 결과물까지 단계별 분석을 가능하게 한다. 수천 건의 기록된 실행을 통해 단계별 점수를 분석한 결과, 검증(Validate)이 평균적으로 가장 약한 워크플로우 단계인 반면 설정(Setup)이 가장 강한 것으로 나타났는데, 이는 현재 에이전트가 파이프라인을 실행 가능하게 만드는 데는 능숙하지만 그 신뢰성을 검증하는 데는 미흡함을 시사한다. 실행 후 오류 분석에서도 검증 및 제출 실패가 태그된 오류를 지배하여 각각 전체 발동 코드의 37.7%와 38.1%를 차지한 반면, 과제 이해 오류는 0.9%로 드물었으며, 하나의 오류 코드가 발동된 실행은 오류 코드가 없는 실행에 비해 평균 전체 점수가 48% 낮았다.
중간 훈련은 현대 대규모 언어 모델 개발에서 중요한 단계로 자리 잡았으며, 최종 후속 훈련 전에 대규모 선별 혼합 데이터를 사용하여 능력을 강화한다. 이 단계의 데이터 선별 문제는 고유한 특성을 가진다. 데이터는 사전 훈련에 가까운 규모에서 사전 훈련 스타일의 목적 함수를 최적화하지만, 하위 작업 능력을 향상시키기 위해 선별되며 서로 다른 형식과 훈련 역할을 가진 이질적 소스에서 추출된다. 결과적으로 효과적인 선별을 위해서는 확장성과 소스 적응적 의미 기준이 모두 필요하다. 기존 모델 기반 방법은 확장성은 우수하지만 암묵적인 품질 신호만 제공한다. 의미 기반 선별 방법은 더 강력한 판단을 제공하지만, 일반적으로 고정된 평가 기준이나 표준화된 데이터 형식을 가정한다. 이러한 불일치를 해결하기 위해, 우리는 자기 고정 평가 기준 발견에 기반한 소스 인식 필터링 프레임워크인 MIRA를 제안한다. 핵심 아이디어는 평가 기준 구성을 데이터 선별의 일부로 만드는 것이다. MIRA는 먼저 각 소스 그룹에 대해 평가해야 할 사항을 발견한 후, 이러한 판단을 확장 가능한 학생 점수 모델로 증류하여 전체 코퍼스 필터링에 사용한다. 21개의 소스와 5개의 소스 그룹을 사용한 코드 중심 중간 훈련에서 MIRA는 9개의 코드 벤치마크에서 선별 기준선을 능가하며, 절반의 토큰만 사용하면서 전체 코퍼스 실행과 동등한 성능을 달성했다.
시각적 추론을 위한 강화 학습(RL)에는 확장 가능하고 검증 가능하며 통제 가능한 훈련 신호가 필요하다. 기존의 시각적 RL 사후 훈련은 수집 예산에 의해 제한되는 고정된 이미지-질문-답변 샘플을 사용하여 정적으로 선별된 데이터셋에서 훈련한다. 본 연구에서는 TRON(Targeted, Rule-verifiable Online eNvironments)을 소개한다. 이는 온라인 환경 기반으로, 훈련 롤아웃이 통제 가능한 생성-검증 프로그램에 의해 요청 시 생성된다. 이 프로그램은 새로운 잠재 시각 상태를 샘플링하고, 이미지를 렌더링하며, 질문을 하고, 답변을 정확히 검증한다. 따라서 단일 실행으로 현재 커리큘럼에 필요한 난이도 수준에서 무제한의 새로운 인스턴스 스트림을 생성할 수 있다. 현재 TRON 제품군은 520개의 환경을 포함하며, 이는 5개의 능력 버킷(공간, 수학, 도표, 패턴/논리, 계수)으로 구성된다. 동일한 기반은 모든 버킷에서 훈련된 단일 전체 모델과 버킷별 능력 전문가 모델을 모두 지원하며, 추가 데이터 수집이 필요하지 않다. 또한 생성 신뢰성, 인스턴스 및 수준 다양성, 환경 간 유사 중복, 난이도별 기본 모델 통과율을 다루는 기반 분석을 제시한다. METHOD를 사용한 RL 사후 훈련은 Qwen3-VL-4B, Qwen2.5-VL-7B 및 MiMo-VL-7B-SFT에 걸쳐 10개의 외부 멀티모달 추론 벤치마크에서 일관되게 성능을 향상시킨다.
비디오 이해는 고립된 순간들을 인식하는 것 이상을 요구하는데, 인간은 시간에 걸쳐 개체, 상태, 사건을 지속적으로 추적하기 때문이다. 이러한 시각적 상태 추적 능력은 비디오 이해에 필수적이지만, 현재의 다중모달 대규모 언어 모델(MLLM) 평가에서는 충분히 탐구되지 않고 있다. 우리는 MLLM의 시각적 상태 추적을 진단하기 위해 설계된 비디오 기반 벤치마크인 VSTAT(Visual STAte Tracking benchmark)을 소개한다. VSTAT은 합성 및 실제 비디오에서 추출한 834개의 클립과 1,500개의 질문으로 구성되며, 이 질문들은 단일 프레임이나 짧은 구간만으로는 답할 수 없어 전체 비디오 스트림에 걸친 지속적인 지각과 사건 통합을 요구한다. 기존 비디오 벤치마크에서 강력한 성능을 보임에도 불구하고, 최신 MLLM은 인간에 훨씬 못 미치는 성능을 보이며 정답 사전 기반(answer-prior baselines)보다 약간 나은 수준에 불과하다. 이 격차를 분석하기 위해, 우리는 MLLM의 사고 추적(thinking traces)과 기본 비디오 스트림을 비교하여 MLLM이 VSTAT에서 왜 그리고 언제 실패하는지 이해한다. 우리는 MLLM이 텍스트에서는 올바르게 추론하고 추적하지만, 추적해야 할 사건을 시각적으로 지각하는 데 실패한다는 것을 발견한다. 마지막으로, 예비 평가에 따르면 MLLM 기반 비디오 에이전트 및 코딩 에이전트를 포함한 최근의 에이전트적 접근 방식이 이러한 실패를 쉽게 해결하지 못하며, 여전히 VSTAT에서 부족한 성능을 보인다.
지난 수십 년 동안 기계 학습 알고리즘 설계에서 상당한 진전이 있었으며, 초기 연구인 작업별 얕은 모델에서 더 일반적인 심층 대규모 언어 모델(LLM)로 발전해 왔다. 이러한 모델들은 즉각적인 예측이나 맥락 내 학습이 필요한 작업에서 유망한 결과를 보여주지만, 기존 모델들은 지속적으로 학습하고 시간적 맥락 내 지식을 장기 매개변수로 효과적으로 전이하는 능력이 부족하다. 인간의 학습 과정에서 영감을 받아, 우리는 모델이 지속적으로 학습하고, 재생을 통해 단기적인 취약한 기억을 안정적인 장기 지식으로 증류하며, '꿈꾸기' 과정을 통해 재귀적으로 자기 개선할 수 있는 '수면' 패러다임을 소개한다. 더 자세히 설명하면, 수면은 두 단계로 구성된다: (1) 기억 통합: 지식 시딩이라고 불리는 상향 증류 과정으로, 더 작은 자아의 기억을 더 큰 네트워크로 증류하여 지식을 보존하면서 더 많은 용량을 제공한다. 개념 증명으로, 우리는 지식 시딩을 위한 새로운 일반화된 증류 과정을 제시한다 (즉, 정책 기반 증류와 강화 학습 기반 모방 학습의 결합). (2) 꿈꾸기: 자기 개선 단계로, 모델이 강화 학습을 사용하여 합성 데이터의 커리큘럼을 생성함으로써 인간의 감독 없이 새로운 지식을 연습하고 기존 능력을 개선한다. 장기적 과제, 지속적 학습, 지식 통합, 그리고 퓨샷 일반화 작업에 대한 우리의 실험은 수면 단계의 중요성을 뒷받침한다.
자율주행 차량의 기능이 발전함에 따라, 롱테일 시나리오에서 주행 정책의 안전한 평가는 여전히 중요한 병목 지점으로 남아 있습니다. 폐쇄 루프 시뮬레이션에서 주행 정책 모델은 환경과 능동적으로 상호작용하며, 해당 모델의 행동은 시뮬레이터 상태를 동적으로 업데이트하고 다음에 생성되는 센서 관측값 집합에 직접적인 영향을 미칩니다. 최근의 재구성 기반 신경 시뮬레이터는 포토리얼리즘을 제공하지만, 근본적으로 초기에 캡처된 데이터에 의해 제약을 받으며 고도로 동적이거나 새로운 장면으로 일반화하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해 우리는 OmniDreams를 소개합니다. 이는 Cosmos 확산 모델을 중간 및 사후 학습하여 행동 조건화된 비디오를 실시간으로 자기회귀적으로 생성하는 기반 생성 세계 모델입니다. Cosmos의 풍부한 시각적 사전 지식과 21,000시간의 주행 시나리오에 대한 중간 및 사후 학습을 활용함으로써, OmniDreams는 극한 기상 조건 및 예측 불가능한 동적 에이전트 행동과 같이 기존 시뮬레이터가 포착하기 어려운 복잡하고 관찰되지 않은 현상을 합성합니다. 중요한 점은, 이 모델이 과거 프레임, 현재 시뮬레이터 상태, 그리고 즉각적인 주행 행동에 기반하여 사실적인 센서 생성을 자기회귀적으로 조건화한다는 것입니다. OmniDreams는 Alpamayo 1 정책 모델 및 AlpaSim 오케스트레이터와 함께 폐쇄 루프 시스템에 배포되어 고도의 응답성과 반응성을 갖춘 환경으로서 작동하며, 차세대 자율주행 정책을 훈련하고 평가하기 위한 확장 가능하고 포괄적인 솔루션을 제공합니다. 또한, OmniDreams로부터 사후 학습된 세계-행동 모델(WAM)이 Physical AI 자율주행 NuRec 데이터셋에서 VLA 기반 Alpamayo 1.5 연구 정책 모델을 능가하는 강력한 성능을 달성하면서도 총 파라미터 수는 1/5에 불과하다는 예비 결과를 추가로 제시합니다. 이러한 결과는 OmniDreams와 같은 실시간 세계 모델이 정책 아키텍처의 백본으로도 활용될 수 있는 잠재력을 강조합니다.
최신 생성 모델은 시각적 콘텐츠에 대한 깊은 이해를 갖추고 있지만, 이를 이미지 편집에 활용하기 위해 훈련하려면 일반적으로 방대한 양의 쌍을 이룬 예시 데이터셋이 필요하다. 이는 특히 쌍 데이터 수집이 엄청난 비용을 초래하는 비디오 편집에서 확장성을 제한한다. 본 논문에서는 흐름 매칭 기반 편집 모델의 비쌍 훈련을 위한 일반 프레임워크인 Bootstrap Your Generator (ByG)를 제안한다. 이 프레임워크는 외부 신호 없이 기반 모델의 지식을 활용한다. 우리의 접근 방식은 고정된 모델에서 추출한 명령 수행 단서를 구조 보존을 위한 순환 일관성과 결합한다. 이 과정을 실현 가능하게 만들기 위해, 하류 손실에서 발생한 그래디언트를 깨끗한 예측을 거쳐 노이즈가 포함된 훈련 상태로 라우팅하는 방법을 제안한다. 우리는 데이터가 부족한 까다로운 이미지 및 비디오 편집 시나리오에서 최고 수준의 결과를 입증한다. 광범위한 평가와 사용자 연구 결과, 우리 방법이 보지 못한 도메인에 효과적으로 일반화되며, 수백만 개의 샘플로 훈련된 지도 학습 기준선보다 우수한 성능을 나타냄을 보여준다. 분석 결과, 그래디언트 라우팅이 훈련-추론 격차를 해소하고, 기반 모델에서 의미적 단서를 추출하는 것이 외부 보상 모델의 필요성을 없애는 강력한 훈련 신호를 제공함을 확인하였다.
우리는 통합적이고 데이터 효율적인 이미지-이미지(I2I) 변환을 위해 분리된 잔차 잡음 제거 확산 모델(DRDD)을 제안한다. 확산 모델이 품질과 다양성 측면에서 I2I 변환을 발전시켰지만, 우리는 확산 모델에서 이전에 충분히 탐구되지 않은 특성을 발견했다. 중요한 점은, 가우시안 잡음 주입이 기존의 다양체 리프팅(즉, 데이터를 저차원 다양체에서 벗어나게 하는 것) 역할을 넘어, 도메인 간 특징 분포를 암묵적으로 정렬함으로써 도메인 조화를 촉진한다는 것이다. 이 특성은 특히 통합 I2I 변환에 유리하다. 그러나 기존 확산 모델은 잡음과 잔차가 단일 결합 확산 과정에서 동시에 제거되기 때문에 이러한 조화 효과를 조기에 상실시킨다. 이 문제를 해결하기 위해, DRDD는 확산 과정을 두 개의 순차적이고 독립적인 확산 단계로 분리한다: (1) 도메인 조화 및 다양체 리프팅을 위한 확률적 잡음 확산, (2) 고정된 잡음 도메인 내에서 핵심 의미 매핑을 완전히 학습하는 결정적 잡음 확산. 이러한 분리는 변환 전반에 걸쳐 조화 및 다양체 리프팅 효과를 유지하여, 다양한 작업과 도메인에 걸친 통합 매핑 학습을 크게 단순화한다. 특히, 잡음 확산 단계는 풍부하고 짝이 없는 대상 도메인 이미지에 대해서만 학습되므로 데이터 효율성이 크게 향상된다. 포괄적인 이론 및 실험 분석은 DRDD가 주류 확산 모델과 광범위하게 호환되며, 제한된 짝지어진 데이터에서도 강력하고 통합된 I2I 변환을 일관되게 제공함을 보여준다. 코드는 https://github.com/HKU-HealthAI/DRDD에서 확인할 수 있다.
개인화는 현대 언어 에이전트의 핵심 기능이다. 그러나 현재 연구는 주로 개인화된 에이전트를 사용자의 선호도에 수동적으로 반응하는 존재로 규정하여, 사용자와 상호작용하고 능동적으로 제안이나 지침을 제공하는 능력을 제한하고 있다. 이러한 능동적 개인화를 실제 상호작용에서 체계적으로 평가하기 위해, 우리는 Ψ-Bench를 제안한다. 이는 대화를 통해 LLM이 실제 사용자에게 영향을 미치는 능력을 평가하는 벤치마크이다. Ψ-Bench에는 설득을 포함하는 세 가지 실제 상호작용 시나리오를 설계하였으며, 대화 이력에서 추출한 명시적 사용자 프로필을 통해 시뮬레이션된 클라이언트에 개인적 특성을 부여하였다. 우리는 10개의 최첨단 LLM을 Ψ-Bench에서 평가한 결과, 대부분의 모델이 일관성 있고 합리적인 논증을 생성할 수 있지만, 최고 수준의 모델조차도 설득 측면에서 상당한 개선 여지가 남아 있음을 발견하였다. 또한, 클라이언트 프로필에 접근할 수 있는 경우 평균 성능이 18.24% 향상되어, 효과적인 설득을 위한 사용자 특이적 정보의 중요성이 강조되었다. 전반적으로, 본 연구는 개인정보에 민감한 영향력 행사를 더욱 능동적인 개인화된 LLM 에이전트를 평가하고 개발하기 위한 도전적이면서도 실용적인 방향으로 제시한다. 코드는 다음에서 확인할 수 있다: https://github.com/Hanpx20/Psi-Bench.
테스트 시간 스케일링은 대규모 언어 모델의 추론 성능을 향상시키지만, 전체 계산량과 지연 시간 모두에서 상당한 비용을 발생시킨다. 기존의 적응형 샘플링 방법은 샘플링 중단 시점을 동적으로 결정하여 이 문제를 부분적으로 완화하지만, 일반적으로 휴리스틱 규칙이나 분포 가정에 의존한다. 본 연구에서는 적응형 샘플링을 마르코프 결정 과정(MDP)으로 정식화한다. 강화 학습(RL)을 통해 가벼운 샘플링 컨트롤러를 훈련시켜 정답 정확성, 지연 시간 및 계산 비용을 동시에 균형 있게 조정한다. 각 라운드에서 컨트롤러는 샘플링을 중단할지 아니면 추가 샘플을 획득할지 결정한다. 제안하는 방법은 최종 답변의 통계에만 의존하는 가벼운 방식으로, CPU에서 훈련 및 배포가 가능하다. 또한 결과 프레임워크가 명시적 예산 제약이 있는 제약 최적화 문제의 라그랑주 완화로 해석될 수 있음을 보인다. ASC 및 ESC와 같은 강력한 기준선과의 실험을 통해 제안하는 방법이 정답 정확성, 샘플링 라운드 및 필요한 총 샘플 수 간의 개선된 트레이드오프를 달성함을 보여준다.
A-Evolve, GEPA, Meta-Harness와 같은 자동 하네스 시스템은 실행 피드백으로부터 프롬프트, 스킬, 도구, 메모리 및 지원 인프라를 최적화하여 LLM 에이전트를 개선하지만, 일반적으로 고정된 오프라인 벤치마크에서 평가됩니다. 그러나 실제 배포에서는 개방형 작업 스트림이 제시됩니다. 즉, 히스토리는 고정된 종점 없이 증가하고, 이질적인 작업은 서로 다른 하네스를 필요로 하며, 문제 분포는 시간에 따라 변화합니다. 이러한 과제로 인해 반복적이고 조밀하게 업데이트되는 단일 하네스는 취약해져서 정확도가 일찍 최고점에 도달한 후 감소하는 성능 저하를 초래합니다. 이는 작업별 적응을 통한 지속적인 하네스 구축의 동기를 부여합니다. 우리는 이러한 스트림을 위한 프레임워크이자 시스템인 Adaptive Auto-Harness를 소개합니다. 이 프레임워크는 오라클 하네스와의 차이를 진화 손실과 적응 손실로 분해합니다. 시스템은 상태 저장 다중 에이전트 진화기, 해결 시간 라우팅을 포함한 하네스 트리, 그리고 히스토리에 필요한 신호가 부족한 경우를 위한 인간 개입 훅을 통해 이러한 손실을 해결합니다. 예측 시장, 보안 경쟁 및 이벤트 예측 스트림에서 Adaptive Auto-Harness는 다섯 가지 기존 자동 하네스 베이스라인보다 우수한 성능을 보였으며, 절제 연구를 통해 그 이점이 더 나은 구축, 라우팅 또는 표적 인간 개입에 기인함을 확인했습니다. 코드는 https://github.com/A-EVO-Lab/AdaptiveHarness에서 확인할 수 있습니다.
저희는 PaddleOCR-VL-1.5를 기반으로 업그레이드된 소형 문서 파싱 모델인 PaddleOCR-VL-1.6을 소개합니다. PaddleOCR-VL-1.5는 0.9B 규모의 강력한 기준선을 확립했지만, 남아 있는 오류는 모델 동작이 불안정하고, 데이터 커버리지가 부족하거나, 감독 신호의 신뢰성이 낮은 최적화가 덜 된 영역에 집중되어 있습니다. PaddleOCR-VL-1.6은 학습 코퍼스를 무분별하게 확장하는 대신, 이전 모델에서 취약 영역을 식별하고, 해당 영역에 대해 맞춤형 개선을 적용하며, 감독 신호의 신뢰성을 향상시키는 지역 인식 데이터 최적화 프레임워크를 도입합니다. 또한, 선별된 데이터 선택과 강화 학습에 기반한 점진적 사후 훈련 방식을 채택하여, 단계적 최적화를 통해 모델 성능을 더 높은 수준으로 끌어올립니다. PaddleOCR-VL-1.6은 OmniDocBench v1.6에서 96.33%의 새로운 최첨단 점수를 달성했으며, 최상위 VLM(비전-언어 모델)과의 경쟁에서 강력한 경쟁력을 입증하고, PaddleOCR-VL 시리즈를 위한 실용적인 사후 훈련 방법을 제공합니다.
지시 튜닝은 멀티모달 모델을 포함한 대규모 언어 모델을 다양한 사용자 의도에 맞게 정렬하지만, 이질적 혼합 데이터로의 확장은 그래디언트 간섭과 대역폭이 많이 소모되는 동기화로 인해 제약을 받는다. 본 연구에서는 혼합 데이터의 일부를 독립적으로 학습하고 파라미터 공간에서 한 번만 조정함으로써 이 두 병목 현상을 동시에 해결할 수 있는지 묻는다. 공유된 평평한 분지 내에서 국소 이차 이론을 전개하여 세 가지 결과를 도출한다: 가중치 병합은 곡률 가중 분산 감소를 생성하고, PCA 정렬 충돌 분할은 곡률이 큰 방향을 따라 이 이득을 최대화하며, 병합은 추가로 암묵적 노름 정규화를 수반하는 스펙트럼 필터링으로 작용한다. 이러한 결과는 MERIT(분산형 병합 준비 지시 튜닝 파이프라인)을 직접적으로 동기 부여하며, 이 파이프라인은 데이터셋 수준의 그래디언트 충돌을 추정하고, 상위 PCA 충돌 축을 따라 혼합 데이터를 분할하며, 각 파티션을 파티션 간 통신 없이 독립적으로 미세 조정한 후 토큰 가중 평균을 통해 한 번 병합한다. 136개의 Vision-FLAN 작업을 사용한 Qwen2.5-VL-3B 실험에서 MERIT은 8개 벤치마크 평균을 54.3(공동 학습)에서 57.0으로 향상시켰다. 동일한 방법은 160만 개 예제와 176개 출처로 구성된 혼합 데이터에 7B 모델로 확장되어, 최소한의 비용 오버헤드로 중앙 집중식 공동 학습과 일치하거나 능가하며, 텍스트 전용 FLAN으로도 전이된다. 코드는 https://github.com/naver-ai/merit에서 확인할 수 있다.
내재된 시각적 내비게이션(Embodied Visual Navigation)은 에이전트가 복잡한 환경을 인지하고 원시 감각 입력으로부터 목표에 도달하기 위해 행동하는 기술로, 가정용 서비스 로봇, 보조 로봇, 대규모 자율 탐사 등 다양한 응용 분야의 기반을 이룬다. 그러나 최근 시각-언어 내비게이션(VLN)과 객체 목표 내비게이션(ObjNav)을 통합하려는 시도들은 아키텍처 융합, 혼합 작업 훈련, 대규모 시각-언어 사전 훈련 수준에 머물러 있으며, 독립적으로 훈련된 시각 및 언어 인코더가 이미 공통의 의미 구조를 공유하고 있을 가능성은 검토하지 않았다. 더욱이 객체 중심 위상 지도(Object-centric Topological Map)조차 CLIP이나 대규모 시각-언어 모델과 같은 명시적 교차 양식 감독(Cross-modal Supervision)을 통해 언어 목표를 기반화(Grounding)하고 있어, 순수 시각 기반 지도만으로 그러한 기반화가 가능한지에 대한 질문은 여전히 열려 있다. 이러한 문제들을 해결하기 위해, 우리는 플라톤적 표상 가설(Platonic Representation Hypothesis)을 내재적 내비게이션으로 확장하고, 시각 전용 ObjNav, 교차 양식 ObjNav, VLN을 동일한 객체 중심 의미 다양체(Object-centric Semantic Manifold)에 대한 세 가지 다른 인터페이스로 재정의한다. 또한, 우리는 훈련이 필요 없는 프레임워크인 PlatonicNav를 소개한다. PlatonicNav의 플라톤적 위상 지도(Platonic Topological Map)는 자기 지도 시각 인코더(Self-supervised Visual Encoder)로부터 기하학적 및 의미적 노드 거리를 융합하며, 짝지어진 시각-언어 데이터 없이 블라인드 매칭(Blind Matching)을 통해 언어 목표를 기반화한다. HM3D-IIN, OVON, MP3D 기반 R2R-CE를 포함한 시뮬레이션 벤치마크와 Unitree Go2 로봇에의 실제 배치를 통한 광범위한 실험 결과는, PlatonicNav가 명시적 교차 양식 훈련 없이도 작업, 양식, 및 구현체(Embodiment) 전반에 걸쳐 일반화됨을 입증한다. 코드: https://github.com/AIGeeksGroup/PlatonicNav. 웹사이트: https://aigeeksgroup.github.io/PlatonicNav.
긴 사고 사슬(CoT) 흔적은 추론 중심 LLM SFT를 위한 지도 학습 데이터로 널리 사용되지만, 정답 흔적이라 할지라도 미세 조정 결과에 현저한 차이를 초래할 수 있다. 본 연구에서는 정답인 긴 CoT 데이터에서 결론 이후의 연속(Post-conclusion continuation)을 분석한다. 이는 정답이 충분히 뒷받침된 후에도 흔적이 계속되어 추가적인 추론이 지도 대상에 포함되는 현상이다. 그 훈련 효과를 시험하기 위해, 삭제 전용 편집기를 사용하여 정답을 유지하는 접미사 제거를 구성하고, 원본 흔적과 처리된 흔적에 대해 CoT 기반 SFT를 비교한다. 편집기가 식별한 결론 이후의 연속을 제거한 후 SFT 결과가 개선됨을 관찰하였으며, 이는 본 설정에서 해당 연속이 훈련에 해롭다는 것을 시사한다. 따라서 본 연구에서는 이 경험적으로 뒷받침된 현상을 유해한 연속(Harmful continuation)이라고 명명한다. 이 개입 외에도, 제거된 결론 이후의 연속을 불확실성과 은닉 상태 진행 측면에서 추가로 특성화한다. 지속적인 국소적 불확실성과 약화된 종단 방향 진행이 관찰되며, 이는 불확실성-기하학적 불일치(Uncertainty–geometry mismatch)를 형성한다. 마지막으로, 편집기가 식별한 결론 이후의 연속 경계를 근사화하는 경량 경계 대리자(Boundary proxy)인 유해한 연속 절단(HCC)을 구현한다.
온-정책 증류(OPD)는 더 강력한 교사 모델로부터의 밀집된 토큰 수준 피드백 하에 학생 모델을 자체 생성 궤적에 대해 훈련시킴으로써, 지도 미세 조정(SFT)의 오프-정책 분포 이동과 강화 학습(RL)의 희소한 신용 할당 문제를 모두 완화한다. 그러나 표준 OPD는 두 가지 결합된 한계에 직면한다. 첫째, 교사 모델의 토큰 수준 로짓에 직접 접근해야 하므로, 다양한 강력한 독점 모델을 교사로 활용할 수 없다. 둘째, 토큰 수준 로짓 신호 자체가 깨지기 쉬워 교사와 학생 간의 제한된 다음 토큰 중복에 의존하며, 반복 루프와 같은 변칙적 패턴을 증폭시키기 쉽다. 본 논문에서는 로짓이 필요 없고 청크 수준의 감독 신호를 통해 두 가지 한계를 모두 해결하는 새로운 프레임워크인 OmniOPD를 소개한다. OmniOPD는 결정론적 로짓 매칭을 다중 토큰 청크에 대한 연속적인 의미 유사성 지표를 통해 교사 모델의 지역적 선호도를 근사하는 몬테카를로 롤아웃으로 대체하며, 피크-엔트로피 스케줄러를 통해 학생 모델의 높은 불확실성 추론 분기점에서만 집중적으로 감독을 수행한다. 디리클레-다항 베이즈 사전 분포와 기본 모델 KL 앵커는 이산 샘플링의 분산을 추가로 제한하고 감독되지 않은 토큰에서의 정책 붕괴를 방지한다. 경쟁력 있는 벤치마크 전반에 걸쳐, OmniOPD는 수학 분야에서 표준 OPD 접근법 대비 최대 +28.64%의 성능 향상을 보이며, 청크 수준의 의미 검증이 토큰 수준 로짓 매칭보다 더 신뢰할 수 있는 학습 신호를 추출함을 확인시켜 준다. 토큰 수준 로짓 매칭은 높은 정보 밀도에도 불구하고 상당한 잡음과 취약성으로 인해 그 장점이 상쇄된다. 더 나아가, Claude-4.5-Haiku 및 Gemini-2.5-Flash와 같은 더 강력한 블랙박스 교사 모델과 결합될 경우, OmniOPD는 오픈 웨이트 교사 모델 대비 수학 분야에서 상대적으로 추가 +9.54%의 성능 향상을 달성하며, 학생 모델을 자기 탐색 강화 학습의 성능을 넘어서도록 발전시킨다.
기존의 음악 유사도 모델은 일반적으로 단일의 통합 점수를 계산하여 멜로디, 리듬, 음색과 같은 서로 다른 음악적 차원을 얽히게 한다. 이는 사용자 제어와 해석 가능성을 제한하여 세밀한 질의를 수행할 수 없게 만든다. 본 논문에서는 이러한 세 가지 핵심 차원에 특화된 분리된 요인별 음악 표현을 학습하기 위한 프레임워크인 MERIT을 소개한다. 실제 오디오에서 고립된 음악적 변형이 부족하다는 문제를 극복하기 위해, 조건부 오디오 생성과 소스 분리 스템을 활용하여 훈련 데이터에서 단일 요인 변형을 강력히 유도하는 새로운 훈련 전략을 사용한다. 평가 결과 강력한 요인별 분리 성능을 확인했다. 각 헤드는 의도된 지각 차원에 강하게 반응하는 반면, 다른 차원에 대해서는 거의 우연 수준에 머물렀으며, 이러한 표현 속성은 합성 훈련 도메인과 독립적인 실제 오디오 모두에서 일관되게 나타났다.
추론 모델은 긴 사고 체인을 통해 정확도를 향상시키지만, 긴 출력은 메모리 및 연산 병목 현상을 초래한다. KV 캐시 제거(eviction) 방법은 캐시에서 중요하지 않은 키-값 쌍을 제거함으로써 이러한 비용을 줄이지만, 전체 KV 캐시를 유지하는 선택 기반 희소 어텐션 대안보다 종종 더 낮은 정확도를 보인다. 본 연구는 KV 캐시 제거 정확도에 중요한 핵심 요소를 식별한다. 첫째, 소수 값 상태의 크기가 비정상적으로 큰 경우가 있으며, 이를 제거하면 모델이 반복적 추론 루프에 빠지는 치명적 실패가 발생한다. 둘째, 제거 과정에 확률성을 도입하면 캐시 다양성을 증가시켜 정확도를 향상시킨다. 이러한 발견을 바탕으로, 본 연구는 큰 크기의 값 상태를 보호하고 다양한 제거 결정을 촉진하는 학습 없는 방법인 값 인식 확률적 KV 캐시 제거(VaSE)를 제안한다. 여섯 가지 추론 과제에서, 동일한 희소성 수준에서 최첨단 선택 방법보다 4배 KV 캐시 압축을 사용한 Qwen3 모델이 VaSE를 통해 더 높은 평균 정확도를 달성하였으며, 가장 강력한 제거 방법보다 4% 이상 뛰어난 성능을 보였다. 전반적으로 VaSE는 효율성과 정확도 간의 격차를 해소하며, FlashAttention2를 지원하고 추론 모델에 대한 고정 메모리 사용량을 가능하게 한다.
유한 요소 해석(FEA)은 고체 역학 분야에서 가장 중요한 수치적 접근법이다. FEA의 도전 과제로는 초보 사용자에게 가파른 학습 곡선이 요구되며, 경계 조건, 하중 조건, 해석 변수 등 주요 해석 구성 요소의 잘못된 정의로 인해 잘못된 시뮬레이션이 발생할 가능성이 있다는 점이 있다. 실제 문제 해결에는 일반적으로 수년간의 공학 경험이 필요하다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLM)을 기반으로 한 다중 에이전트 프레임워크인 AbaqusAgent를 제안한다. AbaqusAgent는 가장 널리 사용되는 FEA 패키지 중 하나인 Abaqus를 활용하여 해석 사례 생성 및 실행을 지원하며, 사용자의 자연어 명령을 실행 가능한 FEA 해석 및 결과 시각화로 변환하도록 개발되었다. AbaqusAgent는 인터프리터, 설계자, 입력 작성기, 실행기, 검토자, 시각화 에이전트 등 6개의 에이전트로 구성되며, 표준 FEA 해석의 모든 필수 전처리 및 후처리 단계를 포괄한다. 다양한 고체 역학 문제 50개를 성공적으로 검증하였으며, 전체 성공률 86%를 달성하였다. AbaqusAgent는 고체 역학 문제에 대한 FEA 효율성을 개선하고 전산 역학 교육의 진입 장벽을 낮출 뿐만 아니라, 인간-시뮬레이션 상호작용 패러다임을 발전시키고 AI 기반 최적화 및 재료 특성화 워크플로우와의 통합을 가능하게 한다. 코드는 https://github.com/LIRAM-LIN/AbaqusAgent에서 확인할 수 있다.
대규모 언어 모델은 범용 능력에서 놀라운 진전을 보여주었으며, 도메인 특화 데이터에 대한 미세 조정을 통해 특정 분야에서도 강력한 성능을 달성할 수 있다. 그러나 대상 도메인에 대한 고품질 데이터를 확보하는 것은 여전히 중요한 과제로 남아 있다. 기존의 데이터 합성 접근법은 연역적 패러다임을 따르며, 자연어로 표현된 명시적인 도메인 설명과 세심한 프롬프트 엔지니어링에 크게 의존하기 때문에, 도메인을 설명하거나 공식적으로 기술하기 어려운 실제 시나리오에서의 적용 가능성이 제한된다. 본 연구에서는 귀납적 패러다임을 통해 덜 탐구된 도메인 특화 데이터 합성 문제를 다룬다. 이 패러다임에서는 대상 도메인이 오직 참조 예제 집합으로만 정의되며, 특히 도메인 특성을 자연어로 표현하기 어려운 경우에 해당한다. 우리는 DOMINO라는 새로운 프레임워크를 제안한다. 이는 참조 샘플로부터 최소 충분 도메인 표현을 학습하고, 이를 활용하여 도메인에 부합하는 합성 데이터 생성을 안내한다. DOMINO는 프롬프트 튜닝과 대비적 분리 목표를 통합하여 도메인 수준의 패턴을 샘플 특이적 노이즈와 분리함으로써, 핵심 도메인 특성을 보존하면서 과적합을 완화한다. 이론적으로, DOMINO가 합성 데이터 분포의 지지 집합을 확장하여 더 큰 다양성을 보장함을 증명한다. 실증적으로, 도메인 정의가 암시적인 도전적인 코딩 벤치마크에서, DOMINO로 합성된 데이터로 미세 조정한 결과, 강력한 명령어 튜닝된 백본 대비 Pass@1 정확도가 최대 4.63% 향상되어 그 효과성과 견고성을 입증한다. 이 연구는 도메인 특화 데이터 합성을 위한 새로운 패러다임을 확립하여, 수동 프롬프트 설계나 자연어 도메인 사양 없이도 실용적이고 확장 가능한 도메인 적응을 가능하게 한다.
계산 사회과학의 핵심 목표 중 하나는 정치적 성향이나 교육의 질과 같은 관심 결과에 따라 언어가 어떻게 달라지는지에 대한 해석 가능한 차이를 발견하는 것이다. 최근의 LLM 기반 가설 생성 방법은 이러한 차이를 자연어로 기술하지만, 연구자의 도메인 지식에 기반하여 데이터를 형성하는 공변량을 고려하지 않은 채 전역적으로 판별적인 패턴만을 선택한다. 공변량을 무시할 경우, 선택된 패턴은 실질적 관심사의 차이가 아닌 혼동 요인을 반영할 수 있다. 우리는 연구자가 지정한 공변량을 통합하여 가설 발견을 관련 하위 집단 내에서 성립하는 차이로 유도하는 조건부 가설 생성 프레임워크를 소개한다. 이 과정에서 두 가지 과제가 발생한다. 즉, 목표 하위 집단이 과소 대표될 수 있고(층 불균형), 차이의 방향이 하위 집단 간에 역전될 수 있다(부호 역전). 우리는 두 가지 계량경제학에서 영감을 얻은 방법을 제안한다. 하나는 특징-공변량 상호작용을 도입하여 부호 역전을 탐지하는 방법이고, 다른 하나는 층 내 평균 제거와 역빈도 재가중을 적용하여 과소 대표된 층을 균등화하는 방법이다. 합성 실험은 각 방법이 의도된 환경에서 전역 기준선보다 더 나은 성능을 보임을 입증하며, 두 실제 데이터셋에 대한 전문가 평가는 공변량을 인식한 생성이 관련 하위 집단 내에서 더 유용한 가설을 도출함을 확인한다.
소프트 경계(예: 머리카락 및 디포커스 블러)를 정확하게 모델링하는 것은 전경과 배경의 모호한 혼합으로 인해 스테레오 변환에서 근본적인 과제이다. 기존의 깊이 모델은 주로 단일 레이어 깊이를 예측하여 소프트 경계에서 깊이 대응에 모호함을 초래한다. 매팅 기법은 계층적 모델링을 위해 불투명도를 포착할 수 있지만, 여러 대상이 있는 복잡한 장면에서 종종 어려움을 겪으며 일반적으로 사용자 개입이 필요하다. 본 논문은 고충실도 스테레오 변환을 위해 소프트 경계를 분해하는 계층적 표현인 αDepth를 소개한다. 구체적으로, 먼저 소프트 경계에서 계층적 색상 및 깊이 값을 추정하여 혼합된 색상 및 깊이 모호성을 해결한다. 복잡한 다중 대상 장면을 고려하여, 전역 대상 추출에서 국소 경계 분해로 패러다임을 전환하는 원형 알파 표현(CAR)을 설계한다. 단일 전경/배경으로 제한된 기존 매팅 방법과 달리, CAR은 수동 안내 없이 효율적인 장면 수준 추론을 가능하게 한다. 광범위한 평가를 통해 αDepth가 스테레오 변환에서 최첨단 성능을 달성하며, 소프트 경계에서 배경 번짐 및 구조적 왜곡을 제거함을 입증한다.
실시간 비전은 정확하고 효율적이며 다양한 하드웨어에 간편하게 배포할 수 있는 모델을 요구한다. 이러한 이유로 YOLO 계열은 널리 사용되어 왔으나, 대부분의 YOLO 탐지기는 여전히 추론 시 비최대 억제(NMS)에 의존하고, 분포 초점 손실(DFL)로 인해 무거운 탐지 헤드를 가지며, 긴 훈련 일정이 필요하고, 가장 작은 객체에 양성 레이블 할당이 이루어지지 않는 문제가 있다. 본 논문에서는 이러한 한계를 해결하기 위해 조정된 아키텍처 및 훈련 개선 사항을 통합한 실시간 비전 모델 제품군인 Ultralytics YOLO26을 제시한다. YOLO26은 이중 헤드 설계를 통해 기본적으로 NMS 없는 종단간 추론이 가능하며, DFL을 완전히 제거하여 제약 없는 회귀 범위를 갖는 더 가벼운 헤드를 구현한다. 훈련 파이프라인은 대규모 언어 모델 훈련에서 차용한 하이브리드 Muon-SGD 최적화기인 MuSGD, 추론 시 헤드를 향해 감독을 전환하는 점진적 손실(Progressive Loss), 그리고 소형 객체에 대해 양성 커버리지를 보장하는 레이블 할당 전략인 STAL을 결합한다. 탐지 외에도 YOLO26은 인스턴스 분할, 자세 추정, 방향 탐지를 위한 작업별 헤드 및 손실 설계를 도입하여 다양한 작업과 규모에서 일관된 성능 향상을 이끈다. 이 제품군은 5가지 규모(n/s/m/l/x)로 구성되며, 탐지, 인스턴스 분할, 자세 추정, 분류 및 방향 탐지를 단일 파이프라인으로 지원하고, 텍스트, 시각적 정보, 프롬프트 없이 추론이 가능한 개방형 어휘 확장 버전인 YOLOE-26도 포함한다. 모든 규모에서 YOLO26은 COCO에서 40.9-57.5 mAP를 달성하며, T4 TensorRT 지연 시간 1.7-11.8ms로 기존 실시간 탐지기 대비 정확도-지연 시간 파레토 프론트를 발전시켰다. 또한 YOLOE-26x는 텍스트 프롬프팅 방식으로 LVIS minival에서 40.6 AP를 달성한다. 코드와 모델은 https://github.com/ultralytics/ultralytics에서 확인할 수 있다.
에이전트 스킬은 재사용 가능한 지침, 도구, 스크립트, 참조 및 워크플로우를 통해 AI 에이전트를 확장하며, 모델 안전성과 전통적인 패키지 악성코드 탐지 모두와 구별되는 보안 경계를 설정한다. ClawHub Security Signals는 67,453개의 최신 공개 OpenClaw 스킬 버전으로 구성된 정제된 데이터셋이다. 각 행은 편집된 SKILL.md 내용과 함께 제공되는 정제된 번들 파일을 최종 ClawScan 레지스트리 판정 및 VirusTotal, 정적 휴리스틱 분석, NVIDIA SkillSpector의 세 가지 스캐너 패밀리로부터의 증거와 짝지은 것이다. 악성 스킬의 유행을 추정하기보다, 우리는 스캐너 간 불일치를 연구한다. 세 스캐너는 동일한 스킬을 거의 플래그 지정하지 않으며, 임의의 두 스캐너가 공유하는 양성은 전체 양성 합계의 최대 10.4%에 불과하고, 모든 세 스캐너에 의해 플래그 지정된 스킬은 0.69%에 불과하며, 플래그 지정된 스킬의 81.9%는 단일 스캐너에 의해 식별된다. 이러한 불일치는 공격 표면에 따라 구조화되어 있다. 악성코드 평판 신호가 아닌 의미론적 에이전트 위험 권고를 제기하는 SkillSpector는 의심스러운 행 25,504개 중 19,209개(75.3%)에서 양성이나 악성 행 206개 중 14개(6.8%)에서만 양성을 나타낸다. 악성 판정 영역은 역프로필을 보여준다: 악성 행 206개 중 150개(72.8%)가 VirusTotal 양성이며, 이는 번들 코드 악성코드 증거와 일치한다. 이러한 결과는 에이전트 스킬 보안이 단일 스캐너의 허용/차단 결정이 아닌 계층적 거버넌스를 필요로 함을 보여준다. 해당 코퍼스는 정제된 실버 스탠다드 데이터셋으로 공개된다: 레이블은 인간 주석 기반 정답이 아닌 레지스트리의 자동 판정이며, 이 공개는 인간이 주석을 단 하위 집합이 개발되는 동안 커뮤니티를 지원하기 위한 초기 버전별 스냅샷을 나타낸다. 스킬 보안 분류에 특화된 모델을 포함한 추가 연구가 권장된다.
KV-cache는 데이터센터에 적합한 메모리이지만, 로봇에는 부적합한 메모리이다. 데이터센터 추론은 여러 개의 짧은 요청을 배치 처리하고 이를 초기화함으로써 어텐션 캐시를 다수의 요청에 분산시킨다. 반면, 임베디드 에이전트는 대역폭이 제한된 엣지 하드웨어에서 재설정 없이 하나의 긴 에피소드를 실행하며, 고대역폭 메모리와 플래시가 부족하고, 플래시의 쓰기 내구성에 제한이 있으며, 연산보다는 메모리 쓰기가 병목 제약 조건이 될 수 있다. AURA-Mem(Action-Utility Recurrent Adaptive Memory)은 이러한 환경을 대상으로 한다. 이는 고정된 시각-언어-행동 백본을 상수 크기의 순환 메모리와 학습된 게이트로 감싸며, 이 게이트는 현재 관측이 다음 행동을 변경할 때만 쓰기를 수행한다. 즉, 침묵할 시점을 아는 메모리이다. 재구성 기반 메모리와 달리, 이 게이트는 폐쇄 루프 행동 오류 신호에 대해 직접 학습된다. 추론 상태는 지평선 길이에 관계없이 4,224바이트로 고정되는 반면, KV-cache는 100,000 단계에서 6,061배 더 커진다. 통제된 합성 벤치마크에서 AURA-Mem은 최고의 O(1) 기준 모델과 동등한 정확도를 유지하면서도 쓰기 횟수를 5.19~6.13배 줄였으며, 더 쉬운 구성에서는 최대 9.19배까지 감소시켰다. 예산이 일치된 무작위 및 주기적 스케줄은 이러한 이득을 회복하지 못했으며, 이는 행동-놀라움 신호의 이점을 입증한다. LIBERO-Long에서 훈련된 폐쇄 루프 OpenVLA-OFT 7B 패널(팔당 60개 에피소드, n=60)에서 게이트는 성공률에 해를 끼치지 않았다. AURA-Mem은 게이트가 없는 기본 정책(0.233)과 일치하고, 항상 쓰기를 수행하는 KV 팔(0.217)을 약간 상회하면서도 쓰기 횟수를 7.0배 줄이고 일정한 메모리를 유지한다. 또한 방법론 시연으로 근사 정보 상태 가치 손실 상한을 구현하였으며, 이 규모에서 해당 상한은 보장이라기보다는 무효한 값이다.
산업용 시각적 sim-to-real은 종종 합성 이미지에서 실제 이미지로의 전이로 설명되지만, 실제 산업 배포는 일반적으로 가용한 증거와 필요한 결정 사이의 더 광범위한 불일치를 수반한다. 시스템은 CAD 렌더링, 시뮬레이션된 RGB-D 관측, 정상 참조 이미지, 합성 결함, 사전 훈련된 특징 공간 또는 언어 프롬프트로 구축될 수 있지만, 다른 센서, 조명, 재료, 고정 장치, 캘리브레이션, 생산 변동 및 드문 결함 모드 하에서 배포된다. 본 리뷰는 산업용 시각적 sim-to-real을 사전 가용성에 따라 구성된 도메인 갭 문제로 재구성한다. 우리는 명시적 객체 형상이 렌더링, 캘리브레이션, 자세 추정, 분할 및 테스트 시 기하학적 검증을 지원할 수 있는 CAD 가용 설정, 형상이 정상 참조 외관, 특징 분포, 교사-학생 잔차, 합성 이상 가정, 기반 특징 또는 시각-언어 사전으로 대체되는 CAD 비가용 설정, 그리고 근사 모델, 템플릿, 참조 뷰 또는 의미적 대응이 CAD 역할의 일부만 보존하는 경계 사전 설정을 구분한다. 이 프레임워크는 보통 별도로 리뷰되는 CAD 기반 검출 및 6D 자세 추정 문헌과 산업 이상 및 표면 검사 문헌을 연결한다. 분류 체계를 구체화하기 위해 T-LESS/BOP, MVTec AD 및 VisA에 대한 경험적 기준점을 사용한다. 기준점들은 CAD 렌더링 수만으로는 전이가 완료되지 않으며, 소스 분포 설계, 검출기 용량 및 소량의 실제 캘리브레이션이 더 중요할 수 있음을 보여준다. 또한 CAD가 테스트 시 마스크, 자세 및 깊이 일관성을 통해 별도의 검증 채널을 생성하는 반면, CAD 비가용 검사는 캘리브레이션된 정상성과 특징 편차에 의존함을 보여준다. 따라서 본 리뷰는 단일 교차 작업 리더보드에 반대하며, 대신 어떤 사전 정보가 배포 결정의 근거가 되는지 질문한다.
3D 재구성을 위한 피드포워드 모델은 이미지 간 정보 교환을 위해 심층 교차 뷰 어텐션(deep cross-view attention)을 사용하여 강력한 성능을 달성해 왔다. 그러나 이러한 접근 방식은 종종 무거운 디코더 스택에 의존하고 기하학적 정제를 위한 구조화된 메커니즘이 부족하여 다중 뷰 일관성이 낮다는 문제가 있다. 본 연구는 이러한 문제를 고전적 번들 조정(bundle adjustment, BA)에서 영감을 받아 해결한다. BA는 자세(pose)와 국소 기하학 간의 반복적 정보 전파 과정으로 볼 수 있다. BA에서 착안하여, 우리는 BA 스타일의 구조화된 업데이트를 암시적 토큰 공간에서 반복 가능한 레이어로 구현하는 반복 변환기(iterative Transformer)인 BA-T를 제안한다. BA-T는 깊은 어텐션 스택에 의존하는 대신, 단일 경량 레이어를 통해 잠재 잔차(latent residual)를 기반으로 예측을 정제한다. 실험 결과, BA-T는 반복을 통해 자세 및 재구성 정확도를 점진적으로 향상시키고, 기존 디코더보다 강력한 교차 뷰 일관성을 달성하며, 디코더 파라미터의 16%만을 사용하면서도 훨씬 더 큰 모델과 동등하거나 이를 능가하는 성능을 보여준다. BA-T는 깊이 중심의 어텐션에 대한 간결하고 효율적이며 구조화된 대안을 제공하여, 경량 아키텍처 내에서 정확한 3D 재구성을 가능하게 한다. 코드는 https://github.com/zhangganlin/BA-T에서 공개될 예정이다.
LLM 활성화에 대해 훈련된 선형 프로브는 점점 더 기만 탐지 지표로 제안되고 있지만, 깨끗한 벤치마크에서 0.96을 초과하는 AUROC를 보고하는 반면 분포 변화 하에서는 붕괴된다. 본 논문은 Gemma 3 모델군(1B-27B 파라미터)에서 프로브 기반 지표를 체계적으로 압력 테스트하여, 단순히 실패한다는 사실을 기록하는 대신 그 이유를 진단한다. 우리는 기만 인코딩에 관한 네 가지 가설을 검증한다: (1) 단일 선형 방향, (2) 다차원 부분공간, (3) 볼록 원뿔 껍질, (4) 엔트로피 프록시. 실험 설계에는 교차 도메인 전이 행렬, 순열 귀무 기준을 사용한 다차원 프로브 분석, 엔트로피 잔차화 테스트, 8가지 문체 변화에 걸친 방해 요소 평가가 포함된다. 주요 발견은 다음과 같다: (a) 프로브는 깨끗한 데이터에서 거의 완벽한 AUROC(>=0.998)를 달성하지만 문체 변화 하에서는 붕괴된다; 문체 보강 프로브는 보지 못한 문체에서 거의 완벽한 탐지(평균 AUROC 0.979-0.983)를 회복한다; (b) 단일 방향 가설은 기각된다(k=1은 AUROC 0.61-0.80만 포착), 교차 도메인 전이 실패는 기하학적 원인에 기인하며 계층 불일치에 의한 것이 아님을 확인한다; (c) 엔트로피 프록시 가설은 기각된다(최대 |rho|=0.454, 잔차화 후 최대 Delta-AUROC=0.004); (d) 기만은 유의미한 선형 부분공간을 형성하지 않지만(도메인별 k*=0), 다차원 프로브(k>=5)는 분산된 하한계 특징을 통해 신호를 회복한다. 프로브의 취약성은 구조적 한계보다는 분포적 협소성을 반영한다: 문체 보강 프로브는 4B와 27B 모두에서 거의 완벽한 탐지를 회복하며, 역스케일링 패턴이 실제 규모 의존 현상이 아니라 훈련 분포 인공물임을 입증한다.
최근 다중 모달 거대 언어 모델은 강력한 추론 능력을 입증했지만, 자동 평가자로서의 신뢰성은 여전히 중요한 약점에 의해 제한된다. 시각적 증거가 텍스트 신호와 충돌할 때, MLLM 평가자는 지각적으로 올바른 답변보다 그럴듯한 내러티브에 더 높은 점수를 부여하는 경향이 있다. 우리는 이러한 현상을 확인하고 체계적으로 분석하며, 이를 지각 판단 편향(Perceptual Judgment Bias)이라고 명명한다. 통제된 시각적 교란을 통해, 기존의 다중 모달 평가자는 자신의 시각적 지각 대신 응답 텍스트에 고정되는 경우가 빈번하며, 이로 인해 일관되지 않고 검증 불가능한 평가가 초래된다. 이 문제를 해결하기 위해, 우리는 지각적으로 교란된 판단 데이터셋(Perceptually Perturbed Judgment Dataset)을 도입한다. 이 데이터셋은 지각 오류를 분리하고 검증 가능한 감독을 가능하게 하는 최소 편집된 반사실적 응답을 구성한다. 이 데이터셋을 바탕으로, 구조화된 GRPO 기반 보상과 배치 순위 매기기 목표를 결합한 통합 훈련 프레임워크를 개발하여 명시적인 쌍별 레이블 없이도 전역적 순서를 일관되게 도출한다. 다양한 MLLM-as-a-Judge 벤치마크에 걸친 실험은 우리의 접근 방식이 지각 충실도, 순위 일관성, 인간 평가와의 일관성을 크게 향상시킴을 보여준다. 우리의 결과는 지각적으로 근거하며, 해석 가능하고, 시각-추론 충돌에 강건한 다중 모달 평가자를 훈련하기 위한 확장 가능하고 일반화 가능한 경로를 확립한다.
WALL-WM은 청크 중심 최적화에서 이벤트 기반 Vision-Language-Action 사전 학습으로 비디오-행동 학습을 전환하는 World Action Model로, 의미적으로 일관된 행동 이벤트를 학습의 원자 단위로 사용합니다. 기존 WAM은 일반적으로 멀티모달 또는 비디오 기반 모델로 초기화한 후, 현재 관찰과 명령에 직접 조건화된 고정 길이 행동 청크를 최적화합니다. 편리하지만, 이러한 청크 중심 정식화는 근본적인 세분성 불일치를 만듭니다. 언어는 의미적 목표와 이벤트를 설명하고, 비전은 연속적인 장면 역학을 통해 진화하며, 행동은 제어 수준 시간 척도로 작동합니다. 이 세 가지를 모두 동일한 고정 길이 예측 창에 강제하면 VLA 훈련이 단기 상관 관계 피팅으로 전환됩니다. WALL-WM은 감독과 데이터를 모두 의미적 이벤트 중심으로 구성함으로써 이러한 불일치를 해결합니다. 구체적으로, 이벤트 수준 캡션과 클러스터 균형 샘플링으로 구축된 데이터 생태계와 이벤트 기반 VLA 사전 학습을 결합하여 다양한 행동, 장면 및 작업 구조에 걸쳐 확장 가능한 학습을 가능하게 합니다. 동일한 이벤트 사전 학습된 백본에서 WALL-WM은 두 가지 상호 보완적인 추론 모드를 지원합니다. 이벤트 모드는 다음 이벤트 설명을 소비하고 가변 길이 실행 청크를 가능하게 하며, 통합 모드는 Staircase Decoding을 사용하는 VLM을 활용하여 기존의 고정 길이 청크 추론을 조건화하면서 그래디언트 연속 VLA 경로를 유지합니다. Muon 최적화 기반 대규모 사전 학습 인프라와 함께, WALL-WM은 범용 WAM을 위한 실용적인 확장 레시피를 제공합니다. 실험 결과, WALL-WM은 언어, 장면 및 작업 전반에 걸쳐 광범위하게 일반화되며, 대규모 실제 세계 일반화 평가에서 최첨단 성능을 달성함을 보여줍니다.