번역이 포함된 일일 선별된 AI 연구 논문
저장소 수준의 코딩 벤치마크(예: SWE-bench)는 코딩 에이전트의 능력을 급속도로 향상시키는 데 기여해 왔다. 그러나 이러한 벤치마크는 일반적으로 코딩 과제를 전체론적이고 이분법적인 예측 문제(예: 해결 여부)로 취급하며, 저장소 이해, 맥락 검색, 코드 위치 파악, 버그 진단과 같은 세분화된 에이전트 능력을 간과한다. 본 논문에서는 코딩 에이전트의 핵심 역량인 저장소 탐색을 분리하여 평가하는 벤치마크인 SWE-Explore를 소개한다. SWE-Explore는 저장소와 이슈가 주어졌을 때, 탐색자(explorer)가 고정된 라인 예산 하에서 관련 코드 영역의 순위 목록을 반환하도록 요구한다. SWE-Explore는 10개의 프로그래밍 언어와 203개의 오픈소스 저장소에 걸쳐 848개의 이슈를 포함한다. 각 인스턴스에 대해, 동일한 이슈를 성공적으로 해결한 독립적인 에이전트 궤적들로부터 라인 수준의 정답 데이터를 도출하며, 이들이 실제로 참조한 특정 코드 영역을 추출한다. 탐색 성능을 적용 범위, 순위, 맥락 효율성 차원에서 평가하며, 이러한 지표가 하위 수정 행동과 강하게 연관됨을 보여준다. 다양한 검색 방법, 일반 코딩 에이전트, 특화된 위치 파악 도구 전반에 걸쳐, 에이전트 기반 탐색자가 고전적 검색 방법보다 명확히 우수한 계층을 형성함을 발견했다. 파일 수준 위치 파악은 현대적 방법에서 이미 강력하지만, 라인 수준 적용 범위와 효율적인 순위가 최첨단 탐색자를 구별짓는 핵심 축으로 남아 있다.
최근 AI 시스템은 다양한 벤치마크에서 뛰어난 성과를 거두었지만, 이러한 성과가 많은 전문 분야에서 경제적으로 의미 있는 배포로 이어지지는 않았다. 우리는 이러한 격차가 주로 평가 문제, 즉 널리 사용되는 벤치마크가 실제적이고 경제적 가치가 있는 워크플로에 대한 지속적 성능 측정을 제공하지 못하기 때문이라고 주장한다. 본 논문에서는 장기적이고 경제적 가치가 있으며 검증 가능한 결과를 요구하는 실제 업무에 대해 AI 에이전트를 평가하기 위한 벤치마크인 Agents' Last Exam (ALE)을 소개한다. 250명 이상의 업계 전문가와 협력하여 개발된 ALE는 O*NET/SOC 2018(미국 연방 직업 분류 체계)을 기준으로 정의된 비물리적 산업을 다룬다. 55개 하위 분야가 13개 산업 클러스터로 그룹화된 작업 분류 체계를 중심으로 구성되며 1,000개 이상의 작업을 포함한다. 현재 결과에 따르면 가장 어려운 계층은 여전히 포화 상태와 거리가 멀다: 주류 하네스 및 백본 구성에서 평균 전체 통과율은 2.6%이다. ALE는 살아있는 벤치마크로 설계되어, 새로운 워크플로와 산업이 추가됨에 따라 작업 풀이 지속적으로 확장된다. 더 넓게 보면, ALE는 단순한 리더보드가 아니라 벤치마크 성공과 GDP 관련 영향 간의 격차를 해소하기 위한 도구로 의도되었다.
온-정책 증류(On-policy distillation, OPD)는 대규모 언어 모델의 추론 능력을 향상시키기 위해 점점 더 많이 사용되고 있지만, 그 훈련 동역학은 아직 충분히 이해되지 않았다. 우리는 매개변수 공간에서 OPD 업데이트의 궤적을 특성화하고, 이를 지도 미세 조정(SFT) 및 검증 가능한 보상을 사용한 강화 학습(RLVR)과 비교한다. 일련의 매개변수 공간 진단 결과는 OPD를 일관되게 완화된 비주성분 영역(relaxed off-principal regime)에 위치시킨다. 즉, SFT와 비교할 때 OPD의 업데이트는 더 적은 가중치에 영향을 미치고 주성분 방향을 더 강하게 회피하는 반면, RLVR과 비교할 때는 덜 엄격하게 제약된다. 이러한 정적 국소화 외에도 OPD는 부분공간 잠금(subspace locking) 현상을 보인다. 즉, 누적 업데이트가 훈련 초기에 빠르게 좁은 저차원 채널로 진입한다. 훈련 초기에 형성된 업데이트 부분공간으로 훈련을 제한하면 OPD 성능은 유지되지만 SFT 성능은 크게 저하되는데, 이는 잠긴 부분공간이 OPD에 기능적으로 충분함을 시사한다. 제어 실험에서는 업데이트 토큰을 희소화하거나 롤아웃 생성을 오프-정책(off-policy)으로 전환해도 랭크 동역학이 유지되는 반면, OPD 목적 함수를 RLVR과 혼합하면 동역학이 변화하는 것으로 나타났다. 전반적으로 이러한 결과는 OPD가 단순히 SFT와 RLVR 사이의 중간 지점이 아니라 매개변수 공간에서 고유한 업데이트 기하학을 유도함을 시사한다.
에이전트 시스템은 재사용 가능한 작업 절차를 인코딩하기 위해 점차 텍스트 스킬을 활용하고 있지만, 매 단계마다 이러한 스킬을 프롬프트에 주입하면 상당한 컨텍스트 오버헤드가 발생하고 스킬 내용이 평문으로 노출된다. 본 논문에서는 사전 훈련된 하이퍼네트워크를 통해 텍스트 스킬을 플러그 앤 플레이 LoRA 어댑터로 변환하는 프레임워크인 LatentSkill을 제안한다. LatentSkill은 스킬 지식을 컨텍스트 공간이 아닌 가중치 공간에 저장하여, 모듈식 로딩, 스케일링, 구성을 유지하면서 단계별 스킬 토큰을 제거한다. ALFWorld 및 Search-QA에서 LatentSkill은 해당 인컨텍스트 스킬 기준선을 능가하면서도 프리필 토큰을 훨씬 적게 사용한다. ALFWorld의 경우, 64.1% 더 적은 프리필 토큰으로 알려진 분할 및 알려지지 않은 분할에서 성공률을 각각 21.4포인트 및 13.4포인트 향상시켰으며, Search-QA에서는 72.2% 낮은 스킬 토큰 오버헤드로 정확 일치 점수를 3.0포인트 향상시켰다. 추가 분석 결과, 생성된 스킬 LoRA는 구조화된 의미 기하학을 형성하며, LoRA 스케일링 계수를 통해 정밀하게 제어할 수 있고, 스킬 구성 요소가 정렬될 때 매개변수 공간 산술을 통해 구성할 수 있음을 보여준다. 이러한 발견은 가중치 공간 스킬이 LLM 에이전트를 확장하기 위한 효율적이고 모듈식이며 덜 노출된 기반을 제공함을 시사한다.
생성된 프레임 간 3D 공간 일관성을 유지하는 비디오 세계 모델은 일반적으로 RGB 공간에서 구성된 명시적 포인트 클라우드 메모리에 의존한다. 이러한 설계는 반복적인 렌더링과 VAE 인코딩을 필요로 하여 계산적으로 비용이 많이 들 뿐만 아니라, 픽셀 공간을 통한 순환 과정에서 학습된 잠재 표현의 풍부한 특징이 소실되어 본질적으로 손실이 발생한다. 본 논문에서는 비디오 세계 모델을 위한 잠재 공간 메모리(latent spatial memory)를 소개한다. 이는 확산 잠재 공간에서 장면 정보를 직접 저장하는 영구적 3D 캐시로, 픽셀 공간 재구성을 피한다. 이를 바탕으로 우리는 Mirage를 제안한다. Mirage는 잠재 토큰을 깊이 유도 역투영(depth-guided back-projection)을 통해 3D로 변환하여 메모리를 구축하고, 직접적인 잠재 공간 와핑(latent-space warping)을 통해 새로운 시점을 합성함으로써 메모리를 질의하는 잠재 공간 기반 3D 메모리 프레임워크이다. 이 통합된 공식은 픽셀 공간 재구성의 정보 손실과 반복적인 인코딩 및 렌더링의 계산 부담을 동시에 제거한다. 실험 결과, 잠재 공간 메모리는 명시적 3D 기준선 대비 종단 간 비디오 생성 속도에서 최대 10.57배 향상, 메모리 사용량에서 55배 감소를 달성한다. 확산 모델의 기하학적 사전 지식을 활용하여 Mirage는 WorldScore에서 최첨단 성능을 달성하고 RealEstate10K에서 강력한 재구성 품질을 보여준다.
최근 텍스트 기반 비디오 편집 모델은 기본적인 작업(예: 스타일 전환, 객체 삽입)에서 뛰어난 성능을 보이지만, 실제 사용자 요청은 매우 구성적이다. 단일 프롬프트는 종종 주제, 동작, 카메라 시점 수정과 같은 여러 결합된 편집을 요구하며, 관련 없는 시공간 콘텐츠는 엄격히 보존해야 한다. 기존 벤치마크는 고립된 편집과 거친 전역 지표에 크게 제약되어, 모델이 이러한 복잡한 워크플로를 어떻게 처리하는지 진단하지 못한다. 이러한 격차를 해소하기 위해, 우리는 416개의 엄선된 원본 비디오, 626개의 다중 지점 편집 지침, 9,990개의 세분화된 체크리스트 항목으로 구성된 구성적 비디오 편집 벤치마크인 CoVEBench를 소개한다. 다양한 편집 차원을 포괄하는 CoVEBench는 MLLM이 판단하는 지침 준수 및 비디오 충실도와 함께 비디오 품질에 대한 자동화된 지표를 통해 모델을 평가한다. 광범위한 실험 결과, 구성적 편집은 여전히 심각한 과제로 남아 있다: 현재 모델은 여러 작업을 동시에 처리할 때 편집을 자주 생략하거나 보존 제약을 위반하거나 인공물을 발생시킨다. CoVEBench는 비디오 편집을 현실적인 사용자 워크플로로 발전시키기 위한 도전적이고 진단적인 테스트베드를 제공한다.
기존 LLM은 디코딩 중에 전체 KV 캐시를 메모리에 유지하므로, 초장문 컨텍스트 서비스에 심각한 GPU 메모리 병목 현상을 초래한다. 본 보고서에서는 DeepSeek-V4 아키텍처를 기반으로 구축된 신경 메모리 인덱서(Neural Memory Indexer)를 활용한 새로운 추론 패러다임인 사전 탐색 희소 어텐션(Lookahead Sparse Attention, LSA)을 제안한다. LSA는 모든 과거 토큰에 수동적으로 어텐션을 수행하는 대신, 미래 컨텍스트 요구를 사전에 예측하여 쿼리에 중요한 KV 청크만 GPU 메모리에 유지한다. 핵심적으로, 우리는 백본 없는 분리 훈련 전략(backbone-free decoupled training strategy)을 통해 이 아키텍처를 구현한다. 인덱서를 표준 이중 인코더 아키텍처로 구성하고, 방대한 백본 모델을 GPU 메모리에 로드하지 않은 상태에서 표준 검색 훈련 프레임워크를 사용하여 독립적으로 훈련시킨다. 이러한 "적을수록 더 많다" 패러다임이 서빙 효율성을 크게 극대화할 뿐만 아니라, 장기 전역 메모리에 의존하는 과제에서 효과적인 어텐션 노이즈 제거기(attention denoiser)로 작용함을 입증한다. 주요 장문 컨텍스트 평가 제품군(예: LongBench-v2, LongMemEval, RULER)에서 FM-DS-V4는 물리적 KV 캐시 풋프린트를 전체 컨텍스트 기준선의 평균 13.5%로 압축하면서도, 다운스트림 정확도를 일관되게 유지하거나 소폭 향상시킨다(평균 +0.6% 절대 차이). 특히 극단적인 500K 규모에서 FlashMemory는 물리적 KV 캐시 오버헤드를 90% 이상 억제하면서 백본의 핵심 추론 능력을 안정적으로 유지한다.
공간 추론은 멀티모달 대규모 언어 모델(MLLM)이 물리적 세계를 인지하고 작동하기 위한 기초적인 능력이다. 그러나 기존 벤치마크는 주로 수동 평가(예: 정적 VQA)나 시뮬레이터별 파이프라인에 의존하여, 일반적인 상호작용적 공간 이해를 평가하는 데 한계가 있다. 본 논문에서는 복잡한 실제 세계 과제에서 멀티모달 에이전트의 상호작용적 공간 이해를 평가하기 위해 특별히 설계된 통합 벤치마크인 SpatialWorld를 소개한다. SpatialWorld는 시뮬레이터에 구애받지 않는 공유 프로토콜 하에 여덟 가지 이질적인 시뮬레이션 백엔드를 통합하며, 다양한 도메인(예: 가정 내 일상, 여행, 사회적 협력)에 걸쳐 760개의 사람이 주석을 단 과제를 특징으로 한다. 에이전트는 시각 정보만으로 부분 관측이 가능한 환경에서 과제를 해결해야 하며, 능동적으로 자기 중심적 시각 증거를 수집하고, MLLM에 특화된 통합 텍스트 기반 행동 인터페이스를 통해 결정을 표현해야 한다. 신뢰할 수 있는 평가를 위해 각 과제는 사람이 검증한 초기 상태, 참조 궤적, 그리고 종료 상태 검증기를 포함한다. 15개의 첨단 에이전트를 평가한 결과, 강력한 공간 과제 해결은 여전히 어려운 과제임이 드러났다: 가장 강력한 모델인 GPT-5의 평균 과제 성공률(TSR)은 17.4%에 불과했으며, 선도적인 오픈소스 모델인 Qwen-3.5는 14.1%에 도달했다. 추가 분석은 과제 성공과 실행 효율성 간의 명확한 불일치와 함께 상당한 도메인별 성능 차이를 드러낸다. 능동적 탐색과 장기 계획에서의 이러한 병목 현상은 SpatialWorld를 미래 공간 에이전트를 위한 엄격한 테스트베드로 자리매김하게 한다.
우리는 인간 심리측정 설문지가 일상적인 사용자 상호작용에서 LLM 행동을 특성화하고 예측하는 신뢰할 수 있는 도구로 기능할 수 있는지 조사한다. 두 가지 다른 방법, 즉 기존 설문지(PVQ-40/21 및 BFI-44/10)에 대한 리커트 자기보고와 일상적인 사용자 질의에 대한 가치 함축적 응답의 생성 확률을 통해 도출된 가치 및 성격 프로필을 비교하여 8개의 오픈소스 LLM을 분석한다. 두 프로필은 상당히 차이가 난다. 안정적인 LLM 성향의 증거로 자주 인용되는 구성 내 항목 일관성은 생성 확률에서 사라진다. 이러한 격차는 기존 설문지 항목의 명시적 어휘 단서가 모델로 하여금 대상 구성을 인식하고 일관성 있고 사회적으로 바람직한 방식으로 응답하도록 유도하는 반면, 현실적인 사용자 질의는 그러한 단서를 제공하지 않는다는 사실에 기인한다. 또한, 인구통계학적 페르소나 프롬프트는 실제 인간 패턴과 일치하는 방식으로 인간 설문지에 대한 모델의 응답을 변화시키지만, 현실적인 사용자 질의에 대한 응답의 생성 확률에서는 그러한 변화가 나타나지 않아, 목표 인구통계의 행동을 실제 사용자 상호작용에서 시뮬레이션하는 능력이 제한적임을 보여준다. 전반적으로, 본 연구는 인간 심리측정 설문지가 LLM 행동을 예측하기에 불충분한 도구임을 보여주며, 생성 기반 프로파일링이 더 정확한 측정 방법임을 제안한다.
우리는 행동 조건화 세계 모델에서의 기억 메커니즘에 대한 통제 연구인 Echo-Memory를 제시한다. 이 모델들은 첫 번째 프레임, 텍스트 프롬프트, 카메라 동작 시퀀스로부터 다중 구간 비디오를 생성하지만, 주된 실패는 국소 이미지 합성보다는 종종 기억에 있다: 카메라가 벗어났다가 돌아온 후, 장면이나 현저한 객체가 조용히 변할 수 있다. 기존의 기억 설계는 이득이 백본, 학습, 검색, 평가의 차이와 얽혀 있어 비교가 어렵다. Echo-Memory는 동작-비디오 인터페이스를 고정하고, 생성기가 기록을 저장하고 읽는 방식만을 변화시킨다. 공유된 비디오 확산 백본, 최적화기, 카메라 동작 표현, 샘플러, 평가 파이프라인 하에서, 우리는 원시 문맥, 압축 기반 기억, 다양한 읽기 경로를 가진 공간 요약, 상태 공간 순환을 비교한다. 이 일치 행렬은 달리 혼동되는 네 가지 축, 즉 용량, 압축, 읽기 경로, 순환을 분리한다. 또한 우리는 세 가지 가지 프로토콜, 즉 재생 품질, 도메인 내 루프 재방문, 개방 도메인 복귀 탐침을 통해 기억을 평가한다. 이 가지들은 종종 일치하지 않으며, 이는 재생 충실도가 세계를 기억하는 충분한 대리 지표가 아님을 보여준다. 세 가지 결과가 도출된다. 원시 문맥은 강력한 용량 기준선이며, 재생 지표를 개선하는 것보다 개방 도메인 복귀를 훨씬 더 크게 개선한다. 컴팩트함은 용량의 무료 대체물이 아니다: 과도한 공간 및 하이브리드 압축 기억은 복귀에 필요한 현저한 증거를 상실한다. 마지막으로, 블록 단위 상태 공간 순환은 우리 행렬에서 가장 강력한 개방 도메인 복귀 메커니즘으로, 암묵적 기억의 구조가 이를 사용하기로 한 결정만큼 중요함을 보여준다. 이러한 결과들은 고립된 재생 지표를 넘어 행동 세계 모델에서 기억을 연구하기 위한 간결한 프로토콜을 제공한다.
긴 컨텍스트 언어 모델 추론은 KV 캐시가 컨텍스트 길이에 따라 증가함에 따라 메모리에 의해 병목 현상이 발생한다. 최근 KV 캐시를 압축하는 기술들은 한계가 있다: 모델 품질을 상당히 저하시키거나, 단일 긴 프롬프트를 압축하는 데 상당한 시간과 연산을 필요로 한다. 또한, 많은 방법들은 입력이 대상 모델의 컨텍스트 윈도우 내에 들어맞아야 하며, 현대적 프로덕션 추론 엔진과 일반적으로 호환되지 않는다. 긴 토큰 시퀀스를 디코더가 소비하는 더 짧은 잠재 임베딩 시퀀스로 매핑하는 인코더-디코더 압축기는 원칙적으로 매력적인 대안이다. 그러나 기존 접근 방식은 정확성-효율성 측면에서 KV 캐시 압축에 경쟁력이 없다. 본 연구에서는 인코더-디코더 압축을 재검토하여 이러한 격차를 해소한다. 먼저 아키텍처 탐색을 수행하여, 인코더-디코더 압축기를 최적으로 설계하고 훈련하는 방법을 결정하기 위해 많은 변형을 처음부터 사전 훈련한다. 발견된 내용을 바탕으로, 1:4, 1:8, 1:16의 압축 비율에서 각각 3500억 개 이상의 토큰에 대해 0.6B 인코더, 4B 디코더 모델군을 지속적으로 사전 훈련한다. 본 연구는 Latent Context Language Models (LCLMs), 즉 일반 작업 성능, 압축 속도, 최대 메모리 사용량에 걸쳐 파레토 프론티어를 개선하는 압축기군을 소개한다. LCLM이 장기 에이전트를 위한 효율적인 백본 역할을 하여, 에이전트가 압축된 긴 컨텍스트를 훑어보고 필요에 따라 관련 세그먼트를 적응적으로 확장할 수 있음을 입증한다.
시각-언어 모델(VLM) 에이전트가 대화형 게임 환경에 점점 더 많이 배치되고 있다. 하지만 VLM 에이전트를 위한 게임 벤치마크는 일반적으로 (에이전트, 게임) 쌍당 단일 첫 시도 점수만 보고하고, 단일 에이전트 솔로 플레이에 초점을 맞추며, 이질적인 에이전트 클래스(상용 VLM, 오픈 가중치 VLM, 특수 게임 정책)를 동일한 기준에서 평가하기 위한 통일된 프로토콜이 부족하다. 우리는 이러한 격차를 해소하기 위해 OmniGameArena(통합 행동 인터페이스를 갖춘 솔로 7개, PvP 3개, 협동 2개로 구성된 12개의 새로 구축된 Unreal Engine 5 게임의 실시간 벤치마크)와 IDC(개선 역동성 곡선)를 제안한다. IDC는 도구를 사용하는 반영(reflector) LLM이 제한된 스킬 프롬프트를 여러 라운드에 걸쳐 자율적으로 개선하는 에이전트적 반성(agentic-reflection) 하네스이다. 콜드 스타트 리더보드 점수 외에도, IDC는 각 (에이전트, 게임) 쌍에 대해 두 가지 추가 관측 가능 변수를 노출한다: 반성 라운드에 걸쳐 점수가 어떻게 진화하는지, 학습된 스킬이 보류된 과제 변형에서 어떻게 동작하는지. 우리는 콜드 스타트 리더보드에서 12개의 VLM 에이전트와 IDC 하에서의 4개의 최상위 에이전트에 대한 이러한 관측 가능 변수를 보고한다.
선형 활성화 스티어링은 언어 모델의 행동을 제어하는 간단하면서 경험적으로 효과적인 방법으로 인기를 얻었다. 보다 최근에는 덧셈적 개입의 한계를 해결하기 위해 구면 스티어링 패러다임이 제안되었으며, 이는 종종 은닉 상태의 노름이 개념 관련 정보를 전달하지 않는다는 가정에 기반한다. 본 연구에서는 각도 성분과 반경 성분의 역할을 분리하도록 설계된 통제된 경험적 연구를 통해 이 가정을 재검토한다. 우리는 스티어링 방법들이 주로 두 가지 기하학적 효과, 즉 토큰의 개념 방향에 대한 각도 정렬 변경과 은닉 상태 노름 변경을 결합하는 방식에서 차이가 있음을 보여준다. 일곱 개의 언어 모델에 걸쳐, 우리는 개념이 주로 각도 구조에 표현되어 구면 방법의 동기를 지지하지만, 노름은 스티어링의 안정성과 하위 효과에 여전히 중요함을 발견한다. 우리의 결과는 유사한 개념 수준 효과를 가진 개입들이 왜 다르게 행동할 수 있는지 설명하며, 활성화 스티어링은 이 두 효과를 얽히게 하는 단일 덧셈 계수보다는 개입의 해석 가능한 각도 및 반경 성분으로 매개변수화되어야 함을 시사한다.
LLM 에이전트는 점점 더 프롬프트, 도구, 메모리, SOP, 스킬, 그리고 하네스 피드백과 같은 외부 추론 조건에 의존하고 있다. 이러한 자산들은 모델 가중치를 변경하지 않고도 작업 실행을 개선할 수 있지만, 경험적 성찰이나 관찰된 성공과 실패를 마치 단순 빈도만으로 신뢰할 수 있는 신념인 양 재사용함으로써 수정되는 경우가 많다. 본 논문에서는 재사용 가능한 스킬과 SOP를 특정 프롬프트, 컨텍스트 및 하네스 환경 하에서 고정된 모델이 성공할지 여부에 대한 가설로 취급하는 네이티브 및 크로스-하네스 프레임워크인 Bayesian-Agent를 소개한다. Bayesian-Agent는 검증된 궤적 증거를 기록하고, 각 스킬에 대한 특징 조건부 범주형 사후 분포를 유지하며, 사후 상태를 패치, 분할, 압축, 폐기, 탐색과 같은 검사 가능한 행동으로 매핑한다. 모델 대면 프롬프트는 실행 가능한 가드레일과 실패 모드 패치를 제공받는 반면, 사후 요약 정보는 감사 가능하도록 유지된다. DeepSeek-V4-Flash를 사용한 점진적 수정을 통해 SOP-Bench는 80%에서 95%로, Lifelong AgentBench는 90%에서 100%로, RealFin-Bench는 45%에서 65%로 성능이 향상되었다. 또한 Bayesian-Agent의 네이티브 백엔드와 선택적 GenericAgent, mini-swe-agent, Claude Code 백엔드를 평가한다. 실험 결과에는 긍정적, 부정적, 포화 및 사례 연구 설정이 포함되며, 이는 에이전트 스킬 진화가 보정되지 않은 프롬프트 축적이 아닌 사후 분포 기반 하네스 최적화로 보는 것이 가장 적절함을 시사한다. 소스 코드는 https://github.com/DataArcTech/Bayesian-Agent에서 확인할 수 있다.
실시간 라이브 스트리밍을 위한 비디오 복원(VR)은 엄격한 프레임당 지연 시간 제약 조건 하에서 고해상도 출력을 요구한다. 기존의 단일 단계 확산 기반 VR 모델은 두 가지 주요 병목, 즉 고해상도에서의 이차 공간 주의집중(quadratic spatial attention)과 대규모 비디오 오토인코더의 지연-메모리 오버헤드로 인해 소비자용 GPU에 배포하기 어려운 상태이다. 본 논문에서는 인과적 청크 단위 프로토콜(causal chunk-wise protocol) 하에서 두 병목을 모두 완화하는 스트리밍 단일 단계 생성형 VR 프레임워크인 SwiftVR을 제시한다. 주의집중(attention) 측면에서, 마스크 없는 이동 창 자기 주의집중(mask-free shifted-window self-attention)은 결정적 인덱싱을 통해 각 공간 창을 밀집 텐서(dense tensor)로 집계하여, 모든 주의집중 호출이 마스크, 순환 이동, 패딩 또는 하드웨어 특화 희소 커널 없이 밀집 스케일드 닷-프로덕트 어텐션(SDPA) 경로 상에서 이루어지도록 한다. SwiftVR은 표준 밀집 SDPA 호출만 사용하므로, 학습된 모델은 재학습이나 커스텀 커널 없이 소비자 GPU로 이전 가능하다. 오토인코딩 측면에서는 경량의 복원 인지 오토인코더(Restoration-aware Autoencoder)를 통해 재구성 품질을 유지하면서 빠른 청크 단위 디코딩을 가능하게 한다. 단일 H100에서 SwiftVR은 2560x1440 해상도에서 31FPS, 3840x2160에서 14FPS를 유지하는 반면, 비교된 모든 확산 기반 VR 기준 모델은 4K에서 메모리 한계를 초과한다. 소비자용 RTX 5090에서 SwiftVR은 1920x1080 해상도에서 26FPS에 도달한다. 본 연구진이 아는 한, SwiftVR은 소비자급 GPU에서 실시간 1080p 스트리밍을 달성한 최초의 생성형 VR 모델이며, 더 낮은 추론 비용으로 강력한 무참조 지각적 품질을 달성한다. 프로젝트는 https://h-oliday.github.io/SwiftVR에서 확인할 수 있다.
세계-행동 모델은 로봇 조작을 위한 유망한 패러다임으로 부상하여, 시각적 장면 동역학과 행동을 함께 모델링함으로써 정책 학습에 물리적 사전 지식을 주입한다. 그러나 기존의 세계-행동 모델은 동일한 시간 해상도로 세계 예측과 행동 실행을 결합하여, 세계 분기가 중복되고 정보량이 적은 단기 프레임 변동을 모델링하도록 강제한다. 본 연구는 세계 예측과 행동 실행을 동일한 시간적 리듬에 엄격히 구속하는 것이 체현 제어를 위한 비디오 분기의 잠재력을 충분히 활용하지 못할 수 있다고 주장한다. 따라서 우리는 이러한 시간적 비대칭성을 중심으로 세계-행동 모델링을 재구성하는 이중 확산 트랜스포머(Dual Diffusion Transformer, DiT) 아키텍처 기반의 AHA-WAM(Asynchronous Horizon-Adaptive World-Action Model)을 제안한다. AHA-WAM은 비디오 DiT를 저주파 세계 계획자(low-frequency world planner)로 구현하여, 과거 관측에 대한 순환 키-값 메모리를 유지하고 장기 장면 진화를 인코딩하는 재사용 가능한 계층별 잠재 컨텍스트를 노출시키는 동시에, 고주파 행동 DiT는 계층별 결합 주의(layerwise joint attention)를 통해 이 컨텍스트를 질의함으로써 폐쇄 루프로 짧은 행동 청크를 실행한다. 비동기 실행을 지원하기 위해, 우리는 수평선 적응 오프셋 훈련(horizon-adaptive offset training)과 관측 유도 비디오-컨텍스트 라우팅(Observation-Guided Video-Context Routing, OVCR)을 도입하여, 행동 전문가가 비디오 DiT를 재실행하지 않고도 장기 세계 컨텍스트를 활용하면서 실시간 실행 상태에 반응할 수 있도록 한다. RoboTwin 및 실제 조작 작업에 대한 실험 결과, AHA-WAM은 로봇 데이터 사전 학습 없이도 최첨단 성능을 달성하여 RoboTwin에서 평균 성공률 92.80%, 4가지 실제 작업에서 78.3%의 성공률을 기록했으며, 24.17Hz의 폐쇄 루프 제어를 통해 Fast-WAM 대비 4.59배의 속도 향상을 보였다.
Whisper는 널리 사용되는 ASR 모델로, 입력과 전혀 관련 없는 비음성 오디오에 대해 일관된 전사를 생성하는 환각 현상을 겪는 것으로 알려져 있다. 본 연구에서는 Whisper의 내부 표현을 통해 환각을 탐지하고 완화할 수 있는지 조사한다. 오디오 인코더 활성화를 추출하고 두 가지 표현 공간, 즉 원시 Whisper 활성화와 희소 오토인코더(SAE) 잠재 변수를 평가한다. 두 공간 모두 선형적으로 분리 가능한 환각 관련 정보를 인코딩하며, 판별 능력은 희소한 특징 부분집합에 집중되고 더 깊은 인코더 층으로 갈수록 증가함을 보여준다. 우리는 활성화 공간 조정과 SAE 잠재 공간 조정이라는 두 가지 조정 전략을 제안한다. SAE 기반 조정은 전체 비음성 테스트 세트에서 Whisper small의 환각률을 72.63%에서 14.11%로, Whisper large-v3의 경우 86.88%에서 27.33%로 감소시키며, 음성 데이터에 대한 WER 저하가 미미하여 파인튜닝 기반 방법에 근접하는 성능을 보인다.
본 논문에서는 DEI(진화적 추론에서의 다양성)를 제안한다. 이는 비동기 집합 연산으로 통신하는 피어 노드들에 걸쳐 이질적인 대규모 언어 모델(LLM)을 돌연변이 연산자로 할당하는 분산 품질-다양성(QD) 탐색 프레임워크이다. 단일 모델의 귀납적 편향을 모든 워커에 복제하는 동질적 병렬 탐색과 달리, DEI는 각 LLM의 고유한 창의적 사전(prior)을 행동적 참신성의 상호 보완적 원천으로 취급한다. DEI를 디지털 레드 퀸 프레임워크에 확장하여, 각 노드는 각 라운드 종료 시 국소 최적 해를 공유하고 이를 다음 라운드 집단의 시드로 사용한다. 이는 교차 모델 적대적 압력을 생성하여 모델 내 자기 대결(intra-model self-play)을 넘어서는 강건성을 이끌어낸다. 시뮬레이션된 기계 내에서 Redcode 워리어 프로그램이 대결하는 경쟁 프로그래밍 벤치마크인 Core War 도메인에서 평가한 결과, 4노드 이질적 앙상블(GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, Claude Haiku 4.5)은 동일한 총 LLM 호출 예산에서 단일 노드 기준선 대비 병합 아카이브 QD 점수(QD-Score)가 124% 더 높았으며(45.90 대 20.46), 커버리지는 28% 더 높았다(셀의 80.6% 대 63.0%). 이질적 앙상블은 동일 예산의 동질적 앙상블보다 QD 점수, 커버리지, 그리고 네 가지 모든 모델 계열에 걸친 보류 해법의 일반성에서도 우수한 성능을 보였다. 이러한 결과는 분산 LLM 기반 QD 탐색에서 병렬성만이 아닌 모델 다양성이 성능 향상의 핵심 동인임을 보여주는 최초의 실증적 증거를 제공한다.
보상 모델(RM)은 대규모 언어 모델(LLM)의 사후 훈련, 특히 강화 미세 조정(RFT) 및 강화 학습(RL) 파이프라인에서 중요한 피드백 신호를 제공합니다. 그러나 현재의 보상 평가는 규칙 기반 검증기, 실제 정답 참조, 절차 체크리스트, 복잡한 루브릭(rubric)과 같은 이질적인 기준에 의존하며, 모든 유형의 증거를 통합하는 일관된 메커니즘은 아직 탐구되지 않았습니다. 이를 해결하기 위해, 우리는 보상 모델링을 재사용 가능한 보상 평가 스킬(Reward-Evaluation Skill)의 실행으로 재정의하는 통합 프레임워크인 Skill-RM(Skill Reward Model)을 제안합니다. 보상 계산을 구조화된 에이전트 작업으로 처리함으로써, Skill-RM은 이질적인 자원을 조율하기 위한 일관된 인터페이스를 제공하며, 각 입력의 특정 요구사항에 맞춰 증거를 동적으로 선택하고 집계합니다. 이러한 접근 방식은 보상 모델이 정적 평가를 넘어서 다양한 작업에서 일관성과 투명성을 보장할 수 있게 합니다. 보상 벤치마크 및 최상의 N개 선택(best-of-N selection)과 강화 학습을 포함한 다운스트림 애플리케이션에 대한 광범위한 실험 결과, Skill-RM이 기존의 판단 기준(judge baseline)을 일관되게 능가함을 보여줍니다. 우리의 연구 결과는 Skill-RM이 보상 모델링을 위한 통합 솔루션을 제공할 뿐만 아니라 전략적이고 동적인 증거 조율을 통해 우수한 성능을 달성함을 시사합니다. 코드는 https://github.com/Qwen-Applications/Skill-RM에서 확인할 수 있습니다.
전방위 모달 대규모 언어 모델(OLLM)은 오디오와 시각적 스트림을 공동으로 처리하는 데 인상적인 능력을 입증했지만, 복잡하고 다면적인 사용자 명령을 엄격히 따르는 능력은 여전히 거의 탐구되지 않은 상태이다. 기존 벤치마크는 주로 전체적인 비디오 이해나 텍스트 전용 명령 수행에 초점을 맞추어, 모달과 사용자 제약 간의 복잡한 상호 작용을 포착하지 못한다. 이러한 격차를 해소하기 위해, 우리는 전방위 모달 캡셔닝에서 명령 수행 능력을 평가하도록 특별히 설계된 최초의 포괄적인 벤치마크인 OmniCap-IF를 도입한다. OmniCap-IF는 형식 정확성과 내용 정확성이라는 두 가지 차원에서 캡션을 평가하는 체계적인 프레임워크를 포함한다. 우리의 벤치마크는 순수 시각, 순수 오디오, 오디오-시각 모달에 걸쳐 50가지의 고유한 제약 유형을 포괄하며, 시공간적 정밀도를 평가하기 위해 시간적 접지를 통합한다. 주요 모델들을 1,920개의 고품질 샘플로 광범위하게 평가한 결과, 상당한 성능 격차가 드러났다. 또한, 우리의 분석은 중요한 "형식-내용 트레이드오프"를 발견하여, 형식 복잡성 증가가 모델의 전방위 모달 추론 능력을 직접적으로 저하시킨다는 것을 보여준다. 마지막으로, 이 분야를 발전시키기 위해 우리는 54K 규모의 명령 튜닝 데이터셋인 OmniCap-IF-54K를 구축하고 OmniCaptioner-IF를 제시하며, 이는 복잡한 명령 준수와 일반적인 전방위 모달 캡셔닝 성능 모두에서 눈에 띄는 개선을 달성한다.
뮤온(Muon)은 대규모 언어 모델 학습에서 아담(Adam)보다 학습 효율성을 약 2배 향상시키지만, 이러한 이점의 국소적 기하학적 원인은 아직 명확하지 않다. 본 연구는 곡률(curvature) 관점에서 뮤온이 아담보다 우수한 이유를 규명하기 위한 첫 걸음을 내딛는다. 먼저, 학습 풍경에 2차 테일러 근사를 적용하여, 검증 손실이 일치하는 조건에서 뮤온이 아담보다 더 큰 한 단계 손실 감소를 달성함을 보인다. 두 최적화 기법은 1차 이득(first-order gain)은 비슷하지만, 뮤온은 일관되게 더 작은 2차 곡률 페널티를 발생시킨다. 둘째, 이 곡률 페널티를 업데이트 노름의 제곱과 정규화 방향 예민도(NDS, Normalized Directional Sharpness)로 분해한다. 뮤온과 아담의 업데이트 노름은 비슷하므로, 뮤온의 더 작은 곡률 페널티는 업데이트 규모가 아닌 더 낮은 NDS에 의해 결정된다. 셋째, 학습 데이터와 모델 구조가 뮤온의 NDS 이점을 어떻게 형성하는지 연구한다. 제어된 불균형을 가진 Zipf-확률적 문맥자유문법(PCFG) 데이터를 사용하여, 데이터 불균형이 뮤온의 NDS 이점을 아담에 비해 증폭시킴을 보인다. 계층 내/계층 간 분해를 통해, 학습 중기 및 후기 단계에서 뮤온의 낮은 NDS가 주로 더 작은 계층 내 곡률에 의해 유지됨을 추가로 보인다. 실험적 증거 외에도, 이질적인 곡률과 고곡률 모드로의 기울기 정렬을 갖는 모범적인 이차 문제를 분석한다. 뮤온이 곡률 그룹 간 업데이트 에너지를 균형 있게 분배함으로써 경사 하강법(GD)보다 더 작은 평균 NDS를 달성함을 증명하며, 곡률 이질성이 충분히 강할 때 동일한 스텝 수 후에 더 낮은 국소 이차 손실을 산출함을 보인다.
심층 연구 에이전트는 복잡한 정보 탐색 작업에서 뛰어난 능력을 입증해 왔으나, 이러한 강력함은 상당한 계산 비용을 수반한다. 정확성 중심의 학습 패러다임에 의해 추진된 현재 모델들은 맹목적인 도구 의존성과 실연적 추론(performative reasoning), 즉 작업 해결에 불필요하게 긴 중복 궤적을 생성함으로써 낭비적인 도구 호출과 과도한 토큰 소비를 초래하는 무차별적 전략을 채택한다. 이러한 효율성 함정을 극복하기 위해, 본 논문에서는 지도 미세 조정(SFT)과 강화 학습(RL) 모두에서 정확성과 계산 비용 간의 파레토 최적 경계를 확장하는 원칙적인 프레임워크인 SlimSearcher를 제안한다. SFT 단계에서 SlimSearcher는 파레토 효율적 필터링(Pareto-efficient filtration)을 활용하여 성공적이면서도 경제적인 궤적을 추출함으로써, 모델이 본질적으로 효율성을 고려한 탐색 행동을 취하도록 유도한다. RL 단계에서는 샘플링된 코호트 내에서 상대적인 도구 및 토큰 효율성을 평가하는 동적 보상 형태 메커니즘인 적응형 보상 게이팅(Adaptive Reward Gating)을 도입한다. 이러한 적응형 효율성 지표를 엄격한 정확성 게이트와 계단식으로 연결함으로써, 본 접근법은 절대적 패널티와 관련된 간결성 편향을 효과적으로 회피하고 보상 해킹(reward hacking)을 완화한다. GAIA, BrowseComp, XBenchDeepSearch를 포함한 장기 과제 벤치마크에 대한 광범위한 실험 결과, SlimSearcher는 정확성을 유지하거나 개선하면서 평균 도구 호출 횟수를 17%-58% 감소시키는 것을 입증한다.
음성 기반 대규모 언어 모델은 일반적으로 음성 응답으로 제한되어, 사용자에게 제공되는 출력이 발화 가능한 내용으로 한정되고, 지속적이고 구조화된 검증 가능한 중간 출력이 필요한 작업에서 실시간 상호작용 중 코드 생성, 구조화된 분석, 다단계 추론과 같은 텍스트 고유의 기능을 억제한다. 기존 연구들은 음성 추론 또는 전이중 턴테이킹을 개선했지만, 여전히 텍스트를 숨겨진 중간 상태나 하위 양식으로 취급할 뿐 일급 출력 채널로 간주하지 않는다. 본 논문에서는 청취-기록-발화(LWS)라는 텍스트 우선 삼중 채널 패러다임을 제안한다. 이 패러다임에서 단일 자기회귀 LLM은 사용자 오디오를 지속적으로 청취하고, 가시적인 자유 형식 텍스트를 주 출력으로 기록하며, 공유된 인과적 주의 맥락 아래에서 실시간 음성 응답을 병렬로 발화한다. 이 동작은 전적으로 토큰 스키마를 통해 구현되며, 아키텍처 수정이 필요하지 않고, 공개된 입력 타임라인과 일치하는 초 단위 인지 주석을 합성하는 2단계 데이터 파이프라인을 통해 학습된다. 실험적으로 LWS는 Full-Duplex-Bench에서 강력한 전이중 상호작용을 보여주고, VoiceBench AlpacaEval에서 4.72에 도달하며, 92.6%의 기록-발화 일관성을 달성하고, URO-Bench에서 내부 절제 실험을 일관되게 능가한다. 이러한 결과는 가시적인 기록이 실시간 응답성을 희생하지 않고 음성 상호작용의 일급 출력 채널로 기능할 수 있음을 시사한다. 코드와 데이터셋은 프로젝트 페이지(https://royalzhang.com/project/lws-page/)에서 확인할 수 있다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 결과 기반 감독을 통해 대규모 언어 모델의 추론 능력을 향상시키는 주요 패러다임으로 자리 잡았다. 그러나 검증 가능한 보상은 집단 수준에서 정보를 제공하지 못하는 경우가 빈번하다. 특정 프롬프트에서 샘플링된 모든 추적이 동일한 보상을 받으면, 추적의 추론 품질이 상당히 다름에도 불구하고 집단 상대적 이점 추정은 기울기 신호를 제공하지 않는다. 본 논문에서는 이러한 비다양성 보상 집단을 폐기하는 대신, 심사 시스템으로 라우팅하는 적응형 훈련 프레임워크인 Reasoning Arena를 제안한다. Reasoning Arena는 최종 답변을 검토하는 것을 넘어, 추적 토너먼트를 구성하여 추론 추적들을 일대일로 비교함으로써 집단 내에서 더 세분화된 선호도를 드러내고, 추론 품질을 풍부한 상대적 보상 신호로 변환한다. 보상 추정의 효율성을 위해, 모든 쌍을 완전히 비교하는 대신, 각각의 새로운 추적은 이전에 생성된 추적들로 구성된 소규모의 동적으로 업데이트되는 풀을 앵커로 삼아 평가함으로써 효율적으로 상대적 순위를 설정한다. 그런 다음 불완전한 비교 그래프에 Bradley-Terry 모델을 적용하여, 이차적인 쌍별 비교 없이 확장 가능한 강화 학습 통합을 가능하게 한다. 실험 결과, Reasoning Arena는 수학 경쟁 및 코딩 벤치마크에서 RLVR 기준선보다 평균 7.6% 더 높은 성능을 일관되게 보여준다. 본 방법은 그렇지 않으면 낭비될 제로 이점 샘플을 유용한 기울기 업데이트로 변환함으로써, 훈련 속도를 27%에서 41%까지 가속화하고, 생성 연산의 약 50%를 절약하며, 전반적인 추론 성능을 크게 향상시킨다.
세계 행동 모델(World Action Models, WAMs)은 추가적인 훈련 목표로 미래 예측을 통합하여 로봇 정책 학습을 확장하며, 정책이 작업 관련 시간적 구조를 표현에 인코딩하도록 유도한다. 현재의 WAM은 대규모 생성형 아키텍처에 의존하는 경우가 많아 훈련 비용과 추론 지연 시간이 높아 효율적인 폐루프 정책으로 배포하기 어렵다. 본 연구에서는 효율적인 로봇 조작을 위한 경량 세계 행동 모델인 Light-WAM을 제안한다. 구체적으로, 소형 비디오 백본을 기반으로 구축되며 다운샘플링된 잠재 공간에서 미래 비디오 감독을 수행함으로써 비디오 공동 훈련의 비용을 줄이면서도 표현 학습에 대한 이점을 유지한다. 행동 예측을 위해 Light-WAM은 StateFusionActionExpert를 도입하는데, 이는 여러 백본 레이어에서 적응된 상태를 읽고 학습된 쿼리 풀링을 통해 이를 융합한 후 단일 순방향 전달에서 직접 행동 청크를 예측한다. 이러한 설계는 비디오 백본 표현과 로봇 행동 간의 효율적 인터페이스를 제공하며, 무거운 생성형 행동 전문가의 필요성을 피한다. 실험 결과, Light-WAM은 LIBERO에서 강력한 성능을 유지하고 RoboTwin 2.0에서 사용 가능한 다중 작업 성능을 달성하면서도 0.44B의 학습 가능한 파라미터만을 사용한다. 또한 72.03ms의 추론 지연 시간과 4.1GiB의 최대 GPU 메모리, 그리고 개선된 훈련 처리량을 달성한다.
검색 증강 QA 파이프라인은 종종 검색된 구절을 소형 판독기에 전달하기 전에 LLM 재작성기를 거치게 하여, 다중 홉 벤치마크에서 F1 점수를 수십 포인트 향상시킵니다. 이러한 향상은 일반적으로 개선된 증거 품질 덕분으로 간주됩니다. 본 연구는 해당 향상이 선별 작업 자체보다는 재작성된 맥락에 정답 문자열이 나타나는 것에 인과적으로 기인하는지 묻고, 통제된 개입 감사를 통해 분석합니다. 각 재작성 맥락에 대해 편집 결과물의 네 가지 통제된 편집(정답 구간 제거, 길이가 일치하는 무작위 비정답 구간(위약) 교체, 또는 재작성에 없던 정답을 접두사 또는 중간 문장 경계에 주입) 중 하나를 적용한 후 판독기를 다시 실행합니다. 세 가지 판독기 패밀리(Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), 두 가지 데이터셋(HotpotQA, 2WikiMultihopQA), 세 가지 컴파일러 배열(MA 전용, MB 전용, MA+확인)에 걸친 12개의 완료된 (셀, 기준선) 개입 실행에서, 정답을 제거하면 길이 일치 위약 대비 판독기 F1이 쌍을 이룬 정답-컴파일 계층에서 28~64포인트 하락했으며, 정답이 없던 재작성에 정답을 접두사로 추가하면 12개 (셀, 기준선) 조합 중 10개에서 F1이 +0.7~+9.7포인트 상승했습니다. 동반된 5-센티넬 감사는 기존의 단일 [MASK] 프로브 자체가 센티넬에 취약함을 보여줍니다. 2Wiki에서는 +4.12 F1의 "비누출 잔차"를 보고하지만, 네 가지 대체 센티넬 하에서는 -3.33~-7.81 F1으로 역전되며, 이 중 세 가지에 대한 동등성 검정을 통과하지 못합니다(1/4 통과). 본 연구는 새로운 재작성기나 완화 방법을 제안하지 않으며, 다른 재작성기 성능 향상 주장이 동일한 기준으로 검증될 수 있도록 개입 실행기와 센티넬 패널을 공개합니다.
텍스트-이미지 모델은 인간의 의도를 전달하는 주요 인터페이스로 텍스트 프롬프트를 사용한다. 프롬프트는 텍스트 인코더에 의해 임베딩으로 인코딩되며, 이 임베딩은 이미지 생성 과정을 조건화한다. 개별 토큰 의미를 넘어, 텍스트 임베딩은 구성성 및 속성 결합과 같은 전체 프롬프트에 걸친 맥락 정보를 인코딩한다. 그러나 이미지 모델이 실제로 이와 같은 풍부한 정보를 활용하는지는 아직 충분히 탐구되지 않았다. 본 연구에서는 '텍스트 표현의 어떤 측면이 이미지 생성에 필수적인가?'라는 질문을 다룬다. 우리는 텍스트-이미지 확산 변환기 기반 모델이 일반적으로 텍스트 표현의 비교적 단순한 두 가지 측면에만 의존함을 보여준다: (i) 여러 토큰에 걸친 단어의 경우 인접 토큰을 단어 표현으로 병합하는 것, (ii) 텍스트 인코더의 위치 임베딩에 의해 각인된 단어 순서이다. 이를 입증하기 위해, 우리는 개별 단어 의미와 순서만을 인코딩하고 전체 프롬프트에 대한 맥락 정보는 전혀 포함하지 않는 새로운 텍스트 임베딩을 구성한다. 이러한 위치 태깅된 단어 가방 표현이 이미지 생성을 성공적으로 안내할 수 있으며, 시각적 품질과 텍스트 충실도에서 전체 텍스트 임베딩 기반 생성과 동등한 성능을 보임을 발견했다. 이는 일반적인 믿음과 달리, 텍스트-이미지 모델이 개별 단어 의미와 단어 순서를 넘어 텍스트 임베딩에 인코딩된 풍부한 정보를 자주 사용하지 않는다는 것을 보여준다. 대신, 복잡한 언어 구조의 해독은 이미지 모델 자체에 의해 수행된다. 프로젝트 웹페이지: https://nsping13.github.io/contextless-TTI/
심층 연구(Deep Research, DR)는 복잡하고 개방적인 연구 과제를 해결하기 위한 새로운 에이전트 패러다임으로 부상했으며, 문제를 반복적으로 구성하고, 증거를 획득하며, 출처를 검증하고, 장문의 보고서를 종합할 수 있는 시스템을 요구한다. 그러나 실제로 현재의 DR 시스템은 네 가지 상호 연관된 한계, 즉 범위가 불충분하게 지정된 장기적 계획, 단일 에이전트 내에서 이러한 작업을 분해하고 스케줄링할 때의 병목 현상, 장문 종합 과정에서의 할루시네이션 위험, 제한된 프로세스 감사 가능성에 의해 제약을 받는다. 본 기술 보고서는 Qianfan Agent Foundry를 기반으로 구축된 다중 에이전트 DR 프레임워크인 DuMate-DeepResearch를 제시한다. 이 프레임워크는 작업 이해, 계획 및 스케줄링을 담당하는 Agent Core와 검색, 증거 획득 및 보고서 렌더링을 위한 확장 가능한 도구 생태계(Tool Ecosystem)를 분리하여, 모든 중간 결정과 도구 호출을 명시적으로 추적 가능하게 만든다. 이 인프라를 기반으로 DuMate-DeepResearch는 세 가지 메커니즘을 추가로 도입한다: (i) 그래프 기반 동적 계획 전략은 연구 로드맵을 대략에서 세부로 확장하고, 반성(reflection), 재계획(re-planning), 역추적(backtracking) 및 병렬 분기(parallel branching)를 통해 지속적으로 수정한다; (ii) 재귀적 이중 수준 실행 설계는 각 복잡한 검색 하위 작업을 자체 계획 루프를 실행하는 내부 검색 에이전트(Search Agent)에 위임하여, 노이즈가 많은 검색을 격리하고 장기 실행을 안정화한다; (iii) 루브릭 기반 테스트 시간 최적화 메커니즘은 작업별 품질 기준을 동적으로 생성하고, 이를 증거 기반 종합 및 적응형 중단을 위한 실시간 추론 비계(live reasoning scaffold)로 사용한다. 두 가지 심층 연구 벤치마크에서 DuMate-DeepResearch는 새로운 최첨단 결과를 달성했다: DeepResearch Bench에서 최고 종합 점수(58.03%), DeepResearch Bench II에서 최고 종합 점수(61.95%)를 기록했으며, 정보 검색 및 분석 부문에서 1위를 차지했다.
비전-언어-행동(VLA) 모델은 로봇 조작을 위한 유망한 패러다임으로 떠오르고 있으며, 대규모 데모 및 행동 레이블 코퍼스로 학습된 범용 정책을 가능하게 한다. 그러나 이러한 모델을 새로운 작업에 적용하려면 여전히 일반적으로 작업별 데모, 행동 주석 및 추가 미세 조정이 필요하므로 배포 비용이 많이 들고 확장이 어렵다. 우리는 WIZARD를 제안한다. 이는 가중치 공간 메타 학습 프레임워크로, 고정된 VLA 정책에 대한 작업별 LoRA 파라미터를 생성하여 작업별 미세 조정을 우회한다. 언어 명령과 짧은 데모 비디오만 주어지면, WIZARD는 대상 작업의 행동 레이블이나 테스트 시 최적화 없이 단일 순방향 패스에서 해당 적응 가중치를 예측한다. 메타 훈련 중에 WIZARD는 작업 증거를 전문가 LoRA 업데이트에 직접 매핑하는 방법을 학습하며, 가중치 공간에서 작업 간의 관계를 포착한다. LIBERO 실험 결과, WIZARD는 보지 못한 데이터셋 컬렉션에서 최대 약 2배, 보지 못한 작업에서 최대 약 14배까지 성능을 향상시킨다. Franka Emika Panda 로봇에서 WIZARD는 실제 도메인에 적응된 기준선보다 일관되게 향상된 성능을 보여주며, 생성된 어댑터가 시뮬레이션을 넘어 작업 수준의 특화를 제공함을 입증한다.
온-정책 증류(OPD)는 대규모 언어 모델(LLM)의 주요 사후 학습 도구가 되었으며, 학생 모델 자체의 롤아웃 과정에서 토큰별로 조밀한 교사 감독을 제공한다. 본 연구에서는 OPD의 근본적인 구조적 원인을 발견하고 이를 접두사 실패(prefix failure)라고 명명한다. 접두사 실패 하에서 토큰 수준의 조밀한 감독은 이중 모드 교사 혼합(bimodal teacher mixture)과 분할된 그래디언트(fragmented gradients)를 유발하며, 이는 토큰 수준 손실 절단(token-level loss truncation)이나 재가중치 부여(reweighting)로 해결할 수 없다. 이러한 관찰은 토큰 수준의 손실 개입을 넘어 궤적 수준의 출력 보정으로 나아가도록 동기를 부여한다. 이에 따라 본 연구는 궤도 정제 증류(TRD)를 제안한다. TRD는 궤적 수준의 보정 방법으로, 온-정책 지원 범위 내에서 교사 안내 하에 학생의 롤아웃을 수정한다. 증류 전에 문제가 있는 접두사를 수정함으로써 TRD는 접두사 실패를 근원에서 완화한다. 또한, TRD는 원래 롤아웃이 이미 올바른 경우에도 교사 안내 하에 학생이 대안적인 유효 추론 과정에 노출되도록 하여 탐색을 개선한다. TRD는 또한 학생 모델을 특권 정보 조건에서 교사로 사용하는 매개변수 공유 변형인 온-정책 자기 증류(OPSD)에도 적용할 수 있다. 다양한 벤치마크와 여러 규모의 기본 모델에서 TRD는 기존 기준을 일관되게 능가하며, 단일 시도 정확도를 향상시키고 추론 적용 범위를 확장한다. 코드는 https://github.com/louieworth/trd에서 확인할 수 있다.
검증 가능한 보상을 이용한 강화 학습은 시각-언어 모델의 추론 능력을 빠르게 발전시켜 왔다. 그러나 흉부 X선 판독문 생성에서 표준 보상(즉, 정확 일치 정확도 및 단계별 과정)은 판독문이 인과적 추론 사슬이 아닌 순서가 없고 직교하는 소견들로 구성되어 있기 때문에 호환되지 않는다. 우리는 이 간극을 집합 기반 관점으로 해결한다. 각 판독문을 문장으로 분할하고 고정된 문장 변환기로 임베딩하여 순서가 없는 임베딩 집합을 얻는다. 생성된 임베딩과 참조 임베딩 간의 집합 간 거리를 연속적이고 순열 불변적인 보상으로 사용할 것을 제안한다. 두 데이터셋과 세 가지 시각-언어 모델(Qwen3-VL-2B/4B, Gemma3-4B)에 걸쳐, GRPO를 통한 집합 간 거리 기반 보상을 사용한 사후 학습이 모든 주요 지표(BERTScore, RadGraph F1, CheXbert F1에서 각각 평균 6.80%, 7.82%, 4.45%의 상대적 개선)에서 지도 미세 조정 및 정확 일치 GRPO보다 일관되게 우수했다. 동일한 집합 거리는 테스트 시 최적 N개 선택도 가능하게 한다. 즉, 학습 판독문 임베딩과의 거리로 후보를 점수화하는 것이 훈련된 모델뿐만 아니라 세 가지 폐쇄형 LLM(Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini)에서 무작위 선택보다 우수했으며, BERTScore에서 평균 16.4%의 상대적 개선을 보였다. 스트리밍 신호로 사용될 경우, 더 효율적인 형태의 테스트 시 확장을 지원한다. 즉, 생성 중간에 낮은 점수의 후보를 가지치기하여 생성 토큰을 50% 이상 줄이면서도 전체 최적 N개 선택의 판독문 품질을 유지한다. 이러한 결과들은 집합 거리 보상이 흉부 X선 판독문 생성에서 사후 학습과 테스트 시 확장을 위한 통합 신호임을 입증한다. 우리의 코드는 공개적으로 이용 가능하다: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA
비전 트랜스포머는 고정 패치 그리드에서 작동하며, 이는 밀집 예측에 대해 위상 의존적 불안정성을 유발할 수 있습니다. 패치 분할을 변경하면 특히 경계 근처에서 픽셀에 제공되는 토큰 증거가 바뀔 수 있기 때문입니다. 우리는 패치 그리드 위상을 방해 변수로 공식화하고, 구조화된 패치 그리드 위상을 평가하고 밀집 출력을 역정렬한 후 원본 이미지 좌표계에서 집계하는 사후 주변화 방법인 위상 주변화(Phase Marginalization)를 제안합니다. 중심 변형인 K=4를 사용한 균일 위상 주변화(Uniform Phase Marginalization)는 학습이 필요 없으며, 측정된 분할, 깊이 및 로컬 매칭 설정에서 기존의 K=1 기준선보다 성능이 향상됩니다. 통제된 Cityscapes 실험에서 균일 위상 주변화는 계산량이 동일한 조건에서 일반적인 이동 기반 4회 순방향 테스트 시간 증강(TTA)보다 약간의 이점을 제공합니다(가장 강력한 테스트 일반 행보다 평균 IoU가 0.31 높음). 확장 연구는 K=4가 실용적인 비용-정확도 균형점임을 추가로 보여줍니다. K=8은 본질적으로 변하지 않으며, K=16은 훨씬 높은 지연 시간에 정확도가 거의 향상되지 않습니다. 이러한 결과는 패치 그리드 위상을 측정 가능한 방해 변수로, 위상 주변화를 밀집 ViT 예측을 위한 간단한 진단 및 사후 주변화 기준선으로 자리매김합니다.
다단계 강화학습으로 비전-언어 웹 에이전트를 훈련하는 것은 계산 집약적이며, 두 가지 주요 비효율성 요인이 존재한다: 동기식 강화학습에서의 유휴 GPU, 그리고 필요 이상의 단계와 토큰을 사용하는 궤적이다. 본 논문에서는 이 두 문제를 모두 해결하는 AsyncWebRL을 제시한다. 시스템 측면에서는 비동기 설계가 반복 간 롤아웃, 기울기 업데이트, 정책 갱신을 중첩시키며, 웹 에이전트에 특화된 두 가지 적응 기법, 즉 영구 롤아웃 풀과 경량 스크린샷 처리를 결합하여 기존 가장 빠른 오픈 동기식 파이프라인(WebGym) 대비 종단간 훈련 처리량을 최대 2.9배 향상시킨다. 알고리즘 측면에서는 다단계 GRPO의 궤적별 정규화기 1/|τ_i|가 궤적 수준 및 토큰 수준 비효율성의 근본 원인임을 규명한다: 실패 궤적이 성공 궤적보다 체계적으로 길기 때문에, 이 정규화기는 실패 토큰에 대한 음의 기울기를 낮춰 정책이 계속 장황한 메모리 스키마를 생성하게 만든다. 1/|τ_i|를 상수 1/k로 대체하면 이러한 결합이 끊어져 궤적이 단축되면서도 전체 성공률은 유지된다. 이러한 기여를 통해 WebGym의 분포 외 테스트 분할에서 새로운 오픈소스 최고 성능을 달성하였으며(기존 최고 42.9% 대비 상대적 +5.8%), 특히 더 어려운 부분에서 더 큰 향상을 보였다(Medium: 상대적 +42%, Hard: 상대적 +48%).
약한-강한 일반화는 신뢰할 수 있는 레이블이 부족한 상황에서 약한 교사의 지도를 이용하여 강한 학생을 향상시키는 방법을 연구한다. 본 연구는 이를 주로 데이터 선택 문제로 보며, 핵심 과제는 훈련 신호로 사용할 수 있을 만큼 신뢰할 수 있는 약한 레이블을 식별하는 것이다. 이를 해결하기 위해, 각 약한 레이블에 스칼라 신뢰 점수를 할당하는 신뢰 함수를 도입하고, 이 점수를 사용하여 약한 지도를 필터링한다. 세계 지식, 양적 추론, 전략 게임을 포함한 여러 도메인에서 신뢰 필터링은 때로는 참값 지도에 필적하거나 능가하는 학생을 생성하여 거의 손실 없는 약한-강한 일반화를 달성한다. 또한 신뢰 함수는 학생을 훈련하고 다음 교사로 재사용하여 이득을 증폭시키는 반복적인 약한-강한 체인을 가능하게 한다. 신뢰 함수의 장점은 여러 메커니즘에 기인할 수 있다.
사고 연쇄(Chain-of-Thought, CoT)는 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키며, 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)로 확장되었다. 최근 연구는 텍스트 기반의 다중 모달 추론에서 나아가 중간 단계에서 텍스트적 근거와 시각적 증거를 모두 통합할 수 있는 교차 모달 추론(interleaved-modal reasoning)으로 발전하고 있다. 본 연구에서는 보다 대담하고 야심찬 아이디어를 제안한다: 이미지 단독으로 언어 및 다중 모달 작업 모두의 추론 매개체 역할을 할 수 있는가? 이를 탐구하기 위해, 우리는 이미지를 독립적인 추론 매개체로 간주하는 광학적 추론(optical reasoning)을 제안한다. 이 개념을 두 가지 변형으로 구체화한다: 컴팩트한 근거 표현을 위해 시각적 레이아웃을 최적화하는 타이포그래픽 기반 광학 추론(typographic-based optical reasoning)과, 텍스트 및 그래픽 요소를 구조화된 시각적 근거로 구성하는 그래픽 기반 광학 추론(graphical-based optical reasoning)이다. 수학, 과학, 교차 모달 추론 벤치마크에서 광학 추론은 전통적인 텍스트 추론과 동등하거나 그 이상의 성능을 보이면서, 언어 작업에서 평균 28.57%, 다중 모달 작업에서 16%의 추론 토큰을 감소시켜 텍스트 추론 대비 1.96배의 토큰 효율성을 달성했다. 이러한 결과는 이미지가 근거를 효과적이고 효율적으로 인코딩하는 동시에 추론을 위한 통합된 시각적 캔버스를 제공할 수 있음을 보여준다.
최근 비디오 기반 세계 모델은 픽셀 공간 환경을 카메라 수준에서 상호작용 가능하게 만들었습니다. 사용자는 모델이 일관된 시각적 연속성을 생성하는 동안 시점을 탐색할 수 있습니다. 그러나 이들의 행동 공간은 여전히 불완전합니다. 사용자는 카메라를 움직일 수 있지만 개별 객체에 대해 행동할 수 없습니다. 실제 세계 상호작용은 본질적으로 객체 중심적이기 때문에, 이러한 모델은 진정으로 조작 가능한 환경이라기보다는 수동적인 장면 관찰자에 가깝습니다. 우리는 상호작용형 비디오 세계 모델을 카메라 탐색에서 객체 수준 궤적 행동으로 확장하는 프레임워크인 WorldCraft를 제시합니다. 사용자 클릭과 스케치된 경로가 주어지면 WorldCraft는 선택된 객체가 지정된 궤적을 따르면서 카메라가 계속해서 장면을 탐색하는 미래 프레임을 생성합니다. WorldCraft는 궤적 중심 제어 파이프라인을 통해 이를 달성합니다. 첫째, 정규화된 세계 궤적(NWT)은 카메라 불변 세계 좌표계에서 사용자가 그린 움직임을 나타내고 현재 카메라 포즈 아래에서 동적으로 재투영하여 객체 움직임을 카메라 유발 화면 공간 변위와 분리합니다. 그런 다음 공간 경로 LoRA(SP-LoRA)는 이 세계 공간 신호를 모델의 공간 제어 경로를 통해 주입하여 사전 훈련된 카메라 제어기를 유지하면서 객체 조작 기능을 추가합니다. 마지막으로 궤적 고정 상태 지속성(TASP)은 세계 궤적을 지속적인 공간 상태로 처리하고 궤적 조건부 생성 후 자기회귀 메모리를 새로고침하여 이동된 객체가 카메라 뷰를 벗어난 후 업데이트된 위치에 다시 나타날 수 있도록 합니다. 실험 결과에 따르면 WorldCraft는 정확한 객체 제어를 가능하게 하고, 카메라 전용 평가에서 비디오 기반 세계 모델의 카메라 충실도를 유지하며, 카메라 외부 이동이 있는 긴 자기회귀 롤아웃에서 객체 상태를 유지합니다.
AI 평가 결과는 대규모로 생성되지만, 리더보드, 모델 카드, 벤치마크 논문, 그리고 회사 블로그 등에서 일관성 없이 보고됩니다. 그 대가는 해석적입니다: 독자는 여러 출처 간 결과를 신뢰성 있게 비교하거나, 보고서에서 누락된 내용을 파악하거나, 종합적인 주장을 뒷받침하는 근거를 추적할 수 없습니다. 최근의 노력은 개별 구성 요소를 다루지만 세 가지 공백을 남깁니다: 평가 생애 주기의 좁은 부분만 다루며 하나의 해석 가능한 기록으로 구성되지 않습니다; 동일한 증거에 대해 다양한 이해관계자가 제기하는 질문을 구분하지 않는 정적 표현을 명시합니다; 그리고 문서상의 제안에 그쳐 대규모 적용에 필요한 추출 인프라가 부족합니다. 본 논문에서는 벤치마크 메타데이터, 평가 실행 데이터, 모델 메타데이터를 통합 기록으로 구성하는 운영 보고 계층을 제시합니다. 본 논문에서는 (1) 52편의 논문과 10명의 이해관계자 인터뷰에 대한 체계적 검토를 통해 보고 스키마를 도출하고, (2) 네 가지 해석 신호(재현성, 문서 완전성, 출처 및 위험, 점수 비교 가능성)를 구현하며, 이를 연구 및 비연구 청중에 맞게 조정된 독자 모드로 제공하고, (3) 5,816개 모델, 635개 벤치마크, 101,843개 결과에 적용되는 모니터링 도구를 배포하여 현재 보고 관행의 체계적 공백을 드러냅니다.
프롬프트 인젝션 탐지기는 이질적이다. 각 탐지기는 서로 다른 공격 분야에서 강점을 보이며, 어떤 탐지기도 항상 신뢰할 수는 없다. 그러나 기존 시스템은 여전히 탐지를 고정된 단일 탐지기 파이프라인으로 취급하여 모든 요청을 하나의 탐지기가 가진 사각지대에 맡기고 있다. 우리는 방어를 탐지기 할당 문제로 재정의한다. 즉, 이질적인 탐지기 풀이 주어졌을 때, 요청별로 어떤 탐지기를 실행할지, 그리고 LLM 판별기로 이관할지 여부를 결정한다. 우리의 프레임워크 SCOUT(Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage)은 각 탐지기가 유사한 과거 입력에 대해 어떻게 동작했는지로부터 샘플별 신뢰도와 지연 시간을 예측함으로써 이러한 결정을 동적으로 수행하며, 운영자에게 단일 안전-효용 임계값(여기서 효용은 정상 통과율과 실시간 시간을 묶은 것)을 제공한다. 이 설정을 평가하기 위해 우리는 SCOUT-450 벤치마크를 구축했으며, 이는 기존 프롬프트 인젝션 데이터셋이 과소 대표했던 구조적으로 복잡하고 에이전트를 대상으로 하는 인젝션을 포착한다. SCOUT-450에서 안전 중심 운용점은 항상 작동하는 GPT-4o 판별기에 비해 공격 성공률을 46%, 총 실시간 시간을 40% 감소시키며, 정상 효용은 5.1포인트 하락한다. SCOUT은 또한 세 가지 외부 벤치마크(BIPIA, IPI, IHEval)로 전이되어 안전-효용 경계를 개선한다.
에이전트 벤치마크는 일반적으로 수작업으로 작성되어 취약한 결과 검증기를 사용하여 점수를 평가하므로, 리워드 해킹에 노출됩니다. 우리는 5개의 터미널 기반 에이전트 벤치마크에서 1,968개의 과제를 감사한 결과, 태스크 설명만으로도 프론티어 모델이 해킹 가능한 323개(16%)의 과제를 발견했습니다. 이는 리더보드 순위와 강화학습 훈련 신호를 모두 왜곡하지만, 표준 대응은 수동적이고 반응적인 방식에 머물러 있습니다. 우리는 해커-수정자 루프(hacker-fixer loop)를 도입합니다. 이는 과제별 수동 패치 없이도 익스플로잇에 강한 검증기를 구축하는 방법입니다. 루프는 세 가지 LLM 에이전트를 번갈아 사용합니다. 해커는 태스크를 해결하지 않고 검증기를 통과하려 시도하고, 수정자는 발견된 각 익스플로잇을 거부하도록 검증기를 패치하며, 해결사는 패치된 검증기가 여전히 정당한 해결책을 허용하는지 확인합니다. 루프는 반복됩니다. 각 패치는 검증기가 보상하는 대상을 재정의하여 다음 익스플로잇을 드러냅니다. 또한 검증기 접근 권한을 추가하고 패치가 여러 태스크 간에 전이되도록 하여, 루프가 발견하는 익스플로잇의 범위를 넓힙니다. KernelBench에서 이 루프는 공개적으로 보고된 익스플로잇의 홀드아웃 코퍼스에 대해 공격 성공률을 62%에서 0%로 낮춥니다. 또한 루프 내에서 약한 에이전트가 훨씬 강력한 해커에 대해 방어할 수 있음을 발견했습니다. Gemini 3 Flash의 루프는 더 강력한 Gemini 3.1 Pro와 Claude Opus 4.7의 KernelBench 공격 성공률을 각각 76%와 61%에서 0%로 낮추었고, Terminal Bench의 77개 태스크에서는 Gemini 3.1 Pro의 공격 성공률을 39%에서 17%로 낮추었습니다. 우리는 Terminal Wrench(323개의 해킹 가능 환경, 3,632개의 해킹 궤적)를 현재 공격 표면의 스냅샷으로, 패치된 검증기, 루프가 발견한 익스플로잇, 그리고 향후 연구를 위한 기반으로서의 구현체를 함께 공개합니다.
기존의 과학적 관계 추출 벤치마크는 주로 컴퓨터 과학과 같은 분야를 대상으로 하며, 여기서 개체는 과제, 방법, 데이터셋, 재료 또는 측정 지표이다. 이는 심리학과 같은 변수 중심 경험적 분야에서, 연구 결과가 구성개념, 측정치, 중재, 결과 간의 관계로 표현되는 경우에 간극을 남긴다. 본 연구에서는 변수 중심 경험적 그래프 추출(variable-centered empirical graph extraction)을 도입한다. 이는 과학적 초록을 노드가 정규화된 변수이고 엣지가 경험적 관계 및 계층적 관계를 나타내는 유형화된 그래프로 매핑하는 과제이다. 이 과제를 지원하기 위해, 분야 훈련을 받은 주석자들이 정규화된 변수, 개념 계층, 경험적 관계 유형 및 검증 상태로 주석을 단 210개의 심리학 초록으로 구성된 벤치마크인 EmpiriGraph-Psy를 구축하였다. 변수 추출, 정규화, 계층 구축, 증거 선택, 관계 추출 및 엣지 검증을 분리한 단계적 그래프 구축 파이프라인과 직접 추출 방식을 사용하여 최첨단 및 오픈웨이트 LLM을 평가하였다. 단계적 파이프라인은 직접 추출 방식을 상당히 능가하였으며, 최적 구성에서 매크로 F1 0.74를 달성하였다. 오류 분석 결과, 조절 관계와 개념 계층이 여전히 가장 어려운 사례임이 드러났으며, 이는 과학적 초록으로부터 고차 경험적 주장과 암묵적 추상화 구조를 추출하는 데 따르는 어려움을 강조한다.
생성 모델이 훈련 데이터로부터 무엇을 보유하는지 이해하는 것은 여전히 어려운 과제로, 저작권 및 개인정보 보호에 중요한 의미를 갖는다. 모델은 훈련 데이터를 그대로 재생산하는 것 외에도, 출력물에는 나타나지 않으나 여전히 활용 가능한 미묘한 흔적을 인코딩할 수 있다. 우리는 배포된 생성 시스템에서 점점 더 많이 사용되는 정류 흐름(Rectified Flows)에 대해 이러한 체제를 연구한다. 정류 흐름 훈련을 정의하는 보간 경로 X_λ = (1-λ)X_0 + λX_1을 분석한다. λ에 대한 종 모양 곡선을 따르는 훈련 데이터와 테스트 데이터의 재구성 간에 차이가 존재하며, 이는 훈련 중에 축적되지만 검증 지표는 안정적으로 유지됨을 보인다. 이 신호는 최댓값을 가지며, 가우시안 가정 하에 그 위치를 폐쇄형으로 유도한다. 우리는 이러한 예측을 오디오와 이미지 모두에서 검증하고, 종 모양 구조가 보편적임을 보여주는 동시에, 가정이 충족될 때 최댓값 예측이 성립함을 확인한다. 개념 증명으로, 우리는 이러한 특정 λ-분해 구조를 활용하여 멤버십 추론 공격(Membership Inference Attack)을 수행, 훈련 집합의 구성원과 비구성원을 구분한다.
의료 에이전트 시스템은 단순한 정적 질문 응답을 넘어 상호작용적 임상 의사 결정을 지원할 것으로 점점 더 기대되고 있다. 이러한 환경에서 효과적인 에이전트는 진화하는 사례에 걸쳐 이전 경험을 재사용해야 하지만, 기존 메모리 메커니즘은 종종 중복되고 잡음이 많으며 통제하기 어려운 원시적 과거 기록을 그대로 유지한다. 더 중요한 점은, 이러한 메커니즘은 향후 추론에 실제로 유용한 메모리를 거의 구분하지 못한다는 것이다. 이는 장기적 임상 추론을 위해 간결하고 신뢰할 수 있는 경험을 축적하는 능력을 제한한다. 이러한 격차를 해소하기 위해, 우리는 모델 가중치를 업데이트하지 않고 스킬 기반 메모리를 통해 의료 에이전트를 개선하는 사후 배포 자기 진화 프레임워크인 SkeMex를 제안한다. SkeMex는 정보 제공적 상호작용 궤적을 재사용 가능한 절차적 지식을 인코딩하는 구조화된 스킬로 추출하고, 이를 일반, 작업 특정, 행동 수준 경험을 포괄하는 다중 분기 저장소로 구성한다. 어떤 메모리를 재사용하고 유지할지 결정하기 위해, SkeMex는 환경 피드백으로부터 맥락 의존적 효용을 추정하고 이를 가치 인식 검색 및 저장소 관리를 안내하는 데 사용한다. 폐쇄 루프 "읽기-쓰기-평가-관리" 생애주기는 새 스킬 작성, 효용 업데이트, 유용한 메모리 촉진, 유해 항목 제거를 통해 지속적 진화를 추가로 지원한다. 다양한 임상 작업에 걸친 실험은 SkeMex가 오프라인 및 온라인 환경 모두에서 대표적인 메모리 기반 에이전트보다 일관되게 우수한 성능을 보임을 입증한다. 또한 다양한 모델 백본에 일반화되며 전이 가능한 스킬 메모리를 지원한다. 모든 데이터와 코드는 공개될 예정이다.
본 논문에서는 대규모 언어 모델(LLM) 압축을 위한 축소 특이값 분해(SVD) 기반 기법을 보조하기 위해, 학습 가능한 스케일링 행렬 S를 학습하는 방법인 SigmaScale을 제안한다. SigmaScale은 스케일링 행렬을 해석적으로 유도하는 대신, 활성화 인식 압축 손실 하에서 대각 행 및 열 스케일링 변환을 정의하는 두 벡터 집합을 최적화한다. 학습된 스케일링이 가중치 행렬의 효과적 내재 순위를 낮추며, 이는 효과적 순위 엔트로피의 감소로 확인된다. 또한 이러한 순위 감소는 압축 손실과 강한 상관관계를 보인다. Llama 3.1 8B Instruct 및 Qwen3-8B 모델에 대한 실험 결과, SigmaScale은 혼란도(perplexity)와 제로샷(zero-shot) 벤치마크에서 관련 최신 SVD 기반 압축 방법들과 경쟁력 있는 성능을 나타낸다. 학습된 활성화 인식 변환을 활용함으로써 SigmaScale은 개별 모델 가중치의 구조에 적응하여 저순위 LLM 압축에 보다 유연한 경로를 탐색한다. 특정 작업에서 관찰된 이점은 LLM 추론 계산 비용 절감이 필요한 응용 분야에서 본 접근법이 유효한 선택지가 될 수 있음을 시사한다.
대규모 언어 모델이 점점 더 다른 모델에 의해 평가되면서, 자연스러운 질문이 제기된다: 모델이 자신의 출력에 대해 평가자가 어떻게 점수를 부여할지 예측할 수 있을까? 우리는 이러한 능력이 표적 훈련 전에 이미 상당 부분 존재함을 발견했다. 프롬프트된 퓨샷(few-shot) 상황에서 기본 모델은 세 가지 벤치마크에 걸쳐 개방형 응답에 대한 외부 평가자의 다중 속성 품질 점수를 우연 수준을 훨씬 상회하여 예측한다. 우리는 자기 평가 유도(Self-Evaluation Elicitation, SEE) 방법을 소개한다. 이 방법은 보정 결합 강화 학습 단계(답변을 개선하고 평가자를 예측함)와 그 뒤를 이어 답변은 건드리지 않고 예측을 정교화하는 마스크 증류 단계로 구성된 짧은 주기를 통해 이러한 잠재 능력을 표면화한다. 강화 학습 기준선보다 약 31배 적은 160개의 고유 예제로부터, SEE는 답변 품질을 유지하면서 세 가지 벤치마크에 걸쳐 보류된 보정(held-out calibration)을 개선한다. 유도된 자기 평가는 모델 자체의 토큰 분포 내에 뚜렷하게 국한되며, 훈련에 사용되지 않은 평가자들에 대해서도 안정적이다. 이는 단일 평가자의 선호보다는 전이 가능한 품질 개념을 나타낸다. 이러한 결과는 평가자 정렬 자기 평가를 획득(acquisition)이 아닌 유도(elicitation)의 문제로 재구성한다.
표준 트랜스포머는 입력이 동적 교차 토큰 상호작용을 필요로 하는지 여부와 관계없이 모든 레이어와 토큰에 자기 주의(self-attention)를 균일하게 적용한다. 본 연구에서는 CHIAR-Former(Chiaroscuro Attention)를 제안한다. 이는 이론적으로 정당화된 복잡성 신호인 토큰별 스펙트럼 엔트로피(per-token spectral entropy)를 기반으로 각 토큰을 DCT 스펙트럼 혼합, RBF 커널 혼합, 또는 완전 자기 주의 중 하나로 라우팅하는 4계층 하이브리드 트랜스포머이다. WikiText-103에 대한 체계적인 절제 연구를 통해 라우팅 붕괴(routing collapse)를 발견하였다. 라우터가 RBF를 일관되게 거부하고 DCT와 주의를 선호함으로써, 스펙트럼 혼합과 동적 주의가 상호 보완적이며 충분함을 보여준다. 목적에 맞게 설계된 DCT+Attention 전용 변형은 WikiText-103에서 Val PPL 36.54를 달성하는데, 이는 전체 주의 기준선(PPL 66.62) 대비 45% 개선된 결과이며 주의 FLOPs는 62.5% 감소하였다. 평가를 WikiText-2, IMDB 감정 분류, 합성 ListOps 연산으로 확장하여 명확한 작동 영역을 확립하였다. CHIAR-Former는 토큰 다양성이 스펙트럼 전문화를 지원하는 대규모 자연어 텍스트에서 뛰어난 성능을 보이는 반면, 전체 주의는 소규모 데이터셋과 합성 패턴 매칭 작업에서 우위를 유지한다. 이러한 발견은 승리와 패배 모두를 포함하여, 스펙트럼 라우팅이 언제, 왜 그 가치를 인정받는지를 함께 정의한다.
장기적 에이전트 작업은 결과 기반 강화 학습에 근본적인 신용 할당 문제를 제기한다: 궤적 수준의 보상은 최종 정확성을 검증하지만, 중간 추론 단계나 도구 상호작용 중 어떤 것이 결과에 기여했는지에 대한 정보는 제한적이다. 이러한 어려움은 특히 다중 회차 탐색 에이전트에서 두드러지는데, 성공적인 궤적이라도 오해의 소지가 있는 행동을 포함할 수 있고, 실패한 궤적이라도 가치 있는 증거 수집 단계를 포함할 수 있기 때문이다. 본 논문에서는 희소한 최종 보상 하에서 세분화된 신용 할당을 위한 베이즈 보정 자기 증류 방법인 PBSD(Privileged Bayesian Self-Distillation)를 제안한다. PBSD는 검증된 정답의 사후 대 사전 확률 비율을 통해 궤적 품질을 측정하고, 베이즈 규칙을 적용하여 추정이 어려운 이 정답 측 비율을 표준 학생 모델과 특권을 가진 정답 조건부 교사 모델 간의 다루기 쉬운 우도 비율로 변환한다. 이 베이즈 증거 점수를 자기회귀적으로 분해하면 각 중간 회차가 검증된 결과를 지지하는지 약화시키는지를 식별하는 회차 수준 신호를 얻을 수 있다. 결과적으로 PBSD는 희소한 결과 감독을 베이즈 보정된 회차 수준 신용 신호로 변환하는 원칙적이고 우아한 재가중치 부여 방식을 제공하면서도, 표준 정책 최적화와 완전히 호환된다. 실험 결과는 PBSD가 동일 도메인 및 도메인 외부 설정 모두에서 일관되게 성능을 향상시키며, 짧은 맥락 훈련에서 얻은 지식을 긴 맥락 추론으로 효과적으로 전이함을 보여준다. 이는 PBSD의 세분화된 신용 할당 메커니즘이 더 효과적인 정책 학습을 촉진하고 개선된 일반화를 이끌어냄을 시사한다.
최근 로봇 조작 기술의 발전은 대규모 시연 데이터를 통한 학습에 크게 의존해 왔다. 그러나 휴머노이드 로봇의 이동 조작 작업의 경우, 기존 데이터 소스는 궤적 품질과 확장성 사이에서 만족스럽지 못한 절충을 강요한다. 실제 원격 조작은 가장 높은 품질의 궤적을 제공하지만, 전용 물리적 공간과 시간 소모적인 장면 재설정이 필요하다. 시뮬레이션은 이러한 딜레마에서 벗어날 수 있는 대안을 제시한다. 즉, 물리적 하드웨어 없이도 대규모로 깨끗하고 신체 정렬된 데이터를 생성할 수 있다. 본 논문에서는 휴머노이드 이동 조작을 위한 시뮬레이션 데이터 기반 프레임워크인 OASIS를 제안한다. OASIS는 3D 생성 모델을 사용하여 실제 이미지로부터 사실적인 객체 자산을 자동으로 재구성한다. 이러한 자산을 기반으로 먼저 시뮬레이션 내 원격 조작을 통해 궤적을 수집한 후, 후처리 단계에서 다양한 도메인 무작위화를 적용하여 증강한다. 생성된 시뮬레이션 데이터를 바탕으로 휴머노이드 이동 조작을 위한 계층적 시각-운동 정책을 추가로 설계한다. 실제 휴머노이드 로봇을 대상으로 한 광범위한 실험 결과, 제로샷 배치 조건에서 시뮬레이션 데이터로 학습된 정책이 대부분의 작업에서 실제 로봇 원격 조작 데이터로 학습된 정책보다 더 높은 성공률을 달성함을 보여준다. 이는 시뮬레이션 렌더링이 포괄하는 광범위한 조명 및 환경 변동성, 즉 실제 로봇 데이터가 포착하지 못하는 요소에 주로 기인한다. 프로젝트 페이지는 https://oasis-humanoid.github.io/에서 확인할 수 있다.
잠재 시각 추론(LVR)은 시각-언어 모델(VLM)에서 인식과 답변 생성 사이에 지도 학습된 잠재 토큰을 삽입한다. 해당 분야는 이 잠재 변수와 시각적 목표 간의 정렬(즉, 코사인 유사도 또는 평균 제곱 오차(MSE))을 훈련 손실이자 품질 지표로 사용하며, 더 나은 정렬이 더 나은 답변을 가져온다고 가정한다. 우리는 다섯 가지 LVR 변형으로 구성된 설계 행렬을 통해 이를 테스트했으며, 가정이 반전됨을 발견했다. 즉, 코사인 정렬은 다섯 변형 모두에서 정확도와 음의 상관관계를 보였다(r=-0.94). 이를 설명하기 위해 우리는 PRISM(추론 시 진단법 쌍)을 도입한다. 이는 정답이 디코딩 가능한 위치를 묻는 선형 프로브와 잠재 변수가 하중을 지탱하는지(즉, 실제로 중요한 역할을 하는지) 묻는 변형 테스트로 구성된다. 지도 학습된 잠재 변수는 대부분 우회된다. 이들을 변형해도 정확도는 최대 4포인트만 변한다. 정답은 잠재 변수 이후 하류에서는 디코딩 가능하지만 잠재 변수 자체에서는 디코딩 가능하지 않으며, 이 디코딩 가능성의 격차 크기는 각 변형이 섭동 하에서 잠재 변수에 의존하는 정도를 예측한다. 손실에 대한 정보 병목(Information Bottleneck) 해석과 일관되게, 보조 목적 함수는 명목상 최적화하는 잠재 변수를 통하기보다는 공유 파라미터를 통해 언어 모델을 재형성한다.
본 논문은 에이전트 기반 3D 공간 이해, 즉 MLLM 에이전트가 도구 사용을 통해 3D 추론을 수행하는 방식을 탐구한다. 기존 방법들은 3D 시나리오에서 도구를 자주 오용하고 편향된 도구 선호를 보여, 에이전트 패러다임이 비에이전트 전략 대비 미미한 성능 향상만을 보인다. 우리는 3D 공간 추론 과제가 장면에 따라 이질적인 반면, 이러한 에이전트들은 특정 장면과 과제에 따라 도구를 선택하지 않고 모든 장면에 균일한 도구 사용 전략을 적용한다는 점을 밝힌다. 이를 해결하기 위해, 우리는 자기 진화적 장면 인식 스킬을 학습하는 프레임워크인 Skill-3D를 제안한다. 구체적으로, Skill-3D는 과제 장면을 식별하고 에이전트의 도구 사용 궤적을 장면 메모리에 기록하며, 유사한 장면의 성공적인 궤적을 집계하고 증류하여 재사용 가능한 장면 인식 스킬로 만들고, 실패한 궤적은 해당 스킬에 교훈으로 첨부한다. 훈련 중에 유사한 장면이 다시 나타나면 해당 스킬이 주입되어 에이전트를 안내하고, 새로운 궤적을 생성하며, 그 성공과 실패가 스킬을 더욱 정제하여 메모리와 스킬 라이브러리가 공진화하는 루프를 형성한다. 실험 결과, Skill-3D는 3D 공간 추론에서 도구 활용도를 크게 개선하며(VSI-Bench에서 39%에서 78%로), 에이전트를 정확하고 충분한 도구 사용으로 이끈다. 예를 들어, MMSI-Bench에서 Gemini-3-Flash의 성능을 67% 향상시킨다. 또한, 스킬 기반 궤적을 통해 에이전트 사후 훈련을 수행하여 VSI-Bench에서 Qwen3-VL-8B의 성능을 43% 향상시킨다.
대규모 언어 모델(LLM)이 신뢰할 수 있는 다단계 워크플로우를 실행할 수 있도록 하는 것은 인공지능 분야의 핵심 과제가 되었다. 최근 LLM의 에이전트 능력이 발전했음에도 불구하고, 대부분의 에이전트 시스템은 여전히 워크플로우와 실행 궤적을 명세, 검증, 디버깅하기 위한 형식적 방법이 부족하다. 이러한 어려움은 자연어의 모호성이 형식 언어의 개발을 촉진한 수학 분야의 오랜 문제를 반영한다. 이 패러다임에서 영감을 얻어, 우리는 **Lean4Agent**를 제안한다. 이는 저자의 지식 범위 내에서 의존 타입 형식 언어인 Lean4를 사용하여 에이전트 동작을 모델링하고 검증하는 최초의 프레임워크이다. **Lean4Agent**는 **FormalAgentLib**를 도입한다. 이는 명시적 가정 하에 에이전트 워크플로우의 의미적 일관성을 형식적으로 모델링하고 검증하며, 궤적을 통해 드러난 실행 시간 실패의 위치를 파악할 수 있게 해주는 확장 가능한 Lean4 라이브러리이다. **FormalAgentLib**를 기반으로, 우리는 **LeanEvolve**를 추가로 개발하였다. 이는 **FormalAgentLib**의 결과를 워크플로우 개정에 적용하여 그 능력을 향상시킨다. SWE-Bench-Verified의 어려운 문제 부분 집합과 ELAIP-Bench의 일부 부분 집합에 대해 5개의 선도적 LLM을 대상으로 한 광범위한 실험 결과, 검증을 통과한 워크플로우가 실패한 워크플로우보다 평균 **11.94%** 더 우수한 성능을 보였으며, **LeanEvolve**는 SWE 성능을 평균 **7.47%** 추가로 향상시켰다. 더 나아가 **Lean4Agent**는 표현력이 풍부한 의존 타입 형식 언어를 사용하여 에이전트 동작을 형식적으로 모델링하고 검증하는 새로운 연구 분야를 위한 기초를 마련한다.
전문가 혼합(Mixture-of-Experts, MoE)은 현재 최첨단 언어 모델의 지배적인 아키텍처이지만, 모든 전문가 매개변수를 메모리에 적재해야 하므로 메모리 제약이 있는 배포 환경에서는 선호도가 낮다. 기존 압축 방법은 전문가 수를 줄이지만, 출력은 여전히 동일한 근본적 한계를 가진 MoE 모델에 불과하다. 본 연구는 훈련된 MoE를 표준 완전 밀집(fully dense) 아키텍처로 변환하는 최초의 체계적 프레임워크를 제시한다. 즉, 전문가들을 점수화, 선택, 그룹화한 후 결합하여 밀집 FFN(Feed-Forward Network)으로 만들고, MoE 교사 모델로부터의 지식 증류(knowledge distillation)를 통해 정제한다. 우리는 Qwen3-30B-A3B 모델에 대해 다양한 선택된 전문가 수에서 7가지 점수화 방법, 5가지 그룹화 방법, 2가지 크기 조정(magnitude scaling) 방법을 평가하여 총 350개의 설정을 도출했다. 점수화 방법의 선택이 가장 큰 영향을 미치며, 본 연구의 새로운 다양성 인식 점수화(diversity-aware scoring) 방법이 Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B에서 이전 방법들을 일관되게 능가함을 발견했다. 동일한 매개변수 수에서 통제된 비교를 수행한 결과, MoE에서 밀집으로의 변환(MoE-to-dense)은 약 40억 토큰 증류 후 밀집-대-밀집 가지치기(dense-to-dense pruning)보다 평균 하위 작업 정확도에서 +6.3% 포인트 우수했으며, 실제 소요 시간 기준 1.6배 더 빠른 훈련 속도를 보였다.
Reflexion 스타일 에이전트는 스스로 생성한 반성(reflection)을 기억으로 활용하며, 에이전트가 자신의 실패를 정확히 진단할 수 있다는 가정을 암묵적으로 내포한다. 우리는 이 가정이 체계적으로 실패할 수 있음을 보여준다. ALFWorld와 HumanEval 전반에서 에이전트는 확신에 차 있지만 부정확한 작업 해석을 저장하고, 환경이 매 시행마다 올바른 작업으로 재설정됨에도 불구하고 여러 시행에 걸쳐 해당 해석을 바탕으로 계속 행동한다. 우리는 이러한 실패 패턴을 기억 오류(memory confabulation)라고 명명하고, 부정확한 반성 내용에 대한 반복적 의존을 탐지하는 로그 기반 지표인 반성 반복률(Reflection Repetition Rate, RRR)을 도입한다. RRR을 사용하여 ALFWorld에서 16개의 고정(frozen) 환경을 식별했는데, 해당 환경에서는 121개의 반성 중 올바른 대상 객체를 언급한 경우가 0건이었으며, HumanEval에서도 유사한 사례 4건을 발견했다. 우리의 완화 방안은 개방형 자기 진단을 궤적 수준의 실패 신호에 대한 프로그램적 추출로 대체하여, 올바른 객체 언급률을 0%에서 86%로 향상시키고 RRR을 0.64에서 0.10으로 감소시켰으며, 16개의 고정된 ALFWorld 환경 중 3개를 해결하였다. 이는 반성적 기억이 잘못된 신념을 교정하기보다 오히려 강화할 수 있음을 시사한다.
수동 장파장 적외선(LWIR) 초분광 이미징은 원거리 기하 구조에서 대기 흡수 및 방출, 그리고 반사 복사휘도에 의존하므로, 관심 대상에 대한 정보를 얻기 위해서는 대기 보정이 필수적이다. 그러나 그 중요성에도 불구하고, 이러한 보정은 실제적 및 모델링 어려움으로 인해 대부분 간과되어 왔다. 본 논문에서는 서로 다른 원거리 범위에서 수집된 다중 복사휘도 측정값을 입력으로 받아 투과율, 대기 경로 복사휘도, 그리고 공유된 하향 복사 스펙트럼을 공동으로 추정하는 경량 집합 기반 딥러닝 프레임워크를 제시한다. 우리는 희소 오토인코더로 학습된 표현을 분석하였고, 위치 정보 없이도 여러 잠재 특성이 시험 데이터의 지리적으로 일관된 부분집합에서 활성화됨을 관찰하였다. MODTRAN으로 생성된 원거리 LWIR 데이터셋에 대한 실험은 모든 추정 결과에서 낮은 스펙트럼 왜곡을 보여준다. 데이터셋과 코드는 https://factral.co/SAE-LWIR/ 에서 공개적으로 이용 가능하다.
교차 시점 지리적 위치 추정은 지상 이미지를 항공 이미지 데이터베이스와 매칭하여 지리적 위치를 추정하는 작업이다. 기존 방법은 대규모 검색 또는 정밀한 자세 추정 중 하나로 접근하지만, 둘 다를 동시에 수행하지는 않는다. 검색 기반 방법은 넓은 영역 검색이 가능하지만 위치 정확도가 떨어지는 반면, 자세 추정 방법은 좁은 검색 공간 내에서만 높은 정밀도를 달성한다. 이들 파이프라인을 단순히 연쇄적으로 연결하면 오류 전파와 불일치하는 특징 표현이 발생한다. 우리는 교차 시점 지리적 위치 추정을 도시 규모의 검색과 정밀한 3 자유도 자세 추정을 동시에 요구하는 통합 문제로 정식화한다. 본 논문에서는 상호 이익이 되는 특징 학습을 통해 두 작업을 공동으로 수행하는 단일 아키텍처인 CIPER(Cross-view Image-retrieval and Pose-estimation transformER)를 제안한다. CIPER는 작업별 토큰이 있는 공유 트랜스포머 인코더를 사용하여 전역 검색 특징과 공간 위치 단서를 분리한다. 지상과 항공 뷰 간의 큰 도메인 차이를 극복하기 위해, 지상 특징을 양방향 교차 주의를 위한 공간 질의로 사용하는 양방향 트랜스포머 자세 디코더를 도입한다. 또한 집합 예측 전략을 통해 통합 다중 작업 목표 하에서 안정적인 3 자유도 회귀가 가능하다. VIGOR, KITTI, Ford Multi-AV 데이터셋에서의 실험은 특히 제한된 시야와 임의의 방향 조건에서 경쟁력 있는 성능을 보여준다. 코드는 https://github.com/yurimjeon1892/CIPER에서 확인할 수 있다.
참조 없는 충실도 측정법은 모델이 생성한 각 원자적 주장(claim)을 실제 정답(ground truth)에 대조하여 검증하며, 근거 기반 생성(grounded generation)을 평가하는 데 점차 널리 사용되고 있다. 우리는 이들 지표가 공통된 사각지대를 가지고 있음을 보인다. 즉, 이들은 정밀도(precision)만 측정한다(지식된 주장이 뒷받침되는가?). 따라서 모델이 거의 아무 말도 하지 않음으로써 완벽에 가까운 충실도를 얻을 수 있기 때문에, 발언 회피(abstention)에 보상을 준다. 우리는 이를 포뮬러 원 텔레메트리(Formula 1 telemetry)를 사용하여 측정 가능하게 만든다. 이 도메인에서는 전략적 실제 정답이 결정론적으로 도출되며, 결정적으로 완전하게(completely) 도출된다. 즉, 각 결정에 대해 중요했던 전체 사실 집합이 알려져 있다. 이러한 완전성(completeness)은 개방 도메인 충실도 벤치마크에서는 결여된 요소로, 우리가 정밀도와 함께 재현율(recall, 관련 사실의 포괄 범위)을 정확하게 측정할 수 있게 해준다. 150개 레이스에 걸친 7,253개의 결정 사례로 구성된 다국어(EN/ES/PT) 벤치마크에서, 가장 정밀한 최첨단 모델은 관련 사실의 절반 이하만을 포괄하며 F1 점수 기준 최하위를 기록했다. 따라서 포괄 범위(coverage)를 요구하면 시스템 순위가 재구성된다. 동일한 효과는 두 번째 완전 오라클(complete-oracle) 도메인(NOAA 기상 예보)에서도 재현된다. 프롬프트 제거 실험(prompt ablation)은 낮은 포괄 범위가 부족한 프롬프팅에 의한 인공물이 아님을 보여준다. 모델에게 철저할 것을 명시적으로 요청해도 그 격차가 좁혀지지 않는다. 우리는 충실도를 포괄 범위와 하나의 점수로 결합하고, 해당 지표를 검증한다(통제된 교란, 모델 없는 정규식 추출기와 교차 계열 LLM 추출기 간 일치도, 시스템 수준 스피어만 상관계수 1.0). 또한 참조 없이 정밀도와 재현율을 모두 향상시키는 검증자 기반 생성 방법(verifier-guided generation method)을 제시한다. 우리는 벤치마크, 구조화된 주석, 지표, 기준선 및 대화형 데모를 공개한다.
대규모 언어 모델(LLM)은 문맥 내 학습(in-context learning)을 통해 언어적 자원을 통합함으로써 극소수 자원 언어에 대한 기계 번역(MT)에 유망한 접근 방식을 제공한다. 그러나 LLM은 종종 번역 과정에서 문법적 정보를 효과적으로 적용하는 데 어려움을 겪는다. 최근 연쇄 추론(chain-of-thought reasoning)의 진전에 영감을 받아, 우리는 저자원 언어 번역이 구조화된 중간 단계의 언어 분석 및 문법 추론의 이점을 얻을 수 있는지 조사한다. 우리는 Universal Dependencies 트리뱅크, 사전 및 문법 규칙 뱅크로부터 단계별 언어 추론 궤적을 자동으로 생성하는 파이프라인을 제안한다. 이 궤적을 시베어와 친탕어를 테스트 사례로 하여 문맥 내 학습(ICL), 지도 미세 조정(SFT), 강화 미세 조정(RFT)의 세 가지 설정에서 평가한다. 결과는 언어 추론 궤적이 추론 시점의 지침(inference-time guidance)으로 가장 효과적임을 보여준다: ICL에서 신뢰할 수 있는 문장별 궤적은 대부분의 모델, 언어 및 지표에서 번역 성능을 크게 향상시킨다. 반면, 언어 추론 궤적을 훈련 데이터로 사용할 경우 모델이 궤적 형식은 학습하지만 종종 오류가 포함된 내용을 생성함에 따라 개선 폭이 작고 일관성이 낮다. 이러한 결과는 LLM이 신뢰할 수 있는 언어 분석이 주어질 때 저자원 번역에 문법 정보를 활용할 수 있지만, 그러한 분석을 생성하는 방법을 학습하는 것은 여전히 주요 병목 현상임을 시사한다.
기업용 속성 그래프는 스키마 구조, 내부 용어, 도메인 가정, 거버넌스 제약 조건, 사용자 상호작용 패턴에 있어 광범위한 차이를 보인다. 따라서 배포에 적합한 Text2Cypher 벤치마크는 사용자와 에이전트가 해당 그래프에 실제로 묻는 질문을 반영해야 한다. 이러한 벤치마크를 생성하는 것은 스키마와 값이 고유하고 그래프 구조가 시간에 따라 변화하기 때문에 어렵다. 또한 각 자연어-질의 쌍은 실행 가능해야 하고, 실제 그래프 엔터티를 사용해야 하며, 다양성을 유지해야 하고, 질의 유형과 난이도 전반에 걸쳐 균형을 이루어야 한다. 우리는 PIPE-Cypher를 제시한다. 이는 라이브 속성 그래프와 고객 문의, 분석가 로그 또는 에이전트 도구 호출에서 추출한 선택적 시드 질의를 균형 잡힌 자연어-Cypher 벤치마크로 변환하는 로컬 벤치마크 생성 파이프라인이다. PIPE-Cypher는 스키마 프로파일링, 역질의 그라운딩, 제약 조건 생성, 결정론적 Cypher 거버넌스, 실행 검증, 편집, 다양성 제어, 보정된 로컬 LLM 평가자를 결합한다. 로컬 Qwen3.5-9B 생성 및 평가를 사용하여 PIPE-Cypher는 3,000개의 승인된 FinBench/SNB 예제를 내보내고, 세 번의 감사된 절제 실험을 완료하며, 인간 레이블로 평가자 행동을 보정하고, 11개의 로컬 다운스트림 모델을 평가한다. 결과 벤치마크는 의도적으로 변별적이다: 제로샷 전이는 약하지만, 퓨샷 제어는 스키마별 예제 뱅크가 호환 가능한 모델 패밀리에 도움이 될 수 있음을 보여준다. 종합적으로 PIPE-Cypher는 Text2Cypher 벤치마킹을 그래프, 사용자 및 대상 워크로드와 함께 진화하는 반복 가능한 프로세스로 만든다.
EMMA는 물리 정보 기반의 다중 양식 프레임워크로, 원시 비디오, 오디오 및 이미지 기반 시계열 관측으로부터 시스템의 모든 식별 가능한 동적 매개변수를 직접 복구한다. 이전의 비디오 전용 접근법이 가려진 상태, 숨겨진 작동 입력, 또는 알려진 초기 조건 및 좌표 프레임에 대한 가정에 어려움을 겪는 반면, EMMA는 통합 연속 시간 모델 내에서 명시적 매개변수, 암시적 동적 구성요소 및 교정 불변량의 결합 추론을 수행한다. EMMA는 Liquid Time-Constant (LTC) 네트워크를 활용하여 이종 양식에서 잠재 역학을 학습하는 동시에, 물리 제약 손실이 지배 미분 방정식과의 일관성을 강제한다. 통합 특징 파이프라인은 비디오 궤적, 음향 신호 및 차트 기반 측정 간의 일관된 정렬을 가능하게 하여, EMMA가 세분화 마스크, 미분 가능 렌더링 또는 특수 센서 없이 강제, 암시적 및 다변량 역학 하에서 매개변수를 추정할 수 있게 한다. EMMA는 5개의 표준 동적 벤치마크(75개의 Delfys 비디오), 숨겨진 입력이 있는 실제 로버 및 쿼드로터 시스템, 생물학적 및 혼돈 시스템을 포괄하는 시뮬레이션-차트 사례 연구 등 100개 이상의 시나리오에서 강력한 다중 매개변수 복구를 제공하며, 기존의 단일 양식 및 방정식 발견 기준선을 크게 능가한다. 우리의 결과는 EMMA를 기회적 다중 양식 데이터로부터 물리적으로 일관된 모델 추출을 위한 일반적이고 확장 가능한 솔루션으로 확립한다. 코드와 데이터는 다음에서 확인할 수 있다: https://github.com/ImpactLabASU/EMMA-CVPR2026