번역이 포함된 일일 선별된 AI 연구 논문
고품질 공개 텍스트가 고갈되는 이른바 '데이터 벽' 현상에 직면하면서, 사전 학습은 더 많은 토큰에서 더 나은 토큰으로 패러다임이 전환되고 있습니다. 그러나 기존 방법들은 훈련 동역학을 무시하는 휴리스틱 정적 필터에 의존하거나, 원시 그래디언트에 기반한 동적이지만 옵티마이저-불가지론적 기준을 사용합니다. 본 연구에서는 옵티마이저가 유도한 업데이트 공간에서 유용성을 정의하는 동적 데이터 선택 프레임워크인 OPUS(Optimizer-induced Projected Utility Selection)를 제안합니다. OPUS는 현대적 옵티마이저에 의해 형성된 후보 데이터의 효과적 업데이트를 안정적인 인-분포 프록시에서 도출된 목표 방향으로 투영하여 점수를 매깁니다. 확장성을 보장하기 위해 계산 효율을 위한 CountSketch 기반 Ghost 기법과 데이터 다양성을 위한 Boltzmann 샘플링을 적용하여 단 4.7%의 추가 계산 오버헤드만 발생시킵니다. OPUS는 다양한 코퍼스, 품질 계층, 옵티마이저, 모델 규모에서 뛰어난 성과를 거듭습니다. FineWeb 및 FineWeb-Edu의 30B 토큰으로 GPT-2 Large/XL을 사전 학습할 때, OPUS는 산업 수준의 베이스라인과 200B 토큰 전체 학습을 능가하는 성능을 보여줍니다. 나아가 산업 수준 정적 필터와 결합 시, 낮은 품질의 데이터에서도 사전 학습 효율을 추가로 향상시킵니다. 또한 SciencePedia에서 Qwen3-8B-Base의 지속 사전 학습 시, OPUS는 3B 토큰 전체 학습 대비 단 0.5B 토큰만으로도 우수한 성능을 달성하여 특화된 도메인에서의 상당한 데이터 효율성 향상을 입증합니다.
자율 GUI 에이전트는 인터페이스를 인지하고 행동을 실행함으로써 환경과 상호작용합니다. 가상 샌드박스인 GUI World 모델은 행동 조건부 예측을 가능하게 함으로써 에이전트에 인간과 유사한 예지력을 부여합니다. 그러나 기존의 텍스트 및 픽셀 기반 접근법은 높은 시각적 정확도와 세밀한 구조적 제어 가능성을 동시에 달성하는 데 어려움을 겪습니다. 이를 위해 우리는 렌더링 가능한 코드 생성을 통해 다음 시각적 상태를 시뮬레이션하는 vision-language 코드 생성기인 Code2World를 제안합니다. 구체적으로, 데이터 부족 문제를 해결하기 위해 AndroidCode를 구축하여 GUI 궤적을 고품질 HTML로 변환하고 시각적 피드백 수정 메커니즘을 통해 합성된 코드를 정제하여 80,000개 이상의 고품질 화면-행동 쌍 코퍼스를 생성했습니다. 기존 VLM을 코드 예측에 적용하기 위해 먼저 형식 레이아웃 준수를 위한 콜드 스타트로 SFT를 수행한 다음, 시각적 의미론적 정확도와 행동 일관성을 강화하여 렌더링 결과를 보상 신호로 사용하는 Render-Aware Reinforcement Learning을 추가로 적용합니다. 폭넓은 실험을 통해 Code2World-8B가 최고 수준의 다음 UI 예측 성능을 달성하며, 경쟁력 있는 GPT-5 및 Gemini-3-Pro-Image에 버금가는 성과를 보임을 입증했습니다. 특히 Code2World는 유연한 방식으로 다운스트림 탐색 성공률을 크게 향상시켜 AndroidWorld 탐색에서 Gemini-2.5-Flash의 성능을 +9.5% 향상시켰습니다. 코드는 https://github.com/AMAP-ML/Code2World에서 확인할 수 있습니다.
GUI 에이전트는 디지털 환경에서의 상호작용 자동화를 위한 강력한 패러다임으로 부상했으나, 광범위한 일반성과 일관되게 높은 작업 성능을 동시에 달성하는 것은 여전히 과제로 남아 있습니다. 본 보고서에서는 견고한 실전 응용을 위해 설계된 통합 엔드투엔드 GUI 에이전트인 UI-Venus-1.5를 소개합니다. 제안된 모델 패밀리는 다양한 다운스트림 응용 시나리오를 충족하기 위해 두 가지 Dense 변종(2B, 8B)과 하나의 Mixture-of-Experts 변종(30B-A3B)으로 구성됩니다. 이전 버전과 비교하여 UI-Venus-1.5는 세 가지 핵심 기술적 발전을 도입했습니다: (1) 30개 이상의 데이터셋에 걸쳐 100억 토큰을 활용한 포괄적인 중간 학습(Mid-Training) 단계를 통해 기초적인 GUI 의미론을 확립하고, (2) 전체 궤적 롤아웃을 통한 온라인 강화 학습으로 대규모 환경에서의 장기적, 동적 탐색에 학습 목표를 정렬하며, (3) 모델 병합(Model Merging)을 통해 도메인 특화 모델(그라운딩, 웹, 모바일)을 하나의 통합된 체크포인트로 합성하여 단일 통합 GUI 에이전트를 구축했습니다. 광범위한 평가 결과, UI-Venus-1.5는 ScreenSpot-Pro(69.6%), VenusBench-GD(75.0%), AndroidWorld(77.6%)와 같은 벤치마크에서 새로운 최첨단 성능을确立하며, 이전의 강력한 기준선들을 크게 능가하는 것으로 나타났습니다. 또한 UI-Venus-1.5는 다양한 중국 모바일 앱에서 견고한 탐색 능력을 보여주며, 실제 시나리오에서 사용자 지시를 효과적으로 실행합니다. 코드: https://github.com/inclusionAI/UI-Venus; 모델: https://huggingface.co/collections/inclusionAI/ui-venus
인간의 문제 해결은 단일한 사고 방식, 즉 인지 처리의 독특한 모드의 반복으로 이루어지지 않습니다. 특정 과제를 해결할 때 우리는 단일 사고 방식에 의존하지 않으며, 대신 단일 해결 과정 내에서 여러 사고 방식을 통합합니다. 그러나 기존의 LLM 추론 방법은 흔한 함정에 빠지는데, 바로 모든 단계에 동일한 고정된 사고 방식을 적용하여 동일한 문제를 해결하는 다른 단계가 근본적으로 다른 사고 방식을 필요로 한다는 점을 간과한다는 것입니다. 이러한 단일 사고 방식 가정은 모델이 다음 수준의 지능에 도달하는 것을 방해합니다. 이러한 한계를 해결하기 위해 우리는 단계별 적응형 사고 방식 조정을 가능하게 하는 학습이 필요 없는 에이전트 기반 프레임워크인 Chain of Mindset(CoM)을 제안합니다. CoM은 추론을 공간적, 수렴적, 확산적, 알고리즘적이라는 네 가지 기능적으로 이질적인 사고 방식으로 분해합니다. 메타 에이전트는 변화하는 추론 상태에 기반하여 최적의 사고 방식을 동적으로 선택하는 반면, 양방향 컨텍스트 게이트는 모듈 간 정보 흐름을 필터링하여 효과성과 효율성을 유지합니다. 수학, 코드 생성, 과학적 질의응답, 공간 추론에 이르는 여섯 가지 도전적인 벤치마크에서의 실험을 통해 CoM이 최첨단 성능을 달성함을 입증했습니다. Qwen3-VL-32B-Instruct와 Gemini-2.0-Flash에서 전체 정확도 기준으로 가장 강력한 기준 모델을 각각 4.96%, 4.72% 앞섰으며, 동시에 추론 효율성의 균형을 유지했습니다. 우리의 코드는 https://github.com/QuantaAlpha/chain-of-mindset 에 공개되어 있습니다.
대규모 언어 모델(LLM) 에이전트는 복잡한 작업에서 놀라운 성과를 보여주지만, 종종 고립되어 작동하여 과거 경험으로부터 학습하지 못하는 경우가 많습니다. 기존의 메모리 기반 방법은 주로 원시 궤적을 저장하는데, 이는 종종 중복되고 노이즈가 많습니다. 이로 인해 에이전트가 일반화에 필수적인 높은 수준의 재사용 가능한 행동 패턴을 추출하는 것이 어렵습니다. 본 논문에서는 자동 스킬 발견과 재귀적 진화를 통해 원시 경험과 정책 개선 사이의 간극을 메우는 SkillRL 프레임워크를 제안합니다. 우리의 접근법은 계층적 스킬 라이브러리 SkillBank를 구축하기 위한 경험 기반 정제 메커니즘, 일반적 및 작업 특화적 휴리스틱을 위한 적응형 검색 전략, 그리고 강화 학습 과정에서 스킬 라이브러리가 에이전트 정책과 공동으로 진화하도록 하는 재귀적 진화 메커니즘을 도입합니다. 이러한 혁신은 토큰 사용량을 크게 줄이면서 추론 효용을 향상시킵니다. ALFWorld, WebShop 및 7개의 검색 보강 작업에 대한 실험 결과는 SkillRL이 최첨단 성능을 달성하여 강력한 베이스라인 대비 15.3% 이상 우수한 성능을 보이며 작업 복잡성이 증가함에 따라 견고성을 유지함을 입증합니다. 코드는 https://github.com/aiming-lab/SkillRL에서 확인할 수 있습니다.
기호적 조작에서 과학 수준의 추론으로의 전환은 대규모 언어 모델(LLM)의 중추적 전선을 나타내며, 물리학은 추상적 논리를 물리적 현실에 결속시키는 중요한 시험 장치 역할을 합니다. 물리학은 모델이 우주를 지배하는 법칙과 물리적 일관성을 유지할 것을 요구하는데, 이는 근본적으로 추상적 논리를 현실에 기초하기 위해 다중모드 인식을 필요로 하는 과제입니다. 올림피아드 수준에서는 도해가 단순히 설명을 위한 것이 아니라 구성적 요소인 경우가 많으며, 경계 조건 및 공간 대칭성과 같이 텍스트에는 누락된 필수 제약 조건을 포함합니다. 이러한 시각-논리 간극을 해소하기 위해 우리는 고급 과학적 추론을 위해 설계된 오픈소스 비전-언어 모델 패밀리인 P1-VL을 소개합니다. 우리의 방법은 점진적 난이도 확장을 통해 사후 훈련을 안정화하는 커리큘럼 강화 학습과 추론 시 반복적 자가 검증을 가능하게 하는 에이전트 증강을 조화롭게 통합합니다. 2024-2025년 13개 대회로 구성된 엄격한 벤치마크인 HiPhO에서 평가된 우리의 플래그십 모델 P1-VL-235B-A22B는 12개의 금메달을 획득한 최초의 오픈소스 VLM이 되며 오픈소스 모델 중 최첨단 성능을 달성했습니다. 우리의 에이전트 증강 시스템은 Gemini-3-Pro에 이어 전 세계 종합 순위 2위를 기록했습니다. 물리학을 넘어, P1-VL은 놀라운 과학적 추론 능력과 일반화 능력을 입증하며 STEM 벤치마크에서 기본 모델 대비 상당한 선두 지위를 확립했습니다. P1-VL을 오픈소스로 공개함으로써 우리는 기계의 과학적 발견을 위해 시각적 인식을 추상적 물리 법칙과 더 잘 조정하는 범용 물리 지능을 향한 기초적인 단계를 제공합니다.
대규모 언어 모델(LLM)의 최근 발전으로 자율 에이전트가 도구 및 환경과의 다중 회상 상호작용이 필요한 복잡한 작업을 수행할 수 있게 되었습니다. 그러나 다양한 환경의 부족으로 인해 이러한 에이전트 학습의 확장에는 한계가 있습니다. 본 논문에서는 완전 합성 환경 생성 파이프라인인 Agent World Model(AWM)을 제안합니다. 이 파이프라인을 사용하여 일상적인 시나리오를 아우르는 1,000개의 환경으로 확장하며, 에이전트가 풍부한 도구 세트(환경당 평균 35개 도구)와 상호작용하고 고품질의 관측값을 얻을 수 있습니다. 특히 이러한 환경은 코드 기반이며 데이터베이스로 지원되어, LLM으로 시뮬레이션된 환경보다 더 신뢰할 수 있고 일관된 상태 전이를 제공합니다. 또한 현실적인 환경에서 궤적을 수집하는 것에 비해 더 효율적인 에이전트 상호작용이 가능합니다. 이 자원의 효과를 입증하기 위해 다중 회상 도구 사용 에이전트에 대한 대규모 강화 학습을 수행합니다. 완전히 실행 가능한 환경과 접근 가능한 데이터베이스 상태 덕분에 신뢰할 수 있는 보상 함수를 설계할 수도 있습니다. 3개의 벤치마크에서의 실험 결과, 벤치마크 특화 환경이 아닌 합성 환경에서만 학습하더라도 강력한 분포 외 일반화 성능을 보여줍니다. 코드는 https://github.com/Snowflake-Labs/agent-world-model 에서 확인할 수 있습니다.
블록 희소 주의(block-sparse attention)는 장문 컨텍스트 LLM 사전 채우기(pre-filling) 속도 향상에 유망하지만, 관련 블록을 효율적으로 식별하는 것은 여전히 병목 현상으로 남아 있습니다. 기존 방법들은 일반적으로 블록 중요도 추정을 위한 대리 지표로 coarse-grained attention을 사용하지만, 종종 비용이 많이 드는 토큰 수준 검색 또는 스코어링에 의존하여 상당한 선택 오버헤드를 초래합니다. 본 연구에서는 평균 풀링(mean pooling)을 사용하는 표준 coarse-grained attention의 부정확성 원인을 Rotary Positional Embeddings (RoPE)와의 이론적 상호작용으로 추적합니다. 우리는 평균 풀링이 고주파 차원에서 파괴적 간섭을 유발하는 저역통과 필터 역할을 하여, 국소 위치 정보(예: 슬래시 패턴)에 대한 "시각 사각지대"를 효과적으로 생성함을 증명합니다. 이를 해결하기 위해 우리는 훈련이 필요 없는 스펙트럼 인식 접근법인 Prism을 소개합니다. Prism은 블록 선택을 고주파 및 저주파 브랜치로 분해합니다. 에너지 기반 온도 보정(energy-based temperature calibration)을 적용함으로써, Prism은 풀링된 표현에서 직접 감쇠된 위치 신호를 복원하여 순수하게 블록 수준 연산만으로 블록 중요도 추정을 가능하게 하여 효율성을 향상시킵니다. 광범위한 평가를 통해 Prism은 전체 주의(full attention)와 동등한 정확도를 유지하면서 최대 5.1배의 속도 향상을 제공함을 확인했습니다.
최근 확산 대형 언어 모델(dLLM)은 본질적으로 병렬적인 디코딩 메커니즘과 유연한 생성 패러다임 덕분에 독특한 효율성 이점을 보여주고 있습니다. 한편, 검색 에이전트의 급속한 발전에도 불구하고, 그 실제 배포는 다음과 같은 근본적인 한계에 의해 제약을 받고 있습니다. 1) 지연 시간 문제(Latency Challenge): ReAct 에이전트 패러다임 하에서 다중 라운드 추론, 도구 호출, 도구 응답 대기가 순차적으로 실행되며 심각한 종단 간 지연을 유발합니다. 직관적으로, dLLM은 그 독특한 강점을 활용하여 ReAct 에이전트 패러다임 하에서 에이전트의 운영 효율성을 최적화할 수 있습니다. 그러나 실제로는 기존 dLLM 백본이 2) 에이전트 능력 문제(Agent Ability Challenge)에 직면해 있습니다. 즉, 기존 dLLM은 현저히 약한 추론 및 도구 호출 능력을 보여주어, 이러한 이점이 실제로 효과적으로 구현되는 것을 방해하고 있습니다. 본 논문에서는 dLLM 기반 검색 에이전트를 위한 최적화 프레임워크인 DLLM-Searcher를 제안합니다. 에이전트 능력 문제를 해결하기 위해, 우리는 에이전트 특화 감독 미세 조정(Agentic SFT)과 에이전트 분산 감소 선호도 최적화(Agentic VRPO)를 포함하는 두 단계의 사후 훈련 파이프라인을 설계하여 백본 dLLM의 정보 탐색 및 추론 능력을 향상시킵니다. 지연 시간 문제를 완화하기 위해, 우리는 dLLM의 유연한 생성 메커니즘을 활용하고 병렬 추론 및 실행(P-ReAct)이라는 새로운 에이전트 패러다임을 제안합니다. P-ReAct은 모델이 도구 호출 명령어의 디코딩을 우선시하도록 유도하여, 모델이 도구의 반환을 기다리는 동안에도 계속 생각할 수 있게 합니다. 실험 결과, DLLM-Searcher는 주류 LLM 기반 검색 에이전트에 필적하는 성능을 달성하며 P-ReAct은 약 15%의 추론 가속을 제공함을 보여줍니다. 우리의 코드는 https://anonymous.4open.science/r/DLLM-Searcher-553C에서 확인할 수 있습니다.
행동 제어 가능한 세계 모델의 확장은 행동 레이블의 부족으로 인해 제한됩니다. 잠재 행동 학습이 레이블 없는 비디오에서 제어 인터페이스를 추출할 수 있지만, 학습된 잠재 변수들은 종종 맥락 간 전이에 실패합니다: 이들은 장면별 단서와 얽히고 공유 좌표계가 부족합니다. 이는 표준 목적 함수가 각 클립 내에서만 작동하여 맥락 간 행동 의미를 정렬할 메커니즘을 제공하지 않기 때문입니다. 우리의 핵심 통찰은 행동이 관찰되지 않더라도 그 의미적 효과는 관찰 가능하며 공유 기준점으로 기능할 수 있다는 것입니다. 우리는 시퀀스 수준의 제어-효과 정렬 목적 함수인 SeqΔ-REPA를 소개합니다. 이는 통합 잠재 행동을 고정된 자기 지도 비디오 인코더의 시간적 특징 차이에 정착시킵니다. 이를 기반으로 대규모 수동적 비디오에서 행동 조건 비디오 세계 모델을 사전 학습하는 Olaf-World 파이프라인을 제시합니다. 광범위한 실험을 통해 우리의 방법이 더 구조화된 잠재 행동 공간을 학습하여 최첨단 기준선 대비 향상된 제로샷 행동 전이 성능과 새로운 제어 인터페이스에 대한 더 높은 데이터 효율성 적응력을 보여줌을 입증합니다.
우리는 전문가 워크플로우 기반 이미지 편집을 연구하며 다음과 같은 세 가지 지속적인 과제를 확인했습니다: (i) 편집자가 사용자의 의도를 넘어서 콘텐츠를 수정하는 과편집(over-edit) 문제, (ii) 기존 모델이 대부분 단일 회차(single-turn)에 그쳐 다회차 편집 시 객체 정확도(object faithfulness)가 저하되는 문제, (iii) 약 1K 해상도에서의 평가가 실제 4K 등 초고해상도 이미지를 다루는 워크플로우와 동떨어진 문제입니다. 이를 해결하기 위해 우리는 고정밀도, 객체 인식, 숙고적(deliberative) 편집을 위한 계층적 에이전트 기반 플래너-실행자 프레임워크인 Agent Banana를 제안합니다. Agent Banana는 두 가지 핵심 메커니즘을 도입합니다: (1) 긴 상호작용 기록을 구조화된 메모리로 압축하여 안정적인 장기적 제어를 가능하게 하는 컨텍스트 폴딩(Context Folding)과 (2) 비대상 영역을 보존하면서 원본 해상도 출력을 가능하게 하는 지역적 레이어 기반 편집을 수행하는 이미지 레이어 분해(Image Layer Decomposition)입니다. 엄격한 평가를 지원하기 위해 검증 가능한 단계별 목표와 원본 4K 이미지(1,180만 화소)를 특징으로 하는 고해상도 대화형 벤치마크 HDD-Bench를 구축하여 장기적 실패 요인을 진단합니다. HDD-Bench에서 Agent Banana는 최고 수준의 다회차 일관성과 배경 정확도(예: IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12)를 달성하면서도 지시 따르기 평가에서 경쟁력을 유지했으며, 기존 단일 회차 편집 벤치마크에서도 강력한 성능을 보였습니다. 본 연구가 신뢰할 수 있는 전문가급 에이전트 이미지 편집과 실제 워크플로우 통합에 기여하기를 바랍니다.
자기회귀 비디오 생성은 이전에 생성된 프레임들을 조건으로 삼아 새로운 프레임들을 반복적으로 생성함으로써 긴 동영상 합성을 가능하게 합니다. 그러나 최근 연구에 따르면 이러한 파이프라인은 심각한 시간적 드리프트 현상으로 인해 오류가 장기간 누적 및 증폭되는 문제가 발생합니다. 우리는 이러한 드리프트가 주로 모델 용량 부족에서 기인하는 것이 아니라 추론 시점의 오류 전파에서 비롯된다고 가정합니다. 구체적으로, 드리프트는 자기회귀 추론 과정에서 손상된 잠재 조건 토큰이 통제되지 않은 채 재사용되면서 발생한다고 주장합니다. 이러한 오류 누적을 해결하기 위해 우리는 조건으로 재사용되기 전에 불안정한 잠재 토큰을 식별 및 제거함으로써 시간적 드리프트를 완화하는 간단한 추론 시점 방법을 제안합니다. 이를 위해 불안정 토큰을 이전에 생성된 배치의 표현과 현저히 벗어나 잠재적 손상이나 의미적 드리프트를 나타내는 잠재 토큰으로 정의합니다. 전체 공간 영역이나 모델 파라미터를 수정하는 대신 자기회귀 컨텍스트에서 손상된 잠재 토큰을 명시적으로 제거함으로써, 우리의 방법은 신뢰할 수 없는 잠재 정보가 미래 생성 단계에 영향을 미치는 것을 방지합니다. 그 결과, 모델 구조나 학습 절차를 수정하거나 잠재 공간을 이탈하지 않으면서도 장기간의 시간적 일관성을 크게 향상시킵니다.
최근 연구에서는 자기회귀 모델을 이미지 생성에 적용한 결과가 유망하게 나타났으며, 확산 모델과 자기회귀 프레임워크를 결합하여 확산 손실을 통해 이미지 생성을 최적화하는 방법이 탐구되었습니다. 본 연구에서는 확산 손실을 적용한 확산 모델과 자기회귀 모델에 대한 이론적 분석을 제시하며, 후자의 장점을 부각합니다. 조건부 확산과 확산 손실을 활용한 자기회귀적 확산 모델을 이론적으로 비교함으로써, 자기회귀 모델에서의 패치 잡음 제거 최적화가 조건 오류를 효과적으로 완화하고 안정적인 조건 분포를 도출함을 입증합니다. 또한 우리의 분석은 자기회귀적 조건 생성이 조건을 정제함에 따라 조건 오류의 영향이 기하급수적으로 감소함을 보여줍니다. 더불어 '조건 불일치' 문제를 해결하기 위해 최적 수송 이론에 기반한 새로운 조건 정제 접근법을 소개합니다. 조건 정제를 바써르슈타인 기울기 흐름으로 공식화하면 이상적인 조건 분포로의 수렴이 보장되어 조건 불일치를 효과적으로 완화할 수 있음을 이론적으로 입증합니다. 실험 결과, 우리의 방법이 확산 손실을 활용한 기존 확산 및 자기회귀 모델보다 우수한 성능을 보임을 확인하였습니다.
비전-언어-행동(VLA) 모델은 범용 로봇 제어를 위한 유망한 패러다임으로 부상했으며, 훈련 이상의 강인성을 향상시키기 위한 테스트 타임 스케일링(TTS)이 주목받고 있다. 그러나 기존 VLA용 TTS 방법은 추가 훈련, 검증기, 다중 순전파 패스를 필요로 하여 실제 배포에 비실용적이다. 또한 이들은 시각 표현을 고정한 채 행동 디코딩 시점에만 개입하는데, 인지적 모호성 하에서는 어떻게 인지할지 재고하는 것이 무엇을 할지 결정하는 것만큼 중요하므로 이는 불충분하다. 이러한 한계를 해결하기 위해 우리는 추가 훈련이나 검증기 없이 단일 순전파만으로 실행 가능한 'SCALE'을 제안한다. 능동 추론 이론의 불확실성 주도 탐색에서 영감을 받은 SCALE은 '자기-불확실성'을 기반으로 시각 인지와 행동을 공동으로 조절한다. SCALE은 높은 불확실성 하에서 인지와 행동 모두에서 탐색 범위를 확대하고, 확신할 때는 활용에 집중함으로써 다양한 조건에 걸친 적응형 실행을 가능하게 한다. 시뮬레이션 및 실제 환경 벤치마크 실험을 통해 SCALE이 최첨단 VLA 모델을 개선하고 기존 TTS 방법을 능가하는 동시에 단일 패스 효율성을 유지함을 입증하였다.
대규모 언어 모델(LLM)을 시각-언어 모델(VLM)로 변환하는 것은 비전 인코더의 시각 토큰을 LLM의 임베딩 공간에 매핑하는 방식으로 달성할 수 있습니다. 흥미롭게도, 이러한 매핑은 얕은 MLP 변환만으로도 가능합니다. LLM이 시각 토큰을 쉽게 처리할 수 있는 이유를 이해하려면, LLM 처리의 모든 계층에서 시각 토큰 표현에 무엇이 인코딩되었는지 밝혀주는 해석 가능성 방법이 필요합니다. 본 연구에서는 잠재 표현을 자연어 설명으로 매핑하는 새로운 접근법인 LatentLens를 소개합니다. LatentLens는 대규모 텍스트 코퍼스를 인코딩하고 해당 코퍼스의 각 토큰에 대한 문맥화된 토큰 표현을 저장하는 방식으로 작동합니다. 그런 다음 시각 토큰 표현을 문맥화된 텍스트 표현과 비교하며, 최상위 k개의 최근접 이웃 표현이 시각 토큰에 대한 설명을 제공합니다. 우리는 이 방법을 10가지 다른 VLM에 대해 평가하여, LogitLens와 같은 일반적으로 사용되는 방법들이 시각 토큰의 해석 가능성을 상당히 과소평가한다는 것을 보여줍니다. 반면 LatentLens를 사용하면 연구된 모든 모델과 모든 계층에서 대부분의 시각 토큰이 해석 가능합니다. 정성적으로 볼 때, LatentLens가 생성하는 설명은 의미론적으로 의미 있으며 개별 토큰에 비해 인간이 이해하기에 더 세분화된 해석을 제공합니다. 더 넓게 보면, 우리의 연구 결과는 시각과 언어 표현 간의 정렬에 대한 새로운 증거를 제시하며, 잠재 표현 분석을 위한 새로운 방향을 열어줍니다.
보유 에이전트에게 작업을 추론하고 물리적 결과를 예측하며 정확한 행동을 생성하는 능력을 갖추는 것은 범용 조작을 위해 필수적입니다. 최근 Vision-Language-Action (VLA) 모델들은 사전 훈련된 파운데이션 모델을 활용해 왔지만, 이들은 일반적으로 언어적 계획 수립이나 시각적 예측 중 한 가지만 단독으로 중점적으로 다룹니다. 이러한 방법들은 행동 생성을 안내하기 위해 두 능력을 동시에 통합하는 경우가 드물어, 복잡하고 장기적인 조작 작업에서 최적의 성능을 내지 못합니다. 이러한 격차를 해소하기 위해 우리는 언어적 계획 수립, 시각적 예측, 행동 생성을 단일 프레임워크 내에 통합한 통합 모델인 BagelVLA를 제안합니다. 사전 훈련된 통합 이해 및 생성 모델로 초기화된 BagelVLA는 텍스트 추론과 시각 예측을 행동 실행 루프에 직접 연계하도록 훈련됩니다. 이러한 모달리티를 효율적으로 결합하기 위해, 우리는 현재 관측으로부터 초기화하고 단일 단계 디노이징을 활용하여 예측적인 시각 특징을 추출하며, 최소 지연 시간으로 행동 생성을 안내하는 Residual Flow Guidance (RFG)를 도입했습니다. 광범위한 실험을 통해 BagelVLA가 여러 시뮬레이션 및 실제 환경 벤치마크에서, 특히 다단계 추론이 필요한 작업에서 기존 베이스라인을 큰 차이로 능가함을 입증했습니다.
다양한 시나리오에 적응 가능한 일반형 에이전트를 훈련시키기 위해서는 자가 탐색을 위한 상호작용 환경이 필요합니다. 그러나 상호작용 환경은 여전히 심각하게 부족한 실정이며, 기존 환경 합성 방법론은 환경 다양성과 확장성 측면에서 상당한 한계를 지니고 있습니다. 이러한 문제를 해결하기 위해 우리는 완전한 상호작용 환경과 검증 가능한 작업을 처음부터 구축하는 프레임워크인 ScaleEnv를 제안합니다. 구체적으로 ScaleEnv는 절차적 테스트를 통해 환경 신뢰성을 보장하며, 도구 의존성 그래프 확장과 실행 가능 액션 검증을 통해 작업 완전성과 해결 가능성을 보장합니다. ScaleEnv 내에서 탐색을 통해 에이전트가 학습하도록 함으로써, τ^2-Bench 및 VitaBench와 같은 unseen 다중-턴 도구 사용 벤치마크에서 뚜렷한 성능 향상을 입증하여 강력한 일반화 능력을 입증했습니다. 나아가 우리는 도메인 수 증가와 모델 일반화 성능 간의 관계를 분석함으로써, 환경 다양성 확장이 강건한 에이전트 학습에 중요하다는 경험적 증거를 제시합니다.
인터넷 규모의 비디오 데이터로 Vision-Language-Action(VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 잠재 행동 목표 함수는 종종 잘못된 것을 학습합니다. 이 방법들은 행동과 관련된 상태 전환이 아닌 픽셀 변화에 기반하여 외관 편향, 불필요한 운동, 정보 누출에 취약합니다. 우리는 이러한 함정을 설계 단계에서 회피하는 JEPA 방식의 사전 학습 프레임워크인 VLA-JEPA를 소개합니다. 핵심 아이디어는 정보 누출이 없는 상태 예측입니다. 타겟 인코더는 미래 프레임에서 잠재 표현을 생성하는 반면, 학생 경로는 현재 관측만을 입력으로 받습니다. 미래 정보는 오직 supervision 타겟으로만 사용되며 입력으로는 절대 사용되지 않습니다. 픽셀 공간이 아닌 잠재 공간에서 예측함으로써, VLA-JEPA는 카메라 운동 및 관련 없는 배경 변화에 강건한 역학 추상화를 학습합니다. 이는 기존 잠재 행동 파이프라인의 다단계 복잡성 없이, JEPA 사전 학습 후 행동 헤드 미세 조정이라는 간단한 2단계 방법을 가능하게 합니다. LIBERO, LIBERO-Plus, SimplerEnv 및 실제 조작 작업에 대한 실험 결과, VLA-JEPA가 기존 방법 대비 일반화 성능과 강건성에서 일관된 성능 향상을 달성함을 보여줍니다.
로봇 학습의 주류 패러다임은 런타임에 언어 프롬프트를 사용하여 환경, 구현체, 작업 전반에 걸쳐 일반화를 시도합니다. 하지만 이 접근법에는 근본적인 한계가 존재합니다: 언어는 강력한 조작을 위해 필요한 구체적인 물리적 이해를 안내하기에는 너무 추상적인 경우가 많기 때문입니다. 본 연구에서는 언어 조건화를 공간상의 물리적 접촉점으로 대체하는 Contact-Anchored Policies(CAP)를 소개합니다. 동시에 CAP를 단일한 일반화 정책이 아닌 모듈형 유틸리티 모델 라이브러리로 구성합니다. 이러한 분해(factorization)를 통해 실제-시뮬레이션 반복 주기를 구현할 수 있습니다: 우리는 EgoGym이라는 경량 시뮬레이션 벤치마크를 구축하여 실제 배포 전에 실패 모드를 신속하게 파악하고 모델 및 데이터셋을 개선합니다. 접촉에 기반한 조건화와 시뮬레이션을 통한 반복을 통해 CAP가 단 23시간의 데모 데이터만으로도 세 가지 기본 조작 기술에 대해 새로운 환경과 구현체에 즉시(out of the box) 일반화되며, 최첨단 대규모 VLA를 제로샷 평가에서 56% 앞선다는 것을 보여줍니다. 모든 모델 체크포인트, 코드베이스, 하드웨어, 시뮬레이션 및 데이터셋은 공개될 예정입니다. 프로젝트 페이지: https://cap-policy.github.io/
다중 에이전트 LLM 시스템은 역할 특화를 통해 고급 추론 및 도구 사용을 가능하게 하지만, 이러한 시스템에 대한 신뢰할 수 있는 사후 강화학습(RL) 훈련은 여전히 어렵습니다. 본 연구에서는 그룹 기반 RL을 다중 에이전트 LLM 시스템으로 확장할 때 발생하는 훈련 불안정성의 핵심 원인을 이론적으로 규명합니다. 우리는 GRPO 스타일 최적화 하에서 글로벌 정규화 기준선이 다양한 에이전트의 보상 분포와 차이를 보일 수 있으며, 이로 인해 결국 그래디언트 노름 불안정성이 발생함을 보입니다. 이러한 발견을 바탕으로, 다중 에이전트 LLM 시스템을 위한 간단하고 안정적인 RL 훈련 방법인 Dr. MAS를 제안합니다. Dr. MAS는 에이전트 단위의 해결책을 사용합니다. 즉, 각 에이전트의 자체 보상 통계를 사용하여 에이전트별 이점(advantage)을 정규화함으로써 그래디언트 규모를 조정하고 이론적 및 경험적으로 훈련을 극적으로 안정화합니다. 알고리즘을 넘어, Dr. MAS는 다중 에이전트 LLM 시스템을 위한 종단간(end-to-end) RL 훈련 프레임워크를 제공하며, 확장 가능한 오케스트레이션, 유연한 에이전트별 LLM 서빙 및 최적화 설정, 그리고 LLM 액터 백엔드의 공유 자원 스케줄링을 지원합니다. 우리는 Qwen2.5 및 Qwen3 시리즈 모델을 사용하여 다중 에이전트 수학 추론 및 다중 턴 검색 벤치마크에서 Dr. MAS를 평가합니다. Dr. MAS는 그래디언트 급증을 크게 제거하면서도 일반 GRPO 대비 뚜렷한 성능 향상을 달성합니다(예: 수학 문제에서 avg@16 +5.6%, pass@16 +4.6%, 검색 문제에서 avg@16 +15.2%, pass@16 +13.1%). 더 나아가, 이기종 에이전트-모델 할당 하에서도 효율성을 향상시키면서 높은 효과성을 유지합니다.
레이블이 없는 비디오 데이터에서 전이 가능한 지식을 학습하고 새로운 환경에 적용하는 것은 지능형 에이전트의 기본적인 능력입니다. 본 연구는 VideoWorld를 확장한 VideoWorld 2를 소개하며, 원시(raw) 실세계 비디오로부터 직접 전이 가능한 지식을 학습하는 최초의 연구를 제시합니다. VideoWorld 2의 핵심은 동작 역학을 시각적 외관으로부터 분리하는 동적 향상 잠재 역학 모델(dLDM)을 도입한 것입니다. 사전 학습된 비디오 확산 모델이 시각적 외관 모델링을 처리하여 dLDM이 간결하고 의미 있는 작업 관련 역학에 집중하는 잠재 코드를 학습할 수 있게 합니다. 이러한 잠재 코드는 자동회귀적으로 모델링되어 작업 정책을 학습하고 장기간 추론을 지원합니다. 우리는 VideoWorld 2를 기존의 비디오 생성 및 잠재 역학 모델들이 안정적으로 작동하기 어려운 난이도 높은 실세계 수공예 제작 작업에서 평가합니다. 주목할 만하게도, VideoWorld 2는 작업 성공률에서 최대 70% 향상을 달성하고 일관된 장기 실행 비디오를 생성합니다. 로보틱스 분야에서는 VideoWorld 2가 Open-X 데이터셋으로부터 효과적인 조작 지식을 습득하여 CALVIN에서의 작업 성능을 크게 향상시킬 수 있음을 보여줍니다. 본 연구는 원시 비디오로부터 직접 전이 가능한 세계 지식을 학습하는 잠재력을 보여주며, 모든 코드, 데이터 및 모델은 추가 연구를 위해 공개될 예정입니다.
고품질의 오픈 데이터셋은 텍스트-이미지(T2I) 미세 조정의 주요 병목 현상으로 남아 있습니다. 모델 아키텍처와 학습 파이프라인의 급속한 발전에도 불구하고, 대부분의 공개 미세 조정 데이터셋은 낮은 해상도, 불량한 텍스트-이미지 정렬, 또는 제한된 다양성 문제를 겪어 오픈 연구 모델과 기업용 등급 모델 간에 뚜렷한 성능 격차를 초래하고 있습니다. 본 연구에서는 T2I 미세 조정을 위한 대규모, 고품질, 완전 오픈 데이터셋인 Fine-T2I를 제시합니다. Fine-T2I는 10가지 작업 조합, 32개의 프롬프트 범주, 11가지 시각적 스타일, 5개의 프롬프트 템플릿을 아우르며, 강력한 현대 모델들이 생성한 합성 이미지와 전문 사진작가들이 엄선한 실제 이미지를 결합했습니다. 모든 샘플은 텍스트-이미지 정렬, 시각적 정확도, 프롬프트 품질에 대해 엄격하게 필터링되어 초기 후보의 95% 이상이 제거되었습니다. 최종 데이터셋은 600만 개 이상의 텍스트-이미지 쌍을 포함하며 디스크 상 약 2TB의 규모로, 미세 조정 수준의 품질을 유지하면서 사전 학습 데이터셋의 규모에 근접합니다. 다양한 사전 학습된 디퓨전 및 자기회귀 모델을 대상으로 Fine-T2I를 이용한 미세 조정은 인간 평가, 시각적 비교, 자동 평가 지표를 통해 검증된 바와 같이 생성 품질과 지시 사항 준수도를 모두 지속적으로 향상시켰습니다. 우리는 Fine-T2I를 오픈 라이선스 하에 공개하여 오픈 커뮤니티 내 T2I 미세 조정의 데이터 격차를 해소하는 데 기여하고자 합니다.
터미널 기반 작업을 위한 에이전트 모델 학습은 다양한 도메인에 걸친 현실적인 장기 상호작용을 포착하는 고품질 터미널 궤적 데이터에 크게 의존합니다. 그러나 이러한 데이터를 대규모로 구축하는 것은 두 가지 핵심 요구사항으로 인해 여전히 어려운 과제로 남아 있습니다: 각 인스턴스에 적합하고 종종 독특한 Docker 환경이 필요하기 때문에 요구되는 \emph{실행 가능성}과, 이질적인 작업 출력으로 인해 통합적이고 표준화된 검증이 어렵기 때문에 필요한 \emph{검증 가능성}입니다. 이러한 문제를 해결하기 위해 우리는 (i) 고품질 저장소를 필터링하여 Docker화된 실행 환경을 구축하고, (ii) Docker에 맞춘 작업 인스턴스를 생성하며, (iii) 실행 가능한 검증 코드와 함께 에이전트 궤적을 합성하는 확장 가능한 파이프라인인 TerminalTraj를 제안합니다. TerminalTraj를 사용하여 우리는 32,000개의 Docker 이미지를 정제하고 8개 도메인에 걸쳐 50,733개의 검증된 터미널 궤적을 생성했습니다. 이 데이터로 Qwen2.5-Coder 백본 모델을 학습한 결과, TerminalBench(TB)에서 일관된 성능 향상을 달성했으며, 각각의 백본 대비 TB~1.0에서 최대 20%, TB~2.0에서 10%의 성능 향상을 보였습니다. 특히 TerminalTraj-32B는 100B 미만의 매개변수를 가진 모델 중에서 강력한 성능을 보여, TB~1.0에서 35.30%, TB~2.0에서 22.00%에 도달했으며 개선된 테스트 시간 스케일링 거동을 입증했습니다. 모든 코드와 데이터는 https://github.com/Wusiwei0410/TerminalTraj에서 이용할 수 있습니다.
대규모 언어 모델(LLM)은 2차 계산 비용, 정보 망각, 검색 증강 생성(RAG)의 고질적인 문맥 단편화 문제 등 장문맥 처리에 있어 상당한 어려움을 겪고 있습니다. 본 연구에서는 모든 원본 토큰을 처리하는 대신 청크 단위 압축과 선택적 기억 회상을 기반으로 한 인지 과학에서 영감을 받은 효율적인 장문맥 추론 프레임워크를 제안합니다. 해당 프레임워크는 장문 입력을 청크로 분할하고 학습된 압축기를 사용해 각 청크를 압축된 메모리 표현으로 인코딩합니다. 게이팅 모듈은 관련 메모리 블록을 동적으로 선택하며, 선택된 블록은 하위 작업을 해결하기 위해 진화하는 작업 메모리를 갖춘 추론 모듈에 의해 반복적으로 처리됩니다. 압축기와 추론기는 종단간 강화 학습을 통해 공동 최적화되는 반면, 게이팅 모듈은 분류기로 별도 학습됩니다. 실험 결과, 제안 방법은 RULER-HQA와 같은 다중 홉 추론 벤치마크에서 경쟁력 있는 정확도를 달성했으며, 문맥 길이를 7K 토큰에서 1.75M 토큰으로 외삽할 수 있었고, 강력한 장문맥 베이스라인 대비 유리한 정확도-효율성 트레이드오프를 제공합니다. 특히 MemAgent 대비 최대 2배의 GPU 최대 메모리 사용량 감소와 6배의 추론 속도 향상을 달성했습니다.
액티베이션 스티어링(Activation steering)은 대규모 언어 모델(LLM)을 다운스트림 작업에 효율적으로 적응시키기 위한 유망한 접근법으로 부상하고 있다. 그러나 기존 대부분의 스티어링 방법은 작업 또는 개념별로 단일 정적 방향에 의존하므로, 작업 변동성이 있는 상황에서 유연성이 부족하고 여러 조정된 능력을 필요로 하는 복잡한 작업에는 부적합하다는 한계가 있다. 이러한 한계를 해결하기 위해 본 연구에서는 새로운 스티어링 벡터를 처음부터 학습하는 대신, 기존 스티어링 벡터를 구성(composing)하여 LLM을 적응시키는 경량 프레임워크인 STEER2ADAPT를 제안한다. 추론이나 안전성과 같은 많은 영역에서 작업들은 소수의 공통 기본 개념 차원을 공유한다. STEER2ADAPT는 이러한 차원들을 재사용 가능한 저차원 의미론적 사전 부분공간(semantic prior subspace)으로 포착하며, 소수의 예시만으로부터 기저 벡터(basis vector)들의 선형 결합을 동적으로 발견하여 새로운 작업에 적응한다. 추론 및 안전성 영역에서 3가지 모델과 9가지 작업에 대한 실험을 통해 STEER2ADAPT의 효과성을 입증하였으며, 평균 8.2%의 성능 향상을 달성했다. 다양한 분석을 통해 STEER2ADAPT가 데이터 효율적이고 안정적이며 투명한 추론 시점 적응 방법임을 추가로 확인하였다.
디퓨전 트랜스포머는 일반적으로 어텐션 레이어와 풀링된 텍스트 임베딩을 활용한 변조 메커니즘을 통해 텍스트 정보를 통합합니다. 그러나 최근 접근법들은 변조 기반 텍스트 조건화를 배제하고 오로지 어텐션에만 의존합니다. 본 논문에서는 변조 기반 텍스트 조건화가 필요한지, 그리고 성능 향상의 이점을 제공할 수 있는지에 대해 다룹니다. 우리의 분석에 따르면, 기존 사용 방식에서 풀링된 임베딩은 전체 성능에 거의 기여하지 않아, 프롬프트 정보를 충실히 전파하는 데 일반적으로 어텐션만으로도 충분함을 시사합니다. 그러나 우리는 풀링된 임베딩이 다른 관점, 즉 지침으로서 사용되어 더 바람직한 특성으로의 제어 가능한 변화를 가능하게 할 때 상당한 성능 향상을 제공할 수 있음을 밝혔습니다. 이 접근법은 추가 학습이 필요 없으며, 구현이 간단하고, 런타임 오버헤드가 무시할 수 있을 정도로 작으며, 다양한 디퓨전 모델에 적용 가능하여 텍스트-이미지/비디오 생성 및 이미지 편집 등 다양한 작업에서 개선을 가져옵니다.
본 연구에서는 연속 오디오 입력을 직접 처리하고 단일 통합 아키텍처 내에서 오디오 출력을 생성하는 70억 파라미터 규모의 end-to-end LALM인 Covo-Audio를 제안한다. 대규모로 정제된 사전 학습과 특화된 사후 학습을 통해 Covo-Audio는 음성-텍스트 모델링, 구화 대화, 음성 이해, 오디오 이해, 전이중 음성 상호작용 등 광범위한 작업 영역에서 동급 규모 모델 대비 최첨단 또는 경쟁력 있는 성능을 달성한다. 다양한 평가를 통해 사전 학습된 기초 모델이 여러 벤치마크에서 강력한 음성-텍스트 이해 능력과 의미론적 추론 능력을 보여주며, 동급 규모의 대표적인 오픈소스 모델들을 능가함을 입증했다. 더 나아가 대화 특화 변형인 Covo-Audio-Chat은 이해, 맥락적 추론, 지시 따르기, 맥락에 적합하고 공감적인 응답 생성 등을 포함한 강력한 구화 대화 능력을 보여주어 실제 대화형 어시스턴트 시나리오에의 적용 가능성을 검증했다. 발전된 전이중 모델인 Covo-Audio-Chat-FD는 구화 대화 능력과 전이중 상호작용 행동 모두에서 상당히 우수한 성능을 달성하여 실용적인 견고성에서의 유능함을 입증했다. 자연스러운 대화 시스템을 위한 end-to-end LALM 배치의 높은 비용을 완화하기 위해, 우리는 대화 지능과 음성 렌더링을 분리하는 지능-스피커 분리 전략을 제안한다. 이는 대화 성능을 유지하면서 최소한의 TTS 데이터로 유연한 음성 커스터마이징을 가능하게 한다. 전반적으로, 우리의 결과는 70억 규모 모델이 정교한 오디오 지능과 높은 수준의 의미론적 추론을 통합할 수 있는 강력한 잠재력을 부각하며, 더 유능하고 다재다능한 LALM으로 나아가는 확장 가능한 경로를 제시한다.
체인 오브 쏘트(CoT) 추론 및 그 변형들은 언어 모델의 복잡한 추론 과제 성능을 크게 향상시켰으나, 다양한 전략이 일반화를 촉진하는 정확한 메커니즘은 아직 명확히 이해되지 않고 있다. 현재의 설명들은 주로 증가된 테스트 시점 계산량이나 구조적 안내를 지목하지만, 이러한 요소들과 일반화 사이의 일관되고 정량적인 연관성을 확립하는 것은 여전히 어려운 과제로 남아 있다. 본 연구에서는 추론 체인의 효과를 규명하는 정량적 측도로서 본질적 차원을 제안한다. 본질적 차원은 주어진 과제에서 특정 정확도 임계값에 도달하기 위해 필요한 모델 차원의 최소 개수를 정량화한다. 모델 구조는 고정한 채 다양한 추론 전략을 통해 과제 형식을 변화시키면서, 효과적인 추론 전략이 과제의 본질적 차원을 지속적으로 감소시킨다는 것을 입증한다. Gemma-3 1B 및 4B 모델을 사용한 GSM8K 검증에서, 추론 전략의 본질적 차원과 내부 분포 및 외부 분포 데이터에 대한 일반화 성능 사이에 강력한 역상관 관계가 관찰되었다. 우리의 연구 결과는 효과적인 추론 체인이 더 적은 매개변수로 과제를 더 효율적으로 압축함으로써 학습을 용이하게 한다는 것을 시사하며, 이는 추론 과정 분석을 위한 새로운 정량적 지표를 제공한다.
대규모 언어 모델(LLM)은 복잡한 수학 문제 해결에 유망한 성능을 보이지만, 여전히 정확하고 일관된 해법을 산출하는 데는 한계가 있습니다. 강화 학습(RL)은 이러한 모델을 작업별 보상에 정렬시켜 전반적인 품질과 신뢰성을 향상시키는 프레임워크입니다. 그룹 상대 정책 최적화(GRPO)는 그룹 상대 보상 정규화를 활용하는, 근위 정책 최적화(PPO)에 대한 효율적이고 가치 함수가 없는 대안입니다. 본 논문에서는 모델 생성 초안을 통한 동적 자기 조건화를 추가한 GRPO의 2단계 확장인 반복적 그룹 상대 정책 최적화(iGRPO)를 소개합니다. 1단계에서 iGRPO는 여러 탐색적 초안을 샘플링하고 최적화에 사용된 것과 동일한 스칼라 보상 신호를 사용하여 가장 높은 보상을 받은 초안을 선택합니다. 2단계에서는 이 최상의 초안을 원래 프롬프트에 추가하고 초안 조건화 개선 작업에 GRPO 방식의 업데이트를 적용하여, 정책이 이전 최선의 시도보다 향상되도록 훈련합니다. 동일한 롤아웃 예산 하에서 iGRPO는 기본 모델(예: Nemotron-H-8B-Base-8K 및 DeepSeek-R1 Distilled)에서 GRPO를 지속적으로 능가하며, 다양한 추론 벤치마크에서의 효과를 입증했습니다. 더 나아가, AceReason-Math로 훈련된 OpenReasoning-Nemotron-7B에 iGRPO를 적용하면 AIME24와 AIME25에서 각각 85.62%, 79.64%의 새로운 최첨단 결과를 달성합니다. 추가 분석은 정제 래퍼가 GRPO 변형을 넘어 일반화되며, 생성적 판단으로부터 이점을 얻고, 엔트로피 붕괴를 지연시켜 학습 역학을 변경함을 보여줍니다. 이러한 결과는 검증 가능한 수학적 추론 발전을 위한 반복적 자기 피드백 기반 RL의 잠재력을 강조합니다.
GUI 자동화의 효과적인 확장은 컴퓨터 사용 에이전트(CUA)에 필수적이지만, 기존 연구는 주로 더 정교한 데이터 수집이 필요한 GUI 계획보다는 GUI 기반 구축의 확장에 중점을 두고 있습니다. 실제로 CUA의 앱/데스크톱/웹 페이지 간 탐색 과정은 일반적으로 트리 구조를 따르며, 초기 기능 진입점이 더 빈번히 탐색되는 경향이 있습니다. 따라서 대규모 궤적을 트리 구조로 구성하면 데이터 비용을 절감하고 GUI 계획의 데이터 확장을 효율화할 수 있습니다. 본 연구에서는 트리 구조의 검증 가능한 진화를 통해 GUI 자동화를 효율적으로 확장하는 TreeCUA를 제안합니다. 환경 탐색, 행동 검증, 궤적 요약, 품질 평가를 수행하는 다중 에이전트 협업 프레임워크를 제안하여 고품질의 확장 가능한 GUI 궤적을 생성합니다. 효율성 향상을 위해 중복 탐색 노드를 저장 및 재생하는 새로운 트리 기반 토폴로지를 설계하고, 깊이(궤적 난이도)와 너비(궤적 다양성)의 균형을 맞추는 적응형 탐색 알고리즘을 고안했습니다. 또한 저품질 생성을 방지하기 위한 세계 지식 안내 및 전역 메모리 역추적 기법을 개발했습니다. 마지막으로 풍부한 트리 노드 정보를 바탕으로 TreeCUA-DPO 방법을 자연스럽게 확장 제안하여 인접 궤적의 분기 정보를 참조함으로써 GUI 계획 능력을 향상시킵니다. 실험 결과 TreeCUA와 TreeCUA-DPO가 뚜렷한 성능 향상을 보였으며, 외부 도메인(OOD) 연구를 통해 강력한 일반화 능력을 추가로 입증했습니다. 모든 궤적 노드 정보와 코드는 https://github.com/UITron-hub/TreeCUA에서 공개될 예정입니다.
실제 데스크톱 환경을 위한 종단형 GUI 에이전트는 대량의 고품질 상호작용 데이터를 필요로 하지만, 인간 시연 데이터 수집은 비용이 많이 들고, 기존 합성 파이프라인은 제한된 작업 다양성이나 노이즈가 많고 목표에서 이탈하는 궤적 문제를 겪는 경우가 많습니다. 본 연구에서는 소수의 검증된 시드 시연으로부터 확장 가능한 데스크톱 감독 데이터를 생성하는 궤적 확장 프레임워크 Anchor를 제시합니다. 각 시드에서 출발하여 의미 있는 상태 변화에 해당하는 분기점을 식별하고, 현재 GUI 컨텍스트에 조건부로 새로운 상태 기반 작업 변형을 제안합니다. 실행 에이전트는 제안된 지시를 따라 새로운 궤적을 생성하는 반면, 검증기는 상태 인식 검사와 궤적 수준 일관성을 통해 작업 완료를 강제합니다. 감독 데이터 품질을 높이기 위해 작업 조건부 단계 수준 필터링을 적용하여 근거 없는 동작을 제거하고, 분기 이후 세그먼트의 노이즈를 제거하여 일관된 의도를 유지합니다. 표준 데스크톱 벤치마크인 OSWorld와 WindowsAgentArena에서의 실험 결과, 우리가 확장한 코퍼스로 미세 조정된 모델이 제로샷 에이전트와 대표적인 합성 베이스라인 대비 일관된 성능 향상을 보였으며, 다양한 애플리케이션과 운영체제에서 일반화 성능을 나타냈습니다.
실제 환경에서 구현 에이전트를 위한 데이터 수집은 여전히 비용이 많이 들고 안전하지 않아 확장 가능하고 현실적이며 시뮬레이터에서 바로 사용 가능한 3D 환경에 대한 필요성이 대두되고 있습니다. 그러나 기존의 장면 생성 시스템은 주로 규칙 기반이나 작업 특화 파이프라인에 의존하여 인공적痕迹과 물리적으로 부적합한 장면을 생성하는 경우가 많습니다. 본 논문에서는 사용자가 지정한 구현 작업(예: "그릇을 집어 테이블 위에 놓기")이 주어지면 의도를 이해하고 시뮬레이션 준비가 된 환경을 대규모로 자동 생성하는 에이전트 기반 프레임워크인 SAGE를 제안합니다. 이 에이전트는 레이아웃 및 객체 구성용 다중 생성기와 의미적 타당성, 시각적 현실성, 물리적 안정성을 평가하는 비평가를 결합합니다. 반복적 추론과 적응형 도구 선택을 통해 사용자 의도와 물리적 타당성을 충족할 때까지 장면을 자체 개선합니다. 결과적으로 생성된 환경은 현실적이고 다양하며 현대적 시뮬레이터에서 정책 훈련을 위해 직접 배포 가능합니다. 이 데이터로만 훈련된 정책은 뚜렷한 확장 경향성을 보이며 보지 않은 객체와 레이아웃으로도 일반화되어 구현 AI를 위한 시뮬레이션 기반 확장의 가능성을 입증합니다. 코드, 데모 및 SAGE-10k 데이터셋은 프로젝트 페이지(https://nvlabs.github.io/sage)에서 확인할 수 있습니다.
본 논문은 시각 생성 분야에서 연속적 파이프라인이 차지하는 주류적 위치에 의문을 제기합니다. 우리는 이산적 방법과 연속적 방법 간의 성능 격차를 체계적으로 조사합니다. 이산적 토크나이저가 본질적으로 열등하다는 통념과는 달리, 이러한 차이가 주로 잠재 공간에 할당된 총 비트 수(즉, 압축률)에서 비롯됨을 입증합니다. 코드북 크기를 확장하면 이 격차를 효과적으로 해소하여 이산적 토크나이저가 연속적 방식을 능가하거나 동등한 성능을 달성할 수 있음을 보여줍니다. 그러나 기존 이산적 생성 방법은 확장된 코드북에서 성능 저하나 감당하기 어려운 학습 비용 문제로 인해 이러한 통찰을 활용하지 못하고 있습니다. 이를 해결하기 위해 우리는 임의의 코드북 크기를 지원하는 확장 가능한 프레임워크인 마스크드 비트 자기회귀 모델링(BAR)을 제안합니다. 자기회귀 트랜스포머에 마스크드 비트 모델링 헤드를 장착함으로써 BAR는 구성 비트를 점진적으로 생성하여 이산 토큰을 예측합니다. BAR는 ImageNet-256에서 0.99의 새로운 최첨단 gFID를 달성하여 연속 및 이산 패러다임의 선도적 방법들을 모두 능가하는 동시에 샘플링 비용을 현저히 절감하고 기존 연속적 접근법보다 빠르게 수렴합니다. 프로젝트 페이지는 https://bar-gen.github.io/에서 확인할 수 있습니다.
병렬 사고는 복잡한 문제 해결을 위한 대규모 추론 모델(LRMs)의 새로운 패러다임으로 부상했습니다. 최근 방법들은 지도 미세 조정에서 발생하는 계산 자원 및 효과성의 한계를 해결하기 위해 강화 학습(RL)을 활용하여 병렬 사고를 향상시키고자 합니다. 그러나 기존 연구의 대부분은 주로 집계 단계 최적화에 초점을 맞추고, 경로 탐색 단계에는 제한된 관심만을 기울여 왔습니다. 본 논문에서는 검증 가능한 보상을 활용한 강화 학습(RLVR) 설정 하에서 병렬 사고의 최적화를 이론적으로 분석하고, 탐색 경로 간 상호 정보 병목 현상이 전체 성능을 근본적으로 제한함을 규명합니다. 이를 해결하기 위해 우리는 솔루션 공간을 사전에 다양한 추론 개요를 생성하여 명시적으로 분할함으로써 정보 중복성을 줄이고 탐색 경로 전반에 포착되는 정보의 다양성을 향상시키는 개요 안내 경로 탐색(OPE)을 제안합니다. 우리는 개요 계획과 개요 기반 추론을 독립적으로 최적화하는 반복적 RL 전략으로 OPE를 구현합니다. 여러 까다로운 수학 벤치마크에서 진행한 폭넓은 실험을 통해 OPE가 다양한 집계 전략에서 추론 성능을 효과적으로 향상시켜 LRMs가 올바른 해법을 더욱 신뢰성 있게 발견할 수 있게 함을 입증합니다.
계획 수립은 현대 에이전트 시스템이 복잡하고 장기적인 과제를 수행하는 데 핵심적인 능력이 되었지만, 기존 접근법은 주로 고정된 수작업 방식의 계획 구조에 의존하여 개방형 문제들의 구조적 다양성에 적응할 유연성이 부족합니다. 이러한 한계를 해결하기 위해 본 연구에서는 과제별 계획 아키텍처를 자율적으로 합성하고 동적으로 수정하는 메타 계획 패러다임인 TodoEvolve를 소개합니다. 구체적으로, 우리는 먼저 토폴로지, 초기화, 적응, 탐색을 포괄하는 통합 코드베이스 내에서 다양한 계획 패러다임을 표준화하는 모듈식 설계 공간인 PlanFactory를 구축하여 이질적인 계획 패턴을 위한 공통 인터페이스를 제공합니다. PlanFactory를 활용하여 고품질 계획 궤적을 수집하고, 임의의 과제와 에이전트 백본에서 성능이 우수하고 안정적이며 토큰 효율적인 계획 시스템의 생성을 장려하는 다중 목표 강화 학습 목표인 임피던스 기반 선호 최적화(IGPO)를 통해 Todo-14B 모델을 학습시킵니다. 5가지 에이전트 벤치마크에 대한 실증적 평가 결과, TodoEvolve가 신중하게 설계된 계획 모듈을 꾸준히 능가하면서도 경제적인 API 비용과 실행 시간 오버헤드를 유지하는 것으로 나타났습니다.
언어 모델의 활성화 분해 방법은 개념이 활성화 공간에서 어떻게 구현되는지에 대한 기하학적 가정과 밀접하게 연관되어 있습니다. 기존 접근법은 선형 분리 가능성을 암묵적으로 가정한 개별적인 전역 방향을 탐색하는데, 이는 비선형 또는 다차원 구조를 가진 개념을 간과합니다. 본 연구에서는 혼합 인자 분석기(MFA)를 확장 가능한 비지도 대안으로 활용하여 활성화 공간을 지역적 공분산 구조를 가진 가우시안 영역들의 집합으로 모델링합니다. MFA는 활성화를 두 가지 구성적 기하학적 객체로 분해합니다: 활성화 공간 내 영역의 중심점과 중심점으로부터의 지역적 변동입니다. 우리는 Llama-3.1-8B와 Gemma-2-2B에 대해 대규모 MFA를 학습시키고, 이들이 활성화 공간에서 복잡한 비선형 구조를 포착함을 보여줍니다. 더 나아가, 지역화 및 조종 벤치마크 평가에서 MFA가 비지도 기준 방법을 능가하고, 지도 지역화 방법과 경쟁력을 가지며, 희소 오토인코더보다 종종 더 강력한 조종 성능을 달성함을 보입니다. 종합하면, 우리의 연구 결과는 부분공간을 통해 표현되는 지역적 기하학을 고립된 방향이 포착하지 못하는 복잡한 구조를 설명하는, 확장 가능한 개념 발견 및 모델 제어를 위한 유망한 분석 단위로 위치시킵니다.
병렬 디퓨전 디코딩은 단계당 여러 토큰을 언마스킹하여 디퓨전 언어 모델 추론을 가속화할 수 있지만, 과도한 병렬화는 종종 품질 저하를 초래합니다. 취소 가능 디코딩은 이전 토큰을 재확인하여 이를 완화하지만, 기존 검증 방식이 플립-플롭 진동(토큰이 재마스킹되었다가 나중에 변경 없이 복원되는 현상)을 빈번히 유발함을 관찰했습니다. 이는 두 가지 방식으로 추론 속도를 저하시킵니다: 검증된 위치의 재마스킹은 병렬 드래프팅을 위한 조건화 컨텍스트를 약화시키며, 반복된 재마스킹 주기는 수정 예산을 소모하면서 순 진전이 거의 이루어지지 않습니다. 우리는 단일 정방향 패스 내에서 leave-one-out 검증과 안정적 드래프팅을 수행하는 COVER(Cache Override Verification for Efficient Revision)를 제안합니다. COVER는 KV 캐시 오버라이드를 통해 두 가지 어텐션 뷰를 구성합니다: 선택된 시드 토큰은 검증을 위해 마스킹되는 반면, 해당 캐시된 키-값 상태는 다른 모든 쿼리에 주입되어 컨텍스트 정보를 보존하며, 시드 위치에서의 자기 유출(self-leakage)을 방지하기 위한 폐쇄형 대각 보정이 적용됩니다. COVER는 또한 불확실성, 하류 영향력 및 캐시 드리프트를 균형 있게 고려하는 안정성 인식 점수를 사용하여 시드 토큰의 우선순위를 지정하고, 단계별 검증 시드 수를 적응적으로 조정합니다. 다양한 벤치마크에서 COVER는 불필요한 수정을 현저히 줄이고 출력 품질을 유지하면서 더 빠른 디코딩 속도를 제공합니다.
대규모 언어 모델(LLM)이 소프트웨어 개발에 점점 더 많이 활용되고 있지만, 불안전한 코드를 생성하는 경향은 실제 배포에 있어 여전히 주요 장애물로 남아 있습니다. 기존의 안전한 코드 정렬 방법들은 종종 기능성과 보안 간의 딜레마에 직면하여, 보안을 향상시키는 대신 상당한 유틸리티 저하를 초래합니다. 본 논문에서는 기능성을 보존하는 안전한 코드 생성을 위한 온라인 강화 학습 프레임워크인 SecCoderX를 제안합니다. SecCoderX는 먼저 성숙한 취약점 탐지 자원을 두 가지 방식으로 재활용하여 취약점 탐지와 안전한 코드 생성을 연결합니다: (i) 온라인 RL 롤아웃을 위해 다양하고 현실 기반의 취약점 유발 코딩 과제를 합성하고, (ii) 확장 가능하고 신뢰할 수 있는 보안 감독을 제공하는 추론 기반 취약점 보상 모델을 학습합니다. 이러한 구성 요소들은 온라인 RL 루프에서 통합되어 코드 LLM이 안전하고 기능적인 코드를 생성하도록 정렬됩니다. 광범위한 실험을 통해 SecCoderX가 최첨단 성능을 달성하며, 정렬되지 않은 모델 대비 유효 안전률(ESR)을 약 10% 향상시키는 반면, 기존 방법들은 ESR을 14-54% 저하시키는 경우가 많음을 입증했습니다. 코드, 데이터셋 및 모델 체크포인트는 https://github.com/AndrewWTY/SecCoderX에서 공개합니다.
플로우 매칭은 우아한 방법이지만, 단일 샘플 조건부 속도에 의존하기 때문에 높은 분산을 보이는 훈련 목표를 초래하여 최적화를 불안정하게 만들고 수렴 속도를 저하시킵니다. 본 연구에서는 이러한 분산을 명시적으로 분석함으로써 1) 사전 분포 근처에서 최적화가 어려운 고분산 영역과 2) 데이터 분포 근처에서 조건부 속도와 주변 속도가 거의 일치하는 저분산 영역을 규명합니다. 이러한 통찰을 바탕으로 훈련과 샘플링 모두를 개선하는 통합 프레임워크인 Stable Velocity를 제안합니다. 훈련을 위해 편향이 없는 분산 감소 목표인 Stable Velocity Matching(StableVM)과 저분산 영역에서 적응적으로 보조 감독을 강화하는 Variance-Aware Representation Alignment(VA-REPA)를 도입합니다. 추론을 위해 저분산 영역의 동역학이 폐형식 단순화를 허용함을 보여주며, 파인튜닝 없이도 가속화가 가능한 Stable Velocity Sampling(StableVS)을 가능하게 합니다. ImageNet 256×256 및 SD3.5, Flux, Qwen-Image, Wan2.2를 포함한 대규모 사전 훈련된 텍스트-이미지 및 텍스트-비디오 모델에 대한 광범위한 실험을 통해 훈련 효율성의 지속적인 개선과 샘플 품질 저하 없이 저분산 영역 내에서 2배 이상 빠른 샘플링 성능을 입증합니다. 코드는 https://github.com/linYDTHU/StableVelocity에서 확인할 수 있습니다.
시각-언어 모델(VLM)에서 복잡한 추론 문제를 해결하기 위해서는 자기 수정(self-correction)이 필수적입니다. 그러나 기존 강화 학습(RL) 방법은 효과적인 자기 수정 행동이 극히 드물게 나타나 학습 신호가 매우 희소하기 때문에 이를 학습하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 기존 롤아웃(rollout)을 재조합하여 밀집된 자기 수정 예시를 합성하는 RL 롤아웃 증강 프레임워크인 Octopus(correction-specific rollouts)를 제안합니다. 이 증강 기법은 롤아웃 재사용으로 인한 샘플 효율성 향상과 균형 잡힌 지도를 통한 RL 최적화 안정화를 동시에 달성합니다. 나아가, 우리는 응답 마스킹(response-masking) 전략을 도입하여 자기 수정을 직접적인 추론으로부터 분리함으로써 신호 간 충돌을 피하고 두 행동 모두 효과적으로 학습될 수 있도록 합니다. 이를 바탕으로 제어 가능한 자기 수정 능력을 지닌 추론 VLM인 Octopus-8B를 소개합니다. 7개 벤치마크에서 Octopus-8B는 오픈소스 VLM 중 최고 성능(SoTA)을 달성하며, 가장 우수한 RLVR 기준 모델을 1.0점 차로 능가하면서 스텝 당 훈련 시간은 0.72배만 소요됩니다.
본 논문에서는 테스트 타임 트레이닝을 현대적 트랜스포머의 FFN 블록 설계를 공유하는 로컬 지원 파라메트릭 메모리인 Locas로 연결하여, 효율적인 지속 학습을 지원하면서도 모델 파라미터에 유연하게 영구화 또는 병합될 수 있는 새로운 유형의 파라메트릭 메모리를 제안합니다. Locas의 두 가지 주요 변형을 소개합니다: 하나는 이론적 보장이 더 명확한 기존의 2층 MLP 설계를 따르며, 다른 하나는 SOTA LLM과 동일한 GLU-FFN 구조를 공유하여 기존 모델에 쉽게 부착되어 파라미터 효율적이고 계산 효율적인 지속 학습을 가능하게 합니다. 중요한 것은, 모델 파라미터, 활성화, 및/또는 그래디언트를 재사용하는 원칙적인 방식으로 수행되는 이러한 저차원 측면 FFN 스타일 메모리의 적절한 초기화가 빠른 수렴, 개선된 일반화, 그리고 파괴적 망각 방지에 필수적임을 보여줍니다. 제안된 메모리 메커니즘을 PG-19 전체 책 언어 모델링 및 LoCoMo 장문 대화 질의응답 과제에서 검증합니다. 가장 낮은 경우 단 0.02%의 추가 파라미터만으로 Locas-GLU는 훨씬 작은 컨텍스트 윈도우를 유지하면서 과거 컨텍스트의 정보를 저장할 수 있습니다. 또한, 비교 MMLU 평가를 통해 Locas로 전체 책을 기억한 후 모델의 일반적 능력 손실을 테스트합니다. 결과는 Locas가 모델의 기존 내부 지식에 대한 파괴적 망각을 최소화하면서 과거 컨텍스트를 파라메트릭 지식으로 영구화하는 유망한 능력을 보여줍니다.
LLM 기반 코딩 에이전트는 자동화된 이슈 해결 벤치마크에서 강력한 성능을 보여왔지만, 기존 평가는 주로 최종 작업 성공률에 집중하여 문제 해결 과정에서 에이전트가 코드 컨텍스트를 어떻게 검색하고 활용하는지에 대한 통찰은 제한적이었습니다. 본 연구에서는 코딩 에이전트의 컨텍스트 검색 과정을 평가하는 프로세스 지향적 프레임워크인 ContextBench를 소개합니다. ContextBench는 8개 프로그래밍 언어의 66개 저장소에서 추출한 1,136개의 이슈 해결 작업으로 구성되며, 각 작업은 인간이 주석을 달은 골드 컨텍스트(Gold Context)로 보강되었습니다. 또한 에이전트 실행 궤적을 추적하고 이슈 해결 전반에 걸쳐 컨텍스트 재현율, 정밀도 및 효율성을 측정하는 자동화된 평가 프레임워크를 구현했습니다. ContextBench를 활용하여 4개의 최첨단 LLM과 5개의 코딩 에이전트를 평가한 결과, 1) 정교한 에이전트 스캐폴딩은 컨텍스트 검색 성능에 있어 미미한 향상만을 가져왔으며(코딩 에이전트의 "쓴 교훈"), 2) LLM은 일관되게 정밀도보다 재현율을 우선시하는 경향을 보였고, 3) 탐색된 컨텍스트와 실제 활용된 컨텍스트 사이에 상당한 격차가 존재함을 확인했습니다. ContextBench는 기존 종단간(end-to-end) 벤치마크에 중간 골드 컨텍스트 메트릭을 추가하여 이슈 해결 과정을 투명하게 분석합니다. 이러한 컨텍스트는 소프트웨어 작업에서 LLM 추론을 안내하는 가치 있는 중간 신호를 제공합니다.
강화 학습은 대규모 언어 모델의 추론 능력을 크게 향상시키지만, 사고 연쇄 출력의 길이를 늘리고 훈련 및 추론 시 계산 비용을 증가시키는 경향이 있습니다. 길이 제어 방법이 제안되었음에도 불구하고, 효율성과 성능을 균형 있게 조절하기 위한 최적의 출력 길이가 무엇인지는 여전히 불분명합니다. 본 연구에서는 Qwen3-1.7B Base와 DeepSeek-R1-Distill-Qwen-1.5B 두 모델에 대해 여러 길이 제어 방법을 비교합니다. 연구 결과에 따르면, 길이 패널티는 추론 습득을 방해할 수 있는 반면, 적절하게 조정된 길이 제어는 강력한 사전 추론 능력을 가진 모델의 효율성을 향상시킬 수 있습니다. 선행 연구를 강화 학습으로 훈련된 정책에 확장 적용함으로써 두 가지 실패 모드, 즉 1) 긴 출력은 분산을 증가시키고, 2) 짧은 출력은 사고 부족을 초래한다는 점을 확인했습니다.
파운데이션 모델의 상태 비저장성은 장기적 추론과 적응의 핵심 능력인 지속적 학습에 대한 에이전트 시스템의 능력을 저해하는 병목 현상입니다. 이러한 한계를 해결하기 위해 에이전트 시스템은 일반적으로 메모리 모듈을 통합하여 과거 경험을 보존하고 재사용함으로써 테스트 시간 동안 지속적 학습을 목표로 합니다. 그러나 기존 대부분의 메모리 설계는 인간이 수작업으로 설계하고 고정되어 있어, 현실 세계 과업의 다양성과 비정상성에 적응하는 능력이 제한됩니다. 본 논문에서는 ALMA(Automated meta-Learning of Memory designs for Agentic systems)를 소개합니다. 이는 수동으로 설계된 메모리 설계를 대체하기 위해 메모리 설계를 메타 학습하는 프레임워크로, 인간의 수고를 최소화하고 에이전트 시스템이 다양한 영역에서 지속적 학습자가 될 수 있도록 합니다. 우리의 접근 방식은 실행 가능한 코드로 표현된 메모리 설계를 개방형 방식으로 탐색하는 메타 에이전트를 사용하며, 이론적으로 데이터베이스 스키마와 이를 검색 및 업데이트하는 메커니즘을 포함한 임의의 메모리 설계 발견을 가능하게 합니다. 네 가지 순차적 의사 결정 영역에서의 광범위한 실험을 통해, 학습된 메모리 설계가 모든 벤치마크에서 최첨단 인간 설계 메모리보다 경험으로부터 더 효과적이고 효율적인 학습을 가능하게 함을 입증했습니다. 안전하게 개발 및 배포될 경우, ALMA는 적응적이고 지속적인 학습자가 되도록 학습하는 자기 개선형 AI 시스템으로 나아가는 한 걸음을 나타냅니다.
도구 호출 기능을 갖춘 AI 에이전트는 간접 프롬프트 주입(IPI) 공격에 취약합니다. 이러한 공격 시나리오에서는 신뢰할 수 없는 콘텐츠 내에 숨겨진 악성 명령이 에이전트를 속여 권한이 없는 작업을 수행하도록 만듭니다. 기존 방어 기법은 공격 성공률을 낮출 수 있지만, 실제 위협 유무와 관계없이 비용이 많이 드는 상시 살균 처리를 적용하여 양성 시나리오에서도 유용성과 지연 시간을 저하시키는 과잉 방어 딜레마에 자주 직면합니다. 우리는 인과 관계 제거(CAusal Ablation) 관점에서 IPI를 재조명합니다. 성공적인 주입은 사용자 요청이 더 이상 에이전트의 권한 있는 작업에 결정적 지원을 제공하지 않는 지배력 전환으로 나타나며, 검색된 문서나 도구 출력과 같은 특정 신뢰할 수 없는 세그먼트가 과도하게 귀속되는 영향을 미칩니다. 이러한 특징을 바탕으로 우리는 (i) 권한 있는 의사 결정 지점에서 경량의 단일 제거 기반 귀속 분석을 계산하고, (ii) 신뢰할 수 없는 세그먼트가 사용자 의도를 지배할 때만 표적 살균 처리를 트리거하는 선택적 방어 프레임워크인 CausalArmor를 제안합니다. 또한 CausalArmor는 사후 사고 연쇄(Chain-of-Thought) 마스킹을 활용하여 에이전트가 "오염된" 추적 논리를 기반으로 행동하는 것을 방지합니다. 우리는 귀속 차이(Margin)를 기반으로 한 살균 처리가 악성 작업 선택 확률에 대해 조건부 기하급수적으로 작은 상한을 제공함을 보이는 이론적 분석을 제시합니다. AgentDojo와 DoomArena에서의 실험을 통해 CausalArmor가 공격적 방어 기법의 보안성은 유지하면서 설명 가능성을 향상시키고 AI 에이전트의 유용성과 지연 시간을 보존함을 입증합니다.
간접 프롬프트 인젝션은 외부 콘텐츠에 악성 지시문을 삽입하여 무단 행위와 데이터 유출을 가능하게 함으로써 LLM 에이전트를 위협합니다. LLM 에이전트는 의사 결정을 위한 상호작용 기록을 저장하는 컨텍스트 윈도우를 통해 작업 기억을 유지합니다. 기존 에이전트는 모든 도구 출력과 추론 흔적을 이 메모리에 무분별하게 축적하는데, 이는 두 가지 중대한 취약점을 생성합니다: (1) 인젝션된 지시문이 워크플로우 전체에 지속되어 공격자가 행위를 조작할 기회가 여러 번 발생하며, (2) 장황하고 비필수적인 콘텐츠가 의사 결정 능력을 저하시킵니다. 기존 방어 기법은 비대해진 메모리를 주어진 것으로 간주하고 공격을 예방하기 위한 불필요한 축적을 줄이기보다는, 그 안에서도 견고하게 유지하는 데 중점을 둡니다. 우리는 명시적 메모리 관리를 통해 간접 프롬프트 인젝션으로부터 방어하는 AgentSys 프레임워크를 제시합니다. 운영체제의 프로세스 메모리 격리에서 영감을 받은 AgentSys는 에이전트를 계층적으로 구성합니다: 메인 에이전트가 도구 호출을 위해 작업자(worker) 에이전트를 생성하며, 각 작업자는 격리된 컨텍스트에서 실행되고 하위 작업을 위해 중첩된 작업자를 생성할 수 있습니다. 외부 데이터와 하위 작업 흔적은 결코 메인 에이전트의 메모리로 들어가지 않으며, 스키마 검증된 반환값만 결정론적 JSON 파싱을 통해 경계를 넘을 수 있습니다. Ablation 실험은 격리만으로도 공격 성공률을 2.19%로 낮추며, 검증기/세정기를 추가하고 컨텍스트 길이가 아닌 작업 수에 따라 확장되는 오버헤드를 가진 이벤트 트리거 검사를 도입하면 방어 성능이 더욱 향상됨을 보여줍니다. AgentDojo와 ASB 벤치마크에서 AgentSys는 각각 0.78%, 4.25%의 공격 성공률을 달성하면서 방어가 없는 기준선 대비 정상 작업 유용성도 약간 향상시켰습니다. 이 프레임워크는 적응형 공격자와 다양한 기반 모델에 걸쳐 견고성을 유지하며, 명시적 메모리 관리가 안전하고 동적인 LLM 에이전트 아키텍처를 가능하게 함을 입증합니다. 우리의 코드는 https://github.com/ruoyaow/agentsys-memory 에서 이용 가능합니다.
비전-언어 모델(VLM)은 텍스트와 시각 입력 간의 크로스모달 이해에서 인상적인 성능을 달성했지만, 기존 벤치마크는 주로 순수 텍스트 쿼리에 집중하고 있습니다. 실제 세계 시나리오에서는 언어가 이미지에 내재된 시각화된 텍스트 형태로도 빈번하게 등장하는데, 이는 현재 VLM이 그러한 입력 요청을 동등하게 처리하는지에 대한 의문을 제기합니다. 우리는 다중모달 인식, 추론부터 단일모달 이해 영역에 이르는 체계적인 벤치마크인 VISTA-Bench를 소개합니다. 이 벤치마크는 통제된 렌더링 조건 하에서 순수 텍스트 질문과 시각화된 텍스트 질문을 대조함으로써 시각화된 텍스트 이해 능력을 평가합니다. 20개 이상의 대표적인 VLM에 대한 포괄적인 평가 결과, 두드러진 모달리티 간 격차가 확인되었습니다: 순수 텍스트 쿼리에서 우수한 성능을 보이는 모델들은 동일한 의미론적 내용이 시각화된 텍스트로 제시될 경우 종종 성능이 현저히 저하됩니다. 이 격차는 인지적 난이도가 증가함에 따라 더욱 확대되며, 의미론은 변경되지 않았음에도 렌더링 변이에 대한 민감성을 부각시킵니다. 전반적으로 VISTA-Bench는 이러한 한계를 진단하고, 토큰화된 텍스트와 픽셀을 아우르는 더 통합된 언어 표현을 향한 진전을 이끌기 위한 원칙적인 평가 프레임워크를 제공합니다. 소스 데이터셋은 https://github.com/QingAnLiu/VISTA-Bench에서 이용 가능합니다.
테스트 타임 트레이닝(TTT)은 추론 시점에 그래디언트 기반 업데이트를 통해 언어 모델을 적응시킵니다. 그러나 적응이 올바른 전략일까요? 본 연구는 검증 가능한 실행 기반(VEG) 작업, 즉 결정론적 평가자가 밀집되고 연속적인 보상 신호를 제공하는 GPU 커널 최적화와 같은 영역에서 계산 최적의 테스트 타임 전략을 분석합니다. KernelBench을 테스트베드로, 120B 매개변수 모델(LoRA 적응 적용 GPT-OSS-120B)을 사용하여 최소 적응(1-5 그래디언트 스텝)보다 검색이 더 우수함을 확인했습니다: 전체 KernelBench L1 평가 세트에서 Best-of-N 샘플링은 K=64 기준 90% 작업 성공률(20개 작업 중 18개 성공)을 달성한 반면, TTT의 최적 체크포인트는 3-시드 평균 기준 30.6%에 그쳤으며, TTT의 "등가 K"는 1 미만으로 단일 샘플 추론보다도 낮은 성능을 보였습니다. 이러한 실패 원인은 과도한 샤프닝입니다: 그래디언트 업데이트가 다양성을 압축하여 최적의 해결책을 발견하지 못하고 평범한 해법으로 수렴하게 만듭니다. 본 연구의 주요 기여는 surprisal 기반 선택입니다: 가장 높은 surprisal(가장 낮은 신뢰도)을 보이는 정답 샘플을 선택할 경우 가장 높은 신뢰도를 보이는 샘플 선택(50% 성공률) 대비 80%의 성공률을 달성하여 30% 개선되었습니다. 이를 surprisal 기반 상위 3개 선택으로 확장하면 오라클 성능에 해당하는 100% 성공률을 달성했습니다. 길이 제어 분석을 통해 검증된 이 무비용 전략은 오라클 성능을 회복합니다. 밀집 보상 VEG 작업의 경우 계산 자원은 그래디언트 적응보다는 샘플 다양성과 지능형 선택에 할당되어야 합니다. surprisal 기반 선택 원리는 최적 해결책이 분포 꼬리 부분에 위치하는 다른 실행 기반 영역으로도 일반화될 수 있습니다.
확산 모델, 흐름 매칭, 정류 흐름과 같은 연속시간 생성 모델은 시간 종속 벡터 장을 학습하지만, 일반적으로 타임스텝을 독립적으로 처리하는 목적 함수로 학습되어 높은 추정량 분산과 비효율적인 샘플링을 초래합니다. 기존 접근법은 명시적 평활성 패널티, 궤적 정규화 또는 수정된 확률 경로와 솔버를 통해 이를 완화해 왔습니다. 본 연구에서는 동일한 확률 경로 상에서 짝을 이룬 타임스텝에서의 속도 예측을 결합하는 경량화된 분산 감소 원리인 시간적 쌍 일관성(Temporal Pair Consistency, TPC)을 제안합니다. TPC는 모델 구조, 확률 경로 또는 솔버를 수정하지 않고 완전히 추정량 수준에서 작동합니다. 우리는 TPC가 기저의 흐름 매칭 목적 함수를 보존하면서 그래디언트 분산을 이론적으로 감소시키는 이차 궤적 결합 정규화를 유도함을 보이는 이론적 분석을 제공합니다. 흐름 매칭 내에서 구현된 TPC는 CIFAR-10 및 다양한 해상도의 ImageNet에서 샘플 품질과 효율성을 개선하며, 동일하거나 더 낮은 계산 비용으로 기존 방법보다 낮은 FID를 달성합니다. 또한 노이즈 증강 학습, 점수 기반 잡음 제거 및 정류 흐름을 포함한 현대적인 SOTA 스타일 파이프라인으로 원활하게 확장됩니다.
대규모 언어 모델(LLM)이 돌이킬 수 없는 피해를 초래할 수 있는 희귀하지만 심각한 오류가 발생하는 중대한 영역에 점점 더 많이 배포되고 있습니다. 그러나 기존의 평가 벤치마크는 복잡한 사회적 위험을 평균 중심의 스칼라 점수로 축소하는 경우가 많아, 분포 구조, 차원 간 상호작용, 최악의 경우 행동을 불분명하게 만듭니다. 본 논문은 사회적 위해에 대한 다차원적, 분포 인식 평가 프레임워크인 SHARP(Social Harm Analysis via Risk Profiles)를 소개합니다. SHARP는 위해를 다변량 확률 변수로 모델링하고, 편향, 공정성, 윤리, 인식적 신뢰도로의 명시적 분해를 가법적 누적 로그 위험으로 재매개변수화된 연합-실패 집계와 통합합니다. 본 프레임워크는 위험 민감 분포 통계를 추가로 활용하며, 주요 지표로서 Conditional Value at Risk(CVaR95)를 사용하여 최악의 경우 모델 행동을 특징짓습니다. n=901개의 사회적으로 민감한 고정된 프롬프트 코퍼스로 평가된 11개의 최첨단 LLM에 SHARP를 적용한 결과, 평균 위험은 유사하지만 꼬리 위험 노출과 변동성에서 두 배 이상의 차이를 보일 수 있음이 확인되었습니다. 다양한 모델 전반에 걸쳐, 위해 차원별 한계 꼬리 행동은 체계적으로 변동하며, 편향이 가장 강한 꼬리 심각도를 보이고, 인식적 및 공정성 위험은 중간 영역을 차지하며, 윤리적 부조화는 지속적으로 낮았습니다. 이러한 패턴은 종합적으로 스칼라 벤치마크가 혼동하는 이질적이고 모델에 종속적인 실패 구조를 드러냅니다. 이러한 결과는 LLM의 책임 있는 평가와 거버넌스에 스칼라 평균을 넘어 다차원적이고 꼬리 위험에 민감한 위험 프로파일링으로의 전환이 필요함을 시사합니다.
현대적인 LLM 배포에서는 대규모로 안전성 정책을 적용해야 하지만, 많은 제어 방식이 추론 시점에 개입하는 방식에 의존하여 반복적인 컴퓨팅 비용과 서빙 복잡성을 초래합니다. 활성화 스티어링은 널리 사용되지만 런타임 훅이 필요하고 생성 횟수에 비례하여 비용이 증가합니다. 조건부 변형은 스티어링 적용 시점을 게이팅하여 선택성을 개선하지만 여전히 추론 시점 제어 경로를 유지합니다. 우리는 선택적 거부 기능을 완전히 오프라인으로 이동할 수 있는지 묻습니다: 범주별 거부와 관련된 기계적 이해를 표준 체크포인트로 배포 가능한 회로 제한 가중치 업데이트로 응축할 수 있을까요? 우리는 C-Δθ(Circuit Restricted Weight Arithmetic)를 제안합니다. 이 방법은 (i) EAP-IG를 사용하여 거부-인과 계산을 희소 회로로 지역화하고 (ii) 해당 회로에서만 지원되는 제약 가중치 업데이트 ΔθC(일반적으로 매개변수의 <5%)를 계산합니다. ΔθC를 적용하면 추론 시점 훅 없이 즉시 사용 가능한 편집된 체크포인트를 생성하며, 비용을 요청별 개입에서 일회성 오프라인 업데이트로 전환합니다. 우리는 거부 및 유틸리티 벤치마크에서 범주 대상 선택성과 기능 보존성을 평가합니다.
복잡한 현실 환경에서 컴퓨터 활용 에이전트(CUAs)의 보편적 배치와 함께 만연한 장기적 위험은 종종 심각하고 되돌릴 수 없는 결과를 초래합니다. 기존 CUA 가드레일 대부분은 반응적 접근을 채택하여 에이전트 행동을 현재 관찰 공간 내에서만 제한합니다. 이러한 가드레일은 단기 위험(예: 피싱 링크 클릭)을 즉각적으로 방지할 수 있지만, 장기적 위험을 사전에 피할 수는 없습니다. 겉보기에 합리적인 행동이 지연되어 발생하는 고위험 결과(예: 로그 삭제로 인한 향후 감사 추적 불가)를 초래할 수 있는데, 반응형 가드레일은 현재 관찰 공간 내에서 이를 식별하지 못합니다. 이러한 한계를 해결하기 위해 우리는 예측된 미래 위험과 현재 의사결정을 정렬시키는 핵심 아이디어를 바탕으로 예측형 가드레일 접근법을 제안합니다. 이를 기반으로 위험-의사결정 루프를 구축하여 안전한 에이전트 행동을 보장하는 예측형 가드레일 프레임워크인 SafePred을 제시합니다. SafePred은 두 가지 핵심 기능을 지원합니다: (1) 단기 및 장기 위험 예측: 안전 정책을 위험 예측의 기반으로 활용하여 세계 모델의 예측 능력을 통해 단기 및 장기 위험에 대한 의미론적 표현을 생성함으로써 고위험 상태로 이어지는 행동을 식별 및 제거합니다. (2) 의사결정 최적화: 단계별 개입과 작업 수준 재계획을 통해 예측된 위험을 실행 가능한 안전 의사결정 지침으로 변환합니다. 폭넓은 실험 결과, SafePred이 고위험 행동을 크게 줄이며 97.6% 이상의 안전 성능을 달성하고 반응형 기준선 대비 작업 효율성을 최대 21.4% 향상시키는 것으로 나타났습니다.
표현 인코더를 생성 모델링에 활용하면 효율적이고 높은 충실도의 합성 경로를 제공합니다. 그러나 표준 확산 트랜스포머는 이러한 표현을 직접적으로 수렴하는 데 실패합니다. 최근 연구에서는 이를 확산 트랜스포머의 계산 비용이 많이 드는 폭 확장을 제안하는 용량 병목 현상으로 돌리지만, 우리는 이 실패가 근본적으로 기하학적임을 입증합니다. 우리는 기하학적 간섭을 근본 원인으로 규정합니다: 표준 유클리드 흐름 정합은 매니폴드 표면을 따르기보다는 표현 인코더의 초구형 특징 공간의 저밀도 내부를 통해 확률 경로를 강제합니다. 이를 해결하기 위해 우리는 야코비 정규화를 적용한 리만 흐름 정합(RJF)을 제안합니다. 생성 과정을 매니폴드 측지선에 제한하고 곡률로 인한 오차 전파를 보정함으로써, RJF는 표준 확산 트랜스포머 아키텍처가 폭 확장 없이도 수렴할 수 있게 합니다. 우리의 방법인 RJF는 표준 DiT-B 아키텍처(1억 3천만 개 매개변수)가 효과적으로 수렴하여 기존 방법들이 수렴하지 못했던 3.37의 FID를 달성합니다. 코드: https://github.com/amandpkr/RJF
LLM에 확장 추론을 적용해 모든 문제를 처리하는 것은 비용이 많이 들지만, 어떤 입력에 추가 계산이 실제로 필요한지 판단하는 것은 여전히 어려운 과제입니다. 우리는 모델이 생성하기 전의 내부 표현에서 자체 성공 가능성을 복원할 수 있는지, 그리고 이러한 신호가 더 효율적인 추론을 안내할 수 있는지 조사합니다. 수학 및 코딩 과제에서 정책별 성공을 예측하기 위해 생성 전 활성화값에 선형 탐침을 학습시킨 결과, 질문 길이나 TF-IDF 같은 표면적 특징을 크게 능가하는 성능을 보였습니다. 동일한 문제에 대한 인간과 모델의 성능을 모두 제공하는 E2H-AMC를 사용하여, 모델이 인간의 난이도와 구별되는 모델 특유의 난이도 개념을 인코딩하며, 이러한 차이가 확장 추론 시 증가함을 보여줍니다. 이러한 탐침을 활용하여 여러 모델 풀에서 질의를 라우팅하는 방식이 MATH 데이터셋에서 최고 성능 모델을 능가하면서도 추론 비용을 최대 70%까지 절감할 수 있음을 입증합니다. 이는 내부 표현이 인간의 난이도 직관과 다르더라도 실용적인 효율성 향상을 가능하게 함을 보여줍니다. 우리의 코드는 https://github.com/KabakaWilliam/llms_know_difficulty에서 확인할 수 있습니다.
속성 그래프 클러스터링(AGC)은 구조적 토폴로지와 노드 속성을 통합하여 그래프 구조 데이터의 잠재적 패턴을 발견하는 기본적인 비지도 학습 과제입니다. 사기 탐지 및 사용자 세분화와 같은 산업 응용에서의 중요성에도 불구하고, 학계 연구와 실제 배포 사이에는 상당한 간극이 지속되고 있습니다. 현재 평가 프로토콜은 소규모, 높은 동질성(homophily)의 인용 데이터셋, 비확장적 풀-배치(full-batch) 학습 패러다임, 그리고 레이블이 부족한 환경에서의 성능을 제대로 반영하지 못하는 지도 학습 지표에 대한 의존으로 인한 한계를 지닙니다. 이러한 격차를 해소하기 위해, 우리는 다양한 규모와 구조적 특성에 걸쳐 AGC 방법을 엄격히 테스트하도록 설계된 포괄적이고 프로덕션 준비가 된 벤치마크 및 라이브러리인 PyAGC를 제시합니다. 우리는 기존 방법론을 모듈식 Encode-Cluster-Optimize 프레임워크로 통합하고, 최초로 다양한 최첨단 AGC 알고리즘들을 위한 메모리 효율적인 미니-배치(mini-batch) 구현을 제공합니다. 우리의 벤치마크는 2.7K에서 111M 노드에 이르는 12개의 다양한 데이터셋을 구성하며, 복잡한 테이블 형식 특징과 낮은 동질성을 가진 산업용 그래프를 특별히 포함합니다. 더 나아가, 우리는 기존의 지도 학습 지표와 함께 비지도 구조적 메트릭 및 효율성 프로파일링을 의무화하는 종합적인 평가 프로토콜을 제안합니다. Ant Group의 높은 요구사항을 가진 산업 워크플로에서 검증된 이 벤치마크는 커뮤니티에 현실적인 배포를 향한 AGC 연구를推進할 수 있는 견고하고 재현 가능하며 확장 가능한 플랫폼을 제공합니다. 코드와 관련 자료는 GitHub(https://github.com/Cloudy1225/PyAGC), PyPI(https://pypi.org/project/pyagc), Documentation(https://pyagc.readthedocs.io)을 통해 공개되어 있습니다.
시뮬레이션은 홈 로봇의 대규모 훈련 및 평가를 위한 핵심 도구로 자리 잡았으나, 기존 환경들은 실제 실내 공간의 다양성과 물리적 복잡성을 제대로 반영하지 못하고 있습니다. 현재의 장면 합성 방법은 드문드문 배치된 가구만 있는 방을 생성하여 로봇 매니픽레이션에 필수적인 빽빽한 잡동사니, 관절형 가구 및 물리적 속성이 부족합니다. 본 연구에서는 자연어 프롬프트로부터 시뮬레이션에 바로 사용 가능한 실내 환경을 생성하는 계층적 에이전트 프레임워크인 SceneSmith를 소개합니다. SceneSmith는 건축적 레이아웃에서 가구 배치, 소형 객체 배치에 이르는 연속적인 단계를 통해 장면을 구성하며, 각 단계는 디자이너, 비평가, 오케스트레이터라는 VLM 에이전트 간의 상호작용으로 구현됩니다. 본 프레임워크는 정적 객체에 대해서는 텍스트-3D 합성을 통한 에셋 생성, 관절형 객체에 대해서는 데이터셋 검색, 그리고 물리적 속성 추정을 긴밀하게 통합합니다. SceneSmith는 기존 방법보다 3-6배 많은 객체를 생성하며, 객체 간 충돌률은 2% 미만, 물리 시뮬레이션 하에서 안정적인 객체 비율은 96%에 달합니다. 205명의 참가자를 대상으로 한 사용자 연구에서 기준 방법 대비 평균 92%의 사실성 승률과 91%의 프롬프트 정확도 승률을 달성했습니다. 또한 이러한 환경들이 자동 로봇 정책 평가를 위한 종단간 파이프라인에 활용될 수 있음을 보여줍니다.