번역이 포함된 일일 선별된 AI 연구 논문
최근 추론 모델의 발전은 장기 수학 및 과학 문제 해결 능력을 크게 향상시켰으며, 여러 시스템이 국제수학올림피아드(IMO) 및 국제물리올림피아드(IPhO) 문제에서 금메달 수준의 성능을 달성하고 있습니다. 본 논문에서는 사후 훈련된 추론 백본을 엄격한 올림피아드 수준의 해결사로 변환하는 간단하고 통합된 방법을 제안합니다. 이 방법은 먼저 역-퍼플렉서티 커리큘럼을 사용한 SFT를 통해 엄격한 증명 탐색 및 자가 점검 행동을 주입한 후, 검증 가능한 보상을 사용한 RL에서 더 세밀한 증명 수준 RL로 진행되는 2단계 RL 파이프라인을 통해 이러한 행동을 확장하고, 마지막으로 테스트 시간 스케일링을 통해 해결 성능을 향상시킵니다. 이 방법을 적용하여 약 34만 개의 8K 미만 토큰 궤적으로 SFT를 수행한 후 200회의 RL 단계를 통해 30B-A3B 백본을 훈련했습니다. 그 결과 생성된 모델인 SU-01은 10만 토큰을 초과하는 궤적을 가진 어려운 문제에 대해 안정적인 추론을 지원하며, IMO 2025/USAMO 2026 및 IPhO 2024/2025를 포함한 수학 및 물리 올림피아드 대회에서 금메달 수준의 성능을 달성합니다. 또한 수학과 물리학을 넘어 과학적 추론의 강력한 일반화 능력을 보여줍니다.
실시간 대화형 비디오 생성은 낮은 지연 시간, 스트리밍, 그리고 제어 가능한 롤아웃을 요구한다. 기존의 자기회귀(AR) 확산 증류 방법은 양방향 기반 모델을 소수 스텝 AR 학생 모델로 증류하여 청크 단위 4-스텝 체계에서 강력한 결과를 달성했지만, 여전히 거친 응답 세분성과 무시할 수 없는 샘플링 지연 시간에 의해 제한된다. 본 논문에서는 더 공격적인 설정인 단 1-2 샘플링 스텝으로 프레임 단위 자기회귀를 연구한다. 이 체계에서 소수 스텝 AR 학생 모델의 초기화가 핵심 병목임을 확인한다. 기존 전략은 목표 정렬이 잘못되었거나, 소수 스텝 생성을 수행할 수 없거나, 확장 비용이 너무 높다. 우리는 인과 일관성 증류(causal CD)를 사용하여 소수 스텝 AR 초기화를 위한 원칙적이고 확장 가능한 파이프라인인 Causal Forcing++을 제안한다. 핵심 아이디어는 인과 CD가 인과 ODE 증류와 동일한 AR 조건부 흐름 맵을 학습하지만, 인접한 시간 스텝 간의 단일 온라인 교사 ODE 스텝에서 감독을 얻어 전체 PF-ODE 궤적을 사전 계산 및 저장할 필요를 피한다는 것이다. 이는 초기화를 더 효율적이고 최적화하기 쉽게 만든다. 결과 파이프라인인 \ours는 **프레임 단위 2-스텝 설정**에서 최첨단 4-스텝 청크 단위 Causal Forcing을 VBench Total에서 0.1, VBench Quality에서 0.3, VisionReward에서 0.335만큼 능가하면서 첫 프레임 지연 시간을 50% 줄이고 Stage 2 훈련 비용을 약 4배 절감한다. 또한 파이프라인을 Genie3의 정신에 따라 행동 조건부 월드 모델 생성으로 확장한다. 프로젝트 페이지: https://github.com/thu-ml/Causal-Forcing 및 https://github.com/shengshu-ai/minWM .
강화 학습(RL)은 LLM 에이전트의 사후 훈련을 위한 핵심 패러다임으로 부상했지만, 궤적 수준의 보상 신호는 장기적 상호작용에 대해 거친 수준의 지도만을 제공한다. 온-정책 자기 증류(OPSD)는 특권 맥락으로 증강된 교사 분기로부터 조밀한 토큰 수준의 안내를 도입하여 RL을 보완한다. 그러나 OPSD를 다중 턴 에이전트로 전이하는 것은 문제가 있음이 드러난다. 누적되는 다중 턴 불안정성이 지도 학습을 불안정하게 만들고, 스킬 조건화된 특권 안내는 불완전한 스킬 검색 또는 활용으로 인해 발생할 수 있는 부정적인 교사 거부에 대해 비대칭적 처리를 요구한다. 우리는 OPSD를 게이트된 보조 목표로 취급하면서 RL을 주요 최적화 백본으로 유지하는 SDAR(자기 증류 에이전트 강화 학습)을 소개한다. SDAR는 분리된 토큰 수준 신호를 시그모이드 게이트에 매핑하여, 교사가 승인한 양성 갭 토큰에 대한 증류를 강화하고 부정적인 교사 거부를 부드럽게 약화시킨다. ALFWorld, WebShop 및 Search-QA에서 Qwen2.5 및 Qwen3 제품군 전반에 걸쳐, SDAR는 GRPO 대비 현저한 성능 향상(ALFWorld에서 +9.4%, Search-QA에서 +7.0%, WebShop-Acc에서 +10.2%)을 보이며, 단순 GRPO+OPSD의 불안정성을 피하고, 모델 규모에 걸쳐 하이브리드 RL-OPSD 기준선을 일관되게 능가한다.
메모리는 대규모 시각-언어 모델(LVLM)이 긴 다중 양식 상호작용을 처리하는 데 필수적이며, 이 능력을 제공하는 두 가지 방법 방향이 있다: 긴 문맥 LVLM과 메모리 증강 에이전트이다. 그러나 기존 벤치마크 중 실제로 다중 양식 증거를 요구하는 질문에 대해 이 두 가지를 체계적으로 비교한 것은 없다. 이 격차를 해소하기 위해, 우리는 MEMLENS를 소개한다. 이는 다중 양식 다중 세션 대화에서 메모리에 대한 포괄적인 벤치마크로, 교차 양식 토큰 계산 방식 하에 네 가지 표준 문맥 길이(32K-256K 토큰)에서 다섯 가지 메모리 능력(정보 추출, 다중 세션 추론, 시간적 추론, 지식 업데이트, 응답 거부)에 걸친 789개의 질문으로 구성된다. 이미지 제거 연구는 MEMLENS를 해결하는 데 시각적 증거가 필요함을 확인시켜 준다: 증거 이미지를 제거하면, 증거에 이미지가 포함된 80.4%의 질문에서 두 최첨단 LVLM의 정확도가 2% 미만으로 떨어진다. 27개의 LVLM과 7개의 메모리 증강 에이전트를 평가한 결과, 긴 문맥 LVLM은 직접적인 시각적 근거를 통해 짧은 문맥에서 높은 정확도를 달성하지만 대화가 길어질수록 성능이 저하되는 반면, 메모리 에이전트는 길이에 안정적이지만 저장 시 압축으로 인해 시각적 충실도를 잃는다. 다중 세션 추론은 대부분의 시스템을 30% 미만으로 제한하며, 어느 접근법 단독으로는 작업을 해결하지 못한다. 이러한 결과는 긴 문맥 주의와 구조화된 다중 양식 검색을 결합한 하이브리드 아키텍처에 대한 동기를 제공한다. 우리의 코드는 https://github.com/xrenaf/MEMLENS에서 확인할 수 있다.
우리는 SANA-WM을 소개한다. 이는 효율적인 26억 파라미터의 오픈소스 월드 모델로, 1분짜리 생성에 특화되어 학습되었으며, 정밀한 카메라 제어를 통해 고충실도 720p 분 단위 비디오를 합성한다. SANA-WM은 LingBot-World 및 HY-WorldPlay와 같은 대규모 산업 벤치마크와 견줄 만한 시각적 품질을 달성하면서도 효율성을 크게 향상시킨다. 네 가지 핵심 설계가 아키텍처를 구성한다: (1) 하이브리드 선형 어텐션(Hybrid Linear Attention)은 프레임별 Gated DeltaNet(GDN)과 소프트맥스 어텐션을 결합하여 메모리 효율적인 장기 컨텍스트 모델링을 수행한다. (2) 이중 분기 카메라 제어(Dual-Branch Camera Control)는 정밀한 6자유도 궤적 추종을 보장한다. (3) 2단계 생성 파이프라인(Two-Stage Generation Pipeline)은 1단계 출력에 장기 비디오 정제기를 적용하여 시퀀스 전반의 품질과 일관성을 향상시킨다. (4) 강건한 주석 파이프라인(Robust Annotation Pipeline)은 공개 비디오에서 정확한 미터 스케일 6자유도 카메라 포즈를 추출하여 고품질의 시공간적으로 일관된 액션 레이블을 생성한다. 이러한 설계에 힘입어 SANA-WM은 데이터, 학습 연산 및 추론 하드웨어 전반에서 놀라운 효율성을 보여준다. 미터 스케일 포즈 지도 학습을 통해 약 213K개의 공개 비디오 클립만을 사용하며, 64대의 H100에서 15일 만에 학습을 완료하고, 각 60초 클립을 단일 GPU에서 생성한다. 증류된 변종은 NVFP4 양자화를 적용한 단일 RTX 5090에 배포되어 60초 720p 클립을 34초 만에 잡음 제거할 수 있다. 당사의 1분 월드 모델 벤치마크에서 SANA-WM은 기존 오픈소스 기준선보다 더 강력한 액션 추종 정확도를 보여주며, 확장 가능한 월드 모델링을 위해 36배 더 높은 처리량에서 비교 가능한 시각적 품질을 달성한다.
장기 에이전트 메모리는 점점 더 다중 모달화되고 있지만, 기존 평가에서는 에이전트가 이후 추론에 필요한 시각적 증거를 보존하는지 거의 테스트하지 않는다. 선행 연구에서는 많은 시각 기반 질문이 캡션이나 텍스트 흔적만으로도 답변 가능하여, 세밀한 시각적 증거를 보존하지 않고도 답을 추론할 수 있었다. 한편, 변화하는 시각적 상태에 대한 추론이 필요한 더 어려운 사례는 대부분 부재하다. 따라서 우리는 메모리 능력을 두 가지 차원에서 평가하는 프레임워크인 MemEye를 소개한다. 하나는 결정적 시각적 증거의 세분성(장면 수준에서 픽셀 수준의 증거까지)을 측정하고, 다른 하나는 검색된 증거가 어떻게 사용되어야 하는지(단일 증거에서 진화적 종합까지)를 측정한다. 이 프레임워크 하에 우리는 8가지 생활 시나리오 작업에 걸쳐 새로운 벤치마크를 구축하며, 답변 가능성, 지름길 저항성, 시각적 필수성, 추론 구조를 평가하기 위한 제거 기반 검증 게이트를 포함한다. 4개의 VLM 백본에 걸쳐 13가지 메모리 방법을 평가함으로써, 현재 아키텍처가 세밀한 시각적 세부 사항을 보존하고 시간에 따른 상태 변화를 추론하는 데 여전히 어려움을 겪고 있음을 보여준다. 우리의 발견은 장기 다중 모달 메모리가 증거 라우팅, 시간적 추적, 세부 정보 추출에 의존함을 시사한다.
우리는 Darwin Family를 제안한다. 이는 경사도 없는 가중치 공간 재조합을 통해 대규모 언어 모델의 훈련 없는 진화적 병합을 가능하게 하는 프레임워크이다. 본 연구는 추가 훈련 없이 기존 체크포인트에 이미 인코딩된 잠재 능력을 재구성함으로써 최첨단 추론 성능을 개선할 수 있는지를 탐구한다. Darwin은 세 가지 핵심 아이디어를 도입한다: (i) 세부 구성 요소 및 블록 수준의 재조합을 가능하게 하는 14차원 적응형 병합 게놈; (ii) 학습 가능한 신뢰 파라미터를 통해 진화적 탐색과 진단적 계층 중요도 신호를 적응적으로 균형 맞추는 MRI-Trust 융합; (iii) 이종 모델 패밀리 간의 교차 아키텍처 교배를 가능하게 하는 아키텍처 매퍼. 실험적으로, 주력 모델인 Darwin-27B-Opus는 GPQA Diamond에서 86.9%를 달성하여 1,252개 평가 모델 중 6위를 기록했으며, 경사도 기반 훈련 없이 완전히 훈련된 기반 모델을 능가했다. 4B에서 35B 파라미터에 이르는 다양한 규모에서 Darwin 모델은 일관되게 부모 모델보다 성능이 우수하며, 재귀적 다세대 진화를 지원하고, Transformer 및 Mamba 기반 구성 요소를 결합하는 훈련 없는 진화적 병합을 가능하게 한다. 종합적으로, Darwin Family는 진단 기반 진화적 병합이 추론 중심 언어 모델을 위한 고비용 사후 훈련 파이프라인에 대한 실용적이고 재현 가능한 대안임을 입증한다.
LLM 기반 자율 에이전트는 추론, 계획, 도구 사용에서 강력한 역량을 보여주지만, 역할, 도구, 환경 전반에 걸친 지속적인 조정이 필요한 작업에서는 여전히 한계를 지닌다. 다중 에이전트 시스템은 전문 에이전트 간의 구조화된 협력을 통해 이를 해결하지만, 긴밀한 조정은 덜 탐구된 위험을 증폭시킨다. 즉, 에이전트와 상호작용 라운드 사이에서 오류가 전파되어 진단이 어렵고 구조적 자기 개선으로 거의 이어지지 않는 실패를 초래한다는 점이다. 기존의 조사 연구들은 개별 에이전트 역량, 다중 에이전트 협력, 또는 에이전트 자기 진화를 각각 별도로 다루어, 이들 간의 인과적 의존성을 검토하지 못했다. 본 조사는 LIFE 진행(LIFE progression)이라 명명한 네 가지 인과적으로 연결된 단계를 중심으로 한 통합적 리뷰를 제공한다: 역량 기반 구축(Lay the capability foundation), 협력을 통한 에이전트 통합(Integrate agents through collaboration), 귀인을 통한 오류 발견(Find faults through attribution), 자율적 자기 개선을 통한 진화(Evolve through autonomous self-improvement). 각 단계에 대해 체계적인 분류 체계를 제시하고 인접 단계 간 의존성을 공식적으로 특성화함으로써, 각 단계가 다음 단계에 어떻게 의존하고 제약하는지 밝힌다. 기존 연구를 종합하는 것 외에도, 우리는 단계 경계에서의 미해결 과제를 식별하고, 폐루프 다중 에이전트 시스템을 위한 단계 간 연구 의제를 제안한다. 이는 지속적으로 실패를 진단하고, 구조를 재조직하며, 에이전트 행동을 정제함으로써 현재의 조정 프레임워크를 보다 자기 조직화 형태의 집단 지능으로 확장하는 것을 목표로 한다. 이전까지 분리된 연구 흐름들을 연결함으로써, 본 조사는 자율적이고 자기 개선적인 다중 에이전트 지능을 향한 체계적 참고 자료이자 개념적 로드맵을 제공하고자 한다.
대규모 언어 모델(LLM) 기반 에이전트는 점차 일관된 장기적 개인화 메모리를 유지할 것으로 기대되지만, 현재의 벤치마크는 주로 정적 사실 검색만을 측정하여 새로운 증거가 등장할 때 저장된 믿음을 수정하는 능력을 간과하고 있다. 본 연구는 중요하지만 충분히 탐구되지 않은 실패 유형인 암묵적 갈등(Implicit Conflict)을 식별한다. 이는 명시적 부정 없이 이후의 관찰이 이전 기억을 무효화하는 상황으로, 이를 탐지하기 위해 맥락적 추론과 상식적 추론이 요구된다. 본 능력을 엄격히 평가하기 위해, 100개 이상의 일상 주제에 걸쳐 최대 150K 토큰의 맥락을 포함하며 400개의 전문가 검증 갈등 시나리오(세 가지 탐색 차원에 걸친 1,200개의 평가 질의)로 구성된 벤치마크인 STALE을 제안한다. 또한 세 가지 차원의 탐색 프레임워크를 제안한다: 상태 해결(State Resolution, 이전 믿음이 구식임을 탐지), 전제 저항(Premise Resistance, 구식 상태를 거짓으로 전제하는 질의를 거부), 암묵적 정책 적응(Implicit Policy Adaptation, 하위 행동에 업데이트된 상태를 능동적으로 적용). 최첨단 LLM 및 특화된 메모리 프레임워크에 대한 체계적 평가는 업데이트된 증거를 검색하는 것과 이를 실제로 행동에 적용하는 것 사이에 광범위한 간극이 존재함을 보여주며, 최고 평가 모델조차 전체 정확도 55.2%에 그쳤다. 모델들은 사용자 질의에 내재된 구식 가정을 수용하는 경향이 있으며, 사용자 상태의 한 측면 변화가 관련 기억을 무효화해야 함을 인식하는 데 어려움을 겪는다. 상태 인식 메모리의 초기 기준선을 구축하기 위해, 본 연구는 구조화된 상태 통합 및 전파 인식 검색을 통해 쓰기 시점 수정을 강화하는 프로토타입 CUPMem을 추가로 제시하며, 이는 명시적 상태 조정이 강건한 에이전트 메모리를 위한 유망한 방향임을 시사한다.
대형 언어 모델 및 비전-언어 모델은 명령줄 인터페이스(CLI) 하네스를 통해 사용자를 대신하여 작업을 수행하는 에이전트로 점점 더 많이 활용되고 있다. 그러나 대부분의 에이전트 벤치마크는 여전히 합성 샌드박스, 단기적 작업, 모의 서비스 API, 그리고 최종 답변 확인에 의존하고 있어, 에이전트가 실제 배포된 런타임 환경에서 현실적인 장기 작업을 완료할 수 있는지는 아직 검증되지 않았다. 본 연구는 WildClawBench를 제시한다. 이는 60개의 사람이 작성한 이중 언어 및 멀티모달 작업을 6개 주제 범주에 걸쳐 수집한 네이티브 런타임 벤치마크이다. 각 작업은 평균 약 8분의 실제 경과 시간과 20회 이상의 도구 호출을 소요하며, 모의 서비스가 아닌 실제 도구에 접근할 수 있는 실제 CLI 에이전트 하네스(OpenClaw, Claude Code, Codex 또는 Hermes Agent)가 탑재된 재현 가능한 Docker 컨테이너 내에서 실행된다. 평가는 결정론적 규칙 기반 검사, 부작용에 대한 환경 상태 감사, 그리고 의미론적 검증을 위한 LLM/VLM 판정기를 결합한 혼합 방식을 사용한다. 19개의 최첨단 모델을 대상으로 한 평가에서, 최고 성능을 보인 Claude Opus 4.7이 OpenClaw 환경에서 62.2%의 전체 점수를 기록했으며, 다른 모든 모델은 60% 미만에 머물렀다. 또한, 하네스만 변경해도 단일 모델의 점수가 최대 18포인트까지 차이 났다. 이러한 결과는 장기적이고 네이티브 런타임에서의 에이전트 평가가 현재 최첨단 모델에게 여전히 해결되지 않은 과제임을 보여준다. 우리는 재현 가능한 평가를 지원하기 위해 작업, 코드, 컨테이너화된 도구를 공개한다.
카메라 제어 비디오 생성은 상당한 진전을 이루었으며, 생성된 비디오가 지정된 시점 궤적을 따를 수 있게 되었다. 그러나 기존 방법들은 일반적으로 카메라 인코더, 제어 분기, 또는 어텐션 및 위치 인코딩 수정을 통해 카메라별 조건화를 학습하며, 이는 종종 대규모 카메라 주석 비디오에 대한 사후 학습을 필요로 한다. 학습 불필요 대안은 이러한 사후 학습을 피하지만, 종종 비용을 테스트 시간 최적화나 추가적인 잡음 제거 시간 안내로 전가한다. 우리는 Warp-as-History를 제안한다. 이는 카메라 유도 왜곡을 대상 프레임 위치 정렬 및 가시 토큰 선택을 통해 카메라 왜곡된 의사 이력으로 변환하는 간단한 인터페이스이다. 주어진 대상 카메라 궤적에 대해, 우리는 과거 관측치로부터 카메라 왜곡된 의사 이력을 구성하고 이를 모델의 시각적 이력 경로를 통해 공급한다. 중요하게도, 우리는 그 위치 인코딩을 잡음 제거 중인 대상 프레임과 정렬하고, 유효한 소스 관측치가 없는 왜곡 이력 토큰을 제거한다. 어떤 학습, 구조 수정, 또는 테스트 시간 최적화 없이도, 이 인터페이스는 고정된 비디오 생성 모델이 카메라 궤적을 따르는 사소하지 않은 제로샷 능력을 드러낸다. 더욱이, 단 하나의 카메라 주석 비디오에 대한 경량의 오프라인 LoRA 미세 조정은 이 능력을 더욱 향상시키고 보지 못한 비디오로 일반화하여, 테스트 시간 최적화나 대상 비디오 적응 없이도 카메라 준수, 시각적 품질 및 움직임 역학을 개선한다. 다양한 데이터셋에 대한 광범위한 실험은 우리 방법의 효과성을 확인한다.
대규모 언어 모델(LLM) 생태계가 확장됨에 따라 개별 모델들은 쿼리, 벤치마크, 도메인에 걸쳐 다양한 능력을 보여주며, 이는 LLM 라우팅 개발의 동기가 되고 있다. 기존 연구는 주로 라우터 메커니즘 설계에 집중해 왔으나, 모델 능력을 포착하는 LLM 프로필은 여전히 충분히 탐구되지 않았다. 본 연구에서는 다음과 같은 질문을 제기한다: LLM 프로필 설계가 다양한 라우터에서의 라우팅 성능에 어떤 영향을 미치는가? 이 질문에 답함으로써 라우팅에서 프로필의 역할을 명확히 하고, 프로필 설계와 라우터 설계를 분리하며, 라우팅 시스템의 공정한 비교와 보다 원칙적인 개발을 가능하게 한다. 이를 위해 우리는 LLM 프로파일링을 이질적인 상호작용 이력에 대한 구조화된 정보 통합 문제로 간주한다. 우리는 RouteProfile이라는 LLM 프로필의 일반적인 설계 공간을 조직 형태, 표현 유형, 집계 깊이, 학습 구성의 네 가지 주요 차원을 따라 개발한다. 세 가지 대표적인 라우터를 대상으로 표준 설정과 새로운 LLM 일반화 설정 모두에서 체계적인 평가를 수행한 결과, (1) 구조화된 프로필이 평면형 프로필보다 일관되게 우수하며, (2) 쿼리 수준 신호가 조잡한 도메인 수준 신호보다 더 신뢰할 수 있고, (3) 새로 도입된 모델로의 일반화는 학습 가능한 구성에서 구조화된 프로필이 가장 큰 이점을 제공함을 보여준다. 종합적으로, 본 연구는 LLM 프로필 설계가 향후 라우팅 연구에서 중요한 방향임을 강조한다.
에이전트 메모리는 일반적으로 큐레이션된 데모를 통한 오프라인 방식이나 배포 후 상호작용을 통한 온라인 방식으로 구축된다. 그러나 메모리 구축 방식과 관계없이, 에이전트가 특정 작업 경험 없이 새로운 환경에 처음 도입될 때 콜드 스타트 격차(cold-start gap)에 직면한다. 본 논문에서는 사전 작업 메모리 구축(pre-task memory construction)을 연구한다: 즉, 에이전트가 대상 환경(task)을 관찰하기 전에 자체 생성된 합성 연습(synthetic practice)만을 사용하여 절차적 메모리를 구축할 수 있는지 여부를 다룬다. 그러나 합성 상호작용만으로는 충분하지 않다. 무엇을 연습하고 무엇을 저장할지 제어하지 않으면 합성 작업은 중복되고, 실행 불가능하며, 궁극적으로 정보를 제공하지 못하게 되고, 필터링되지 않은 궤적으로 인해 메모리가 빠르게 저하되기 때문이다. 이를 극복하기 위해, 우리는 제안자 기반 메모리 구축 프레임워크인 Preping을 제시한다. 핵심은 미래 연습을 형성하는 구조화된 제어 상태인 제안자 메모리(proposer memory)이다. 제안자(Proposer)는 이 상태에 조건화된 합성 작업을 생성하고, 해결자(Solver)가 이를 실행하며, 검증자(Validator)는 메모리 삽입에 적합한 궤적을 결정하고 동시에 향후 제안을 안내하는 피드백을 제공한다. AppWorld, BFCL v3 및 MCP-Universe에서의 실험 결과, Preping은 메모리가 없는 기준선(baseline)보다 크게 개선되었으며, 오프라인 또는 온라인 경험으로 구축된 강력한 플레이북 기반 방법과 경쟁력 있는 성능을 달성하면서도 배포 비용은 온라인 메모리 구축 대비 AppWorld에서 2.99배, BFCL v3에서 2.23배 낮았다. 추가 분석에 따르면, 주요 이점은 합성 데이터의 양 자체가 아니라, 실행 가능성, 중복성 및 적용 범위에 대한 제안자 측의 제어와 선택적 메모리 업데이트의 결합에서 비롯된다.
장기 기억은 여러 세션에 걸쳐 작동하는 LLM 에이전트에게 필수적이지만, 기존 메모리 시스템은 검색 인프라를 고정된 것으로 간주한다. 즉, 저장된 내용은 진화하지만 점수 함수, 융합 전략 및 답변 생성 정책은 배포 시점에 그대로 고정된다. 우리는 진정한 적응형 메모리가 저장된 지식과 이를 질의하는 검색 메커니즘의 두 수준에서 공동 진화를 필요로 한다고 주장한다. 우리는 LLM 기반 진단 모듈에 의해 최적화된 구조화된 행동 공간으로 전체 검색 설정을 노출하는 자가 진화 메모리 아키텍처인 EvolveMem을 제시한다. 각 진화 라운드에서 모듈은 질문별 실패 로그를 읽고 근본 원인을 식별하며 목표된 설정 조정을 제안한다. 보호된 메타 분석기는 퇴보 시 복원 및 정체 시 탐색 보호 장치를 통해 이를 자동으로 적용한다. 이 폐쇄 루프 자가 진화는 AutoResearch 프로세스를 구현한다. 즉, 시스템이 자체 아키텍처에 대해 반복 연구 주기를 자율적으로 수행하여 수동 설정 조정을 대체한다. 최소 기준선에서 시작하여 프로세스는 자율적으로 수렴하며, 원래 행동 공간에 존재하지 않았던 완전히 새로운 설정 차원을 포함한 효과적인 검색 전략을 발견한다. LoCoMo에서 EvolveMem은 가장 강력한 기준선 대비 25.7% 상대적 우위를 보이며, 최소 기준선 대비 78.0% 상대적 개선을 달성한다. MemBench에서 EvolveMem은 가장 강력한 기준선을 18.9% 상대적으로 초과한다. 진화된 설정은 치명적 전이가 아닌 긍정적 전이로 벤치마크 간에 전이되며, 이는 자가 진화 프로세스가 벤치마크 특화 휴리스틱보다는 보편적 검색 원칙을 포착함을 나타낸다. 코드는 https://github.com/aiming-lab/SimpleMem에서 확인할 수 있다.
우리는 종종 정밀한 기하학, 재질, 시점 제어를 따르는 사실적이면서도 3D 일관성 있는 이미지를 생성하는 것을 목표로 한다. 일반적으로 이는 수십억 장의 실제 이미지로 사전 훈련된 이미지 생성기를, 제어 신호에 대한 주석이 달린 합성 3D 자산의 렌더링을 사용하여 미세 조정함으로써 달성된다. 이러한 접근 방식은 원하는 제어를 학습할 수 있지만, 사진과 렌더링 간의 도메인 차이로 인해 이미지의 사실성이 종종 저하된다. 우리는 이 문제가 주로 모델이 제어 신호의 존재와 이미지의 합성적 외관 사이에 의도치 않은 연관성을 학습하기 때문에 발생한다는 것을 관찰한다. 이를 해결하기 위해, 우리는 제어와 시각적 도메인을 분리하는 확산 모델 훈련을 위한 경량 프레임워크인 Realiz3D를 소개한다. 핵심 아이디어는 작은 잔차 어댑터에 입력되어 도메인을 전환하는 공변량을 도입함으로써, 시각적 도메인(실제 또는 합성)을 다른 제어 신호와 별도로 명시적으로 학습하는 것이다. 그러면 생성기는 특정 시각적 도메인에 적합하지 않으면서 제어 가능성을 얻도록 훈련될 수 있다. 이러한 방식으로, 제어가 적용될 때에도 모델이 사실적인 이미지를 생성하도록 유도할 수 있다. 우리는 확산 기반 생성기에서 서로 다른 계층과 잡음 제거 단계의 역할에 대한 통찰을 활용하여 제어 전이성을 실제 도메인으로 향상시키며, 차이를 더욱 완화하는 새로운 훈련 및 추론 전략을 제공한다. 우리는 텍스트-멀티뷰 생성 및 3D 입력으로부터의 텍스처링 작업에서 Realiz3D의 장점을 입증하며, 3D 일관성 있고 사실적인 출력을 생성한다.
시각적 추론은 종종 중간 시각적 상태와 함께 인터리브(interleave)되면서 해당 분야에서 유망한 방향으로 부상하고 있다. 간단한 접근 방식은 추론 중에 통합 모델을 통해 직접 이미지를 생성하는 것이지만, 이는 계산 비용이 높고 구조적으로 간단하지 않다. 최근 대안으로는 코드나 도구 호출을 통한 에이전트적 추론(agentic reasoning), 학습 가능한 은닉 임베딩을 사용한 잠재 추론(latent reasoning) 등이 있다. 그러나 에이전트적 방법은 외부 실행으로 인한 컨텍스트 전환 지연(context-switching latency)이 발생하고, 잠재 방법은 작업 일반화(task generalization)가 부족하며 자기회귀 병렬화(autoregressive parallelization)로 훈련하기 어렵다. 이러한 각각의 장점을 결합하고 한계를 완화하기 위해, 우리는 ATLAS를 제안한다. 이 프레임워크에서 기능적 토큰(functional token)이라 불리는 단일 이산적 '단어(word)'는 에이전트적 연산이자 잠재 시각 추론 단위로 기능한다. 각 기능적 토큰은 내재화된 시각적 연산과 연관되어 있지만, 시각적 지도(supervision)를 필요로 하지 않으며 토크나이저 어휘 내의 표준 토큰으로 유지되므로, 다음 토큰 예측(next-token prediction)을 통해 생성될 수 있다. 이 설계는 장황한 중간 시각적 콘텐츠 생성을 피하면서도, 구조적 또는 방법론적 수정 없이 기본적인 확장 가능한 SFT(지도 미세 조정) 및 RL(강화 학습) 훈련과의 호환성을 유지한다. RL 중 기능적 토큰의 희소성 문제를 추가로 해결하기 위해, 우리는 잠재 앵커 GRPO(Latent-Anchored GRPO, LA-GRPO)를 도입한다. 이는 기능적 토큰을 정적으로 가중치가 부여된 보조 목적 함수(auxiliary objective)로 고정(anchor)하여 더 강력한 그래디언트 업데이트를 제공함으로써 훈련을 안정화한다. 광범위한 실험과 분석을 통해 ATLAS가 어려운 벤치마크에서 우수한 성능을 달성하면서도 명확한 해석 가능성을 유지함을 입증한다. 우리는 ATLAS가 미래의 시각적 추론 연구에 영감을 주는 새로운 패러다임을 제공하기를 기대한다.
다개체 경로 탐색(Multi-Agent Pathfinding, MAPF)은 공유된 환경 내에서 다수의 동질적 에이전트가 동시에 이동하는 다중 로봇 궤적 계획 문제를 위한 널리 사용되는 추상화 기법이다. MAPF를 최적으로 해결하는 것은 NP-난해(NP-hard)임에도 불구하고, 물류 및 수색·구조와 같은 실제 응용 분야에서는 확장 가능하고 효율적인 해결사가 필수적이다. 이에 따라 연구 공동체는 기계 학습을 활용하는 다양한 분산 기반의 차선 MAPF 해결사를 제안해 왔다. 이러한 방법들은 MAPF를 단일 에이전트 관점에서 분산 부분 관찰 마르코프 결정 과정(Dec-POMDP)으로 구성하며, 각 시간 단계에서 에이전트가 지역 관찰에 기반해 행동을 결정해야 하며, 일반적으로 강화 학습 또는 모방 학습을 통해 문제를 해결한다. 본 연구는 동일한 접근법을 따르되, 효율적인 특징 공유를 통해 에이전트 간 협력을 강화하기 위해 설계된 학습 가능한 통신 모듈을 추가로 도입한다. 우리는 이웃 에이전트 간 다중 라운드 통신을 적용하여 정보를 교환하고 협력을 개선하는 일반화 가능한 사전 학습 모델인 지역 통신 기반 다개체 경로 탐색(LC-MAPF)을 제시한다. 실험 결과, 제안된 방법은 IL 및 RL 기반 접근법을 포함한 기존의 학습 기반 MAPF 해결사들을 다양한(미관측) 테스트 시나리오에서 여러 지표에 걸쳐 능가함을 보여준다. 특히, 도입된 통신 메커니즘은 통신 기반 MAPF 해결사의 일반적인 병목 현상인 LC-MAPF의 확장성을 저해하지 않는다.
많은 실제 코딩 문제는 개방형(open-ended)이며 알려진 최적해가 존재하지 않는다. 그러나 최근 LLM 코딩 분야의 진전은 기능 구현, 버그 수정, 경쟁 프로그래밍과 같은 명확히 정의된 과제에 집중되어 왔다. 개방형 코딩은 LLM에게 여전히 취약점으로 남아 있는데, 이는 주로 개방형 훈련 문제를 구성하는 데 많은 비용과 노력이 필요하기 때문이다. 본 연구의 목표는 대규모로 개방형 코딩 문제를 합성하여 더 강력한 LLM 코더를 훈련하는 것이다. 우리는 기존의 폐쇄형(closed-ended) 코딩 과제로부터 개방형 문제를 반복적으로 진화시키는 자동화 시스템인 FrontierSmith를 제안한다. 경쟁 프로그래밍 문제를 출발점으로 삼아, FrontierSmith는 문제의 목표를 변경하고, 출력을 제한하며, 입력을 일반화함으로써 후보 개방형 변형을 생성한다. 그런 다음 정량적 아이디어 발산 척도를 사용하여 서로 다른 해결자들이 진정으로 다양한 접근 방식을 보이도록 유도하는 문제를 선별한다. 에이전트는 생존한 후보 문제에 대해 테스트 케이스와 검증기를 생성한다. 두 개의 개방형 코딩 벤치마크에서 합성 데이터로 훈련한 결과 기본 모델 대비 상당한 성능 향상을 보였다. Qwen3.5-9B는 FrontierCS에서 +8.82 점, ALE-bench에서 +306.36(Elo 레이팅 기반 성능) 향상되었고, Qwen3.5-27B는 각각 +12.12 및 +309.12 향상되었다. 합성된 문제는 또한 인간이 선별한 문제와 유사하게 에이전트가 더 많은 턴과 토큰을 사용하도록 유도하여, 폐쇄형 시드가 장기적 추론을 요구하는 코딩 데이터의 실용적인 출발점이 될 수 있음을 시사한다.
극도로 긴 시퀀스 길이에서 인과적 트랜스포머를 훈련할 때, 스케일드 닷-프로덕트 어텐션(SDPA)의 이차 시간 및 메모리로 인해 병목 현상이 발생합니다. 본 연구에서는 일반 SDPA를 감싸는 훈련 전용 대칭 선택 기반 계층적 어텐션 알고리즘인 Lighthouse Attention을 제안하며, 이는 훈련 종료 시 쉽게 제거할 수 있습니다. 또한, 우리의 계층적 선택은 그래디언트가 없으므로 복잡하고 잠재적으로 비효율적인 역방향 패스 커널을 다루지 않아도 됩니다. 본 연구의 기여는 세 가지입니다: (i) 시퀀스의 적응형 압축 및 압축 해제를 수행하는 서브쿼드라틱 계층적 전처리 및 후처리 단계, (ii) 좌에서 우로의 인과성을 보존하면서 쿼리, 키, 값을 동시에 풀링하여 병렬성을 크게 향상시키는 대칭 압축 전략, (iii) 대부분의 훈련 시간 동안 Lighthouse Attention으로 사전 훈련하고 짧은 훈련을 통해 마지막에 전체 어텐션 모델을 복구하는 2단계 훈련 접근법. 우리는 다른 모든 설정을 동일하게 맞춘 전체 어텐션 훈련과 비교하여 우리 방법의 효과를 보여주는 예비 소규모 LLM 사전 훈련 실험을 수행했으며, 복구 단계 이후 더 빠른 총 훈련 시간과 더 낮은 최종 손실을 달성했습니다. 전체 코드는 https://github.com/ighoshsubho/lighthouse-attention 에서 확인할 수 있습니다.
로봇 모방 데이터는 종종 다중 모드(multimodal) 특성을 가진다. 유사한 시각-언어 관찰(visual-language observation)이 다른 행동 청크(action chunk)로 이어질 수 있는 이유는 인간 시연자가 서로 다른 단기 목표(short-horizon intent), 작업 단계(task phase), 또는 최근 맥락(recent context)에 따라 행동하기 때문이다. 기존의 프레임 조건부 VLA(Frame-conditioned VLA) 정책은 현재 관찰과 명령만을 기반으로 각 청크를 추론하므로, 부분 관측 가능성(partial observability) 하에서 인접한 재계획 단계(replanning step) 간에 서로 다른 의도를 재표본추출(resample)하여 청크 간 충돌(inter-chunk conflict)과 불안정한 실행을 초래할 수 있다. 본 논문에서는 역사 조건부 VLA(history-conditioned VLA) 프레임워크인 IntentVLA를 제안한다. 이 프레임워크는 최근 시각 관찰을 압축된 단기 목표 표현(compact short-horizon intent representation)으로 인코딩하고, 이를 사용하여 청크 생성을 조건화한다. 또한, RoboTwin2 상에서 단기 관찰 에일리어싱(short-horizon observation aliasing)을 분리하는 매칭된 훈련 데이터와 평가 환경을 갖춘 12개 작업 모호성 인식 벤치마크(ambiguity-aware benchmark)인 AliasBench를 소개한다. AliasBench, SimplerEnv, LIBERO, RoboCasa 전반에 걸쳐 IntentVLA는 롤아웃 안정성(rollout stability)을 향상시키고 강력한 VLA 기준선(baseline)을 능가한다.
강화 학습은 확산 기반 텍스트-이미지 모델을 개선하는 강력한 도구로 부상했지만, 기존 방법은 주로 단일 작업 최적화에 국한되어 있다. 강화 학습을 다중 작업으로 확장하는 것은 어려운데, 공동 최적화는 작업 간 간섭과 불균형을 겪는 반면, 캐스케이드 강화 학습은 번거롭고 파괴적 망각에 취약하다. 본 논문에서는 온라인 정책 증류(OPD)에 기반한 확산 모델의 새로운 다중 작업 훈련 패러다임인 DiffusionOPD를 제안한다. DiffusionOPD는 먼저 작업별 교사 모델을 독립적으로 훈련시킨 후, 학생 모델 자체의 롤아웃 궤적을 따라 이들의 능력을 통합 학생 모델로 증류한다. 이는 단일 작업 탐색과 다중 작업 통합을 분리하여 모든 작업을 처음부터 공동으로 해결해야 하는 최적화 부담을 피한다. 이론적으로, 우리는 OPD 프레임워크를 이산 토큰에서 연속 상태 마르코프 과정으로 확장하고, 평균 일치를 통해 확률적 SDE와 결정적 ODE 미세 조정을 모두 통합하는 폐쇄형 단계별 KL 목적 함수를 유도한다. 우리는 이 해석적 기울기가 기존 PPO 스타일 정책 기울기에 비해 더 낮은 분산과 더 나은 일반성을 제공함을 공식적 및 실증적으로 입증한다. 광범위한 실험을 통해 DiffusionOPD가 훈련 효율성과 최종 성능 모두에서 다중 보상 강화 학습 및 캐스케이드 강화 학습 기준을 지속적으로 능가하며, 평가된 모든 벤치마크에서 최고 수준의 결과를 달성함을 보여준다.
최근 고품질 3D 장면 복원 분야는 일반화 가능한 피드포워드(feed-forward) 아키텍처로 발전하여, 단일 순방향 패스(single forward pass)로 복잡한 환경을 생성할 수 있게 되었다. 그러나 정적 장면 인식에서 뛰어난 성능을 보임에도 불구하고, 이러한 모델들은 동적인 인간의 지시에 응답하는 데 여전히 한계가 있어 대화형 응용 프로그램에 사용이 제한된다. 기존 편집 방법은 일반적으로 2D 리프팅(lifting) 전략에 의존하는데, 이는 개별 뷰를 독립적으로 편집한 후 다시 3D 공간으로 리프팅한다. 이러한 간접적인 파이프라인은 2D 편집기가 뷰 간 구조를 보존하는 데 필요한 공간 인식 능력이 부족하기 때문에 종종 흐릿한 텍스처와 불일치하는 형상을 초래한다. 이러한 한계를 해결하기 위해, 우리는 텍스트 조건의 네이티브 3D 장면 편집을 위한 피드포워드 프레임워크인 VGGT-Edit을 제안한다. VGGT-Edit은 깊이 동기화 텍스트 주입(depth-synchronized text injection)을 도입하여 의미적 안내를 백본의 공간 포즈와 정렬시킴으로써 안정적인 명령어 근거 확보를 보장한다. 이 의미적 신호는 이후 잔차 변환 헤드(residual transformation head)에 의해 처리되어 배경 안정성을 유지하면서 장면을 변형시키기 위한 3D 기하학적 변위를 직접 예측한다. 고충실도 결과를 보장하기 위해, 우리는 기하학적 정확성과 뷰 간 일관성을 강제하는 다중 항목 목적 함수(multi-term objective function)로 프레임워크를 감독한다. 또한, 3D 일치 필터링을 통해 실제 정답 품질을 보장하는 자동화된 파이프라인을 통해 생성된 대규모 데이터셋인 DeltaScene 데이터셋을 구축한다. 실험 결과는 VGGT-Edit이 2D 리프팅 기준 모델보다 훨씬 뛰어난 성능을 보여, 더 선명한 객체 디테일, 강력한 다중 뷰 일관성, 그리고 거의 즉각적인 추론 속도를 제공함을 보여준다.
에이전틱 모델링(Agentic modeling)은 LLM을 계획, 추론, 도구 사용, 환경과의 다중 턴 상호작용을 통해 복잡한 작업을 해결할 수 있는 자율 에이전트로 변환하는 것을 목표로 한다. 막대한 투자에도 불구하고, 공개 연구는 인프라 및 학습 격차로 인해 여전히 제약을 받고 있다. 많은 고성능 시스템은 독점 코드베이스, 모델, 또는 서비스에 의존하는 반면, 대부분의 오픈소스 프레임워크는 확장 가능한 에이전트 학습보다는 오케스트레이션 및 평가에 초점을 맞추고 있다. 본 논문은 확장 가능한 에이전틱 모델링을 위한 오픈소스 프레임워크인 Orchard를 제시한다. 핵심은 Orchard Env로, 작업 도메인, 에이전트 하네스, 파이프라인 단계 전반에 걸쳐 샌드박스 수명 주기 관리를 위한 재사용 가능한 프리미티브를 제공하는 경량 환경 서비스이다. Orchard Env 위에 세 가지 에이전틱 모델링 레시피를 구축했다. Orchard-SWE는 코딩 에이전트를 대상으로 한다. MiniMax-M2.5 및 Qwen3.5-397B에서 107K 개의 궤적을 증류하고, 미해결 궤적의 생산적 세그먼트로부터 학습하기 위해 크레딧 할당 SFT를 도입했으며, RL에 Balanced Adaptive Rollout을 적용했다. Qwen3-30B-A3B-Thinking을 시작으로, Orchard-SWE는 SFT 후 SWE-bench Verified에서 64.3%, SFT+RL 후 67.5%를 달성하여 유사한 규모의 오픈소스 모델 중 새로운 최첨단 성능을 기록했다. Orchard-GUI는 0.4K 개의 증류 궤적과 2.2K 개의 개방형 작업만을 사용하여 4B 시각-언어 컴퓨터 사용 에이전트를 학습한다. WebVoyager, Online-Mind2Web, DeepShop에서 각각 74.1%, 67.0%, 64.0%의 성공률을 달성하여, 독점 시스템과 경쟁력을 유지하면서 가장 강력한 오픈소스 모델이 되었다. Orchard-Claw는 개인 비서 에이전트를 대상으로 한다. 단 0.2K 개의 합성 작업만으로 학습되어 Claw-Eval에서 59.6%의 pass@3을 달성하고, 더 강력한 ZeroClaw 하네스와 결합 시 73.9%를 달성한다. 이러한 결과는 경량의 개방형 하네스 비의존적 환경 계층이 도메인 전반에 걸쳐 재사용 가능한 에이전틱 데이터, 학습 레시피 및 평가를 가능하게 함을 종합적으로 보여준다.
새로운 매체가 등장하면, 그것은 단지 명시적 내용의 전송을 위해서만 사용되지 않는다. 매체가 전달하는 정보는 일반적으로 두 가지 수준에서 작동한다. 하나는 직접 제시되는 내용이고, 다른 하나는 그 이면에 깔린 하위 텍스트, 즉 창작자가 매체를 통해 전달하고자 하는 암묵적 생각과 의도이다. 마찬가지로, 영상 기술이 널리 보급된 이후로, 비디오는 시각 정보를 기록하고 전달하는 강력한 도구로서뿐만 아니라, 명시적으로 표현하기 어려운 경우가 많은 감정, 태도, 사회적 의미를 전달하는 수단으로도 기능해 왔다. 따라서 많은 비디오의 진정한 의미는 화면에 보여지는 것에만 있는 것이 아니라, 종종 맥락, 표현 스타일, 시청자의 사회적 경험 속에 내재되어 있다. 이러한 비디오 하위 텍스트의 일부 형태는 유머러스한 반면, 다른 형태는 아이러니, 조롱, 비판을 담고 있다. 이러한 암묵적 의미는 문화적 배경과 사회 집단에 따라 매우 다르게 해석될 수도 있다. 그러나 기존의 대부분의 비디오 이해 모델은 여전히 객체, 행동, 또는 시간적 관계 인식과 같은 문자 그대로의 시각적 이해에 주로 초점을 맞추고 있으며, 비디오에 내재된 은유적, 아이러니적, 사회적 의미를 체계적으로 이해하는 능력이 부족하다. 이러한 공백을 메우기 위해, 우리는 최첨단 모델의 비디오 내 하위 텍스트 이해 능력을 체계적으로 평가하도록 설계된 최초의 벤치마크인 ViMU를 소개한다. ViMU는 비디오 이해 모델이 문자 그대로의 인식을 넘어 암묵적 의미를 추론하고, 그 해석을 다중 양식 증거에 기반하여 개방형 및 객관식 질문에 모두 답할 수 있는지를 평가한다. 중요한 점은, 모든 질문이 힌트 없이 설계되어 모델이 답변하기 전에 핵심 증거를 알 수 없도록 보장한다는 것이다.
자기회귀 확산 비디오 모델은 스트리밍 생성 프레임워크를 채택하여 실시간 응답성을 갖춘 장기 비디오 생성을 가능하게 하며, Self Forcing 훈련 패러다임이 그 예시입니다. 그러나 기존 자기회귀 확산 비디오 모델은 역사적 프레임 간의 중복된 키-값 캐시로 인해 여전히 상당한 어텐션 복잡도와 심각한 메모리 오버헤드를 겪으며, 이는 확장성을 제한합니다. 본 논문에서는 자기회귀 비디오 확산에 KV 캐시 압축을 도입하여 이 문제를 해결합니다. 우리는 주류 자기회귀 확산 모델의 어텐션 헤드가 샘플과 잡음 제거 단계 전반에 걸쳐 안정적으로 유지되는 현저히 구별되는 어텐션 패턴과 기능적 역할을 나타냄을 관찰했습니다. 헤드별 기능적 전문화에 대한 실증적 연구를 바탕으로, 어텐션 헤드를 두 가지 범주로 나눕니다. 정적 헤드는 자기회귀 청크 간의 전환과 프레임 내 충실도에 초점을 맞추고, 동적 헤드는 프레임 간 움직임과 일관성을 관장합니다. 그런 다음 Forcing-KV를 제안합니다. 이는 정적 헤드에 대해 구조적 정적 가지치기를 수행하고 동적 헤드에 대해 세그먼트별 유사성에 기반한 동적 가지치기를 수행하는 하이브리드 KV 캐시 압축 전략입니다. 출력 품질을 유지하면서도, 본 방법은 단일 NVIDIA H200 GPU에서 초당 29프레임 이상의 생성 속도와 함께 30%의 캐시 메모리 감소를 달성하며, 480P 해상도의 LongLive 및 Self Forcing에서 각각 최대 1.35배 및 1.50배의 속도 향상을 제공하고, 1080P 해상도에서는 2.82배의 속도 향상으로 확장됩니다. 코드 및 데모 비디오는 https://zju-jiyicheng.github.io/Forcing-KV-Page 에서 제공됩니다.
최근 이미지 생성 기술의 발전으로 고품질 이미지를 손쉽게 제작할 수 있게 되었다. 그러나 이러한 출력물은 본질적으로 평면화되어 있으며, 고정된 캔버스 내에서 전경 요소, 배경, 텍스트가 서로 얽혀 있다. 그 결과, 생성 후 유연한 편집은 여전히 어려운 과제로 남아 있으며, 실용적 사용성을 향한 명확한 최종 격차를 드러내고 있다. 기존 접근법은 희소한 독점적 레이어 자산에 의존하거나, 제한된 구조적 사전 지식으로부터 부분적으로 합성된 데이터를 구축한다. 그러나 두 전략 모두 확장성 측면에서 근본적인 한계에 직면한다. 본 연구에서는 순수 합성 레이어 데이터가 그래픽 디자인 분해를 개선할 수 있는지 조사한다. 우리는 그래픽 디자인에서 효과적인 분해가 자연 이미지 합성에서처럼 레이어 간 의존성을 정밀하게 모델링할 필요가 없다고 가정한다. 이는 디자인 요소들이 종종 모듈식이고 의미론적으로 분리 가능한 구성 요소로 의도적으로 배치되기 때문이다. 구체적으로, 우리는 최첨단 레이어 분해 프레임워크인 CLD 기준선을 기반으로 데이터 중심 연구를 수행한다. 기준선을 바탕으로 자체 합성 데이터셋인 SynLayers를 구축하고, 비전 언어 모델을 사용하여 텍스트 감독 신호를 생성하며, VLM이 예측한 경계 상자로 추론 입력을 자동화한다. 본 연구는 세 가지 주요 발견을 제시한다: (1) 순수 합성 데이터만으로 학습하더라도 널리 사용되는 PrismLayersPro 데이터셋과 같은 비확장적 대안보다 우수한 성능을 보여, 확장 가능하고 효과적인 대안으로서의 실현 가능성을 입증한다; (2) 학습 데이터 규모가 증가함에 따라 성능이 지속적으로 향상되나, 약 50K 샘플에서 이득이 포화되기 시작한다; (3) 합성 데이터는 레이어 수 분포에 대한 균형 잡힌 제어를 가능하게 하여, 실제 데이터셋에서 흔히 관찰되는 레이어 수 불균형을 피할 수 있다. 우리는 이 데이터 중심 연구가 합성 데이터를 계층적 디자인 편집 시스템의 실용적 기반으로 더 널리 채택하는 데 기여하기를 기대한다.
인과적 자기회귀 비디오 확산 모델은 이전에 생성된 콘텐츠로부터 미래 청크를 외삽하여 실시간 스트리밍 생성을 지원한다. 이러한 생성기를 고충실도 양방향 교사 모델로부터 증류하면 경쟁력 있는 소수 단계 모델이 얻어지지만, 훈련 중에 접하는 과거 분포와 추론 시 발생하는 분포 간의 지속적인 격차로 인해 긴 시간 범위에 걸친 생성 품질이 제한된다. 본 논문에서는 실시간 자기회귀 비디오 외삽 네트워크(RAVEN)를 소개한다. 이는 훈련 시간 테스트 프레임워크로, 각 자체 롤아웃을 깨끗한 과거 종단점과 잡음이 있는 노이즈 제거 상태의 인터리브된 시퀀스로 재구성한다. 이러한 공식은 훈련 주의를 추론 시간 외삽과 정렬시키며, 하위 청크 손실이 미래 예측이 의존하는 과거 표현을 지도할 수 있게 한다. 또한, 일관성 모델 그룹 상대 정책 최적화(CM-GRPO)를 제안한다. 이는 일관성 샘플링 단계를 조건부 가우시안 전이로 재구성하고, 이 커널에 직접 온라인 강화 학습(RL)을 적용함으로써 기존 흐름 모델 RL 공식에서 채택된 오일러-마루야마 보조 과정을 피한다. 실험 결과, RAVEN이 최근 인과적 비디오 증류 기준선을 품질, 의미론적, 동적 정도 평가에서 능가하며, CM-GRPO가 RAVEN과 결합될 때 추가적인 성능 향상을 제공함을 보여준다.
다중 모달 대규모 실험실 모델(MLLM)은 인간과 유사한 지각의 좁은 시야를 그대로 이어받은 지배적인 투시 이미지 패러다임 하에서 여전히 공간 이해에 어려움을 겪는다. 항법, 로봇 탐색 및 3D 장면 이해에 있어 360도 파노라마 센싱은 주변 환경 전체를 한 번에 포착함으로써 일종의 초월적 감지(supersensing)를 제공한다. 그러나 기존 MLLM 파이프라인은 일반적으로 파노라마를 여러 투시 뷰로 분해하여 등장각 투영법(ERP)의 구형 구조를 대부분 암시적으로만 남겨둔다. 본 논문에서는 파노라마 본연 이해(pano-native understanding)를 연구하며, 이는 MLLM이 ERP 파노라마를 연속적이고 관찰자 중심의 공간으로 추론하도록 요구한다. 이를 위해 먼저 파노라마 본연 이해에 필요한 핵심 능력, 즉 의미 고정(semantic anchoring), 구형 위치 파악(spherical localization), 기준 좌표계 변환(reference-frame transformation), 깊이 인식 3D 공간 추론(depth-aware 3D spatial reasoning)을 정의한다. 그런 다음, 혼합 소스의 ERP 파노라마를 기하학 인식, 언어 기반, 깊이 인식 감독 신호로 변환하는 대규모 메타데이터 구축 파이프라인을 구축하고, 이 신호들을 능력 정렬 명령 튜닝 데이터로 구체화한다. 모델 측면에서는 구형 공간 교차 주의(Spherical Spatial Cross-Attention)를 갖춘 PanoWorld를 도입하여 시각적 흐름에 구형 기하학을 주입한다. 또한 ERP 본연 공간 추론을 평가하기 위한 진단 벤치마크인 PanoSpace-Bench를 구축한다. 실험 결과, PanoWorld는 PanoSpace-Bench, H* Bench, R2R-CE Val-Unseen 벤치마크에서 독점 및 오픈소스 베이스라인을 모두 크게 능가한다. 이러한 결과는 강건한 파노라마 추론을 위해서는 전용 파노라마 본연 감독과 기하학 인식 모델 적응이 필요함을 입증한다. 모든 소스 코드와 제안된 데이터는 공개될 예정이다.
메모리 시스템은 롤플레잉 에이전트(RPA)가 장기적 일관성을 유지하는 데 중요하다. 그러나 기존 RPA 메모리 방법(예: 프로파일링)은 주로 반복적 요약에 의존하며, 그 압축 과정에서 중요한 세부 정보가 불가피하게 손실된다. 이 문제를 해결하기 위해, 우리는 BOOKMARKS라는 검색 기반 메모리 프레임워크를 제안한다. 이는 현재 작업(예: 캐릭터 연기)에 대해 작업 관련 북마크 조각들을 능동적으로 초기화, 유지 및 갱신한다. 북마크는 스토리라인의 특정 시점에서 질문에 대한 답변 형태로 구조화된다. 각 현재 작업에 대해 BOOKMARKS는 재사용 가능한 기존 북마크를 선택하거나 (스토리라인 시작 부분에서) 유용한 질문을 포함한 새로운 북마크를 초기화한다. 그런 다음 이 북마크들은 현재 스토리 시점에 동기화되며, 해당 답변이 적절히 갱신되어 향후 그라운딩 단계에서 효율적으로 재사용될 수 있다. 반복적 요약과 비교하여 BOOKMARKS는 (1) 작업별 세부 정보를 포착하기 위한 능동적 그라운딩과 (2) 불필요한 계산을 피하기 위한 수동적 갱신을 제공한다. 구현에서 BOOKMARKS는 개념, 행동 및 상태 검색을 지원하며, 각각은 효율적인 동기화 방법으로 구동된다. BOOKMARKS는 16개의 아티팩트에서 85개의 캐릭터에 대해 RPA 메모리 기준선을 크게 능가하여, RPA를 위한 검색 기반 메모리의 효과성을 입증한다.
우리는 언어 모델이 단순히 문제나 모방할 흔적을 생성하는 것을 넘어, 스스로를 훈련시키는 환경을 구축하는 자기 개선 언어 모델에 대한 비전을 추구한다. 제로 데이터 추론 강화 학습에서 이는 자기 개선을 데이터 생성 루프에서 환경 구축 루프로 재구성하며, 각 산출물은 인스턴스를 샘플링하고 참조값을 계산하며 응답을 채점하는 재사용 가능한 실행 객체가 된다. 이러한 비전이 지속적인 개선을 유지하는지 여부는 단 하나의 속성에 달려 있다. 환경이 안정적인 해결-검증 비대칭(solve-verify asymmetry)을 나타내야 하며, 모델은 한 번 오라클(oracle)을 작성할 수 있어야 하지만 새로운 인스턴스에 대해 자연어로는 이를 안정적으로 실행할 수 없어야 한다. 이러한 비대칭은 두 가지 상호 보완적인 형태를 취한다. 일부 과제는 알고리즘적으로 추론하기는 어렵지만 코드로는 사소한 경우로, 동적 계획법이나 그래프 순회와 같이 한 번 컴파일되면 무한히 많은 보정된 인스턴스를 생성한다. 다른 과제는 해결하기는 본질적으로 어렵지만 검증은 쉬운 경우로, 심은 부분집합 합(planted subset-sum)이나 제약 충족(constraint satisfaction)과 같은 것이 있다. 둘 다 제안과 해결 사이에 정책이 검증기를 속임으로써 좁힐 수 없는 지속적인 간극을 만들어내며, 학습자가 발전함에 따라 보상이 유용성을 유지하게 하는 것이 바로 이 간극이다. 우리는 이 관점을 EvoEnv(단일 정책 생성기, 해결 방법)에 구현한다. 이 방법은 열 개의 시드로부터 Python 환경을 합성하고, 단계적 검증, 의미론적 자체 검토, 해결자 대비 난이도 보정, 참신성 확인을 거친 후에만 이를 수용한다. 가장 강력한 증거는 이미 강력한 영역에서 나온다. Qwen3-4B-Thinking 모델에서, 고정 공개 데이터를 사용한 RLVR과 고정 수작업 환경을 사용한 RLVR은 평균을 낮추는 반면, EvoEnv는 이를 72.4에서 74.8로 향상시켜 3.3%의 상대적 이득을 보인다. 우리는 안정적인 자기 개선이 더 많은 합성 데이터를 생성하는 것이 아니라, 모델이 난이도가 구조적으로 자신의 도달 범위를 넘어서는 세계를 구축하는 법을 배우는 데 달려 있다고 제안한다.
현실적인 인간 움직임을 생성하는 것은 비디오 생성에서 핵심적이면서도 아직 해결되지 않은 과제이다. 강화학습 기반 사후 훈련은 일반 비디오 품질 향상에 최근 큰 진전을 가져왔지만, 이를 인간 움직임으로 확장하는 것은 움직임의 사실성을 신뢰성 있게 평가할 수 없는 보상 신호에 의해 병목 현상이 발생한다. 기존 비디오 보상은 주로 2D 지각 신호에 의존하며, 관절로 연결된 인간 움직임의 기반이 되는 3D 신체 상태, 접촉 및 동역학을 명시적으로 모델링하지 않으며, 종종 떠 있는 몸체나 물리적으로 타당하지 않은 움직임이 포함된 비디오에 높은 점수를 부여한다. 이를 해결하기 위해, 우리는 PhyMotion을 제안한다. 이는 복원된 3D 인간 궤적을 물리 시뮬레이터에 기반하여 정교하고 세분화된 움직임 보상으로, 물리적 실현 가능성의 여러 차원을 따라 움직임 품질을 평가한다. 구체적으로, 생성된 비디오에서 SMPL 신체 메시를 복원하고, 이를 MuJoCo 물리 시뮬레이터의 휴머노이드에 재표적화한 후, 결과 움직임을 운동학적 타당성, 접촉 및 균형 일관성, 동역학적 실현 가능성이라는 세 가지 축을 따라 평가한다. 각 구성 요소는 움직임 품질의 특정 측면과 연결된 연속적이고 해석 가능한 신호를 제공하여, 보상이 움직임의 어떤 측면이 물리적으로 올바른지 또는 위반되었는지를 포착할 수 있게 한다. 실험 결과, PhyMotion은 기존 보상 공식보다 인간 판단과 더 강한 상관관계를 보였다. 이러한 이점은 강화학습 기반 사후 훈련으로 이어지며, PhyMotion을 최적화하면 기존 보상을 최적화할 때보다 더 크고 일관된 개선을 가져와, 자기회귀 및 양방향 비디오 생성기 모두에서 자동 평가 지표와 블라인드 인간 평가(+68 Elo 점수 향상) 모두에서 움직임 사실성이 향상되었다. 절제 실험은 세 가지 축이 상호 보완적인 지도 신호를 제공하며, 보상이 전체 비디오 생성 품질을 유지하고 훈련 오버헤드도 적은 수준임을 보여준다.
온-정책 자기 증류(On-policy self-distillation)는 LLM 추론을 위한 강력한 방법론이 되었으며, 여기서 특권을 가진 교사(teacher)는 참조 해법을 조건으로 하여 학생(student)의 자체 롤아웃을 감독한다. 그러나 거의 모든 이러한 방법들이 공유하는 설계 선택이 의문시되지 않은 채 남아 있다: 교사는 항상 전체 참조 추론을 본다는 점이다. 우리는 이 기본값 자체가 문제의 일부라고 주장하며, 교사 측의 노출 불일치(exposure mismatch)를 식별한다: 교사가 학생의 현재 능력을 훨씬 넘어서는 추론을 조건으로 할 때, 결과로 생성되는 토큰 목표는 학생이 흡수하기에 너무 강력해진다. 통제된 고정 노출 스위프(fixed-exposure sweep)를 통해 이를 두 가지 측면에서 구체화한다: 1) 완전 노출이 항상 최선의 선택은 아니며, 2) 교사-학생 간 불일치는 교사가 더 많은 특권적 추론을 볼수록 단조롭게 증가한다. 이는 교사 노출을 고정된 하이퍼파라미터가 아닌 학습 가능한 훈련 시 제어 변수로 취급할 동기를 부여한다. 따라서 우리는 자기 증류를 위한 적응형 교사 노출(Adaptive Teacher Exposure for Self-Distillation, ATESD)을 제안한다. ATESD는 노출 비율을 소형 훈련 상태 통계에 조건화된 경량 베타 정책 제어기(Beta-policy controller)로 모델링하고, 샘플링된 하나의 노출을 짧은 유지 창(hold window) 동안의 학생 업데이트에 사용한다. 이 노출 제어기를 학습 가능하게 만들기 위해, 우리는 할인된 학습 진행 보상(discounted learning-progress reward)을 사용하여 최적화한다. 이 보수는 즉각적인 손실 변화가 아닌 학생의 미래 개선에 미치는 효과로 각 유지된 결정을 평가함으로써, 온-정책 증류에 의해 유도되는 지연된 신용 할당 문제를 해결한다. Qwen3-{1.7B, 4B, 8B} 모델에 대해 AIME 24, AIME 25 및 HMMT 25에서 수행한 실험 결과, ATESD는 경쟁력 있는 자기 증류 및 강화 학습 기준선을 일관되게 능가하며, 각각 OPSD 대비 Average@12 점수에서 +0.95, +2.05, +2.33 포인트의 향상을 보였고, 적응형 교사 노출을 추론 자기 증류를 위한 효과적인 새로운 축으로 확립하였다.
멀티모달 기반 모델을 사용하여 테이블 이미지를 분석하는 것은 소비자 및 기업 시나리오에서 가치가 높으면서도 도전적인 응용 분야입니다. 이러한 중요성에도 불구하고, 현재의 평가는 주로 구조화된 텍스트 기반 테이블이나 깔끔하게 렌더링된 이미지에 의존하고 있어, 실제 현장에서 접하는 테이블 이미지의 시각적 복잡성은 충분히 탐구되지 못하고 있습니다. 이러한 이미지는 다양한 레이아웃과 도메인을 특징으로 하며, 정교한 구조 인식과 수치 추론을 요구합니다. 이러한 격차를 해소하기 위해, 우리는 실제 환경에서 자연적으로 발생하는 테이블 이미지를 대상으로 한 최초의 질문-응답 벤치마크인 WildTableBench를 소개합니다. WildTableBench는 다양한 도메인의 온라인 포럼과 웹사이트에서 수집한 402개의 고정보밀도 테이블 이미지와 함께, 5개 범주에 걸친 17개 하위 유형의 928개의 수동 주석 및 검증된 질문으로 구성됩니다. 우리는 이 벤치마크를 사용하여 21개의 최첨단 독점 및 오픈소스 멀티모달 기반 모델을 평가했습니다. 단 하나의 모델만이 50% 정확도를 초과했으며, 나머지 모델들은 4.1%에서 49.9% 범위의 성능을 보였습니다. 또한 진단 분석을 수행하여 모델 실패의 특성을 파악하고, 구조 인식과 추론에서 지속적인 약점을 드러냈습니다. 이러한 결과와 분석은 현재 모델 역량에 대한 유용한 통찰을 제공하며, WildTableBench를 테이블 이미지 이해를 위한 가치 있는 진단 벤치마크로 확립합니다.
텍스트 이미지 초해상도(Text-SR)는 시각적으로 그럴듯한 세부 합성 그 이상을 요구한다. 획 위상의 미세한 오류가 문자 식별을 바꾸고 가독성을 해칠 수 있기 때문이다. 기존 방법은 더 강력한 인식 기반 또는 생성 사전 지식을 통해 텍스트 충실도를 개선하지만, 심각한 열화 환경에서는 여전히 두 가지 해결되지 않은 과제에 직면한다. 저품질 입력에서 추출된 텍스트 조건 자체가 신뢰할 수 없을 수 있으며, 그럴듯한 전역 사전 지식이 세밀한 획 경계를 완전히 결정하지 못한다는 점이다. 본 논문에서는 흐름 정합 사전 정정(FMPR)과 구조 기반 불확실성 인식 잔차 인코더(SURE)를 통해 이 두 가지 과제를 해결하는 단일 단계 확산 기반 Text-SR 프레임워크인 PRISM을 제안한다. FMPR은 쌍을 이루는 저품질/고품질 잠재 변수로부터 특권 학습 시간 사전 지식을 구성하고, 열화된 임베딩을 이 복원 지향 사전 공간으로 이동시키는 흐름 정합을 학습하여 더 정확하고 신뢰할 수 있는 전역 텍스트 안내를 제공한다. SURE는 추가로 불확실성을 인식하는 구조적 잔차를 예측하여 모호한 획 단서를 억제하면서 신뢰할 수 있는 국소 경계 증거를 선택적으로 흡수한다. 이러한 구성 요소들은 단일 확산 복원 과정 내에서 명시적인 전역 사전 정정과 국소 구조 개선을 가능하게 한다. 합성 및 실제 벤치마크 실험에서 PRISM은 밀리초 단위 추론으로 최첨단 성능을 달성함을 보여준다. 데이터셋과 코드는 https://github.com/faithxuz/PRISM에서 공개될 예정이다.
본 논문에서는 함수 공간 관점에서 기하적 메쉬 상의 물리장 방정식에 대한 해 연산자를 연구한다. 우리는 호지 직교성이 학습 불가능한 위상적 자유도를 학습 가능한 기하적 동역학으로부터 분리함으로써 스펙트럼 간섭을 근본적으로 해결하며, 이를 통해 구조 보존 부분공간에 국한된 덧셈적 근사를 가능하게 함을 밝힌다. 호지 이론과 연산자 분할에 기반하여, 우리는 원칙적인 연산자 수준 분해를 유도한다. 그 결과는 우리가 호지 스펙트럼 쌍대성(HSD)이라고 부르는 대수적 수준의 귀납적 편향을 지닌 혼합 오일러-라그랑주 아키텍처이다. 우리의 프레임워크에서는 이산 미분 형식을 사용하여 위상이 지배하는 성분을 포착하고, 직교하는 보조 외부 공간을 사용하여 복잡한 국소 동역학을 표현한다. 본 방법은 기하적 그래프에서 물리적 불변량에 대한 충실도가 향상된 우수한 정확도와 효율성을 달성한다. 코드는 https://github.com/ContinuumCoder/Hodge-Spectral-Duality 에서 확인할 수 있다.
이미지 생성을 위한 잠재 흐름 매칭은 일반적으로 가우시안 잡음을 선형 경로를 따라 변분 오토인코더의 잠재 변수로 변환한다. 그러나 두 끝점 모두 얇은 구형 껍질에 집중되어 있으며, 전처리로 반지름을 정렬하더라도 유클리드 현(chord)은 그 껍질을 벗어난다. 각 잠재 토큰을 방사(radial) 성분과 각(angular) 성분으로 분해하여, 구성 요소 교환 실험(component-swap probes)을 통해 디코딩된 지각적 및 의미적 내용이 주로 방향에 의해 전달되며 반지름의 기여는 훨씬 적다는 것을 보여준다. 따라서 데이터 잠재 변수를 고정된 토큰 반지름에 투영하고, 가우시안 잡음의 방사 투영을 구형 사전 분포(spherical prior)로 사용하며, 인코더는 고정한 상태로 디코더를 미세 조정하고, 선형 보간을 구형 선형 보간(spherical linear interpolation)으로 대체한다. 결과적인 측지선 경로는 모든 시간 단계에서 구면 위에 유지되며, 그 속도 목표는 구조적으로 순수 각도 성분만을 가진다. 일치된 훈련 조건에서 이 방법은 다양한 이미지 토크나이저에 걸쳐 클래스 조건부 ImageNet-256 FID를 일관되게 개선하며, 확산 아키텍처는 변경하지 않고, 보조 인코더나 표현 정렬 목표가 필요하지 않다.
명령 기반 이미지 편집 평가에는 미묘한 인간 선호도를 반영하는 보상이 필요하지만, 현재의 보상 모델은 일반적으로 대규모 선호도 주석과 추가 모델 학습에 의존한다. 이는 데이터 효율성의 격차를 발생시킨다. 인간은 소수의 예시만으로도 목표 평가 기준을 추론할 수 있는 반면, 모델은 보통 수십만 건의 비교 데이터로 학습된다. 본 논문에서는 보상 모델링을 가중치 최적화가 아닌 맥락 진화로 재정의하는 자기 진화형 에이전트 보상 프레임워크인 RewardHarness를 제안한다. RewardHarness는 대규모 주석 데이터로 학습하는 대신, 최소 100개의 선호도 시연 데이터에서 도구 및 스킬 라이브러리를 반복적으로 진화시켜 인간 선호도와 정렬된다. 소스 이미지, 후보 편집 이미지, 편집 명령이 주어지면 오케스트레이터(Orchestrator)는 유지된 라이브러리에서 가장 관련성 높은 도구 및 스킬 하위 집합을 선택하고, 고정된 하위 에이전트(Sub-Agent)가 이를 사용하여 추론 체인을 구성하여 선호도 판단을 생성한다. 예측된 판단과 실제 선호도를 비교하고 추론 과정의 성공 및 실패를 분석함으로써, 오케스트레이터는 추가적인 인간 주석 없이 자동으로 도구 및 스킬 라이브러리를 개선한다. RewardHarness는 EditReward 선호도 데이터의 0.05%만을 사용하여 이미지 편집 평가 벤치마크에서 평균 정확도 47.4%를 달성하였으며, 이는 GPT-5를 5.3포인트 상회하는 성능이다. GRPO 미세 조정을 위한 보상 신호로 사용될 경우, RL 기반 튜닝 모델은 ImgEdit-Bench에서 3.52를 달성하였다. 프로젝트 페이지: https://rewardharness.com.
AI 에이전트가 동적이고 개방적인 환경에 점점 더 많이 배포되면서, 새로운 정보가 도착함에 따라 이에 적응하는 능력이 요구되고 있다. 현실적인 사용 사례에서 이러한 역량을 효율적으로 측정하기 위해, 우리는 실제 세계 사건이 발생한 순서대로 재연하는 실제 기반 시뮬레이션을 구축할 것을 제안한다. 우리는 FutureSim을 구축하였으며, 이 시뮬레이션에서 에이전트는 시뮬레이션 기간 동안 도착하는 실제 뉴스 기사와 해결되는 질문 등 세계의 시간순 재연과 상호작용하면서 자신의 지식 범위 한계를 넘어서는 세계 사건을 예측한다. 우리는 최첨단 에이전트들을 자체 평가 환경에서 평가하며, 2026년 1월부터 3월까지 3개월 기간 동안 세계 사건을 예측하는 능력을 테스트한다. FutureSim은 에이전트들의 역량에서 뚜렷한 차이를 드러내는데, 최고 성능 에이전트의 정확도는 25%였으며, 많은 에이전트는 전혀 예측을 하지 않는 것보다 더 나쁜 브라이어 기술 점수를 기록했다. 면밀한 제거 실험을 통해, 우리는 FutureSim이 장기적 테스트 시간 적응, 탐색, 메모리, 불확실성에 대한 추론과 같은 새로운 연구 방향을 연구할 수 있는 현실적인 환경을 제공함을 보여준다. 전반적으로, 우리의 벤치마크 설계가 현실 세계에서 장기적 시간 범위에 걸친 개방형 적응에 대한 AI 발전을 측정하는 길을 열기를 기대한다.
단일 위성 이미지로부터 거리 수준의 3D 장면을 생성하는 것은 중요하면서도 어려운 과제이다. 현재 방법들은 뚜렷한 절충점을 보여준다: 기하-색상화 모델은 높은 기하 정밀도를 달성하지만 일반적으로 건물에 초점이 맞춰져 있어 의미적 다양성이 부족하다. 대조적으로, 프록시 기반 모델은 피드포워드 이미지-3D 프레임워크를 사용하여 기하학과 텍스처를 공동 학습함으로써 전체적인 장면을 생성하는데, 이 과정은 풍부한 콘텐츠를 제공하지만 거칠고 불안정한 기하학을 초래한다. 우리는 이러한 기하학적 실패의 원인을 위성-거리 데이터에 내재된 극단적인 시점 차이와 희소하고 일관성 없는 감독에서 찾는다. 이러한 근본적인 문제를 해결하기 위해 Sat3DGen을 도입하며, 이는 기하학 우선 방법론을 구현한다. 이 방법론은 새로운 기하학적 제약 조건을 시점 훈련 전략과 통합하여 피드포워드 패러다임을 강화함으로써 기하학적 오류의 주요 원인을 명시적으로 대처한다. 이러한 기하학 중심 전략은 3D 정확도와 사실성 모두에서 비약적인 향상을 가져온다. 검증을 위해 먼저 VIGOR-OOD 테스트 세트와 고해상도 DSM 데이터를 결합하여 새로운 벤치마크를 구축했다. 이 벤치마크에서 우리의 방법은 기하 RMSE를 6.76m에서 5.20m으로 개선했다. 결정적으로, 이러한 기하학적 도약은 사실성도 향상시켜, 추가적인 맞춤형 이미지 품질 모듈 없이도 최고 방법인 Sat2Density++ 대비 Fréchet Inception Distance(FID)를 sim40에서 19로 낮췄다. 우리는 의미 맵-3D 합성, 다중 카메라 비디오 생성, 대규모 메싱, 비지도 단일 이미지 DSM(Digital Surface Model) 추정 등 다양한 하위 응용 프로그램을 통해 고품질 3D 자산의 다재다능함을 입증한다. 코드는 https://github.com/qianmingduowan/Sat3DGen에서 공개되었다.
전방위 모달 언어 모델은 오디오, 시각 입력 및 언어를 통합적으로 이해하는 것을 목표로 하지만, 쿼리에 응답하기 위해 시각적 증거만으로 충분할 경우 벤치마크 성능 향상이 과장될 수 있다. 본 연구에서는 현재의 전방위 모달 벤치마크가 시각적 지름길과 진정한 오디오-시각-언어 증거 통합을 구분하는지, 그리고 시각적 편향이 제거된 평가 환경에서 사후 훈련이 어떻게 작동하는지 조사한다. 아홉 개의 전방위 모달 벤치마크를 시각 전용 탐색(visual-only probing)으로 감사하여 시각적으로 해결 가능한 쿼리를 제거하고, 필터링이 정의되지 않거나 비교를 불안정하게 만드는 경우 전체 하위 집합을 유지한다. 이를 통해 감사 대상 16,968개 쿼리 중 8,551개 쿼리가 유지된 정제된 평가 뷰인 OmniClean을 구축했다. OmniClean에서 Qwen2.5-Omni-3B 기반의 3단계 사후 훈련 레시피인 OmniBoost를 평가한다: 혼합 이중 모달 SFT, 혼합 모달 RLVR, 자기 증류 데이터에 대한 SFT. 균형 잡힌 이중 모달 SFT는 제한적이고 불균등한 성능 향상을 제공하며, RLVR은 첫 번째 광범위한 개선을 제공하고, 자기 증류는 벤치마크 프로파일을 재구성한다. 자기 증류 데이터에 대한 SFT 후, 3B 모델은 더 강력한 전방위 모달 교사 없이도 Qwen3-Omni-30B-A3B-Instruct와 비교 가능하고 전체적으로 약간 더 나은 성능에 도달한다. 이러한 결과는 평가가 시각적 누출을 통제할 때 전방위 모달의 진전이 해석하기 더 쉬우며, 소규모 전방위 모달 모델이 자기 증류된 전방위 쿼리 감독을 통한 단계적 사후 훈련의 이점을 누릴 수 있음을 보여준다. 프로젝트 페이지: https://cheliu-computation.github.io/omni/
우리는 시간에 따라 변하는 보상 함수를 가진 마르코프 결정 과정(MDP)에서 하위 정책들의 시간적 연결을 조사한다. 전역 다익스트라 탐색(GDS)을 도입하고, 전역적으로 최적인 목표 도달 정책들이 중간 최적 하위 정책들의 시간적 합성을 통해 복원될 수 있음을 증명한다. GDS의 기반이 되는 '탐색, 선택, 업데이트' 원리에 착안하여, 동적 잠재 라우팅(DLR)이라는 언어 모델 사후 훈련 방법을 제안한다. 이 방법은 단일 훈련 단계에서 동적 탐색을 통해 이산 잠재 코드, 라우팅 정책, 모델 파라미터를 공동으로 학습한다. 저데이터 미세 조정 설정에서 DLR은 네 개의 데이터셋과 여섯 개의 모델에 걸쳐 지도 미세 조정과 동등하거나 더 나은 성능을 보이며, 평균 6.6% 포인트의 향상을 달성한다. 반면, 이전의 이산 잠재 기준선들은 일관되게 SFT보다 낮은 성능을 보인다. 메커니즘 분석과 목표적 코드 제거 실험은 DLR이 뚜렷한 인과적 역할을 가진 구조화된 라우팅 행동을 학습함을 보여준다.
우리는 조작적 정치 서사를 탐지하고 구조화하는 새로운 계산 프레임워크를 제시한다. 이 과제는 정치적 논의가 소셜 미디어로 이동함에 따라 더욱 중요해졌다. 이때 주요 난관 중 하나는 조작적 정치 서사와 정당한 비판을 구별하는 것이다. 일부 게시물은 실제 사건을 조작적 맥락 안에서 재구성하기도 한다. 좋은 클러스터링 결과를 얻기 위해, 우리는 문서화된 캠페인 서사와 정당한 비판을 결합하여 이들을 구분하는 상세한 퓨삿 프롬프트(few-shot prompt)를 사용해 사전에 조작적 게시물을 필터링한다. 이 프롬프트는 추론 모델이 레이블을 할당하게 하여, 추가 처리를 위해 조작적 서사 게시물만 남긴다. 남은 게시물들은 이후 임베딩되고 UMAP을 사용해 차원 축소된 후, HDBSCAN이 적용되어 서사 그룹을 발견한다. 이 비지도 학습 접근법의 주요 장점은 사전 정의된 대상 범주 목록에 의존하지 않으므로 새로운 서사 클러스터를 발견할 수 있다는 점이다. 마지막으로, 추론 모델을 사용하여 각 클러스터 뒤에 숨은 서사를 밝혀낸다. 이 접근법은 120만 개 이상의 소셜 미디어 게시물에 적용되어, 프롬프트 기반 필터링과 비지도 클러스터링을 통합함으로써 41개의 뚜렷한 조작적 서사 클러스터를 효과적으로 식별했다.
선거는 국가의 지속적 발전에 있어 중요한 이정표를 나타낸다. 좌파에서 우파에 이르는 다양한 운동의 정치적 수사를 더 잘 이해하기 위해, 본 연구는 -1과 1 사이의 정규화된 스칼라 d로 표현되는 연속적인 좌-우 스펙트럼 상에 텍스트의 정치적 성향을 투영할 수 있는 트랜스포머 기반 모델을 제안한다. 이 접근법은 분석가들이 진보 및 극우 운동을 배제하고 보수와 같은 정치적 지형의 특정 분절에 집중할 수 있게 한다. 이러한 과제는 다중 클래스 분류기를 통해서만 달성 가능하며, 이는 원하는 성향이 사전 정의된 클래스 중 하나에 포함되어 있을 경우에 한한다. 이 과제에 가장 적합한 기초 모델을 13개의 후보 트랜스포머 중에서 결정하기 위해, 본 연구는 네 개의 개별 코퍼스를 구축했다. 첫 번째 코퍼스는 독일 연방의회의 주석이 달린 본회의 속기록으로 구성되었고, 다른 하나는 공식 온라인 의사 결정 도구인 발-오-마트(Wahl-O-Mat)에 기반하였다. 세 번째 코퍼스는 정치적 성향이 식별된 33개 신문의 기사로 구성되었으며, 네 번째는 20대와 21대 독일 연방의회 의원 597명의 535,200개 트윗을 포함했다. 과적합을 완화하기 위해, 각각 훈련용으로 두 개의 개별 코퍼스와 테스트용으로 두 개의 개별 코퍼스를 사용했다. 인-도메인 성능의 경우, DeBERTa-large가 최고 F1 점수 0.844를 기록했으며, X(트위터) 아웃-오브-도메인 테스트에서도 정확도 0.864를 달성했다. 신문 아웃-오브-도메인 테스트의 경우, Gemma2-2B가 우수한 성능을 보였다(평균 절대 오차 = 0.172). 이 연구는 트랜스포머 모델이 여론 조사 수준에서 독일 뉴스의 정치적 프레이밍을 인식할 수 있음을 보여준다. 본 연구의 결과는 모델 아키텍처와 도메인 특화 훈련 데이터의 가용성이 정치적 편향 추정에 있어 모델 크기만큼이나 영향력을 가질 수 있음을 시사한다. 본 연구는 방법론적 한계를 논의하고 편향 측정의 견고성을 개선하기 위한 방향을 제시한다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 수학 및 코딩과 같은 여러 작업에 대해 사고 사슬(chain-of-thought) 롤아웃을 활용하는 대규모 언어 모델(LLM) 개발에서 큰 성공을 거두었다. 그럼에도 불구하고 RLVR은 올바른 롤아웃을 생성하기 어려운 난이도 높은 문제에서 샘플 효율성에 어려움을 겪는다. 선행 연구들은 이 문제를 시연 기반 RLVR, 즉 강화 학습이 실패할 때 지도 미세 조정(SFT)을 수행하는 방식으로 해결하고자 하였으나, SFT는 종종 많은 데이터를 필요로 하여 확보 비용이 높을 수 있다. 본 논문에서는 FEST(FEw-ShoT 시연 기반 RLVR 알고리즘)를 제안한다. 이 알고리즘은 SFT 데이터셋에서 무작위로 선별된 128개의 시연만으로도 탁월한 결과를 달성한다. 성공에 중요한 세 가지 구성 요소는 지도 신호, 온-폴리시 신호, 그리고 다중 에폭 훈련에서의 과적합을 방지하기 위한 퓨샷 SFT 데이터셋에 대한 감쇠 가중치임을 발견하였다. 여러 벤치마크에서 FEST는 훨씬 적은 양의 SFT 데이터로도 기준 방법들을 능가하며, 전체 데이터셋을 사용한 성능과도 일치한다.
생성형 비디오 모델은 점차 암시적 세계 모델로 연구되고 있지만, 이들이 물리적으로 타당한 3차원 구조와 움직임을 생성하는지 평가하는 것은 여전히 어렵다. 기존의 대부분의 비디오 평가 파이프라인은 인간 판단이나 학습된 평가자에 크게 의존하는데, 이는 주관적일 수 있고 기하학적 오류에 대한 진단력이 약하다. 우리는 생성된 비디오의 기하학적 일관성을 감사하기 위한 정량적 프레임워크인 PDI-Bench(원근 왜곡 지수)를 소개한다. 생성된 클립이 주어지면, 분할 및 점 추적(예: SAM 2, MegaSaM, CoTracker3)을 통해 객체 중심 관측을 얻고, 단안 재구성을 통해 이를 3차원 세계 공간 좌표로 변환한 후, 세 가지 오류 차원(스케일-깊이 정렬, 3차원 움직임 일관성, 3차원 구조 강성)을 포착하는 투영 기하학 잔차 집합을 계산한다. 체계적 평가를 지원하기 위해, 이러한 기하학적 제약을 시험하기 위해 설계된 다양한 시나리오를 포함하는 PDI-Dataset을 구축했다. 최첨단 비디오 생성기들에 대해, PDI는 일반적인 지각적 지표로는 포착되지 않는 일관된 기하학 특이적 오류 모드를 밝혀내며, 물리 기반 비디오 생성 및 물리적 세계 모델을 향한 진전을 위한 진단 신호를 제공한다. 우리의 코드와 데이터셋은 https://pdi-bench.github.io/에서 확인할 수 있다.
산업용 LLM 에이전트 시스템은 종종 계획 수립과 실행을 분리하지만, LLM 계획자는 구조적으로 유효하지 않거나 불필요하게 긴 워크플로우를 자주 생성하여 취약한 실패와 피할 수 있는 도구 및 API 비용을 초래한다. 본 논문에서는 검증된 방향성 비순환 그래프(DAG) 계획과 접두사 기반 실행 제어를 결합한 계획 래퍼인 SPIN을 제안한다. SPIN은 `_validate_plan_text` 및 수정 프롬프팅을 통해 엄격한 DAG 계약을 적용하여 하위 실행 전에 실행 가능한 계획을 생성하고, 이후 DAG 접두사를 점진적으로 평가하여 현재 접두사가 질의에 응답하기에 충분한 시점에서 실행을 중단한다. AssetOpsBench의 261개 시나리오에서 SPIN은 실행된 작업 수를 1061개에서 623개로 줄이고 Accomplished를 0.638에서 0.706으로 개선했으며, 실행당 도구 호출 수를 11.81회에서 6.82회로 감소시켰다. MCP Bench에서는 동일한 래퍼가 GPT OSS1과 Llama 4 Maverick 모두에 대해 계획, 근거 및 종속성 관련 점수를 향상시켰다.
Mixture-of-Experts (MoE) 구조는 토큰당 소수의 전문가(expert)만 활성화하여 대규모 언어 모델의 효율성을 향상시킵니다. 그러나 표준 MoE는 고정된 Top-K 라우팅 전략을 사용하여 중복 계산과 최적이 아닌 추론 지연 시간을 초래합니다. 기존 가속 방법은 구조 변경을 수반한 고가의 재학습이 필요하거나, 훈련-추론 불일치로 인해 높은 희소성(sparsity)에서 심각한 성능 저하를 겪습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 학습 가능한 이진 마스크를 통해 토큰 적응형 전문가 선택을 학습하는 새로운 방법인 BEAM(Binary Expert Activation Masking)을 제안합니다. Straight-Through Estimator와 보조 정규화 손실(regularization loss)을 활용하여, BEAM은 모델 성능을 유지하면서 종단간 학습을 통해 동적 전문가 희소성을 유도합니다. 또한 BEAM을 위한 효율적인 맞춤형 CUDA 커널을 구현하여 vLLM 추론 프레임워크와의 원활한 통합을 보장합니다. 실험 결과, BEAM은 원본 모델 성능의 98% 이상을 유지하면서 MoE 계층 FLOPs를 최대 85%까지 감소시키고, 디코딩 속도 최대 2.5배, 처리량 최대 1.4배 향상을 달성하여 효율적인 MoE 추론을 위한 실용적이고 플러그 앤 플레이 가능한 솔루션으로서의 효과성을 입증합니다.
AI 에이전트가 채팅 인터페이스에서 개인 데이터를 읽고, 도구를 호출하며, 다단계 워크플로우를 실행하는 시스템으로 발전함에 따라, 가드레일(guardrail)은 구체적인 배포 상의 피해에 대한 최후의 방어선이 됩니다. 이러한 환경에서 가드레일 실패는 더 이상 단순한 응답 품질 오류가 아닙니다. 비밀을 유출하거나, 안전하지 않은 작업을 승인하거나, 합법적인 작업을 차단할 수 있습니다. 가장 다루기 어려운 실패는 종종 맥락적입니다. 작업의 수용 가능 여부는 배포 전에 명세화하기 어려운 지역적 프라이버시 규범, 조직 정책, 사용자 기대에 따라 달라집니다. 이는 실질적인 격차를 만듭니다. 가드레일은 자체 운영 환경에 적응해야 하지만, 배포 피드백은 일반적으로 드물고 노이즈가 있는 사용자 보고 실패로 제한되며, 반복적인 미세 조정은 종종 비실용적입니다. 이 격차를 해결하기 위해, 우리는 LiSA(Lifelong Safety Adaptation)를 제안합니다. 이는 구조화된 메모리를 통해 고정된 기본 가드레일을 개선하는 보수적인 정책 유도 프레임워크입니다. LiSA는 드문 실패를 재사용 가능한 정책 추상화로 변환하여 희소한 보고가 개별 사례를 넘어 일반화될 수 있게 하고, 혼합 레이블 맥락에서 과도한 일반화를 방지하기 위해 충돌 인식 지역 규칙을 추가하며, 사후 하한을 통해 증거 인식 신뢰도 게이팅을 적용하여 메모리 재사용이 경험적 정확도만이 아니라 축적된 증거에 따라 확장되도록 합니다. PrivacyLens+, ConFaide+, AgentHarm 데이터셋 전반에 걸쳐, LiSA는 희소 피드백 조건에서 강력한 메모리 기반 기준선을 일관되게 능가하며, 20% 레이블 뒤집기 비율에서도 노이즈가 있는 사용자 피드백 하에서 견고함을 유지하고, 지연 시간-성능 경계를 백본 모델 스케일링 너머로 확장합니다. 궁극적으로 LiSA는 현실 세계의 예측 불가능한 긴 꼬리(long-tail) 에지 위험으로부터 AI 에이전트를 보호하는 실용적인 경로를 제공합니다.
최근 급속한 발전에도 불구하고, 현재의 텍스트-이미지(T2I) 모델은 주로 단일 단계 생성 패러다임에 의존하고 있으며, 이는 복잡한 의미 관계를 처리하는 데 어려움을 겪고 파라미터 스케일링에서 수익 체감 현상에 직면하고 있다. 최근 다중 단계 추론 접근 방식이 가능성을 보여주고 있지만, 검증이 부재한 근거 없는 계획 환각, 단일 방식의 사후 반성, 장문맥 최적화 불안정성, 그리고 실용화를 어렵게 하는 추론 지연 시간 등의 문제로 인해 제약을 받고 있다. 이러한 병목 현상을 극복하기 위해, 우리는 시각-언어 논리적 계획과 픽셀 수준 확산 생성을 긴밀하게 결합한 포괄적 시스템인 폐루프 시각 추론(CLVR) 프레임워크를 제안한다. CLVR은 신뢰할 수 있는 추론 경로를 합성하기 위해 단계별 시각 검증 기능을 갖춘 자동화 데이터 엔진을 도입하고, 교차 배치된 다중 모달 히스토리를 정확한 인과적 귀인을 위한 명시적 보상 신호로 증류함으로써 장문맥 최적화 불안정성을 해결하는 프록시 프롬프트 강화 학습(PPRL)을 제안한다. 또한, 반복적 노이즈 제거로 인한 심각한 지연 시간 병목을 완화하기 위해, 우리는 이론적으로 기반한 방법인 Δ-공간 가중치 병합(DSWM)을 제안한다. 이는 정렬 가중치를 기성 증류 사전 지식과 융합하여, 비용이 많이 드는 재증류 없이도 단계당 추론 비용을 단 4 NFE로 감소시킨다. 광범위한 실험을 통해 CLVR이 여러 벤치마크에서 기존 오픈소스 기준선을 능가하고 독점 상용 모델의 성능에 근접하여, 복잡한 시각 생성을 위한 일반적인 테스트 시간 스케일링 능력을 발휘함을 입증한다.
대화형 사기, 예를 들어 로맨스 사기나 투자 사기는 온라인 사기의 주요 형태로 부상하고 있다. 가짜 복권이나 미납 통행료 메시지와 같은 일회성 사기 유인책과 달리, 이들은 다회차 대화를 통해 전개되며, 사기범은 진화하는 심리적 기술을 사용하여 피해자를 점진적으로 조종한다. 그러나 기존 연구는 주로 정적 사기 탐지나 합성 사기에 초점을 맞추고 있어, 언어 모델이 실제 사기가 시간에 따라 어떻게 진행되는지를 이해할 수 있는지에 대한 연구는 부족하다. 본 논문에서는 초기 대화부터 사기 진행을 모델링하기 위한 벤치마크인 PreScam을 소개한다. 사용자가 제출한 사기 신고를 기반으로 구축된 PreScam은 177,989건의 원시 신고를 필터링하고 구조화하여 20개의 사기 범주에 걸친 11,573건의 대화형 사기 인스턴스를 생성한다. 각 인스턴스는 제안된 사기 킬 체인에 의해 정의된 사기 생애주기에 따라 계층적으로 구조화되며, 추가로 턴 수준에서 사기범의 심리적 행동과 피해자 반응으로 주석 처리된다. 우리는 두 가지 작업에 대해 모델을 평가한다: 실시간 종료 예측(대화가 종료 단계에 접근하고 있는지 추정)과 사기범 행동 예측(사기범의 후속 행동 예측). 결과는 표면적 유창성과 진행 모델링 사이에 명확한 격차를 보여준다: 지도 학습 인코더는 실시간 종료 예측에서 제로샷 LLM을 크게 능가하는 반면, 다음 행동 예측은 강력한 LLM조차도 중간 정도의 성공에 그친다. 종합하면, 이러한 결과는 현재 모델이 일부 사기 관련 단서를 포착할 수 있지만, 위험이 어떻게 확대되고 조종이 턴을 거쳐 어떻게 전개되는지 추적하는 데는 여전히 어려움을 겪고 있음을 보여준다.
시계열 예측은 단순한 수치 외삽이 아니라, 뉴스나 사건과 같은 구조화되지 않은 맥락적 데이터를 추론해야 하는 경우가 많다. 전문 시계열 기반 모델(TSFM)은 수치적 패턴에 기반한 예측에 뛰어나지만, 실제 세계의 텍스트 신호에는 무지한 상태로 남아 있다. 반면, 대규모 언어 모델(LLM)이 제로샷 예측기로 부상하고 있지만, 그 성능은 도메인과 맥락적 근거에 따라 여전히 불균형하다. 이러한 격차를 해소하기 위해 우리는 Nexus를 소개한다. 이는 예측을 특화된 단계들로 분해하는 다중 에이전트 예측 프레임워크로, 거시적 수준과 미시적 수준의 시간적 변동을 분리하고, 가용한 경우 맥락적 정보를 통합한 후 최종 예측을 종합한다. 이러한 분해를 통해 Nexus는 외부 통계적 기준점이나 단일 프롬프트에 의존하지 않고 계절적 신호에서 변동성이 큰 사건 기반 정보까지 적응할 수 있다. 우리는 현재 세대의 LLM이 이전에 인식된 것보다 훨씬 강력한 본질적 예측 능력을 보유하며, 이는 수치적 추론과 맥락적 추론이 어떻게 조직화되는지에 결정적으로 의존함을 보여준다. Zillow 부동산 지표와 변동성이 큰 주식 시장 자산을 포함하는, LLM 지식 중단점 이후의 데이터에 대해 엄격히 평가한 결과, Nexus는 최신 TSFM 및 강력한 LLM 기준선과 일관되게 일치하거나 이를 능가한다. 수치적 정확성 외에도 Nexus는 각 예측의 근본적 동인을 명시적으로 보여주는 고품질 추론 흔적을 생성한다. 우리의 결과는 실제 세계 예측이 단순한 시퀀스 모델링을 훨씬 넘어서는 에이전트적 추론 문제임을 확립한다.
CurveBench: 시각적 입력으로부터의 계층적 위상 추론을 위한 벤치마크를 소개한다. CurveBench는 서로 교차하지 않는 조르단 곡선(Jordan curves) 쌍으로 구성된 756개의 이미지를 포함하며, 쉬운(easy) 설정, 다각형(polygonal) 설정, 지형에서 영감을 받은(topographic-inspired) 설정, 미로형(maze-like) 설정, 그리고 밀집된 개수 세기(dense counting) 설정으로 나뉜다. 각 이미지에는 평면 영역 간의 포함 관계를 인코딩한 루트 트리(rooted tree)가 주석으로 달려 있다. 우리는 이 과제를 구조적 예측(structured prediction)으로 정의한다. 즉, 모델이 이미지를 입력받아 곡선에 의해 유도된 완전한 루트 포함 트리(rooted containment tree)를 복원해야 한다. 과제의 시각적 단순성에도 불구하고, 가장 강력한 평가 모델인 Gemini 3.1 Pro는 CurveBench-Easy에서 71.1%의 트리 생성 정확도(tree-generation accuracy)를, CurveBench-Hard에서는 19.1%의 정확도를 기록했다. 또한, RLVR 방식의 미세 조정(RLVR-style fine-tuning)을 통해 공개 가중치 비전-언어 모델(open-weight vision-language models)을 활용한 벤치마크의 유용성을 추가로 입증한다. 우리가 훈련한 Qwen3-VL-8B 모델은 Qwen-3-VL-8B-Thinking 대비 CurveBench-Easy에서 트리 생성 정확도가 2.8%에서 33.3%로 향상되었으며, 이는 우리의 평가 프로토콜에서 GPT-5.4 및 Claude Opus 4.5를 초과하는 성능이다. 특히 CurveBench-Hard에서 남아 있는 격차는 정확한 위상 인식 시각적 추론(exact topology-aware visual reasoning)이 아직 해결되지 않은 과제임을 보여준다.
비전-언어-행동(VLA) 모델은 고전적인 제어 패러다임을 넘어 놀라운 유연성과 일반화를 달성한다. 그러나 대부분의 주류 VLA는 단일 프레임 관찰 패러다임 하에서 훈련되어 구조적으로 시간적 동역학을 인지하지 못한다. 결과적으로, 이러한 모델은 동적 데이터셋에서 훈련되거나 미세 조정되더라도 비정상 시나리오에서 심각하게 성능이 저하된다. 기존 접근법은 값비싼 재훈련이 필요하거나, 지연 병목 현상과 행동 청크 간의 낮은 시간적 일관성으로 인해 어려움을 겪는다. 우리는 Pace-and-Path Correction(속도 및 경로 보정)을 제안한다. 이는 훈련 불필요의 폐쇄형 추론 시간 연산자로서 모든 청크 기반 행동 VLA에 적용 가능하다. 단일 이차 비용 함수로부터 공동 최소화는 직교적으로 두 개의 별도 채널로 분해되는 통합 솔루션을 산출한다. 속도 채널은 계획된 방향을 따라 실행을 압축하는 반면, 경로 채널은 직교 공간 오프셋을 적용하여 청크 윈도우 내에서 인지된 동역학을 공동으로 흡수한다. 우리는 움직임을 유일한 제어 변수로 분리하도록 설계된 포괄적인 진단 벤치마크인 MoveBench에서 접근법을 평가한다. 실험 결과는 우리 프레임워크가 최첨단 훈련 불필요 래퍼 및 동적 적응 방법을 일관되게 능가하며, 동적 전용 환경과 정적-동적 혼합 환경에서 각각 기본 VLA 모델 대비 성공률을 절대적으로 최대 28.8% 및 25.9% 향상시킴을 보여준다.