번역이 포함된 일일 선별된 AI 연구 논문
실제 세계의 많은 순간들은 사용자의 질문을 기다리지 않는다. 보안 모니터에 불이 붙기 시작하고, 영상 통화에서 표정이 스치며 지나가거나, 라이브 스트리밍 중 시청자가 원하는 제품이 순간적으로 지나간다. 하지만 오늘날의 대규모 모델들은 대부분 디자인상 턴제(turn-based) 방식으로 남아 있다: 호출될 때만 응답하며, 심지어 양방향처럼 보이는 영상 통화 앱들도 여전히 질문-응답 시스템으로 작동하여, 데이터를 요청(polled)하거나 프롬프트(prompted)를 입력할 때만 반응한다. 우리는 다른 패러다임을 주장한다: 마치 사람처럼 세상에 존재하는 모델이다. 이 모델은 지금 일어나는 일을 지속적으로 관찰하고, 스스로 말할지 침묵할지 결정하며, 실시간으로 상호작용하고, 문제가 어려울 때는 백그라운드 모델에 위임한다. 상호작용 모델과 이의 다양한 영역에서의 적용을 발전시키기 위해, 우리는 완전히 오픈소스화된 두 가지 기여를 한다. 첫째, 우리는 JoyAI-VL-Interaction을 공개한다. 이는 8B 규모의 비전 우선(vision-first) VL 상호작용 모델이다. 이 모델은 내부적으로 응답 결정을 내려, 매 초 침묵, 응답, 또는 백그라운드 모델 위임 중 하나를 선택하며, 비전 트리거 반응성과 시간 인식에 탁월하다. 우리는 이 모델과 함께 전이 가능한 훈련 레시피를 제공하며, 이를 통해 전혀 훈련하지 않은 능력(예: 쇼핑객을 앱 화면 변경 안내, 슬라이드 덱에서 즉석 강의)이 창발한다. 둘째, 우리는 이 모델을 기반으로 구축된 완전하고 배포 가능한 시스템을 공개한다. 이 시스템은 진행 중인 모든 비디오를 모델로 스트리밍하여, 모델이 진정으로 세상에 존재하도록 만든다. ASR/TTS 모듈, 메모리, 시각화 UI, 어떤 API나 에이전트에 연결할 수 있는 백그라운드 브레인을 포함한 모든 다른 구성 요소는 플러그형이다. 여섯 가지 실제 시나리오에서 인간 평가자는 JoyAI-VL-Interaction을 Doubao 및 Gemini의 인앱 영상 통화 어시스턴트보다 훨씬 선호했다. 우리가 아는 한, 이는 훈련 레시피, 데이터, 완전한 배포 가능 시스템과 함께 공개된 최초의 공개형 비전 기반 상호작용 모델이다.
데이터는 사회를 형성하는 이야기를 전합니다. 데이터 저널리스트의 임무는 원시 정보를 비전문가도 신뢰할 수 있는 이야기로 전환하는 것입니다. 고품질의 뉴스 특집은 뉴스룸 팀이 몇 주에 걸쳐 맥락을 찾고, 통계를 실행하고, 각도를 선택하고, 시각 자료를 디자인해야 합니다. 최근 에이전트들은 개별 단계를 잘 처리합니다. 데이터 과학 에이전트는 분석 루프를 완성하고, 디자인 에이전트는 아름다운 웹사이트를 종합합니다. 하지만 에이전트가 종단 간 데이터 저널리스트 역할을 할 수 있을까요? 우리는 데이터 저널리스트 에이전트(Data2Story)를 소개합니다. 이는 전문 역할들을 하나의 가상 뉴스룸으로 조율하는 다중 에이전트 프레임워크입니다. Data2Story는 두 가지 혁신을 제공합니다. (i) 주장은 증거에 기반합니다. 검사관(Inspector)은 모든 숫자, 각도, 자산을 데이터, 코드 또는 외부 참고 자료로 다시 연결합니다. (ii) 기사는 다중 모드로 생성됩니다. Data2Story는 기본 텍스트와 정적 차트 대신 독자가 보고 싶어 할 것을 추론한 후, 지리에는 대화형 지도, 음악에는 오디오와 같은 다중 모드 도구를 배치합니다. 우리는 Data2Story를 18개의 기사로 평가했으며, 각 기사는 원래 출판된 전문가 버전과 짝을 이루었습니다. 평가는 네 가지 축을 따라 진행되었습니다: (a) 인간-에이전트 관점 커버리지; (b) 5개 차원에 걸쳐 53명의 참가자를 대상으로 한 루브릭 평가; (c) 독자가 대화형 기사를 탐색하는 방식을 대체하는 비용 절감 대리자로서의 컴퓨터 사용 에이전트 판정; (d) 검증 가능성, 여기서 코딩 검증자는 데이터에 대한 진술을 재실행하고 참고 자료에 대한 주장을 확인합니다. Data2Story는 경쟁력 있고 증거 추적이 가능한 멀티미디어 스토리를 생성하며, 특히 투명성과 감사 가능성에서 강점을 보입니다. 인간 기사는 편집 관점, 창의적 디자인 및 프레젠테이션에서 여전히 우위를 유지합니다. 우리는 Data2Story를 저널리스트를 위한 협력자로 자리매김하며, 더욱 증거 기반이고 투명하며 검증 가능한 보도를 가능하게 합니다. 코드와 데모는 https://data2story.github.io에서 확인할 수 있습니다.
범용 로봇 정책은 객체, 카메라, 로봇 동작이 3차원 물리 세계에서 어떻게 상호작용하는지 추론하는 동시에 사용자 명령을 따라야 한다. 최근의 시각-언어-행동 모델(VLAs)과 비디오 세계-행동 모델(WAMs)은 대규모 기반 모델로부터 강력한 의미론적 또는 시간적 사전 지식을 상속받지만, 여전히 주로 2차원 이미지 프레임 또는 2차원 유래 잠재 공간에서 작동하여 접촉이 많은 조작에 필요한 3차원 기하학을 암시적으로 남겨둔다. 우리는 기하학적 행동 모델(GAM)을 제안한다. 이는 사전 훈련된 기하학적 기반 모델(GFM)을 지각, 시간적 예측 및 행동 디코딩을 위한 공유 기반으로 직접 재사용하는 언어 조건부 조작 정책이다. GAM은 GFM을 중간 계층에서 분할한다. 얕은 계층은 관측 인코더 역할을 하고, 분할 계층에 삽입된 인과적 미래 예측기는 언어, 고유수용감각 및 행동 이력을 조건으로 미래 잠재 토큰을 예측한다. 예측된 미래 토큰은 이후 나머지 GFM 블록을 통해 특징 전파 및 디코딩을 위해 전달되어, 단일 백본이 미래 기하학과 행동을 모두 생성할 수 있게 한다. 이 설계는 최소한의 구조적 수정을 통해 GFM에 언어 조건부 시간적 세계 모델링을 제공하면서도 풍부한 기하학적 사전 지식을 유지한다. 다양한 시뮬레이션 및 실제 로봇 조작 벤치마크에서 GAM은 현재의 기반 모델 규모 기준선보다 더 정확하고, 더 강건하며, 더 빠르고, 더 가볍다.
DreamX-World 1.0은 제어 가능한 장시간 생성을 위한 범용 대화형 텍스트/이미지-비디오 세계 모델입니다. 이 모델은 카메라 탐색, 이전에 관찰된 영역 재방문, 포토리얼리스틱, 게임 스타일 및 스타일화된 도메인 전반에 걸친 프롬프트 가능 이벤트를 지원합니다. 데이터 엔진은 카메라 정확한 언리얼 엔진 렌더링, 행동이 풍부한 게임플레이 녹화, 복원된 카메라 기하학을 갖춘 실제 비디오를 결합합니다. 카메라 제어를 위해, PRoPE의 투영 카메라 기하학을 유지하면서 공간적으로 축소된 토큰에 카메라 인식 어텐션을 적용하는 경량 투영 위치 인코딩 변형인 E-PRoPE를 도입합니다. 양방향 비디오 생성기를 인과 강제, DMD 스타일 증류, 롱 롤아웃 훈련을 사용하여 소수 단계 자기회귀 세계 모델로 변환합니다. 자기 생성된 장시간 맥락에서의 훈련은 모델을 자체 생성된 히스토리에 노출시키고, 자기회귀 청크 간에 누적되는 스타일 및 색상 드리프트를 줄입니다. 메모리 조건 장면 지속성은 카메라 기하학 기반 검색을 통해 이전 뷰를 검색하며, 잔차 재활용은 조건화 경로가 불완전한 메모리 잠재변수에 덜 민감하도록 만듭니다. 이벤트 명령 튜닝은 구성 가능한 이벤트 제어를 추가하고, 강화 학습 정렬은 증류 후 카메라 제어와 시각적 품질을 복원합니다. 혼합 정밀도 DiT 실행, 잔차 재사용, 75% 가지치기된 VAE 디코딩 및 비동기 파이프라인 병렬 처리를 통해 DreamX-World 1.0은 8개의 RTX 5090 GPU에서 최대 16FPS에 도달합니다. 5초 기본 평가에서 DreamX-World 1.0은 카메라 제어 점수 73.75, 종합 점수 84.76을 달성하여, 각각 80.79와 80.45를 기록한 HY-WorldPlay 1.5 및 LingBot-World를 종합 점수에서 능가합니다.
대규모 언어 모델(LLM) 코딩 에이전트는 소프트웨어 엔지니어링 작업에서 뛰어난 성과를 보여주었지만, 저장소 탐색은 여전히 주요 병목 현상으로 남아 있다: 관련 코드를 찾는 과정에서 상당한 토큰 예산이 소모되고, 에이전트의 컨텍스트가 관련 없는 조각들로 오염된다. 대부분의 에이전트에서는 동일한 모델이 저장소를 탐색하고 작업을 해결하므로, 탐색적 읽기 및 검색이 해결사의 이력에 남게 된다. 본 논문에서는 저장소 탐색과 해결을 분리하는 전용 탐색 서브에이전트인 FastContext를 제시한다. 필요 시 호출되는 FastContext는 병렬 도구 호출을 수행하고, 집중된 컨텍스트로서 간결한 파일 경로와 라인 범위를 반환한다. FastContext는 4B~30B 파라미터 범위의 특화된 탐색 모델로 구동된다. 강력한 참조 모델 궤적에서 이들을 부트스트래핑하고, 광범위한 첫 번째 턴 탐색, 다중 턴 증거 수집, 정확한 인용 생성에 대한 작업 기반 보상으로 정교화한다. SWE-bench Multilingual, SWE-bench Pro 및 SWE-QA 전반에 걸쳐, FastContext를 Mini-SWE-Agent에 통합하면 종단 간 해결률이 최대 5.5% 향상되고, 코딩 에이전트의 토큰 소비는 최대 60% 감소하며, 오버헤드는 미미하다. 이러한 결과는 저장소 탐색이 해결과 분리될 수 있으며, 특화된 모델에 의해 효과적으로 처리될 수 있음을 보여준다. 코드 및 데이터: https://github.com/microsoft/fastcontext
본 기술 보고서는 VibeThinker-3B를 소개한다. 이는 엄격한 소형 모델 체제 내에서 검증 가능한 추론(verifiable reasoning)이 어디까지 발전할 수 있는지 탐구하기 위해 개발된 30억 개의 파라미터를 갖춘 소형 고밀도 모델이다. Spectrum-to-Signal 사후 훈련 패러다임을 기반으로, 커리큘럼 기반 지도 미세 조정, 다중 도메인 강화 학습, 오프라인 자기 증류를 포함한 최적화된 파이프라인을 통해 모델을 체계적으로 개선한다. 실험 평가 결과, VibeThinker-3B는 매우 까다로운 검증 가능한 작업에서 최첨단 수준의 성능을 달성함을 보여준다. 구체적으로, AIME26에서 94.3점(클레임 수준 테스트 시간 스케일링 적용 시 97.1점으로 향상), LiveCodeBench v6에서 80.2%의 Pass@1을 기록했으며, 최신 미공개 LeetCode 대회에서 96.1%의 수용률로 뛰어난 분포 외 일반화 성능을 보였다. 이는 사실상 일류 추론 시스템의 성능 대역에 위치하며, DeepSeek V3.2, GLM-5, Gemini 3 Pro와 같이 규모가 수십 배 더 큰 플래그십 모델과 동등하거나 이를 능가한다. 또한 IFEval에서 93.4점을 기록하여, 이러한 극단적인 추론 향상이 엄격한 명령 제어 가능성을 저해하지 않음을 확인했다. 이전의 15억 파라미터 작업을 확장한 이러한 발견은 파라미터 압축-범위 가설(Parametric Compression-Coverage Hypothesis)을 뒷받침한다. 이 가설은 검증 가능한 추론이 소형 추론 코어로 압축 가능한 반면, 개방형 도메인 지식과 범용 능력은 사실, 개념, 장기 꼬리 시나리오에 걸친 광범위한 파라미터 범위를 필요로 한다고 본다. 이러한 관점은 소형 모델이 단순히 배포 효율적인 대체재가 아니라, 파라미터 밀집 능력 체제에서 최첨단 성능을 향한 보완적 경로임을 시사한다.
촬영된 비디오로부터 도시 장면의 역렌더링은 콘텐츠 제작 및 자율주행 시뮬레이션을 포함한 다양한 응용을 가능하게 한다. 물리 기반 렌더링 방법은 조명 물리를 따르고 제어할 수 있으나 재구성 및 렌더링 아티팩트로 인해 어려움을 겪는다. 생성 모델은 사실적인 비디오를 생성하지만 일관성과 제어 가능성 측면에서 제한적이다. 본 논문에서는 역렌더링과 순방향 렌더링을 위한 두 가지 상호 보완적 모델을 결합한 통합 프레임워크인 BRDFusion을 제시한다. 구체적으로 BRDFusion은 물리적 모델링을 통해 명시적이고 일관된 장면 특성을 복원하고, 생성적 사전 정보(generative priors)를 활용하여 최적화의 모호성을 완화한다. 순방향 렌더링 중에는 물리적 모델이 장면 구성에 따른 제어 가능한 렌더링을 제공하고, 생성 모델이 노이즈를 제거하고 아티팩트를 수정한다. 따라서 본 방법은 정밀한 제어를 가능하게 하면서 고품질 비디오를 생성하며, 실제 및 합성 장면에서 기준선(baselines)보다 우수한 성능을 보인다. 또한 BRDFusion은 새로운 시점에서의 재조명, 야간 시뮬레이션, 동적 객체 삽입/편집을 지원한다. 프로젝트 페이지: https://shigon255.github.io/brdfusion-page/
마스크 확산 언어 모델(Masked Diffusion Language Models, MDLMs)은 시퀀스 생성을 위한 독특한 패러다임으로 부상했다. MDLM이 다양한 능력과 지식 범위를 갖추게 됨에 따라, 이들 모델의 지식을 결합하는 방법이 중요한 질문으로 대두된다. 이를 위해 먼저 MDLM의 고유한 디코딩 동역학을 조사한다. 성공적인 생성은 답변 관련 위치에서 안정적인 신뢰도 동역학을 보이는 반면, 신뢰할 수 없는 궤적은 종종 다른 모델의 유망한 중간 상태를 주입함으로써 교정될 수 있음을 발견했다. 이러한 관찰에 기초하여, 우리는 MDLM이 신뢰할 수 있는 디코딩 궤적을 반복적으로 식별하고 이를 모델 간에 중계하는 지식 융합 프레임워크인 TIE(궤적 기반 반복 앙상블, Trajectory-based Iterative Ensembling)를 제안한다. TIE는 답변 관련 위치에 대한 신뢰도 동역학을 추적하여 어떤 모델이 현재 더 신뢰할 수 있는 궤적을 따르고 있는지 판단하고, 부분적으로 잡음이 제거된 시퀀스를 선택적으로 모델 간에 전달한다. 더 유망한 궤적 위의 모델은 잡음 제거 단계에 따라 자주 바뀌므로, TIE는 서로 다른 모델이 생성의 여러 단계에서 상호 보완적인 강점을 기여할 수 있도록 한다. 다양한 추론 과제에서의 강력한 성능과 함께, 본 분석은 TIE가 아직 충분히 탐구되지 않은 MDLM 앙상블 문제에 대한 실용적 접근법을 제공함을 시사한다.
비전 언어 모델은 복잡한 다중 모달 작업을 위한 범용 인터페이스 역할을 하고 있다. 그러나 배포 시 여전히 세 가지 격차가 존재한다: VLM은 밀집된 비디오 프레임과 긴 프롬프트를 처리할 때 높은 지연 시간과 비용이 발생하며, 에이전트 스캐폴드는 배포 후 정적으로 유지되고, 표준 비디오-QA 벤치마크는 에이전트가 도구 사용 작업 공간 내에서 시각적 증거를 활용할 수 있는지 테스트하지 않는다. 본 논문에서는 두 가지 원칙을 기반으로 구축된 자기 진화형 다중 모달 에이전트인 VisualClaw를 제안한다. 첫째, 하이브리드 인코딩은 캐스케이드 게이트를 사용하여 정보가 적은 스트리밍 프레임을 필터링하고 핫/콜드 top-k 주입을 통해 텍스트 스킬 뱅크를 압축함으로써 배포 비용을 절감한다. 둘째, 스킬 진화는 에이전트가 실패로부터 학습할 수 있게 한다: 검색된 메모리는 진화기를 직접 연결된 컨텍스트 또는 유도된 증거로 조건화하여, 향후 질문에 도움이 되는 스킬 뱅크 업데이트를 생성한다. 2개의 VLM을 사용한 4개의 비디오-QA 벤치마크에서 VisualClaw는 전체 프레임 업로드 대비 평균 -98%, 오프라인 균일 8프레임 기준선 대비 -25.9%의 질문당 API 비용을 절감하면서, 대부분의 설정에서 정확도를 향상시켰다(예: Gemini 3 Flash를 사용한 EgoSchema에서 평균 +3.85%, 최대 +15.80%). 이 격차를 해결하기 위해, 엄격한 5단계 파이프라인을 통해 구축된 200개 시나리오의 다중 모달 에이전트 벤치마크인 VisualClawArena를 큐레이션한다. 모델은 작업 공간 내에서 비디오 증거, 문서, 동적 업데이트 및 실행 가능 검사를 사용해야 한다. VisualClawArena에서, 컴퓨터 사용 에이전트 백엔드를 갖춘 동일한 프레임워크는 진화 없는 기준선 대비 Codex(GPT-5.5)에서 +2.9%, Claude Code(Sonnet 4.6)에서 +3.2%의 매크로 정확도 향상을 달성했으며, 균일 샘플링 기준선 대비 -9.5%의 비용 절감을 보였다. 이러한 특성으로 인해 VisualClaw는 엣지 애플리케이션에 자연스럽게 적합하며, 캐스케이드는 1시간 스트리밍 세션을 약 3,600회의 API 업로드에서 단 5~20회의 호출로 줄이고, 자기 진화는 완벽한 개인화된 어시스턴트로 만든다.
시각적 세계 모델(VWM)은 단일 컨텍스트 이미지로부터 상호작용적이고 행동 조건부 롤아웃을 합성한다. 그러나 이러한 모델이 적대적 교란에 대해 얼마나 강건한지는 여전히 미해결 문제로 남아 있다. 표준 적대적 공격은 공격자가 실제 미래 비디오를 가지고 있지 않고 후속 사용자 제어를 예측할 수 없기 때문에 이러한 취약성을 평가하지 못한다. 우리는 자기회귀적 VWM에 특화된 레이블 없는 적대적 프레임워크인 BadWorld를 소개하며, 이는 두 가지 제약을 체계적으로 극복한다. 첫째, 미래 감독의 필요성을 우회하기 위해, 모델의 초기 잡음 제거 동역학을 직접 교란하는 자기지도 속도 공격을 제안한다. 둘째, 공격이 예측 불가능한 사용자 행동에 걸쳐 일반화되도록 보장하기 위해, 제어에 구애받지 않는 교란을 생성하기 위해 어려운 제어 시퀀스를 적극적으로 탐색하는 궤적 적응형 이중 수준 최적화를 공식화한다. 연속 및 이산 제어를 갖는 대표적인 VWM에서 평가된 BadWorld는 심각한 구조적 취약성을 드러낸다. 시각적으로 구별할 수 없는 적대적 이미지는 미래 롤아웃에서 지속적으로 치명적인 성능 저하를 유발하여, 불완전한 잡음 제거, 구조적 붕괴, 제어 불일치를 초래한다. 이러한 발견은 안전에 중요한 시스템에 VWM을 배포할 때의 심각한 위험을 드러내는 동시에, 프라이버시 보호를 위한 실용적인 메커니즘을 강조한다.
다중 작업 학습(MTL)은 다양한 사용자 피드백 간의 상호 보완적 학습을 가능하게 하기 위해 추천 시스템에서 필수적이다. 현대 산업 관행은 DNN에서 트랜스포머 중심 아키텍처로 전환하여 시퀀스 모델링과 확장 능력을 강화했지만, 여전히 특징 인코딩을 다중 작업 예측에서 분리하여 트랜스포머를 작업에 구애받지 않는 인코더로 취급한다. 이러한 설계는 (1) 이질적 작업 목표 하에서 정보 병목 현상을 생성하고, (2) 그래디언트 간섭을 유발하여 시소 현상을 초래하며, (3) 어텐션 기반의 맥락 적응적 표현 학습을 호환되지 않는 정보 읽기-쓰기 동역학을 가진 정적 피드포워드 작업 예측으로 전환하는 데이터 흐름 변환을 강제함으로써 성능과 확장성을 근본적으로 제한한다. 본 논문에서는 인코더-예측기 분리를 제거하고 순방향 표현 학습과 역방향 최적화를 위한 작업 전용 채널을 도입하여 작업 특화 학습을 가능하게 하면서 작업 간 간섭을 줄이는 트랜스포머 고유의 다중 작업 랭킹 프레임워크인 OneRank를 제안한다. 순방향 패스에서 OneRank는 작업 조건화된 정보 선택, 후보 인식 맥락화, 제어된 교차 작업 상호작용을 통해 상향식으로 작업 특정 표현을 학습한다. 역방향 패스에서는 교차 작업 그래디언트 분리가 작업 전용 파라미터 업데이트를 공유 지식 추출 모듈로부터 격리시켜 부정적 전이를 방지한다. 또한 정적 작업별 MLP 스코어러를 동적 매칭 기반 스코어링으로 대체하여 맥락 인식 개인화 랭킹을 구현한다. 트랜스포머 스택 내에 다중 작업 추론을 내재화함으로써 OneRank는 통합되고 확장 가능한 아키텍처 패러다임을 수립한다. 대규모 산업 데이터셋에 대한 오프라인 및 온라인 실험에서 OneRank는 계산 효율성을 유지하면서 최첨단 기준선을 크게 능가함을 보여준다.
소개합니다: Qwen-RobotWorld - 언어 조건부 비디오 세계 모델의 구현 지능. 자연어를 통일된 행동 인터페이스로 활용하여, 로봇 조작, 자율주행, 실내 항법, 인간-로봇 전이에 이르기까지 현재 관찰로부터 물리적으로 기반한 미래 시각적 궤적을 예측합니다. 이러한 통일된 정식화는 세 가지 유망한 응용 방향을 제공합니다: 정책 훈련 증강을 위한 합성 데이터 생성, 정책 평가를 위한 확장 가능한 가상 환경, 하위 로봇 제어를 위한 언어 기반 계획 신호입니다. 이는 세 부분으로 구성된 설계를 통해 달성됩니다: a) MLLM 행동 인코딩을 갖춘 더블-스트림 MMDiT - 60층 더블-스트림 확산 트랜스포머가 층별 공동 주의 메커니즘을 통해 고정된 Qwen2.5-VL 의미론과 비디오-VAE 잠재 표현을 결합합니다; b) 임베디드 세계 지식(EWK) - 20개 이상의 구현체와 500개 이상의 행동 범주에 걸친 행동-언어 매핑을 포함한 860만 개 비디오-텍스트 코퍼스(2억+ 프레임); c) 일반+전문 점진적 커리큘럼 - 먼저 일반 시각적 사전 지식을 학습하고, 공유 언어 인터페이스 하에서 구현 특화 지식을 주입하는 2단계 훈련 전략. 광범위한 결과에서 강력한 경쟁력 입증: EWMBench 및 DreamGen Bench에서 전체 1위, WorldModelBench 및 PBench에서 모든 오픈소스 모델을 능가. RoboTwin-IF 벤치마크에 대한 추가 제로샷 분석은 강력한 일반화와 다중 뷰 일관성을 추가로 뒷받침합니다.
본 논문에서는 잡음 제거기를 생성적 사전(prior)으로 사용하는 구형 인코더(SE: Spherical Encoder)로 대체하여 최대 사후 확률(MAP) 이미지 복원을 가속화하는 새로운 플러그 앤 플레이(Plug-and-Play) 알고리즘인 SP^3를 소개한다. SP^3는 SE의 밀집하게 구조화된 잠재 공간(latent space)을 자연 이미지 다양체에 대한 강건한 투영(projection)으로 활용하여 다루기 어려운 근접 사전(proximal prior) 단계를 근사한다. 반이차 분할(Half-Quadratic Splitting)을 통해 이 투영을 폐쇄형(closed-form) 데이터 일치 단계와 번갈아 수행함으로써 추론 중 기울기 계산 없이도 안정적인 수렴을 달성한다. 이 독특한 구성은 "언제든지(anytime)" 복원 기능을 가능하게 하여 첫 번째 반복부터 선명하고 그럴듯한 이미지를 생성한다. 다양한 이미지 복원 작업에 대한 평가 결과, SP^3는 최첨단 제로샷 확산 및 플로우(flow) 방법과 견줄만한 지각적 품질을 달성하면서도 3~630배 더 빠른 속도를 보인다.
LLM 에이전트가 장기 세션에서 배포됨에 따라, 컨텍스트 누적이 추론 비용을 증가시킨다. 기존 접근 방식은 텍스트 가지치기나 동적 메모리 제거를 활용하여 토큰 사용량을 최소화하지만, 이로 인한 제약 없는 시퀀스 변형은 레이아웃을 변경시켜 접두사 불일치와 캐시 무효화를 초래한다. 이는 텍스트 희소성과 프롬프트 캐시 연속성 간의 중요한 상충 관계를 드러낸다. 이를 해결하기 위해, 우리는 이중 세분성 컨텍스트 관리 프레임워크인 TokenPilot을 제시한다. 전역적으로, 수집 인식 압축(Ingestion-Aware Compaction)은 프레임워크 핸들 역할을 하여 프롬프트 접두사를 안정화하고, 수집 게이트에서 개방형 환경 노이즈를 제거한다. 지역적으로, 생애주기 인식 제거(Lifecycle-Aware Eviction)는 컨텍스트 세그먼트의 잔여 유틸리티를 지속적으로 모니터링하며, 태스크 관련성이 만료될 때만 콘텐츠 세그먼트를 오프로드하도록 보수적인 배치-턴 일정을 적용한다. PinchBench와 Claw-Eval에서 단독 모드와 연속 모드 모두로 수행된 실험은, TokenPilot이 단독 모드에서 비용을 각각 61%와 56%, 연속 모드에서 각각 61%와 87% 감소시키면서도 기존 시스템과 경쟁력 있는 성능을 유지함을 보여준다. TokenPilot은 https://github.com/zjunlp/LightMem2에서 LightMem2에 통합되었다.
고급 에이전트들은 점차 자율 엔지니어로 작동할 가능성을 보여주고 있으며, 이에 따라 실제 개발 환경의 복잡성을 포착하는 평가 벤치마크에 대한 수요가 증가하고 있다. 이러한 환경은 일반적으로 복잡한 코드와 대규모 데이터(즉, 파일 시스템)를 모두 포함한다. 그러나 기존 벤치마크는 대개 코드 중심 또는 데이터 중심 능력을 개별적으로 평가하여 실제 개발 시나리오와의 명확한 간극을 남기고 있다. 본 논문에서는 이러한 간극을 해소하기 위해 데이터 집약적 환경에서 코드 및 데이터 지능을 공동으로 평가하는 최초의 벤치마크인 CODA-BENCH를 소개한다. 우리는 Kaggle 생태계(수백 개의 데이터셋 포함)를 기반으로 데이터 집약적 리눅스 샌드박스를 구축하였으며, 에이전트는 복잡한 파일 계층 구조를 능동적으로 탐색하여 관련 리소스를 식별하고 데이터 기반 분석 작업을 위한 코드를 생성해야 한다. CODA-BENCH는 31개 커뮤니티에 걸친 1,009개의 작업으로 구성되며, 각 작업 환경은 평균 980개의 파일을 포함하여 현실적인 데이터 규모와 노이즈를 시뮬레이션한다. 고급 에이전트에 대한 평가 결과, 최고 성능 시스템조차도 데이터 발견과 코드 실행을 효과적으로 통합하는 데 어려움을 겪어 성공률이 61.1%에 불과했다. 이러한 결과는 데이터 집약적 작업에 대한 현재 에이전트 능력의 상당한 격차를 강조하며, 향후 연구를 위한 유망한 방향을 제시한다.
긴 형식 비디오 생성에서는 다양한 샷, 시점, 동작 및 장면 전환 전반에 걸쳐 재발하는 주제가 일관성을 유지해야 한다. 기존의 시간적 분해 방법은 비디오를 샷 단위로 생성하여 확장성을 개선한다. 그러나 이러한 방법들은 주로 역사적 기억이 정체성-중요 주제 증거를 보존하는지 확인하지 않은 채, 그럴듯한 다음 샷 연속을 최적화하는 데 초점을 맞춘다. 결과적으로 생성이 진행됨에 따라 재발하는 주제가 희석되거나, 덮어쓰여지거나, 망각될 수 있다. 본 논문에서는 기억 은행이 주제를 충실히 보존한다면 그 주제를 기억만으로 재구성할 수 있어야 한다는 전제에 기반하여, 주제 보존을 명시적 정체성 기반 문제로 취급하는 주제 재구성 유도 프레임워크인 Memento를 제안한다. 구체적으로, Memento는 자기회귀적 다음 샷 생성과 기억 기반 주제 재구성을 공동으로 학습하며, 역사적 기억과 글로벌 스토리 캡션을 사용하여 대상 외관을 복원한다. 장거리 주제 증거를 단거리 단서로부터 분리하기 위해, Memento는 이중 질의 기억 메커니즘을 도입한다. 여기서 하나의 질의는 정체성 관련 기억을 검색하고, 다른 질의는 일관된 연속을 위해 짧은 맥락 키프레임을 선택한다. 또한, 주제 인식 영화 데이터 파이프라인은 일관되고 대명사 없는 주제 설명을 통해 정밀한 재구성 감독을 제공한다. 실험 결과, Memento는 장기 주제 일관성, 샷 간 일관성, 시각적 품질에서 최첨단 성능을 달성함을 보여준다.
시각-언어-행동(VLA) 정책을 새로운 작업으로 확장하려면 일반적으로 작업별 원격 조작 시연과 작업별 미세 조정이 필요하므로, 데이터 수집과 계산 측면에서 적응 비용이 높습니다. 본 논문에서는 이러한 대상 측의 작업별 적응 비용을 검색으로 대체할 수 있음을 보여줍니다. 제안하는 검색 증강 정책은 대상 체현(질의)과 저비용 체현(풀, 예: 인간 손 비디오)의 쌍을 이룬 시연 데이터에 대해 한 번 학습된 후 고정됩니다. 새로운 작업은 배포 시 풀 측 시연을 검색 풀에 추가함으로써 추가됩니다. 고정된 정책은 매 제어 단계마다 검색된 궤적을 조건으로 하므로, 새로운 작업은 파라미터를 업데이트하는 대신 데이터를 인덱싱하여 흡수됩니다. 미세 조정은 새로운 미지의 체현을 도입할 때만 필요하며, 각각의 새로운 작업에 대해서는 필요하지 않습니다. 검색이 특정 백본을 넘어서는 정책(표준 VLA 정책 포함)을 개선하지만, 그 효과는 비디오 생성 기반 세계-행동 모델(WAM)인 Cosmos Policy에서 특히 두드러집니다. 이러한 설정에서 검색은 대략적인 작업 진행 과정을 제공하고, WAM의 미래 이미지 목표는 검색 조건화된 행동을 강화하는 추가적인 시각적 일관성 신호를 제공합니다. PushT에서는 검색이 미지의 목표 각도에 대한 교차 체현 일반화를 위해 재사용 가능한 고수준 운동 사전 정보를 제공하는 방식을 연구하고, RoboTwin 2.0에서는 제안 방법이 미지의 작업에 대해 교차 체현 기준선을 능가하며, 실제 로봇에서도 해당 방법을 시연합니다.
웹 에이전트는 긴 상호작용 시퀀스를 통해 작동하지만, 기존 벤치마크는 최종 성공만을 평가하여 모든 과정 정보를 버리고 개선에 대한 지침을 거의 제공하지 않는다. 본 연구에서는 웹 에이전트의 프로세스 수준 분석을 수행한다. 우리는 난이도가 통제되고 자동 의미론적 상태 추적이 가능한 1,800개의 작업 인스턴스로 구성된 벤치마크인 WebStep을 소개한다. 각 웹사이트는 GUI와 함께 결정론적 의미론적 MDP를 노출한다. 에이전트는 인터페이스에서 작동하고, 환경은 백그라운드에서 높은 수준의 상태와 전환을 기록하여 수동 주석 없이 세분화된 분석을 가능하게 한다. 의미론적 궤적을 기반으로, 먼저 프로세스 지표가 결과 평가로는 드러나지 않는 차이를 보여줌을 확인한다. 성공률이 31~33% 내에 군집하는 세 에이전트는 탐색 도달 범위와 실행 정확도에서 차이를 보인다. 다음으로, 기술별 분해는 이러한 차이의 성격을 특성화하며, 동일한 웹사이트 내에 숨겨진 상반된 기술별 순위를 드러낸다. 예를 들어, Housing에서 OpenAI CUA는 커밋 행동에서 Qwen3.5보다 23.7% 우수하지만 필터링에서는 15.6% 열등하여, 한 도메인 내에서도 개선해야 할 구체적인 기술을 정확히 지적한다. 분기 분석은 작업을 실패하게 하는 결정적 오류를 추가로 국소화하며, 이 오류가 공유된 것이 아니라 에이전트 특이적임을 보여준다. 마지막으로, 이러한 차이는 작업이 더 어려워짐에 따라 확대된다. 쉬운 작업에서는 성공률이 유사하지만, 탐색 요구가 증가함에 따라 급격히 분리된다. 우리의 프로세스 수준 분석은 웹 에이전트 평가에 새로운 경로를 열어, 각 에이전트가 어디서 어떻게 개선되어야 하는지에 대한 세분화되고 실행 가능한 통찰을 제공한다.
효율적이고 확장 가능한 에이전트 기반 지능을 구현하려면, 모델이 낮은 지연 시간의 응답과 강력한 추론 능력을 동시에 제공하면서도 학습, 서빙, 배포 측면에서 실용적이어야 합니다. 본 보고서에서 우리는 이러한 과제를 대규모로 해결하기 위해 설계된 모델군인 Ling-2.6과 Ring-2.6을 제시합니다. Ling-2.6은 즉각적인 응답 생성 및 출력 토큰당 높은 성능에 최적화된 반면, Ring-2.6은 더 깊은 추론과 고급 에이전트 워크플로에 특화되어 있습니다. 우리는 처음부터 학습하는 대신, 아키텍처 마이그레이션 사전 학습과 대규모 사후 학습을 통해 Ling-2.0 기본 모델을 업그레이드했습니다. 이 업그레이드는 모델 아키텍처, 최적화 목표, 서빙 시스템, 에이전트 학습 환경의 통합적 공동 설계에 따라 진행되어, 모델 성능과 배포 효율성 모두에서 개선을 가능하게 했습니다. 아키텍처 수준에서 우리는 Lightning Attention과 MLA를 통합한 하이브리드 선형 어텐션 설계를 도입하여, 긴 문맥 학습 및 디코딩의 효율성을 향상시켰습니다. 토큰 효율성을 더욱 높이기 위해, 우리는 진화적 사고 사슬(Evolutionary Chain-of-Thought), 언어 단위 정책 최적화(Linguistic Unit Policy Optimization), 양방향 선호도 정렬, 최단 정답 응답 증류(shortest-correct-response distillation)를 통해 출력 토큰당 성능을 최적화했습니다. 에이전트 능력 측면에서, 우리는 대규모 환경 기반 데이터에서 Ring-2.6-1T의 안정적인 학습을 지원하도록 설계된 강화 학습 프레임워크인 KPop을 제안합니다. KPop은 코딩, 검색, 도구 사용, 워크플로 실행 전반에 걸친 비동기 스케줄링을 통해 학습 효율성을 개선하여, 복잡한 에이전트-환경 상호작용으로부터 확장 가능한 학습을 가능하게 합니다. Ling-2.6과 Ring-2.6은 함께 효율적이고 확장 가능하며 개방형 에이전트 시스템을 위한 실용적인 경로를 제공합니다. 우리는 2.6군의 모든 체크포인트를 오픈소스로 공개하여, 실용적인 에이전트 기반 지능에 대한 추가 연구 개발을 지원합니다.
대규모 언어 모델(LLM)이 발전함에 따라, 사후 훈련 강화 학습(RL)은 포괄적인 능력을 배양하기 위해 점점 다차원 보상에 의존하고 있다. 이러한 변화는 다양하고 잠재적으로 경쟁하는 목표들을 동시에 최적화할 수 있는 새로운 알고리즘을 요구한다. 이에 대응하여, 기존 방법인 그룹 보상 분리 정책 최적화(GDPO)는 전체 점수를 독립적인 보상 그룹으로 분해한 후 각 그룹 내에서 RL 손실을 별도로 계산한다. 그러나 이 전략은 여전히 다중 보상 충돌 문제에 직면한다. 단일 롤아웃이 특정 보상 차원에서는 양의 이점을, 다른 차원에서는 음의 이점을 초래하여 집계 과정에서 상반된 신호가 서로 상쇄됨으로써 RL 훈련 효율성을 더욱 저해한다. 본 논문에서는 이점이 거의 없는 비효과적 롤아웃을 필터링하여 RL 훈련 효율성을 개선하는 동적 샘플링 정책 최적화(DAPO)에서 영감을 얻어, 그룹 동적 보상 분리 정책 최적화(GD²PO)를 제안한다. 구체적으로, GD²PO는 충돌 인식 필터링 메커니즘을 사용하여 보상 간 불일치가 심한 롤아웃을 마스킹한다. 이러한 마스킹 전략은 충돌하는 신호가 서로 상쇄되는 것을 방지함으로써 효과적인 RL 이점의 크기를 보존 및 강화하여 학습 효율성을 크게 가속화한다. 또한, 쿼리 수준 재가중치 부여를 도입하여 각 쿼리의 전반적인 보상 합의도에 따라 업데이트 강도를 동적으로 조정한다. 도구 호출 및 인간 선호 정렬을 포함한 다양한 다중 보상 시나리오에 대한 실험 결과, GD²PO가 기존 기준 방법들을 일관되고 유의미하게 능가함을 보여준다. 코드는 https://github.com/Qwen-Applications/GD2PO에서 확인할 수 있다.
저희는 총 5500억 개, 활성 파라미터 550억 개의 MoE(Mixture-of-Experts) 하이브리드 Mamba-Attention 언어 모델인 Nemotron 3 Ultra를 소개합니다. Nemotron 3 Ultra를 20조 개의 텍스트 토큰으로 사전 학습한 후, 컨텍스트 길이를 100만 토큰으로 확장하고, 지도 미세 조정(SFT), 강화 학습(RL), 다중 교사 온-정책 증류(MOPD)를 사용하여 후 학습을 진행했습니다. Nemotron 3 Ultra는 현재까지 가장 뛰어난 모델로, LatentMoE, 다중 토큰 예측(MTP), NVFP4 사전 학습, 다중 환경 RLVR, MOPD, 추론 예산 제어 등 여러 핵심 기술을 적용했습니다. Nemotron 3 Ultra는 공개적으로 이용 가능한 최첨단 LLM과 비교했을 때 최대 약 6배 높은 추론 처리량을 달성하면서도 동등한 정확도를 유지합니다. 최첨단 정확도, 높은 추론 처리량, 그리고 100만 토큰 컨텍스트 길이는 Nemotron 3 Ultra를 장시간 실행되는 자율 에이전트 작업에 이상적으로 만듭니다. 저희는 기본, 후 학습, 양자화된 체크포인트를 학습 데이터와 레시피와 함께 허깅페이스(HuggingFace)에 오픈소스로 공개합니다.
다중 턴 LLM 서비스는 대화 기록을 축적하며, 턴과 사용자가 증가할 때마다 Key-Value(KV) 캐시가 함께 증가하여 모델 가중치 자체를 빠르게 초과하고, 연산이 아닌 메모리가 처리량의 제약 조건이 됩니다. 어텐션 헤드 간에 서로 다른 예산을 할당하는 비균일 KV 압축은 균일 방식보다 정확도를 훨씬 잘 유지하지만, 실제로는 실용적이지 않습니다. 현대 서비스 스택은 모든 헤드에서 동일한 KV 길이를 가정하므로, 이질성은 해제된 메모리를 페이지 단편화로 가두고, 프리필 시간의 최대 25%를 흩어진 페이지 회수에 소비하며, GPU 워크로드를 왜곡하여 디코드 지연 시간을 최대 1.7배 증가시키거나 각 디코드 단계의 15~20%를 재계획에 소모합니다. 우리는 이러한 이질성이 런타임에 발견될 필요가 없음을 관찰합니다. 헤드별 유지는 두 가지 수준의 구조적 규칙성을 따릅니다. 즉, 입력에 불변하는 헤드 순위와 좁게 제한된 헤드별 비율로, 이는 최소 50개의 샘플만으로 오프라인에서 보정될 수 있습니다. 이 통찰을 바탕으로, 우리는 이전 시스템이 동적으로 처리하던 문제를 정적으로 해결하는 서비스 프레임워크인 Tangram을 제시합니다. Budget Reservation은 스케줄링 시점에 각 헤드의 압축 후 풋프린트를 고정하여 페이지 회수를 없애고, Ragged Paging은 유사한 예산을 가진 헤드들을 독립적인 페이지 테이블로 클러스터링하여 단편화를 회수 가능한 메모리로 전환하며, Ahead-of-Time Load Balancing은 런타임 계획 없이 균형 잡힌 GPU 파티션을 사전 계산합니다. vLLM에 구현된 Tangram은 기존 비균일 압축 방법을 위한 플러그인 기반으로 작동하여, 해당 방법의 정확도를 유지하면서 전체 KV 기준선 대비 종단 간 처리량을 최대 2.6배 향상시킵니다. 우리의 구현은 https://github.com/aiha-lab/TANGRAM에서 공개적으로 이용 가능합니다.
폰 에이전트는 단순히 다음 화면 동작을 예측하는 것을 넘어 실제 모바일 워크플로를 완료할 수 있을 것으로 점점 더 기대되고 있다. 그러나 현재의 모바일 에이전트 관련 문헌 대부분은 여전히 에이전트를 화면을 관찰하고 탭과 스와이프를 생성하며 대상 앱 상태에 따라 점수가 매겨지는 GUI 컨트롤러로 주로 평가하고 있다. 실제 폰 사용 작업은 이보다 더 광범위하다. 즉, 앱 GUI, 기기 측 명령어 또는 구조화된 도구를 언제 사용할지 결정해야 하며, 의도한 부수 효과가 실제로 발생했음을 입증하는 증거를 남겨야 한다. 우리는 검증 가능한 모바일 워크플로에서 폰 사용 에이전트를 연구하기 위한 혼합 행동 벤치마크 및 실행 하네스인 PhoneHarness를 소개한다. PhoneHarness는 GUI, CLI 및 호스트 측 도구 동작에 대해 기기 측 에이전트 루프를 실행하며, 결정적 동작 라우팅과 제한된 GUI 위임 및 감사 가능한 실행 추적을 결합한다. 해당 벤치마크인 PhoneHarness Bench는 에이전트가 그럴듯한 최종 답변을 생성하는지 여부뿐만 아니라 관찰 가능한 부수 효과를 가지고 작업을 완료하는지 평가한다. 주석이 달린 평가 분할에서 PhoneHarness는 75.0%의 통과율을 달성하여 가장 강력한 비PhoneHarness 설정보다 12.9% 포인트 우수한 성능을 보였다. 따라서 PhoneHarness와 PhoneHarness Bench는 별개이면서도 상호 의존적인 역할을 수행한다. 즉, 하네스는 혼합 폰 워크플로를 실행 가능하게 만들고, 벤치마크는 에이전트가 해당 하네스를 안정적이고 안전하게 사용할 수 있는지 측정한다. 우리의 발견은 안정적인 폰 자동화가 시각적 GUI 제어뿐만 아니라 동작 표면 라우팅과 검증 가능한 실행에 달려 있음을 시사한다.
통합 멀티모달 모델(UMM)은 이해와 생성을 단일 프레임워크로 통합하는 범용 멀티모달 지능의 중요한 방향으로 부상했다. 그러나 기존 UMM은 다음과 같은 두드러진 문제점에 직면한다: (1) 시각적 이해와 생성 작업 간의 본질적인 학습 충돌로 인해 두 작업 모두에서 차선의 모델링이 발생함; (2) 이해와 생성의 시각적 공간이 달라 확장성을 저해함; (3) 텍스트-이미지 이해와 생성의 이중성을 무시한 작업 특화 데이터에 대한 과도한 의존. 이러한 문제를 해결하기 위해 우리는 UniDDT를 제안한다. 이는 잡음 ViT 인코더와 LLM을 활용하여 시각적 생성 및 이해 작업을 위한 의미적 인코딩을 통합하고, 별도의 확산 디코더를 사용하여 확산 디코딩과 텍스트 디코딩을 분리한다. 이 잡음 ViT 인코더를 통해 UniDDT는 잠재 공간을 통합 시각 표현으로 활용하여 이해와 생성 작업 간의 원활한 호환성을 가능하게 한다. 따라서 생성 작업 내 확장성과 이해 작업 내 의미적 표현력 사이의 균형을 이룰 수 있다. 또한, 동일한 이미지-텍스트 쌍으로부터 이중 데이터 구조를 구축하여 생성 데이터와 이해 데이터 간의 상호 의존성을 촉진하고, 이들의 본질적 이중성을 활용한다. 광범위한 실험을 통해 UniDDT는 향상된 의미적 일관성과 확장성을 바탕으로 멀티모달 이해와 생성을 효과적으로 통합함을 입증한다. 시각적 생성 작업에서 UniDDT는 0.87의 GenEval 점수와 86.9의 DPG 종합 점수를 달성한다. 멀티모달 이해 작업에서는 MME 벤치마크에서 1699.5점, SEEDbench에서 76.5의 종합 점수를 달성한다.
우리는 비디오 임베딩을 위한 23개 작업 벤치마크인 MVEB(Massive Video Embedding Benchmark)을 소개한다. 이 벤치마크는 분류, 제로샷 분류, 클러스터링, 쌍 분류, 검색, 비디오 중심 질의응답을 포함한다. 33개의 모델을 평가한 결과, 단일 모델이 모든 영역을 지배하지는 않음을 발견했다: MLLM 기반 임베딩은 분류, 클러스터링, 쌍 분류, 질의응답에서 선두를 차지했으며, 멀티모달 바인딩은 검색 및 제로샷 분류에서 우수한 성능을 보였다. 대조 학습 없이 생성된 MLLM은 교차 모달 작업에서 성능이 급격히 저하되었다. 비디오 단독 대비 오디오+비디오 평가 결과, 오디오의 기여도는 데이터셋 주석 출처에 따라 달라졌다: 오디오는 두 모달리티로부터 레이블이 생성된 경우 성능을 향상시켰지만, 시각 정보만으로 레이블이 생성된 경우에는 성능을 저하시켰으며, 이 차이는 모델군 전반에 걸쳐 6% 포인트의 일관된 격차를 보였다. MVEB는 184개 작업 풀인 MVEB+에서 파생되었으며, 작업 다양성을 유지하면서 평가 비용을 줄이도록 설계되었다. 이는 MTEB 생태계에 통합되어 텍스트, 이미지, 오디오, 비디오에 걸친 통합 평가를 가능하게 한다. MVEB 및 184개 전체 작업을 코드 및 리더보드와 함께 https://github.com/embeddings-benchmark/mteb에서 공개한다.
사전 훈련된 VLA 정책을 온라인 강화학습을 통해 미세 조정할 때, 각 롤아웃 에피소드는 단일 이진 결과(성공 또는 실패)만을 생성하지만, 행동자 업데이트는 전이별 지도를 필요로 한다. 기존 접근법은 일반적으로 이러한 희소 결과를 단일 스칼라 보상 또는 이점 신호로 축소하는데, 이는 서로 다른 형태의 전이 수준 피드백을 혼동하고 기본적인 작업 성공이 달성 가능해진 후에는 제한적인 지침만 제공한다. 첫째, 단일 스칼라 신호는 생존 가능성과 효율성이라는 두 가지 목표를 혼동한다. 기본 성공이 달성되면 이진 레이블은 효율적인 완료와 느린 완료를 구별할 기울기를 제공하지 않는다. 둘째, 실제 롤아웃은 자율 구간과 개입 구간을 혼합한다. 이러한 경계를 넘어 에피소드 결과를 단순히 할당하면 잘못된 신용 할당이 발생한다. 이러한 문제를 해결하기 위해, 우리는 계층적 이점 가중 행동 복제(HABC)를 제안한다. 이 방법은 서로 다른 데이터 하위 집합에 대해 이 두 목표를 위한 별도의 비평가 헤드를 훈련하고, 상태 적응 균형으로 그 출력을 결합한다. 상태 적응 게이트 \( g_t \)는 이들의 단일 단계 이점을 병합하여 성공이 불확실할 때는 생존 가능성을 우선시하고 생존 가능성이 높을 때만 효율성으로 전환하며, 결과를 행동자 손실에 대한 전이별 가중치로 변환한다. 개입 인식 신용 할당은 결과 레이블을 현재 정책에 의해 실행된 구간으로 추가로 제한하여 개입 경계를 넘어 지도가 누출되는 것을 방지한다. 접촉이 많은 세 가지 양손 작업에 대한 실제 로봇 실험에서 HABC는 지도 미세 조정(SFT) 기준선의 36%, 44%, 12%에서 각각 92%, 88%, 38%로 성공률을 향상시킨다.
희소 오토인코더(SAE)는 신경망 표현을 해석하기 위해 널리 사용되지만, 그 유용성은 학습된 특징들이 훈련 실행 간에 재현 가능한지 여부에 달려 있다. 우리는 특징 안정성을 통해 이 문제를 연구한다. 각 SAE 특징에 대해, 독립적으로 훈련된 SAE에서 유사한 특징이 다시 나타날 확률을 추정한다. 이는 확장 가능한 특징별 신호를 제공하여 안정적인 특징과 불안정한 특징을 구분한다. 시드, 모델, 계층, 사전 크기 및 SAE 변형 전반에 걸친 대규모 연구에서 우리는 뚜렷한 기능적 비대칭을 발견한다. 안정적인 특징은 재구성 및 예측 관련 신호의 대부분을 전달하는 반면, 불안정한 특징은 미미한 한계 영향을 가지며 활성화 통계와 자동 설명 모두에서 저빈도 표면 형태 트리거가 지배적이다. 기하학적으로, 불안정한 특징은 개별적으로는 재현 불가능하지만 재현 가능한 저차원 부분공간에 집중되어 있으며, 이는 시드 의존성이 종종 순수한 잡음보다는 활성화 공간의 공유된 영역 내에서의 기저 모호성을 반영함을 시사한다. 통제된 합성 모델은 이 메커니즘을 명시적으로 보여주며, 저차원 실제 특징들이 부분공간 수준에서는 복구 가능하지만 개별 SAE 잠재 변수로서는 시드 간에 식별 불가능한 상태로 남을 수 있음을 입증한다. 마지막으로, 교차 시드 고유 특징들을 통합함으로써 이 설정에서 설명된 분산을 유지하면서 더 안정적인 SAE를 구성한다. 종합하면, 이러한 결과는 불안정한 특징이 단순히 실패했거나 잡음이 많은 잠재 변수가 아님을 보여준다. 즉, 이들은 개별적인 기능적 영향이 약하지만 표준 SAE가 시드 간에 다르게 해결하는 재현 가능한 저차원 구조를 반영한다.
AI의 발전은 주로 더 적은 가정을 하는 방법에 의해 주도되어 왔다. 계산 능력과 데이터가 증가함에 따라, 약한 귀납적 편향을 가진 접근법이 강한 가정을 가진 접근법보다 일반적으로 더 나은 성능을 보인다. 이는 특히 시각 표현 학습 분야의 특징인데, 해당 분야에서는 접근법이 지도 학습이 주를 이루던 시기에서 약지도 학습을 거쳐, 현재는 인간의 레이블 없이도 널리 성공을 거둔 자기지도 학습으로 발전해 왔다. 그러나 현대의 자기지도 학습 접근법조차도 증강, 마스킹, 크롭핑과 같은 강한 귀납적 편향에 여전히 의존하고 있다. 이러한 추세가 유지된다면, 이러한 남은 편향들조차도 규모가 커질수록 병목 현상이 될 것이다. 우리의 실험은 이를 확인해 주는데, 데이터가 증가함에 따라 귀납적 편향의 최적 강도는 감소한다. 이는 더 적은 가정에 의존하는 접근법에 대한 탐구를 촉진한다. 이러한 목적을 위해, 우리는 기존의 귀납적 편향을 피하고 대신 과거가 미래를 야기한다는 인과적 가정에 의존하는 비디오 기반 자기지도 학습의 새로운 패러다임인 시간차 비전 학습(TDV)을 소개한다. TDV는 이미지 인코더와 모션 인코더를 공동으로 훈련하여 현재 프레임의 표현과 인코딩된 모션의 합이 다음 프레임의 표현과 같아지도록 작동한다. 강한 귀납적 편향을 전혀 활용하지 않음에도 불구하고, TDV는 밀집 공간 작업에서 최첨단 방법론과 동등한 성능을 보여주며, 강한 가정 없이 표현 학습을 위한 기초를 마련한다.
기존 비디오를 새로운 카메라 시점에서 재렌더링하려면 출력 결과가 지정된 카메라 궤적을 따르면서 원본 장면의 외형과 역학을 모든 프레임에 걸쳐 보존해야 한다. 기존 방법들은 프레임별 포즈 임베딩, 잡음이 포함된 포인트 클라우드 렌더링, 또는 암시적 학습 대응 관계에 의존하며, 이들 중 어느 것도 소스 픽셀과 타깃 픽셀 사이의 명시적이고 시간적으로 연속적인 연결을 제공하지 못한다. 우리는 Track2View를 제안한다. 이 방법은 비디오 확산 트랜스포머를 쌍을 이룬 3D 포인트 트랙에 조건화한다: 소스 및 타깃 카메라 뷰 모두에 투영된 장면 포인트들의 희소 궤적이다. 이러한 트랙들은 구성상 시간적으로 연속적인 명시적 시공간 대응 관계를 제공하며, 어떤 콘텐츠가 언제 어디에 나타나야 하는지를 인코딩한다. Track2View의 핵심은 이중 뷰 트랙 조건화기로, 매개변수 없는 기하학적 연산과 학습된 시간적 집계를 통해 시각적 컨텍스트를 소스 뷰에서 타깃 뷰로 전달함으로써, 특정 움직임을 암기하지 않고 임의의 카메라 궤적에 대한 일반화를 보장한다. 또한, 우리는 시간적으로 연결된 멀티 카메라 뷰 쌍에 3D 포인트 트래커를 실행하여 일대일 트랙 대응 관계를 추출하는 데이터 큐레이션 파이프라인을 도입한다. 정적 및 동적 장면을 포함하는 400개 비디오 벤치마크에서 Track2View는 시각적 품질, 뷰 동기화 및 카메라 정확도 전반에 걸쳐 최첨단 결과를 달성하며, 주요 기준선 대비 회전 오차를 30-65%, 변위 오차를 61-72% 감소시킨다. 프로젝트 페이지는 다음 https URL에서 확인할 수 있다: https://qjizhi.github.io/track2view
고급 추론은 일반적으로 Chain-of-Thought 프롬프팅을 필요로 하며, 이는 정확하지만 과도한 지연 시간과 상당한 테스트 시간 추론 비용을 초래한다. 대안인 소형 모델의 미세 조정은 종종 해석 가능성을 희생하면서 상당한 리소스와 운영 오버헤드를 도입한다. 이러한 한계를 해결하기 위해, 우리는 프롬프트 수준 증류(PLD)를 도입한다. 우리는 교사 모델로부터 명시적 추론 패턴을 추출하여 학생 모델의 시스템 프롬프트에 대한 표현적 지침의 구조화된 목록으로 구성한다. Gemma-3 4B를 사용하여 평가한 결과, PLD는 StereoSet에서 매크로 F1 점수를 57%에서 90.0%로, Contract-NLI에서 67%에서 83%로 향상시켰으며, LogiQA 정확도를 70%로 증가시켰다. Mistral Small 3.1에서 유사한 결과는 교차 아키텍처 일반화 가능성을 입증하며, 이러한 소형 모델이 무시할 수 있는 지연 시간 오버헤드로 최첨단 성능에 도달할 수 있게 한다. 이러한 표현적 지침은 의사 결정 과정을 투명하게 만들어 논리에 대한 완전한 인간 검증을 가능하게 하므로, 이 접근 방식은 법률, 금융, 콘텐츠 조정과 같은 규제 산업뿐만 아니라 대량 사용 사례 및 엣지 디바이스에 이상적이다.
확산 트랜스포머는 뛰어난 생성 능력을 보여주었지만, 잡음 제거 궤적 전반에 걸쳐 계산된 풍부한 인지적 표현은 콘텐츠가 렌더링된 후 폐기된다. 본 논문에서는 MMDiff를 제안한다. 이 프레임워크는 고정된 확산 트랜스포머를 다중 모드 생성 시스템으로 변환하여, 가벼운 디코더 헤드를 통해 이미지와 함께 임의의 조밀한 인지 양식을 결합하여 공동으로 생성한다. 우리의 핵심 발견은 인지적 정보가 잡음 제거 궤적을 따라 시간적으로 분포되어 있으며, 공간적으로 변하는 집계 가중치를 사용한 다중 시간 단계 특징 융합이 필수적이라는 점이다. 이는 단일 시간 단계 추출에 비해 의미 분할 결과를 최대 28.7% mIoU까지 향상시킨다. 또한 해석 가능한 공간적 안내를 위해 개념 기반 어텐션 추출을 도입하였으며, 고정된 확산 특징이 DINOv3와 같은 최첨단 인코더와 경쟁력이 있을 뿐만 아니라 상호 보완적임을 보여준다. 고정된 백본에 대해 가벼운 디코더 헤드만 학습하여 의미 분할, 현저 객체 검출, 깊이 추정에서 강력한 성능을 달성하였으며, 이 프레임워크가 대규모 합성 데이터 생성을 효과적으로 가능하게 함을 입증한다.
AI 지수 보고서 제9판에 오신 것을 환영합니다. 인공지능이 급속도로 발전함에 따라, 이를 기반으로 구축된 시스템들이 따라잡을 수 있을지가 의문입니다. 인공지능의 영향을 추적하는 데 필요한 거버넌스 프레임워크, 평가 방법, 교육 시스템, 데이터 인프라는 기술 자체의 속도를 따라가는 데 어려움을 겪고 있습니다. 인공지능이 할 수 있는 것과 우리가 이를 관리할 준비가 되어 있는 정도 사이의 이러한 격차는 올해 보고서의 모든 장에 걸쳐 나타납니다. 이번 판의 새로운 점으로, 보고서는 인공지능이 추론, 안전성, 실제 작업 수행 전반에서 어떻게 더 야심차게 테스트되고 있는지, 그리고 이러한 측정이 점점 더 신뢰하기 어려운 이유를 추적합니다. 또한 생성형 인공지능의 경제적 가치에 대한 새로운 추정치와 함께 노동 시장 영향에 대한 새롭게 나타난 증거, 인공지능 주권에 관한 분석 프레임워크, 그리고 슈미트 사이언스(Schmidt Sciences)와 공동으로 개발한 과학 장(chapter)을 특징으로 합니다. 보고서는 처음으로 인공지능이 이 두 분야에서 미치는 영향력 증가를 반영하여, 과학 분야의 AI와 의학 분야의 AI에 관한 독립 장을 포함합니다.
편집 작업 하에서 일관된 비디오 생성을 위해서는 지속성이 필요하다. 편집이 장면의 외형이나 배치를 수정할 때, 이후 생성되는 결과물은 시간과 시점에 걸쳐 일관성을 유지해야 한다. 그러나 기존의 메모리 설계는 저장된 컨텍스트가 구식이 되거나 무효화될 수 있기 때문에, 이러한 수정 이후 장기적 일관성을 유지하는 데 어려움을 겪는다. 이 문제를 해결하기 위해, 우리는 공간적 컨텍스트를 의미론적 외형과 기하학적 구조로 분리하는 다중 모달 컨텍스트 메모리, 그리고 메모리 진화를 이후 관측과 일치시키는 편집 인지 메모리 업데이트 및 검색 전략을 기반으로 하는 새로운 프레임워크인 PermaVid를 제안한다. 구체적으로, 우리는 외형 인지 관측을 포착하면서 기하학을 암시적으로 인코딩하는 RGB 컨텍스트 메모리와, 의미론과 분리된 기하학 전용 구조를 보존하는 깊이 컨텍스트 메모리라는 상호 보완적인 두 개의 메모리 뱅크를 개발한다. 이 설계를 바탕으로, 혼합 모달 메모리 컨텍스트에서 추출된 참조 조건 하에 다중 모달 특징 융합을 수행하는 메모리 유도 비디오 생성 모델을 도입한다. 실험 결과, 우리의 방법은 편집 후에도 강력한 장기적 의미 및 구조적 일관성을 유지하며, 최첨단 방법들을 크게 능가함을 보여준다.
희소 보상 강화 학습(Sparse Reward Reinforcement Learning, RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 표준 도구가 되었으나, 그 성공은 기반 모델에 존재하는 적용 범위(coverage)에 결정적으로 의존한다. 실제로 모델은 종종 분해, 검증 또는 자기 수정과 같은 유용한 기본 기술을 가르치는 정제된 추론 흔적(curated reasoning traces)을 사용한 중간 훈련(mid-training)을 통해 RL에 대비된다. 이러한 전략은 효과적이지만, 모델이 무엇을 학습해야 하는지를 수동으로 지정해야 하며, 이러한 기본 적용 범위만으로는 이러한 기술들을 더 폭넓은 해결 전략으로 결합해야 하는 훨씬 더 어려운 문제에 충분한지 불분명하다. 우리는 더 자동화된 접근 방식, 즉 인간이 작성한 대규모 질문-답변 데이터 말뭉치를 사용한 RL 기반 중간 훈련을 연구한다. ExpRL이라는 우리의 방법은 참조 해답을 모방할 대상으로 취급하는 대신, 이를 보상 스캐폴드(reward scaffolds)로 사용한다. 즉, 참조 해답은 정책(policy)에 숨겨지고, 정책 내 추론 흔적을 평가하기 위한 문제별 채점 기준(rubrics)을 구성하는 데만 사용된다. 정책은 원래 문제 프롬프트에서 샘플링하며, LLM 평가자(judge)가 샘플링된 추론 흔적을 참조 해답과 비교하여 결과 수준(outcome-level) 또는 과정 수준(process-level)의 조밀 보상(dense rewards)을 할당한다. 이를 통해 ExpRL은 부분적 진전, 유용한 중간 축소, 그리고 희소한 최종 답변 보상이 종종 제대로 평가하지 못하는 생산적인 추론 행동을 강화할 수 있다. 어려운 수학 추론 과제에서 ExpRL은 SFT, 희소 보상 GRPO, 자기 증류(self-distillation)보다 더 강력한 RL 프라이밍(priming)을 제공하며, 이후의 희소 보상 RL을 위한 더 나은 초기화(initialization)를 제공한다. 추가적인 혼합 도메인 실험은 ExpRL이 기존의 수학 전용 설정을 넘어 확장될 수 있음을 시사한다.
대규모 언어 모델(LLM)은 생성형 추천(GR)의 백본으로 점차 채택되고 있으며, 사전 학습된 세계 지식에 대한 접근을 약속한다. 그러나 GR을 위해 이 지식을 신뢰성 있게 활용하는 방법은 여전히 잘 이해되지 않고 있다. 주요 장애물은 LLM 기반 GR이 일반적으로 의미론적 ID(SID)로 항목을 표현하는데, 이는 사전 학습 중에 LLM이 본 적 없는 토큰이기 때문에 LLM의 자연어 추론 인터페이스를 방해한다는 점이다. 기존 접근법은 SID를 정립하고 명시적 추론을 유도하는 값비싼 다단계 파이프라인으로 이를 해결하지만, 각 단계가 언제 그리고 왜 필요한지에 대한 통찰은 제한적으로 제공한다. 본 연구에서는 LLM 기반 GR을 위한 명시적 추론 훈련 파이프라인을 체계적으로 분해하여, 세 가지 주요 한계점, 즉 약화된 세계 지식 언어화, SID와 자연어 토큰 임베딩 공간 간의 정렬 불일치, 추론 품질에 대한 민감성을 밝혀내며, 이 모두가 명시적 추론 성능을 저해한다. 이러한 문제를 우회하기 위해, 우리는 GR에 특화된 경량 암시적 추론 패러다임인 PauseRec을 제안한다. PauseRec은 매우 실용적이며, 비용이 많이 드는 추론 과정 획득 및 추론 정렬 훈련을 피함으로써 다음과 같은 여러 이점을 제공한다: (1) 표준 명시적 CoT 방법보다 최대 6.22% 향상된 성능, (2) GPU 시간 기준 최대 65%의 훈련 비용 절감, (3) 최대 71.3%의 추론 속도 향상. 이러한 결과는 PauseRec을 명시적 추론 생성의 경량 대안으로 자리매김하게 하며, 더 효과적이고 효율적인 LLM 기반 GR을 가능하게 한다.
Vision-Language-Action 모델(VLA)은 의미론적 로봇 제어를 위해 대규모 시각-언어 사전학습을 활용하지만, 로봇 동작이 장면을 어떻게 변화시키는지에 대한 명시적인 예측 능력이 부족한 경우가 많다. World-Action Model(WAM)은 예측된 미래에 정책을 조건화함으로써 이러한 한계를 해결하지만, 기존 접근법은 일반적으로 상당한 픽셀 수준의 중복성을 가진 계산 비용이 많이 드는 비디오 생성에 의존한다. 본 논문에서는 재구성된 미래 비디오 대신 간결한 잠재 시각적 하위 목표를 통해 로봇 정책에 예측 역학을 제공하는 잠재 세계 행동 모델인 LaWAM을 제안한다. LaWAM의 핵심은 잠재 동작 조건화된 잠재 세계 모델(LaWM)이다. LaWM은 사전학습된 시각 기초 모델의 잠재 공간에서 잠재 동작 모델을 훈련하고, 그 순방향 디코더를 재활용하여 장면 진화를 위한 미래 관측 특징을 예측함으로써 얻는다. 그런 다음 LaWAM은 이러한 예측된 잠재 시각적 하위 목표에 동작 생성을 조건화하여 역학 인식 로봇 제어를 가능하게 한다. LaWAM은 LIBERO(98.6% 성공률), RoboTwin(91.22% 성공률) 및 실제 조작 작업에서 지연 시간이 짧은 추론을 유지하면서 최첨단 또는 경쟁력 있는 성공률(SR)을 달성한다. LaWAM은 동작 청크 예측당 187ms로 실행되며, 픽셀 공간 WAM보다 최대 24배 낮은 벽시계 지연 시간을 달성한다.
인간은 일상적인 상호작용을 통해 객체 물리를 자연스럽게 이해하지만, 탄성 재료나 직물과 같은 복잡한 변형 가능 동역학을 정확하게 예측하는 것은 컴퓨터 비전과 로봇 공학에서 여전히 주요 과제로 남아있다. 본 논문에서는 일반화 가능한 사전 지식을 활용하여 자기중심적 RGB 전용 비디오로부터 변형 가능한 물리적 디지털 트윈을 구축하는 프레임워크인 EgoPhys를 제안한다. EgoPhys는 객체별 역물리 해법을 간결한 코드북으로 증류하여, 보지 못한 객체에 대해 스프링별 테스트 시간 최적화 없이 조밀한 스프링 강성 필드 예측을 가능하게 함으로써, 기존 방법의 한계를 극복하고 자기중심적 비디오로부터 제어 가능한 변형 가능 디지털 트윈 생성을 가능하게 한다. 다양한 자기중심적 상호작용으로부터 얻은 일반화 가능한 사전 지식으로 훈련된 EgoPhys는 재구성, 미래 예측 및 제로샷 일반화에서 기준선보다 우수한 성능을 보인다. 훈련 및 평가를 지원하기 위해 다양한 변형 가능 객체, 장면 및 조작 스타일을 포함하는 자기중심적 상호작용 데이터셋을 구축한다. 실제 xArm6 로봇에 EgoPhys를 배포하여, 단일 자기중심적 인간 플레이 비디오로 초기화된 디지털 트윈이 변형 가능 객체 계획을 지원하는 내부 세계 표현으로 활용될 수 있음을 입증하며, 자기중심적 RGB 관찰이 실제 환경에서 시뮬레이션으로의 확장 가능한 경로임을 강조한다.
표준 정확도 벤치마크는 대규모 언어 모델(LLM)이 정답에 얼마나 근접하는지 테스트하기 위해 설계되었지만, 모델이 그럴듯한 반론에 의해 해당 답변이 도전받을 때 정답을 고수하는지 여부를 테스트하는 데는 적합하지 않습니다. 우리는 답변 안정성을 평가하기 위한 통제된 프로토콜을 소개합니다. 모델이 객관식 질문에 정답을 맞힌 후, 잘못된 선택지를 지지하는 일관된 논증으로 모델의 답변에 도전하고 모델이 답을 바꾸는지 측정합니다. 이 설정은 a) 논증 내용을 명백한 사회적 압력으로부터 분리하고, b) 논증 길이, 자기 귀인, 교차 모델 출처를 변화시킵니다. 7개의 최첨단 모델과 57개의 MMLU 주제에 걸쳐, 답변 전환율은 17.5%에서 97.3%까지 다양하며, 정확도 지표만으로는 포착되지 않는 안정성의 큰 차이를 드러냅니다. 우리는 자기 귀인이 일관되게 전환율을 증가시킨다는 것을 발견했습니다(평균 +7.1%p, 최대 +18.7%p). 또한, 여러 모델의 오답 논증을 풀링(pooling)하고 질문별로 가장 효과적인 논증을 선택하면 단일 출처 모델에 의존하는 것보다 더 강력한 적대적 도전 과제를 생성합니다. 우리는 추가로 표준 자기 생성 도전 과제에 비해 전환율을 최대 +23.6%p 증폭시키는 선별된 도전 세트인 MaxFlip을 구축합니다. 우리는 표준 정확도 벤치마크와 함께 안정성 평가를 지원하기 위해 프로토콜, 도전 기록, MaxFlip을 공개합니다. 자료는 https://github.com/nafisenik/WhoFlips 및 https://hf.co/datasets/nafisehNik/WhoFlips에서 확인할 수 있습니다.
콘텐츠 중재 시스템이 모든 표준 정확도 지표에서 우수한 점수를 받더라도, 그 오류가 분리된 커뮤니티를 연결하는 소수 사용자에게 집중될 경우 실제로 해를 끼칠 수 있다. 본 연구는 커뮤니티 구조화 네트워크 상에서 N=240개의 학습 에이전트가 각각 무해한 콘텐츠, 생산적인 콘텐츠, 또는 위험한 콘텐츠를 게시하고, 조정자가 잡음이 있는 분류기가 표시한 모든 콘텐츠를 제거하거나 처벌하는 에이전트 기반 모델을 통해 이를 입증한다. 잡음이 변화함에 따라 전반적인 유용성은 거의 변하지 않는다(일원분산분석, p=0.96). 총체적 측정치로는 아무 문제가 없어 보인다. 피해는 대신 이러한 브리지 사용자에게 집중되는데, 이들의 유용한 게시물은 잘못 억제되고 위험한 게시물은 잘못 면제된다. 집행 비용과 별도로 이 두 가지 오류를 각각 평가하는 거버넌스 손실(L_gov)은 거짓양성 중심의 잡음 하에서 두 배 이상 증가한다. 총체적 정확도는 누가 피해를 입는지 숨기며, 감사하기 쉬운 양적 지표는 사용자가 가진 연결 수(차수)로, 이는 브리지를 정의하는 매개 중심성에 대한 거의 완벽한 대리 변수 역할을 한다(r=0.96).
인간은 물체를 손쉽게 잡을 수 있지만, 다중 손가락 로봇은 이러한 일반성 수준에 크게 미치지 못한다. 우리는 로봇 파지 데이터의 가장 자연스러운 원천이 매일 수천 개의 물체를 집어 올리는 인간이라고 주장한다. 본 논문에서는 스테레오 카메라로 촬영한 단일 RGB-D 이미지에서 사용자가 지정한 모든 물체에 대해 다양한 인간 파지를 생성하는 흐름 정합 모델인 HUG를 제시한다. 먼저 스마트 안경을 사용하여 100만 개의 프레임(27.8시간)과 41개 건물에 걸친 6,707개의 물체 인스턴스를 포함하는 자기중심적 인간 파지 데이터셋인 1M-HUGs를 수집한다. 다음으로 자연스러운 인간 파지의 분포를 모델링하기 위해, 우리의 새로운 흐름 정합 모델은 RGB와 깊이 관측을 융합하여 손목 병진, 손목 회전, MANO 손 자세로 매개변수화된 파지를 출력한다. 예측된 파지는 다양한 로봇 손으로 재타겟팅될 수 있어 일상적인 장면에서 제로샷 파지를 가능하게 한다. 평가를 표준화하기 위해, 다섯 가지 기하학적 범주와 다양한 크기에 속하는 90개의 미지 물체에 대한 메트릭 스케일의 3D 메시를 포함하는 새로운 시뮬레이션 벤치마크인 HUG-Bench를 구축한다. 우리는 HUG를 실제 세계에서 HUG-Bench의 30개 물체 테스트 세트에 대해 여러 스테레오 카메라, 로봇 구현체 및 가정 환경에서 평가한다. HUG는 어려운 물체 세트에서 최첨단 파지 기준선 대비 각각 +23% 및 +34% 더 뛰어난 성능을 보인다. 코드, 데이터, 벤치마크, 체크포인트 및 대화형 데모는 웹사이트(https://grasping.io/)에 공개되어 있다.
Polymarket은 저명한 예측 시장 플랫폼이자 DeFi에서 가장 빠르게 성장하는 애플리케이션 중 하나로 부상했다. 저지연 거래를 달성하기 위해 Polymarket은 주문을 오프체인에서 매칭하지만 최종 실행을 위해 온체인에서 정산하는 하이브리드 아키텍처를 채택한다. 이 설계는 우리가 Ghost Fills라고 명명한 일관성 격차를 발생시킨다. 즉, 오프체인에서 성공적으로 매칭된 주문이 온체인 정산 중에 실패할 수 있다. 이러한 격차의 보안 영향을 이해하기 위해 우리는 GHOSTHUNTER를 구축하여 온체인 추적에서 실패한 정산을 재구성하고 구체적인 공격 패턴에 귀속시킴으로써 이러한 실패 사례를 조사했다. 1,952,440건의 취소된 매치-오더 트랜잭션을 분석한 결과, 공격자들은 매칭과 정산 사이의 시간 차이를 악용하여 이미 매칭된 주문이 온체인에서 최종 확정되기 전에 무효화하는 것으로 나타났다. 이후 우리는 이 사건들로부터 논스 범프, 잔액 고갈, 승인 취소, 프록시 트랩이라는 네 가지 공격 벡터를 식별했으며, 이들은 35개의 진화하는 변종을 통해 실현되었다. 이러한 공격 벡터를 통해 공격자들은 980,133건의 체결된 주문을 선택적으로 취소할 수 있었으며, 이를 통해 무위험 예측, 차익거래 봇 헌팅, 유동성 보상 조작이 가능해져 최소 149만 달러의 이익을 창출했고, 이는 17.8억 달러의 자금을 위험에 빠뜨리며 운영자가 217만 POL(약 21.2만 달러)을 지불하게 했다. 피크 시간대에는 전체 체결 주문의 24.3% 이상이 취소되어 사실상의 DoS 공격이 발생했다. 또한 결함이 있는 컨트랙트에서 파생된 코드가 여전히 10개 체인의 167개 독립 컨트랙트에 존재하며, 이들 컨트랙트는 최소 2,300만 달러의 사용자 자금을 보유하고 있어 Polymarket을 넘어 영향이 확장되고 있음을 발견했다. 우리는 영향을 받은 당사자들에게 증거를 공개했으며, 해당 문제는 부분적으로 완화되었다.
TuneJury를 소개합니다. 이는 텍스트-음악 변환을 위한 공개적이고 인스턴스 수준의 쌍별 보상 모델로, 텍스트 프롬프트와 오디오 클립으로부터 음악 선호도 점수를 예측합니다. 공개된 체크포인트는 공개적으로 이용 가능한 인간 선호 레이블을 기반으로 훈련되었으며, 이는 아레나 스타일(A vs. B) 투표, 메트릭 정렬 선호도 쌍, 크라우드소싱 쌍별 비교, 전문가 심미적 평가를 포함합니다. 두 클립 간의 예측 점수 차이는 보유한 테스트 분할에서 잘 보정되어, 간단한 점수 임계값을 통한 데이터 필터링을 지원합니다. TuneJury는 보유 테스트 쌍과 분포 외 벤치마크 모두에 일반화되며, 후자에서는 기존 기준선과 경쟁력을 유지합니다. 훈련 이후 출시된 생성기의 경우, 앵커 보정(anchor calibration)이라는 사후적, 시스템별 Bradley-Terry 보정을 도입하여, 처음부터 재훈련하는 것보다 훨씬 우수한 데이터 효율성으로 일치도를 회복합니다. 동일한 고정 보상 모델은 추론 시 최고-N 선택(Best-of-N), DITTO 스타일 잠재 최적화, 전문가 반복 사후 훈련 등 세 가지 하위 응용 분야에서 일관된 보상 축 성능 향상을 주도합니다. TuneJury는 https://github.com/yonghyunk1m/TuneJury에서 확인할 수 있습니다.
기계 텍스트 탐지기의 개발이 상당한 진전을 이루었음에도 불구하고, 탐지를 회피하기 위해 기계 텍스트를 조작하는 것이 용이하다는 점은 이 문제가 본질적으로 다루기 어렵다는 제기로 이어졌다. 본 연구에서는 이러한 회피 전략의 한계를 조사한다. 우리는 프롬프트 엔지니어링에서 탐지기 기반 최적화에 이르기까지 현재의 공격이 표준 탐지기의 성능을 효과적으로 저하시킬 수 있지만, 기계 텍스트의 근본적인 문체적 '지문'을 지우지는 못함을 입증한다. 문체적 특징 공간을 활용하는 퓨샷 탐지기는 이러한 회피 시도에 강건하며, 탐지를 방지하도록 명시적으로 조정된 모델의 샘플조차도 신뢰성 있게 탐지함을 보여준다. 이는 다음과 같은 질문을 제기한다: 문체가 기계 탐지 공격에 대한 보편적 방어책을 제공하는가? 우리는 탐지 불가능성과 특정 인간 문체에 대한 준수를 동시에 최적화하는 새로운 의역 접근법을 도입함으로써 그 답이 '아니오'임을 입증한다. 이 공격은 기존 방법과 달리 문체를 활용하는 탐지기를 포함한 모든 고려된 탐지기를 효과적으로 회피함을 보여준다. 그러나 이러한 회피가 절대적이지는 않음을 발견한다: 분석 가능한 문서의 수가 증가함에 따라 인간과 기계 분포는 다시 구별 가능해진다. 전반적으로 본 연구의 결과는 신뢰할 수 있는 기계 텍스트 탐지를 위해서는 단일 문서 분석을 넘어 다중 문서 분석으로 나아가야 함을 시사한다.