번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 기반 모델을 폐쇄 루프 정책으로 배포할 때, 더 이상 가시적이지 않은 관측값을 기반으로 행동을 조건화해야 하는 필요성이 점점 증가하고 있다. 그러나 기존 벤치마크는 전체 상태를 노출하거나, 은닉 상태 재구성을 다른 에이전트 기술과 혼동하거나, 에피소드 종료 후에만 기억 회상을 테스트하는 등의 문제를 안고 있다. 본 논문에서는 과거 관측값을 재구성하고 다단계 상호작용 중에 이를 바탕으로 행동하는 기반 모델의 능력을 분리하여 평가하도록 설계된 벤치마크 모음인 RNG-Bench(Reconstructive Non-Markov Games)를 소개한다. RNG-Bench는 상호 보완적인 두 가지 게임으로 구성된다. 짝 맞추기(Matching Pairs)는 특정 위치에 잠시 공개된 카드의 정체를 나중에 기억해야 하는 게임이며, 3D 미로(3D Maze)는 자아 중심 시점을 공간 지도로 통합해야 하는 게임이다. 두 게임 모두 그리드 크기, 시각 패턴, 관측 양식이라는 세 가지 통제된 난이도 축을 갖춘 통합된 평가 프레임워크에서 평가된다. 또한 이 벤치마크는 인스턴스 수준의 변동성을 통제하기 위한 1대1 결투 프로토콜과, 망각을 잘못된 행동 선택으로부터 분리하는 기억 격차 지표(Memory Gap metric)를 도입한다. 가장 어려운 설정은 에피소드당 약 128K 토큰과 350개의 이미지 입력을 요구하며, 최첨단 MLLM(멀티모달 대규모 언어 모델)으로도 아직 포화 상태에 이르지 못했다. 기억 격차 분석에 따르면, 대부분의 잔여 오류는 차선의 의사 결정보다는 초기 관측값을 망각하는 데서 비롯된다. 마지막으로, 최적 정책 롤아웃과 필터링된 모델 시연을 통해 Qwen3.5-9B를 미세 조정한 결과, RNG-Bench에서 성능이 향상되었으며, 일반적인 멀티모달 능력을 저하시키지 않으면서 기존 벤치마크로 전이되는 성능을 보였다.
움직임 예측은 시각 지능의 핵심이다: 에이전트는 행동을 계획하고, 물리적 상호작용을 추론하며, 현실적인 미래를 합성하기 위해 객체가 어떻게 움직일지 예상해야 한다. 우리는 세계 좌표계의 3D 포인트가 클래스에 구애받지 않고, 시점에 안정적이며, 간결하고, 하위 작업에 직접적으로 유용한 일반적인 표현을 제공한다고 주장한다. 우리는 목표 조건부 3D 포인트 움직임 예측 작업을 공식화한다: 짧은 시각적 이력, 관심 객체의 3D 쿼리 포인트 집합, 그리고 의도된 목표에 대한 언어 설명이 주어지면 모델은 각 포인트의 미래 3D 궤적을 예측한다. 우리는 이 작업을 대규모로 연구하기 위한 전체 스택을 소개한다: (1) MolmoMotion-1M은 116만 개의 제약 없는 비디오에서 주석이 달린, 행동으로 설명되고 객체에 기반한 3D 포인트 궤적의 대규모 코퍼스이다; (2) PointMotionBench는 111개 객체 범주와 61개 움직임 유형에 걸친 인간 검증 벤치마크이다; (3) MolmoMotion은 자기회귀 좌표 예측과 흐름 매칭 기반 궤적 생성을 모두 지원하는 일반 움직임 예측 모델이다. MolmoMotion은 다양한 언어 명령으로 다양한 움직임 패턴을 정확하게 예측하며, PointMotionBench에서 기존 움직임 예측 기준선을 크게 능가한다. 마지막으로, 학습된 3D 움직임 사전이 하위 응용 프로그램에 잘 전이됨을 보여준다: 이는 로봇 조작을 위한 훈련 효율성과 일반화를 향상시키며, 예측된 궤적은 생성 모델이 더 현실적인 객체 움직임으로 비디오를 합성하도록 효과적인 움직임 안내를 제공한다.
세계 모델은 수동적 시각 생성기에서 물리적 AI를 위한 기초적이고 운영 가능한 인프라로 전환 중이다. 이는 이질적 경험으로부터 세계 지식을 본질적으로 획득하고, 장기적 지평에 걸쳐 지속적인 상태를 유지하며, 실제 배포 제약 조건 내에서 효율적으로 실행되어야 한다. 우리는 이러한 요구사항을 중심으로 설계된 네이티브 세계 모델 스택인 Kairos를 소개한다. (1) Kairos는 교차 구현 데이터 커리큘럼에 의해 규율되는 네이티브 사전 학습 패러다임을 개척하여 세계를 학습한다. 이는 오픈월드 비디오, 인간 행동 데이터, 로봇 상호작용을 점진적 발달 경로로 조직화한다. (2) Kairos는 하이브리드 선형 시간 어텐션을 갖춘 네이티브 통합 아키텍처 내에서 통합된 세계 이해, 생성, 예측을 통해 세계를 유지한다. 여기서 슬라이딩 윈도 어텐션은 국소적 동역학을 포착하고, 확장된 슬라이딩 윈도는 중간 범위 의존성을 포착하며, 게이트 선형 어텐션은 지속적인 전역 메모리를 유지한다. 우리는 이러한 시간적 인수분해가 오류 누적을 엄격히 제한함을 증명하는 형식적 이론적 한계를 설정하며, 확장된 지평에 걸친 상태 전파를 수학적으로 보장한다. (3) Kairos는 실제 관찰-행동-피드백 루프에 대해 서버 및 소비자급 하드웨어에서 저지연 롤아웃 생성을 지원하는 배포 인식 시스템 공동 설계를 통합하여 세계를 실행한다. 체화된 세계 모델, 장기 지평, 행동 정책 벤치마크에 대한 실험은 Kairos가 강력한 효율성-능력 절충을 제공하면서 최고 수준의 성능을 달성함을 보여준다. 종합적으로, 이러한 결과는 Kairos를 미래의 자기 진화적 물리적 지능을 위한 통합된 운영 기반으로 자리매김한다.
대규모 시각-언어 데이터로 학습된 언어 모델은 체화된 에이전트에 대한 강력한 잠재력을 입증해 왔다. 체화된 도구 사용을 통한 모델 활용은 고수준 추론과 지각, 계획, 제어를 위한 외부 모듈을 결합함으로써 종단간 시각-언어-행동 시스템에 대한 유망한 대안을 제공한다. 하지만 체화된 조작을 위한 효과적인 하네스가 무엇인지, 그리고 그러한 하네스가 다양한 추론 모델에서 체화된 능력을 어느 정도까지 이끌어낼 수 있는지는 여전히 불명확하다. 본 연구에서는 에이전트 워크플로우, 행동 공간, 관찰 공간의 설계 공간을 체계적으로 탐색하여 개발된 체화된 도구 사용을 위한 하네스 프레임워크인 Guava를 제시한다. 본 연구는 효과적인 체화된 에이전트를 위한 세 가지 핵심 요소, 즉 반복적 지각-추론-행동 루프, 의미론적 행동 추상화, 다중 양식 관찰을 식별한다. 이러한 설계 원칙이 소규모 모델에도 보편적인지 이해하기 위해, 전적으로 시뮬레이션에서 수집된 2K 미만의 궤적을 사용하여 체화된 조작 능력을 4B 오픈소스 모델에 증류하는 종단간 훈련 파이프라인을 개발한다. 시뮬레이션과 실제 환경 모두에서의 실험 결과는 최첨단 독점 모델에 필적하는 성능을 보여주면서, 보지 못한 객체, 새로운 명령, 장기 과제에 대한 강력한 일반화 능력을 나타낸다. 결과는 잘 설계된 하네스가 체화된 조작을 위한 확장 가능하고 모델에 구애받지 않는 인터페이스 역할을 하여, 최소한의 훈련 데이터로 컴팩트한 오픈소스 모델에서 강력한 창발적 체화 능력을 가능하게 함을 시사한다.
점수- 및 흐름-정합 모델은 종종 선호 기반 강화 학습에 의존하는데, 이는 두 가지 목적을 위해 사용됩니다: 주관적 선호도와의 정렬, 그리고 놀랍게도 정합 기반 훈련이 데이터 자체로부터 학습하도록 의도된 시각적 사실성 및 일관된 객체 구조와 같은 속성의 회복입니다. 우리는 이것이 구조적 부정합을 반영한다고 주장합니다. 정합 손실은 훈련 시간 주변 분포 하에서 속도 또는 점수 필드에 대한 L2 회귀 오차를 측정하며, 이는 추론 시 샘플 품질을 결정하는 시각적 및 의미적 속성과 잘 정렬되지 않은 대리 지표입니다. 이러한 속성과 정렬된 보상이 주어지면, 강화 학습은 모델을 자체 샘플에서 평가하고 보상 랜드스케이프를 직접 따름으로써 부정합을 우회합니다. 문제는 비용이 많이 들고 데이터 사실성과 주석자의 성향을 혼동하는 인간의 선호에 의존하지 않고 그러한 보상을 얻는 데 있습니다. 우리는 판별기-유도 강화 학습(DRL)을 제안합니다. DRL은 사전 훈련된 표현 공간에서 데이터와 기본 모델 샘플을 분리하도록 판별기를 훈련시키고, 그 로짓을 KL-정규화 강화 학습의 보상으로 사용합니다. 사전 훈련된 공간은 판별기를 지각적으로 의미 있는 방향으로 제한하며, 로짓은 데이터와 모델 간의 로그-우도 비율을 추정하는데, 이는 데이터 분포를 목표로 하는 최적의 보상입니다. SiT, JiT, REPA 및 RAE 전반에 걸쳐 DRL은 가이던스 없는 FID(예: SiT에서 9.38에서 2.62로)와 의미 공간 FD(예: SiT의 DINOv3에서 88.2에서 19.3으로)를 감소시키고, 모든 백본에서 일관된 개선을 보이며, 인간 선호 보상에 대해 훈련하지 않고도 이를 향상시킵니다. 또한 후속 선호 기반 사후 훈련에서 선호 보상과 이미지 충실도 간의 더 나은 파레토 프론티어를 제공하여, 과포화 및 과도한 밝기와 같은 저수준 아티팩트를 줄이면서 정렬을 증가시킵니다.
강화학습(RL)은 대규모 언어 모델(LLM)을 위한 대표적인 사후 훈련 패러다임으로 자리 잡아, 강력한 추론 및 에이전트 능력을 가능하게 한다. 그러나 롤아웃 생성은 여전히 주요 지연 시간 병목으로 남아 있는데, 이는 자기회귀적 샘플링이 응답을 순차적으로 디코딩하고, 소수의 긴 꼬리 생성이 완료 시간을 결정하기 때문이다. 추측적 디코딩(SD)은 이러한 병목을 해결하는 자연스러운 방법을 제공한다. 이는 고정된 LLM을 서빙하기 위해 잘 정립된 기법으로, 토큰을 신속하게 초안 작성하고 병렬 검증을 통해 이를 수용함으로써 지연 시간을 줄이면서도 대상 모델 분포를 보존한다. 그러나 실질적인 속도 향상이 RL 롤아웃에 직접적으로 이어지지는 않는다: (i) 진화하는 대상 정책으로 인해 고정된 초안 생성기(드래프터)가 정책의 출력 분포와 점점 더 불일치하게 되고; (ii) 롤아웃 디코딩 과정에서 활성 배치 크기가 줄어들어 디코딩이 계산 바운드 영역에서 메모리 바운드 영역으로 전환되며, 이때 병렬 검증이 활용도가 낮은 계산 자원을 이용할 수 있다. 따라서 RL 롤아웃을 가속화하려면 진화하는 정책의 길고 높은 온도의 생성에서도 효과적인 초안 생성기와, 계산 바운드 영역을 피하는 시스템 인식형 SD 사용이 모두 필요하다. 본 논문에서는 이러한 격차를 해소하기 위해 설계된 시스템 인식형 자기 추측적 디코딩 프레임워크인 EfficientRollout을 제시한다. EfficientRollout은 대상 모델로부터 양자화된 초안 생성기를 유도(자기 추측적 디코딩)하여, 별도의 초안 생성기 사전 훈련이나 온라인 적응 없이도 진화하는 정책과 결합된 상태를 유지한다. 또한 수용 인식형 초안 길이 적응과 결합된 시스템 인식형 SD 전환 정책을 조정하여, 유리한 영역에서만 추측을 수행하고 초안 작성 예산을 진화하는 초안 생성기 품질에 맞춘다. EfficientRollout은 가속화된 자기회귀(AR) 롤아웃 기준선 대비 롤아웃 지연 시간을 최대 19.6%, 종단 간 지연 시간을 최대 12.7% 줄이면서도 최종 모델 품질을 유지한다.
희소 오토인코더(Sparse Autoencoders, SAEs)는 잔차 스트림 활성화를 해석 가능한 특징으로 분해한다. 최근 잠재 공간 방어는 이러한 분해에 점점 더 의존하며, 식별된 "안전하지 않은" SAE 특징이 모니터링 및 개입을 위한 실행 가능한 핸들 역할을 한다고 가정한다. 이러한 패러다임에서 특정 유해 특징을 고정(clamping)하면 모델의 오작동을 안정적으로 방지할 것으로 기대된다. 그러나 우리는 이러한 성공이 회복 가능한 실패 모드를 숨길 수 있음을 보여준다: 고정은 행동 자체를 제거하지 않으면서 행동으로 가는 하나의 가시적 경로를 차단할 수 있다. 우리는 이 취약점을 개입 후 회복(post-intervention recovery), 즉 제약된 잔차 공간 최적화 문제로 정식화한다. 개입 후 잔차 상태에서 시작하여, 우리는 잔차 섭동을 최적화하여 목표로 하는 SAE 특징의 개입 후 값을 유지하면서 개입 전 행동을 회복시킨다. 개입이 최적화 및 생성 전반에 걸쳐 활성 상태로 유지되는 강력한 위협 모델 하에서도 회복은 여전히 가능하다. 회복이 단순히 개입을 취소하는 것이 아님을 배제하기 위해, 단일 계층 개입에는 인코더 직교 업데이트를, 교차 계층 설정에는 해당 특징 맵 야코비안을 사용한다. TPP, 언러닝, IOI 및 거부 조종 실험 전반에 걸쳐, 이 스트레스 테스트는 특징 수준 개입이 성공했음에도 불구하고 회복 가능한 행동을 드러낸다. 특히 안전에 중요한 거부 조종 설정에서는 유효 샘플에 대해 95.8%의 회복률을 달성하면서 방어된 특징의 상대 드리프트를 0.131로 유지하여, 접미사 기반 기준선보다 현저히 낮은 수준을 보였다. 회복 경로 기여도 분석을 통해 이 회복을 SAE 재구성 잔차, 즉 SAE가 설명하지 못한 구성 요소에 국한시킨다. 이러한 결과는 특징 수준 제어와 행동 완전성 사이의 간극을 드러낸다: SAE 특징은 인과적 개입을 지원할 수 있지만, 이를 제어한다고 해서 기저 행동에 대한 제어가 보장되지는 않는다.
대규모 언어 모델(LLM) 훈련을 위한 강화 학습 파이프라인은 종종 단계 간 환경을 수동으로 재설계해야 하며, 실무자는 어떤 구성이 현재 정책을 가장 효과적으로 개선할지 경험적으로 추론해야 한다. 이러한 과정을 자동화하기 위해, 우리는 현재 정책 모델이 실패 궤적을 맥락 정보와 함께 분석하고 다음 단계 훈련 환경 구성을 제안하는 LLM-as-Environment-Engineer 프레임워크를 제안한다. 또한 다차원 환경 구성을 노출하는 생성기를 갖춘 제어 가능한 테스트베드인 MAPF-FrozenLake를 소개하며, 이는 환경 재설계 연구 및 벤치마킹에 적합하다. 이 테스트베드에서 우리는 환경 엔지니어를 정책 행동, 실패 사례 및 환경 통계에 대한 구조화된 요약에 조건화하여, 이로부터 다음 훈련 단계의 구성을 도출한다. Qwen3-4B를 백본으로 사용한 우리의 프레임워크는 벤치마크에서 가장 강력한 종합 성능을 달성했으며, 더 큰 독점적 LLM(예: GPT, Gemini) 및 고정 환경 훈련 기준선을 능가했다. 또한 어떤 형태의 맥락이 가장 효과적인지 분석한 결과, 성공적인 환경 업데이트는 실패 증거에 의존하며 이미 작동하는 구성을 유지한다는 점을 발견했다. 흥미롭게도, 현재 RL 체크포인트는 원래 기본 모델보다 더 나은 환경 엔지니어 역할을 수행했으며, 이는 정책 학습이 모델의 남은 약점을 진단하는 능력을 향상시킴을 시사한다.
공간 VLM은 기하학적 인식에서 상당한 진전을 이루었지만, 깊이, 거리, 장면 관계에 대한 다단계 추론을 필요로 하는 복잡한 공간 추론은 여전히 어려움을 겪고 있다. 또한, 서로 다른 공간 질의는 근본적으로 다른 전략을 요구한다. 일부는 순수 언어적 단계별 추론을 통해 가장 잘 처리되는 반면, 다른 것들은 정량적 추론 전에 명시적인 3D 접지(grounding)가 필요하다. 우리는 공간 VLM을 위한 강화학습 기반 이중 경로 공간 추론(SR-REAL)을 제시한다. 이는 공간 VLM에 두 가지 상호 보완적인 추론 경로를 제공하는 통합 프레임워크이다: 단계별 언어적 추론을 수행하는 언어 전용 추론(LOR)과 명시적 기하학적 추론 전에 영역 토큰을 통해 3D 기하학적 단서(예: 중심점 또는 경계 상자)를 감지하는 감지 후 추론(DTR)이다. SR-REAL은 LOR과 DTR의 사고 연쇄(chain-of-thought) 지도 학습을 구성하고 영역-3D 인터페이스를 노출하는 콜드 스타트 지도 미세 조정 단계로 시작하며, 이후 정확도 및 형식 보상을 통해 정책 모델을 최적화하는 강화학습(RL)이 이어진다. DTR의 경우, 이산적 중심 기반 감지 보상이 기하학적 정렬을 더욱 세분화한다. 다양한 공간 벤치마크에서 SR-REAL은 공간 VLM 기준선을 크게 능가한다: (i) 단일 RL 훈련 모델이 두 추론 경로를 모두 지원하며, DTR은 정밀한 3D 위치 파악을 통해 영역 인식 작업에서 우수하고 LOR은 일반 공간 추론을 향상시킨다; (ii) 두 경로를 함께 훈련하면 상호 강화를 촉진한다; (iii) 고품질의 혼합된 콜드 스타트 데이터가 안정적인 RL 최적화에 중요하다; (iv) 모델은 작업별 조정 없이 데이터셋과 도메인 전반에 걸쳐 일반화되며, LOR과 DTR 간의 긍정적 전이를 보여준다.
그래픽 사용자 인터페이스(GUI) 접지는 시각-언어 모델(VLM)이 고해상도 스크린샷 내의 작은 대상 요소를 식별하고 정확한 화면 좌표를 예측하도록 요구한다. 온-정책 자기 증류(OPSD)는 이러한 좌표에 민감한 작업을 위한 유망한 사후 훈련 접근법인데, 이는 하드 좌표 레이블을 넘어서는 조밀한 토큰 수준 교사 신호를 제공하기 때문이다. 그러나 순진한 OPSD는 GUI 접지에 잘 적응하지 못한다: OPSD는 교사를 학생 생성 접두사에 대해 평가하는데, 접두사가 대상 좌표에서 이미 벗어난 경우 좌표 토큰 교사 신호의 품질이 저하되어 신뢰할 수 없는 교사 신호로 이어질 수 있다. 이를 완화하기 위해, 우리는 VLM 기반 GUI 접지를 위한 품질 인식 자기 증류를 제안하며, 이는 소프트 정확도 인식 게이팅과 교사 확률 스케일링을 통해 좌표 토큰 교사 신호 품질을 개선한다. 소프트 정확도 인식 게이트는 학생 생성 접두사 하에서 교사의 현재 좌표 토큰 예측이 여전히 정답 상자로 완성될 수 있는지 확인한다. 그렇지 않은 경우, 해당 교사 신호의 가중치가 하향 조정된다. 이후 교사 확률 스케일링은 교사의 신뢰도를 경량 요소로 사용하여 게이팅된 감독의 강도를 추가로 보정한다. 핵심 실험적 발견은 두 구성 요소 중 어느 하나만으로는 전반적 성능이 개선되지 않는 반면, 이들을 결합하면 일관되게 성능이 향상된다는 점이다. 이는 두 메커니즘이 상호 보완적 역할을 수행함을 시사한다: 정확도 인식 게이팅은 신뢰할 수 없는 좌표 토큰 감독을 억제하고, 교사 확률 스케일링은 남은 신호의 강도를 보정한다. 여섯 개의 GUI 접지 벤치마크에 걸친 실험은 우리 방법이 기본 모델을 일관되게 개선하고 강력한 기준선을 능가함을 보여준다.
긴 비디오 이해를 위한 수동 모델은 일반적으로 '전체 시청(Watch-It-All)' 패러다임에 의존하여 질문 난이도와 관계없이 프레임을 균일하게 처리하므로 계산 비용이 비디오 길이에 따라 증가합니다. 대화형 프레임워크가 등장했지만, 이들은 종종 전역 사전 스캐닝에 의존하며 컨텍스트 비용이 여전히 비디오 길이에 비례하여 확장됩니다. 본 논문에서는 비디오 이해를 POMDP 기반의 반복적 관찰-사고-행동(Observation-Thought-Action) 주기로 정식화한 최초의 네이티브 옴니모달 에이전트인 OmniAgent를 제안합니다. OmniAgent는 요청 기반 행동을 실행하여 시청각 단서를 선택적으로 지속적 텍스트 메모리로 추출함으로써 추론 복잡성을 원시 비디오 길이로부터 효과적으로 분리합니다. 이를 구현하기 위해 (1) 이중 단계 품질 관리를 통한 최상의 N 궤적 합성으로 네이티브 능동 지각을 부트스트래핑하는 에이전트 기반 지도 미세 조정(Agentic Supervised Fine-Tuning)과 (2) 턴 수준 엔트로피를 활용하여 중요한 발견 턴으로 신용 할당을 유도하는 TAURA(턴 인지 적응형 불확실성 재조정 이득, Turn-aware Adaptive Uncertainty Rescaled Advantage)를 통한 에이전트 기반 강화 학습(Agentic Reinforcement Learning)을 도입합니다. 결정적으로, OmniAgent는 양의 테스트 시간 확장을 보여주며, 추론 턴 수가 증가함에 따라 성능이 향상되어 능동 지각의 효용성을 입증합니다. 10개 벤치마크(예: VideoMME, LVBench)에 걸친 실험 결과는 OmniAgent가 오픈소스 모델 중 최첨단 성능을 달성함을 보여줍니다. 특히 LVBench에서 7B 에이전트는 10배 더 큰 Qwen2.5-VL-72B를 능가합니다(50.5% 대 47.3%).
검증 가능한 보상을 통한 강화 학습(GRPO) 알고리즘은 대규모 언어 모델의 복잡한 추론을 위한 지배적인 사후 훈련 패러다임으로 부상했지만, 훈련 중 정책 엔트로피 붕괴(policy entropy collapse)를 흔히 겪는다. 본 연구에서는 GRPO 하에서 토큰 수준 엔트로피 역학에 대한 1차 기울기 분석을 수행하고, 토큰 수준 신용 할당 불일치를 식별한다: 토큰별 엔트로피 변화는 궤적 수준 이점(trajectory-level advantage)과 다음 토큰 분포에 대한 엔트로피 민감도 함수의 곱으로 분해되며, 이는 이점-놀라움(advantage-surprisal) 4사분면 구조와 임계 근접 특성(near-criticality property)을 생성한다. 이에 착안하여, 본 연구는 STARE(놀라움 유도 토큰 수준 이점 재가중치를 통한 정책 엔트로피 안정화)를 제안한다. 이 방법은 배치 내 놀라움 분위수를 통해 엔트로피 임계 토큰 부분집합을 식별하고, 이들의 유효 이점을 선택적으로 재가중치하며, 안정적인 엔트로피 조절을 위한 목표 엔트로피 폐루프 게이트를 통합한다. 1.5B부터 32B까지의 모델 규모와 세 가지 작업군(짧은 CoT, 긴 CoT, 다회전 도구 사용)에 걸쳐, STARE는 수천 단계의 훈련 동안 정책 엔트로피를 목표 대역 내로 유지하며 안정적인 강화 학습 훈련을 유지한다. AIME24 및 AIME25에서 STARE는 DAPO 및 기타 경쟁 기준선 대비 평균 정확도에서 4%-8% 향상된 성능을 보이며, 반성 토큰과 응답 길이가 함께 증가하는데, 이는 지속적인 탐색-활용 균형을 나타내며 강화 학습 훈련 잠재력을 더욱 발휘하게 한다. 코드는 https://github.com/hp-luo/STARE에서 확인할 수 있다.
확산 모델은 자기회귀 모델의 유망한 대안으로 부상하고 있다. 그중에서도 균일 확산 언어 모델(UDLM)은 모든 토큰이 임의의 단계에서 업데이트될 수 있도록 허용함으로써, 원칙적으로 더 유연한 생성을 가능하게 한다. 그러나 아직까지 대규모 파라미터 규모와 대규모 토큰 예산 모두에서 처음부터 사전 학습된 UDLM은 존재하지 않는다. 자기회귀 모델링과 마스크 확산 모델링은 이미 연구 커뮤니티가 연구하고 발전시킬 수 있는 규모의 역량 있는 모델을 보유하고 있지만, 균일 확산 모델은 그러한 사례가 없다. 규모 면에서 처음부터 사전 학습된 UDLM은 스케일링 행동, 생성 역학, 제어 가능성, 그리고 기존의 자기회귀 및 마스크 확산 모델과의 상충 관계를 연구하기 위한 깔끔한 기준점을 제공할 것이다. 이러한 목적을 위해, 우리는 1.5T 토큰으로 처음부터 사전 학습된 완전 공개 7B 균일 확산 언어 모델인 Sumi(일본어로 "먹"을 의미)를 소개한다. Sumi는 지식, 추론 및 코딩 벤치마크에서 비교 가능한 토큰 예산으로 학습된 자기회귀 모델과 경쟁력 있는 성능을 보이는 반면, 상식 벤치마크에서는 다소 낮은 성능을 보이는데, 이는 교육 중심의 데이터 혼합이 주요 원인으로 추정된다. 우리는 모델 가중치, 체크포인트, 그리고 공개 코퍼스에 대한 데이터 혼합의 완전한 명세를 포함한 전체 학습 레시피를 공개한다. 이번 공개가 커뮤니티로 하여금 규모 면에서의 순수 균일 확산을 연구할 수 있게 하고, 아직 충분히 이해되지 않은 측면에 대한 연구를 촉진하는 계기가 되기를 바란다.
전 세계 영상 콘텐츠가 점점 더 상호작용적인 소셜 목적으로 소셜 플랫폼에서 소비됨에 따라, 소셜 환경을 위해 구축된 영상 생성 모델의 중요성은 커지고 있지만 기존 연구에서는 largely 간과되어 왔습니다. 본 연구에서는 소셜 월드 모델의 위치를 정의하고, 이를 위한 첫 단계로서 프로토타입 모델을 구축합니다. 기존의 월드 모델들은 물리적 환경이나 게임 세계 탐험을 성공적으로 시뮬레이션했지만, 인간 중심의 사회적 역학 관계에서 근본적으로 분리되어 있습니다. 이러한 격차를 해소하고 소셜 월드 모델의 첫 단계를 제시하기 위해, 우리는 단일 GPU에서 최대 47.5 FPS의 기록적인 프레임 속도로 실시간 스트리밍 생성과 서브초 단위 상호작용이 가능한 220억 개의 파라미터를 가진 최초의 실시간 오디오-비주얼 자기회귀 모델인 MaineCoon을 선보입니다. 현재까지 알려진 바로는, MaineCoon은 소셜 상호작용 애플리케이션에 특화되어 최적화된 최초의 실시간 오디오-비주얼 생성 모델이기도 합니다. 효율적이고 안정적인 훈련을 위해, 우리는 자기 재표집, 교차 모달 표현 정렬, 도메인 인식 선호도 최적화, 강화된 온라인 정책 증류(ROPD) 등 여러 혁신적인 기법을 MaineCoon에 도입했습니다. 또한, 수천 초 단위 혹은 그 이상의 생성을 지원하면서 에이전트 캐시 관리와 프롬프트 계획을 통해 드리프트를 완화하는 최초의 에이전트 기반 스트리밍 추론 프레임워크를 설계했습니다. 이러한 혁신은 훈련을 크게 가속화하는 동시에 실시간 추론 성능을 최적화합니다. 본 연구는 고품질, 저지연, 장시간 오디오-비주얼 자기회귀 모델에 대한 새로운 최첨단(SOTA) 성능 벤치마크를 설정할 뿐만 아니라, 차세대 AI 기반 소셜 플랫폼에 필요한 패러다임 전환을 제시한다고 믿습니다.
다문화 멀티에이전트 시스템은 전 세계 다양한 환경에 점점 더 많이 배치되고 있으며, 서로 다른 에이전트는 다양한 문화적 배경에 기반을 두고 있다. 기존의 문화 평가는 가치 정합성, 즉 단일 에이전트가 목표 문화와 얼마나 일치하는지에 초점을 맞춘다. 그러나 정합성은 에이전트 개별 속성에 불과하며, 시스템 전체가 표현해야 할 문화적 다양성을 유지하는지 여부를 밝힐 수 없다. 본 논문에서는 가치 다양성을 다문화 에이전트 시스템의 시스템 수준 평가 축으로 제안하며, 이는 공유된 가치관 조사에서 문화적 조건에 따라 형성된 에이전트 응답 간의 비유사성을 통해 정의된다. 세계 가치관 조사(World Values Survey)를 활용하여, 우리는 다양한 시스템 구성에 걸쳐 19개 문화와 18개 백본 모델을 평가한다. 그 결과, 다양성은 정합성과 대체로 상관관계가 없음을 발견했으며, 이는 두 지표가 상호 보완적인 시스템 속성을 포착함을 시사한다. 또한 현재의 다문화 에이전트 시스템은 인간 사회에 비해 가치 다양성이 현저히 낮은 것으로 나타났다. 혼합 백본 시스템은 이러한 격차를 줄이지만 완전히 해소하지는 못하며, 격차는 문화 구성 및 에이전트 규모에 관계없이 지속된다. 사회적 상호작용은 에이전트를 합의로 이끌어 다양성을 더욱 약화시키며, 참여 예산 편성 사례 연구는 이러한 동질화가 집단 의사 결정의 폭을 좁힌다는 것을 보여준다. 종합하면, 본 연구 결과는 가치 다양성을 다문화 멀티에이전트 시스템의 별도 평가 축으로 확립하고, 현재 LLM 기반 사회에서 지속적인 동질화 경향을 밝힌다. 코드와 데이터는 https://github.com/iNLP-Lab/MultiAgent-Diversity 에서 공개적으로 이용 가능하다.
언어 모델 에이전트는 소프트웨어 공학이나 고객 서비스와 같이 고립되고 단기적인 작업에서 점점 더 능숙한 실행자가 되어가고 있다. 그러나 실제 세계의 과제는 에이전트에서 대부분 검증되지 않은 정교한 기술들의 조합을 요구한다: (1) 불확실성 속에서 장기적 시간 범위를 탐색하기; (2) 잡음이 많은 환경에서 정보를 획득하기; (3) 변화하는 세계에 적응하기; (4) 일관된 목표를 향해 여러 움직이는 부품들을 조율하기. 우리는 CEO-Bench를 소개한다. 이 벤치마크는 대표적인 실제 세계 작업, 즉 500일 동안 스타트업을 운영하는 작업을 시뮬레이션함으로써 이러한 능력들을 함께 평가한다. 에이전트는 프로그래밍 가능한 Python 인터페이스를 통해 가상 회사의 가격 책정, 마케팅, 예산 편성 및 기타 여러 측면을 관리하며, 인간 CEO와 동일한 환경에서 동일한 도전에 직면한다. 성공하려면 잡음이 많고 상호 연결된 비즈니스 데이터베이스를 분석하고, 신호를 건전한 전략으로 변환하며, 프로그래밍을 통해 많은 결정을 조정해야 한다. 가장 강력한 에이전트는 미래 현금을 예측하기 위해 고객 코호트를 시뮬레이션하는 정교한 코드를 작성하고, 숨겨진 고객 선호도를 발견하기 위해 협상 기록을 분석한다. 그럼에도 불구하고, 대부분의 최첨단 모델은 이 환경에서 어려움을 겪는다. Claude Opus 4.8과 GPT-5.5만이 초기 잔고 $1M 이상으로 마무리할 수 있었으며, 이들 조차도 지속적으로 수익을 내지는 못한다. CEO-Bench는 시간이 지남에 따라 지속적이고 적응적인 발전을 추진하는 데 필요한 지능을 측정하기 위한 첫걸음을 내딛는다.
비전 트랜스포머(ViT)는 시각적 표현 학습의 지배적인 아키텍처로 자리잡아, 매우 강력하고 폭넓게 재사용 가능한 백본 특징을 제공한다. 그러나 ViT는 전역 자기 주의(self-attention)의 제곱 비용으로 인해 일반적으로 상대적으로 작은 패치 토큰 그리드에서 작동하며, 이는 의미론적 분할 및 깊이 추정과 같은 조밀한 예측 작업에 지속적인 병목 현상을 초래한다. 이러한 문제는 작업에 구애받지 않는 특징 업샘플러의 개발을 촉진했다. 최신 최고 성능 방법들은 시각적으로 선명한 조밀한 표현을 생성하지만, 유도된 업샘플링을 위해 얕은 이미지 인코더에 의존함으로써 특징 누출, 단편화 및 흐림을 유발할 수 있다. 본 논문에서는 외부 이미지 유도 없이 중간 ViT 은닉 상태로부터 계층별 쿼리 구성을 통해 특징 예측을 가능하게 하는 암시적 특징 업샘플링 프레임워크인 ViT-Up을 소개한다. 이는 백본 특징 공간과의 정렬을 유지하면서 임의의 연속 이미지 좌표에서 특징을 예측할 수 있게 한다. 실험 결과, ViT-Up이 조밀한 예측 및 의미론적 대응 작업에서 최신 이미지 유도 업샘플러를 일관되게 능가함을 보여준다. DINOv3-S+에서 ViT-Up은 Cityscapes 데이터셋에서 이전 방법보다 최대 +2.07 mIoU, SPair-71k에서 +4.17 PCK@0.10 향상되었다. 더 큰 DINOv3-B 백본에서는 이러한 성능 향상이 +3.36 mIoU 및 +8.09 PCK@0.10으로 증가하여, ViT-Up이 백본 용량에 따라 유리하게 확장됨을 입증한다.
세계 기반 모델(World Foundation Models, WFM)은 강력한 시뮬레이터이지만, 주로 단일 시점(single-view) 설정에서 동작하며 로봇 조작에 필요한 다중 시점 3D 일관성(multi-view 3D consistency)이 부족하다. 로봇 시스템은 정책 학습을 위해 여러 카메라(자기중심적 시점, 눈-손 시점, 손목 장착형 시점)에 의존하지만, 현재의 다중 시점 세계 모델은 명시적인 기하학적 추론 없이 시점 토큰을 단순히 연결(concatenation)한다. 이로 인해 시점 간 객체 드리프트(cross-view object drift), 깊이 불일치, 텍스처 정렬 불일치가 발생한다. 우리는 이러한 실패의 원인을 명시적인 시점 간 통신 메커니즘의 부재와 3D 기하학적 사전 지식의 부족이라는 두 가지 결함으로 추적한다. 또한 이 두 문제를 동시에 해결하는 것이 필요충분조건이라고 주장한다. 이 문제를 해결하기 위해 우리는 확산-변환기(diffusion-transformer) 세계 모델을 세 가지 핵심 구성 요소로 보강하는 프레임워크인 PAIWorld를 제시한다: (1) 시점 간 명시적 경로를 구축하는 기하학 인식 교차 시점 주의(Geometry-Aware Cross-View Attention) 블록, (2) 카메라 광선 방향과 외부 자세를 주의 메커니즘에 인코딩하는 기하학적 회전 위치 임베딩(Geometric Rotary Position Embedding), (3) 고정된 3D 기반 모델로부터 3D 인식 특징을 증류(distill)하여 3D 일관성을 보장하는 잠재 3D-REPA(Latent 3D-REPA). DiT 기반 세계 기반 모델 위에 구축된 PAIWorld는 로봇 조작 벤치마크에서 최첨단 다중 시점 3D 일관성을 달성하여 WorldArena 리더보드에서 1위, AgiBot-Challenge2026 리더보드에서 2위를 기록했으며, 모델 기반 계획, 세계 행동 모델, 다중 시점 정책 사후 훈련과 같은 하위 응용을 가능하게 한다.
첨단 과학 추론은 대규모 언어 모델(LLM)에게 여전히 주요 과제로 남아 있으며, 가장 강력한 상용 시스템조차도 전문가 수준의 성능에 미치지 못한다. 모델 행동을 면밀히 살펴보면 단일 모델 평가로는 드러나지 않는 상당한 상호보완성이 존재한다: 서로 다른 최첨단 모델이 각기 다른 질문 유형에서 뛰어난 성능을 보이며, 어떤 단일 모델도 전체 그림을 포착하지 못한다. 본 논문에서는 가벼운 8B 모델을 훈련시켜 최첨단 LLM을 과학 추론에 활용하도록 조정하는 프레임워크인 SciOrch를 제안한다. 조정자는 각 질문을 분해하고, API 호출을 통해 선택된 상용 모델에 하위 문제를 위임하며, 최종 답변을 종합한다. 이러한 조정자를 훈련하는 것은 기존의 에이전트 강화 학습보다 근본적으로 더 어렵다: 각 행동은 비용과 지연 시간 측면에서 모두 비싼 API 호출을 유발하므로, 표준 온라인 롤아웃이 불가능하다. 본 연구는 MCTS 기반 접근법으로 이 문제를 해결하여 다양한 조정 궤적을 생성하고, 노드별 단일 샘플을 추출한 후 GRPO 방식 훈련을 통해 조정자를 최적화한다. SGI-Reasoning과 Scientists' First Exam을 포괄하는 240개 질문 테스트 세트에서 SciOrch는 평균 정확도 56.66%를 달성하여, 가장 강력한 단일 상용 모델보다 3.74%, 가장 강력한 다중 에이전트 기준선보다 3.33% 더 높은 성능을 보였다. 또한 SGI와 SFE 모두에서 최고 정확도를 기록했으며, 일반적인 다중 에이전트 방법보다 절반 미만의 API 비용을 사용했다.
다중 턴 도구 사용 강화학습은 정적 데이터셋에서 유익한 샘플이 빠르게 고갈되는 현상에 의해 병목 현상이 발생한다. GRPO에서 그래디언트 신호는 가장 높은 롤아웃 보상 분산을 가진 작업에 집중되는데, 이는 Popoviciu 상한의 결과이다. 결과적으로, 성공과 실패가 대략 균형을 이루는 에이전트의 능력 경계 근처 샘플이 불균형적으로 큰 정책 그래디언트에 기여한다. 학습이 진행됨에 따라 이 경계는 지속적으로 이동하며, 정적 데이터셋 내 유익한 샘플 풀을 점차 고갈시킨다. 우리는 이러한 고갈 문제를 해결하기 위해 RODS(보상 기반 온라인 데이터 합성)를 제안한다. RODS는 강화학습 훈련과 데이터 생성 간의 루프를 닫아, 훈련을 위해 이미 계산된 롤아웃 외에 추가 추론이 필요 없는 실용적이고 비용이 없는 경계 탐지기로서 진행 보상 분산을 재활용한다. 이는 지속적으로 이러한 경계 샘플을 식별하고, 기술 정렬 재표본추출 파이프라인을 통해 해당 샘플의 구조적 복잡성(예: API 토폴로지 및 종속성 깊이)과 일치하는 새로운 다중 턴 변형을 합성하며, 정책과 함께 공진화하는 동적 재생 버퍼를 관리한다. 400개의 인간 시드로 시작하여 약 800개의 샘플로 구성된 활성 학습 풀을 유지하는 RODS는 약 20배 적은 궤적으로 17K 샘플 오프라인 파이프라인과 유사한 성능을 달성하며, 통제된 환경에서 고정 데이터 강화학습 및 환경 증강보다 개선된 결과를 보인다.
오프라인 강화학습은 일반적으로 프로세스 단위 보상 감독 하에서 분석되지만, 많은 순차적 의사결정 데이터셋은 궤적 수준의 결과만 기록한다. 본 연구에서는 이러한 결과 수준 감독 하에서의 오프라인 정책 최적화를 위한 통계적 이론을 개발한다. 먼저, 목표가 여전히 기대 누적 보상인 표준적 설정을 연구하되, 각 오프라인 궤적이 조건부 평균이 누적 수익인 스칼라 레이블만을 제공하는 경우를 다룬다. 우리는 잠재 보상 모델을 학습하고 궤적 수준 레이블로부터 정책을 최적화하는 비관적 배우-비평가 알고리즘 OPAC을 제안한다. $\widetilde O(H^2 C_{s,a}(\pi^\star)/n)$ 차수의 높은 확률 보장과 이에 상응하는 하한을 증명하여, 프로세스 수준 보상을 하나의 궤적 수준 레이블로 대체할 때 발생하는 명확한 통계적 비용을 규명한다. 그 다음, 이 원리를 선호 기반 피드백으로 확장하며, 선호 모델 상수까지 주요 지평 및 집중성 의존성을 유지한다. 마지막으로, 일반화된 결과 기반 오프라인 강화학습을 연구하는데, 여기서 감독과 목표 모두 잠재적 단계별 보상의 비선형적 집계에 의해 유도된 궤적 수준 양이다. 이 문제는 일반적으로 학습 불가능하다: 모든 성공 목표에 대해, 어떤 오프라인 학습자도 결정론적 전이와 일정한 집중성 하에서도 $\Omega(2^H)$개의 궤적을 필요로 할 수 있다. 그 후, 결과 집계 및 일반화된 벨만 업데이트에서 정보 손실을 포착하는 두 구조적 계수 $\kappa_\mu(\sigma)$와 $\chi_\mu(\sigma)$를 통해 다루기 가능한 영역을 식별하며, 이 하에서 일반화된 OPAC이 다항식 샘플 복잡도를 달성함을 보인다. 종합적으로, 본 연구의 결과는 결과 수준 감독이 언제 샘플 효율적인 오프라인 제어를 가능하게 하고, 언제 프로세스 수준 보상의 부재가 근본적인 통계적 장벽을 생성하는지를 설명한다.
대화형 환경에서 인간 사용자를 시뮬레이션하는 학습은 에이전트 어시스턴트의 훈련, 개인화 시스템의 평가, 사회과학 연구 등을 발전시킬 수 있다. 기존 접근법은 일반적으로 대규모 언어 모델(LLM)을 훈련하여 단일 정답 응답과 일치시키는 방식으로 수행하는데, 이는 로그 확률을 최대화하거나 유사도 보상을 사용하는 방법을 따른다. 우리는 대신 {Turing-RL}을 제안한다: 사용자 시뮬레이터 모델 훈련을 위한 튜링 테스트 기반 강화 학습 접근법이다. {Turing-RL}은 LLM 판정기를 사용하는 변별적 튜링 보상을 활용하여 생성된 응답이 사용자 이력을 고려할 때 실제 사용자의 응답과 얼마나 구별 불가능한지 점수를 매기며, 사용자 시뮬레이터 LLM은 이러한 보상을 통해 사용자가 말할 수 있었던 것과 구별 불가능한 응답을 생성하도록 학습한다. 대화형 채팅과 Reddit 포럼 토론이라는 두 가지 다른 도메인에서, {Turing-RL}이 LLM 및 인간 평가 지표 모두에서 기준 방법을 일관되게 능가하는 것을 확인했다. 본 연구는 응답 일치보다는 구별 불가능성 최적화가 사용자 시뮬레이터 학습에 효과적임을 시사한다.
비디오 생성 모델(VGM)은 비디오 생성뿐만 아니라 세계 모델링을 포함한 다양한 하위 작업에 활용될 수 있는 새로운 개척 분야가 되었다. 이러한 작업을 발전시키기 위해서는 우수한 비디오 모델이 세계의 물리적 현실을 이해해야 한다. 이러한 이해를 평가하는 것은 떠오르는 연구 분야이며, 물리적 실험에 대한 모델 생성 비디오와 실제 비디오를 비교하여 이를 명시적으로 정량화하는 Physics-IQ 벤치마크로 이어졌다. 본 연구에서는 Physics-IQ 벤치마크에 대한 체계적인 감사를 수행하고, 한계점을 드러내며, VGM의 물리적 이해도를 측정하는 방식을 개선하는 세 가지 해결책을 제안한다. 구체적으로, 프롬프트와 실제 정답의 품질을 개선하여 혼란 변수의 영향을 줄이고, 각 샘플과 지표에 동일한 가중치를 부여하는 샘플 수준 점수 체계를 도입한다. 그 결과 도출된 벤치마크인 Physics-IQ Verified는 전체 샘플의 57.6%를 개선하고 프롬프트의 34.8% 이상을 향상시킨다. 여섯 개의 이미지-투-비디오 생성 모델을 사용한 비교 연구에서, 우리는 완만하지만 의미 있는 순위 변화(켄달의 τ = 0.46)를 관찰했다. Physics-IQ Verified가 물리적으로 정확한 VGM을 향한 보다 신뢰할 수 있는 신호를 제공함으로써 학계 발전에 기여하기를 바란다. 벤치마크 코드는 https://github.com/google-deepmind/physics-iq-benchmark에서 확인할 수 있다.
AI 시스템은 과학적 작업 흐름을 점점 더 자동화할 수 있지만, 이전 증거, 생성된 아이디어, 실험 및 최종 주장을 연결하는 추론은 종종 모델 추론 내에 암시적으로 남아 있습니다. 여기서 우리는 연구 합성과 실험 검증을 검사 가능하고 계약에 기반한 프로세스로 외부화하는 연구 하네스인 Xcientist를 소개합니다. Xcientist는 문헌 증거, 아이디어 상태, 구현 계획, 절제 기록 및 수정 추적을 지속적인 연구 인공물로 구성하여, 생성된 메커니즘이 증거 기반을 잃지 않으면서 근거를 확보하고, 실행하고, 테스트하고, 수정할 수 있도록 합니다. 우리는 실행 가능한 인공물이 더 이상 원래 주장된 메커니즘을 지원하지 않는, 자동화된 연구의 실패 모드로서 주장 표류를 식별합니다. 학습 없는 메모리 시스템, 그래프 구조 교통 예측 및 다중 스케일 물리 정보 신경망에 걸쳐, Xcientist는 문제 공식화에서 메커니즘 설계, 검증 및 제한된 수정까지 추적 가능한 궤적을 보존합니다. 이러한 결과는 AI 과학자가 최종 인공물뿐만 아니라 합성 및 검증 프로세스가 귀속 가능하고, 검사 가능하며, 과학적으로 책임질 수 있는지 여부에 의해 평가되어야 함을 시사합니다.
테스트 시간 스케일링을 순차적 수정을 통해 구현하는 방식은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강력한 패러다임으로 부상했다. 그러나 기존의 사후 학습 방법은 주로 단일 목표를 최적화하도록 설계되어 있어, 다단계 추론 동역학과 근본적인 부정합을 초래한다. 최근 연구는 이 문제를 다회차 강화 학습(RL)으로 다루고 있지만, 기존 접근법은 다단계 궤적을 직접 최적화함으로써 모델이 교정 과정에서 학습할 수 있는 중간 단계의 고품질 오류를 충분히 활용하지 못한다. 본 논문에서는 온라인 데이터/프롬프트 증강과 정책 최적화를 번갈아 수행하는 2단계 반복 프레임워크를 제안한다. 성공적인 회복 궤적 내 중간 단계('근접 실패' 답변)를 분리된 수정 및 검증 프롬프트로 변환함으로써, 제안 방법은 효과적인 답변 변환과 오류 식별에 훈련을 집중시킨다. 이 접근법은 효율적인 오프 정책 데이터 생성을 가능하게 하며, 표준 다회차 RL에 비해 장기 샘플링의 계산 부담을 줄인다. LiveCodeBench에서 공개적으로 사용 가능한 테스트 케이스를 피드백으로 활용한 결과, RL 기준선 대비 +6.5점, 표준 다회차 훈련 대비 +4.0점의 성능 향상을 관찰했다. 코드 작성 외에도, 원 포장 문제에서 가장 작은 기본 모델(4B)을 사용하면서도 훨씬 더 큰 진화 탐색 시스템보다 훨씬 적은 롤아웃으로 이전에 보고된 최고 성능(SOTA)과 일치하는 결과를 얻었다. 실측 검증 하의 수학 결과는 개선된 수정 능력을 추가로 확인시켜 준다. 또한, 올바름이 전적으로 문제 제약 조건에 의해 정의되는 분포 외 제약 조건 만족 퍼즐(n-퀸 및 미니 스도쿠 등)에 대해서도 일반화된다. 코드는 https://github.com/yxliu02/REVES.git에서 확인할 수 있다.
현재 컴퓨터 사용 에이전트를 위한 벤치마크는 비개인적 환경에서 모델을 평가한다. 이로 인해 개인 비서가 사용자의 전체 디지털 생활, 즉 맥락, 과거 데이터 및 로그인된 계정을 포함한 환경에서 작동해야 하는 평가와 배포 간에 격차가 발생한다. 이 격차는 웹 작업에서 가장 두드러지는데, 실시간 웹 평가는 로그인이나 개인 정보가 필요한 사이트, 즉 실제 개인 비서가 다루어야 하는 유형의 사이트를 실행할 수 없기 때문이다. 본 논문에서는 Linux 데스크탑 환경에서 17개의 시뮬레이션된 실제 웹 애플리케이션과 완전한 데스크탑 스택을 갖추고, 모두 《오피스》의 마이클 스콧이라는 한 명의 표준 인물에 대해 시드된 MyPCBench를 소개한다. 이 환경에서 OpenClaw 커뮤니티에서 가져온 실제 요청에서 영감을 받은 184개의 작업을 정의하고, 균일한 컴퓨터+배시 도구 표면을 사용하여 6개의 폐쇄형 및 오픈웨이트 모델을 벤치마킹했다. 최고 성능 모델인 Claude Opus 4.6은 작업의 55.4%를 완전히 해결하여 50%를 넘는 유일한 모델이었다. 모델 실패는 여러 애플리케이션에 걸친 작업과 긴 궤적에서 집중되었으며, 이때 개인화가 어시스턴트에게 가장 큰 부담을 주었다. 환경, 작업 세트 및 에이전트 하네스를 https://mypcbench.com에서 공개한다.
유용한 폰 에이전트는 개인적 지능을 갖추어야 한다. 즉, 사용자의 신원, 기록, 선호도를 기기 내에서 추론할 수 있어야 하며, 비개인적인 샌드박스에서 고립된 지침을 단순히 따르는 데 그쳐서는 안 된다. 기존의 모바일 에이전트 벤치마크는 이러한 개인화 기능이 부족하다. 이에 우리는 지속적인 사용자 신원을 기반으로 구축된 최초의 대화형 네이티브 iOS 시뮬레이터 벤치마크인 iOSWorld를 소개한다. 이는 26개의 새롭게 구축된 iOS 앱으로 구성되며, 해당 앱에는 거래, 메시지, 여행 기록, 사회적 관계, 금융 활동 등의 연결된 데이터가 포함된다. iOSWorld는 세 가지 난이도 범주에 걸쳐 133개의 작업을 포함한다. 단일 앱 작업(27개)은 하나의 앱을 테스트하고, 다중 앱 작업(60개)은 2~8개의 앱을 대상으로 하며, 기억 및 개인화 작업(46개)은 에이전트가 개인 데이터로부터 패턴을 추론하도록 요구한다. 우리는 비전 전용 및 특권적 비전+XML 설정 모두에서 최첨단 및 오픈소스 컴퓨터 사용 모델을 평가했다. 최고 성능 구성은 전체적으로 52%의 정확도를 달성했지만, 다중 앱 작업에서는 37%에 그쳤다. 특권적 비전+XML 접근은 최첨단 모델의 성능을 최대 26% 포인트 향상시켰으나, 소형 모델은 추가된 접근성 트리 입력으로부터 이점을 얻지 못했다. 우리는 iOSWorld를 모든 앱, 시드 데이터, 작업, 평가 기준 및 평가 코드와 함께 오픈소스 벤치마크로 공개한다.
밸브와 회로 차단기와 같은 산업 제품은 공급망 전반에 걸쳐 조달, 호환성 및 안전성을 규율하는 복잡한 기술 사양으로 정의된다. 이러한 사양은 사양표, 명판, 기술 도면 등 여러 이질적인 제품 이미지에 분산되어 있지만, 멀티모달 거대 언어 모델(MLLM)이 이를 신뢰성 있게 복원할 수 있는지 여부는 충분히 탐구되지 않았다. 이 간극을 메우기 위해, 우리는 IndustryBench-MIPU를 소개한다. 이는 제품 이미지로부터 속성-값 쌍을 복원하는 구조화된 속성 추출을 중심으로 구축된, 다중 이미지 산업 제품 이해를 위한 최초의 대규모 벤치마크이다. 이 과제는 사양표와 명판에 대한 텍스트 인식, 기술 도면에 대한 시각적 추론, 산업 용어를 해독하기 위한 도메인 지식, 그리고 분산된 사양을 통합하기 위한 교차 이미지 증거 통합을 동시에 탐구한다. 구체적으로, 이 벤치마크는 18개의 산업 범주에 걸쳐 103,703개의 주석이 포함된 27,652개의 이미지에 걸친 4,559개의 제품으로 구성되며, 다중 모델 합의와 3단계 품질 보증을 통해 구축되었다. 단일 이미지 및 제품 수준의 다중 이미지 설정에서 9개의 MLLM을 평가한 결과, 현저한 완전성 격차가 드러났다: 모델은 높은 정밀도(86-94%)를 달성하지만, 최고 모델도 제품 수준 속성의 49.9%만 복원한다. 단일 이미지에서 다중 이미지 추출로 전환할 때 재현율이 15-34% 포인트 감소한다. 단일 이미지 정확도가 아닌 다중 이미지 완전성이 핵심 병목이다. 데이터셋과 코드는 공개적으로 제공된다.
우리는 트랜스포머 은닉 상태의 표준 기저가 이미 학습 불필요하고 아키텍처 일반적인 특징 기저를 제공함을 보여준다. 개별 차원은 부호(+/-1)를 통해 의미적 내용을, 크기를 통해 신뢰도를 인코딩하여 독립적인 이진 레지스터로 작동한다. 특징은 일관된 부호 패턴을 가진 차원들의 부분집합이며, 학습된 회전 없이 부호 일치를 세어 판독한다. 우리는 이 차원 묶음(Bag of Dims) 프레임워크를 언어(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), 비전(DINOv2, ViT-Base), 오디오(AST)에 걸친 7개의 모델에서 검증한다. 부호만으로도 예측적 내용을 전달한다: 단위 크기 부호 패턴은 LM 헤드를 통해 상위 5개 다음 토큰 정확도의 60-93%를 유지하며, 디코더 없는 해밍 점수는 상위 4096에서 80-90%에 도달한다. 단일 토큰 캐시(토큰당 한 번의 순전파, 맥락 없음, 레이블 없음)에서 부호 일치를 통해 175개 범주를 AUC 0.97-0.99로 탐지한다. 학습된 프로브는 +0.018 AUC만 추가하며 축 정렬 가중치로 수렴한다. 이러한 특징들은 인과적으로 작동한다: K/V 어텐션 투영을 견디며, 이를 기록하는 FFN 뉴런 연합으로 추적 가능하다(무작위 가중치 대조군은 이를 재현하지 못함), 그리고 실시간 순전파 중 특징의 부호를 뒤집으면 네 가지 언어 모델에서 그 개념이 억제되며, 크기 일치 및 개념 특이적이다. 차원들은 전체적으로 독립성을 유지한다(쌍별 상호 정보 0.006비트 미만). 이 구조는 언어에 특화되지 않았다: 동일한 차원별 부호가 자기 지도 비전(DINOv2, 9/12 ImageNet 슈퍼클래스), 지도 비전(ViT-Base, 11/12), 오디오(AST, 50/50 ESC-50 범주)에서 나타나므로, 이는 언어 모델링 목표가 아닌 일반적인 트랜스포머 학습을 반영한다. 표준 기저는 이미 한 번의 순전파, 최적화 없이, GPU-일 없이 특징 판독에 충분하다. 공개 문제는 올바른 회전을 찾는 것에서 각 차원이 인코딩하는 것을 목록화하는 것으로 전환된다.
Photoshop의 제거(Remove) 또는 생성형 채우기(Generative Fill) 버튼과 같은 창의적 이미지 편집 도구는 일상적인 고객 사용의 핵심이며, Photoshop과 Lightroom에서 트래픽의 상당 부분을 차지한다. 그러나 현재 생성형 AI 모델은 심각한 지연 시간 문제에 직면해 있으며, 이는 합성곱 기반 U-Net에서 확산 트랜스포머(DiT)로 전환할 때 더욱 두드러진다. 다양한 마스크 비율을 포괄하는 수백 개의 대표적 이미지 편집 샘플을 평가한 결과, DiT 모듈 자체가 50타임스텝에서 8타임스텝으로 증류된 후에도 전체 모델 지연 시간의 평균 73%를 차지한다. 이 문제를 해결하기 위해, 본 논문에서는 고주파수 및 풍부한 문맥 영역에는 더 많은 토큰 예산을 할당하고 저주파수 영역에는 적은 토큰을 배정하는 입력 적응형 토큰 압축 프레임워크인 HiLo-Token을 제안한다. 구체적으로, 사용자 마스크로 지정된 편집 영역 내에서는 확장 마스크 내의 모든 토큰을 유지하여 강력한 지역성과 맥락적 관련성을 보존한다. 편집 영역 외부에서는 공간 주파수 기반의 단순하면서도 효과적인 고주파수 토큰 선택 전략을 도입하여 중요한 지역적 세부 정보를 포착하는 동시에, 16배 다운샘플링된 이미지의 토큰을 사용하여 저주파수 성분을 표현하고 흐릿하지만 전역적인 구조를 보존한다. 프로덕션 수준의 평가 데이터에 대한 광범위한 실험을 통해 제안된 방법의 효과성을 검증했으며, 평균 비율이 각각 6.38%, 15.92%, 35.36%인 소형, 중형, 대형 마스크 비율 범주의 이미지 편집 작업에서 A100-80GB 기준으로 3.13배, 2.59배, 1.67배의 DiT 속도 향상을 달성했으며 생성 품질의 저하도 없었다.
온-정책 자기 증류(OPSD)는 자체 롤아웃(rollouts)에 대해 모델을 학습시키며, 참조 대상에 조건화된 밀집 토큰 수준의 목표를 제공하기 위해 고정된 복사본을 사용한다. 이는 LLM 추론에 효과적이지만, 멀티모달 대형 언어 모델(MLLM)로의 직접적인 확장은 지름길(shortcut)을 만들 수 있다. 즉, 특권적 목표가 이미지보다 텍스트 참조 대상에 주로 기반하여 토큰을 안내할 수 있다. 우리는 MLLM 사후 학습을 위한 시각적 기반 OPSD 프레임워크인 ViGOS를 제안한다. 학생 모델은 먼저 시각적 설명을 작성한 후 최종 답을 향해 추론한다. 유효한 롤아웃의 경우, 이미지 전용 지각 교사(perception teacher)가 설명을 감독하고, 특권적 추론 교사(privileged reasoning teacher)가 동일한 학생 모델의 접두사(prefix)에 대한 추론과 최종 답을 감독한다. 참조 교사는 출력 형식을 복구하기 위해 유효하지 않은 롤아웃에만 사용된다. 일반 시각-언어, 전문 추론, 시각 수학, 공간 접지, 시각-언어 사전 벤치마크 전반에서 ViGOS는 OPSD의 주요 이점을 유지하고 지름길이 발생하기 쉬운 환경에서 이미지 기반 행동을 개선한다.
터키어는 교착어로, 의미가 형태소에 의해 전달되지만 현대 언어 모델을 구동하는 하위 단어 토크나이저는 말뭉치 통계에 따라 단어를 분할하여 의미적 부담을 가진 접사를 조각내고, WordPiece 및 규칙 기반 분석기의 경우 출력을 원문으로 다시 디코딩하는 데 실패한다. 본 논문은 터키어를 위한 신경 형태소 경계 모델인 Morpheus를 제시하는데, 이는 무손실이며 형태소를 인식하는 토크나이저이자 단어 임베딩 생성기 역할을 동시에 수행한다. 미분 가능한 푸아송-이항 동적 프로그래밍은 훈련 중 문자별 경계 확률을 소프트 형태소 소속으로 변환하고 추론 시에는 정확한 세그먼트를 생성하며, 문자열 정규화가 없으므로 설계상 디코드(인코드(w)) = w가 성립한다. 신경 모델이기 때문에 토큰화를 수행하는 동일한 순전파가 구조화된 단어 임베딩도 함께 출력한다. 가역 토크나이저 중에서 – 생성에 유효한 유일한 토크나이저 – Morpheus는 가장 낮은 문자당 비트 수(1.425)를 달성하고, 하위 단어 계열의 형태소 정렬 정답을 대략 두 배로 높이며(MorphScore 매크로 F1 0.61 대 ~0.32), 64K 어휘 하위 단어 토크나이저보다 약 19% 적은 GPU 메모리를 사용한다. 임베더로서, 고정된 Morpheus 벡터는 어휘 검색(어근 집합 MAP 0.85) 및 동일 어근 검증(ROC-AUC 1.00)에서 선두를 차지하여 다국어 검색기 BGE-M3와 BERTurk를 능가한다. 문맥 및 굴절 의존 작업(NER, 격/수 탐침)에서는 더 무거운 문맥 인코더가 여전히 앞서 있으며, 이는 Morpheus의 어근 중심 기하 구조에 기인한 트레이드오프이다. 코드: https://github.com/lonewolf-rd/TurkishMorpheus; 모델: https://huggingface.co/lonewolflab/Morpheus-TR-50K; 대화형 데모: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
관심이 증가하고 있음에도 불구하고, 대규모 언어 모델(LLM)의 개인화 능력에 대한 대부분의 평가는 합성 데이터에 의존해 왔다. 현재의 개인화 시스템이 실제 사용자에게 얼마나 잘 작동하는지는 여전히 불분명하다. 본 논문에서는 합성 데이터와 인간 데이터를 사용할 때 LLM 개인화 성능의 차이를 연구한다. 우리는 개인화의 세 단계(대화에서 사용자 속성 추출(5,949건의 판단), 관련 속성을 새로운 프롬프트와 연결(11,919건), 관련 속성을 개인화된 응답에 통합(1,101건))에 걸쳐 인간 대화(550건의 대화)와 판단을 수집했다. 인간 데이터를 통합함으로써 각 단계에서 시스템의 한계가 드러난다. 모델은 인간 대화에서 속성을 추출하는 데 어려움을 겪으며, 관련 속성에 대한 인간의 판단과 일치하지 않고, 인간이 평가하기에 일반 응답보다 나을 것이 없는 개인화된 응답을 생성한다(비록 LLM은 이를 더 우수하다고 널리 평가하지만). 우리는 처음 두 단계에서 자동화된 개인화 평가를 인간 데이터에 더 가깝게 전환하는 두 가지 경량 훈련 기반 중재를 도입한다. 그러나 세 번째 단계에서는 학습된 보상 모델이 인간 평가와 제한적인 상관관계만을 보여, 인간에 정렬된 개인화 품질 판단을 직접 모델링하기 어렵다는 점을 시사한다. 우리가 수집한 데이터는 모델이 인간이 유용하다고 느끼는 방식으로 사용자 정보를 추출, 선택 및 통합하는 방법을 연구하기 위한 기초를 제공한다.
예측 코드 완성 기능은 개발자의 작업 속도를 크게 향상시킨다. 스프레드시트에서는 훨씬 더 보편적임에도 불구하고 이러한 자동 완성 기능은 사실상 존재하지 않는다. 이러한 격차를 해소하기 위해, 본 연구는 스프레드시트에서 일련의 사용자 작업을 관찰하고 미래 작업을 예측하는 시스템을 위한 벤치마크를 도입한다. 두 가지 과제는 (1) 공개 스프레드시트 코퍼스에서 편집 이력이 부재하다는 점과 (2) 스프레드시트 작업(공간적, 시간적, 복합적)의 복잡한 공간이다. (1)을 해결하기 위해, 매개변수화된 휴리스틱과 LLM 정제에 의해 시드된, 공개 코퍼스의 스프레드시트를 재현하는 12,000개 작업으로 구성된 52개 시퀀스를 수동으로 선별한다. (2)를 해결하기 위해, 각 사용자 작업 후 예측을 기대하고, 해당 예측을 수락 또는 거절하며, 수락 시 미래 작업을 업데이트하고, 대상 스프레드시트를 얻을 때까지 이를 반복하는 온라인 평가를 제안한다. 우리는 여러 기준 예측기(제로샷 LLM, 미세 조정된 SLM, 고전적 모델 포함)를 사용하고, 저장된 작업 및 거짓 양성의 속성, 효율성, 사용자 프로필의 효과, 트리거의 효과, 컨텍스트의 효과 등을 포함하되 이에 국한되지 않는 벤치마크가 알려주는 다양한 특성을 분석한다.
로봇 시스템은 시각 카메라 스트림과 자연어 명령을 포함한 다중 입력 모달리티를 통해 세상을 인식하며, 이러한 신호를 기반으로 적절한 행동을 선택해야 한다. 그러나 모든 입력 장치의 영구적인 가용성을 가정하는 것은 비현실적인데, 이는 배치 중 센서가 고장 나거나 가려지거나 완전히 드롭아웃될 수 있기 때문이다. 따라서 실제 로봇 운영을 위해서는 이러한 모달리티 누락 시나리오에 대한 강건한 처리가 필수적이다. 본 논문은 RL4IL을 소개하는데, 이는 강화 학습으로 안내되는 모방 학습 방법으로, 훈련 라이브러리에서 가장 관련성 높은 전문가 시연을 식별하여 주어진 관측에 가장 적합한 행동을 선택한다. 너비 우선 탐색 후보 집합에 대해 근접 정책 최적화를 통해 훈련된 강화 학습 정책은 후보 시연의 순위를 매기고, 소프트 교차 주의 융합 헤드가 이들의 행동 신호를 집계하여 최종 예측을 생성한다. 추론 시 모달리티가 누락된 경우, 전용 모달리티별 RL 검색 정책이 훈련 라이브러리에서 기증자 시연을 식별하고, 소프트 대체 헤드가 상위 순위 기증자에 대한 교차 주의를 통해 누락된 임베딩을 재구성한다. 이 과정에서 시스템의 재훈련은 필요하지 않다. 세 가지 LIBERO 벤치마크 스위트에 대한 실험은 RL4IL이 정책 네트워크 훈련이 필요하지 않으면서 센서 드롭아웃 조건에서 최신 모방 학습 방법을 상당히 능가함을 입증한다. 코드는 https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera 에서 확인할 수 있다.
네트워크 데이터 분석 기능(NWDAF)은 실시간 분석 및 폐쇄 루프 자동화를 지원함으로써 5세대(5G) 네트워크에서 제로터치 네트워크 관리를 가능하게 하는 핵심 요소이다. 이러한 중요한 역할에도 불구하고, 오픈소스 NWDAF 구현은 범위와 접근성에서 여전히 제한적이다. 본 논문에서는 오픈소스 코어 네트워크인 Free5GC와 호환되는 오픈소스 NWDAF를 개발한다. 이 NWDAF는 네트워크 기능(NF)에 대한 구독을 통해 네트워크 데이터를 수집하며, 인간 운영자와의 자연어 상호작용을 가능하게 하는 통합 대규모 언어 모델(LLM) 인터페이스를 포함한다. 이 인터페이스는 사용자 의도를 처리하고, 의미 임베딩 모델을 사용하여 이를 인코딩한 후, 분석 질의 또는 이벤트 구독 명령을 실행하기 위해 7개의 사전 정의된 의도 범주 중 하나에 매핑한다. 이 아키텍처는 기존 인터페이스의 복잡성을 추상화하여 비전문가 사용자도 네트워크 분석 및 구독을 쉽게 관리할 수 있도록 한다. 시스템은 접속 및 관리 기능(AMF) 및 세션 관리 기능(SMF) 이벤트 구독, 실시간 모니터링, Prometheus를 통한 분석 검색을 지원하며, 이 모든 기능은 대화형 인터페이스를 통해 접근 가능하다. AI 기반 의도 인식과 표준화된 네트워크 분석을 연결함으로써, 우리의 구현은 운영자 사용성을 향상시키고 AI 네이티브 6G 네트워크를 위한 기반을 제공한다. 현재 연구에서 생성된 소스 코드와 데이터셋은 GitHub 저장소(https://github.com/HenokDanielbfg/testbed)에서 확인할 수 있다.