번역이 포함된 일일 선별된 AI 연구 논문
비전-언어 모델(VLM)은 일반적으로 시각적 접지와 검출을 좌표-토큰 생성 문제로 정식화하여, 각 2D 박스를 여러 개의 1D 토큰으로 직렬화한 후 대부분 독립적으로 학습 및 디코딩한다. 이러한 토큰 단위 디코딩은 박스 기하 구조의 결합된 특성과 부합하지 않으며, 엄격한 순차적 생성으로 인해 실질적인 추론 병목을 초래한다. 본 논문에서는 병렬 박스 디코딩(PBD)에 기반한 통합 생성형 접지 및 검출 프레임워크인 LocateAnything을 소개한다. 경계 상자와 점과 같은 기하 요소를 단일 단계에서 원자 단위로 디코딩함으로써, LocateAnything은 박스 내 기하학적 일관성을 유지하고 상당한 병렬성을 확보한다. PBD가 디코딩 처리량과 국소화 정확도를 모두 향상시킴을 보인다. 또한 확장 가능한 데이터 엔진을 개발하고, 1억 3800만 개 이상의 학습 샘플을 포함하는 대규모 데이터셋인 LocateAnything-Data를 구축하여 고정밀 국소화를 위한 데이터 다양성을 크게 증가시킨다. 광범위한 평가 결과, LocateAnything이 속도-정확도 프론티어를 발전시켜 다양한 벤치마크에서 디코딩 처리량을 현저히 높이는 동시에 높은 IoU 국소화 품질을 개선함을 보여준다. 이러한 결과는 병렬 박스 디코딩과 대규모 학습 데이터가 효율적이고 정밀한 통합 시각적 접지 및 검출을 가능하게 하는 상호 보완적 이점을 강조한다.
생성형 비디오 기반 모델의 급속한 발전은 해당 분야를 전문가 수준의 시네마틱 합성으로 이끌고 있습니다. 이러한 높은 품질 요구를 충족하기 위해, 연구 커뮤니티는 강화 학습(RL) 및 에이전트 기반 워크플로우로 전환하고 있습니다. 그러나 신뢰할 수 있는 평가가 중요한 병목 현상으로 부상했습니다. 기존 벤치마크는 주로 '옳은가' (기본적인 프롬프트 준수 여부)를 평가하는 반면, '좋은가' (시네마틱 품질, 연기, 미적 감각)는 근본적으로 간과해 왔습니다. 더욱이, 현재의 자동화된 평가지표는 신뢰할 수 있는 신호를 제공하는 데 필요한 도메인 특화 엄격성을 결여하여, 인간의 미적 인식과 기계 점수 사이에 심각한 신뢰성 격차를 야기합니다. 이러한 격차를 해소하기 위해, 우리는 EvalVerse를 소개합니다. 이는 포괄적이고, 파이프라인을 인식하며, 전문가에 의해 보정된 평가 프레임워크입니다. 우리는 비디오 생성 평가를 단순한 엔지니어링 작업이 아닌, 주관적인 시네마틱 전문 지식을 체계적으로 디지털화하는 핵심 과학적 문제로 간주합니다. 첫째, 우리는 도메인 지식을 전문 영화 제작 워크플로우(사전 제작, 제작, 사후 제작)에 맞춰 정렬된 평가 분류 체계로 구성합니다. 둘째, 우리는 인간 전문가의 판단을 대규모 인간 주석이 포함된 선별된 데이터셋으로 추출합니다. 셋째, 우리는 이 지식을 전문가 보정 미세 조정 전략을 통해 Vision-Language Models(VLM)에 주입하여, VLM이 명시적 Chain-of-Thought 추론을 수행할 수 있도록 합니다. 이전 연구들과 비교하여, EvalVerse는 기본적인 '정확성' 지표와의 호환성을 유지할 뿐만 아니라, 평가 기준을 '우수성'으로 크게 확장하고, 작업 범위를 복잡한 멀티샷 시퀀싱 및 시청각 통합으로 넓힙니다. 결과적으로, 세분화된 진단 신호를 제공함으로써 EvalVerse는 정적인 리더보드를 초월하여 보상 모델 및 평가 에이전트와 같은 미래 연구를 위한 기본 인프라를 구축합니다.
공간 기반 모델(기초 모델)이 표준 데이터셋에서 인상적인 성능을 입증했지만, 여전히 중요한 질문이 남아 있다. 즉, 이 모델들이 다양한 하위 작업, 임의 시점, 변화하는 장면 도메인, 다양한 입력 밀도, 특정 하드웨어 제약 조건에 걸쳐 강건하게 일반화할 수 있는 진정한 만능 플레이어인가이다. 이 포괄적인 질문에 답하기 위해서는 전체적인 평가가 필요하지만, 현재 모델들은 주로 특정 도메인을 위해 설계되거나 학습되어 해당 도메인에서만 평가되고 있다. 이러한 평가는 본질적으로 좁은 패러다임 범위, 제한된 장면 도메인, 임의 프레임 샘플링에 의해 제한되므로, 진정한 일반화 능력을 평가하기가 근본적으로 어렵다. 이러한 격차를 해소하기 위해, 우리는 결정론적 샘플링을 적용한 교차 패러다임 및 도메인 다양성을 갖춘 공간 기반 모델용 벤치마크인 SpatialBench를 제안한다. SpatialBench는 전례 없는 규모와 엄격한 결정론적 설계를 특징으로 하며, 5개의 다양한 공간 도메인에 걸쳐 총 19개 데이터셋과 546개 장면을 포함한다. 또한 6개 패러다임의 41개 모델을 대상으로 4가지 서로 다른 입력 밀도 설정 하에서 5개 작업군을 포괄적으로 평가한다. 광범위한 평가 결과, 현재 모델은 아직 만능 플레이어가 아니며, 향후 발전을 위한 중요한 통찰력을 제공한다. 특히, 전-문맥 주의집중이 정확도를 극대화하는 반면, 제한된 메모리 전략은 장기 시퀀스 확장성을 가능하게 함을 보여준다. 또한, 까다로운 구현 및 자기중심적 작업에 대한 실증 평가를 통해 엄격한 도메인 정렬과 높은 데이터 품질이 단순한 데이터셋 규모 확장보다 성능에 훨씬 더 중요함을 입증한다. 마지막으로, 분석에서 확인된 가장 큰 데이터 격차를 해소하기 위해 평가를 넘어 대규모 데이터셋인 DA-Next-5M과 강력한 기준 모델인 DA-Next를 도입하여 공간 표현 학습의 경계를 확장한다.
본 논문에서는 MobileGym을 제시한다. 이는 브라우저 기반의 가볍고 완전히 제어 가능한 환경으로, 일상적인 모바일 사용을 대상으로 하며, 독점적인 백엔드를 복제하지 않으면서 상호작용 충실도를 목표로 한다. MobileGym은 일상적인 애플리케이션에서는 이전에 달성할 수 없었던 두 가지 기능을 가능하게 한다: 구조화된 JSON 상태에 대한 결정론적 상태 기반 판정을 통한 검증 가능한 결과 신호, 그리고 저비용 병렬 롤아웃을 통한 확장 가능한 온라인 강화 학습. 전체 환경 상태는 구조화된 JSON으로 포착, 구성, 분기, 비교되며, 단일 서버는 인스턴스당 약 400MB의 메모리와 약 3초의 콜드 스타트로 수백 개의 병렬 인스턴스를 호스팅할 수 있다. 계층적 상태 모델과 선언적 작업 정의 프레임워크는 대규모에서 상태 프로그래밍 가능성과 작업 생성을 실용적으로 유지하며, 단일 프로그래밍 방식 판정 메커니즘은 결정론적 평가 결과와 고밀도 강화 학습 보상을 모두 제공한다. 함께 제공되는 MobileGym-Bench는 28개의 앱에 걸쳐 256개의 테스트 템플릿과 160개의 훈련 템플릿을 포함한 416개의 매개변수화된 작업 템플릿을 제공하며, 결정론적 판정기와 자유 텍스트 매칭 실패를 방지하는 구조화된 AnswerSheet 프로토콜을 갖추고 있다. Sim-to-Real 사례 연구에서 Qwen3-VL-4B-Instruct에 적용된 GRPO는 256개 작업 테스트 세트에서 +12.8%p의 성능 향상을 보였으며, 59개 작업으로 구성된 실제 기기 신호 하위 집합에서는 실제 기기 실행이 시뮬레이션 측 훈련 이득의 95.1%를 유지했다. 프로젝트 페이지: https://mobilegym.github.io.
다중 시점 3차원 재구성은 피드포워드 3차원 재구성 모델의 등장으로 놀라운 진전을 이루었습니다. 그러나 이러한 모델들은 일반적으로 이상적인, 열화 없는 영상 조건에서 훈련 및 평가되는 반면, 실제 세계 관측치는 이러한 설정과 현저히 다른 열화를 포함하는 경우가 많습니다. 따라서 열화된 조건에서 다중 시점 3차원 재구성의 강건성을 향상시키는 것은 여전히 중요한 과제로 남아 있습니다. 우리는 기하학 인식 표현 잡음 제거(Geometry-Aware Representation Denoising, GARD)라는 새로운 프레임워크를 제시합니다. 이는 피드포워드 3차원 재구성 모델의 특징 공간에서 직접 확산 기반 다중 시점 복원을 수행합니다. 이 설계는 3차원 재구성기의 기하학 인식 특징 표현을 활용하여 정확한 장면 기하를 효과적으로 복원합니다. 또한, 추가 RGB 영상 디코더를 사용함으로써 정제된 표현을 고품질 RGB 영상 복원에도 사용할 수 있어, 3차원 장면 기하와 고품질 영상을 동시에 복원할 수 있습니다. Depth Anything 3 (DA3) 벤치마크에 대한 포괄적인 실험을 통해 제안된 GARD 프레임워크의 효과를 입증합니다.
시청각 생성 기술은 짧은 클립에서 분 단위 콘텐츠로 빠르게 발전하고 있지만, 기존 평가 프로토콜은 대부분 짧은 형식에 국한되어 있다. 현재의 벤치마크는 주로 5~10초 길이의 텍스트 조건 생성에 초점을 맞추며, 텍스트, 이미지, 비디오 조건 입력 방식을 통합적으로 평가하는 경우는 드물다. 또한, 정체성 일관성, 서사적 응집성, 시청각 정렬이 시간이 지남에 따라 어떻게 저하되는지에 대한 통찰을 거의 제공하지 않는다. 이러한 격차를 해소하기 위해 우리는 LongAV-Compass를 제안한다. 이는 분 단위 시청각 생성을 위한 체계적인 벤치마크이다. LongAV-Compass는 텍스트-오디오-비디오(T2AV), 이미지-오디오-비디오(I2AV), 비디오-오디오-비디오(V2AV)를 아우르는 284개의 선별된 테스트 케이스를 포함하며, 응용 시나리오와 생성 복잡성에 따라 구성된다. 이 벤치마크는 분류 체계 기반의 벤치마크 구축과 통합 평가 프레임워크를 결합하며, MLLM 지원 평가와 DINO-v2, ArcFace, CLIP, ImageBind를 포함한 보완적 지각 및 다중 모달 메트릭스를 통합한다. 프레임워크는 세그먼트 내 품질, 세그먼트 간 일관성, 전반적 서사 응집성, 의미 정렬, 시청각 동기화를 포함한 20개 이상의 세분화된 차원을 평가한다. 11개 대표 모델에 대한 실험과 인간 정합성 검증을 통해 LongAV-Compass는 다양한 입력 방식에서 일관되고 의미적으로 정렬되며 시간적으로 일관된 분 단위 시청각 생성을 유지하는 데 있어 현재 시스템의 한계를 분석하기 위한 진단적 테스트베드를 제공한다.
확산 대규모 언어 모델(D-LLM)이 자기회귀 대규모 언어 모델(AR-LLM)의 대안으로 등장했음에도 불구하고, D-LLM에 대한 안전성 모니터링은 거의 탐구되지 않고 있다. AR-LLM과 달리 D-LLM은 다단계 노이즈 제거 과정을 통해 텍스트를 생성하며, 이 과정에서 중간 은닉 표현이 노출된다. 이러한 표현은 표준 단일 단계 모니터링 설정에서는 확인할 수 없는 안전 관련 정보를 포함할 수 있다. 경량 프로브가 상시 모니터링에 적합하다는 점에 착안하여, 본 연구에서는 프로브가 어려움을 겪을 가능성이 높을 때 이를 가장 잘 나타내는 궤적 수준 신호를 분석한다. 가장 정보량이 많은 신호는 안전성 주저(safety hesitation), 즉 중간 은닉 상태가 프로브의 결정 경계 근처 좁은 범위 내에 반복적으로 위치하는 것임을 발견했다. D-LLM 궤적 내에서 이러한 주저 단계의 수는 프로브 실패를 효과적으로 예측하며, 이는 샘플 난이도의 대리 지표 역할을 한다. 이 분석을 바탕으로, 우리는 D-LLM을 위한 이중 수준 안전성 모니터인 D^2-Monitor를 제안한다. D^2-Monitor는 경량 프로브를 상시 모니터로 채택하여 주저를 추정하고 기본 분류를 동시에 수행한다. 주저 수준이 임계값을 초과하면, 더 높은 표현력과 계산 비용을 가진 프로브가 활성화된다. 이러한 동적 라우팅 메커니즘은 테스트 시간에 모니터링 자원을 효율적으로 할당한다. 4개의 D-LLM에 걸쳐 3개의 데이터셋(WildguardMix, ToxicChat, OpenAI-Moderation)에서 평가한 결과, D^2-Monitor는 0.85M 이하의 소형 파라미터 발자국으로 최첨단 성능을 달성했으며, 8개의 기준 모델 대비 효과성과 효율성 간 최상의 절충을 보였다.
MiniMax-M2 시리즈를 소개합니다. 이는 소규모 활성화가 실제 세계의 최대 지능을 발휘할 수 있다는 원칙을 바탕으로 구축된 혼합 전문가 언어 모델 제품군입니다. 주력 모델인 M2는 총 2,299억 개의 파라미터를 보유하며, 토큰당 98억 개만 활성화됩니다. 에이전트 배포를 위해 종단 간 설계된 M2 시리즈는 세 가지 구성 요소로 구성됩니다: (i) 각각 실행 가능한 작업 공간과 산출물 정렬 보상에 기반한 에이전트 코딩 및 에이전트 협업 전반에 걸쳐 대규모의 검증 가능한 궤적을 생성하는 에이전트 중심 데이터 파이프라인; (ii) 장기적 에이전트 궤적에 적응하는 확장 가능한 에이전트 네이티브 강화학습 시스템인 Forge와 윈도우 FIFO 스케줄링, 접두사 트리 병합, 추론 최적화, 그리고 화이트박스 및 블랙박스 에이전트를 모두 지원하는 깔끔한 훈련-추론-에이전트 분리; (iii) 최신 M2.7 체크포인트는 훈련 실행을 자율적으로 디버깅하고 자체 스캐폴드를 수정하는 초기 자기 진화 단계를 구현합니다. M2부터 M2.7까지 이러한 조합은 소규모 활성화 풋프린트를 에이전트 코딩, 심층 검색, 사무 작업, 추론 벤치마크에서 최첨단 성능으로 전환합니다.
본 연구는 시리즈 수준의 영화적 리메이킹(series-level cinematic remaking)을 다룬다. 이는 전체 에피소드나 영화를 스타일화 또는 배우 교체를 통해 변환하는 장기적 비디오-대-비디오 생성 문제로, 수백 개의 샷에 걸쳐 서사 구조, 동작 안무, 캐릭터 정체성을 엄격히 보존해야 한다. 기존의 비디오 생성 및 편집 파이프라인은 큰 카메라 움직임과 시점 변화 하에서 누적되는 정체성 표류(identity drift), 배경 변이(background mutation), 의미론적 침식(semantic erosion)으로 인해 이러한 영역에서 종종 실패한다. 본 논문에서는 이중 브리지 일관성(Dual-Bridge Consistency) 메커니즘을 통해 장기적인 언어-시각 일관성을 강제하는 다중 에이전트 프레임워크인 Soap2Soap을 제안한다. 이 메커니즘은 지속적인 의미론적 백본 역할을 하는 장면 인식 JSON 각본과 장면 및 샷 수준에서 동적으로 할당되는 시각적 참조 앵커로 구성된다. 비디오 합성 전 드리프트를 억제하기 위해 배치 키프레임 일관성(batch keyframe consistency)을 도입하여 그리드 기반 공식을 통해 공유 잠재 컨텍스트에서 여러 키프레임을 공동 생성한다. 또한 폐쇄 루프 검증 에이전트가 정체성, 안정성, 정렬을 감사하여 선택적 재생성을 트리거한다. SoapBench 실험 결과, 장기적 일관성과 서사 충실도 측면에서 상용 비디오 생성 API 대비 강력한 성능 향상을 보여준다.
테스트-타임 스케일링(TTS)은 대규모 언어 모델의 추론 능력을 향상시키기 위해 추가적인 추론 계산을 할당하여 해 공간을 탐색한다. 그러나 기존의 병렬 TTS 방법은 일반적으로 탐색 과정에서 분기 간의 고립을 유지한다. 중간 발견 사항은 각 분기 내에서만 공유되며, 다른 분기들이 이를 적시에 활용할 수 없다. 이러한 정보 고립은 분기들이 이미 다른 곳에서 발견된 정보를 반복적으로 재발견하게 하고, 올바른 답변에 도달하기 위해 필요한 완전한 결정 정보를 수집하는 데 더 많은 탐색 단계를 요구함으로써 상당한 중복 탐색을 초래한다. 이러한 한계를 극복하기 위해, 우리는 협력적 병렬 사고(CPT)를 제안한다. 이는 학습이 필요 없는 추론 프레임워크로, 병렬 분기 간 탐색 시점의 정보 공유를 가능하게 한다. CPT는 진행 중인 분기로부터 간결한 중간 정보를 추출하고, 중복 제거된 쿼리 수준의 정보 풀을 유지하며, 이 풀의 항목들을 입력 컨텍스트를 통해 브로드캐스트하여 이후 탐색 단계에서 각 분기가 다른 분기의 발견을 재활용할 수 있게 한다. 즉, 동일한 정보를 재발견하지 않도록 한다. 실증적으로, HMMT 및 AIME 벤치마크에서의 실험 결과, CPT는 롤아웃 예산과 모델 규모 전반에 걸쳐 강력한 기준선 대비 더 우수한 정확도-지연 시간 파레토 전선을 구축함으로써, 효율적인 병렬 TTS를 위한 효과적인 방향으로서 탐색 시점의 협력의 가치를 입증한다.
우리는 LLaVA-OneVision 시리즈 중 현재까지 가장 강력한 비전-언어 모델인 LLaVA-OneVision-2(LLaVA-OV-2)를 소개합니다. 이 모델은 다양한 멀티모달 벤치마크에서 뛰어난 성능을 달성합니다. 본 모델은 네이티브 OneVision-Encoder를 기반으로 구축되었으며, 네이티브 해상도를 유지하면서 효율적인 지역 연산을 위해 Windowed Attention을 통합했습니다. 핵심적인 발전은 코덱-스트림 토큰화(codec-stream tokenization)입니다: 압축된 비디오를 연속적인 비트-비용 스트림으로 처리하여, 비트-비용 동역학이 적응형 시간 그룹을 결정하고, 움직임-잔차 신호가 공간적 증거를 선택하여 간결한 시각적 캔버스(visual canvases)로 구성합니다. 이 할당 방식은 제한된 토큰 예산을 이벤트 중심 콘텐츠에 집중시켜, 고정된 픽처 그룹보다 더 안정적인 장기 비디오 토큰 압축을 가능하게 합니다. 공유된 3D RoPE는 코덱 캔버스, 샘플링된 프레임, 이미지를 통합된 시공간 좌표계에 배치합니다. 또한, LLaVA-OV-2 데이터 및 학습 스택을 대규모 공개 감독 주변에 구축했습니다: 사전 학습을 위해 약 800만 개의 재캡션된 비디오 샘플, 미세 조정을 위한 400만 개 샘플의 공간 코퍼스입니다. 또한, 고주파수, 고밀도 반복 움직임에서의 세분화된 접지를 대상으로 하는 시간적 위치 파악 벤치마크인 JumpScore를 도입합니다. 이는 기존 비디오 평가에서 과소 대표된 영역입니다. LLaVA-OV-2의 두드러진 능력은 비디오 이해, 시간적 접지, 공간적 접지, 조작-추적 추론에 걸친 통합된 인식입니다. JumpScore에서 LLaVA-OneVision-2-8B는 74.9 JumpScore mAP에 도달하여, Qwen3-VL-8B(30.1)를 +44.8포인트 초과합니다; 동일한 벤치마크에서 일치된 시각적 토큰 예산 하에서, 코덱-스트림 입력은 프레임 샘플링 대비 시간적 접지를 +9.7포인트 향상시킵니다. 표준 벤치마크에서 LLaVA-OneVision-2-8B는 Qwen3-VL-8B를 비디오 작업에서 평균 +4.3포인트, 공간 작업에서 +5.3포인트, 추적 작업에서 평균 J&F +15.6포인트 더 능가합니다.
현대 대규모 언어 모델(LLM)의 정규화 층은 결정적 정규화 연산과 학습 가능한 스케일 벡터로 구성된다. 정규화 연산은 광범위하게 연구된 반면, 스케일 벡터는 보편적으로 사용됨에도 불구하고 그 이해는 부족한 실정이다. 본 연구에서는 표현력, 최적화, 구조적 구조의 관점에서 LLM의 스케일 벡터에 대한 체계적인 분석을 제시한다. 먼저, 스케일 벡터가 모델 매개변수의 무시할 만한 비율을 차지함에도 불구하고 이를 제거하면 LLM 사전 학습 성능이 현저히 저하된다는 것을 실험적으로 보여준다. 또한 이론적으로 Pre-Norm 구조에서 스케일 벡터는 표현력을 증가시키지 않으며, 대신 후속 선형 매핑에 대한 자기 증폭 선조건 효과를 통해 최적화를 개선함을 증명한다. 둘째, 스케일 벡터에 대한 가중치 감쇠의 역할을 조사한다. 입력-정규화 층과 출력-정규화 층을 구분함으로써, 이들이 최적화와 표현력에서 서로 다른 역할을 수행하기 때문에 전자에는 가중치 감쇠가 유리하고 후자에는 해롭다는 것을 이론적으로 보인다. 셋째, 이러한 이해를 바탕으로 스케일 벡터에 대한 세 가지 경량화된 상호 보완적 개선 방안, 즉 분기별 이질성, 선형 매핑 주변의 배치 개선, 크기-방향 재매개변수화를 제안한다. 이론과 실험 모두 각 개선 방안이 일관된 성능 향상을 가져옴을 보여준다. 마지막으로 이러한 개선 방안을 통합된 스케일-벡터 전략으로 결합하고, 산업 규모의 토큰 예산 하에서 여러 최적화기와 학습률 스케줄을 사용하여 0.12B에서 2B 매개변수 범위의 밀집 모델 및 혼합 전문가 모델에 대한 광범위한 LLM 사전 학습 실험을 통해 평가한다. 통합 전략은 잘 튜닝된 기준 모델보다 일관되게 낮은 최종 손실을 달성하고 더 유리한 스케일링 행동을 보여주며, 매개변수 및 계산 오버헤드는 무시할 수 있는 수준이다.
비전-언어-행동(VLA) 모델은 사전 훈련된 비전-언어 모델(VLM)을 정책 백본으로 널리 채택하지만, 어떤 종류의 사전 훈련된 VLM 표현이 VLA 초기화로 유용한지는 아직 명확하지 않다. 본 논문에서는 VLA 초기화를 능력 수준의 구현형 VQA 감독, 파라미터 업데이트 전략, 로봇 데이터 사전 훈련이라는 세 가지 축을 따라 통제된 표현 설계 문제로 연구한다. 실험 결과, 원래 사전 훈련된 VLM 표현이 행동 성능의 핵심 원천임을 보여준다. 그러나 구현형 VQA 적응이 균일한 이득을 제공하지는 않는다. 그 이점은 하위 병목 현상에 따라 달라지며, 서로 다른 능력 영역에서 얻은 이득이 단순히 가산적이지 않다. 업데이트 전략의 경우, LoRA가 전체 미세 조정보다 더 신뢰할 수 있는 초기화를 제공하는데, 이는 사전 훈련된 표현을 과도하게 변형하면 VLA 초기화가 약화될 수 있음을 시사한다. 로봇 데이터 사전 훈련은 VLA 초기화를 더욱 개선하며, 가장 강력한 변형은 단계적 LoRA 기반 훈련을 통해 얻어진다. 이러한 결과를 종합하면, 효과적인 VLM-to-VLA 적응은 행동 학습에 유용한 사전 훈련된 VLM 표현을 유지하면서 행동 관련 구현형 및 로봇 궤적 신호를 주입해야 함을 시사한다.
흐름 매칭(flow matching)에서 청정 데이터 예측(clean-data prediction)은 원시 점(clean point)에 대한 회귀가 주변 잡음이 포함된 양(ambient noised quantity)을 예측하는 것보다 저차원 구조를 더 효과적으로 활용할 수 있음을 보여주었다. 우리는 이미지가 학습된 잠재 공간으로 매핑된 후, 압축이 이미 원시 픽셀 변동성의 대부분을 제거한 상황에서 이 원리가 여전히 유용한지 질문한다. 우리는 고정된 FLUX.2 VAE 코드 위에 구축된 130M 규모의 잠재 확산 트랜스포머인 JLT를 소개하고, 동일한 표현, 백본, 훈련 설정 하에서 청정-잠재 예측(clean-latent prediction)과 정합된 속도-예측 DiT(velocity-prediction DiT)를 비교한다. 세 변수 x, 엡실론, v가 고정된 변형 시간(corruption time)에 대해 선형적으로 변환 가능하지만, 국소 가우시안 분석은 속도 회귀(velocity regression)가 등방성 목표-공분산 하한(isotropic target-covariance floor)을 상속받고 낮은 분산의 잠재 방향을 증폭시키는 반면, 청정 예측(clean prediction)은 이를 감쇠시킴을 보여준다. ImageNet 256 x 256에서, JLT-B/1은 분류기-자유 유도(classifier-free guidance)를 사용하여 FID-50K 2.50을 달성하며, 속도 예측에 비해 큰 정합-목표 차이(matched-target gap)를 보인다. 이러한 결과는 잠재 확산(latent diffusion)에서 예측 대상이 상호 교환 가능한 대수적 매개변수화(interchangeable algebraic parameterizations)라기보다는 표현에 의존적인 기하학적 선택(representation-dependent geometric choices)임을 시사한다.
에이전틱 강화학습(Agentic RL)은 외부 도구 사용 능력을 갖춘 LLM 기반 에이전트를 학습시키는 데 효과적임이 입증되었다. 그러나 본 연구에서는 에이전틱 RL 학습이 중복된 도구 호출을 증가시키고, 모델이 도구가 필요한 경우와 파라메트릭 지식만으로 충분한 경우를 구분하지 못하게 하여 모델 고유의 지식 경계선을 흐리게 한다는 점을 확인하였다. 보상 형성에 기반한 기존 해결 방법은 조잡한 수준의 최적화 목표를 생성하여 무차별적인 도구 호출 억제를 조장하는 경향이 있으며, 이는 보상 해킹으로 이어진다. 본 논문에서는 훈련 중 이중 경로(도구 사용 및 미사용) 롤아웃을 통해 모델의 고유한 지식 경계선을 동적으로 탐색하는 정책 기반 방법인 AKBE(Agentic Knowledge Boundary Enhancement)를 제안한다. 지식 경계선은 도구가 필요한지 여부와 필요한 최소 도구 호출 수에 대한 인스턴스별 판단으로 정의된다. AKBE는 경로 간 정확도를 비교하여 궤적을 분류하고, 각 질문에 대해 효율적인 도구 사용 패턴을 안내하는 표적화된 감독 신호를 구성한다. 이러한 신호는 에이전틱 RL 학습 루프에 원활하게 통합된다. 7개의 QA 벤치마크에 대한 실험 결과, AKBE는 표준 에이전틱 RL 대비 작업 정확도를 평균 +1.85 향상시키고 도구 호출을 18% 감소시켰으며, 정확도-효율성 트레이드오프 없이 도구 생산성을 25% 높였다. 추가 분석은 다양한 RL 알고리즘 간의 플러그 앤 플레이 호환성과 각 신호 범주의 메커니즘을 시사한다. 본 연구의 코드는 https://github.com/CuSO4-Chen/AKBE에서 확인할 수 있다.
대규모 언어 모델(LLM) 에이전트는 재사용 가능한 스킬에 의존하여 복잡한 작업을 해결한다. 그러나 기존의 스킬 생성 접근법은 스킬을 고립되고 정적인 인공물로 취급하여 재사용성, 신뢰성 및 장기적인 개선을 제한한다. 본 논문에서는 MUSE-Autoskill Agent(Memory-Utilizing Skill Evolution)를 제안한다. 이는 에이전트가 통합된 수명 주기(생성, 기억, 관리, 평가, 개선) 하에서 스킬을 생성, 재사용 및 개선함으로써 작업 해결 능력을 지속적으로 향상시킬 수 있도록 하는 스킬 중심 에이전트 프레임워크이다. 제안된 프레임워크는 에이전트가 필요에 따라 스킬을 생성하고, 작업 간에 저장 및 재사용하며, 효율적으로 구성 및 선택하고, 단위 테스트와 런타임 피드백을 통해 평가하여 지속적으로 개선할 수 있게 한다. 또한, 각 스킬에 대해 작업 간 경험을 축적하는 스킬 수준의 기억을 도입하여 시간이 지남에 따라 더 효과적인 재사용과 적응을 가능하게 한다. SkillsBench에서의 실험은 수명 주기 관리된 스킬이 작업 성공률, 효율성, 재사용성 및 에이전트 간 전이를 향상시킬 수 있다는 초기 증거를 제공하며, 스킬을 장기적이고 경험 인식 가능하며 테스트 가능한 자산으로 취급하는 것의 중요성을 강조한다.
소셜 디덕션 게임은 대규모 언어 모델(LLM) 에이전트의 추론, 기만, 협력 및 신념 모델링을 탐구하기 위한 인기 있는 테스트베드가 되어 왔다. 그러나 대부분의 환경은 승률과 같은 게임 결과로만 평가되며, 주로 텍스트 기반 상호작용에 머물러 있어, 에이전트의 언어가 실제로 인지하고 행동한 내용에 근거하는지, 혹은 행동의 기저에 있는 실패 모드를 식별하기 어렵다. 이러한 격차를 해소하기 위해, 우리는 다중 모달 사회적 추론에서 에이전트 언어의 근거(grounding)를 감사(audit)하기 위한 오픈소스 환경 및 평가 프레임워크인 QUACK을 소개한다. QUACK은 게임 결과, 행동 궤적, 발화 수준의 일관성이라는 세 가지 수준에서 에이전트를 평가한다. 핵심 요소인 주장 검증 파이프라인(Statement Verification Pipeline)은 엔진 로그에서 각 에이전트의 실제 궤적을 재구성하고, 모든 토론 주장을 이와 대조하여 공간적 환각(spatial hallucination), 근거 없는 비난, 기만 붕괴, 언어-행동 불일치를 자동으로 식별한다. 동일 모델 및 교차 모델 적대 설정에서 세 가지 최첨단 VLM을 평가한 결과, 가장 강력한 에이전트조차 검증 가능한 공간적 주장의 15.1%에서 환각을 보였고, 비난의 절반 이상을 근거 없이 수행했다. 전체 엔진, 평가 프레임워크, 툴킷 및 로그는 https://github.com/AAAAA-Academia-Attractions/QUACK에서 공개한다.
검증 가능한 보상을 통한 강화 학습 기반 시각적 추론(RLVR)이 놀라운 진전을 이루었다. 그러나 다중 소스 입력을 다룰 때 기존 접근법은 이를 단순한 정보의 축적으로 취급하며, 추가 소스를 통합하는 것이 정보 이득을 가져오는지 간섭을 유발하는지 구별하는 명시적 메커니즘이 부족하다. 따라서 특히 적외선 및 깊이와 같이 물리적 속성과 의미론에서 현저히 다른 다중 소스를 통합할 때 동적 상호작용을 효과적으로 모델링하는 데 어려움을 겪으며, 특정 소스가 지배적 신호를 보유할 때 단일 소스 추론보다 성능이 저하된다. 이 문제를 해결하기 위해 우리는 각 시각적 모달리티를 독립적인 정보 소스로 모델링하는 새로운 단일 앵커 다중 소스 추론 프레임워크인 MARS를 제안한다. 구체적으로, 단일 소스 보상을 동적 앵커로 처리함으로써, 우리 방법은 다중 소스 융합으로 인한 정보 이득을 이점 정규화에 명시적으로 포함시키고, RLVR 과정에서 잠재적인 노이즈나 충돌을 억제하면서 소스 간 상호 촉진을 적응적으로 강조한다. 이론적 분석을 통해, 우리 방법은 그래디언트 추정에서 다중 소스 통합이 도입하는 정보 이득을 효과적으로 정량화하여 일관된 모달리티 조절을 가능하게 한다. 실험 결과는 또한 GRPO와 DAPO에서 다양한 데이터셋에 걸쳐 각각 3.2% 및 4.9%의 인상적인 성능 향상을 보여주며, 우리 방법의 효과성을 확인한다.
대규모 언어 모델(LLM)은 실세계 작업에서 사용자와 협력하는 대화형 에이전트로 진화하고 있다. 이러한 환경에서의 효과적인 협업은 사용자가 명시적으로 언급한 내용을 넘어서는 이해에 점점 더 의존하게 되는데, 이는 사용자 의도가 단편적인 일상 상호작용에 반영되는 경우가 많고 개인화된 모델링과 능동적 상호작용을 모두 필요로 하기 때문이다. 그러나 기존의 에이전트 벤치마크는 주로 추론과 도구 사용을 평가할 뿐, 현실적인 시나리오에서 사용자 선호도를 추론하고 활용하는 문제는 대체로 간과해 왔다. 이러한 격차를 해소하기 위해, 우리는 장기적인 사용자 상호작용에서 개인화되고 능동적인 에이전트 행동을 평가하기 위한 벤치마크인 VitaBench 2.0을 소개한다. VitaBench 2.0에서 작업은 개별 사용자에 대해 시간 순서대로 정렬된 시퀀스로 구성되며, 선호도는 단편적이고 이질적인 상호작용에 내재되어 있다. 작업을 성공적으로 완료하려면 에이전트가 이러한 상호작용으로부터 사용자 선호도를 지속적으로 추출하고 활용하며 갱신해야 한다. 또한, 에이전트가 누락된 정보를 인식하고 결정을 내리기 전에 사용자 또는 환경으로부터 적극적으로 이를 획득해야 하는 작업을 통해 능동성을 평가한다. 체계적인 분석을 지원하기 위해, 확장 가능한 메모리 인터페이스를 제공하여 다양한 메모리 아키텍처 간의 통제된 비교를 가능하게 한다. 우리는 다양한 최첨단 독점 및 오픈소스 LLM을 벤치마킹했다. 결과는 최첨단 모델조차도 실세계 개인화에 여전히 큰 어려움을 겪고 있음을 보여주며, 현재의 역량과 실질적 요구 사이에 상당한 격차가 있음을 드러낸다. 추가적인 심층 분석은 실세계 개인화 의사결정에서 현재 에이전트의 실패 양상과 역량 병목 현상을 밝혀내어, 향후 모델 개선을 위한 통찰력을 제공한다.
활성화 오라클은 다른 모델의 활성화를 인간이 이해할 수 있도록 만드는 것을 목표로 하며, 화이트박스 해석 가능성 기술과 비교하여 유망한 결과를 제공한다. 그러나 이러한 활성화 오라클의 자연어 출력에 대한 불확실성 정량화(UQ)는 현재까지 충분히 연구되지 않았다. 본 연구에서는 활성화 오라클의 신뢰도를 추정하는 6가지 방법을 조사하고, 이들의 신뢰도 점수가 얼마나 잘 보정(calibration)되었는지 평가한다. 오라클당 6,000개 샘플(verbalizer와 컨텍스트 프롬프트를 다양하게 변화)에 대한 실험 결과, 부트스트랩 모드 빈도(bootstrap mode frequency)가 테스트된 방법 중 가장 잘 보정된 방법임을 확인했다(Qwen3-8B에서 응답 단어 로그 확률 대비 ECE 5.7% 대 25.5%; Qwen3.6-27B에서 10.3% 대 13.1%). 또한 로그 확률 기준선(log-prob baseline)은 적은 비용으로 빠른 분류 신호(triage signal) 역할을 할 수 있다. 코드와 패치된 트레이너는 https://github.com/federicotorrielli/probabilistic_activation_oracles에서 확인할 수 있다.
대규모 언어 모델(LLM)은 추론하고, 도구를 사용하며, 여러 단계에 걸쳐 행동하는 자율 에이전트로 점점 더 많이 배치되고 있다. 그러나 대부분의 환각 벤치마크는 여전히 최종 출력만 평가할 뿐, 중간 단계의 사고-행동-관찰(Thought-Action-Observation) 과정에서 발생하는 오류는 간과하고 있다. 본 논문에서는 다중 에이전트 산업 워크플로우에서 궤적 수준의 환각을 감사(audit)하기 위한 데이터셋이자 평가 프레임워크인 Trajel을 제시한다. Trajel은 AssetOpsBench의 전문가 주석 에이전트 추적(trace)을 기반으로 다섯 가지 유형의 환각 분류 체계(사실적, 참조적, 논리적, 절차적, 범위 기반)를 도입한다. 우리는 하위 작업, 궤적, 장문맥 수준에서 지도 학습 기반 탐지 모델을 평가한다. 실험 결과, 가장 흔한 오류 유형은 기존 벤치마크에서 놓치고 있으며, 환각 궤적의 절반 가까이는 여러 유형이 동시에 발생하며, 이진 정확도가 높은 자동 탐지기조차도 가장 미묘한 유형을 잘못 분류함을 보여준다. 궤적 인식 탐지(trajectory-aware detection)는 표준 사후 검증(post-hoc verification)보다 훨씬 우수한 성능을 보이며, 더 안전한 에이전트 배치를 위해 분류 체계에 기반한 평가가 필수적임을 시사한다.
다중 에이전트 LLM 시스템은 여러 에이전트의 출력을 결합하여 추론 성능을 개선하지만, 상호작용이 많은 방법은 오류 전파와 높은 통신 오버헤드를 초래할 수 있다. 에이전트가 원시 응답이나 추론 추적을 교환할 때, 부정확한 중간 추론이 수용되어 증폭될 수 있으며, 이는 확신에 찬 잘못된 합의로 이어질 수 있다. 또한, 다중 라운드 통신은 토큰 소비, 지연 시간 및 추론 비용을 증가시킨다. 본 논문에서는 DarkForest라는 통제된 통신 조정 프레임워크를 제안한다. DarkForest는 먼저 에이전트를 독립적으로 유지하여 각 에이전트가 다른 에이전트의 출력을 보지 않고 답변을 생성하도록 한다. 그런 다음 원시 응답을 구조화된 후보 기록으로 파싱하고, 의미적으로 동등한 후보를 클러스터로 그룹화하며, 에이전트 신뢰도, 확신도, 파싱 품질, 지원 패턴 신뢰도 및 독립성 보정을 사용하여 이러한 클러스터에 대한 보정된 신뢰 분포를 추정한다. 조정기는 통제된 통신을 통해 이 신뢰 상태에서 정책이 허용하는 증거만을 수신한다. 6가지 추론 벤치마크에 대한 실험 결과, DarkForest는 전반적으로 최고의 품질을 달성하고, 가장 강력한 기준 모델 대비 벤치마크 지표에서 최대 30.7% 개선되었으며, 통신 집약적 기준 모델 대비 토큰 소비를 최대 6.5배까지 감소시킨다.
Mixture-of-Experts (MoE)은 수천억 개의 파라미터를 가진 언어 모델의 사실상 표준 아키텍처가 되었지만, 온디바이스 배포를 위한 10억 미만 규모에서의 장점은 아직 거의 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 0.3~0.9B의 활성 파라미터와 1.3~5.3B의 전체 파라미터를 가진 온디바이스 MoE 언어 모델 제품군인 MobileMoE를 제시하며, 이는 온디바이스 LLM을 위한 새로운 파레토 최적 경계를 구축합니다. 먼저 모바일 메모리와 연산 제약 조건 하에서 MoE 아키텍처를 공동 최적화하는 온디바이스 MoE 스케일링 법칙을 공식화하여, 메모리와 연산 측면 모두에서 최적인 온디바이스 최적점—적절한 희소성과 세분화된 공유 전문가—을 식별합니다. 도출된 아키텍처를 바탕으로, 사전 학습, 중간 학습, 명령어 미세 조정, 양자화 인식 학습을 포함하는 4단계 레시피를 통해 MobileMoE를 학습하며, 이 모든 과정은 오픈소스 데이터셋에서 이루어집니다. 14개의 벤치마크에서 MobileMoE는 추론 FLOPs가 2~4배 적은 선도적인 온디바이스 밀집 LLM과 동등하거나 더 나은 성능을 보이며, 최대 60% 적은 파라미터로 최신 MoE인 OLMoE-1B-7B와 동등하거나 능가합니다. 모바일 배포까지의 마지막 단계를 연결하기 위해, 우리는 상용 스마트폰에서 효율적인 MoE 추론을 최초로 제공하며 포괄적인 온디바이스 프로파일링을 수행합니다. 동등한 INT4 가중치 메모리에서 MobileMoE-S는 밀집 기준선인 MobileLLM-Pro보다 프리필에서 1.8~3.8배, 디코드에서 2.2~3.4배 더 빠른 속도를 제공합니다.
주제 기반 이미지 생성은 주어진 주체의 정체성을 유지하면서 텍스트 지시를 따르는 새로운 이미지를 합성하는 것을 목표로 한다. 기존 접근법은 종종 텍스트와 참조 이미지를 별도로 인코딩하며, 이는 교차 모달 추론 능력을 제한하고 복사-붙여넣기 인공물을 초래한다. 최근 다중 모달 모델과 확산 모델을 연결하는 프레임워크는 지시 수행 능력을 향상시키지만, 정체성 유지는 대부분 간과한다. 이러한 한계를 해결하기 위해, 우리는 텍스트와 참조 이미지를 공동으로 인코딩하는 다중 모달 대규모 언어 모델(MLLM)에 확산 모델을 조건화하고, VAE 기반 정체성 조건화로 이를 보강한다. 최적의 조건화를 위해 다중 수준 MLLM 특징을 집계하는 새로운 이중 계층 집계(DLA) 모듈을 설계하고, 추론 과정에서 MLLM의 의미 정보와 VAE의 세부 정체성을 점진적으로 균형 맞추기 위해 다단계 잡음 제거 전략을 적용한다. 광범위한 실험을 통해 우리의 접근 방식이 다중 모달 이해와 정체성 유지를 조화시키고, 복사-붙여넣기 문제를 완화하며, 주제 기반 이미지 생성에서 인간 선호도 측면에서 우수한 성능을 달성함을 입증한다. 프로젝트 웹사이트는 https://zsh2000.github.io/squeeze-mllm-subject-gen/에서 확인할 수 있다.
본 논문에서는 비디오, 오디오, 이미지, 텍스트 모달리티를 통합 표현 공간에 임베딩할 수 있는 네이티브 멀티모달 임베딩 모델인 Gemini Embedding 2를 소개한다. Gemini의 멀티모달 능력을 활용하여, 다양한 작업에 걸쳐 잘 일반화되는 이러한 모든 모달리티에 걸친 임의의 인터리브 입력 조합에 대한 임베딩을 생성한다. 다중 작업, 다중 단계 훈련 설정에서 대규모 대조 학습을 적용함으로써, 다양한 작업으로 구성된 단일 모달, 교차 모달 및 멀티모달 검색을 포함한 주요 임베딩 벤치마크에서 최고 수준의 성능을 달성한다. 제안된 임베딩 모델은 다양한 작업에서 MSCOCO R@1 62.9, Vatex NDCG@10 68.8, MTEB 다국어 69.9, MTEB Code 84.0의 강력한 성능을 보여주며, 특화 모델들의 성능을 능가한다. 이러한 통합된 능력은 Gemini Embedding 2를 RAG, 추천 및 검색과 같은 다운스트림 사용 사례에 유망한 후보로 만든다. 또한, 천문학 및 생명과학에서부터 순수 예술 및 요리 예술에 이르기까지 여러 분야에서의 강력한 제로샷 성능은 특수 도메인에서도 높은 신뢰성을 지닌 즉시 사용 가능한 표현 모델로서의 입지를 확립한다.
최근 대규모 언어 모델(LLM)의 발전으로 인해 LLM이 추론, 계획, 도구 사용이 가능한 대화형 에이전트로 광범위하게 배포되고 있다. 기존 벤치마크에서 뛰어난 성능을 보임에도 불구하고, 이러한 에이전트는 환경이 본질적으로 확률적이고 불완전한 실제 환경에 배치될 때 종종 현저한 성능 저하를 보인다. 우리는 이러한 차이가 이상적인 훈련 환경과 실제 상호작용 역학 간의 근본적인 불일치에서 비롯되며, 현재 패러다임은 신중하게 선별된 작업 지시와 안정적이고 잘 통제된 환경에 의존하고 있기 때문이라고 주장한다. 이러한 간극을 해소하기 위해, 우리는 환경적 불완전성을 에이전트 학습 과정에 명시적으로 통합하는 에이전트 훈련 프레임워크인 NoisyAgent를 제안한다. 실제 시나리오에서 발생하는 상호작용 잡음의 두 가지 주요 원천을 식별한다: 사용자 상호작용의 모호성과 가변성을 포착하는 사용자 잡음, 그리고 도구 실행의 실패와 이상 현상을 반영하는 도구 잡음이 그것이다. 우리는 훈련 환경 내에서 사용자 상호작용 패턴을 수정하고 도구 실행 결과를 시뮬레이션함으로써 이러한 섭동을 훈련 파이프라인에 도입한다. 훈련을 안정화하면서 에이전트가 점점 더 어려운 불완전성을 처리하도록 장려하기 위해, 잡음은 일부 롤아웃에만 적용되며 모델이 현재 잡음 수준에 적응함에 따라 점진적으로 난이도가 증가한다. 광범위한 실험을 통해 우리의 접근 방식이 잡음이 있고 역동적인 환경에서 에이전트의 강건성을 지속적으로 향상시킴을 입증한다. 분석 결과, 잡음 조건에서 훈련하는 것이 이상적인 벤치마크에서도 성능 향상을 가져오며, 이는 통제된 환경 잡음 노출이 보다 일반화 가능한 추론 및 의사 결정 행동을 촉진함을 시사한다. 본 연구 결과는 에이전트 훈련과 실제 배포 간의 간극을 해소하기 위해 상호작용 불완전성을 모델링하는 것의 중요성을 강조한다.
LLM 기반 GPU 커널 생성 에이전트는 빠르게 발전하고 있지만, 그 진전은 본질적으로 최적화 대상이 되는 벤치마크에 의해 제약을 받는다. 기존 벤치마크는 프로덕션 추론 프레임워크와의 정합성이 낮다. 즉, 단일 GPU에서 합성 입력을 사용해 커널을 평가하고, 주변 컴파일레이션 스택을 무시하며, 새로운 최적화를 발견하기보다는 기존 최적화를 복제하는 것을 보상한다. 그 결과로 얻어지는 보상 신호는 오해의 소지가 있다. 에이전트는 샌드박스에서 좋은 점수를 받는 커널을 생성하는 법을 배우지만, 실제 시스템에 통합될 때 인터페이스 비호환성, 컴파일레이션 스택 충돌, 조용한 정확도 저하를 초래한다. 본 논문에서는 FastKernels를 소개한다. 이는 8개 범주에 걸친 최소 46개의 대표 아키텍처를 기반으로 구축된 커널 벤치마크로, 해당 커널들은 HuggingFace Transformers 아키텍처의 96.2%(409/425)를 포괄한다. FastKernels는 미니멀리즘적이면서도 프로덕션 수준의 추론 프레임워크 역할을 겸하며, 주류 LLM 서빙에서 vLLM 및 SGLang과 같은 검증된 시스템과 동등한 성능을 내고, 서비스가 부족한 아키텍처에서는 상위 참조 구현을 크게 능가한다. 각 태스크의 인터페이스는 해당 아키텍처 패밀리에서 최신 라이브러리의 대응 모듈을 미러링하여, 최적화된 커널을 프로덕션 코드베이스에 직접 배포할 수 있게 한다. FastKernels에서 최첨단 커널 에이전트를 평가한 결과, 가장 강력한 에이전트조차 프로덕션 베이스라인 대비 총 0.94배의 속도 향상에 그쳤으며, 더 약한 에이전트는 각각 0.78배와 0.53배에 머물렀다. 이는 벤치마크-프로덕션 간의 정합성 부족이 해당 분야의 핵심 병목임을 확인시켜준다. 우리는 FastKernels를 커널 에이전트의 벤치마크 성과가 프로덕션 처리량 개선으로 직접 이어질 수 있는 발판으로 공개한다. 코드는 https://github.com/Snowflake-AI-Research/fastkernels에서 확인할 수 있다.
대규모 언어 모델은 방대한 웹 코퍼스에서 학습되기 때문에 민감 정보(유해한 생성을 유발할 수 있는 입력으로 정의됨)를 필연적으로 보유하게 되며, 이는 프라이버시와 안전에 대한 우려를 제기한다. 기존의 기계 언러닝 방법은 주로 재학습이나 과격한 미세 조정에 의존하는데, 이는 계산 비용이 많이 들거나 관련 지식과 전반적인 모델 유용성을 저하시키기 쉽다. 본 연구에서는 기계 언러닝을 모델 편집을 통한 정밀한 지식 재매핑 문제로 재정의한다. 우리는 퓨샷 언러닝 프레임워크인 ZeroUnlearn을 제안한다. 이는 민감 입력을 중립적인 목표 상태에 매핑하고 원래의 표현을 제거함으로써 덮어쓴다. ZeroUnlearn은 닫힌 형태의 해법을 가진 곱셈적 매개변수 업데이트를 통해 표현적 직교성을 강제하여, 효율적이고 표적화된 언러닝을 가능하게 한다. 또한 다중 샘플 언러닝을 위해 ZeroUnlearn을 기울기 기반 변형으로 확장한다. 실험 결과, 우리의 접근 방식이 기존 베이스라인을 능가하면서 일반 모델 유용성을 보존함을 보여준다. 코드는 GitHub(https://github.com/XMUDeepLIT/ZeroUnlearn)에서 확인할 수 있다.
장기적 에이전트 추론은 사고, 도구 호출, 관찰, 부분적 결론을 포함하는 긴 상호작용 이력을 통해 대규모 언어 모델이 작동해야 함을 요구한다. 문제는 단순히 이러한 이력이 길어지는 것뿐만 아니라, 현재 의사 결정에 필요한 정보가 여러 단계에 걸쳐 흩어져 있고 나중에야 관련성을 띠게 된다는 점에 있다. 기존 접근법은 상호작용 이력을 잘라내거나, 더 짧은 대체물로 압축하거나, 선택적 부분을 검색하여 재사용함으로써 이 문제를 해결하려 하지만, 과거 상호작용에 대한 접근이 에이전트의 진화하는 상태에 따라 어떻게 적응해야 하는지를 명시적으로 모델링하지는 않는다. 우리는 대신 장기적 추론을 상태 적응형 메모리의 문제로 재정의한다. 이를 위해 우리는 상태 적응형 메모리(SAM)를 제안한다. 이는 독립적인 프레임워크로, 진행 중인 상호작용을 간결한 메모리 큐로 통합하면서도 의도 기반 회상을 위해 원시 궤적 페이지를 보존한다. 이러한 큐는 이력을 대체하는 것이 아니라, 기본 백본을 재훈련하지 않고도 에이전트가 현재 필요에 따라 시간적으로 먼 정보를 재구성할 수 있는 경량 핸들 역할을 한다. 우리는 또한 전문가 안내 감독과 강화 학습을 통해 메모리 모듈을 최적화하여 궤적 수준의 유용성에 맞춘다. BrowseComp, BrowseComp-ZH, WideSearch, HLE에서 SAM은 다양한 에이전트 백본에서 강력한 기준선을 지속적으로 능가한다. 우리의 결과는 명시적 메모리 모델링이 장기적 에이전트 추론을 위한 간단하면서도 효과적인 기초를 제공함을 시사한다.
계층적 이미지 생성 및 편집은 생성된 시각적 콘텐츠를 레이어 단위로 재사용, 편집 및 구성할 수 있는 기본 기능으로, 자연어에서 단어 수준 편집과 유사합니다. 이러한 중요성에도 불구, 대규모에서 이 영역은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MRT를 제안합니다. MRT는 다양한 종횡비와 텍스트 프롬프트를 포괄하는 1,000만 개 이상의 다국어 디자인 샘플로 학습된, 200억 개의 매개변수를 가진 다중 레이어 투명 이미지 생성 및 편집에 특화된 마스크 영역 확산 모델입니다. 이러한 규모를 최대한 활용하기 위해 두 가지 핵심 기술적 기여를 합니다. 첫째, 텍스트-레이어, 이미지-레이어, 레이어-레이어라는 세 가지 상호보완적인 작업을 공유 마스크 영역 확산 프레임워크 내에서 통합하여, 선택적 토큰 마스킹을 통해 유연한 레이어 단위 생성 및 편집을 가능하게 합니다. 둘째, 오버플로우 레이어 생성을 가능하게 하기 위해 오버플로우 인식 캔버스 레이어를 도입하여 경계 불일치를 처리하고 반투명 배경 합성을 지원함으로써, 보이는 캔버스 경계를 넘어서는 완전히 편집 가능한 레이어를 생성합니다. 또한 확산 증류를 적용하여 최소한의 품질 저하로 8단계 실시간 다중 레이어 생성을 달성합니다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 상용 시스템을 포함한 이전 최첨단 접근법을 세 가지 작업 모두에서 크게 능가하며, 다중 레이어 투명 이미지 생성의 새로운 기준을 수립함을 보여줍니다. 특히, 우리 모델은 사용자 연구 결과에 따라 이미지-레이어 품질에서 동시대의 Qwen-Image-Layered 모델을 크게 능가할 뿐만 아니라, 이미지-레이어 추론 시 10~100배 빠른 추론 속도와 50~90%의 활성 GPU 메모리 소비 감소를 달성합니다.
Diffusion Transformers (DiT)는 이미지 생성에서 뛰어난 성능을 보이지만 상당한 추론 비용이 발생한다. 이전 연구에서는 양자화 및 증류(distillation)를 통해 이 비용을 절감했으나, FLOPs를 거의 절반으로 줄일 수 있는 반구조적 희소성(semi-structured sparsity)은 여전히 충분히 탐구되지 않았다. 주요 이유는 대부분의 기존 접근 방식이 가중치 희소화(weight sparsification)에 초점을 맞추고 있으며, 가중치의 50%를 제거하면 모델의 핵심 용량이 손실되어 생성 품질이 저하될 수 있기 때문이다. 그러나 본 연구는 DiT 활성화(activations)가 본질적으로 희소하며, N:M 반구조적 희소화에 가중치보다 훨씬 더 강건함을 보여준다. 이러한 관찰에 기반하여, 우리는 가중치 희소화에서 활성화 희소화(activation sparsification)로의 패러다임 전환을 주장한다. 본 논문에서는 RT-Lynx를 제안하며, 이는 활성화에 N:M 희소화를 적용하고 정확도 손실을 완화하기 위한 오차 보상 기법을 통합한다. 또한 이 설정에 맞게 고도로 최적화된 CUDA 커널을 구현하여 선형 레이어에서 평균 최대 1.55배의 속도 향상을 달성한다. 다양한 확산 모델에 걸친 광범위한 실험을 통해 본 방법이 원본 모델의 생성 품질을 유지하면서 추론을 상당히 가속화함을 입증한다.
에이전트 시스템은 점점 더 강력해지고 있다. 에이전트는 전략을 정의하고, 행동을 취하며, 다양한 환경과 상호작용한다. 이러한 자율성은 에이전트 행동을 감독하고 평가하는 데 심각한 도전 과제를 제기한다. 현재 대부분의 도구는 제한적이어서 기본적인 평가 기능을 갖춘 관찰 가능성에 초점을 맞추거나, 새로운 도메인에 적응할 수 없는 정적이고 수작업으로 제작된 오류 분류 체계를 강제한다. 이러한 격차를 해소하기 위해 우리는 자동적이고 동적이며 사용하기 쉬운 평가 프레임워크인 Agentic CLEAR를 제시한다. 이 프레임워크는 시스템, 추적, 노드의 세 가지 세분화 수준에서 에이전트 행동에 대한 텍스트 기반 통찰력을 생성한다. Agentic CLEAR는 관찰 가능성 계층 위에서 작동하여 원활한 통합을 가능하게 하며, 에이전트 평가를 매우 접근하기 쉽게 만드는 직관적인 UI를 제공한다. 네 가지 벤치마크, 일곱 가지 에이전트 설정, 수만 건의 LLM 호출에 대한 실험에서 Agentic CLEAR가 고품질의 데이터 기반 통찰력 있는 피드백을 생성함을 보여준다. 우리의 분석은 인간이 주석을 단 오류와의 강력한 정합성과 작업 성공률 예측 능력을 입증한다.
대규모 언어 모델(LLM)은 일반적으로 무작위로 섞인 코퍼스에서 학습되며, 이로 인해 모델의 지식은 학습 시점에 고정되고 시간적 근거는 제대로 이해되지 않은 상태로 남는다. 본 연구에서는 데이터 순서에 초점을 맞춰, 사전 학습 동학이 시간에 민감한 사실 지식의 획득에 미치는 영향을 분석한다. 주요 기여는 두 가지다. 첫째, 7,000개 이상의 시간적 근거를 가진 질문으로 구성된 포괄적인 벤치마크와, 모델이 사실을 해당 기간과 올바르게 연관짓는지 분석할 수 있는 평가 프로토콜을 도입한다. 둘째, 시간 순서대로 정렬된 Common Crawl 스냅샷에서 6B 파라미터 모델을 사전 학습시키고, 표준적인 무작위 섞기 사전 학습과 비교한다. 실험 결과, 순차적으로 학습된 모델은 일반 언어 이해와 상식에서 무작위 섞기 기준선과 동등한 성능을 보이면서도, 지속적으로 더 최신에 가깝고 시간적으로 정확한 지식을 나타냈다. 시간 순서 사전 학습은 사실 최신성을 향상시킨 반면, 무작위 섞기 사전 학습은 아마도 사실 반복 증가로 인해 더 오래된 데이터에서 성능이 최고치를 기록했다. 이러한 발견과 함께, 코드(https://github.com/kyutai-labs/kairos), 체크포인트 및 데이터세트(https://huggingface.co/collections/kyutai/kairos)를 공개함으로써 LLM을 위한 지속적 학습에 관한 후속 연구의 기반을 마련한다.
대규모 언어 모델이 자신의 내부 상태를 탐지하고 보고할 수 있을까? 여러 연구들은 이 질문에 대한 답이 '그렇다'고 주장해 왔다. 우리는 인간의 메타인지 연구에서 얻은 교훈에 기반하여, 이 결론이 성급할 수 있다고 주장한다. 즉, 이 결론을 확신하기 위해서는 진정한 내성과 표면적 단서에 기반한 패턴 매칭을 구별해야 한다. 또한, 행동 증거만으로는 강한 내성적 주장을 확립하기에 본질적으로 충분하지 않다고 주장한다. 우리는 이러한 고려 사항을 염두에 두고 최근에 도입된 두 가지 평가 패러다임을 재검토한다. 첫 번째 패러다임에서 모델은 자신의 내부 상태가 조작되었는지 여부를 탐지해야 한다. 우리는 모델이 내부 상태에 대한 이러한 개입과 입력의 조작을 신뢰할 수 있게 구별하지 못한다는 사실을 발견했다. 이는 원래 연구에서의 성공이 모델이 내부 상태에 대한 개입보다는 일반적으로 이상 징후를 탐지하는 능력을 반영한다는 것을 시사한다. 우리가 검토하는 두 번째 패러다임에서 모델은 자신의 은닉 상태에서 파생된 레이블을 예측하는 과제를 수행한다. 여기서 우리는 입력에만 접근할 수 있는 분류기가 모델 자체의 맥락 내 예측과 동등한 성능을 달성한다는 사실을 발견했다. 이는 원래 결과가 모델이 자신의 내부 표현에 대한 특권적 접근을 가지고 있다는 것을 결정적으로 입증하지 못함을 나타낸다. 또한, 우리는 모델이 과제의 의미론에 의존할 수 없고 대신 내부 표현에 의존해야 하는 재레이블링된 통제 설정을 도입한다. 이 더 잘 통제된 버전의 과제에서 모델은 우연 수준에 더 가깝게 수행한다. 종합하면, 이러한 결과는 현재의 증거가 LLM이 메타인지적 모니터링을 보여준다는 것을 확립하기에 불충분함을 나타낸다.
NSF-SciFy를 소개합니다. 이는 국립과학재단(NSF) 보조금 요약문에서 추출된 과학적 주장과 연구 제안들로 구성된 포괄적인 데이터셋입니다. 기존의 과학적 주장 검증 데이터셋은 규모와 범위에서 제한적이었던 반면, NSF-SciFy는 모든 과학 및 수학 분야를 아우르는 40만 개의 요약문에서 280만 개의 주장을 추출하여 중요한 진전을 나타냅니다. 두 개의 집중된 하위 집합을 제시합니다: 재료과학 분야 보조금에서 나온 114,000개 주장을 포함하는 NSF-SciFy-MatSci, 그리고 5개 NSF 국장단에 걸친 135,000개 주장으로 구성된 NSF-SciFy-20K입니다. 제로샷 프롬프팅을 활용하여 과학적 주장과 연구 제안의 공동 추출을 위한 확장 가능한 접근법을 개발했습니다. 세 가지 하위 작업(비기술적 요약 생성, 주장 추출, 연구 제안 추출)을 통해 데이터셋의 유용성을 입증했습니다. 우리의 데이터셋으로 언어 모델을 미세 조정했을 때, 특히 주장 및 제안 추출 작업에서 상대적 향상이 종종 100%를 초과하는 상당한 개선을 보였습니다. 오류 분석 결과, 추출된 주장은 높은 정밀도를 보였으나 낮은 재현율을 나타내어 추가적인 방법론적 개선의 여지가 있음을 시사합니다. NSF-SciFy는 대규모 주장 검증, 과학적 발견 추적, 메타과학 분석 분야에서 새로운 연구 방향을 가능하게 합니다. 코드와 데이터는 https://github.com/darpa-scify/NSFSciFy에서 확인할 수 있습니다.
선행 연구는 대규모 언어 모델이 스스로 생성한 응답 간의 통제된 대비성(contrastiveness)을 보상 점수를 통해 설정함으로써 영어에서의 하위 선호도 튜닝(preference tuning)을 개선할 수 있음을 입증하였다. 본 연구는 이 방법을 다중 언어로 확장하여, 총 14개의 고자원 및 저자원 언어에 걸쳐 두 가지 모델을 다양한 과제에서 평가한다. 핵심 발견은 자체 생성에 대한 교차언어 대비 선호도 튜닝(CroCo)이 언어별 선호도 주석 없이도 전이된다는 점이다. 영어 선호도(다국어 기반 모델 위에 구축)로 학습된 보상 모델은 대부분의 언어에서 유용한 언어 내 순위를 생성하며, 단일 언어 또는 다중 언어 환경에서의 짝짓기는 대다수 설정에서 각 모델을 개선시키면서 지도 미세조정의 치명적 망각(catastrophic forgetting)을 방지한다. 이러한 이점은 온-폴리시(on-policy) 데이터에 의존함을 확인하였다. 오프-폴리시(off-policy) 응답은 이점을 감소시키며, 온라인 선호도 최적화는 오프라인 변형보다 개선되지 않는다. 구체적으로, 구조화된 과제에서 본 방법은 EuroLLM-9B의 경우 7개 언어 중 6개, Aya-3B의 경우 7개 설정 중 4개에서 기준 모델과 일치하거나 이를 능가한다. 개방형 생성에서는 두 튜닝 모델 모두 평가된 11개 언어 전반에서 각각의 기준 모델보다 우수한 성능을 보였다. 전반적으로, 본 연구는 다중 언어 선호도 튜닝의 유망한 방향을 제시한다.
현대 로봇 정책은 물리적 세계에서 복잡한 작업을 실행하기 위해 점점 더 동작 청킹(action chunking)에 의존하고 있다. 동작 청킹은 중간 정도의 동작 주파수에서 시간적 일관성을 향상시키지만, 동작 주파수가 더욱 증가하면(예: 60Hz) 충분하지 않다. 이러한 높은 주파수에서 정책은 종종 시간적으로 매끄럽고 공간적으로 일관된 동작을 생성하지 못한다. 우리는 고주파 동작 학습을 동작 공간에서 변분 오토인코더(VAE)를 사용한 잠재 공간으로 전환함으로써 이 문제를 해결한다. 이 공식은 고주파 제어의 시간적 및 공간적 일관성을 크게 향상시킨다. 부드러운 실시간 실행을 가능하게 하기 위해, 우리는 비동기 추론에서 인접한 동작 청크 간의 연속성을 개선하는 청크 수준의 정제 전략인 Reuse-then-Refine을 추가로 도입한다. 그 결과, 우리의 정책으로 제어되는 로봇은 복잡한 접촉이 많은 작업을 중단이나 불규칙한 움직임 없이 연속적으로 실행할 수 있다. 세 가지 실제 접촉이 많은 로봇 작업에 대한 실험은 우리의 접근 방식이 매끄러운 동작으로 작업을 일관되게 완료함을 보여준다. 코드와 데이터는 https://github.com/tars-robotics/RTR 에서 확인할 수 있다.
본 연구에서는 시각적 품질과 캐릭터 정체성을 유지하는 장기 애니메이션 비디오 생성을 위한 효율적인 사후 훈련 방법인 EverAnimate를 제안한다. 장편 애니메이션은 상대적으로 정적인 환경에서 역동적인 인간 움직임을 합성해야 하기 때문에 여전히 어려운 과제이며, 이로 인해 청크 기반 생성은 누적 드리프트가 발생하기 쉽다: (i) 정적 배경의 점진적 저하와 같은 저수준 품질 드리프트, (ii) 일관되지 않은 캐릭터 정체성 및 시점 의존적 속성과 같은 고수준 의미 드리프트. 이 문제를 해결하기 위해 EverAnimate는 두 가지 상호 보완적 메커니즘으로 구성된 지속적 잠재 컨텍스트 메모리에 생성을 고정하여 드리프트된 흐름 궤적을 복원한다. (i) 지속적 잠재 전파는 청크 간 컨텍스트 메모리를 유지하여 시간적 망각을 완화하면서 잠재 공간에서 정체성과 움직임을 전파한다. (ii) 복원적 흐름 매칭은 속도 조정을 통해 샘플링 중 암시적 복원 목표를 도입하여 청크 내 충실도를 향상시킨다. 경량 LoRA 튜닝만으로도 EverAnimate는 단기 및 장기 설정 모두에서 최첨단 장기 애니메이션 방법보다 우수한 성능을 보인다: 10초에서는 PSNR/SSIM이 8%/7% 향상되고 LPIPS/FID가 22%/11% 감소한다; 90초에서는 각각 15%/15% 및 32%/27%로 개선 폭이 증가한다.
수직 도메인을 위한 대규모 언어 모델은 복잡하고 도메인 특화된 과제 지향 대화의 부족으로 인해 병목 현상을 겪는다. 기존 데이터 수집 파이프라인은 지속적인 트릴레마에 직면해 있다. 전문가 주석은 비용이 많이 들고, 실제 서비스 대화는 개인정보 및 상업적 제약으로 인해 제한되며, 정적 코퍼스는 시간이 지남에 따라 빠르게 낡아진다. 본 논문은 공개 스트리밍 미디어(라이브 스트리밍 및 짧은 동영상)를 활용하여 고가치 서비스 대화를 대규모로 합성하는 데이터 중심 프레임워크인 Stream을 제안한다. Stream은 잡음이 많은 스트림에서 진정한 상호작용 신호를 추출하고, 역할 기반 페르소나 구축과 대화 청사진 구축을 통합하여 대화를 합성하며, 추가로 검색 증강 생성(RAG)을 채택하여 지식을 인지한 응답을 지원한다. Stream을 기반으로 자동차, 레스토랑, 호텔을 포괄하는 대규모 다중 도메인 데이터셋인 StreamDial을 공개한다. StreamDial은 총 87,498개의 대화 세션과 1,497,320턴으로 구성되며, 세션당 평균 17.11턴이고 도메인 간 유사한 규모를 갖는다. 각 세션은 대화 기록을 명시적 사용자/에이전트 페르소나 및 대화 청사진과 짝지은 구조화된 4중항 ⟨P_u, P_a, B, H⟩로 구성되며, 요구사항 발굴, 제약 충돌, 협상, 복구와 같은 현실적인 서비스 행동을 포착한다. 자동 평가자 및 하위 작업을 통한 평가는 StreamDial이 강력한 기준선 대비 내재적 대화 품질을 향상시키고, StreamDial로 훈련된 모델이 백본 전반에 걸쳐 대화 상태 추적을 개선함을 보여준다. 또한 완료된 인간 평가 세트와 통제된 훈련 예산 하에서 Qwen3-8B의 고무적인 다국어 전이를 추가로 보고한다. 데이터는 https://github.com/hitxueliang/DialogDataSetBySTREAM 에 공개되어 있다.