번역이 포함된 일일 선별된 AI 연구 논문
대중교통 경로 계획은 전통적으로 구조화된 지도 인프라와 복잡한 경로 탐색 엔진에 의존하며, 기존 데이터셋 중 이러한 의존성을 우회하도록 모델을 훈련시킬 수 있는 것은 존재하지 않는다. 우리는 TransitLM을 소개한다. 이는 120,845개 역과 13,666개 노선을 포괄하는 중국 4개 도시의 1,300만 개 이상의 대중교통 경로 계획 기록으로 구성된 대규모 데이터셋으로, 지속적 사전 훈련 코퍼스이자 상호 보완적인 평가 지표를 갖춘 세 가지 평가 과제를 위한 벤치마크 데이터로 공개되었다. 실험 결과, TransitLM으로 훈련된 LLM이 구조적으로 유효한 경로를 높은 정확도로 생성하며, 명시적인 매핑 없이도 임의의 GPS 좌표를 적절한 역에 암시적으로 정합시킴을 보여준다. 이러한 결과는 대중교통 경로 계획이 데이터로부터 완전히 학습될 수 있음을 입증하며, 출발지-목적지 정보로부터 직접 엔드투엔드 방식의 지도 없는 경로 생성을 가능하게 한다. 데이터셋과 벤치마크는 https://huggingface.co/datasets/GD-ML/TransitLM에서, 평가 코드는 https://github.com/HotTricker/TransitLM에서 확인할 수 있다.
다중모드 대규모 언어 모델(MLLM)은 성격 인식이 중요한 인간 대면 역할에 점점 더 배치되고 있지만, 기존 벤치마크는 이러한 능력을 오직 수치적 Big Five 점수 예측으로만 평가하여, 모델이 행동 이해를 통해 진정으로 성격을 인식하는지 아니면 단순히 표면적 패턴 매칭을 통해 선입견을 형성하는지는 불분명하게 남아있다. 우리는 세 가지 기여를 통해 이 격차를 해소한다. (i) 새로운 과제: 우리는 근거 기반 성격 추론(GPR)을 정식화하며, 이는 MLLM이 각 Big Five 평가를 관찰 가능한 증거에 기반하여 평점, 추론, 근거 제시의 연쇄 과정을 통해 이루도록 요구한다. (ii) 새로운 데이터셋: 우리는 MM-OCEAN(1,104개 비디오, 5,320개 MCQ)을 출시하며, 이는 인간 검증을 거친 다중 에이전트 파이프라인으로 제작되었으며, 타임스탬프가 있는 행동 관찰, 증거 기반 특성 분석, 그리고 7가지 범주의 단서 근거 MCQ를 포함한다. (iii) 벤치마크 및 분석: 우리는 세 단계 평가(평점, 추론, 근거)와 네 가지 샘플 수준 실패 모드 지표(선입견율 PR, 혼란율 CR, 통합 실패율 IR, 전체적 근거율 HR)를 설계하고, 27개의 MLLM(13개 폐쇄형, 14개 개방형)을 벤치마킹한다. 분석 결과 놀라운 선입견 격차가 드러난다: 전체 분야에서 올바른 평점의 51%가 검색된 단서에 근거하지 않았으며, 전체적 근거율은 0-33.5%에 불과했다. 이러한 발견은 올바른 점수를 얻는 것과 올바른 이유로 추론하는 것 사이의 괴리를 드러내며, MLLM에서 근거 기반 사회 인지를 위한 로드맵을 제시한다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키는 핵심 기법으로 부상했다. 그 효과성에도 불구하고, 응답 수준의 보상이 토큰 수준의 확률 변화로 어떻게 변환되는지는 여전히 잘 이해되지 않고 있다. 우리는 RLVR 업데이트에 대한 판별기 관점을 도입하여, 정책 경사 업데이트 방향이 암묵적으로 토큰 경사 벡터에 대한 선형 판별기 역할을 수행함으로써 학습 중 어떤 토큰 확률이 증가하거나 감소하는지 결정함을 보인다. 표준적인 시퀀스 수준 RLVR 하에서 이 판별기는 이점 가중 평균을 통해 형성된 긍정 측과 부정 측 중심점으로 구성된다. 그러나 이러한 중심점 구성은 공유된 고빈도 패턴(예: 형식 토큰)에 의해 지배될 수 있으며, 이는 고보상 응답과 저보상 응답을 더 잘 구분하는 희소하면서도 식별력 있는 방향을 희석시킨다. 이러한 한계를 해결하기 위해, 우리는 토큰 계수를 추정하여 측별 토큰 경사 방향을 증폭하고 공유되거나 식별력이 약한 방향의 가중치를 낮추는 식별적 토큰 신용 할당 방법인 DelTA를 제안한다. 이 계수들은 자기 정규화된 RLVR 대리 함수를 재가중하여, 효과적인 측별 중심점을 더 대조적으로 만들어 RLVR 업데이트 방향을 재구성한다. 7개의 수학 벤치마크에서 DelTA는 Qwen3-8B-Base와 Qwen3-14B-Base에서 각각 가장 강력한 동일 규모 기준선보다 평균 3.26점과 2.62점 더 우수한 성능을 보였다. 코드 생성, 다른 백본, 도메인 외 평가에 대한 추가 결과는 DelTA의 일반화 능력을 추가로 입증한다.
개인 비서 에이전트(예: OpenClaw)의 부상은 대규모 언어 모델이 일상 생활과 업무 전반에서 사용자를 지원할 수 있는 잠재력이 증가하고 있음을 보여준다. 이러한 환경에서 핵심적인 도전 과제는 사전 예방적 지원(proactive assistance)이다. 사용자는 종종 불완전하게 명시된 요청으로 시작하고 중요한 요구사항, 제약 조건 또는 선호도를 언급하지 않은 채로 남겨두기 때문이다. 그러나 기존 벤치마크는 사용자의 요구가 점진적으로 드러나는 지속적인 다중 턴 상호작용에서, 특히 이러한 숨겨진 의도가 명시적으로 표현되기 전에 에이전트가 이를 식별하고 조치를 취할 수 있는지 평가하는 경우가 드물다. 이러한 격차를 해소하기 위해 우리는 π-Bench를 제안한다. π-Bench는 5개의 도메인 특화 사용자 페르소나에 걸친 100개의 다중 턴 작업으로 구성된 사전 예방적 지원 벤치마크이다. 숨겨진 사용자 의도, 작업 간 의존성, 세션 간 연속성을 통합함으로써, π-Bench는 에이전트가 확장된 상호작용 과정에서 사용자 요구를 예측하고 대응하는 능력을 평가하며, 실제 사용 환경을 더 잘 반영하는 장기 궤적에서 사전 예방성과 작업 완료도를 함께 측정한다. 실험 결과는 (1) 사전 예방적 지원이 여전히 어려운 과제이며, (2) 작업 완료도와 사전 예방성 간에 명확한 구분이 존재하며, (3) 이후 작업에서 사전 예방적 의도 해결을 위해 이전 상호작용이 중요함을 보여준다.
대규모 언어 모델의 장기 컨텍스트 추론은 전체 주의(attention)의 이차 비용으로 인해 병목 현상이 발생한다. 기존의 효율적인 대안들은 종종 네이티브 희소 학습이나 휴리스틱 토큰 제거에 의존하여 효율성, 학습 비용, 정확도 사이에 바람직하지 않은 절충을 초래한다. 본 연구에서는 전체 주의 LLM이 이미 본질적으로 희소하며, 최소한의 적응만으로도 고도로 희소한 모델로 변환될 수 있음을 보여준다. 우리의 접근법은 세 가지 관찰에 기반한다: (1) 소수의 주의 헤드만이 실제로 전체 장기 컨텍스트 처리를 필요로 한다; (2) 장거리 검색은 주로 저차원 부분 공간에 의해 제어되므로, 16차원 인덱서를 사용하여 관련 토큰을 효율적으로 검색할 수 있다; (3) 유용한 토큰 예산은 쿼리에 크게 의존적이므로, 고정 top-k 희소화보다 동적 top-p 선택이 더 적합하다. 이러한 통찰을 바탕으로, 우리는 검색 헤드에 대해서만 전체 KV 캐시를 유지하고 희소 주의를 위한 경량 토큰 인덱서를 도입하는 RTPurbo를 제안한다. RTPurbo는 모델의 내재적 희소성을 활용하여 수백 번의 학습 단계만으로 희소화를 달성한다. 장기 컨텍스트 벤치마크 및 추론 작업에 대한 실험 결과, RTPurbo는 거의 손실 없는 정확도를 유지하면서도 상당한 효율성 향상을 제공하며, 100만 컨텍스트에서 최대 9.36배의 프리필 속도 향상과 약 2.01배의 디코드 속도 향상을 달성한다. 이러한 결과는 값비싼 네이티브 희소 사전 학습 없이도 표준 전체 주의 학습을 통해 강력한 희소 추론을 얻을 수 있음을 시사한다.
최근 에이전트의 발전으로 LLM의 장문맥 추론 능력에 대한 수요가 다시 증가하고 있다. 그러나 이러한 능력을 위해 LLM을 훈련하려면 비용이 많이 드는 장문서 큐레이션 또는 경험적 문맥 합성이 필요하다. 우리는 에이전트가 문제를 해결할 때 여러 턴에 걸쳐 도구를 호출하고 환경 관찰을 수신하며 방대한 궤적을 생성한다는 점을 관찰하였다. 따라서 원래 질문에 답하는 데 필요한 증거는 이러한 털들에 분산되어 있으며, 멀리 떨어진 문맥 세그먼트들의 통합이 필요하다. 그럼에도 불구하고 표준 에이전트 SFT는 도구 응답을 마스킹하고 턴 수준의 도구 선택만 훈련하여, 이러한 분산된 신호가 활용되지 않는 감독 사각지대를 만든다. 본 논문에서는 에이전트 문맥 컴파일(ACC)을 제안한다. ACC는 검색, 소프트웨어 엔지니어링, 데이터베이스 질의 에이전트로부터의 궤적을 원래 질문과 여러 턴에 걸쳐 수집된 도구 응답 및 환경 관찰을 결합한 장문맥 QA 쌍으로 변환하여, 모델이 도구 사용 없이 직접 답변하도록 훈련한다. 이를 통해 질문과 증거 간의 의존 관계를 명시적으로 만들어 추가 주석 없이 먼 세그먼트에 걸친 장문맥 추론에 대한 직접적인 감독을 가능하게 한다. ACC는 간단하면서도 효과적인 접근 방식으로, 기존의 모든 장문맥 확장 또는 훈련 방법과 결합 가능하며 확장 가능한 지도 미세 조정 데이터를 제공한다. 우리는 MRCR과 GraphWalks를 통해 ACC를 장거리 의존성 모델링 작업에서 검증한다. 이들은 교차 턴 상호참조 해결과 확장된 문맥에 걸친 그래프 탐색을 요구하는 까다로운 벤치마크이다. ACC로 Qwen3-30B-A3B를 훈련한 결과 MRCR에서 68.3(+18.1), GraphWalks에서 77.5(+7.6)를 달성하여 Qwen3-235B-A22B와 유사한 성능을 보였으며, GPQA, MMLU-Pro, AIME, IFEval에서 일반 능력은 유지되었다. 추가적인 메커니즘 분석 결과, ACC로 훈련된 모델은 작업 적응적 주의 재구성 및 전문가 전문화를 나타냄을 확인하였다.
시뮬레이션에 바로 활용 가능한 물리적 3D 자산은 다운스트림 작업에서의 폭넓은 적용 가능성으로 인해 유망한 방향으로 주목받고 있다. 그러나 기존 대부분의 3D 생성 방법은 물리적 속성을 무시하거나 강체, 변형체, 관절체 등 단일 자산 범주로 제한된다. 이러한 한계를 해결하기 위해 우리는 다양한 자산 유형에 걸쳐 시뮬레이션에 바로 활용 가능한 물리적 3D 생성을 위한 통합 프레임워크인 PhysX-Omni를 소개한다. 구체적으로, 우리는 Vision-Language Model에 특화된 새롭고 효율적인 형상 표현을 개발하여 고해상도 3D 구조를 압축 없이 직접 인코딩함으로써 생성 성능을 크게 향상시킨다. 또한, 실내외 다양한 범주를 포함하는 최초의 범용 시뮬레이션 준비 3D 데이터셋인 PhysXVerse를 구축한다. 더 나아가, 실제 환경에서의 생성 및 이해 능력을 포괄적이고 유연하게 평가하기 위해 형상, 절대 스케일, 재질, 어포던스, 운동학, 기능 설명의 여섯 가지 핵심 속성을 포함하는 PhysX-Bench를 제안한다. 기존 지표와 PhysX-Bench를 사용한 광범위한 실험 결과, PhysX-Omni는 생성 및 이해 모두에서 강력한 성능을 보여준다. 또한 추가 연구를 통해 시뮬레이션 준비 장면 생성 및 로봇 정책 학습 응용 분야에서 PhysX-Omni의 잠재력을 추가로 검증한다. 우리는 PhysX-Omni가 특히 체화된 AI 및 물리 기반 시뮬레이션 분야에서 다양한 다운스트림 응용을 크게 발전시킬 수 있을 것으로 기대한다.
오디오-시각 공동 추론은 전방태 이해에 필수적이나, 현재의 다중모드 대규모 언어 모델은 미세한 증거가 양쪽 모달리티에서 요구되는 추론에 여전히 어려움을 겪는다. 핵심 한계는 명시적 텍스트 기반 사고 사슬이 연속적인 오디오-시각 신호를 이산적 토큰으로 압축하여 시간적 근거를 약화시키고 중간 추론을 언어적 사전 지식으로 편향시킨다는 점이다. 본 논문은 통일된 잠재 공간이 밀집된 감각 정보를 보존하면서 자기회귀적 생성과 호환성을 유지하기 때문에 이러한 추론에 더 적합한 매체라고 주장한다. 이러한 통찰에 기반하여, 텍스트 추론과 오디오-시각 잠재 상태를 교차 배치하는 교차모달 추론 프레임워크 LatentOmni를 제안한다. LatentOmni는 특징 수준의 감독을 도입하여 잠재 추론 상태를 작업 관련 감각 특징과 정렬시키고, Omni-Sync 위치 임베딩을 사용하여 잠재 오디오 및 시각 상태 간의 시간적 일관성을 유지한다. 또한 잠재 공간 추론을 감독하기 위한 오디오-시각 교차 추론 궤적 데이터셋인 LatentOmni-Instruct-35K를 구축하였다. 여러 오디오-시각 추론 벤치마크에 걸친 포괄적 평가는 LatentOmni가 평가된 오픈소스 모델 중 최고 성능을 달성하고 명시적 텍스트 CoT 기준선을 일관되게 능가함을 보여주며, 잠재 공간 공동 추론이 더 강력한 전방태 이해를 위한 유망한 경로임을 뒷받침한다.
스프레드시트 시스템(예: Microsoft Excel, Google Sheets)은 현대 데이터 중심 워크플로우에서 핵심적인 역할을 담당한다. AI 에이전트가 컴퓨터 제어나 프레젠테이션 생성과 같은 복잡한 작업을 자동화하는 데 점점 더 능숙해짐에 따라, AI 기반 스프레드시트 에이전트를 구축하는 것은 유망한 연구 방향으로 부상하고 있다. 기존의 대부분의 스프레드시트 에이전트는 범용 대규모 언어 모델(LLM)에 대한 특수 프롬프팅에 의존한다. 이러한 설계는 단순한 스프레드시트 작업에서는 잠재력을 보이지만, 실제 애플리케이션에서 흔히 나타나는 복잡하고 다단계의 워크플로우를 관리하는 데는 어려움을 겪는다. 본 논문에서는 현실적인 Microsoft Excel 환경 내에서 특화된 스프레드시트 에이전트를 훈련하도록 설계된 강화 학습(RL) 미세 조정 프레임워크인 Spreadsheet-RL을 소개한다. Spreadsheet-RL은 온라인 포럼에서 쌍을 이루는 시작-목표 스프레드시트를 확장 가능하게 수집하기 위한 자동화된 파이프라인과, 금융 및 공급망 관리와 같은 영역에서의 도메인 특화 평가 과제를 특징으로 하며, 이는 새로운 Domain-Spreadsheet 벤치마크 데이터셋으로 편집된다. 또한 다중 턴 RL을 위해 설계된 Spreadsheet Gym 환경을 포함한다. Spreadsheet Gym은 Python 샌드박스를 통해 광범위한 Excel 기능을 노출하며, 포괄적인 도구 세트와 스프레드시트 작업을 위해 세심하게 설계된 도구 라우팅 규칙을 통합한 정교한 harness를 제공한다. 포괄적인 실험을 통해, Spreadsheet-RL이 일반 및 도메인 특화 스프레드시트 작업 모두에서 AI 에이전트의 성능을 실질적으로 향상시킴을 보여준다. 구체적으로, SpreadsheetBench에서 Qwen3-4B-Thinking-2507의 Pass@1을 12.0%에서 23.4%로 개선하고, 우리가 선별한 Domain-Spreadsheet 데이터셋에서는 Pass@1을 8.4%에서 17.2%로 향상시킨다. 이러한 결과는 스프레드시트 자동화에서 Spreadsheet-RL의 강력한 일반화 잠재력과 실제 적용 가능성을 강조하며, 더 나아가 일상 업무에서 LLM 기반 데이터 인터페이스 상호작용을 발전시키는 데 있어서의 그 가능성을 보여준다.
자동회귀 비디오 확산 모델은 실시간 행동 조건부 세계 생성을 가능하게 했습니다. 그러나 이전에 보았던 시점을 다시 방문할 때 일관된 내용을 유지하는 지속적 세계를 유지하는 것은 여전히 해결되지 않은 문제로 남아 있습니다. 전체 KV-캐시 어텐션은 이러한 일관성을 유지하지만, 실시간 제약 조건을 깨뜨립니다: 메모리 사용량과 어텐션 비용이 롤아웃 길이에 따라 선형적으로 증가합니다. 슬라이딩 윈도우 추론은 처리량을 복원하지만 장기적 일관성을 버립니다. 저희는 훈련 없이 사용 가능한 두 가지 구성 요소(World Retrieval과 World Compression)로 구성된 WorldKV를 제안합니다. World Retrieval은 제거된 KV-캐시 청크를 GPU/CPU 메모리에 저장하고, 카메라/행동 대응을 통해 장면 관련 청크를 선택적으로 검색하여 재인코딩 없이 기본 어텐션 윈도우에 다시 삽입합니다. World Compression은 앵커 프레임에 대한 키-키 유사도를 통해 각 청크 내의 중복 토큰을 제거하여, 청크당 저장 공간을 절반으로 줄여 고정 예산 하에서 2배 더 많은 기록을 수용할 수 있게 합니다. Matrix-Game-2.0 및 LingBot-World-Fast에서 WorldKV는 전체 KV 메모리 충실도와 동등하거나 그 이상의 성능을 약 2배의 처리량으로 달성하며, 미세 조정 없이 메모리 학습 기반 기준선과 경쟁할 수 있습니다. 프로젝트 페이지: https://cvlab-kaist.github.io/WorldKV/
인공지능(AI)은 점점 더 과학적 발견에 통합되고 있지만, 그것이 과학적 진보를 예측할 수 있는지는 여전히 불분명하다. 이 질문을 연구하기 위해, 우리는 통제된 지식 제약 하에서 과학적 진보를 예측하기 위한 시간적 기반 평가 프레임워크를 도입한다. 우리는 CUSP(Cutoff-conditioned Unseen Scientific Progress)를 제시하는데, 이는 타당성 평가, 메커니즘 추론, 생성적 솔루션 설계, 시간적 예측을 통해 AI 시스템의 과학적 예측을 평가하는 다분야 및 사건 수준의 벤치마크이다. 4,760건의 과학적 사건에 걸쳐, 우리는 현재 최첨단 모델에서 체계적이고 분야 의존적인 한계를 관찰한다. 모델은 경쟁 후보들 중에서 그럴듯한 연구 방향을 식별할 수 있지만, 과학적 진보가 실현될지 여부를 신뢰성 있게 예측하지 못하며, 그것이 발생할 시점을 체계적으로 잘못 추정한다. 성능은 분야 전반에 걸쳐 매우 이질적이며, AI 진보의 시점은 생물학, 화학, 물리학의 진보보다 더 예측 가능하다. 성능은 훈련 데이터의 컷오프 이전 또는 이후에 발생하는 사건에 대해 대체로 민감하지 않으며, 이는 이러한 한계가 훈련 데이터의 지식 노출만으로 설명될 수 없음을 시사한다. 통제된 정보 접근 하에서, 추가적인 사전 컷오프 지식은 성능을 향상시키지만 완전 정보 환경과의 격차를 좁히지 못하며, 이 격차는 인용이 많은 진보에서 더 두드러진다. 모델은 또한 체계적인 과신과 강한 반응 편향을 보여, 불확실성 추정의 신뢰성 부족을 나타낸다. 종합하면, 현재의 AI 시스템은 과학적 진보를 위한 예측 도구로서 부족하다. 사전 지식에 대한 접근이 신뢰할 수 있는 예측으로 이어지지 않으며, 성능은 미래 지향적 예측보다 사후 정보로부터 더 많은 이점을 얻는다.
확산 트랜스포머(DiTs)는 텍스트-이미지 생성을 위한 지배적인 아키텍처로 부상했지만, 훈련 범위를 초과하는 해상도에서 생성 시 성능이 저하됩니다. 기존의 훈련 없는 접근법은 추론 시의 어텐션 동작을 수정하여 이를 완화하며, 주로 회전 위치 임베딩(RoPE) 외삽과 어텐션 스케일링을 결합하여 사용합니다. 그러나 이러한 전략은 서로 다른 주파수 특성을 가진 RoPE 구성 요소 전반에 걸쳐 균일하고 내용에 무관한 스케일링을 적용하여, 전역 구조 보존과 세부 디테일 복원 사이의 절충을 유도합니다. 우리는 각 잡음 제거 단계에서 잠재 변수의 공간-주파수 구조에 따라 RoPE 구성 요소 전반에 걸쳐 어텐션을 동적으로 스케일링하는 훈련 없는 방법인 SEGA를 소개합니다. 이 적응형 스케일링은 구조적 일관성과 세부 디테일 충실도를 모두 향상시킵니다. 실험 결과, SEGA가 여러 대상 해상도에서 고해상도 합성을 일관되게 개선하여 최첨단 훈련 없는 기준선을 능가하는 것으로 나타났습니다.
자율주행 시스템(ADS)의 강건한 훈련 및 검증을 위해서는 방대하고 다양한 데이터셋이 필요하다. 자율주행 차량(AV) 군집이 수집한 독점 데이터는 고충실도이지만, 규모, 센서 구성의 다양성, 그리고 지리적 및 희귀 행동(장기 꼬리 행동) 커버리지 측면에서 한계가 있다. 반면, 블랙박스와 같은 출처의 실제 현장 데이터는 엄청난 규모와 다양성을 제공하며, 중요한 희귀 시나리오와 새로운 환경을 포착한다. 그러나 이러한 비정형의 실제 현장 비디오 데이터는 검증 및 훈련을 위해 구조화된 다중 모달 센서 입력을 기대하는 ADS와 호환되지 않는다. 이러한 데이터 격차를 해소하기 위해, 우리는 실제 현장의 단일 블랙박스 영상을 다중 시점 카메라 이미지와 라이다 포인트 클라우드로 구성된 고충실도 다중 모달 센서 제품군(AV 로그)으로 변환하는 새로운 생성 모델링 패러다임인 Sensor2Sensor를 제안한다. 핵심 과제는 쌍을 이루는 훈련 데이터의 부족이다. 우리는 4D 가우시안 스플래팅(4DGS) 재구성 및 새로운 시점 렌더링을 통해 실제 AV 로그를 블랙박스 스타일의 비디오로 변환함으로써 이 문제를 해결한다. 그런 다음 Sensor2Sensor는 확산 아키텍처를 활용하여 생성 변환을 수행한다. 우리는 생성된 센서 데이터의 충실도와 사실성에 대한 포괄적인 정량적 평가를 수행한다. 우리는 까다로운 실제 현장 인터넷 및 블랙박스 영상을 사실적인 다중 모달 데이터 형식으로 변환함으로써 Sensor2Sensor의 실용적 유용성을 입증하며, 이를 통해 AV 개발을 위한 방대한 외부 데이터 소스를 추가로 활용할 수 있게 된다.
비디오 확산 모델의 생성 지평을 긴 시퀀스로 확장하는 것은 오랫동안 중요하게 다뤄져 온 과제이다. 기존의 학습 없는 접근법은 두 가지 범주로 나뉜다: 특정 아키텍처에 밀접하게 결합되어 장기간에 걸쳐 품질 저하를 겪는 양방향 모델의 확장과, 노출 편향으로 인해 표류 오차가 누적되어 반복적인 운동 패턴을 생성하는 경향이 있는 자기회귀 모델이다. 이러한 문제를 해결하기 위해, 우리는 아키텍처에 구애받지 않고 추가 학습이 필요 없는, 새롭지만 단순한 추론 시간 기반의 긴 비디오 생성 접근법을 제안한다. 우리의 방법은 중첩 슬라이딩 윈도우를 통해 긴 비디오를 생성하며, 인접한 윈도우에서 예측된 깨끗한 샘플을 트위디 매칭으로 혼합하여 중첩 영역에서 다양체 제약과 시간적 일관성을 모두 강제한다. 그런 다음 확률적 초기 단계 샘플링을 통해 각 윈도우의 궤적을 동기화하는데, 이는 고노이즈 단계에서 각 트위디 매칭 보정 후 새로운 잡음을 주입하고, 이후 결정론적 상미분방정식 샘플링으로 전환하여 세밀한 시각적 충실도를 보존하는 방식으로 이루어진다. 다양한 비디오 생성 모델에 적용된 우리의 방법은 기본 윈도우 길이보다 몇 배 더 긴 비디오를 생성하면서 시간적 일관성과 시각적 품질에서 학습 없는 기준선과 자기회귀 기준선을 모두 능가하며, 추가 미세 조정 없이 오디오-비디오 공동 생성 및 텍스트-3DGS로도 확장 가능하다.
멀티모달 대규모 언어 모델(MLLM)은 공간 지능 분야에서 급속한 진전을 이루었지만, 기존의 공간 추론 벤치마크는 대부분 깨끗한 시각적 입력을 가정하며 실제 배포에서 흔히 발생하는 열화(예: 모션 블러, 저조도, 악천후, 렌즈 왜곡, 압축 아티팩트)를 간과한다. 이는 근본적인 질문을 제기한다: 시각적 관찰이 불완전할 때 현재 MLLM의 공간 지능은 얼마나 강건한가? 이 질문에 답하기 위해, 우리는 열화 인지 공간 이해를 위한 최초의 대규모 데이터셋인 SpaceDG를 소개한다. 이 데이터셋은 물리적으로 기반한 열화 합성 엔진으로 구축되었으며, 열화 형성 과정을 3D 가우시안 스플래팅(3DGS) 렌더링에 내장하여 9가지 열화 유형을 사실적으로 시뮬레이션한다. 결과 데이터셋은 약 1,000개의 실내 장면에서 약 100만 개의 QA 쌍을 포함한다. 또한, 11가지 추론 범주와 9가지 시각적 열화 유형에 걸친 1,102개의 질문으로 구성된 인간 검증 벤치마크인 SpaceDG-Bench를 도입하여, 10,000개 이상의 VQA 인스턴스를 생성한다. 25개의 오픈소스 및 클로즈드소스 MLLM을 평가한 결과, 시각적 열화가 공간 추론을 일관되게 심각하게 손상시켜 중요한 강건성 격차를 드러냄을 발견했다. 마지막으로, SpaceDG에 대한 미세 조정이 열화 강건성을 현저히 향상시키며, 깨끗한 이미지에서 성능 저하 없이 열화 조건에서 인간 성능을 능가할 수 있음을 보여주어, 강건한 공간 지능을 위한 열화 인지 훈련의 가능성을 강조한다.
대규모 언어 모델(LLM)과 모듈형 스킬의 확산은 자율 에이전트에게 점점 더 강력한 능력을 부여하고 있다. 기존 프레임워크는 일반적으로 단일 LLM과 고정된 로직에 의존하여 이러한 스킬들과 인터페이스한다. 이는 중요한 병목 현상을 야기한다: 서로 다른 LLM은 다양한 도메인에서 뚜렷한 장점을 제공하지만, 현재 프레임워크는 모델과 스킬의 상호 보완적 강점을 활용하지 못하여 하위 작업의 성능을 제한한다. 본 논문에서는 이종 멀티모달 작업을 계층적 모델-스킬 레지스트리에 대한 순차적 의사 결정 과정으로 재구성하는 강화 학습(RL) 기반 오케스트레이션 프레임워크인 Maestro(Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration)를 제시한다. Maestro는 모든 지식을 단일 모델에 통합하는 대신, 경량 정책을 학습하여 고정된 전문가 모델과 2계층 스킬 라이브러리로 구성된 앙상블을 동적으로 구성하고, 각 단계에서 외부 전문가를 호출할지, 어떤 모델-스킬 쌍을 선택할지, 그리고 언제 종료할지를 결정한다. 정책은 결과 기반 RL을 통해 최적화되며, 단계별 지도 학습이 필요하지 않다. 우리는 수학적 추론, 차트 이해, 고해상도 인식, 도메인 특화 분석을 아우르는 10개의 대표적인 멀티모달 벤치마크에서 Maestro를 평가한다. 4B 오케스트레이터만으로 Maestro는 평균 정확도 70.1%를 달성하여 GPT-5(69.3%)와 Gemini-2.5-Pro(68.7%)를 모두 능가한다. 결정적으로, 학습된 조정 정책은 재학습 없이도 보이지 않는 모델과 스킬에 일반화된다: 도메인 외 전문가를 레지스트리에 추가하면 네 개의 까다로운 벤치마크에서 평균 59.5%를 기록하여 모든 폐쇄형 소스 기준을 능가한다. Maestro는 또한 낮은 지연 시간으로 높은 계산 효율성을 유지한다. 소스 코드는 https://github.com/jinyangwu/Maestro에서 확인할 수 있다.
자기회귀 비디오 확산 모델(ARVDs)은 스트리밍 비디오 생성을 위한 유망한 아키텍처로 부상하며, 실시간 대화형 비디오 생성 및 세계 모델링의 길을 열고 있다. 이러한 잠재력에도 불구하고, ARVD의 상당한 추론 비용은 실제 배포에 주요 장애물로 남아 있어, 모델 양자화가 효율성 향상을 위한 자연스러운 방향이 된다. 그러나 ARVD에 대한 양자화는 아직 많이 탐구되지 않았다. 우리의 실증 분석에 따르면, 표준 확산 트랜스포머를 위해 개발된 기존 양자화 기법을 ARVD에 직접 적용하면 최적 이하의 성능을 보이며, 이는 양방향 확산 모델에서 관찰된 것과 다른 양자화 행동을 드러낸다. 본 논문에서는 ARVD 양자화의 두 가지 중요한 과제를 식별한다: (C1) 매우 불균형한 프레임별 양자화 민감도. 자기회귀 생성 중 오류 누적은 지수적 감쇠 패턴을 따라 프레임 간에 심하게 왜곡된 양자화 민감도를 유발할 수 있다. (C2) 가중치에서 두드러지고 이질적인 이상치 패턴. 가중치 분포는 뚜렷한 이상치 채널을 나타내며, 그 패턴은 계층 유형과 블록 깊이에 따라 상당히 달라진다. 이러한 문제를 해결하기 위해, 우리는 정확한 ARVD 양자화를 위한 새로운 프레임워크인 Q-ARVD를 제안한다. (S1) 매우 불균형한 프레임별 민감도를 해결하기 위해, Q-ARVD는 최종 품질 인식 프레임 가중치 메커니즘을 양자화 목적에 통합한다. (S2) 이질적인 이상치가 성능을 저하시키는 것을 방지하기 위해, Q-ARVD는 이상치 인식 적응형 이중 스케일 양자화를 도입하며, 이는 임의 계층에 대한 이상치 채널의 존재와 개수를 자동으로 감지하고 이를 격리하여 정상 채널을 보호한다. 광범위한 실험을 통해 Q-ARVD의 우수성이 입증된다.
프로세스 보상 모델(PRM)은 세분화된 단계별 감독을 제공하여 대규모 언어 모델의 추론을 유도하는 강력한 메커니즘이다. 그러나 이러한 효과성은 상당한 비용을 수반한다. 즉, PRM은 모든 추론 단계에 대해 전문가의 주석을 필요로 하므로 비용이 많이 들고 확장이 어렵다. 본 연구에서는 단계별 주석 수준이나 최종 답변의 정답(ground-truth) 검증 모두에서 인간의 감독을 필요로 하지 않는 비지도 PRM(uPRM) 훈련 방법을 제안한다. 이 접근법의 핵심 아이디어는 LLM의 다음 토큰 확률로부터 유도된 점수 함수를 정의하여, 일괄 처리된 추론 경로들에서 첫 번째 오류 단계의 후보 위치를 공동으로 평가하는 것이다. 우리는 다양한 시나리오에서 uPRM의 효과성을 입증한다: (i) uPRM은 ProcessBench 데이터셋에서 첫 번째 오류 단계 식별에 있어 LLM-판사(LLM-as-a-Judge) 대비 최대 15%의 절대적 정확도 향상을 달성한다; (ii) 테스트 시간 확장을 위한 검증기로서 uPRM은 지도 PRM과 유사한 성능을 보이며, 다수결 투표 기준선 대비 최대 6.9% 향상된 성능을 나타낸다; (iii) 강화 학습에서 보상 신호로 사용될 때, uPRM은 정답 레이블을 사용하여 훈련된 지도 PRM에 비해 훈련 전반에 걸쳐 더 강건한 정책 최적화를 가능하게 한다. 전반적으로, 우리의 결과는 복잡한 추론 작업을 위한 확장 가능한 보상 모델링의 길을 열어준다.
선형 어텐션은 소프트맥스 어텐션의 무제한 캐시를 고정 크기의 순환 상태로 대체하여 시퀀스 혼합을 선형 시간으로 줄이고 디코딩 시 상수 메모리를 사용하게 한다. 어려운 점은 단순히 무엇을 잊을지 결정하는 것뿐만 아니라, 기존 연관성을 혼란시키지 않으면서 이 압축된 메모리를 어떻게 편집할지에 있다. 델타 규칙 모델은 새로운 값을 쓰기 전에 현재 읽기 값을 빼며, Kimi Delta Attention(KDA)은 채널별 감쇠를 통해 망각을 정교화한다. 그러나 활성 편집은 여전히 단일 스칼라 게이트를 사용하여 두 가지 다른 작업, 즉 키 측면에서 기존 콘텐츠를 얼마나 지울지와 값 측면에서 얼마나 많은 새 콘텐츠를 기록할지를 제어한다. 본 논문에서는 Gated DeltaNet과 KDA를 일반화하는 Gated DeltaNet-2를 소개한다. 이 모델은 적응형 망각과 채널별 감쇠를 상속하면서도 두 모델의 공통 한계인 소거와 쓰기 간의 스칼라 종속성을 해결한다. Gated Delta Rule-2는 이러한 역할을 채널별 소거 게이트 b_t와 채널별 쓰기 게이트 w_t로 분리하며, 두 게이트가 동일한 스칼라로 수렴하면 KDA로, 감쇠도 수렴하면 Gated DeltaNet으로 축소된다. 본 논문은 고속 가중치 갱신 관점, 비대칭 소거 인자에 채널별 감쇠가 흡수된 청크별 WY 알고리즘, 그리고 효율적인 병렬 훈련을 유지하는 게이트 인식 역전파를 유도한다. 100B FineWeb-Edu 토큰으로 학습된 1.3B 파라미터 모델에서 Gated DeltaNet-2는 언어 모델링, 상식 추론 및 검색 전반에 걸쳐 Mamba-2, Gated DeltaNet, KDA 및 Mamba-3 변종들 중 가장 우수한 전체 결과를 달성한다. 그 이점은 특히 장문맥 RULER 건초더미 속 바늘 벤치마크에서 두드러지며, 평가된 다중 키 검색 설정에서 성능을 향상시키고 순환 및 하이브리드 설정 모두에서 강력한 성능을 유지한다. 코드는 https://github.com/NVlabs/GatedDeltaNet-2에서 확인할 수 있다.
개방형 이미지 생성은 더 이상 단순한 프롬프트-이미지 문제가 아니다. 고품질 생성을 위해서는 에이전트가 모델의 내부 생성 능력과 외부 자원을 결합하는 경우가 많다. 요청이 더욱 다양하고 까다로워짐에 따라, 우리는 다양한 생성 과제에서 궤적을 통해 스스로 진화하고 도구를 더 효과적으로 활용할 수 있는 범용 이미지 생성 에이전트를 개발하는 것을 목표로 한다. 이를 위해 본 논문에서는 도구 기반 시각 경험 증류(Tool-Orchestrated Visual Experience Distillation)를 활용한 자기 진화 프레임워크인 GenEvolve를 제안한다. GenEvolve에서 각 생성 시도는 도구 조율 궤적으로 모델링되며, 에이전트는 증거를 수집하고, 참조를 선택하며, 생성 기술을 호출하고, 이들을 프롬프트-참조 프로그램으로 구성한다. 주로 이미지 수준의 스칼라 보상에 의존하는 기존 에이전트 기반 생성 방법과 달리, GenEvolve는 동일한 요청에 대한 여러 궤적을 비교하고 최적-최악의 차이를 구조화된 시각 경험으로 추상화하며, 이 경험은 오직 특권 교사 분기에만 제공된다. 온-정책 자기 증류에서 영감을 받은 시각 경험 증류는 조밀한 토큰 수준의 감독을 제공하여 학생 모델이 더 나은 검색, 지식 활성화, 참조 선택 및 프롬프트 구성을 내재화하도록 돕는다. 또한 GenEvolve-Data와 GenEvolve-Bench를 구축하였다. 공개 벤치마크와 GenEvolve-Bench에 대한 실험 결과, 강력한 기준선 대비 상당한 성능 향상을 보였으며, 현재 이미지 생성 프레임워크 중 최고 수준의 성능을 달성하였다. 웹사이트는 다음과 같다: https://ephemeral182.github.io/GenEvolve/
LLM은 프로덕션 환경에서 널리 채택되어 추론 시스템의 한계를 시험하고 있습니다. 분리형 LLM 서빙(예: PD 분리 및 KV 상태 분리)은 확장성과 비용 효율성을 개선하지만, KV를 네트워크와 스토리지 경계를 넘나드는 명시적 페이로드로 변환하여 KV가 종단 간 병목의 지배적 요소가 됩니다. 기존 KV 압축은 일반적으로 정적 런타임 구성이지만, 프로덕션 서비스 컨텍스트는 워크로드 혼합, 대역폭 및 SLO/품질 예산 측면에서 시간이 지남에 따라 변동합니다. 결과적으로 고정된 선택은 차선이거나 지연 시간을 증가시킬 수 있습니다. 본 논문에서는 분리형 LLM 서빙을 위한 최초의 서비스 인지형 적응형 KV 통신 압축 프레임워크인 \emph{KVServe}를 제시합니다. KVServe는 (1) KV 압축을 새로운 구성 요소와 교차 방법 재구성을 갖춘 모듈형 전략 공간으로 통합하고, (2) 이 공간을 효율적으로 탐색하여 3D 파레토 후보 집합을 추출하는 베이지안 프로파일링 엔진을 도입하여 오프라인 탐색 오버헤드를 50배 감소시키며, (3) 분석적 지연 시간 모델과 경량 밴딧을 결합하여 제약 조건 하에서 프로파일을 선택하고 오프라인-온라인 간 불일치를 보정하는 서비스 인지형 온라인 컨트롤러를 배포합니다. vLLM에 통합되어 데이터셋, 모델, GPU 및 네트워크 전반에 걸쳐 평가된 결과, KVServe는 PD 분리 서빙에서 최대 9.13배의 JCT 속도 향상과 KV 분리 서빙에서 최대 32.8배의 TTFT 감소를 달성합니다.
언어 모델 개발의 진전은 종종 비교 결정, 즉 어떤 아키텍처를 채택할지, 어떤 사전 학습 코퍼스를 사용할지, 또는 어떤 학습 레시피를 적용할지에 의해 주도됩니다. 이러한 결정을 잘 내리기 위해서는 신뢰할 수 있는 성능 예측이 필요하지만, 일반적으로 사용되는 두 신호는 근본적으로 한계가 있습니다. 교차 엔트로피 손실은 다운스트림 능력과 잘 정렬되지 않으며, 직접적인 다운스트림 평가는 비용이 많이 들고 희소하며 초기 학습 단계에서는 종종 정보를 제공하지 않습니다. 이에 따라, 우리는 전문가가 작성한 솔루션에 대한 후보 모델의 다음 토큰 분포에서 엔트로피, 상위-k 정확도, 전문가 토큰 순위와 같은 토큰 수준 통계를 집계하여 프록시 메트릭을 구성할 것을 제안합니다. 세 가지 설정에서 우리의 프록시는 일관되게 손실 및 계산 기반 기준선을 능가합니다. 1) 교차 계열 모델 선택의 경우, 평균 Spearman Rho = 0.81(교차 엔트로피 손실의 경우 Rho = 0.36)로 이질적인 추론 모델 집단을 순위화합니다. 2) 사전 학습 데이터 선택의 경우, 직접 평가보다 약 10,000배 적은 계산으로 대상 모델에 대한 25개의 후보 코퍼스를 신뢰성 있게 순위화하여 파레토 프런티어를 기존 방법 이상으로 확장합니다. 3) 학습 시간 예측의 경우, 기존 대안의 오류의 약 절반 수준으로 18배의 계산 범위에 걸쳐 다운스트림 정확도를 외삽합니다. 종합하면, 이러한 결과는 전문가 궤적이 모델 능력을 평가하기 위한 광범위하게 유용한 신호 원천이며, 모델 개발 수명 주기 전반에 걸쳐 신뢰할 수 있는 성능 예측을 가능하게 함을 시사합니다.
기존의 디지털 숏드라마 제작 접근법은 일반적으로 일회성 LLM 생성 대본과 느슨하게 결합된 파이프라인에 의존하며, 이는 숏드라마 생성의 세 가지 핵심 요구사항을 충족하지 못한다: (1) 서사적 템포 측면에서 약한 훅, 불충분한 전개, 매력적이지 않은 결말; (2) 공간적 일관성 측면에서 클립 간 장면 배치의 변동과 캐릭터 위치의 불일치; (3) 제작 수준의 품질 관리 측면에서 대본과 시각적 단계에 걸친 광범위한 수동 검토 및 수정 필요. 본 논문에서는 사용자의 한 문장 아이디어를 구조화된 중간 모듈과 반복적 정제를 통해 완전히 제작된 숏드라마로 변환하는 계층적 다중 에이전트 프레임워크인 '한 문장, 한 드라마(One Sentence, One Drama)'를 제시한다. 본 접근법은 세 가지 핵심 구성 요소에 기반한다: (1) 숏드라마의 템포와 서사적 일관성을 강제하는 다중 에이전트 논쟁 기반 스토리 생성 모듈; (2) 클립 간 일관된 캐릭터 위치와 장면 배치를 위한 공유 공간 참조를 설정하는 3D 기반 첫 프레임 생성 메커니즘; (3) 대본, 시각, 비디오 생성 단계 전반에 걸쳐 포괄적 오류 탐지 및 목표 지향적 수정을 수행하는 다단계 검토 루프. 또한 관객의 몰입 경험을 향상시키기 위해 씬 수준의 배경 음악 매칭 및 씬 전환 계획을 도입한다. 이 작업을 체계적으로 평가하기 위해, 표준 비디오 품질 지표를 숏드라마 특화 기준으로 확장한 벤치마크인 Short-Drama-Bench를 소개한다. 실험 결과는 본 방법이 서사 품질, 클립 간 일관성, 전반적인 시청 경험에 있어 기존 파이프라인을 크게 능가함을 보여준다.
대규모 언어 모델(LLM)과 에이전트 시스템은 임상 의사 결정 지원에 가능성을 보여주었지만, 기존 연구는 대부분 증거가 이미 선별되어 모델에 제공되었다고 가정한다. 실제 임상 워크플로우에서는 에이전트가 능동적으로 증거를 탐색하고, 반복적으로 계획을 수립하며, 이질적 출처로부터 다중 양식 증거를 종합해야 한다. 본 논문에서는 수동적 증거 소비에서 능동적 증거 획득으로 패러다임을 전환하는 동적 다중 양식 증거 탐색을 위한 자동화된 에이전트 프레임워크인 ClinSeekAgent를 소개한다. ClinSeekAgent는 임상 질의와 원시 데이터 소스에 대한 접근 권한만 주어지면 의학 지식 베이스 조회, 원시 EHR 탐색, 의료 영상 도구 호출을 통해 증거를 수집하고, 새로운 정보가 등장함에 따라 가설을 정제하며, 수집된 증거를 근거 기반 임상 결정으로 통합한다. ClinSeekAgent는 최첨단 LLM을 위한 추론 시점 에이전트로, 그리고 고품질 에이전트 궤적을 컴팩트한 오픈소스 모델로 증류하기 위한 훈련 시점 파이프라인으로 기능한다. 추론 시점 효용성을 검증하기 위해, 고정된 사전 선택 증거를 사용한 Curated Input 추론과 원시 임상 데이터를 통한 Automated Evidence-Seeking을 짝지은 ClinSeek-Bench를 구축했다. 텍스트 전용 EHR 과제에서 ClinSeekAgent는 Claude Opus 4.6의 전체 F1을 60.0에서 63.2로, MiniMax M2.5를 43.1에서 47.3으로 개선했으며, 평가된 9개 호스트 모델 중 7개에서 긍정적인 위험 예측 향상을 보였다. 다중 양식 과제에서 ClinSeekAgent는 Claude Opus 4.6을 47.5에서 62.6(+15.1)으로 개선했으며, 평가된 모든 모델이 세 가지 CXR 관련 과제 그룹 전반에서 향상되었다. 또한 ClinSeekAgent가 훈련 파이프라인으로서 유효함을 검증하기 위해 에이전트 증거 탐색 궤적을 ClinSeek-35B-A3B로 증류했으며, 이는 기존 AgentEHR-Bench에서 평균 F1 34.0을 달성하여 Qwen3.5-35B-A3B 베이스라인 대비 +11.9점 향상되었고 Claude Opus 4.6에 근접했다.
대부분의 롱폼 비디오 프레임은 중복되지만, 중요한 정보는 시간적 예외, 즉 실제 시각적 특징이 예측된 진화에서 벗어나는 순간에 존재합니다. 인간 두뇌의 예측 코딩에서 영감을 받아, 우리는 Swift Sampling을 제안한다. 이는 비디오에서 정보량이 높은 순간을 자동으로 식별하는 우아하고 학습이 필요 없는 프레임 선택 알고리즘이다. 구체적으로, 비디오를 시각적 잠재 공간에서의 미분 가능한 궤적으로 모델링하고 특징의 속도와 가속도를 계산한다. 그런 다음 테일러 전개를 적용하여 후속 프레임의 예상 경로를 투영한다. 예측된 다양체에서 급격히 벗어나는 프레임은 시간적으로 예외적인 프레임으로 식별되어 샘플링 대상이 된다. 보조 네트워크나 비디오별 하이퍼파라미터 튜닝에 의존하는 기존의 학습 없는 방법과 달리, Swift Sampling은 매우 가벼워 기준 대비 0.02배의 추가 계산 비용만 발생시켜 주요 기준선 대비 오버헤드를 30배 저렴하게 만든다. 세 가지 장편 비디오 질의응답 벤치마크와 10개의 다양한 하위 작업에서 Swift Sampling은 균일 샘플링 및 기존 쿼리 무관 기준선보다 우수한 성능을 보인다. 특히 프레임 예산이 제한된 장편 비디오에서 최대 +12.5포인트까지 정확도를 향상시킨다.
모델 카드는 텍스트 설명과 성능, 구성, 데이터셋 테이블을 포함한 구조화된 아티팩트(artifacts)의 혼합을 통해 모델 동작을 설명합니다. 기존 모델 검색 시스템은 주로 텍스트에 대한 의미적 유사성(semantic similarity)에 의존하기 때문에 동질적인 결과 집합을 생성하고 대안 탐색을 제한할 수 있습니다. 우리는 모델 검색이 본질적으로 비교적(comparative)이라고 주장합니다. 사용자는 작업에 부합하면서도 측정 가능한 방식으로 차별화된 모델을 원합니다. 우리는 이러한 균형을 위해서는 장황한 설명보다는 압축된 고품질 증거(evidence)에 대한 검색이 필요하며, 그러한 증거의 상당 부분이 구조화된 테이블에 집중되어 있다고 가정합니다. 우리는 ModelTables 벤치마크를 기반으로 구축된 테이블 기반 모델 검색 프레임워크인 StructuredSemanticSearch를 제시합니다. 쿼리가 주어지면 StructuredSemanticSearch는 작업 정렬을 위한 의미적 기준선(semantic baseline)과 합집합 가능성(unionability), 조인 가능성(joinability), 키워드 검색과 같은 테이블 발견 연산자를 사용하여 쿼리 관련 모델 카드 테이블을 발견하는 구조 인식 파이프라인을 결합합니다. 검색된 테이블은 제어된 top-k 예산 하에 모델 카드에 다시 매핑되어 텍스트 기반 검색과 테이블 기반 검색 간의 공정한 비교를 가능하게 합니다. 검색 외에도 StructuredSemanticSearch는 방향 인식 통합(orientation-aware integration)을 통해 테이블 통합을 모델-테이블 도메인에 적용하여 부분적으로 중복되고 때로는 전치된(transposed) 증거 테이블로부터 컴팩트한 통합 뷰를 생성합니다. 평가를 위해 우리는 모델 카드에서 컴팩트한 증거 항목을 추출하고, 쿼리를 조건별 또는 의도별 너겟(nugget)에 매칭하며, 검색된 모델 카드 후보 집합에 대한 증거 범위(coverage)와 다양성(diversity)을 측정하는 너겟 기반의 감사 가능한 프로토콜을 도입합니다. 이 프로토콜은 또한 동적 모델 레이크(dynamic model lakes)에서 근사적이고 증거 기반의 레이블링을 위한 확장 가능한 경로를 제공합니다. 597개의 모델 추천 쿼리에 대한 실험은 구조 인식 파이프라인이 의미적 기준선보다 향상된 너겟 범위를 보여줍니다.
에이전트는 언제, 어떻게 계획을 수립해야 하는가? 지배적인 접근 방식은 적응형 연산(예: 체인-오브-생각)을 갖춘 반응적 정책으로 에이전트를 구축하고, 계획이 암묵적으로 나타나기를 기대하며 종단 간 학습을 수행한다. 이러한 시스템은 계획의 존재 여부, 구조 또는 범위에 대한 통제 없이 추론 길이를 극적으로 증가시켜, 신뢰할 수 있는 정확도 향상 없이 비효율적인 토큰 사용을 초래한다. 본 논문은 효율적인 에이전트 추론이 의사결정을 세 가지 시스템으로 분해함으로써 이점을 얻는다고 주장한다: 세계 모델을 통한 미래 상태 예측에 숙의를 근거하는 시뮬레이션 추론(시스템 II); 학습된 구성자를 통해 언제, 얼마나 깊이 계획할지를 결정하는 자기 조절(시스템 III); 세부적인 행동을 처리하는 반응적 실행(시스템 I). 시뮬레이션 추론은 도메인별 엔지니어링 없이 다양한 작업에 걸쳐 통합된 계획을 제공하며, 자기 조절은 계획자가 필요할 때만 호출되도록 보장한다. 이를 검증하기 위해 SR^2AM(자기 조절 시뮬레이션 추론 에이전트 LLM)을 개발하여, LLM을 세계 모델로 사용하면서 LLM의 체인-오브-생각 내에서 두 요소를 별도의 단계로 구현했다. 우리는 두 가지 구현 방식을 탐구한다: 프롬프트 기반 다중 모듈 시스템(v0.1)에서 결정을 기록하는 방식과, 사전 학습된 추론 LLM의 궤적에서 구조화된 계획을 재구성하는 방식(v1.0)으로, 지도 학습 후 강화 학습을 통해 훈련되었다. 수학, 과학, 표 분석, 웹 정보 탐색 전반에 걸쳐, v0.1-8B와 v1.0-30B는 각각 120-355B 및 685B-1T 파라미터 시스템과 경쟁력 있는 Pass@1을 달성했으며, v1.0-30B는 유사한 에이전트 LLM보다 25.8-95.3% 적은 추론 토큰을 사용했다. 강화 학습은 평균 계획 범위를 22.8% 증가시킨 반면, 계획 빈도는 2.0%만 증가하여, 더 자주 계획하기보다는 더 멀리 계획하는 법을 학습함을 보여준다. 더 넓게 보면, 학습된 자기 조절은 계획을 넘어 에이전트가 자신의 학습과 적응을 어떻게 통제할지에 대한 원칙을 구체화한다.
전통적인 시각 객체 추적(VOT) 방법은 일반적으로 작업별 지도 학습(supervised training)에 의존하기 때문에, 탐지되지 않은 객체와 방해 요소, 폐색, 비선형 운동이 포함된 까다로운 시나리오에 대한 일반화 능력이 제한적이다. 최근의 SAM 2로 대표되는 비전 기초 모델(vision foundation model)은 대규모 사전 학습을 통해 강력한 비디오 이해 사전 지식을 습득하며, 보다 강건하고 일반화 가능한 추적기를 구축할 수 있는 유망한 기반을 제공한다. 그러나 SAM 2를 VOT에 직접 적용하는 것은 여전히 최적이 아니다. 왜냐하면 SAM 2는 대상의 운동 역학(motion dynamics)을 명시적으로 모델링하지 않으며, 신뢰할 수 있는 추적에 필수적인 프레임 간 기하학적 및 의미론적 일관성(geometric and semantic consistency)을 강제하지 않기 때문이다. 이 문제를 해결하기 위해, 우리는 SAMOSA라는 새로운 추적 프레임워크를 제안한다. 이 프레임워크는 운동, 기하학 및 의미론적 단서를 명시적으로 활용하여 SAM 2를 복잡한 VOT 시나리오에 적응시킨다. 구체적으로, 우리는 대상 역학을 모델링하고 마스크 선택 및 메모리 필터링을 안내하기 위해 경량화된 비선형 운동 예측기를 도입한다. 또한 의미론적 단서를 활용하여 대상 이동을 탐지하고 추적 실패로부터 복구하며, 기하학적 단서는 구조적 제약 조건으로 통합하여 추적 안정성을 향상시킨다. 이러한 방식으로 SAMOSA는 SAM 2의 암시적 비디오 이해 사전 지식과 명시적 추적 지향 모델링 간의 격차를 해소한다. 광범위한 실험 결과, SAMOSA는 일반 벤치마크에서 최첨단 SAM 2 기반 접근법보다 일관되게 우수한 성능을 보이며, 지도 학습 VOT 방법보다 더 강력한 일반화 능력을 입증하고, 복잡한 비선형 운동 시나리오의 전형인 안티-UAV 데이터셋에서 상당한 성능 향상을 달성함을 보여준다. 우리의 코드는 https://github.com/DurYi/SAMOSA에서 확인할 수 있다.
다중 모달 대규모 언어 모델(MLLM)과 확산 모델은 각각 놀라운 성숙도에 도달했습니다: MLLM은 강력한 의미적 근거를 바탕으로 이질적인 다중 모달 입력에 대한 추론에 탁월한 반면, 확산 모델은 사실적 충실도로 이미지와 비디오를 합성합니다. 우리는 이 두 계열이 간단한 역할 분담을 통해 통합될 수 있다고 주장합니다. 즉, MLLM은 의미론적 계획을 수행하고, 확산 모델은 높은 수준의 의미적 지침과 낮은 수준의 시각적 특징으로부터 픽셀을 렌더링합니다. 이 아이디어를 바탕으로, 우리는 비디오 생성 및 편집을 위한 통합 프레임워크인 Bernini를 제안합니다. MLLM 기반 계획자는 ViT 임베딩 공간에서 목표 의미 표현을 직접 예측하고, DiT 기반 렌더러는 이 계획에 따라 픽셀을 합성하며, 텍스트 특징과 편집의 경우 세부 정보 보존을 위한 소스 VAE 특징으로 보강됩니다. 의미가 인터페이스 역할을 하기 때문에, 계획자와 렌더러는 별도로 훈련될 수 있으며 약간의 공동 훈련만으로도 두 구성 요소의 사전 훈련된 강점을 유지하면서 훈련 효율성을 유지합니다. 다중 시각적 입력을 더 잘 처리하기 위해, 우리는 세그먼트 인식 3D 회전 위치 임베딩(SA-3D RoPE)을 도입하고, 계획자에 사고 사슬 추론을 추가로 통합하여 이해를 생성으로 더 잘 전이합니다. Bernini는 다양한 비디오 생성 및 편집 벤치마크에서 최첨단 성능을 달성하며, MLLM의 사전 훈련된 이해가 도전적인 편집 작업에서 강력한 일반화로 이어집니다.
많은 공공 건물에서는 방문객의 방향 인식을 돕기 위해 '현재 위치' 표시가 있는 평면도를 제공한다. 평면도 위치 추정(floorplan localization)은 시각적 관측 데이터가 평면도 내 어디에서 촬영되었는지를 결정함으로써 이러한 기능을 계산적으로 재현하고자 한다. 그러나 기존 방법들은 일반적으로 통제된 소규모 환경과 정밀한 벡터화된 평면도를 가정하므로, 대규모 건물 및 래스터화된 평면도에서의 적용 능력이 제한된다. 본 연구에서는 장면의 재구성된 3차원 표현에 작업을 기반하여 실제 환경(in the wild)에서 평면도 위치 추정을 수행하는 접근법을 제시한다. 제약 없는 이미지 컬렉션이 주어지면, 우리 방법은 중력 정렬된 3차원 장면을 재구성하고 이를 평면도 대리(proxy) 역할을 하는 2차원 밀도 맵으로 투영한다. 그런 다음 평면도 위치 추정은 2차원 유사 변환을 통해 이 대리 맵과 입력 평면도를 정렬하는 것으로 정식화된다. 밀도 맵과 건축 평면도 간의 외관 차이를 극복하기 위해, 2차원 기초 모델을 활용하여 교차 모달 대응 관계를 학습하도록 적응시키고, 구조적 일관성을 유지하면서 의미적으로 정렬된 대응을 장려하는 미세 조정 기법을 도입한다. 광범위한 실험을 통해 단일 입력 이미지만으로도 극도로 희소한 설정을 포함하여 기존 방법들 대비 상당한 성능 향상을 입증한다. 우리의 코드와 데이터는 공개될 예정이다.
텍스트-이미지(T2I) 생성 모델을 인간 선호도에 정렬하는 작업은 점점 더 이미지 보상 모델에 의존하고 있으며, 이러한 모델은 프롬프트 정렬 및 지각 품질에 따라 생성된 이미지를 점수화하거나 순위를 매긴다. 기존 보상 모델은 일반적으로 대규모 인간 선호도 말뭉치에 대해 브래들리-테리(BT) 선호 모델로 학습되므로 학습 비용이 높고 적응이 어려우며 평가 기준이 불투명하다. 한편, 시각-언어 모델(VLM) 평가자는 텍스트 루브릭을 통해 보다 세분화된 평가를 제공할 수 있지만, 수동으로 설계되거나 휴리스틱하게 생성된 점수 규칙이 인간 선호도를 신뢰성 있게 반영하지 못할 수 있다. 본 논문에서는 T2I 분야에서 최초로 자동으로 명시적 루브릭을 합성하고 선택하여 VLM 평가자를 안내하는 루브릭 학습 프레임워크인 AutoRubric-T2I를 제안한다. AutoRubric-T2I는 먼저 선호도 쌍에서 추론 흔적을 후보 루브릭으로 합성한 후, VLM 평가자를 사용하여 각 루브릭 하에서 쌍별 이미지를 점수화함으로써 쌍별 루브릭-점수 차이를 생성하여 선호도 학습을 수행한다. 노이즈가 많고 중복된 규칙을 제거하기 위해 ℓ₁ 정규화 로지스틱 회귀 정제기(ℓ₁-Regularized Logistic Regression Refiner)를 추가로 사용하여 가장 판별력 있는 상위 N개의 루브릭을 선택한다. 광범위한 평가 결과, AutoRubric-T2I는 주석이 달린 선호도 데이터의 0.01% 미만을 사용하여 고품질의 해석 가능한 보상 신호를 생성하며, 대규모 보상 모델 학습의 필요성을 크게 줄인다. MMRB2와 같은 이미지 보상 벤치마크에서 AutoRubric-T2I는 강력한 보상 모델 기준선을 능가한다. 또한 AutoRubric-T2I를 TIIF 및 UniGenBench++를 포함한 하위 T2I 작업에 대한 RL 보상으로 검증한 결과, 확산 모델에서 Flow-GRPO 파이프라인을 사용하여 스칼라 보상 모델보다 생성 품질을 향상시킴을 확인하였다.
우리는 TerminalWorld를 소개합니다. 이는 "야생에서(in-the-wild)" 수집된 터미널 녹화로부터 고충실도 평가 작업을 자동으로 역설계하는 확장 가능한 데이터 엔진입니다. 80,870개의 터미널 녹화를 처리한 이 엔진은 18개의 실제 범주(짧은 일상 작업부터 50단계를 초과하는 워크플로우까지)에 걸쳐 1,280개의 고유 명령어를 포함하는 1,530개의 검증된 작업으로 구성된 전체 벤치마크를 생성합니다. 이 중에서 200개의 대표적이고 수동으로 검토된 작업으로 구성된 검증된 하위 집합(Verified subset)을 선별했습니다. TerminalWorld-Verified에 대해 8개의 최첨단 모델과 6개의 에이전트를 포괄적으로 벤치마킹한 결과, 현재 시스템은 실제 터미널 워크플로우에서 여전히 어려움을 겪으며 최대 통과율이 62.5%에 불과함을 보여줍니다. 또한 TerminalWorld는 기존의 전문가 선별 벤치마크(예: Terminal-Bench)와는 구별되는 실제 터미널 능력을 포착하며, 점수 간 상관관계가 약합니다(Pearson r=0.20). 자동화된 엔진 덕분에 TerminalWorld는 본질적으로 실제적이고 확장 가능하므로, 개발자 관행이 발전함에 따라 실제 터미널 환경에서 에이전트를 평가할 수 있습니다. 데이터와 코드는 https://github.com/EuniAI/TerminalWorld에서 확인할 수 있습니다.
종적 임상 기록은 환자가 시간에 따라 어떻게 변화하는지에 대한 풍부한 증거를 포함하고 있지만, 이러한 신호를 임상 예측을 위한 학습 감독 신호로 변환하는 것은 여전히 어려운 과제이다. 우리는 Foresight Learning을 임상 예측에 확장하여, 시간 순서로 정렬된 MIMIC-III 기록을 과거 환자 맥락, 가능한 미래 사건에 대한 자연어 질문, 그리고 이후 문서에서 확인된 레이블로 구성된 예제로 변환한다. 이 과정을 통해 약물, 시술, 장기 지원, 미생물학 및 사망률에 걸쳐 702개 입원 사례에서 6,900개의 예측 예제를 얻었다. 이러한 예제를 통해 학습된 소형 LoRA 어댑터는 프롬프트 기반의 기본 모델보다 성능이 향상되어, 예상 교정 오차를 0.1269에서 0.0398로, 브라이어 점수를 0.199에서 0.145로 감소시켰으며, 보류된 질문에 대해서는 GPT-5 점 추정치를 약간 상회하는 성능을 보였다. 이 접근법은 수작업으로 설계된 구조적 특성이나 종말점 특화 분류기 없이도 종적 기록으로부터 재사용 가능한 임상 예측 감독 신호를 가능하게 한다.
제조 가능한 칩 레이아웃은 수천 개의 기하학 기반 설계 규칙을 충족해야 하며, 설계 규칙 검사(DRC)는 레이아웃에 대해 실행 가능한 DRC 스크립트를 실행하여 이를 강제한다. 자연어 규칙을 올바른 DRC 스크립트로 변환하는 것은 노동 집약적이며 전문적인 지식이 필요하므로, DRC 스크립트 합성 및 디버깅을 위한 LLM 에이전트의 동기가 된다. 그러나 기존 벤치마크는 평가 세트가 작고, 종종 실행 정확성보다는 코드 유사성으로 스크립트를 평가하며, 이전 머신러닝 기반 방법은 실행 피드백을 무시하거나 에이전트의 입력으로 레이블이 지정된 테스트 레이아웃을 요구한다. 이에 우리는 1,000개의 규칙-스크립트 작업과 실행 기반 점수를 위한 13,921개의 평가 칩 레이아웃을 포함하는 DRC 스크립트 코딩 에이전트를 위한 대규모 벤치마크인 Rule2DRC를 소개한다. Rule2DRC는 에이전트의 입력으로 평가 레이아웃을 필요로 하지 않으면서 DRC 실행 결과를 통해 기능적 정확성을 측정하는 평가 파이프라인을 제공한다. 또한 우리는 실행 피드백을 사용하여 식별력 있는 테스트 케이스를 생성하고 이전에 구별 불가능했던 후보 스크립트를 분리하는 프로그램 선택을 위한 테스터 에이전트인 SplitTester를 제안하여, 이 분야에서 Best-of-N 선택 성능을 크게 향상시킨다. 코드는 https://github.com/snu-mllab/Rule2DRC에서 공개한다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 LLM 추론에 강력한 가능성을 보여주었으나, 결과 기반 RLVR은 어려운 문제에서 올바른 최종 답변 생성이 드물고 샘플 수준의 신용 할당이 실패한 시도에서의 부분적 진전을 활용할 수 없기 때문에 비효율적이다. 본 연구에서는 참조 추론 체인에서 검증 가능한 하위 문제를 도출하고 마지막 하위 문제를 원래 문제로 고정하는 커리큘럼 RL 프레임워크인 SCRL(하위 문제 커리큘럼 강화 학습)을 소개한다. 이는 어려운 문제에 대한 부분적 진전을 검증 가능한 학습 신호로 전환한다. 알고리즘적으로, SCRL은 하위 문제 수준 정규화를 사용하여 각 하위 문제 위치에서 보상을 독립적으로 정규화하고, 그 결과로 얻은 이점(advantage)을 해당 답변 구간에 할당함으로써 외부 평가 기준이나 보상 모델 없이도 세분화된 신용 할당을 가능하게 한다. 분석 결과, 하위 문제 커리큘럼은 어려운 문제를 기울기 소멸 영역에서 벗어나게 하며, 원래 문제가 더 어려워질수록 상대적 이득이 더 커진다. 7가지 수학 추론 벤치마크에서 SCRL은 강력한 커리큘럼 학습 기준선보다 우수한 성능을 보여, Qwen3-4B-Base에서 GRPO 대비 평균 정확도가 +4.1포인트, Qwen3-14B-Base에서 +1.9포인트 향상되었다. AIME24, AIME25, IMO-Bench에서는 Qwen3-4B-Base에서 pass@1이 +3.7포인트, pass@64가 +4.6포인트 추가로 개선되어, 어려운 추론 문제에 대한 더 나은 탐색을 나타낸다.
웨어러블 및 모바일 기기가 일상생활에 점점 더 깊이 통합됨에 따라, 이는 야외 환경에서 인간의 움직임을 지속적으로 감지할 수 있는 실용적인 수단을 제공한다. 그러나 관성 신호는 신체 부위, 장착 위치, 센서 방향, 기기 하드웨어 및 샘플링 프로토콜을 포함한 감지 설정에 크게 의존한다. 이러한 설정 의존성은 기기와 데이터셋 간에 전이 가능한 움직임 표현을 학습하기 어렵게 만들며, 폐쇄 집합 인식을 넘어선 웨어러블 IMU의 광범위한 사용을 제한한다. 본 논문에서는 설정에 구애받지 않는 인간 움직임 모델링을 위한 기하학 인식 프레임워크인 AnyMo를 소개한다. AnyMo는 물리 기반 IMU 시뮬레이션을 밀집된 신체 표면 위치에 적용하여 다양하고 그럴듯한 합성 신호를 생성하고, 쌍을 이루는 합성 배치 뷰와 마스킹된 부분 관측값을 기반으로 그래프 인코더를 사전 학습하며, 다중 위치 IMU를 전신 움직임 토큰으로 토큰화하고, 이 토큰들을 LLM과 정렬하여 움직임-언어 이해를 수행한다. 우리는 AnyMo를 세 가지 보완적 과제, 즉 14개의 보이지 않는 하위 데이터셋에 대한 제로샷 활동 인식, 교차 양식 검색, 웨어러블 IMU 움직임 캡셔닝에서 평가하였으며, HAR에서 평균 정확도/F1/R@2가 각각 11.7%/11.6%/22.6% 향상되었고, 제로샷 IMU-텍스트 및 텍스트-IMU 검색 MRR이 각각 15.9% 및 28.6% 증가하였으며, 제로샷 캡셔닝 BERT-F1이 18.8% 향상되었다. 이러한 결과는 AnyMo가 야외 환경에서 웨어러블 움직임 이해를 위한 범용 모델로서의 가능성을 뒷받침한다. 프로젝트 페이지: https://baiyuchen.com/project/AnyMo
표현 오토인코더(RAE)는 고정된 비전 기반 모델(VFM)을 토크나이저 인코더로 활용하여 강력한 고수준 표현을 제공하며, 이를 통해 잠재 확산 모델의 빠른 수렴과 고품질 생성을 가능하게 한다. 그러나 VFM을 고정하면 본질적으로 공간 재구성 능력이 제한되어 세밀한 생성과 이미지 편집에 한계가 있다. 반대로 재구성 중심 신호를 미세 조정을 통해 통합하면 사전 학습된 의미 공간이 손상되어 생성 충실도가 저하된다. 이러한 트레이드오프를 해결하기 위해, 우리는 RAE를 위한 간단하면서도 효과적인 프레임워크인 DecQ를 제안한다. 구체적으로, DecQ는 경량의 세부 정보 집약 쿼리를 도입하여 응축기 모듈을 통해 중간 VFM 특성에서 미세한 정보를 추출한다. 이 쿼리들은 디코더에 통합되어 재구성을 지원하며, 생성 모델링 중 패치 토큰과 함께 공동으로 생성된다. DecQ는 얕은 층과 깊은 층의 정보를 모두 집계함으로써 재구성-생성 트레이드오프를 효과적으로 완화하여 재구성 품질과 생성 성능을 모두 개선한다. 실험 결과는 다음과 같다. (1) 단 8개의 추가 쿼리와 3.9%의 추가 연산만으로 DecQ는 고정된 DINOv2 기반 RAE 대비 재구성 성능을 개선하여 PSNR을 19.13dB에서 22.76dB로 향상시킨다. (2) 생성 모델링에서 DecQ는 RAE보다 3.3배 빠른 수렴 속도를 보이며, 가이던스 없이 FID 1.41, 가이던스 적용 시 FID 1.05를 달성한다.
정치 텍스트에서 슈워츠 가치를 탐지하는 것은 암시적 단서가 종종 주변 논증과 인접 가치 간의 미세한 구분에 의존하기 때문에 어렵다. 본 연구에서는 맥락과 명시적 도덕 지식이 문장 수준 가치 탐지에 언제 도움이 되는지 분석한다. ValuesML/Touché ValueEval 형식을 사용하여 문장, 윈도우, 전체 문서 입력을 비교하고, 선별된 도덕 지식 베이스를 활용한 비검색 증강(no-RAG) 및 검색 증강 설정, 지도 학습 DeBERTa-v3-base/large 인코더, 그리고 12B에서 123B 파라미터 규모의 제로샷 LLM을 비교했다. 결과는 더 많은 맥락이 항상 유리하지는 않음을 보여준다. 전체 문서 맥락은 문장만 입력했을 때보다 지도 학습 DeBERTa 인코더에서 매크로 F1 점수가 3.8~4.8포인트 향상되었지만, 제로샷 LLM에서는 일관된 개선을 보이지 않았다. 검색된 도덕 지식은 일치된 비교 조건에서 더욱 일관되게 유용했으며, 초기 융합(early fusion) 방식으로 적용했을 때 테스트된 각 모델군과 맥락 조건에서 성능을 향상시켰다. 그러나 DeBERTa-v3-base에서 large로, 12B에서 더 큰 LLM으로 확장하는 것이 항상 성능 향상을 보장하지는 않았으며, 인코더에 대해서는 단순한 초기 융합이 테스트된 후기 융합(late-fusion) 및 교차 주의(cross-attention) RAG 변형보다 뛰어난 성능을 보였다. 가치별 분석에 따르면, 맥락과 검색은 사회적으로 위치하거나 개념적으로 혼동되기 쉬운 가치에 가장 큰 도움을 주는 것으로 나타났다. 이러한 결과는 가치에 민감한 자연어 처리가 더 긴 입력이나 더 큰 모델을 보편적인 개선책으로 보기보다는 맥락, 지식, 모델군을 함께 평가해야 함을 시사한다.
전방위 능동적 스트리밍 비디오 이해, 즉 연속적인 시청각 스트림에서 자율적으로 발화 시점과 내용을 결정하는 능력은 전방위 모달 대규모 언어 모델의 새로운 역량으로 부상하고 있다. 기존 벤치마크는 세 가지 핵심 측면에서 한계를 보인다: 주로 시각 신호에 의존하며, 진정한 능동적 평가 대신 폴링(polling)이나 고정 타임스탬프 프로토콜을 채택하고, 제한된 범위의 태스크만을 다루어 전방위 능동적 스트리밍 모델의 신뢰할 수 있는 평가와 차별화를 어렵게 한다. 우리는 전방위 모달 인식, 능동적 응답, 다양한 비디오 이해 태스크를 공동으로 평가하는 최초의 벤치마크인 OmniPro를 제시한다. 이는 9개의 하위 태스크와 3개의 인지 수준에 걸친 2,700개의 인간 검증 샘플로 구성되며, 6가지 기본 비디오 이해 능력을 포괄한다. 특히 샘플의 84%가 오디오 신호(음성 또는 비음성)를 필요로 하며, 각 샘플에는 세분화된 다중 모달 분석을 가능하게 하는 모달리티 분리 레이블이 주석 처리되어 있다. 또한 이중 모드 평가 프로토콜을 도입한다: 프로브(Probe) 모드는 각 기준 진실(ground-truth) 트리거 전후에 모델을 질의하여 내용 이해를 평가하고, 온라인(Online) 모드는 스트리밍 입력에서 모델이 자율적으로 응답 시점을 결정하도록 요구하여 완전한 능동적 능력을 평가한다. 11개의 대표 모델을 평가한 결과 세 가지 주요 발견이 도출되었다: (1) 오디오는 일관된 성능 향상을 제공하지만 모델 간 활용도에 큰 변동성이 있으며, (2) 시간이 지남에 따라 성능이 현저히 저하되어 장기적 강건성에 제한이 있음을 나타내며, (3) 비음성 오디오 인식이 가장 취약한 차원으로 남아 있다.
대규모 언어 모델(LLMs)이 사용자의 목표 형성, 개선 및 확장 방식을 점점 더 주도함에 따라, 인간-AI 협업에서의 기여도 귀속(attribution)은 사용자가 자신의 의존도를 조정하고 평가자가 AI 지원 작업을 평가하는 데 있어 중요해지고 있다. 그러나 기존 방법들은 최종 산출물에 초점을 맞출 뿐, 목표 자체가 공동으로 형성되는 과정을 간과한다. 이에 우리는 명시적 목표를 검증 가능한 요구사항으로 분해하고, 대화 턴(dialogue turn)에 걸쳐 직접 기여와 간접 영향을 모두 추적하는 목표 수준 기여도 분석 프레임워크인 CoTrace를 제안한다. CoTrace를 실제 협업 로그 638건에 적용한 결과, 모델은 목표 형성 기여도의 11~26%만을 차지하지만, 하위 수준의 구체적 요구사항을 도입하는 데는 훨씬 큰 기여를 하며 다양한 유형의 간접 기여를 하는 것으로 나타났다. 통제된 시뮬레이션을 통해 상호작용 설계 선택이 모델의 목표 형성 행동에 유의미한 영향을 미친다는 점을 보였다. 사용자 연구에서 참가자들에게 목표 수준 분석 결과를 제시했을 때, 5점 척도에서 인지된 기여도가 거의 2점 차이로 변화했으며, 이는 사용자가 자신의 AI 지원 작업을 이해하는 방식에 체계적 보정 오류(miscalibration)가 있음을 드러낸다.
본 논문에서는 Lean 증명의 다중 목적, 제어 가능, 버전 내성적 리팩토링을 위한 플러그 앤 플레이 방식의 검색 증강 에이전트 프레임워크인 Lean Refactor를 제시한다. LLM이 생성한 증명은 정확하지만 장황하고 라이브러리 버전 간 취약한 것으로 악명 높으나, 기존 리팩토링 연구는 세 가지 실용적 과제를 간과하고 있다: 1) Lean 리팩토링은 본질적으로 다중 목적(증명 길이, 컴파일 비용, 버전 호환성이 종종 상충됨)이며, 2) Lean 저장소는 취약한 호환성을 지니는 반면 LLM 릴리스는 Lean/Mathlib 버전을 인지하지 못하며, 3) 학습 기반 파이프라인은 각 LLM 릴리스마다 미세 조정을 반복해야 하므로 모델 변화나 Lean의 릴리스 주기에 맞춰 확장되지 않는다. Lean Refactor는 지원되는 Lean/Mathlib 버전 및 예상 컴파일 비용 절감 등의 메타데이터로 조밀하게 주석이 달린 다중 목적 리팩토링 전략의 선별된 데이터베이스에서 검색 결과를 활용하여 고정된 에이전트적 LLM을 제어한다. 실험 결과, 경쟁 벤치마크에서 70% 이상의 토큰 수준 압축률, 연구 저장소에서 20% 이상의 압축률, 최대 60%의 컴파일 시간 단축을 보여 이전 연구 및 Claude Code보다 우수한 성능을 입증했다. 버전 필터링 검색은 대상 Lean 버전에서의 압축률을 더욱 향상시켰으며, 리팩토링된 miniF2F 증명은 리팩토링되지 않은 증명에 비해 향후 Lean 릴리스에 대한 더 강력한 제로샷 버전 전이를 보였다.
클래스 불균형은 의료 영상 분할에서 근본적인 도전 과제로, 빈발 클래스는 일반적으로 희귀 클래스를 희생시키며 학습을 지배한다. 손실 기반 접근법은 배치 내 픽셀 단위 손실에 가중치를 재부여하여 불균형을 완화하는 반면, 샘플링 전략은 어떤 영상이 배치에 포함될지를 제어한다. 그러나 두 방법 모두 배치 내에 어떤 클래스가 나타날지를 명시적으로 제어하지 않으며, 이로 인해 희귀 클래스 노출이 부분적으로만 재조정된다. 본 연구에서는 퓨샷 학습의 에피소드 샘플링을 채택하여 완전 지도 학습 환경에서 클래스 균형 배치 구성을 촉진한다. 우리는 에피소드 샘플링을 기존의 메트릭 학습 맥락에서 분리하여, CT에서의 체성분 분할에 대해 평가한다. 공개 SAROS 데이터셋의 210개 스캔에서 추출된 9개의 근육 및 지방 조직에 대해 무작위 샘플링 및 가중 샘플링과 비교한다. 훈련은 전체 데이터 및 소량 데이터 조건에서 수행되며, 동일한 훈련 반복 예산 하에서의 추가 비교도 포함한다. 전체 데이터 훈련에서는 세 가지 전략 모두 유사한 성능을 보였다(에피소드 평균 다이스 0.882, 무작위 및 가중 각각 0.878). 소량 데이터 훈련에서는 에피소드 샘플링이 무작위 및 가중 샘플링을 능가했다(0.787 대 0.758 및 0.762). 이는 훈련 반복 횟수의 12배 차이에 기인한다. 동일한 훈련 예산 하에서는 무작위 및 가중 샘플링이 더 일찍 과적합된 반면, 에피소드 샘플링은 수렴 전까지 약 3배 더 많은 반복 동안 개선되었다. 본 연구 결과는 훈련 반복 예산이 샘플링 전략에서 과소 인식된 교란 요인임을 밝히며, 소규모 데이터셋에 대한 반복 인식 평가 프로토콜의 필요성을 제기한다. 나아가 에피소드 샘플링의 잔여 이점은 클래스 균형 배치의 암묵적 정규화 효과와 일관되며, 클래스 불균형 의료 영상 분할을 위한 저비용·모델 무관 전략을 제공한다. 코드는 https://github.com/iasonsky/episodic-sampling 에서 확인할 수 있다.
스케일링 법칙은 언어 모델의 성능을 모델 크기, 데이터, 계산량으로부터 예측 가능하게 만들었지만, 일반적으로 옵티마이저를 고정된 학습 세부 사항으로 취급한다. 본 연구는 이러한 가정이 표현 스케일링의 근본적인 축, 즉 옵티마이저가 추가된 FFN 너비를 활용된 스펙트럼 용량으로 얼마나 효과적으로 변환하는지를 간과함을 보여준다. 소프트 및 하드 스펙트럼 랭크를 통해 측정된 피드포워드 네트워크 표현의 고유스펙트럼을 사용하여, 동일한 Transformer 아키텍처가 서로 다른 옵티마이저로 훈련될 때 현저히 다른 스펙트럼 스케일링 법칙을 구현함을 발견했다. 아키텍처와 폭 스케줄을 고정했을 때, AdamW는 학습이 가장 어려운 것으로 알려진 희소 토큰(TAIL) 표현에서 약한 하드 랭크 스케일링(β=0.44)을 보이는 반면, Muon은 동일한 영역에서 선형 스케일링(β=1.02)을 달성하여 스케일링 지수가 2.3배 증가했다. 이러한 차이는 검증 손실로 환원될 수 없다. AdamW 설정은 확장된 훈련 하에서 낮은 랭크의 Dion 변형과 퍼플렉서티에서 일치할 수 있지만, 스펙트럼 기하에서는 뚜렷한 차이를 보여, 손실이 일치한다고 해서 표현 구조가 일치함을 의미하지 않음을 입증한다. 또한 하드-소프트 랭크 비대칭은 옵티마이저가 실현되는 용량의 양뿐만 아니라 그 용량이 고유모드에 걸쳐 구조화되는 방식에서도 다르다는 것을 보여준다. 옵티마이저 효과를 아키텍처 효과로부터 분리하기 위해, 우리는 아키텍처 개입(예: 어텐션 랭크 및 위치 인코딩)과 비교했으며, 옵티마이저 유발 스펙트럼 이동이 종종 아키텍처 효과를 초과함을 발견했다. 이러한 결과들은 최적화가 표현 스케일링의 일급 축임을 시사하며, 옵티마이저-아키텍처 공동 설계의 필요성을 제기한다.
강한 플라톤적 표상 가설(Strong Platonic Representation Hypothesis)은 인공 신경망에서의 표상 수렴이 건설적으로 활용될 수 있음을 시사한다. 즉, 임베딩은 쌍 데이터 없이도 보편적 잠재 공간을 통해 모델 간에 변환될 수 있다. 본 연구에서는 인간 뇌에서도 유사한 기하학적 구조가 복원될 수 있는지 묻는다. Natural Scenes Dataset의 fMRI 데이터를 활용하여, 반복적인 자극 제시를 이용해 뇌 데이터만으로 피험자 특화 임베딩을 학습하는 자기 지도 인코더를 제안한다. 이렇게 독립적으로 학습된 공간들은 피험자 간 쌍 표본이나 중간 모델 표현 없이도 비지도 직교 회전을 통해 피험자 간 변환이 가능함을 보여준다. 쌍별 회전을 단일 공유 잠재 공간으로 동기화하면 피험자 간 검색 성능이 더욱 향상되는데, 이는 피험자 특화 공간들이 공통 좌표계와 상호 호환 가능함을 나타낸다. 이러한 결과는 인간 시각 피질에 공유된 신경 기하학이 존재한다는 증거를 제공한다. 즉, 피험자 특화 fMRI 표상은 개인 간에 대략적으로 등거리 변환이 가능하며, 순수 기하학적 변환을 통해 번역될 수 있다.
야생 환경에서의 3D 동물 재구성은 큰 종 다양성, 빈번한 폐색, 그리고 다중 동물 장면의 보편성으로 인해 여전히 어려운 과제로 남아 있으며, 기존 방법들은 주로 단일 동물 환경에 초점을 맞추고 있다. 본 논문에서는 단일 이미지로부터 다중 동물의 3D 재구성을 위한 최초의 프롬프트 가능한 프레임워크인 SAM 3D Animal을 제안한다. SMAL+ 매개변수 동물 모델을 기반으로 하는 본 방법은 여러 객체를 공동으로 재구성하며, 키포인트 및 마스크 형태의 유연한 프롬프트를 지원하여 혼잡하고 폐색된 장면에서 보다 신뢰성 있는 모호성 해소를 가능하게 한다. 이러한 모델을 학습시키기 위해, 종, 상호작용 및 폐색 패턴의 다양성을 높이도록 설계된 5,000장 이상의 이미지를 포함하는 다중 동물 3D 데이터셋 Herd3D를 추가로 소개한다. Animal3D, APTv2 및 Animal Kingdom 데이터셋에 대한 실험 결과, 본 프레임워크는 기존 모델 기반 및 모델 프리 방법 모두에서 최신 최고 성능을 달성하여, 야생 환경에서의 프롬프트 기반 동물 3D 재구성을 위한 확장 가능하고 효과적인 솔루션을 입증한다.
대화형 스트리밍 음악 생성은 오프라인 모델로는 불가능한 실시간 공연 및 공동 창작을 위해 생성 모델을 활용할 수 있는 가능성을 제시한다. 그러나 최첨단(SOTA) 모델은 이산 자기회귀(discrete-AR) 방식에 존재하며, 학습과 추론 모두에 산업 수준의 연산 자원을 요구한다. 본 연구에서는 오픈소스 커뮤니티에서 폭넓은 지원을 받지만 비스트리밍 양방향 특성을 지닌 오디오 확산 모델이 일반 소비자 하드웨어에서 접근 가능한 대화형 모델로 효율적으로 전환될 수 있는지 조사한다. 블록 단위 외부 확장 확산을 위한 현대적 파이프라인을 비판적으로 검토함으로써, 추론 중 발생하는 중요한 비효율성이 이산 자기회귀 방식 모델보다 엄격히 더 나쁜 계산 효율성을 초래함을 식별한다. 우리는 라이브 음악 확산 모델(LMDM)을 제안한다. 이는 생성적 확산 과정을 단순히 수정한 것으로, 블록 단위 KV 캐싱을 통해 이산 라이브 음악 모델(LMM)의 추론 복잡도를 회복하고 능가한다. LMM과 달리 LMDM은 새로운 ARC-Forcing 패러다임을 통해 안정적인 사후 학습 정렬을 가능하게 하여, 명시적 강화학습이나 보상 모델 없이도 오류 축적을 줄인다. 우리는 텍스트 조건 생성, 스케치 기반 음악 합성, 재밍 등 여러 창의적 영역에서 LMDM의 응용을 시연한다. 마지막으로, LMDM을 일반 소비자용 게이밍 랩톱에서 로컬로 실행하면서 음악가의 즉흥 연주를 실시간으로 변환하여 다양한 음색 효과를 창출하는 '생성적 딜레이'로 활용함으로써, 실제 아티스트-AI 협업에서 생성적 악기로 사용될 수 있음을 보여준다.
시각-관성 오도메트리(VIO)는 이동 로봇 항법에 필수적이며, 많은 수의 픽셀을 가진 카메라를 사용한다. 카메라 이미지를 캡처하고 처리하는 데는 상당한 자원이 필요하다. 본 연구는 평면 오도메트리에 대한 최소주의적 접근법을 제시하며, 단 4개의 시각 측정값과 IMU만으로도 차동 구동 로봇의 강건한 움직임 추정이 가능함을 보여준다. 핵심 통찰은 광학적 가보 마스크를 통해 세계를 감지하는 4개의 하향 포토다이오드가 속도를 인코딩하는 신호를 생성한다는 점이다. 이를 바탕으로 물리 기반 시뮬레이터를 사용하여 가보 마스크 파라미터와 시간적 컨볼루션 네트워크(TCN)를 공동 최적화한다. 결과 모델은 포토다이오드가 생성한 4개의 측정값만으로 속도를 디코딩한다. 이 추정값을 IMU의 각속도와 결합하면 연속적인 평면 궤적을 얻을 수 있다. 우리는 차동 구동 로봇에 장착된 프로토타입 센서로 접근법을 검증한다. 다양한 실내외 지형에서 시스템은 실제 환경 미세 조정 없이 기준 실측값을 밀접하게 추적한다. 본 연구는 최소주의적 센싱이 효율적이고 정확한 평면 오도메트리를 가능하게 함을 보여준다.
패션 이미지 검색은 현대 전자상거래 시스템의 핵심 요소이다. 다양한 질의 형식과 검색 의도를 지원하는 통합 프레임워크는 실무에서 매우 요구된다. 그러나 기존 접근법은 협소한 검색 작업에 초점을 맞추고 있어 이러한 다양성을 충분히 포착하지 못한다. 이에 본 연구에서는 다양한 현실적 패션 검색 시나리오를 처리할 수 있는 통합 프레임워크를 개발하여 진정으로 다재다능한 패션 이미지 검색을 달성하고자 한다. 데이터 기반을 구축하기 위해 먼저 U-FIRE를 소개한다. 이는 분산된 패션 데이터셋을 통합한 포괄적 벤치마크로, 일반화 테스트를 위한 수작업 큐레이션 데이터셋 두 개가 추가로 제공된다. 이를 바탕으로 멀티모달 대규모 언어 모델 기반의 통합 프레임워크인 FashionLens를 제안한다. 상이한 정합 목표를 처리하기 위해, 적응형 구형 선형 보간을 통해 질의 표현을 동적으로 작업 정렬 메트릭 공간으로 이동시키는 제안 기반 구형 질의 교정기를 설계한다. 또한 다양한 작업 복잡성과 데이터 규모로 인한 최적화 불균형을 완화하기 위해, 실시간 학습 난이도와 데이터 규모 사전 정보에 기반하여 작업을 자동 재가중하는 기울기 기반 적응형 샘플링 전략을 개발한다. U-FIRE 실험 결과, FashionLens는 다양한 검색 시나리오에서 최첨단 성능을 달성하고 보지 못한 작업에 대해 강건하게 일반화함을 보여준다. 데이터와 코드는 https://github.com/haokunwen/FashionLens에서 공개적으로 제공된다.