번역이 포함된 일일 선별된 AI 연구 논문
과학적 그림은 복잡한 연구 아이디어를 전달하는 가장 효과적인 수단 중 하나이지만, 출판 수준의 일러스트레이션을 제작하는 것은 여전히 논문 준비에서 가장 노동 집약적인 부분 중 하나이다. 기존의 자동화 시스템들은 각각 텍스트 입력만을 사용하여 단일 그림 유형을 대상으로 하므로, 연구자들이 실제로 사용하는 다양한 유형과 조건을 다루지 못하며, 그 래스터 출력은 국소적으로 수정할 수 없다. 과학적 그림은 개별 의미적 구성 요소들의 구조적 조합이기 때문에, 생성기가 이러한 레이아웃에서 만들어내는 국소적 오류는 더 강력한 백본이 아닌 제어 장치를 요구한다. 우리는 이 제어 장치를 두 가지 상호 보완적인 시스템으로 구체화한다: 그림 생성 시 그림 유형과 입력 조건에 관계없이 아키텍처 변경 없이 일반화되는 다중 에이전트 제어 장치인 Crafter와, 동일한 패턴을 적용하여 래스터 출력을 편집 가능한 SVG로 변환하는 CraftEditor이다. 또한, 우리는 인간의 품질 주석이 포함된 세 가지 그림 유형과 네 가지 입력 조건을 아우르는 벤치마크인 CraftBench를 소개한다. 실험 결과, Crafter는 PaperBanana-Bench와 CraftBench에서 단독 생성기 및 에이전트 기반 기준선을 크게 능가하며, 절제 연구를 통해 각 구성 요소의 독립적 기여를 확인하였다; CraftEditor는 출력을 충실히 편집 가능한 SVG로 변환하여 모든 기준선을 능가한다. 코드와 벤치마크는 https://github.com/HaozheZhao/Crafter에서 확인할 수 있다.
파라미터 효율적 미세 조정(PEFT)은 일반적으로 전체 미세 조정의 저렴한 대안으로 취급된다. 본 연구에서는 더 넓은 역할을 탐구한다: 강력한 공유 기반 모델 위에 지속적 로컬 상태로서의 작은 학습 가능한 어댑터이다. 이러한 프레임워크에서 기본 모델은 공유된 능력을 제공하는 반면, 어댑터는 선호도, 기술, 도구 사용 습관 및 메모리 유사 업데이트와 같은 인스턴스별 행동을 전달한다. 우리는 세 가지 확장 축을 중심으로 문제를 구성한다: 더 강력한 공유 사전 지식이 작은 로컬 업데이트를 더 유용하게 만드는 '확대(Scale Up)', 어댑터가 얼마나 작아질 수 있으면서도 신뢰성을 유지하는지 연구하는 '축소(Scale Down)', 그리고 많은 지속적인 적응 인스턴스가 공존하는 '확장(Scale Out)'이다. MinT는 어댑터의 정체성, 버전 관리, 출처, 평가 및 서비스 상주 관리를 위한 하나의 인프라 사례를 제공한다. 이러한 결과들은 종합적으로 PEFT가 예산 대체 수단으로서의 전체 미세 조정에 국한되지 않고, 지속적인 개인 모델을 위한 소형 기반(substrate)이 될 수 있음을 시사한다.
에이전트의 성능이 향상됨에 따라 τ²-Bench 같은 기존 벤치마크는 점점 더 포화 상태에 이르고 있다. 그러나 새로운 벤치마크 과제를 구축하는 일은 여전히 복잡하고 비용이 많이 들며 노동 집약적이다. 게다가 시나리오를 먼저 자연어로 작성한 후 이를 도구 시퀀스로 매핑하는 표준 접근 방식은 에이전트가 사용하는 도구 사용 패턴의 좁은 하위 집합만을 포착한다. 본 논문에서는 과제 구성 과정을 역전시켜 이러한 문제를 해결한다. 우리는 TASTE: Task Synthesis from Tool Sequence Evolution을 제안한다. 이는 더 넓은 도구 사용 범위를 갖춘 도전적인 과제를 자동으로 생성하는 방법이다. TASTE는 LLM이 판단한 유효성 신호를 기반으로 훈련된 적응형 대조 n-그램 모델을 활용한다. 이를 통해 광범위한 도구 조합을 포괄하는 유효한 도구 시퀀스를 샘플링할 수 있다. 그런 다음 TASTE는 클러스터링을 통해 풀에서 대표적인 시퀀스를 선별하고, 이를 완전한 벤치마크 과제로 구체화한 후 반복적인 난이도 진화를 통해 정제한다. TASTE를 사용하여 τ²-Bench의 세 가지 도메인에 대한 도전적인 확장판인 τ^c-Bench를 구축한다. 우리는 11개의 에이전트/사용자 LLM 쌍을 평가한 결과, τ²-Bench를 거의 포화시킨 모델들이 우리의 과제에서 심각한 성능 저하를 겪는 것을 발견했다(예: Gemini-3-Flash가 0.82!-!0.94에서 0.28!-!0.61로 하락). 난이도 증가 외에도 우리가 생성한 과제는 에이전트가 실행해야 하는 고유한 도구 조합의 수를 두 배 이상 늘린다. 우리의 결과는 기존 벤치마크에서의 높은 점수가 종종 견고한 과제 해결 능력보다는 포화 상태를 반영한다는 것을 시사한다. TASTE는 어렵고 적용 범위가 넓은 벤치마크의 생성을 자동화함으로써 미래 에이전트의 지속적이고 확장 가능한 평가를 가능하게 한다.
최첨단 모델 평가는 기초 능력(예: 명령 수행 및 추론)에서 조합적·에이전트적 능력으로 전환되고 있지만, 한국어 기반 에이전트 벤치마크는 여전히 부족한 실정이다. 본 논문에서는 한국어 맥락에 기반한 웹 브라우징 에이전트 벤치마크인 K-BrowseComp를 소개하며, 이는 400개의 문제로 구성된다. 300개 문제로 이루어진 K-BrowseComp-Verified 하위 집합은 한국어 원어민에 의해 수작업으로 구성 및 검증되었다. 이 하위 집합에서 GPT-5.5, DeepSeek-V4-Pro, GLM-5.1을 포함한 최첨단 LLM은 30.00~45.67%의 성능만을 보여 BrowseComp 대비 현저히 낮은 성능을 기록했으며, 한국 자체 AI 기초모델 프로그램을 통해 공개된 한국어 LLM은 0.00~10.33%에 그쳤다. 또한 웹 브라우징 문제의 풀이와 생성 간 비대칭성을 활용하기 위해, 어려운 소수 샷 예시와 실패 모드 대상 생성을 사용하여 100개 문제의 합성 분할을 추가로 구축하였다. 적대적 필터링을 거친 합성 진단 분할에서 가장 강력한 모델조차 26.00%의 성능만을 달성했으며, 본 분할은 목표 지향적 스트레스 테스트로 별도로 보고한다. 데이터와 코드는 공개한다.
검색 에이전트는 종종 증가하는 대화 기록에 대한 정책으로 훈련됩니다. 즉, 모델은 검색 방법을 결정하는 동시에 지금까지 본 내용, 어떤 증거가 유용한지, 어떤 제약 조건이 여전히 열려 있는지, 어떤 주장이 실제로 확인되었는지를 기억해야 합니다. 우리는 이러한 공식이 정책 내에 너무 많은 일상적인 상태 관리를 부과한다고 주장합니다. 강화 학습은 의미적 검색 결정과 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리(bookkeeping)를 모두 최적화하도록 강제됩니다. 우리는 상태 기반 검색 도구(stateful search harness) 내에서 강화 학습으로 훈련된 200억 파라미터 규모의 검색 에이전트(검색 하위 에이전트)인 Harness-1을 소개합니다. 이 도구는 후보 풀, 중요도 태그가 붙은 선별 세트, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 예산 인식 컨텍스트 렌더링을 포함한 환경 측 작업 기억을 유지합니다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미적 결정을 유지합니다. 웹, 금융, 특허, 다중 홉 QA를 포괄하는 8개의 검색 벤치마크에서 Harness-1은 평균 0.730의 선별 재현율을 달성하여, 다음으로 강력한 오픈 검색 하위 에이전트보다 +11.4포인트 높은 성능을 보였으며, 훨씬 더 큰 최첨단 모델 검색기와도 경쟁력을 유지했습니다. 특히 보류된 전이 벤치마크에서 성능 향상이 두드러졌는데, 이는 명시적 검색 상태에 대한 강화 학습이 훈련 도메인을 넘어 일반화되는 검색 행동을 생성할 수 있음을 시사합니다. 코드는 https://github.com/pat-jj/harness-1에서 확인할 수 있습니다.
추측적 디코딩은 대상 모델(target model)과 가벼운 초안 모델(draft model)을 짝지어 대규모 언어 모델 추론을 가속화하며, 초안 모델이 제안한 토큰들은 병렬로 검증된다. EAGLE3 또는 DFlash와 같은 초안 모델을 구축하는 일반적인 방법은 대상 모델이 생성한 궤적(trajectory)에 대한 지도 미세 조정(SFT)이다. 그러나 우리는 SFT가 빠르게 정체됨을 관찰한다. 즉, 테스트 데이터에 대한 초안 모델의 수용 길이(acceptance length)가 더 이상 개선되지 않는다. 그 이유는 오프라인-추론 불일치(offline-to-inference mismatch) 때문이다: SFT에서는 초안 모델이 고정된 대상 모델 생성 궤적으로부터 학습하는 반면, 추측적 디코딩 중에는 자체 정책(self-policy)으로 제안된 블록에 대해 평가된다. 이는 초안 모델이 초안 생성 상태(draft-induced state)에서 대상 모델의 감독을 받는 온-정책 증류(OPD, on-policy distillation)의 동기를 부여한다. 그러나 OPD는 초안 모델에게 여전히 어려운데, 이는 초안 모델이 독립적으로 완전한 시퀀스를 안정적으로 전개(roll out)할 수 없는 반면, 대상 모델 지원 생성(target-assisted generation)은 수집된 시퀀스가 대상 분포를 따르도록 만들어 온-정책 신호(on-policy signal)를 제거하기 때문이다. 따라서 우리는 Draft-OPD를 제안한다. 이는 안정적인 연속 생성을 위해 대상 모델 지원 전개(target-assisted rollout)를 사용하고, 검증 과정에서 노출된 오류 위치로부터 초안 작성을 재시도(replay)한다. 이를 통해 초안 모델은 수용 및 거절된 제안 모두에 대해 대상 모델의 피드백으로 학습할 수 있으며, 추측적 수용을 제한하는 초안 생성 오류에 훈련을 집중시킨다. 실험 결과, Draft-OPD는 다양한 작업에서 추론 모델(thinking model)에 대해 5배 이상의 무손실 가속(lossless acceleration)을 달성하며, EAGLE-3 및 DFlash 대비 각각 23% 및 13% 향상된 성능을 보인다.
추론적 디코딩은 여러 개의 초안 토큰을 생성하고 이를 대상 모델과 병렬로 검증함으로써 대규모 언어 모델(LLM) 추론을 가속화한다. 그러나 실제 속도 향상은 초안 품질과 초안 생성 비용 간의 상충 관계에 의해 제약을 받는다. 자기회귀적 초안 생성기는 초안 토큰 간의 인과적 의존성을 모델링하지만 순차적 오버헤드를 수반하는 반면, 병렬 초안 생성기는 초안 생성 비용을 줄이지만 블록 내 의존성 모델링을 약화시킨다. 본 논문에서는 인과적 의존성 모델링을 비용이 많이 드는 자기회귀적 초안 실행으로부터 분리하는 추론적 디코딩 프레임워크인 Domino를 제안한다. Domino는 먼저 병렬 초안 백본을 사용하여 전체 블록에 대한 초기 초안 분포를 생성한 다음, 경량 Domino 헤드를 적용하여 이를 접두사 의존적 인과 정보로 정제한다. 교사 강제 인과 인코딩을 안정화하기 위해, 먼저 병렬 백본을 강화한 후 점차 최적화를 인과적으로 보정된 최종 분포로 전환하는 기준 기반 훈련 커리큘럼을 추가로 도입한다. Qwen3 모델에 대한 실험 결과, Domino는 Transformers 백엔드에서 최대 5.49배의 종단 간 속도 향상, SGLang 서빙에서 최대 5.8배의 처리량 속도 향상을 달성함을 보여준다.
워터마킹은 AI 생성 텍스트에 통계적 서명을 내장하여 탐지 및 귀속을 가능하게 한다. 본 연구는 근본적인 취약점을 밝힌다: 사용자가 여러 모델에 접근할 때(현실의 상황), 워터마크는 무의미하게 실패한다. 워터마크는 출력 분포를 원래 분포에서 벗어나게 섭동시키며, 경쟁 시장에서 이러한 섭동은 일반적으로 공급자 간에 독립적이다. 우리는 출력 확률 분포를 평균화하면 최대 2차 오차 항까지 원래의 워터마크가 없는 분포를 복원함을 이론적으로 증명한다. 실증적으로, 단순히 3~5개 모델의 평균을 내면 이러한 섭동이 상쇄된다. 우리는 이질적 모델 간 어휘 불일치 및 토큰화 차이와 같은 앙상블 생성의 실용적 과제를 해결하는 WASH(통계적 혼합을 통한 워터마크 감쇠)를 소개한다. 여섯 가지 워터마킹 기법과 세 가지 LLM에 대한 실험 결과, 3개 모델의 평균은 탐지 z-점수를 5~300에서 2 미만(탐지 임계값 4 미만)으로 억제하고 5% 위양성률에서의 참양성률을 50% 이하로 낮추는 동시에 품질을 27.5% 향상시키며, 긴 시퀀스 생성에서 최고 기준선보다 6배 빠르게 실행된다. 우리의 결과는 워터마킹을 통한 강건한 AI 텍스트 탐지가 이 근본적인 취약점을 수용하거나 모델 제공자 간 전례 없는 조정을 필요로 함을 시사한다.
표준 다음 토큰 예측(Next-Token Prediction, NTP)은 언어 모델을 출력 로짓 공간의 이산 레이블만으로 지도 학습한다. 본 연구에서는 이러한 희소 원-핫 지도 학습이 잠재 표현 공간을 충분히 제약하지 못하여, 은닉 상태가 일반화를 제한할 수 있는 퇴화되거나 이방성인 구성으로 표류할 수 있다고 주장한다. 이 문제를 해결하기 위해, 우리는 이산 예측을 표현 공간에서의 밀집 연속 지도 학습으로 보완하는 NITP(Next Implicit Token Prediction)를 제안한다. NITP는 동일 모델의 얕은 계층 표현을 안정적인 자기지도 학습 목표로 사용하여, 다음 토큰의 암묵적 의미 내용을 예측하도록 모델을 학습시킨다. 이론적 분석을 통해 NITP가 제약 부족 자유도를 완화하고 컴팩트하고 구조화된 표현 기하를 장려함으로써 최적화 지형을 정규화함을 보여준다. 실험적으로, 0.5B에서 9B 파라미터 범위의 밀집 모델 및 MoE 모델 전반에 걸쳐 NITP는 무시할 수준의 계산 오버헤드로 하위 작업 성능을 일관되게 향상시킨다. 9B MoE 모델에서 NITP는 MMLU-Pro에서 5.7%의 절대적 개선, C3에서 6.4%, CommonsenseQA에서 4.3%의 향상을 달성하며, 추가 학습 FLOPs는 약 2%에 불과하고 추론 비용은 증가하지 않는다. 구현 코드는 https://github.com/aHapBean/NITP에서 확인할 수 있다.
최근 "영상 기반 추론(Reasoning with Video)" 패러다임은 비디오 생성 모델(VGM)을 활용하여 시간적으로 일관된 시각적 궤적을 생성함으로써 추론 과제를 완수한다. 최첨단 VGM은 시각적 품질에서 뛰어난 성능을 보이지만, 과제별 규칙을 이해하고 따르는 데 어려움을 겪어 다양한 추론 시나리오에서 논리적 실패를 초래한다. 기존 연구들은 VLM(시각-언어 모델)을 문제 사전 해결사로 활용하여 VGM을 위한 텍스트 기반 지침을 생성하거나 개선하려는 시도를 해왔다. 그러나 텍스트 설명은 복잡한 시공간적 세부 정보를 포착하지 못하며, VGM은 유효한 계획이 있더라도 세밀하거나 긴 꼬리(long-tail) 지침을 충실히 실행하는 데 어려움을 겪는다. VLM은 해결사로서 한계를 보이지만, 과정 제약 충족 및 최종 목표 달성을 평가할 수 있는 강력한 인식 능력을 갖추고 있다. 이러한 강점을 활용하여, 본 연구는 VLM의 역할을 "교사(teacher)"로 전환하는 새로운 패러다임을 제안한다. 구체적으로, VLM 교사가 과제별 규칙을 추출하여 미분 가능한 보상 함수를 설계하고, 가벼운 LoRA 모듈의 테스트 시점 온라인 최적화를 통해 VGM 추론기를 유도한다. 이 전략은 적응형 테스트 시점 최적화를 가능하게 하여 VGM 고유의 한계를 넘어 추론 능력을 확장한다. 기호 기반(VBVR-Bench) 및 범용(RULER-Bench) 비디오 추론 벤치마크 평가에서 제안된 방법은 평균 16.7포인트의 성능 향상을 보였으며, VLM-해결사 패러다임(+0.4포인트) 및 Best-of-N 스케일링(+2.2포인트)을 유사한 테스트 시점 비용에서 큰 폭으로 능가했다. 이러한 결과는 VLM을 테스트 시점 교사로 통합하는 것이 일반화 가능한 비디오 추론을 위한 유망한 패러다임임을 보여준다. 프로젝트 페이지: https://VLM-as-Teacher.github.io/
비디오 스트리밍 이해 분야에서 상당한 진전이 이루어졌지만, 실시간 스포츠 중계, 자율주행, 멀티스크린 협업과 같은 실제 응용 환경은 본질적으로 지속적이고 멀티스트림 상호작용을 요구한다. 그러나 기존 벤치마크는 단일 스트림 패러다임에 국한되어 있어, 온라인에서의 스트림 간 추론을 평가하는 데 심각한 격차를 남기고 있다. 이러한 격차를 해소하기 위해, 우리는 멀티스트림 스트리밍 이해에 특화된 최초의 벤치마크인 X-Stream을 소개한다. X-Stream은 932개의 비디오에 걸쳐 엄격하게 선별된 4,220개의 질의응답 쌍으로 구성되어 있으며, 멀티윈도우, 멀티뷰, 멀티디바이스 시나리오 전반에 걸친 11개의 하위 과제를 평가한다. 핵심적으로, 우리의 데이터셋은 단일 스트림에 대한 과도한 의존을 방지하는 새로운 이중 검증 파이프라인을 사용하여 구축되었다. 나아가, 우리는 다중 모달 대규모 언어 모델(MLLM)을 순진한 다중화기로 개념화하는 선구적 작업을 수행하고, 신호 다중화 이론의 관점을 통해 이들의 성능을 체계적으로 평가한다. 광범위한 온라인 추론 실험 결과, 최첨단 MLLM은 동시 스트림에서 현저히 어려움을 겪어 약 50%의 점수만을 기록하고 낮은 능동적 능력을 보여주는 냉혹한 현실이 드러났다. 궁극적으로, X-Stream은 현재의 다중화 방식이 지닌 트레이드오프를 드러냄으로써, 차세대 멀티스트림 에이전트를 위한 실용적인 평가 프로토콜과 경험적 지침을 동시에 제공한다.
장기 롤아웃 인과적 비디오 확산은 고정 크기 슬라이딩 윈도우 KV 캐시에 수렴되었으며, 최근 연구는 이 레이아웃 내에서 어떤 토큰이 윈도우를 점유하는지 또는 위치가 어떻게 인코딩되는지를 변경하여 혁신을 이루고 있습니다. 스트리밍 메모리와 지연 시간에 주된 기여를 하는 헤드별 KV 레이아웃 자체는 대부분 변경되지 않은 상태로 남아 있습니다. 본 논문에서는 비디오 확산에서 다중 헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)에 대한 최초의 연구를 제시합니다. VideoMLA는 헤드별 키와 값을 공유 저순위 콘텐츠 잠재 변수와 공유 분리된 3D-RoPE 위치 키로 대체하여, 캐시된 모든 레이어에서 토큰당 KV 메모리를 92.7% 감소시킵니다. 또한 언어 모델에서 MLA를 동기화하는 데 자주 사용되는 스펙트럼 가정이 비디오 확산에서는 성립하지 않음에도 불구하고 왜 MLA가 성공하는지 조사합니다. 사전 훈련된 비디오 어텐션은 저순위가 아니며, 99% 에너지 유효 순위가 실용적인 잠재 차원보다 훨씬 높습니다. VideoMLA는 직접적인 스펙트럼 근사가 큰 재구성 오차를 예측하는 압축 비율에서도 품질을 유지합니다. MLA 병목 현상이 사전 훈련된 스펙트럼보다 유효 순위를 결정한다는 것을 보여줍니다. 스펙트럼 초기화와 무작위 초기화 모두 초기화부터 거의 전체 순위 예산을 점유하며, 훈련은 이 예산을 유지하면서 그 안에서 적응합니다. VBench에서 VideoMLA는 단기 지평선 스트리밍 비디오 확산 기준선과 일치하고, 평가된 방법 중 장기 지평선에서 최고의 전체 점수를 달성하며, 단일 B200에서 처리량을 1.23배 향상시킵니다.
대규모 언어 모델(LLM) 에이전트는 점차적으로 재사용 가능한 외부 스킬에 의존하여 장기 대화형 작업을 해결한다. 기존의 훈련 없는 스킬 적응 파이프라인은 일반적으로 전체 궤적(trajectory) 또는 세션 수준의 피드백으로부터 스킬을 갱신하는데, 이는 실패 귀인을 거칠게 만들고 종종 불안정하거나 지나치게 광범위한 수정을 초래한다. 본 연구에서는 명시적인 실패 귀인을 갖춘 훈련 없는 단계 수준 스킬 적응 프레임워크인 SkillAdaptor를 제안하며, 이는 OpenClaw-class 에이전트 하니스(harness)에 플러그인 형태로 적용 가능하다. 실패한 궤적이 주어지면 SkillAdaptor는 첫 번째로 실행 가능한 오류 단계를 식별하고, 해당 책임을 후보 스킬에 연결하며, 백본(backbone)은 고정된 상태에서 명시적인 수용 검사 조건 하에 목표 지향적 갱신을 적용한다. WebShop, PinchBench 및 Claw-Eval에서 Kimi-K2.5, GLM-5, GPT-5.2를 사용하여 평가를 수행했다. SkillAdaptor는 세 가지 평가 스위트 모두에서 스킬 미사용 및 스킬 적응 기준선 대비 성능을 향상시켰으며, 가장 큰 단일 지표 개선으로 PinchBench Avg Score%에서 +1.5포인트, Claw-Eval Avg Score에서 +1.8, WebShop 성공률에서 +1.7을 기록했다. 이러한 결과는 단계 수준의 귀인이 보다 안정적이고 감사 가능한 훈련 없는 스킬 유지(maintenance)를 지원함을 시사한다. 코드는 https://github.com/zjunlp/SkillAdaptor에서 공개될 예정이다.
인간은 능동적인 머리 및 몸체 움직임을 통해 목표 이미지가 지정하는 시점을 재현할 수 있지만, 기초 모델의 공간 지능은 대부분 사전 수집된 관찰 데이터에 대한 수동적 이해로 연구되어 왔다. 우리는 Target Viewpoint Reproduction (TVR, 목표 시점 재현)을 소개한다. 이는 에이전트가 관찰이 주어진 목표 이미지와 일치할 때까지 3D 환경에서 시점을 조정하는 능동적 과제이다. 또한 장면 규모와 목표 시점의 시각적 풍부함을 아우르는 실내 시뮬레이션 벤치마크인 TVRBench도 함께 소개한다. TVR은 해결되기에는 아직 멀었다. 평가 분할에서 가장 강력한 오픈소스 및 폐쇄소스 모델은 각각 7.8%와 12.0%의 성공률에 그친다. 세밀한 분석을 통해 두 가지 일관된 병목 현상이 확인되었다. 기성 모델은 다중 턴 시각적 히스토리 처리에 어려움을 겪으며, 시점 재현이 제자리 회전이 아닌 몸체 이동을 필요로 할 때 성능이 급격히 하락하여 공간적 불일치를 체화된 움직임으로 매핑하는 데 있어 격차가 드러난다. 이러한 격차를 줄이기 위해, 우리는 전문가 궤적 SFT, 근거 지도 CoT-SFT, 오프라인 단일 턴 GRPO, 그리고 실제 시뮬레이터 롤아웃을 통한 온-정책 다중 턴 GRPO를 포함하는 통합 TVR 사후 학습 프레임워크를 구축한다. 시각-행동 SFT가 주된 성능 향상을 제공하여 9B 오픈소스 모델의 성공률을 50.8%까지 끌어올렸다. 다중 턴 GRPO는 목표 지향적 다중 방 정밀 조정을 제공하여 전체 51.4%를 달성한 반면, CoT 감독과 단일 턴 GRPO는 폐루프 성능을 저하시켰다. 이러한 결과는 TVRBench가 3D 환경에서 능동적으로 지각하고 행동하는 기초 모델을 측정하고 훈련하기 위한 테스트베드로서 자리매김하게 한다. 우리의 코드, 데이터 및 모델은 https://github.com/aim-uofa/TVRBench 에서 확인할 수 있다.
공간 지능은 물리적 세계에서 의미적 객체와 기하학적 구조를 모두 포착하는 시각적 표현을 필요로 한다. 이를 지원하기 위해 현재 두 가지 주요 사전 학습 방식이 기초 백본으로 널리 사용된다: 언어 감독을 통해 시각적 관찰을 의미적 개념과 정렬하는 시각-언어 모델(VLM)과 시간적으로 진화하는 시각적 세계로부터 학습하는 영상 생성 모델(VGM)이 그것이다. 그러나 어떤 사전 학습 방식이 공간 지능에 더 나은 표현 기반을 제공하는지는 여전히 불분명하다. 본 논문에서는 공간 지능의 세 가지 대표적 축인 의미 태깅, 인스턴스 그룹화, 3차원 기하 예측에 걸쳐 VLM과 VGM에 대한 최초의 체계적인 고정 특성 탐침 연구를 제시한다. 경량 탐침을 활용한 우리의 프레임워크는 두 모델 계열의 고정 표현에 이미 인코딩된 정보가 무엇인지에 대한 통제된 비교를 가능하게 한다. 실험 결과는 명확한 상보성을 드러낸다: VLM은 의미 태깅과 인스턴스 그룹화에서 더 강력한 반면, VGM은 밀집 기하와 카메라 움직임에 대한 더 접근성 높은 신호를 제공한다. 더욱이, 두 모델의 단순한 융합만으로도 기하와 의미 모두에서 뛰어난 표현을 제공하며, 이는 두 모델 계열의 특징을 효과적으로 통합함으로써 더 강력한 공간 지능 백본을 구축하기 위한 유망한 방향을 시사한다. 우리의 코드는 https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}에서 확인할 수 있다.
장기 검색 에이전트는 다수의 도구 호출 과정에서 대량의 검색 콘텐츠를 축적하므로, 컨텍스트 예산 효율성의 중요성이 점차 커지고 있다. 최소한의 개입 방법으로는 궤적이 진행됨에 따라 컨텍스트에서 오래된 관측값을 마스킹하는 방식이 있지만, 이러한 형태의 컨텍스트 관리가 언제 도움이 되고 그 이유는 무엇인지는 아직 명확하지 않다. 본 연구에서는 다양한 에이전트 백본(4B~284B 파라미터)과 세 가지 검색기를 대상으로 오프라인 및 실시간 웹 에이전틱 검색 벤치마크에서 체계적인 탐색을 통해 관측값 마스킹을 분석한다. 마스킹으로 인한 정확도 향상은 컨텍스트 관리 없이 얻은 모델의 정확도와 대비하여 그래프로 나타낼 때 비대칭 역U자 형태를 보인다는 사실을 발견했다. 즉, 약한 검색기에서는 정체 구간이, 강력한 검색기와 중간 용량 모델이 결합될 때는 정점이 나타나며, 모델이 포화 상태에 도달하면 급격한 붕괴가 발생한다. 이러한 패턴은 검색기의 재현율과 모델의 암묵적 필터링 능력 간의 상호작용을 반영하며, 어느 한 요인만으로는 설명되지 않는다. 메커니즘적으로, 마스킹은 토큰-턴 간 트레이드오프를 구현한다. 즉, 모델이 대부분 주의를 기울이지 않는 관측값과 에이전트가 거의 다시 열지 않는 페이지를 제거한다. 추가된 턴은 실패를 성공으로 전환할 때 도움이 되지만, 마스킹으로 인해 모델이 사용할 수 있었던 증거가 제거될 때는 실패하게 된다. 따라서 우리는 컨텍스트 관리를 체제 의존적 개입으로 재정의하고, 에이전틱 심층 검색에서 컨텍스트 사용을 분석하기 위한 총체적 관점을 제시한다. 연구 지원을 위해 스캐폴드와 궤적을 공개한다(https://github.com/i-DeepSearch/observation-masking).
강화 학습 하에서 대규모 언어 모델이 궤적 초기에 잘못된 추론 단계를 수행할 때, 표준 알고리즘은 최대 수평선까지 생성을 강제하여 긍정적 보상을 받지 못하는 토큰에 연산을 소비하고, 실패 후 잡음으로 인해 이점 추정치를 오염시킵니다. 본 논문에서는 궤적 실패를 실시간으로 감지하고 롤아웃을 조기 종료하는 ESPO(Early-Stopping Proximal Policy Optimization)를 제안합니다. 각 생성 단계에서 ESPO는 샘플링 중 이미 계산된 로짓만을 사용하여 대리 후회(surrogate regret)를 계산하고, 평활화된 누적 후회가 추정치를 크게 초과할 때 종료합니다. 잘린 궤적은 종료 보상을 갖는 흡수 실패 상태로 처리되어, 추가적인 보상 모델이나 인간 주석 없이도 감지된 실패 단계 근처에 음의 시간차 오차를 집중시킵니다. 수학적 추론을 위해 훈련된 DeepSeek-R1-Distill-Qwen-7B에서 ESPO는 PPO를 능가하는 성능을 보였습니다(AIME~2024: 46.28% 대 45.25%, AMC~2023: 85.83% 대 82.94%, MATH-500: 87.42% 대 85.43%). 동시에 누적 롤아웃 토큰을 20% 이상 절약합니다.
멀티에이전트 LLM 워크플로우는 추론을 전문 역할로 분배하여 최종 작업 정확도를 향상시키지만, 강화 학습을 통해 이러한 역할들을 공동으로 훈련하는 과정은 이해가 부족한 방식으로 불안정합니다. 우리는 멀티에이전트 LLM 워크플로우의 종단간(end-to-end) RL 훈련이 기본 모델 대비 언제 향상되는지 연구하며, 모든 역할이 하나의 정책을 업데이트하는 공유 정책(Shared-Policy) 훈련과 각 역할이 고유한 파라미터를 가지는 분리 정책(Isolated-Policy) 훈련을 비교합니다. 실험 매트릭스는 Eval-Opt, Voting, Orch-Workers 워크플로우, 수학 및 코드 작업, 그리고 세 가지 모델 규모(0.6B, 1.7B, 4B)를 포괄합니다. 우리는 멀티에이전트 RL이 일반적으로 기본 모델보다 향상되지만, 그 이득은 정책 공유 자체가 아니라 워크플로우, 작업, 규모에 복합적으로 의존함을 발견했습니다. 분리 정책은 더 높은 최고 정확도에 도달하는 경향이 있지만 더 자주 최종 정확도 절벽(terminal accuracy cliff)에서 떨어지는 반면, 공유 정책 훈련은 실패를 제거하지 않습니다. 대신 실패를 질적으로 다른 패턴으로 재분배합니다. 그런 다음, 워크플로우 토폴로지와 정책 라우팅에 의해 유도된 역할 수준의 그래디언트 동역학(role-level gradient dynamics)을 통해 이러한 패턴 중 가장 강력한 것을 설명합니다. 분리 정책 하에서는, 공유 프롬프트에 대한 병렬 동일 역할 에이전트(parallel same-role agents)가 역할별 그래디언트를 증폭시켜 Voting 및 Orch-Workers 워크플로우에서 최종 성능 저하를 유발합니다. 공유 정책 하에서는, 비대칭적 단계별 그래디언트 질량(asymmetric per-step gradient mass)으로 인해 공유 정책이 지배적 역할(dominant role)에 포획되어 작업 및 워크플로우에 따라 서로 다른 실패 양상을 생성합니다. 종합하면, 실험적 지도와 그 기저 메커니즘은 정책 공유가 균일한 안정성을 제공하기보다는 훈련 압력을 다른 경로로 라우팅함을 보여주며, 이는 워크플로우 및 작업 조건에 따른 트레이드오프를 수반하는 설계 선택임을 시사합니다.
모델 컨텍스트 프로토콜(MCP)은 대규모 언어 모델(LLM)을 외부 데이터 소스 및 도구와 연결하기 위한 혁신적인 표준으로 부상하여 개인용 애플리케이션 및 개발 플랫폼 전반에서 빠르게 채택되고 있습니다. 그러나 기존 벤치마크는 주로 일반적인 정보 탐색 도구에 초점을 맞추고 있으며, 도구가 개인 계정 또는 로컬 데이터베이스와 상호작용하는 개인용 소셜 애플리케이션에서 발생하는 실질적인 과제를 포착하지 못합니다. 이러한 중요한 격차를 해소하기 위해, 우리는 실제 세계의 개인화된 MCP 도구에서 에이전트 성능을 평가하도록 특별히 설계된 최초의 벤치마크인 MCP-Persona를 소개합니다. MCP-Persona는 Reddit 및 Xiaohongshu(레드노트)와 같은 소셜 미디어 플랫폼에서부터 Lark(Feishu) 및 Slack과 같은 엔터프라이즈 협업 제품군에 이르기까지, 널리 사용되는 다양한 애플리케이션을 포함합니다. 다양한 최첨단(SOTA) 에이전트에 대한 광범위한 실험 결과, 이들이 개인화된 도구 사용에 상당한 어려움을 겪는 것이 입증되었으며, 이는 이러한 한계를 식별하고 해결하는 데 있어 벤치마크의 중요한 역할을 강조합니다. MCP-Persona는 https://github.com/wwh0411/MCP-Persona에서 공개적으로 이용 가능합니다.
밀집 자기 주의는 장기 비디오 확산 추론의 계산 및 품질 병목 현상입니다. 즉, 시퀀스 길이가 증가함에 따라 계산 비용이 제곱으로 증가하며, 훈련 시퀀스 길이를 초과하면 모델이 정적 출력, 즉 "고정된" 반복 비디오로 수렴합니다. 최신 접근법은 재훈련이 필요하는 등 비용이 너무 많이 들거나, 성능과 품질 목표를 확장 가능한 방식으로 모두 충족하지 못합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 비디오 확산 트랜스포머를 위한 훈련 불필요 모델 비의존적 블록 희소 주의 기법인 Long Video Sparse Attention (LVSA)을 제안합니다. LVSA는 구조화된 윈도우 패턴과 회전 글로벌 앵커를 결합하여 장기 시간적 인공물을 유발하는 고정 그리드 편향을 제거합니다. LVSA는 FlashInfer 커널과 결합하여, 밀집 주의 대비 Wan 2.1 1.3B에서 6배 시퀀스 길이 기준 최대 3.17배, Wan 2.1 14B에서 6배 시퀀스 길이 기준 2.98배, HunyuanVideo 1.5에서 1.5배 시퀀스 길이 기준 3.33배의 계산량 감소를 달성합니다. 계산량 감소 외에도 LVSA는 단일 GPU에서 메모리 부족으로 생성이 불가능했던 HunyuanVideo 1.5의 2배 시퀀스 길이 생성을 가능하게 합니다. 또한 Wan 2.1 1.3B에서 RIFLEx 대비 최대 2.41배, UltraViCo 대비 3.27배의 속도 향상을 제공합니다. 다양한 플랫폼에서의 적용 가능성을 입증하기 위해 NPU에 LVSA를 적용한 결과, 밀집 주의 대비 Wan 2.2 A14B에서 최대 2.71배, Wan 2.1 1.3B에서 최대 3.24배의 속도 향상을 달성했습니다. 공정한 품질 평가를 위해, 반복 비디오 실패를 적절히 평가하는 도구인 VQeval을 도입합니다. 이러한 실패는 기존 최신 평가기인 VBench-Long에서는 오히려 높은 점수를 받습니다. LVSA는 훈련 시퀀스 길이에서의 생성에 대해 품질 중립적이며, 확장된 시퀀스 길이에서는 품질에 긍정적입니다.
개방형 환경에서 탐색은 자율 에이전트의 핵심 요소이지만, 현재의 언어 모델 에이전트는 이에 어려움을 겪는다. 효과적인 탐색에는 기억이 필요하지만, 긴 궤적에 걸쳐 원시 상호작용 이력을 유지하는 것은 계산 비용이 크다. 잠재 메모리는 상호작용 이력을 압축하는 해결책을 제공하지만, 그 훈련에는 신뢰할 수 있는 감독 신호가 부족하다. 본 논문에서는 참신성 기반 상호작용을 통해 에이전트 메모리와 탐색 정책을 함께 훈련하는 프레임워크인 JAMEL(Joint Agent Memory and Exploration Learning)을 제안한다. 메모리와 탐색은 상호 의존적 순환을 형성한다. 지속적인 탐색에는 고갈된 행동과 관찰되지 않은 행동을 구분하는 메모리가 필요하며, 참신성 추구 상호작용은 미래 탐색에 메모리를 유용하게 만드는 데 필요한 감독을 제공한다. GUI 도메인에서 코드 커버리지와 같은 결정론적이고 지속적인 참신성 신호를 활용함으로써 메모리 모듈에 주석이 필요 없는 자연스러운 감독을 제공한다. 실증 평가 결과, JAMEL은 보지 못한 환경에 성공적으로 일반화된다. 그 탐색 능력은 오픈 가중치 기준선을 능가하고 폐쇄형 모델의 탐색 깊이에 필적하면서도 토큰 소비를 줄인다. 코드와 모델은 https://github.com/MobileLLM/JAMEL에서 오픈소스로 공개되었다.
자가회귀(AR) 비디오 확산은 가변 길이 합성을 가능하게 하지만, 장기 생성은 종종 누적 오류와 정체성 표류(identity drift)로 인해 어려움을 겪습니다. 효율성을 위해 기존 방법들은 생성 중에 슬라이딩 윈도우 어텐션(sliding-window attention)을 일반적으로 채택합니다. 이는 되돌릴 수 없는 생성 궤적을 만듭니다. 활성 윈도우에 외관 오류가 누적되면, 이후 생성은 이 저하된 궤적에만 조건부로 의존하게 되어 더욱 표류하게 됩니다. 우리는 긴 비디오 생성을 검색 증강 생성(Retrieval-Augmented Generation, RAG) 문제로 공식화하여 이러한 한계를 해결합니다. 최근 윈도우에만 의존하는 대신, 이전에 생성된 잠재 변수들을 동적이고 검색 가능한 히스토리로 취급합니다. 우리는 AR 비디오 생성을 위한 일반 검색 프레임워크인 LongLive-RAG를 제안합니다. 각 새로운 블록에서 LongLive-RAG는 쿼리 임베딩을 사용하여 관련된 과거 잠재 변수들을 검색합니다. 이 경량 검색 단계는 생성에 비해 작은 오버헤드만 추가하며, 생성기가 최근 윈도우 대신 비지역적 컨텍스트(non-local context)에 조건부로 의존할 수 있게 합니다. 검색을 더욱 변별력 있게 만들기 위해, 우리는 중복된 지역적 유사성을 억제하고 임베딩이 의미 있는 시간적 변화를 포착하도록 장려하는 Window Temporal Delta Loss를 도입합니다. 함께, 이러한 구성 요소들은 슬라이딩 윈도우 어텐션으로 인한 오류 누적을 줄이는 데 도움을 줍니다. 여러 AR 백본과 생성 길이에 걸친 실험은 향상된 장기 비디오 품질과 최고의 평균 VBench-Long 순위를 보여줍니다. 우리가 아는 한, 개방형(open-ended) AR 장기 비디오 생성 방법 중 LongLive-RAG는 자체 생성된 잠재 변수 히스토리를 내용 주소 지정 가능 검색 메모리(content-addressable retrieval memory)로 공식화한 최초의 방법입니다. 코드는 https://github.com/qixinhu11/LongLive-RAG에서 이용할 수 있습니다.
사람이 이미지를 볼 때 기록된 fMRI 신호에서 시각적 콘텐츠를 디코딩하고, 특히 본 이미지에 대한 질문에 답하는 것은 오랜 도전 과제이다. 최근 몇 년간 fMRI 기반 시각 질문 응답(VQA)에서 상당한 진전이 있었지만, 성능은 여전히 제한적이다. 또한, 최신 모델이 점점 더 정확한 예측을 할 수 있게 되었음에도 불구하고, 이는 뇌의 시각적 표현 구조를 이해하는 도구로 거의 사용되지 않았다. 우리는 fMRI 기반 시각 질문 응답을 위한 프레임워크인 Brain-IT-VQA를 제시한다. 뇌 상호작용 트랜스포머(Brain-IT)를 기반으로 한 이 방법은 뇌 활동에서 언어 토큰을 디코딩하고 이를 언어 모델과 통합하여 시각적 질문에 답한다. 우리 모델은 이전의 fMRI 기반 캡셔닝 및 VQA 접근법보다 현저히 뛰어난 성능을 보인다. 또한, 우리는 fMRI 기반 시각 질문 응답을 위한 새로운 데이터셋이자 벤치마크인 NSD-VQA를 소개한다. 기존의 이미지-fMRI VQA 데이터셋이 일반적으로 이미지당 소수의 광범위하고 통제가 약한 질문만 제공하는 반면, NSD-VQA는 20개의 통제된 질문 범주에 걸쳐 이미지당 평균 20개의 질문-답변 쌍을 제공하여 시각적 이해의 여러 수준을 분리한다. 이를 통해 제한된 fMRI 테스트 데이터에도 불구하고 더 신뢰할 수 있고 해석 가능한 평가가 가능하다. Brain-IT-VQA와 NSD-VQA는 함께 강력한 예측 프레임워크이자 뇌 표현 연구를 위한 도구를 제공한다. 이 벤치마크를 사용하여 우리는 자연 이미지에 대한 fMRI 반응에서 어떤 형태의 시각적 및 의미적 정보가 신뢰할 수 있게 디코딩될 수 있는지 정량화한다. 또한, 우리는 질문 유형별로 서로 다른 뇌 영역의 기여도를 분석한다.
실시간 스트리밍 오디오-비디오 공동 생성을 통한 캐릭터 애니메이션을 위해서는 생성기가 요청된 대본을 말하고, 청크 간 시각적 정체성을 유지하며, 엄격한 재생 예산 내에서 실행되어야 한다. 이러한 요구사항을 동시에 충족하는 것은 어렵다. 청크 단위 자기회귀 생성은 대본-오디오 불일치와 시각적 드리프트를 누적시킬 수 있는 반면, 낮은 지연시간을 위해 필요한 소수 단계 증류는 종종 공간 다양성과 시간적 품질을 저하시킨다. 본 논문에서는 장기 조정과 단기 윈도우 오디오-비디오 잡음 제거를 분리하는 스트리밍 프레임워크인 StreamChar를 제시한다. LLM 기반 조정기는 대본과 과거 맥락을 사용하여 프레임 정렬 오디오 조건을 생성하며, 공동 오디오-비디오 DiT는 참조 및 모션 프레임 조건화를 통해 로컬 양방향 잡음 제거를 수행한다. 효율적인 배포를 위해 먼저 샘플러를 압축한 후 온라인 청크 롤아웃 하에서 학생 모델을 미세 조정하는 2단계 증류 파이프라인을 사용한다. 진행 인식 포인터는 롤아웃 훈련 중 부분 대본과 생성된 오디오를 정렬하며, 싱크 청크 메모리는 장기 드리프트를 줄이기 위한 지속적 시각적 앵커를 제공한다. 단일 클립 및 장기 프로토콜에 대한 실험 결과, StreamChar는 단일 H100 GPU에서 실시간으로 실행되며, 최근의 공동 및 오디오 기반 베이스라인과 비교하여 대본 충실도, 시청각 동기화, 시각적 품질 및 스트리밍 안정성 간에 유리한 시스템 수준 트레이드오프를 제공함을 보여준다.
LLM 에이전트는 점점 더 의사 결정 시점에 외부에서 큐레이션된 스킬(절차적 지시)을 검색하여 장기적인 상호작용 과제의 성능을 향상시키고 있다. 기존 스킬 라이브러리는 일반적으로 모델에 구애받지 않는 것으로 간주되어, 성능과 행동이 크게 다른 백본들 간에 동일한 스킬 공식을 재사용한다. 그러나 여러 모델 규모에 걸친 통제 실험 결과, 스킬의 효과성은 강하게 모델 의존적임이 드러났다. 즉, 한 백본에 유익한 스킬이 다른 백본에는 해를 끼칠 수 있다. 이러한 관찰에 기반하여, 본 연구는 에이전트 가중치를 수정하지 않고 각 대상 백본에 스킬을 적응시키는 프레임워크인 MASA(Model-Aware Skill Alignment)를 제안한다. MASA는 두 단계로 작동한다: (1) 환경 피드백과 모델 능력 프로파일에 의해 안내되는 언덕 오르기 및 UCB 기반 트리 탐색을 사용하여 일반 스킬과 과제별 스킬을 반복적으로 재작성하는 계층적 스킬 진화 파이프라인, (2) 진화 궤적에 대해 훈련되어 단일 순전파로 적응을 재현하는 경량 모델 조건부 스킬 재작성기. 세 가지 상호작용 환경과 네 가지 백본에 걸친 실험 결과, MASA가 일관되게 최고의 전반적 성능을 달성하며, 가장 강력한 기준선 대비 최대 25.8 포인트의 향상을 보였다. 학습된 재작성기는 추가 탐색 없이도 보지 못한 과제와 환경에 일반화되어, 훨씬 작은 추론 비용으로 더 큰 교사 LLM을 지속적으로 능가한다.
강력한 시각적 웹 에이전트를 구축하려면 장기적인 추론 능력, 정밀한 근거 설정, 그리고 역동적인 실제 웹사이트와의 견고한 상호작용이 필요하다. 빠른 발전에도 불구하고, 가장 강력한 시스템들은 대부분 독점적으로 유지되고 있으며, 오픈 에이전트들은 여전히 대규모로 수집된 정제된 웹 궤적 데이터에 대한 지도 사후 훈련에 크게 의존하고 있다. 이러한 의존성은 주요 확장성 병목을 야기한다: 고품질 시연 데이터를 수집하는 데 비용이 많이 들고, 정적 데이터셋은 다양하고 끊임없이 변화하는 개방형 웹 환경을 제한적으로만 포괄한다. 온라인 강화 학습(RL)이 텍스트 기반 에이전트에 유망한 것으로 입증되었지만, 실제 웹사이트에서 직접 시각적 웹 에이전트를 훈련하는 데 있어 그 잠재력은 여전히 거의 탐구되지 않았다. 본 논문에서는 실제 웹사이트에서 온라인 다중 턴 RL을 통해 시각적 웹 에이전트를 훈련하기 위한 개방형 프레임워크인 OpenWebRL을 소개한다. OpenWebRL은 확장 가능한 실시간 브라우저 인프라, 지도 초기화, 멀티모달 컨텍스트 관리, 궤적 수준 성공 판단, 효율적인 다중 턴 정책 최적화를 포함한 전체 훈련 파이프라인을 포괄한다. 이 프레임워크를 사용하여 OpenWebRL-4B를 훈련시켰으며, 이는 까다로운 실시간 웹 벤치마크에서 새로운 오픈소스 최첨단 성능을 확립했다. 단 0.4K 개의 초기화 궤적과 2.2K 개의 개방형 RL 훈련 작업만으로 OpenWebRL-4B는 Online-Mind2Web에서 67.0%, DeepShop에서 64.0%의 성공률을 달성하여, 유사하거나 더 큰 규모의 이전 오픈 에이전트들을 능가하고 OpenAI CUA 및 Gemini CUA를 포함한 독점 시스템과도 경쟁력을 유지했다. 강력한 벤치마크 성능 외에도, 온라인 RL을 시각적 웹 에이전트에 효과적으로 만드는 핵심 설계 선택들을 체계적으로 연구하고, RL이 에이전트 추론 능력을 어떻게 향상시키는지 분석한다. 전반적으로, 본 연구는 더 강력하고, 재현 가능하며, 비용 효율적인 오픈 웹 에이전트를 구축하기 위한 실용적인 경로를 제시한다. 향후 연구를 지원하기 위해 훈련 데이터, 모델, 코드를 공개할 예정이다.
투기적 디코딩(Speculative Decoding, SD)은 초안 작성 후 검증(draft-then-verify) 패러다임을 통해 낮은 동시성의 LLM 추론을 가속화한다. 그러나 주류 방법들은 일반적으로 다중 토큰 예측에 의존하며, 이는 예측 난이도의 증가와 직렬 초안 작성 지연 시간을 초래한다. 이러한 문제를 해결하기 위해 우리는 파이프라인 병렬 처리의 진정한 잠재력을 발휘하는 혁신적인 프레임워크인 투기적 파이프라인 디코딩(Speculative Pipeline Decoding, SPD)을 제안한다. SPD는 대상 LLM을 n개의 파이프라인 단계로 분할하여 LLM이 n개의 토큰을 병렬로 처리할 수 있게 함으로써 디코딩을 가속화한다. 단일 시퀀스 디코딩에서 파이프라인을 지속적으로 채우기 위해, 투기 모듈은 서로 다른 파이프라인 깊이에 걸쳐 중간 특징을 집계하여 다음 토큰을 예측하며, 이는 대상 모델의 파이프라인 단계와 완전히 병렬로 실행되어 제한된 난이도, 더 높은 수용률, 그리고 제로 지연 버블을 실현한다. 실험 결과, SPD는 주류 기준선에 비해 현저히 높은 이론적 속도 향상을 달성하며, LLM 디코딩 가속화를 위한 확장성이 뛰어난 솔루션을 제공함을 보여준다. 코드는 https://github.com/yuyijiong/speculative_pipeline_decoding에서 확인할 수 있다.
강화 학습(RL)은 어떤 행동이 높은 보상으로 이어지는지 가르침으로써 대규모 언어 모델(LLM) 에이전트를 향상시키지만, 그러한 행동이 환경에 어떤 영향을 미치는지에 대한 감독은 거의 제공하지 않는다. 세계 모델링(WM)은 이러한 격차를 메울 수 있지만, 기존 접근법은 종종 별도의 시뮬레이터, 추가 훈련 단계, 또는 추론 시 추가 계산을 필요로 한다. 우리는 정책 기반(policy-on) RL 롤아웃이 이미 필요한 신호를 포함하고 있음을 관찰한다. 각 전환은 행동과 그 결과로 나타나는 다음 관찰을 짝짓는다. 이 관찰에 기반하여, 우리는 추론 패러다임을 변경하지 않고 RL 중 동일한 정책에 보조 WM 감독을 추가하는 정책 및 세계 모델링 공동 훈련 프레임워크인 PaW를 제안한다. 보조 WM 감독을 정보적이고 안정적으로 만들기 위해 PaW는 세 가지 구성 요소를 도입한다: 행동 엔트로피 기반 WM 데이터 선택, 노이즈 내성 WM 손실, 및 보상 적응형 손실 균형 조정. 세 가지 에이전트 작업 벤치마크에 대한 실험은 다양한 모델 및 RL 알고리즘에 걸쳐 강력한 RL 기준선 대비 일관된 개선을 보여준다. 이러한 결과는 표준 RL 롤아웃이 언어 에이전트 훈련을 위한 실용적인 WM 감독 소스임을 시사한다.
어포던스 이해는 시각적 지각과 물리적 행동을 연결하여 개방적이고 비구조화된 실제 환경에서 로봇 조작을 위한 설명 가능한 인터페이스 역할을 한다. 그러나 상호작용이 어디서, 어떻게 이루어져야 하는지를 이해할 뿐만 아니라 다양한 환경, 객체, 작업에 걸쳐 일반화할 수 있는 어포던스 기초 모델을 구축하는 것은 여전히 오랜 연구 과제로 남아 있다. 기존 방법들은 일반적으로 이 과제의 일부만 다루는데, 실행 가능한 동작을 명시하지 않고 작업 관련 영역을 국소화하거나, 확장성이 제한된 동작을 예측한다. 본 논문에서는 기능 이해를 위한 어포던스 기초 모델로 나아가는 한 걸음인 본 모델을 제시한다. 단일 RGB-D 관측과 언어 작업 설명으로부터 본 모델은 작업 조건부 기능 마스크(상호작용 위치)와 3D 접촉 후 동작 곡선(상호작용 방법)을 예측한다. 개방형 세계 일반화를 지원하기 위해 로봇, 인간, 시뮬레이션 및 실제 스캔 데이터로부터의 이질적 데이터를 언어, 마스크, 객체 중심 3D 동작 레이블이 포함된 공유 어포던스 스키마로 변환하는 대규모 표준화 데이터 파이프라인을 구축한다. 본 모델을 세 가지 측면에서 평가한다. 어포던스 분할의 경우, 4개 벤치마크의 8개 테스트 세트에서 모든 기준선을 큰 폭으로 능가하며 평균 gIoU/cIoU가 +23.9/+26.3 향상되었다. 접촉점 예측의 경우, 가장 우수한 기준선 대비 12.7~61.3%의 적중률 향상으로 훨씬 더 정확한 점을 예측한다. 3D 동작의 경우, 세 가지 테스트 세트 모두에서 최고 성능을 달성한다. 본 모델은 로봇 구현체에 대한 미세 조정이나 작업별 휴리스틱 없이 실제 로봇 조작에 배포될 수 있으며, 개방형 세계 어포던스 작업에 적응하는 능력을 입증한다. 프로젝트 페이지: https://www.zhaoningwang.com/AFUN
재사용 가능한 스킬은 에이전트의 역량을 확장하는 핵심 메커니즘으로, 에이전트가 경험을 축적하고 점점 더 복잡한 작업을 해결할 수 있게 한다. 그러나 기존 대부분의 스킬 학습 방법은 재사용 가능한 경험을 명령어, 추론 과정 또는 요약된 궤적과 같은 텍스트 전용 자산으로만 저장한다. 우리는 이러한 텍스트 전용 패러다임이 시각 중심 작업에서 근본적인 병목 현상을 유발한다고 주장한다. 재사용 가능한 지식은 종종 공간적 배치, 시각적 근거, 세부적인 외형, 그리고 국소적 상태 변화에 의존하기 때문이다. 이러한 한계를 해결하기 위해, 우리는 선언적 텍스트 논리와 명시적 시각적 지원을 결합한 다중 모달 스킬 패러다임인 \NAME을 제안한다. 우리는 세 가지 재사용 가능한 형태를 구분한다: 안정적인 공간적 관례를 위한 정적 사전 지식, 현장 시각적 작업 기억을 위한 동적 사전 지식, 그리고 순차적 텍스트 단계를 이를 정당화하는 원본 프레임, 스크린샷 또는 페이지 영역에 결합하는 혼합형 시각 스킬. 시각 스킬은 무엇을 해야 하는지 설명할 뿐만 아니라, 어디를 봐야 하는지, 어떻게 조사해야 하는지, 그리고 시각적 결과를 어떻게 확인해야 하는지도 인코딩한다. 시각 스킬 구축을 확장하기 위해, 우리는 에이전트 경험을 재사용 가능한 다중 모달 스킬로 자동 변환하는 시스템인 \SYSTEM을 소개한다. 이 시스템은 작업 궤적으로부터 텍스트 추론, 공간적 참조, 시각적 경계, 그리고 상호작용 패턴을 보존한다. GUI 및 기타 시각 중심 작업에 대한 실험 결과는 시각 스킬이 텍스트 전용 스킬보다 일관되게 우수한 성능을 보이며, 특히 공간적 대응, 시각적 증거, 그리고 상태 인식 상호작용이 필요한 성공 조건에서 두드러짐을 보여준다. 이러한 결과는 우리의 핵심 주장을 뒷받침한다: 재사용 가능한 에이전트 스킬은 텍스트를 넘어 미래의 다중 모달 에이전트를 위한 다중 모달 자산이 되어야 한다.
시각-언어 모델(VLM)은 강력한 시각적 이해 능력을 보여주며, 현실 조건에서 신뢰할 수 있는 지각이 필수적인 구현형 AI 시스템에 점점 더 많이 배치되고 있다. 그러나 기존 벤치마크는 깨끗한 이미지나 고립된 교란(perturbations)을 사용하여 VLM을 평가할 뿐, 물리적 장면 형성으로 인한 스트레스는 평가하지 않는다. 이러한 설계는 두 가지 한계를 가진다: 일상적인 시각적 스트레스의 극히 일부만을 다루며, 일부 교란은 현실적인 구현형 장면에서는 거의 나타나지 않는다. 이러한 격차는 근본적인 질문을 제기한다: 물리적 환경에서 마주치는 다양한 요인들을 포착하는 원칙적인 방식으로 시각적 스트레스를 어떻게 정의할 수 있는가? 이 질문에 답하기 위해, 우리는 역그래픽스(inverse graphics) 관점에서 시각 지각을 정식화하고, 구현형 장면에서의 물리적 시각적 스트레스에 대한 VLM의 견고성을 평가하기 위한 벤치마크인 RoboStressBench를 소개한다. 물리적 렌더링 방정식(physical rendering equation)에서 영감을 받아, RoboStressBench는 시각적 스트레스를 네 가지 물리적으로 기반한 차원으로 분해한다: 재질(M), 시점(V), 조명(L), 기하학(G). 이 설계는 RoboStressBench가 실제 환경에서 다양한 시각적 스트레스를 포괄하면서도, 시각적 인식, 추론 및 계획과 같은 VLM 능력에 미치는 영향을 통제된 방식으로 분석할 수 있게 한다. 최신 VLM에 대한 포괄적인 평가를 통해, 우리는 스트레스 특이적 실패 모드를 식별하고, 서로 다른 물리적 요인이 서로 다른 구현 능력을 저하시키며, 이는 종합 정확도에서는 종종 가려진다는 것을 밝힌다. 또한, 우리는 스트레스 인식 에이전트 솔버(stress-aware agentic solver)를 도입하여, 추론 전에 시각적 스트레스 요인을 탐지하고 시각 편집 기술을 호출함으로써 고스트레스 시나리오에서의 견고성을 향상시킨다. 전반적으로, RoboStressBench는 실제 물리적 스트레스 하에서 VLM 지각을 진단하고 개선하기 위한 원칙적인 평가 프레임워크를 제공하며, 보다 신뢰할 수 있는 구현형 AI 시스템 개발을 지원한다.
대규모 시각-언어 모델(LVLM)은 시각적 입력을 밀집된 토큰 시퀀스로 매핑하여 추론 시 이차 계산 병목 현상을 초래한다. 탄력적 시각 토큰 압축은 여러 시각 토큰 예산에서 실행 가능한 단일 모델을 훈련함으로써 이 문제를 해결한다. 그러나 기존 접근법은 과도한 압축 상황에서 어려움을 겪는다. 중첩 풀링과 같은 공간 전용 압축은 불완전한 저역 통과 필터 역할을 하며 미세한 세부 정보를 모호하게 만드는 스펙트럼 에일리어싱을 유발한다. 중첩 쿼리 재표집과 같은 쿼리 전용 압축은 명시적 그리드 정렬 토큰을 비국소적 요약으로 대체하여 공간적 접지 능력을 크게 저하시킨다. 이러한 표현적 갈등을 해결하기 위해, 우리는 PARCEL(Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding)을 제안한다. 이는 특징 추출의 역할을 동적으로 분할하는 시각 토큰화 아키텍처이다. PARCEL은 공간 풀 토큰을 저주파 레이아웃 앵커로 설정하고, 풀 조건부 쿼리 재표집을 통해 탄력적 쿼리 토큰을 이러한 앵커에 조건화한다. 이는 쿼리 토큰이 중복된 공간 매핑보다는 상호 보완적인 시각적 특징에 집중하도록 유도한다. 27개 벤치마크에 걸친 광범위한 평가에서 PARCEL은 성능-효율성 파레토 프론티어를 개선하며, '한 번 훈련하고 어디서든 배포' 패러다임을 유지하면서 시각 토큰 예산 전반에 걸쳐 기존 마트료시카 기준선을 일관되게 능가함을 보여준다.
멀티모달 대규모 언어 모델(MLLM)은 지각, 추론, 행동 생성에서 강력한 능력을 보여주었다. 그러나 동적인 개방형 세계에서 지속적인 탐험 능력은 여전히 불명확하다. 기존의 구현형 및 게임 기반 벤치마크는 종종 상호작용을 단기 과제로 압축하거나, 도메인 특화 게임 메커니즘에 성공을 종속시킨다. 본 논문에서는 마인크래프트에서 MLLM 에이전트의 개방형 세계 탐험 능력을 평가하기 위한 MineExplorer 벤치마크를 소개한다. 먼저, 마인크래프트 특화 지식에 크게 의존하는 해결 방안을 가진 원자적 과제들을 필터링하여 일반적인 개방형 세계 추론을 더 잘 반영하도록 한다. 그런 다음 ReAct 스타일의 능력 구성 체계를 중심으로 벤치마크를 구성하고, 원자적 과제들을 암시적 다중 홉 과제로 조합한다. 신뢰할 수 있는 인스턴스를 추가로 구축하기 위해 MineExplorer는 작업 그래프, 샌드박스 장면, 규칙 기반 마일스톤 평가자를 공동으로 설계하는 다중 에이전트 합성 워크플로우를 사용한다. 인간 평가는 다중 에이전트 합성 워크플로우가 단일 에이전트 기준선보다 훨씬 더 신뢰할 수 있는 인스턴스를 생성함을 보여준다. 고급 MLLM 에이전트를 사용한 실험은 개방형 세계 탐험이 여전히 어려운 과제임을 보여주는데, 강력한 모델은 많은 단일 홉 과제를 처리할 수 있지만, 숨겨진 전제 조건이 더 긴 궤적에 걸쳐 조정되어야 할 때 성능이 급격히 저하된다. 추가 분석에 따르면 과제 난이도는 에이전트의 완료율과 연동되며, 더 큰 모델이나 사고 모드가 항상 더 나은 성능으로 이어지지는 않는다. 코드와 데이터셋은 https://github.com/Jometeorie/MineExplorer에서 확인할 수 있다.
시각-언어-행동(VLA) 모델은 사전 학습된 언어 또는 시각-언어 백본의 의미 이해가 로봇의 행동 예측을 안내해야 한다는 전제 위에 구축된다. 그러나 로봇의 미세 조정은 작업별 행동 분포에 대한 모방 학습으로 최적화되며, 많은 평가는 시각적 또는 명령-행동 지름길을 통해 해결될 수 있다. 우리는 행동 예측에서의 의미적 근거 진단을 위한 내재적 벤치마크인 RoboSemanticBench(RSB)를 소개한다. 이는 사후 훈련된 VLA 모델이 복잡한 명령 의미를 사용하여 올바른 물리적 대상을 선택하고 조작할 수 있는지 여부를 평가한다. 각 에피소드에서 로봇은 객관식 수학 또는 일반 상식 질문을 받고, 후보 답안 블록들을 관찰한 후, 정답에 해당하는 블록을 집어야 한다. RSB는 제어된 산술, 초등 수준의 수학적 이해, 그리고 상식적 또는 사실적 이해를 네 가지 선택지와 열 가지 선택지 체계에서 다룬다. 대표적인 VLA 모델들에 대한 실험 결과, 많은 정책이 후보 블록을 집는 법을 학습하지만, 집기 성공을 통제한 후에도 의미적으로 올바른 블록을 선택하는 비율은 무작위 수준에 가깝거나 그 이하로 나타나며, 이는 백본 수준의 의미적 능력과 행동 예측 사이에 지속적인 격차가 존재함을 드러낸다.
강력한 평가자를 사용하여 여러 소형 모델 샘플 중에서 최상의 응답을 선택하는 것은 간단한 추론 시간 전략이지만, 소형 모델이 이미 잘못된 추론 경로에 도달한 경우 실패합니다. PRM 기반 탐색은 생성 중에 후보 지속을 평가함으로써 이를 피하지만, 단계별 레이블로 훈련된 보상 모델이 필요합니다. 본 논문에서는 학습이 필요 없는 대안으로, 기성 대형 언어 모델을 프로세스 평가자로 사용하는 청크 수준 유도 생성을 제안합니다. 각 단계에서 소형 모델은 k개의 고정 길이 후보 청크를 샘플링하고, 대형 모델은 텍스트를 생성하지 않고 가능도를 사용하여 후보를 평가합니다. 선택된 청크는 다음 단계 전에 확정되며, 오류가 전파되기 전에 생성을 유도합니다. 이 프레임워크를 두 가지 선택 규칙으로 구체화합니다: 길이 정규화된 대형 모델 로그 확률이 가장 높은 청크를 선택하는 가능도 유도 선택(LGS)과, 소형 모델의 로그 확률을 빼서 대형 모델의 선호도가 소형 모델과 다른 청크를 선호하는 대조 유도 선택(CGS)입니다. 대형 모델 가능도로 가변 길이 추론 단계를 평가하는 것은 길이 정규화 후에도 지속되는 체계적인 길이 편향으로 인해 신뢰할 수 없으며, 고정 길이 청크가 이러한 혼란 변수를 방지함을 보여줍니다. GSM8K, MATH, Minerva Math, AMC23, AIME24에서 Qwen2.5-1.5B를 Qwen2.5-32B로 유도하고 Llama-3.2-1B를 Llama-3.1-70B로 유도한 경우, CGS는 다수결 투표보다 최대 28% 포인트 높은 성능을 보였으며, 일치된 유도 예산 하에서 대부분의 벤치마크에서 보상 모델 학습 없이 Qwen2.5-Math-PRM-72B 기반 탐색과 동등하거나 더 나은 성능을 보였습니다. Qwen2.5-7B를 Qwen2.5-72B로 유도할 때, CGS는 k=16에서 MATH 81.8%, Minerva Math 63.6%에 도달하여 다수결 투표보다 4~6% 포인트 앞섰습니다. 마지막으로, 청크 수준 유도 생성은 PRM 기반 탐색보다 훨씬 짧은 추론 궤적을 생성합니다.
오늘날 컴퓨터 사용 에이전트(CUA)는 주로 단일 직렬 에이전트로 배포된다. 이러한 설정은 작업 분해, 병렬 실행 및 새로운 정보에 기반한 일관된 재계획의 이점을 얻을 수 있는 복잡한 장기적 과제에 최적이 아니다. 본 논문에서는 다중 에이전트 컴퓨터 사용(MACU) 시스템을 평가하고 구축하는 방향으로 전환해야 한다고 주장한다. 계획과 병렬 실행을 강조하는 이 시스템은 단일 에이전트 CUA의 많은 단점을 완화한다. 우리는 관리자 모델이 컴퓨터 사용 작업을 방향성 비순환 그래프(DAG)로 분해하고 하위 에이전트에 관련 종속성과 목표를 인코딩하는 일반적인 다중 에이전트 설정을 제안한다. 각 반복에서 관리자는 DAG의 준비 경계에 있는 노드를 실행하기 위해 병렬 CUA 하위 에이전트를 파견하고, 하위 에이전트로부터 새로운 발견이 도착하면 DAG를 지속적으로 수정한다(노드 추가, 취소 또는 다시 작성). 이 설계는 컴퓨터 사용의 부분 관측 가능 환경을 일급 도전 과제로 취급한다: 하류 에이전트가 다시 관측하지 못할 수 있는 정보는 관리자와 DAG 구조를 통해 유지되어 전달된다. 우리는 MACU가 데스크톱(OSWorld) 및 웹 내비게이션(Online-Mind2Web, WebTailBench, Odysseys) 벤치마크에서 강력한 단일 에이전트 기준선 대비 3.4-25.5%의 일관된 성능 향상을 보이며, 더 유리한 테스트 시 스케일링을 나타내고, 단일 에이전트 CUA가 정체되는 복잡한 장기적 과제를 해결함을 입증한다. 장기적 웹 내비게이션 벤치마크인 Odysseys에서 MACU는 평균 작업 완료 벽시계 시간을 약 1.5배 개선하여 전통적으로 느린 CUA 파이프라인의 속도를 높이는 효율성을 보여준다. 우리의 발견은 다중 에이전트 협력이 컴퓨터 사용 에이전트를 더 오랫동안 생산적으로, 더 효과적으로 작동하도록 확장하는 유망한 축임을 강조한다. 모든 코드와 대화형 시각화는 https://jykoh.com/multi-agent-computer-use에서 공개한다.
시각 기반 모델(Vision Foundation Models)에서 구조화된 객체 이해(Structured Object Understanding)를 측정하는 것은 일관되지 않은 평가 프로토콜과 제한적인 부위 수준(Part-level)의 지도 학습으로 인해 여전히 어려운 과제로 남아 있다. 의미론적 대응(Semantic Correspondence, SC)은 객체의 부위가 외형, 시점, 기하학적 구조의 큰 변화에도 인스턴스 및 카테고리 간에 일치될 수 있는지를 테스트함으로써 이러한 능력을 평가한다. 체계적인 SC 평가를 가능하게 하기 위해, 우리는 SOCO(Semantic Object Correspondence)라는 새로운 벤치마크를 제안한다. SOCO는 대응 유형의 분류 체계(Taxonomy)를 도입하고, 100개 카테고리와 100만 개 이상의 대응 쌍에 걸쳐 일관되고 기능적으로 의미 있는 키포인트 주석(Keypoint Annotations)을 제공한다. 또한, SOCO는 키포인트 언어 설명(Keypoint Language Descriptions)을 포함하여 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)과 이들의 세분화된 부위 수준 이해 능력을 평가할 수 있게 한다. 포괄적인 실험 결과는 다음을 보여준다. (i) 시각 기반 백본(Vision Foundation Backbones)은 강력한 의미 구조를 인코딩하지만, 관련 카테고리 간의 대응 전이(Transfer Correspondences)는 제대로 수행하지 못하며 객체-부위 위치(Object-Part Position)를 부분적으로만 포착한다. (ii) LVLMs는 시각적 참조 교차 이미지 매칭(Visual-Reference Cross-Image Matching)보다 텍스트 프롬프트 기반 부위 위치 파악(Text-Prompted Part Localization)에서 더 강력하며, 이는 언어 기반 위치 파악(Language-Grounded Localization)과 세분화된 시각적 대응(Fine-Grained Visual Correspondence) 사이의 격차를 드러낸다. (iii) 대응 성능은 ImageNet 분류보다 세분화(Segmentation), 추적(Tracking), 3D 자세 추정(3D Pose Estimation), 3D 탐지(3D Detection)를 포함한 밀집 하위 과제(Dense Downstream Tasks)의 성능을 더 강력하게 예측한다. 이러한 발견들을 종합하면, SOCO는 시각 및 다중 모드 기반 모델(Vision and Multimodal Foundation Models)에서 구조화된 부위 수준 표현 품질(Structured, Part-Level Representation Quality)을 평가하는 벤치마크로 자리매김한다.
대규모 언어 모델(LLM) 언러닝은 프라이버시 보호와 AI 안전을 위한 중요한 사후 메커니즘으로 부상했지만, 대상 지식이 실제로 삭제되었는지 감사하는 것은 여전히 어려운 과제로 남아 있다. 기존의 출력 수준 지표는 해당 지식이 내부 표현으로부터 여전히 복구 가능할 때 이를 탐지하지 못한다. 최근의 화이트박스 연구는 이러한 잔여 지식을 밝혀내지만, 종종 보조 훈련이나 데이터셋별 적응에 의존하여 일반화 가능한 지표를 제공하지 못한다. 이러한 한계를 해결하기 위해, 우리는 활성화 패칭(activation patching)을 통해 언러닝의 기계적 깊이를 정량화하는 지표인 언러닝 깊이 점수(UDS, Unlearning Depth Score)를 제안한다. UDS는 먼저 유지 모델 기준선을 사용해 대상 지식을 인코딩하는 계층을 식별한 후, 언러닝된 모델에서 해당 지식이 얼마나 삭제되었는지를 0-1 척도로 측정한다. 8가지 방법에 걸친 150개의 언러닝된 모델에 대해 20개 지표를 대상으로 한 메타 평가에서 UDS는 가장 높은 충실도와 견고성을 달성하여, 인과적 접근 방식이 언러닝 평가에서 가장 신뢰할 수 있음을 확인했다. 사례 연구는 추가로 화이트박스 지표가 계층 수준에서 불일치할 수 있으며 삭제 깊이가 예시마다 다르다는 점을 밝혀냈다. 우리는 UDS를 기존 벤치마킹 프레임워크에 통합하고 평가 파이프라인을 간소화하기 위한 지침을 제공한다. 코드와 데이터는 https://github.com/gnueaj/unlearning-depth-score에서 확인할 수 있다.
차트와 테이블 이미지를 이해하는 것은 시각-언어 모델(VLM)을 실제 문서 이해에 적용하는 데 필수적이다. 영어 벤치마크는 빠르게 발전해 왔지만, 비영어권 벤치마크는 여전히 부족하여 이러한 진보가 언어를 넘어 일반화되는지 여부가 불분명하다. 주요 장애물은 규모가 큰 현실적이고 다양한 비영어권 차트 및 테이블 이미지를 수집하기 어렵다는 점이다. 이를 해결하기 위해 우리는 정부 백서를 영어 외 언어 벤치마크 구축을 위한 확장 가능한 자료원으로 활용한다. 정부 백서는 다양한 형식과 도메인에 걸친 자연 발생적 차트와 테이블을 포함하고 있으며, 많은 국가에서 자유롭게 접근할 수 있기 때문이다. 첫 번째 사례로, 우리는 33개의 정부 백서로 구축된 도전적인 일본어 차트 및 테이블 VQA 벤치마크인 HakushoBench를 소개한다. HakushoBench는 10개 이상의 이미지 유형에 걸친 2,053개의 이미지를 포함하며, 수동으로 주석 처리된 QA 쌍을 갖추고 있다. 이는 지역적 시각 단서만이 아니라 차트와 테이블에 대한 깊고 전체적인 이해를 평가하도록 설계되었다. 다양한 VLM에 걸친 실험 결과, HakushoBench는 오픈웨이트 모델에게 여전히 도전적인 과제임을 보여준다. 최고 성능의 오픈웨이트 모델은 58.6%의 정확도에 그쳤으며, 오픈웨이트 모델과 독점 모델 간의 34.9% 포인트 차이는 복잡한 차트 및 테이블 이해에 있어 상당한 개선 여지가 있음을 시사한다. 우리는 데이터셋과 코드를 공개한다.
진정한 비디오 지능은 보이는 것을 인식하는 것 이상을 요구한다. 즉, 사건이 전개되는 이유에 대한 추론, 다른 조건에서 어떤 변화가 일어날지 예측, 그리고 다음에 무엇을 해야 할지 결정하는 능력이 필요하다. 우리는 이러한 인식에서 인과 추론 및 시뮬레이션을 거쳐 전략적 계획으로 이어지는 발전 과정을 전략적 비디오 지능(Strategic Video Intelligence, SVI)이라고 명명한다. 기존의 어떤 벤치마크도 이러한 능력 스택을 평가하지 않는다. 실제 현장 영상은 인과 및 전략적 질문에 대한 검증 가능한 실제 정답이 부족한 반면, 합성 환경은 실제 다중 에이전트 시스템의 복잡성을 희생한다. 이러한 간극을 해소하기 위해, 우리는 팀 스포츠를 역동적인 마이크로 월드로 활용하는 대규모 벤치마크인 SVI-Bench를 소개한다. SVI-Bench는 실제 다중 에이전트 상호작용의 복잡성(10~22명의 에이전트가 적대적 압박 속에서 조정된 결정을 내림)과 명시적 규칙 및 확정적 결과의 검증 가능성을 결합한다. SVI-Bench는 농구, 축구, 아이스하키를 대상으로 약 35,000시간의 방송 영상, 1,500만 개의 주석이 달린 액션, 15,000시간의 전문가 해설, 23,000개의 경기 보고서, 103,000개의 구조화된 통계 기록을 포함하며, 이 모든 것은 원시 경기 데이터를 조밀하고 상호 참조되는 코퍼스로 변환하는 데이터 엔진을 통해 구축되었다. 우리는 평가를 4단계 점진적 계층 구조(역동적 장면 이해, 인과 추론, 전략적 시뮬레이션, 에이전트 합성)에 걸친 9개의 태스크로 구성한다. 강력한 멀티모달 및 에이전틱 기준 모델을 평가한 결과, 능력 절벽(capability cliff)을 발견했다. 모델들은 지각적 태스크에서는 유능한 성능을 보여 세부 액션 QA에서 약 73%의 정확도를 달성하지만, 인지 수준이 높아질수록 급격히 성능이 저하된다. 에이전틱 태스크가 가장 어려운 것으로 드러났으며, 가장 강력한 모델도 180만 개의 클립으로 구성된 코퍼스에서 자율적으로 증거를 수집하고 통합해야 할 때 단 5%의 정확도만을 기록했다.
에이전틱 검색은 언어 모델 에이전트가 다양한 출처를 탐색하고 복잡한 정보 탐색 질문에 답변하도록 요구한다. 테스트 시간 연산을 확장하는 것은 이러한 에이전트를 개선하는 유망한 방법이지만, 정답이 종종 희박하고 점수 기반 선택이 모델 보정에 의존하기 때문에 현재 접근 방식은 실패할 수 있다. 본 논문에서는 FineVerify, 즉 세분화된 자체 검증 프레임워크를 제안한다. 이 프레임워크는 각 질문을 검증 가능한 하위 질문으로 분해하고, 샘플링된 후보들을 각 하위 질문에 대해 검증한 뒤 가장 높은 집계 점수를 가진 후보를 선택한다. 이러한 검사별 구조는 선택을 더 단순한 국부적 판단으로 전환하고, 동일한 명시적 기준 아래 점수를 생성한다. 네 가지 에이전틱 검색 벤치마크와 두 모델에 걸쳐 FineVerify는 표준 확장 기준선을 일관되게 능가한다. 단 네 개의 샘플링된 궤적으로 FineVerify는 GPT-5-mini에 대해 평균 8.2 정확도 포인트, Gemini-3-flash에 대해 5.6%의 성능 향상을 달성한다. 12개 샘플에서는 FineVerify를 통해 GPT-5-mini가 BrowseComp-Plus에서 최첨단 GPT-5를 능가한다. 정확성 외에도 FineVerify는 해석 가능한 검증 추적을 제공하여 벤치마크 오류 감사를 지원하므로, 에이전틱 검색 시스템을 검사하는 더 광범위한 응용 가능성을 시사한다. 코드와 데이터는 https://github.com/XuZhao0/fineverify에서 확인할 수 있다.
물리적 AI 시스템은 점점 더 다중 양식 관측, 언어 명령, 그리고 학습된 세계 표현을 물리적 결과를 초래하는 행동으로 매핑하고 있다. 로봇 기반 모델, 시각-언어-행동 모델, 세계 모델 기반 자율 시스템은 차량, 로봇, 드론, 산업 기계를 움직이는 결정을 조건화할 수 있다. 이러한 전환은 기존의 AI 콘텐츠 모더레이션이나 고전적인 로봇 안전만으로는 완전히 포착되지 않는 안전 문제를 드러낸다. 즉, 블랙박스 모델이 자신감 있고 그럴듯하며 의미적으로 정렬된 것처럼 보이면서 물리적 결과를 초래하는 행동을 내놓을 수 있다. 그로 인한 실패는 하드웨어 하류 제어기가 위반을 감지하기 전에 센서 드리프트, 폐색, 상태 추정 오류, 분포 변화, 환각된 어포던스, 또는 무효한 물리적 가정으로 인해 발생하는 조용한 실패일 수 있다. 구현 기반 모델, 세계 모델, 로봇 시뮬레이션, 구현 안전 벤치마크, 안전 제어, 런타임 보증, 불확실성 추정, 검증, 가드레일 평가 전반에 걸쳐, 모델 성능과 안전 메커니즘은 대체로 별개의 기술적 경로를 따라 발전해 왔다. 본 리뷰에서 종합된 반복적인 격차는, 검토된 어떤 단일 흐름도 블랙박스 물리적 AI 모델과 물리적 실행 사이의 완전한 런타임 권한 경계를 제공하지 않는다는 점이다. 결과적인 분석은 제한된 문제 공식화, 조용한 물리적 행동 실패의 정의, 런타임 가드레일 기능의 분류, 그리고 물리적 AI 보증 메커니즘으로서 가드레일을 비교하기 위한 평가 요구사항을 개발한다.
보상 검증이 가능한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 사후 훈련(post-training)을 위한 핵심 기술이 되었다. 정책 최적화(policy optimization)는 전역적으로 전파되는 스칼라 보상 하에 샘플링된 모든 토큰에 의해 추진되지만, 궤적(trajectory)을 따라 나타나는 이질적인 정책 행동들은 차별 없이 대부분 간과된다. 기존 연구들은 토큰 수준의 이점 재가중치 부여(token-level advantage reweighting) 및 선택적 토큰 최적화(selective token optimization)를 포함한 신용 할당(credit allocation)을 통해 이 문제를 해결하고자 했으나, 할당 기준은 훈련 전반에 걸쳐 정체되어 있어 탄력적인 정책 진화를 제한한다. 본 연구에서는 학습 신호가 언제 할당되는지가 토큰 간 어디에 할당되는지만큼 중요하다고 주장하며, RLVR 최적화 과정에서 신용 할당 기준을 조정하는 시간적 차원(temporal dimension)을 도입한다. 특정 정책 행동이 강조된 표적 토큰(targeted token)을 우선시하고, 점차 일반 최적화로 약화시키는 접근법이 더욱 안정적이고 효율적인 학습 역학을 유도함을 발견했다. 또한, 단순한 궤적 백분위수(trajectory percentile)가 정책 행동을 구분하는 자연스러운 관점을 제공하며, 시간적 조정과 함께 효과적으로 작동함을 보인다. 분석 결과, 표준 최적화는 이질적 행동을 동시에 수용할 때 정책 엔트로피(policy entropy)를 상당히 희생하는 반면, 시간적 조정은 더 건강한 정책 진화 역학을 유도함을 밝혔다. 수학 및 일반 추론 벤치마크에 걸친 실험 결과 일관된 개선이 관찰되었으며, 이는 시간적 조정이 유망한 최적화 차원을 구성함을 시사한다.
문장 임베딩은 의미 기반 검색, 군집화, 분류 및 검색 증강 생성의 기초 구성 요소이다. 본 논문은 터키어에 특화된 문장 임베딩 모델인 embeddingmagibu-200m을 제시한다. 이 모델은 768차원의 L2 정규화 벡터를 생성하며, 기존 BERT 기반 터키어 인코더의 512토큰 제한을 훨씬 초과하는 8,192토큰 컨텍스트 윈도우를 지원한다. 전체 사전학습 대신 효율적인 3단계 적응 파이프라인이 도입되었다: (1) 교사 모델의 어휘에서 중복 토큰을 제거하고 40개 언어 말뭉치에 대한 빈도 분석을 통해 다국어 토큰을 통합하여 131,072개 어휘를 갖춘 터키어 최적화 다국어 토크나이저를 구축하고, (2) 트랜스포머 백본 가중치는 유지하면서 새로운 어휘에 대해 평균 구성 토큰 매핑을 통해 호환 가능한 임베딩 테이블을 초기화하여 교사 임베딩 모델을 복제하며, (3) 균형 잡힌 40개 언어 위키피디아 말뭉치에 대해 코사인 유사도 목적 함수를 사용하여 사전 계산된 교사 벡터로부터 오프라인 임베딩 증류를 수행한다. 결과적으로 생성된 학생 모델은 약 2억 개의 파라미터를 가지며, 단일 GPU에서 학습 중 온라인 교사 추론을 피함으로써 총 5~20달러의 비용으로 약 4시간 만에 학습된다. 실험적으로 STSbTR에서 피어슨/스피어만 상관계수 77.55%/77.45%를 달성하여 3억 개 파라미터의 교사 모델(73.84%/72.92%)을 능가한다. TR-MTEB(26개 과제)에서는 평균 63.9%의 점수(26개 모델 중 7위)를 기록하여 교사보다 33% 적은 파라미터로 경쟁력 있는 비용 대비 성능을 제공한다. 재현성 및 다운스트림 사용을 용이하게 하기 위해 모델 가중치, 토크나이저 파일, 사전 계산된 임베딩 데이터셋 및 오픈소스 복제·증류 도구 등 모든 아티팩트가 공개된다.
코드를 통한 절차적 3D 모델링은 결정론적이고 엔진에 바로 적용 가능하며 정밀하게 편집 가능한 자산을 제공하는 다재다능한 패러다임으로 부상하고 있으며, 이는 신경망 기반 3D 생성기가 본질적으로 결여한 특성이다. 그러나 이러한 절차적 콘텐츠를 제작하려면 3D 소프트웨어 API, 파라메트릭 디자인, 코드 수준의 기하학적 추론에 대한 깊은 전문성이 요구된다. 본 논문에서는 3D 모델링 소프트웨어에서 절차적 3D 생성을 위한 비전-언어 모델(VLM) 에이전트를 평가하는 체계적인 벤치마크인 3DCodeBench를 제안한다. 구체적으로, 3DCodeBench는 텍스트 및 이미지 참조를 3D 모델링 소프트웨어용 절차적 코드로 변환함으로써 12개의 고급 VLM이 절차적 3D 모델러로서 얼마나 효과적으로 기능할 수 있는지 평가한다. 자동화된 지표가 3D 형상의 지각적 품질을 완전히 포착하지 못할 수 있음을 인식하여, 생성된 3D 출력에 대한 쌍대 인간 선호도 기반 순위 플랫폼인 3DCodeArena를 구축한다. 광범위한 평가와 결과를 통해 다음과 같은 관찰을 얻었다: (1) 실패는 주로 API 불일치에서 발생하며, 성공적인 렌더링의 경우에도 분리되거나 떠 있는 3D 기하학적 구성 요소가 여전히 문제가 된다. (2) 더 높은 사고 예산 및 다중 턴 개선과 같은 테스트 시간 스케일링은 전반적으로 성능을 향상시킨다. 이러한 발견은 상용 VLM을 발전시키기 위해 고품질의 절차적 코딩 데이터가 절실히 필요함을 강조한다. 또한, 효과적인 절차적 3D 모델링을 위해서는 반복적 개선을 위한 고충실도 피드백을 제공하는 강건한 실행 환경이 필요하다. 우리는 선별된 대규모 멀티모달(텍스트/이미지) 프롬프트 데이터셋, 절차적 코드, 3D 객체 삼중항, 평가 프로토콜, 공개 3DCodeArena 플랫폼을 포함한 3DCodeBench를 VLM 기반 절차적 3D 모델러 탐색을 위한 기초 도구 키트로서 공개한다.
실제 응용에서 10만 개 이상의 토큰을 입력으로 처리해야 하는 요구가 증가함에 따라, 컨텍스트 길이와 추론 효율성 간의 격차는 중요한 병목으로 부상하고 있다. 컨텍스트 압축은 작업 정확도를 유지하면서 프리필 비용을 줄이는 방법을 제공한다. 그러나 기존의 훈련 없는 어텐션 기반 방법들은 코드 추론과 같은 까다로운 장문 컨텍스트 작업에서 상당한 격차를 남긴다. 본 논문에서는 LongAttnComp를 제안한다. 이는 AttnComp를 장문 컨텍스트에 맞게 변형한 것으로, 경량의 교차 어텐션 점수 계산 층을 미세 조정하고, 토큰 수준 청킹, 토큰 예산 기반 top-p 알고리즘, 위치 재배열, 형식에 구애받지 않는 질의 파서를 도입한다. 또한 압축기를 위한 2단계 미세 조정 방법을 설계한다: 1단계는 NIAH 스타일 데이터로부터 일반적인 검색 기반을 구축하고, 2단계는 다중 홉 및 추론 데이터를 추가하여 더 넓은 장문 컨텍스트 작업 범위를 확장한다. InfiniteBench Code-Debug에서 LongAttnComp는 전체 컨텍스트 정확도에 필적하거나 이를 초과하며, 훈련 없는 기준선을 크게 능가하고, 세 가지 모델 패밀리의 네 가지 대상 모델에 걸쳐 전이된다. LongBench v2에서는 2단계 방법이 Code-Debug 성능을 유지하면서 다중 문서 추론에서 1단계의 격차를 대부분 해소한다.
본 논문은 3D 메시를 다중모달 대규모 언어 모델(MLLM) 내에서 고유한 양식(native modality)으로 통합하는 과제를 다룬다. 확산 기반 대규모 재구성 모델은 의미적 이해와 기하학적 추론을 분리하여, 조밀한 2D 픽셀 사전 정보에 기반한 상태 비의존적 재구성기(stateless reconstructor)로 작동한다. 최근 MLLM 기반 방법들은 3D 양식을 다중모달 시퀀스의 고유 구성 요소가 아닌 외부 출력으로 취급하며, 기하학적 다양체가 MLLM 특징 공간과 어떻게 정렬되는지에 대한 체계적 분석 없이 점진적 적응만을 수행한다. 본 연구는 MLLM의 양식 경계를 확장하여 3D 메시 이해, 생성, 및 맥락 인식 편집을 고유하게 통합하는 통합 프레임워크인 EVA01을 소개한다. 변환기 혼합(MoT) 아키텍처를 기반으로 구축된 EVA01은 모델을 사전 훈련된 이해 전문가(E_{und})와 구조적으로 대칭된 생성 전문가(E_{gen})로 분리하며, 하드 양식 라우팅(hard modality routing)이 적용된 공유 전역 자기 주의(self-attention)를 통해 이들을 결합한다. 이러한 설계는 MLLM 백본의 의미적 잠재 공간을 기하학적 다양체와 정렬시켜, 중간 2D 표현 없이 다중모달 사전 정보의 직접적인 전이를 가능하게 한다. 실험 결과, EVA01은 최첨단 고유 텍스트-3D 생성 충실도를 달성하고, 정체성 보존이 가능한 강건한 장문맥 다중 턴 기하학적 편집을 가능하게 하는데, 이는 상태 비의존적 재구성 파이프라인에서는 근본적으로 접근 불가능한 기능이다. 본 연구의 발견은 2D 기반 모델을 3D 작업에 통합하기 위한 아키텍처적 통찰을 제공하며, 3D 고유 다중모달 시스템 설계에 기여한다. 프로젝트 페이지: https://www.seeles.ai/research/pages/EVA01
학술 연구진은 신뢰할 수 있는 출처로부터 고품질 정보를 수집하기 위한 효율적이고 신뢰할 수 있는 방법을 필요로 하지만, 현대의 AI 지원 연구 도구는 대규모 언어 모델(LLM)이 사실적으로 부정확하거나 무의미한 출력을 생성하는 경향, 즉 일반적으로 환각이라고 불리는 문제를 여전히 겪고 있다. 우리는 추출적 질의응답 시스템인 VerbatimRAG를 ACL 앤솔로지의 연구 논문에 적용하여, 사용자 질의를 검색된 문서 내의 그대로의 텍스트 범위로 직접 매핑한다. 우리는 연구 논문에서 사용자 질의를 관련 텍스트 범위로 매핑하는 작업을 위한 새로운 정답 데이터셋을 구축하고, 이를 사용하여 다양한 추출 모델을 훈련하고 평가한다. 인간 주석은 NLP 연구자에 의해 수행되며, ScIRGen 방법론에 기반한 맞춤형 파이프라인을 사용하여 생성된 합성 사용자 질의와 VerbatimRAG가 검색한 연구 논문 청크를 쌍으로 사용한다. 이 벤치마크에서, 우리 파이프라인의 은색 지도를 통해 훈련된 1억 5천만 파라미터 ModernBERT 토큰 분류기가 최고의 단어 수준 F1 점수(53.6)를 달성하여, 평가된 가장 강력한 LLM 추출기(48.7)를 앞질렀다.
SwiGLU는 현대 트랜스포머 MLP에서 표준 게이티드 활성화 함수가 되었지만, 그 게이트 예리도(gate sharpness), 즉 게이팅 함수의 부드러움과 선택성은 일반적으로 훈련 과정 전반에 걸쳐 고정되어 있다. 본 연구에서는 혼합 전문가(MoE) 모델을 위한 SwiGLU의 변형인 Confidence-Aware SwiGLU (κ-SwiGLU)를 제안하며, 이는 토큰 수준의 라우팅 신뢰도에 따라 전문가 게이트 예리도를 조정한다. 구체적으로, κ-SwiGLU는 SiLU 게이트 예리도 계수를 라우터 로짓의 학습 가능한 함수로 매개변수화하여, 각 전문가 게이트 유닛이 부드럽고 광범위하게 활성화되는 게이팅과 날카롭고 선택적인 게이팅 사이를 보간할 수 있도록 한다. 우리는 κ-SwiGLU를 8층에서 28층까지의 MoE 트랜스포머 모델에 대해 FineWeb-Edu 데이터셋에서 평가했다. 이러한 설정 전반에 걸쳐 κ-SwiGLU는 무시할 수 있는 수준의 매개변수만 추가하고 약간의 계산 오버헤드만 발생시키면서 평균 CORE 성능을 향상시켜, 신뢰도 인식 게이트 예리도가 MoE MLP를 개선하는 유망한 메커니즘임을 보여준다. 코드는 https://github.com/askerlee/kappa-swiglu에서 확인할 수 있다.
심층 연구 에이전트(Deep Research Agents)는 다단계 정보 검색, 추론 및 장문 보고서 생성에서 강력한 성능을 보여주었지만, 기존의 벤치마크와 시스템은 대부분 텍스트 중심으로 남아 있어 시각적 요소가 사실적으로 신뢰할 수 있고 주변 분석과 잘 정렬되어 있는지에 대한 평가는 제한적이었다. 이러한 격차를 해소하기 위해, 우리는 TVIR(Text–Visual Interleaved Report Generation, 텍스트-시각 혼용 보고서 생성)을 소개한다. TVIR은 TVIR-벤치(TVIR-Bench)와 TVIR-에이전트(TVIR-Agent)를 포함한다. TVIR-벤치는 특정 분석적 하위 목표를 위해 시각적 요소를 필요로 하는 100개의 전문가 선별 다중 모드 심층 연구 과제로 구성된 벤치마크이며, TVIR-에이전트는 개요 작성, 이미지 검색, 출처 추적이 가능한 차트 생성, 그리고 문맥 인식 순차적 작성을 통한 보고서 작성을 위한 강력한 기준선 역할을 하는 계층적 다중 에이전트 프레임워크이다. 또한, 우리는 텍스트 평가(Textual Assessment)와 시각 평가(Visual Assessment)를 결합한 이중 경로 평가 프레임워크를 개발하였다. 9개의 심층 연구 시스템에 걸친 실험 결과, TVIR-에이전트는 전반적으로 강력한 성능을 보여주었으며, 이는 증거 기반 보고서 생성을 위해 명시적인 다중 모드 설계와 평가의 중요성을 강조한다.
실질적인 실세계 지원을 위해서는 AI 에이전트가 강력한 마음이론(ToM: Theory of Mind)을 갖추어야 한다. 즉, 행동으로부터 인간의 정신 상태를 추론하는 능력이다. 최근의 진전에도 불구하고, (1) 다중 가설에 대한 강건한 불확실성 업데이트를 포함한 온라인 추론, (2) 실시간 지원에 적합한 효율적 추론, (3) 실세계 도메인에서의 정답 정신 상태 주석 부재 등 몇 가지 주요 과제가 여전히 남아 있다. 우리는 이러한 과제를 해결하기 위해 MindZero를 제안한다. 이는 다중모달 대규모 언어 모델(MLLM)을 훈련시켜 효율적이고 강건한 온라인 정신 추론을 가능하게 하는 자기 지도 강화 학습 프레임워크이다. 훈련 중 모델은 계획자가 추정한 관찰된 행동의 가능도를 최대화하는 정신 상태 가설을 생성할 때 보상을 받으며, 이는 모델 기반 ToM 추론과 유사하다. 따라서 이 방법은 명시적인 정신 상태 주석의 필요성을 없앤다. 훈련 후 MindZero는 모델 기반 추론을 빠른 단일 패스 추론으로 내재화한다. 우리는 격자 세계(gridworld) 및 가정 환경에서의 까다로운 정신 추론 및 AI 지원 과제를 통해 MindZero를 기준선들과 비교 평가했다. LLM만으로는 불충분하며, 모델 기반 방법은 정확도를 향상시키지만 느리고 비용이 많이 들며 백본 MLLM의 용량에 의해 제한된다는 것을 발견했다. 이와 대조적으로 MindZero는 MLLM의 내재적 ToM 능력을 향상시키고 정확도와 효율성 모두에서 모델 기반 방법을 크게 능가하며, 정신 추론이 자기 지도 학습 기술로 효과적으로 학습될 수 있음을 보여준다.
텍스트-이미지(T2I) 모델의 급속한 발전에도 불구하고, 속성 결합, 객체 관계, 개수 세기 등을 포함한 복잡한 구성적 프롬프트를 정확히 반영하는 이미지를 생성하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해, 우리는 BiDPO를 제안합니다. 이 프레임워크는 T2I 모델의 구성적 텍스트-이미지 생성 능력을 향상시킵니다. 먼저, 엄격한 품질 관리를 통해 대규모 선호도 데이터셋인 BiComp를 구축하기 위해 신중하게 설계된 파이프라인을 소개합니다. 그런 다음, Diffusion DPO를 확장하여 이미지와 텍스트 선호도를 공동 최적화합니다. 이는 모델이 생성 시 복잡한 텍스트 프롬프트를 따르도록 개선하는 데 매우 효과적인 것으로 나타났습니다. 세밀한 정렬을 위해 모델을 더욱 향상시키기 위해, 우리는 구성적 개념과 관련된 영역에 집중하는 영역 수준 안내 방법을 사용합니다. 실험 결과는 우리의 BiDPO가 구성적 충실도를 크게 향상시키며, 여러 벤치마크에서 일관되게 이전 방법들을 능가함을 보여줍니다. 우리의 접근 방식은 복잡한 텍스트-이미지 작업에 대한 선호도 기반 미세 조정의 잠재력을 강조하며, 기존 기술에 대한 유연하고 확장 가능한 대안을 제공합니다.
비디오 세계 모델(World Models, WMs)은 자아 로봇의 행동에 조건화된 미래 관측치를 사실적으로 상상함으로써 정책 평가 및 개선에 유망한 접근법을 보여주었다. WMs는 미래에 대한 분포를 모델링할 수 있지만, 정책 평가와 개선은 일반적으로 명목적 상상에 의존하며, 이는 지나치게 많은 샘플을 추출하지 않는 한 로봇 행동의 영향력이 큰 결과를 놓칠 수 있다. WM 상상을 통한 강건한 정책 평가 및 개선을 가능하게 하기 위해, 우리는 StressDream을 제안한다. 이는 추론 시점에 텍스트로 지정된 높은 영향력을 가지면서도 개연성 있는 결과로 상상을 유도하며, 확산 기반 WM의 초기 잡음을 최적화한다. 그러나 고차원 잡음의 최적화는 까다롭다. 최적화는 생성된 비디오에서 미묘하고 장면 의존적인 대상 이벤트를 추론해야 하며, 동시에 개연성 없는 상상을 초래하는 분포 외(Out-of-Distribution, OOD) 잡음을 피해야 한다. 우리는 이를 두 가지 상호 보완적인 목표로 해결한다: 생성된 비디오를 추론하여 정보성 있는 그래디언트를 제공하는 비전-언어 모델(Vision-Language Model)을 활용한 의미론적 목표와, 최적화된 잡음이 OOD로 표류하는 것을 방지하는 개연성 목표이다. 자율 주행 및 로봇 조작을 위한 최첨단 비디오 세계 모델을 사용하여, StressDream이 추론 시점에 텍스트로 지정된 높은 영향력이면서도 개연성 있는 결과(예: 작업 실패)로 상상을 효과적으로 유도하며, 바람직하지 않은 결과를 포함한 개연성 있는 미래를 가진 행동을 식별함으로써 강건한 정책 평가 및 개선을 가능하게 함을 보여준다. 비디오 결과는 https://junwon.me/StressDream/에서 확인할 수 있다.
우리는 다양한 아키텍처와 다양한 업스트림 및 다운스트림 작업에 속한 각 작업에 대해, 여러 차원(즉, 모델 파라미터 수, 훈련 데이터셋 크기, 훈련 단계 수, 추론 단계 수, 연산량 및 다양한 하이퍼파라미터)이 동시에 모두 변할 때 관심 있는 평가 지표가 어떻게 변하는지 정확하게 모델링하고 외삽하는 함수 형태(통합 신경망 스케일링 법칙(UNSL)이라고 함)를 제시한다. 이 세트에는 대규모 비전, 언어, 수학 및 강화 학습이 포함된다. 다른 신경망 스케일링 함수 형태와 비교할 때, 이 함수 형태는 이 세트에서 스케일링 행동의 외삽을 상당히 더 정확하게 제공한다.
예측 물리 AI 시스템은 상태 롤아웃(state rollout), 액션 청크(action chunk), 잠재 계획(latent plan)을 출력하지만, 낮은 평균 제곱근 오차(RMSE)가 특정 제안이 물리적으로 실행 가능함을 의미하지는 않는다. 우리는 물리적 허용 가능성(physical admissibility)을 예측-제어 인터페이스로 정식화한다: 실행 전에, 디코딩된 제안은 후보 동역학(candidate dynamics)으로 취급되며 운동학적(kinematic), 동역학적(dynamic), 그리고 직접-구성된 수평선(direct-to-composed horizon) 조건을 사용하여 평가된다. 통과는 작업 성공의 인증서가 아니다; 거부는 지정된 물리적 범위(physical envelope)의 위반을 식별하고 구성 요소 수준의 이유를 제공한다. Hugging Face LeRobot PushT에서 통제된 반증(controlled falsification)은 단일 단계 예측-RMSE와 표준화된 동역학 잔차가 수신자 조작 특성 곡선 아래 면적(AUC) 0.982 및 0.972에 도달하고, 운동학적 조건만으로는 AUC 0.592에 도달하며, 전체 게이트는 조건 수준 속성(condition-level attribution)과 함께 AUC 0.957에 도달함을 보여준다. 재생 기반 개입 실험(replay-based intervention experiments)에서, 잔차 기반 필터(residual-based filters)와 전체 물리적 허용 가능성 게이트는 평균 진행도를 0.998 근처로 유지하면서 87-89%의 유효하지 않은 제안을 방지한다.
대규모 언어 모델은 명시적 추론 토큰의 긴 사슬을 생성하여 복잡한 문제를 해결합니다. 효과적이지만, 이로 인해 추론 비용이 높아지고 길이에 민감해지며 (이산적) 자연어로 제한됩니다. 잠재 추론은 연속적 대안을 제공하지만, 중간 잠재 상태에 유용한 구조를 결정하는 것은 여전히 해결되지 않은 과제입니다. 본 논문에서는 모델의 사전 훈련된 토큰 임베딩 공간 내에서 잠재 추론을 기하학적 경로 근사 문제로 정식화합니다. 우리는 경량 전이 헤드를 사용하여 임베딩 공간에서 반복적 방향 업데이트를 예측하는 기하학적 잠재 추론(Geometric Latent Reasoning, GLR)을 소개합니다. GLR은 텍스트 기반 사고 사슬 추적을 앵커로 활용하여, 정확한 토큰 임베딩으로부터의 연속적 편차를 허용하면서 이산적 추론 궤적을 근사하는 방법을 학습합니다. Qwen3 모델을 사용한 수학적 추론 벤치마크 평가는 흥미로운 창발 현상을 보여줍니다. 기하학적 잠재 추론은 명시적 길이 목표 없이도 생성 길이를 현저히 단축시킵니다. 초기 명시적 추론을 연속적 잠재 단계로 대체함으로써, 모델은 전체 생성 단계를 훨씬 적게 사용하여 정답에 도달하는 경우가 많습니다. 이러한 발견은 연속적 궤적이 간결한 중간 추론 상태로 작용하여 잠재 계산 예산, 출력 길이 및 정확도 사이의 새로운 상충 관계를 드러냄을 시사합니다.
차트는 정량적 및 관계적 정보를 전달하는 주요 매체이지만, 차트 파싱 모델을 체계적으로 평가하는 것은 여전히 어렵다. 기존 벤치마크는 제한된 차트 유형에 초점을 맞추며 순서도와 마인드맵과 같은 다이어그램 구조는 대부분 다루지 않고, 모델들은 호환되지 않는 형식으로 출력을 생성하며, 데이터셋은 실제 환경에서 접하는 인쇄물이나 손그림 이미지를 거의 포함하지 않는다. 이러한 문제를 해결하기 위해, 우리는 수치형 차트와 다이어그램 구조를 모두 포함하는 8개 차트 계열을 포괄하는 이중 언어 벤치마크인 ChartArena를 소개한다. 각 계열은 디지털 렌더링, 인쇄 사진, 손그림 사진의 세 가지 시각적 시나리오에 걸쳐 평가된다. 데이터셋은 주석 신뢰성을 보장하기 위해 다단계 인간 검증을 거친 인간-에이전트 협업 주석 파이프라인을 통해 구축된다. 또한, 공정한 교차 모델 비교를 위해, 우리는 이질적인 출력을 정규화된 삼중 뷰(Normalized Triple View)와 방향 그래프 뷰(Directed Graph View)라는 두 가지 표준 의미 공간으로 매핑하고 구조 인식 메트릭으로 점수를 매기는 형식에 구애받지 않는 평가 프로토콜을 설계한다. 26개의 선도적인 MLLM에 대한 광범위한 평가를 통해, 우리는 세 가지 일관된 결과를 관찰했다: (i) Gemini 3.1 Pro와 같은 최첨단 독점 모델이 전반적으로 선두를 차지하지만, 가장 강력한 오픈소스 시스템이 빠르게 격차를 좁히고 있다; (ii) 문서 파싱 모델은 수치형 차트를 합리적으로 처리하지만 다이어그램 구조에서는 크게 뒤처진다; (iii) 전문 차트 파서는 여전히 좁은 차트 계열에 국한된다. 모든 모델에서 레이더 차트와 손그림 시나리오는 특히 어려운 과제로 남아 있다. 이러한 결과는 ChartArena가 명확한 능력 격차를 드러내고 향후 발전을 위한 통일된 기반을 제공함을 보여준다. ChartArena는 https://github.com/pspdada/ChartArena에서 공개적으로 이용 가능하다.
역그래픽스는 오래된 문제이며 매우 제약 조건이 부족한 문제로, 렌더링, 재조명, 조작이 가능한 편집 가능한 3D 장면으로 이미지를 재구성하는 것을 목표로 한다. 본 연구에서는 사전 학습된 시각-언어 모델(VLM)이 특수 목적의 2D 또는 3D 기반 모델, 미분 가능 렌더링, 다중 시점 감독 없이도 단일 이미지로부터 직접 편집 가능한 블렌더 프로그램으로 장면을 재구성함으로써 실행 가능한 역그래픽스를 수행할 수 있는지 조사한다. 우리는 단일 이미지로부터 3D 장면을 재구성하기 위해 기하학, 재질, 구성, 조명을 포함한 장면 요소를 실행 가능한 블렌더 코드 공간에서 점진적으로 정제하는 에이전트 기반 프레임워크인 단계적 실행 가능 역그래픽스(SEIG)를 소개한다. 우리는 다양한 장면에 걸쳐 픽셀 수준, 지각적, 의미론적 충실도를 포괄하는 여러 재구성 지표를 사용하여 프레임워크를 평가한다. 실험 결과, 단계적 재구성이 재구성 충실도를 크게 향상시켜, 범용 VLM을 사용한 실행 가능 역그래픽스에서 작업 분해의 중요성을 강조한다. 마지막으로, 재구성된 편집 가능한 블렌더 장면을 통해 가능해진 다양한 다운스트림 응용 사례를 제시한다.
우리는 Lean 4 증명 보조기 위에 Mathlib와 BrownianMotion 패키지를 기반으로 구축된 수리 금융 라이브러리를 설명한다. 이 라이브러리는 광범위하다: 연속시간 확률미적분학의 측도론적 기초부터 파생상품 가격결정, 응용 위험, 포트폴리오 및 고정수익 이론에 이르기까지 열한 개 영역에 걸쳐 200개 이상의 'sorry'가 없는 정리를 포함하며, 우리가 아는 한 지금까지 가장 포괄적인 기계 검증된 수리 금융 개발이다. 광범위함은 배경일 뿐, 핵심이 아니다. 두 가지 점이 이 라이브러리를 단순한 목록 이상으로 만든다. 첫째, 연속 이론 깊숙이 들어가 L2 이토 적분을 유계 선형 등거리사상으로 구성하고, 위험중립 가격측도를 가정하는 대신 유도한다. 둘째, 자신의 충실성을 감사한다: 모든 결과는 그 Lean 명제가 주장하는 수학과 어떤 관계에 있는지에 따라 분류되며, 빌드로 강제된 게이트가 각 증명이 실제로 사용하는 공리를 고정하므로, 독자는 정확히 무엇이 증명되었고 무엇이 추가 가설 하에서만 증명되었는지를 명확히 볼 수 있다. 우리는 솔직한 소견으로 마무리한다: 고전적 수리 금융 위의 형식적 기초는 새로운 금융 이론보다는 알려진 결과들의 인증된 통일을 제공한다. 따라서 기여는 방법론적이고 인프라적이며, 충실성 감사와 함께 수리 금융을 위한 재사용 가능한 검증된 기초를 제공한다.
본 논문은 변형 가능한 초탄성 객체의 메쉬 없는 차수 축소 시뮬레이션을 위한 새로운 정식화를 제시한다. 기존의 차수 축소 탄성동역학 시뮬레이션 연구는 입력 형상을 메쉬 또는 신경망 필드로 표현하는데, 메쉬의 경우 복잡한 형상의 스캐닝 및 삼각분할 과정에서 어려움이 따르고, 신경망 필드는 형상별 최적화가 필요하다. 본 연구는 재생 커널 입자법(RKPM) 표현을 채택하여, 탄성 에너지의 헤세 행렬에 대한 일반화된 고유계를 풀어 차수 축소 스키닝 가중치를 구성할 수 있도록 한다. 이러한 정식화는 신경망 필드의 형상별 최적화와 비교하여 학습 속도가 40배 향상될 뿐만 아니라, 유한 요소법의 수렴 결과와 비교하여 더 낮은 시뮬레이션 오차를 달성함을 입증한다. 또한 메쉬와 가우시안 스플랫을 포함한 다양한 표현의 객체에 대한 시뮬레이션 결과와 로봇 시뮬레이션 하위 작업에 대한 응용을 보여준다.
대규모 다국어 바이트텍스트는 흔히 비병렬 문장 쌍과 저품질 번역이라는 두 가지 뚜렷한 문제를 포함한다. 우리는 이러한 데이터에 대한 모델 기반 평가를 다국어 임베딩을 활용한 병렬성 평가와 참조 없는 품질 추정(QE)이라는 두 가지 독립적인 요소로 분해한다. 병렬성 평가를 위해, 우리는 FLORES-200 및 BOUQuET 검색 작업에서 네 가지 임베딩 모델을 벤치마킹하며, 이는 우리의 대상 언어쌍 목록에서 6,654개의 원본-대상 방향을 포괄한다. QE의 경우, 우리는 41,412개의 정렬된 원본-대상 방향에 걸쳐 전문 FLORES-200 번역에서 아홉 가지 참조 없는 평가자를 평가한다. 결과는 어떤 모델도 모든 번역 방향에서 보편적으로 신뢰할 수 없음을 보여준다. 단순한 QE 앙상블은 강력한 모델 신호를 희석시키는 반면, 문서화된 대상 언어 적용 범위는 더 높은 QE 점수와 강한 연관성을 보인다. 전반적으로, 이러한 발견은 다국어 병렬 데이터 평가가 방향 인식 라우팅 및 보정 문제로 접근하는 것이 가장 바람직하며, 하나의 보편적 지표가 모든 언어에 충분할 것으로 기대되지 않음을 시사한다.
추론 모델은 단일 턴 벤치마크에서 평가되지만 다중 턴 대화 환경에 배포되며, 이 환경에서 사용자는 정답에 대해 반박을 가한다. 지속적인 적대적 압력 하에서 우리는 이전에 문서화되지 않은 실패 모드를 발견한다: 체인 오브 소트(사고 과정)는 첫 번째 턴부터 마지막 턴까지 사실적으로 정확하지만 출력된 답변은 잘못된 것으로 바뀐다. 이를 불충실한 항복(UC)이라 명명하고, 전환율 지표와 단일 턴 신뢰성 프로브가 모두 포착하지 못하는 2×2 잠재 대 행동 프레임워크로 이를 분리한다. 세 가지 데이터셋(MT-Consistency, MMLU-Pro, GSM8K)에서 행동 전환 시점의 잠재 정답률은 think 모드에서 약 50%에 군집하고 no_think 모드에서는 11-15%로 붕괴한다. 이는 짝을 이룬 모델 내 인과적 증거로, 추론이 그 격차를 만들어냄을 보여준다. 모델 간 효과는 추론 채널을 따라 추적된다(Qwen3-32B 및 GPT-OSS-20B에서는 높고, 인라인 CoT Gemma-4-31B-it에서는 낮음). 독립적인 GPT-4o 판별기는 UC 레이블의 86%를 확인하며, 토큰 수준 프로브는 답변 슬롯의 argmax가 UC 셀의 84%에서 정확함을 보여준다. 단순한 추적 기반 방어는 역효과를 낸다. 우리는 모든 궤적, 추적 및 판별기 레이블을 공개한다.
검색 증강 생성(RAG) 시스템이 다중 저자 기관 말뭉치 상에 배포될 경우, 검색하는 출처에 따라 동일한 질문에 대해 서로 다른 답변을 제공할 수 있다. 이는 지배적인 단일 정답 패러다임이 진단할 수 없는 실패 모드이다. 우리는 출처 의존성이 NLP 평가의 누락된 축이며, 이를 감사한다는 것은 평가 단위를 답변 정확성에서 출처 간 관계로 전환하는 것을 의미한다고 주장한다. 우리는 이를 이식 환자 교육에서 구체화하는데, 여기서 기관 출처들은 명백히 상충한다. 세 가지 인공물을 공개한다: TransplantQA는 실제 환자 질문의 벤치마크로, 각 질문은 후보 출처로서 여러 기관 핸드북에 생성 과정을 근거하여 답변된다; HERO-QA는 각 답변을 근거화하고 감사하는 계층적 검색 전략이다; 그리고 검증된 5-레이블 분류체계로 출처 간 관계를 평가하는 구조화된 출력 판정기이다. 대규모로 볼 때, 더 나은 검색은 이전 추정치가 시사한 것보다 훨씬 더 많은 불일치를 드러내며, 그 강도가 아닌 보급률을 과소평가한다. 이 프레임워크는 도메인에 구애받지 않으며 법률 및 교육용 RAG로 전이된다: 출처 의존성을 측정하는 것은 일반적으로 배포된 다중 출처 NLP에 대한 책임이다.
LLM이 생성한 과학 논문 리뷰는 상당한 주목을 받고 있으며, 주요 학술대회에서 공식적으로 시범 운영되기까지 하고 있습니다. 우리는 리뷰어가 LLM 도움을 받을 뿐만 아니라, 저자들도 논문 제출 전에 LLM을 사용하여 수정할 것이라고 가정해야 합니다. 본 연구에서는 2025 ACL Rolling Review (ARR) 논문을 대상으로 저자와 리뷰어 관점에서 LLM 리뷰를 평가하는 실증적 실험을 수행합니다. 첫째, LLM 리뷰와 인간 리뷰 간의 제한된 정합성을 확인했습니다. 최상의 시나리오에서는 정합성이 합리적이었습니다. 그러나 LLM-인간 정합성은 프롬프트와 모델에 따라 상당히 달라진다는 점도 발견했습니다. 마지막으로, 저자가 LLM 리뷰에 따라 초안-수정 워크플로를 반복적으로 적용하여 제출물을 개선하는 시나리오를 조사했습니다. 이러한 LLM 리뷰 "공략(gaming)"은 특정 시나리오에서 효과적일 수 있으며, 최대 35%의 논문에서 전체 점수가 통계적으로 유의미하게 증가하는 결과를 보였습니다. 코드를 공개합니다: https://github.com/uhh-hcds/reviewarcade.
AI 시스템은 오류가 있으며, 인간은 자신의 판단보다 AI를 신뢰할지 결정하는 데 실수를 할 수 있습니다. 따라서 인간-AI 협업을 개선하려면 인간이 AI에 의존하기로 결정하는 시기, 이유 및 방식을 이해해야 합니다. 우리는 두 가지 서로 다른 의존 결정을 연구합니다: 위임 선택(출력을 알지 못한 상태에서 AI가 자율적으로 행동하도록 허용할 시기를 결정)과 수용 선택(AI 제안을 평가하고 이를 어떻게 활용할지 결정)입니다. 이 두 가지 분리된 의존 패턴은 협업을 형성하지만, 기존 연구에서는 동일한 사용자를 대상으로 현실적인 환경에서 이들을 함께 연구하는 경우가 드뭅니다. 우리는 인간이 AI 에이전트와 언제, 어떻게 협력하여 승리할지 선택할 수 있는 질문 응답 게임에서 경쟁하는 인간-AI 협업 팀을 연구함으로써 이러한 격차를 해소합니다. 우리의 24개 매치는 23명의 전문가와 16개의 AI 에이전트를 짝지어 387개의 위임 결정과 1440개의 수용 결정을 포착했습니다. 인간-AI 협업은 AI 단독 또는 인간 단독보다 더 나은 성과를 보이지만, 인간은 최적이 아닌 협업 결정을 내리는데, 이는 올바른 AI 제안에 대한 과소 의존(기회의 3.9%를 놓침)과 AI가 오도할 때의 과잉 의존(1.7%)을 포함합니다. 양측 모두 잘못된 답변에 기여합니다: 인간과 AI가 의견이 다를 때 보고된 모델 신뢰도는 우연 수준에 가깝지만, AI 제안이 인간의 초기 오답과 일치할 때 확인 편향이 더 높은 과소 의존(64.5%)을 유발합니다. 이러한 격차를 해소하기 위해 우리는 보정된 신뢰도, 증거 기반 설명, 사용자가 신뢰를 개선하는 데 도움이 되는 메커니즘을 권장합니다.
본 논문에서는 신경망 학습이 정확히 해밀턴-야코비 초기값 문제에 대한 탐색으로 식별된다: 각 그래디언트 단계는 호프-콜 전파자가 관측치에 가장 잘 적합하는 점성 해밀턴-야코비 방정식의 초기 데이터를 선택하며, 추론 시 입력은 해당 해가 평가되는 공간적 지점이고 초기 조건은 이미 가중치에 인코딩되어 있다. 이러한 대응 관계는 로그-섬-익스프 계층에 대해 정확하며, 더 넓은 아키텍처(잔차 네트워크, 트랜스포머, 순환 아키텍처(RNN, LSTM, SSM))에 대해서는 구조적 일치를 보인다: 각각은 동일한 종류의 해밀턴-야코비 방정식을 이산화하며, 아키텍처에 의존하는 해밀토니안과 점성을 갖는다. 단일 변형 매개변수 ε은 네 가지 관점(네트워크, 열대 대수, 점성 편미분방정식, 볼록 최적화)을 립시츠 조건 하에서 폐쇄된 가환 다이어그램으로 통합한다. 양적 결과로는: 고정된 t에 대한 미니맥스 최적 일반화 속도 O(n^{-1/(d+2)}), ε에 의해 제어되는 적대적 강건성, 잔차 네트워크에 대한 해밀턴 시스템의 공-상태 방정식으로서의 역전파(폰트랴긴 최대 원리), PDE 구적법을 통한 데이터 내재 차원과 일관된 스케일링 지수, 그리고 폐쇄형 O(N) 영향 함수(소프트맥스 귀속 가중치 π_j)가 있으며, 이 함수의 엔트로피 경관은 ε이 증가함에 따라 접기 분기점을 겪으며 각 귀속 분지를 병합한다.
라틴어에서 로망스어로의 통시적 진화는 문법적 성 체계가 대부분의 로망스어에서 삼분 체계(남성, 여성, 중성)에서 이분 체계(남성, 여성)로 재구조화되는 과정을 수반했다. 본 연구에서는 어휘 및 맥락 수준에서 이 현상을 조사하기 위해 해석 가능한 딥러닝 프레임워크를 도입한다. 먼저, 기존 토큰화 전략이 이 저자원 역사적 환경에서 충분히 강건하지 않으며, 제안된 토크나이저가 이러한 기준 모델 대비 성능을 향상시킴을 보여준다. 어휘 수준에서는 형태적 특징이 성 예측에 기여하는 정도를 평가한다. 맥락 수준에서는 다양한 품사 범주가 문법적 성 예측에 기여하는 정도를 정량화한다. 이러한 분석들은 함께 표제어와 문장 맥락 간 성 정보의 분포를 특성화한다. 코드베이스, 데이터셋 및 결과는 https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}에서 공개적으로 이용 가능함을 밝힌다.
대규모 언어 모델(LLM)의 스케일링은 상당한 성능 향상을 가져왔지만 추론 효율성에 있어서는 큰 어려움을 초래했다. 전문가 혼합(MoE) 아키텍처는 모델 크기와 추론 비용을 분리함으로써 이 문제를 해결하지만, MoE를 처음부터 학습시키는 것은 종종 불안정하고 계산 집약적이다. 사전 학습된 밀집 모델을 희소 MoE로 변환하는 것이 대안적인 해결책으로 등장했지만, 기존 방법들은 일반적으로 피드포워드 네트워크(FFN)를 전문가로 분할하기 위해 휴리스틱 뉴런 클러스터링 또는 무작위 분할에 의존한다. 본 연구에서는 DOT-MoE라는 새로운 프레임워크를 제안하며, 이는 밀집 레이어의 분해를 미분 가능한 최적 수송(DOT) 문제로 공식화한다. 정적 휴리스틱 대신, 우리는 뉴런 할당을 균형 잡힌 수송 문제로 모델링하고, 미분 가능한 Sinkhorn-Knopp 반복을 활용하여 엄격한 전문가 용량 제약 조건을 적용한다. 또한, 직선 추정기(STE)를 사용하여 이산적인 뉴런-전문가 할당과 토큰-전문가 라우팅 정책을 종단 간(end-to-end)으로 공동 학습한다. 여러 아키텍처와 벤치마크에 걸친 광범위한 실험을 통해 DOT-MoE가 구조적 가지치기, 휴리스틱 클러스터링 및 무작위 분할 기준선을 크게 능가하며, 활성 파라미터를 50% 줄이면서 원래 밀집 모델 성능의 90%를 유지함을 입증한다.
발화 텍스트와 제스처 간의 공유 표현을 학습하는 것은 동시 발화 제스처 검색, 합성 및 이해의 핵심 과제이지만, 운동 자체만으로는 전달 의도가 포착되지 않는 의미론적 제스처의 경우 여전히 어려움을 겪고 있다. 대본과 연속적인 움직임 임베딩 간의 직접적인 대조 정렬은 종종 저수준 운동학을 과도하게 강조하고 의미론적 제스처의 상징적 내용을 놓친다. 본 연구에서는 신체적 형태와 전달 의도를 포착하는 제스처 움직임에 대한 자연어 추상화인 의미론적 움직임 앵커(semantic motion anchors)를 제안한다. 이 방법은 3D 제스처를 신체-손 움직임 프리미티브로 이산화하고, 이를 구조화된 설명으로 언어화하며, 대본에 근거시켜 보조 대조적 지도 신호를 제공한다. BEAT2 데이터셋에서, 본 방법은 직접적인 텍스트-움직임 기준선 대비 텍스트-제스처 R@1을 8.2% 향상시켰으며, 텍스트-제스처 및 제스처-텍스트 검색 방향에서 기존 검색 접근법보다 우수한 성능을 보였다. 전체 검색 지표를 넘어, 의미론적 움직임 앵커 지도는 일반적인 움직임 패턴에 의존하는 대신, 음성 질의에 대해 의미론적으로 적절한 제스처를 검색하는 데 도움을 준다. 하위 단계인 검색 증강 제스처 생성 연구에서는 사용자들이 검색 증강 생성 기준선보다 본 접근법으로 검색된 제스처를 유의미하게 선호하였으며, 이는 의미적으로 근거한 검색이 하위 생성 과정에서 전달 의도를 더 잘 반영하는 제스처로 이어짐을 보여준다.
인간 주석은 데이터셋 구축부터 모델 평가에 이르기까지 많은 NLP 연구의 경험적 기반이지만, 논문에서는 주석을 생산한 사람과 주석 과정이 어떻게 통제되었는지 불분명하게 남겨두는 경우가 많다. 우리는 주요 NLP 학회 전반에 걸쳐 인간 주석 보고에 대한 최초의 대규모 작업 수준 감사를 제공하며, 어떤 주석 세부 사항이 문서화되고, 어떤 것이 누락되었으며, 시간, 주제, 학회 및 인간 판단의 의도된 사용에 따라 보고가 어떻게 달라지는지 질문한다. 우리는 주석 보고 관행에 대한 통합 분류 체계를 도입하고, 41편의 논문과 72개의 주석 작업으로 구성된 인간 조정 금본위인 Annotated-gold에 대해 LLM 기반 추출 파이프라인을 검증한다. 여기서 최고 모델은 조정된 레이블과 인간과 유사한 일치도를 보였으며, Krippendorff의 알파는 인간 간 일치도 0.585 대비 0.606이었다. 이 파이프라인을 사용하여 우리는 2018-2025년 ACL 학회 논문을 포괄하는 데이터셋인 Annotated-llm을 구축하였으며, 1,603편의 논문에서 2,667개의 추출된 주석 작업을 포함한다. 그리고 논문이 모집 전략, 주석자 전문성, 주석 규모와 같은 운영 세부 사항은 자주 보고하지만, 교육, 언어 능숙도, 보상, 사회인구학적 특성, 조정, 일치도 값 등 주석 타당성을 평가하는 데 필요한 세부 사항은, 특히 모델 평가 연구에서 자주 누락함을 발견했다. 우리의 결과는 NLP에서 주석 보고가 시간이 지남에 따라 개선되었지만 여전히 고르지 않음을 보여주며, 인간 주석을 보다 신뢰 가능하고, 재현 가능하며, 해석 가능하게 만들기 위한 확장 가능한 프레임워크와 최소한의 보고 권장 사항을 제시한다.
로봇 조작은 물리적 실행 전에 미래 결과를 예측하고 평가하면서 실행 가능한 행동을 생성하는 모델을 필요로 한다. 본 논문에서는 단일 미래 예측 프레임워크 내에서 정책 학습, 비디오 예측, 행동 평가를 통합하는 통합 비디오-행동 월드 모델인 τ₀-World Model (τ₀-WM)을 제시한다. 공유 비디오 확산 백본을 기반으로 구축된 τ₀-WM은 두 가지 상호 보완적 인터페이스를 제공한다. 첫째, 비디오 행동 모델은 다중 뷰 관찰, 언어 명령, 로봇 상태로부터 미래 시각적 잠재 변수와 연속적 행동 청크를 함께 예측한다. 둘째, 행동 조건부 비디오 시뮬레이터는 후보 행동 청크를 다중 뷰 미래로 전개하고 밀집된 작업 진행 점수를 예측한다. 모델은 약 27,300시간의 실제 로봇 원격 조작, UMI 스타일 상호작용, 자기 중심 인간 비디오, 롤아웃 또는 실패 궤적을 포함한 데이터에 대해 양식별 감독 마스크를 사용하여 훈련된다. 추론 시 τ₀-WM은 테스트 시간 계산을 사용하여 행동 후보를 샘플링하고, 재노이즈 제거 일관성으로 순위를 매기며, 저품질 후보에 대해 시뮬레이터 기반 보정을 호출한다. 도전적인 장기 지평 및 세밀한 로봇 조작 작업에서 τ₀-WM은 다른 관련 기준 모델보다 우수한 성능을 보인다.
AI가 생성한 텍스트 탐지 연구는 인간의 글과 AI의 글을 구별하기 위한 다양한 접근법을 제시해 왔으며, 그중 일부는 높은 분포 내 성능을 달성했습니다. 그러나 실제 적용 가능성은 정체되어 있는데, 이는 교수와 같은 사용자에게 설명이 첨부되지 않은 숫자 점수만 제시되는 등 출력 결과가 사용자의 요구와 일치하지 않기 때문입니다. 우리는 이 문제를 처음부터 설명 가능성을 내장한 새로운 아키텍처인 TELL로 해결합니다. 비교를 위해 다른 탐지기처럼 숫자 점수를 여전히 제공하지만, TELL은 근본적으로 다른 접근 방식을 취합니다. 즉, 모델이 텍스트를 AI 또는 인간이 작성했다고 판단하게 하는 '단서(tells)'를 사용자에게 보여줌으로써, 사용자가 글의 맥락과 추정된 저자에 대한 자신의 판단과 이해를 바탕으로 누가 글을 썼는지 결정할 수 있도록 하는 것입니다. 우리는 도메인 특화 저작자 주석이 포함된 맞춤형 SFT 데이터셋으로 TELL을 훈련시키고, 커리큘럼 학습을 적용한 GRPO를 사용하여 시스템을 추가로 정교화하여 성능을 향상시킵니다. 우리는 최신 탐지기와 경쟁력 있는 성능(AUROC 0.927)을 달성하면서도 탐지기 결정의 근거를 설명하는 주석을 기본적으로 제공합니다. 또한 인간 주석 데이터셋을 사용하여 설명의 품질을 평가한 결과, 주석의 구체성, 반증 가능성, 일관성, 타당성 및 근거에 대해 높은 승률(평균 72.3%)을 보고하며, 이를 통해 사용자가 비판적으로 생각하고 스스로 결정을 내릴 수 있도록 합니다. 따라서 우리의 연구는 AI 생성 텍스트 탐지 문제를 인간 중심의 관점으로 재구성하고, 본질적인 설명 가능성에 초점을 맞춘 새로운 탐지기 계열을 위한 길을 열어줍니다.