번역이 포함된 일일 선별된 AI 연구 논문
현대의 오픈월드 에이전트(예: OpenClaw)는 강력한 교차 환경 실행 능력을 보여주지만, 광범위한 새로운 보안 위험 소스를 도입합니다. 한편, 첨단 프론티어 AI 모델은 공격 장벽을 급격히 낮추어, 현재의 에이전트 정렬 프레임워크가 실제 배포에 부적합하게 만듭니다. 이러한 새로운 위협에 대응하기 위해, 우리는 가볍고 확장 가능한 에이전트 보안 정렬 프레임워크를 제안합니다. 구체적으로, Codex 및 OpenClaw 실행 시나리오에서 발생하는 새로운 위험을 수용하기 위해 에이전트 보안 분류 체계를 업데이트합니다. 또한, 영향 함수 정제를 활용한 분류 체계 기반 데이터 엔진을 구축하여 약 1k 샘플만으로 경량 AgentDoG 1.5 변종(0.8B, 2B, 4B, 8B 파라미터)을 훈련시키고, 선도적인 폐쇄형 모델(예: GPT-5.4)과 비교 가능한 성능을 달성합니다. AgentDoG 1.5를 기반으로, 고효율 에이전트 보안 SFT 및 RL 훈련 환경을 구축하여 Docker 수준 환경에서의 배포 오버헤드를 두 자릿수로 줄입니다. 마지막으로, AgentDoG 1.5를 훈련 없는 온라인 가드레일로 배포하여 실시간 보안 조정을 수행합니다. 광범위한 실험 결과는 AgentDoG 1.5가 다양하고 복잡한 상호작용 에이전트 시나리오에서 최첨단 성능을 달성함을 나타냅니다. 모든 모델과 데이터셋은 공개적으로 공개됩니다.
체화된 지능은 종종 조작이나 내비게이션 같은 개별 과제를 위한 특화된 모델을 통해 연구되어 왔으며, 이로 인해 기능이 단편화되고 과제, 환경, 로봇 체화 간 일반화가 제한된다. 본 연구에서는 이질적인 체화 의사결정 문제를 단일 시각-언어-행동 모델 내에서 통합할 수 있는지를 탐구한다. 우리는 Qwen-VLA를 제시한다. 이는 Qwen의 시각-언어 모델링 스택을 인지, 이해, 추론에서부터 DiT 기반 동작 디코더를 통한 연속 동작 및 궤적 생성으로 확장한 통합 체화 기반 모델이다. Qwen-VLA는 로봇 조작 궤적, 인간 자기중심 시연, 합성 시뮬레이션 데이터, 시각-언어 내비게이션 데이터, 궤적 중심 감독, 보조 시각-언어 데이터 등 다양한 데이터 소스를 포함한 대규모 공동 사전 훈련 레시피를 통해 학습된다. 여러 로봇 플랫폼을 지원하기 위해, 로봇 특정 텍스트 설명이 현재 체화와 제어 규약을 명시하는 체화 인식 프롬프트 조건화를 도입한다. 또한 조작, 내비게이션, 궤적 예측을 통합된 동작 및 궤적 예측 프레임워크로 변환하여, 로봇 형태, 과제군, 환경 전반에 걸쳐 전이 가능한 시각적 접지, 공간 추론, 연속 동작 생성을 가능하게 한다. 조작, 내비게이션, 궤적 중심 벤치마크에 대한 실험은 장면 배치, 배경, 조명, 객체 구성, 로봇 체화의 변동 하에서 일관된 다중 과제 성능과 분포 외 일반화를 보여준다. Qwen-VLA-Instruct는 LIBERO에서 97.9%, Simpler-WidowX에서 73.7%, RoboTwin-Easy/Hard에서 86.1%/87.2%, R2R에서 69.0% OSR, RxR에서 59.6% SR, 실제 ALOHA 실험에서 평균 76.9% OOD 성공률, DOMINO 동적 조작에서 26.6% 제로샷 성공률을 달성한다.
실제 세계의 정보 요구는 구조적으로 다양한 지식 소스(비정형 텍스트, 관계형 테이블, 지식 그래프 및 속성 그래프)에 대한 접근을 필요로 한다. 그러나 기존 검색기는 고정된 쿼리 언어 아래에서 한 번에 하나의 소스만을 대상으로 작동하므로, 사용 가능한 지식의 광범위한 영역이 호환되지 않는 인터페이스 뒤에 단편화되어 있다. 이러한 통합을 위한 자연스러운 시도는 이러한 소스들을 공유 공간으로 압축하는 것이지만, 이는 각 소스에 표현력을 부여하는 구조적 이점(스키마, 온톨로지, 구성 연산자 등)을 지워버린다. 따라서 다양한 지식에 대한 효과적인 검색은 동질화가 아닌, 각 소스를 고유한 방식으로 다루는 포괄적 계층을 필요로 한다. 이를 위해 우리는 OmniRetrieval을 제안한다. 이 프레임워크는 자연어 쿼리를 받아 적절한 지식 소스를 식별하고, 소스 고유의 쿼리를 해당 네이티브 실행 엔진에 전달한다. 텍스트, 관계형, 그래프 구조 소스에 걸친 13개 데이터셋과 309개의 개별 지식 베이스를 포함한 광범위한 벤치마크에서 OmniRetrieval은 단일 소스 기준선을 능가하며, 각 소스를 가치 있게 만드는 구조적 차이를 보존하면서 이질적 소스에 대한 범용 인터페이스 역할을 할 수 있음을 입증한다.
맞춤형 이미지 편집은 제한된 쌍 데이터를 사용하여 사전 학습된 확산 모델에 특정 시각적 효과를 부여하는 것을 목표로 하며, 일반적으로 저랭크 적응(LoRA)을 통해 수행된다. 원하는 효과의 수가 증가함에 따라, 이러한 다수의 효과 LoRA를 저장하고 동적으로 로딩하는 과정은 배포 오버헤드를 크게 증가시킨다. 또한, 기존 파이프라인은 일반적으로 이러한 효과 LoRA를 고속 생성을 위한 가속 모듈과 캐스케이드 방식으로 결합하는데, 이는 심각한 파라미터 간섭을 유발하여 개념 혼합 및 스타일 저하를 초래한다. 본 논문에서는 최대 50개의 서로 다른 효과 LoRA의 개념과 소수 단계 생성 능력을 단일 LoRA로 증류할 수 있는 다중 교사 온폴리시 증류 프레임워크인 CollectionLoRA를 제안한다. 이는 특징 간섭 문제를 근본적으로 해결하고 배포 비용을 크게 절감한다. 구체적으로, 본 방법은 (i) 모델이 훈련 중 데이터 소스를 무작위로 전환할 수 있도록 하여 보이지 않는 시나리오에서의 일반화를 효과적으로 향상시키는 확률적 이중 스트림 라우팅 메커니즘, (ii) 프롬프트 공간 내 개념 분리를 달성하는 비대칭 직교 프롬프팅 전략, (iii) 교사 모델과 학생 모델 간의 분포 차이를 완화하는 조대세밀 증류 목표를 도입한다. 광범위한 평가 결과, CollectionLoRA는 모든 맞춤형 효과와 소수 단계 생성을 단일 LoRA로 증류하여 배포 오버헤드를 줄이는 동시에, 독립적으로 훈련된 교사 모델과 동등하거나 더 나은 개념 충실도를 달성함을 보여준다.
최근 비디오 확산 기반 모델들은 고품질 비디오 생성에서 놀라운 진전을 이루었지만, 이를 실시간 대화형 비디오 세계 모델로 전환하는 것은 여전히 도전적인 과제입니다. 대화형 세계 모델은 제어 가능하고 인과적이며 지연 시간이 짧은 롤아웃을 필요로 하며, 실제로는 데이터 구축, 제어 가능한 미세 조정, 자기회귀 학습, 소수 단계 증류, 스트리밍 추론에 이르는 전체 파이프라인이 요구됩니다. 본 연구에서는 실시간 대화형 비디오 세계 모델을 구축하기 위한 풀스택 오픈소스 프레임워크인 minWM을 제시합니다. minWM은 기존의 양방향 T2V/TI2V 비디오 기반 모델을 카메라 제어가 가능한 소수 단계 자기회귀 세계 모델로 변환하는 종단간 파이프라인을 제공합니다. 구체적으로, minWM은 먼저 카메라 제어 기능으로 양방향 비디오 확산 모델을 미세 조정한 후, 인과 강제(Causal Forcing) / 인과 강제++ 파이프라인(AR 확산 학습, 인과 ODE 또는 인과 일관성 증류, 비대칭 DMD 포함)을 적용하여 이를 지연 시간이 짧은 롤아웃을 위한 소수 단계 자기회귀 생성기로 증류합니다. 프레임워크는 모듈식이며 아키텍처 확장이 가능합니다. 대표적인 오픈 백본(Wan2.1-T2V-1.3B 및 HY1.5-TI2V-8B 포함)에 이를 구현하여 교차 주의 기반 조건 주입 및 MMDiT 스타일 아키텍처를 모두 포괄합니다. minWM은 또한 기존 비디오 세계 모델(예: HY-WorldPlay)을 새로운 데이터 분포, 학습 레시피 및 지연 시간 목표에 맞게 조정하는 것을 지원합니다. 실행 가능한 스크립트, 체크포인트, 문서 및 추론 코드를 공개하는 것 외에도, 카메라 궤적 품질, 제어 가능성 학습 단계 및 최소 배치 크기 요구 사항에 대한 실용적인 절제 연구(ablation)를 제공합니다. minWM이 실시간 대화형 비디오 세계 모델을 구축하고 조정하기 위한 재현 가능하고 확장 가능한 레시피로 활용되기를 바랍니다. 프로젝트 페이지: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
비디오 확산 모델(VDM)이 월드 모델로 발전함에 따라, 이들이 인과성을 진정으로 이해하는지 아니면 단순히 통계적 시간 패턴에 과적합되는지에 대한 핵심 질문이 제기된다. 기존 벤치마크는 주로 합성 데이터에 의존하여 시뮬레이션-현실 간극(sim-to-real gap)으로 인해 실제 세계 일반화 능력이 제한적이다. 본 연구에서는 인지과학의 기대 위반(Violation of Expectation, VoE) 패러다임에서 영감을 받은 두 수준의 벤치마크인 YoCausal을 제시한다. 실제 세계 비디오를 제로 비용으로 시간적으로 역전시켜 자연스러운 반사실적 샘플로 활용함으로써, YoCausal은 임의로 확장 가능한 평가 프로토콜을 구축한다. 1단계에서는 역전 서프라이즈 지수(Reverse Surprise Index, RSI)를 도입하여 잡음 제거 손실을 통해 시간 방향성(time arrow) 인식을 정량화한다. 2단계에서는 인과성 인지 지수(Causality Cognition Index, CCI)를 도입하여 비전-언어 모델(VLM)을 활용해 데이터셋을 인과 하위 집합과 비인과 하위 집합으로 계층화함으로써, 진정한 인과 추론과 시간적 편향을 분리한다. 최신 VDM 13개를 평가한 결과, 시간 방향성을 인식하는 것이 인과성을 이해함을 의미하지 않으며, 인간 수준의 인과 인지와는 여전히 상당한 격차가 존재함이 드러났다.
이미지 생성 모델은 텍스트 기반 픽셀 합성에서 시각적 이해 및 도구 호출 기능을 갖춘 다중 모달 에이전트로 발전해왔다. 그러나 기존 에이전트들은 여전히 내부 블랙박스 이미지 모델에 종속되어 있다. 이들의 워크플로우는 생성 품질 향상을 위한 프롬프트 재작성의 반복적인 순환에 갇혀 있으며, 캔버스를 직접 조작할 수 있는 메커니즘이 부재하다. 본질적으로, 정밀한 시각적 구성을 위한 진정한 '붓' 역할을 수행할 수 있는 LLM의 잠재력은 아직 충분히 활용되지 못하고 있다. 본 논문에서는 인간 예술가가 먼저 개념을 구상하고, 이어서 스케치를 그린 후, 마지막으로 채색하는 과정처럼 에이전트가 창작할 수 있도록 하는 코드 기반 에이전트 이미지 생성 패러다임인 GenClaw를 제안한다. 구체적으로, 에이전트는 먼저 검색과 추론을 통해 개념적 지식과 맥락을 구성한다. 그런 다음 코드(예: SVG, HTML, Three.js)를 활용하여 실행 가능한 시각적 스케치를 렌더링한다. 마지막으로 이미지 생성 모델을 사용하여 텍스처, 재질, 사실성을 보완한다. 이 워크플로우에서 코드는 언어적 추론과 픽셀 합성을 연결하는 제어 가능한 중간 캔버스 역할을 하며, 프로그래매틱 로직과 생성 모델의 시각적 표현력을 원활하게 통합한다. 이미지 생성을 블랙박스 패러다임에서 진정한 인간 창작과 유사한 단계적 과정으로 변환함으로써, GenClaw는 고도로 제어 가능하고 해석 가능한 시각적 생성 시스템을 위한 한 걸음 나아간 접근법을 제시한다.
비디오 거대 언어 모델(Video-LLMs)은 비디오 이해 작업에서 강력한 성능을 입증해 왔다. 그러나 방대한 양의 시각적 토큰을 처리하는 데 따른 비효율성으로 인해 실제 배포는 여전히 제약을 받고 있다. 최근 접근 방식은 전체 토큰 기준선과 유사한 정확도를 유지하면서 극히 낮은 토큰 유지 비율을 달성하지만, 대부분은 프리필링의 후반 단계에서만 압축을 수행하여 비전 인코더의 효율성은 최적화되지 않은 상태로 남겨둔다. 본 논문에서는 먼저 비전 인코딩이 최초 토큰 생성 시간(TTFT)의 상당 부분을 차지함을 보인다. 따라서 비전 인코더 이후에만 시각적 토큰을 압축하는 대신, 인코더 내부에서 압축을 수행하는 것은 여전히 탐구의 여지가 많다. 이러한 통찰을 바탕으로, 우리는 비전 인코더 내부에서 초기 단계의 시각적 토큰 압축을 수행하는 학습 없는 토큰 압축 프레임워크인 EarlyTom을 제안한다. 이를 통해 TTFT 감소와 처리량 향상을 훨씬 더 효과적으로 달성할 수 있다. 또한, 전반적인 압축 효율성을 개선하는 분리된 공간 토큰 선택 전략을 도입한다. EarlyTom은 단일 NVIDIA A100 GPU에서 LLaVA-OneVision-7B 모델의 TTFT를 최대 2.65배, FLOPs를 최대 61%까지 줄이면서 전체 토큰 기준선과 유사한 정확도를 유지한다. 이러한 개선 사항은 실제 생산 환경에서 Video-LLMs를 배포하는 실용성을 크게 향상시킨다.
대규모 언어 모델(LLM)은 역동적인 실제 환경에서 효과적으로 작동하기 위해 지속적으로 학습하고 지식을 업데이트해야 한다. LoRA(Low-Rank Adaptation)는 이러한 메모리 업데이트에 널리 사용되지만, 기존 연구는 주로 정성적 다운스트림 평가에 의존하여 정확한 파라메트릭 메모리의 정량적 용량 한계와 기본 동역학을 거의 탐구하지 못했다. 이러한 격차를 해소하기 위해, 우리는 LoRA를 잠재 공간 내 제어된 메모리 용량 프로브로 활용하여 정확한 파라메트릭 메모리를 체계적으로 정량화한다. 우리는 손실 감소 ΔL을 유효 파라미터 및 시퀀스 길이와 연결하는 강력한 멱법칙인 파라메트릭 메모리 법칙을 소개한다. 토큰 수준의 세분화된 분석은 결정론적 상전이를 드러내며, 예측 확률 p > 0.5가 greedy 디코딩 하에서 문자 그대로의 재현을 위한 충분 조건임을 보여준다. 이러한 통찰력을 바탕으로, 우리는 훈련 예산을 하위 임계값 토큰에 동적으로 재분배하는 임계값 기반 최적화 전략인 MemFT를 도입한다. 실증 평가는 MemFT가 메모리 충실도와 효율성을 향상시킬 수 있음을 보여준다. 코드는 https://github.com/zjunlp/ParametricMemoryLaw 에서 공개될 예정이다.
활성화 기반 제어는 추론 과정에서 대규모 언어 모델(LLM)의 내부 표현에 개입하여 모델을 조종하며, 개인 및 스타일과 같은 행동을 제어하는 효과적인 패러다임으로 부상했다. 그러나 기존 방법들은 대개 고정된 조종 방향이나 작업별 개입 모듈에 의존하기 때문에, 세분화된 개념과 구성적 제약에 적응하기 어렵다는 한계가 있다. 우리는 UniSteer를 제안한다. 이는 텍스트 기반 활성화 흐름 정합 모델로, 자연어 조건으로부터 잔차 스트림 활성화에 대한 조건부 분포를 학습한다. 각 대상 행동에 대해 개별 개입을 학습하는 대신, UniSteer는 활성화 공간에서 보편적 조건부 속도장을 학습한다. 추론 시, UniSteer는 소스 활성화를 잠재 상태로 부분적으로 이동시키고, 대상 텍스트 조건 하에서 이를 재생성한 후 동결된 LLM에 다시 주입함으로써 흐름 역전을 수행한다. 동일한 조건부 모델은 가장 낮은 재구성 에너지를 가진 텍스트 레이블을 선택함으로써 활성화 공간 분류도 지원한다. 세 가지 대상 LLM에 대한 실험 결과, UniSteer가 행동 제어, 진실성 조종, 세분화된 개념 조종, 다중 제약 명령 수행, 그리고 활성화 공간 분류에 걸쳐 통합된 인터페이스를 제공함을 보여준다.
비전-언어 모델(VLM)은 공간 추론 벤치마크에서 강력한 성능을 달성하지만, 이것이 구조화된 3D 이해를 반영하는지, 아니면 자연 이미지의 통계적 지름길에 의존하는지는 여전히 불분명하다. 우리는 VLM 임베딩 내에서 공간 축이 어떻게 조직화되고 분리되는지 측정하기 위해 최소 대조 쌍을 구성하는 표현 수준 분석 프레임워크를 도입한다. 여러 모델 군에 걸친 분석 결과, 모델이 이미지의 수직 위치와 거리를 혼동하며 자연 사진의 원근 편향을 반영하는 일관된 수직-거리 얽힘을 발견했다. 이러한 편향은 원근 일치 예와 반-휴리스틱 예 사이에 상당한 정확도 차이를 초래하며, 전반적인 벤치마크 정확도가 향상됨에도 불구하고 데이터 스케일링 하에서 더욱 심화된다. 또한 유사한 벤치마크 점수를 가진 모델이 서로 다른 내부 표현을 가질 수 있으며, 이러한 차이가 다양한 공간 추론 벤치마크에서의 정확도와 견고성을 예측한다는 것을 보여준다. 이 편향을 평가 세트 편향으로부터 분리하기 위해, 자연 이미지에 존재하는 일반적인 상관관계를 제거하여 공간 지름길 편향을 드러내도록 설계된 합성 벤치마크인 SpatialTunnel을 도입한다. 실험 결과는 얽힘이 모델 내재적임을 확인하며, 공간 축이 잘 분리된 모델이 더 큰 견고성을 보여, 잘 구조화된 공간 표현이 다양한 벤치마크에서 더 신뢰할 수 있는 공간 추론으로 이어진다는 것을 시사한다. 코드와 벤치마크는 프로젝트 페이지(https://cheolhong0916.github.io/whyfarlooksup.github.io/)에서 확인할 수 있다.
공동 오디오-비디오 생성은 시간적으로 동기화되고 의미적으로 일관된 시각-청각 콘텐츠를 합성하는 것을 목표로 한다. 그러나 기존의 오픈소스 방법들은 주로 사후 정렬(posterior alignment)을 적용한 이중 타워(dual-tower) 구조나, 텍스트 맥락, 오디오, 비디오를 하나의 공유 공간에 혼합하는 완전 통합 삼중 모달(unified tri-modal) 설계에 의존한다. 전자는 세밀한 오디오-비디오 공동 진화를 약화시키고, 후자는 의미적 조건화와 저수준 동기화를 결합한다. 이러한 한계를 해결하기 위해, 우리는 공동 오디오-비디오 생성을 위한 NAVA(Native Audio-Visual Alignment) 프레임워크를 제안한다. NAVA는 맥락 조건화된 고유 오디오-비디오 정렬(context-conditioned native audio-visual alignment)을 기반으로 구축된다: 먼저 전용 상호작용 공간에서 오디오-비디오 대응 관계를 설정한 후, 외부 맥락을 사용하여 공동 잡음 제거 과정을 조건화한다. 구체적으로, NAVA는 정렬 후 융합(Align-then-Fuse) MMDiT 아키텍처를 통해 구현되며, 이는 모달 인식 오디오-비디오 정렬에서 모달 공유 공동 잡음 제거로 전환한다. 또한, 우리는 Timbre-in-Context 조건화를 도입하여 기준 음색 단서를 해당 음성 구간에 연관시킴으로써 제어 가능한 음성 음색을 달성한다. Verse-Bench와 Seed-TTS에 대한 실험과 사용자 연구를 통해, NAVA가 단 6.3B 파라미터만으로 우수한 비디오 품질, 정밀한 오디오-비디오 동기화, 경쟁력 있는 오디오 품질, 그리고 더 강력한 기준 음색 제어성을 달성함을 입증한다.
비전-언어 모델(VLM)은 멀티모달 융합을 목표로 하는 대규모 이미지-텍스트 훈련을 통해 다양한 이해 및 추론 작업에서 상당한 진전을 이루었다. 이상적으로는, 텍스트 질문을 렌더링된 이미지 버전으로 대체해도 모델 성능이 본질적으로 영향을 받지 않아야 한다. 그러나 실제로 이러한 모달리티 대체는 극적인 성능 저하를 유발한다. 우리는 이러한 '운반체 민감성' 문제를 현재 훈련 코퍼스에 내재된 편향에 기인한다고 본다. 이미지 캡셔닝, VQA, OCR, 웹 기반 인터리브 데이터와 같은 일반적인 데이터셋에서 텍스트와 이미지는 보통 뚜렷하고 비대칭적인 역할로 조직되며, 텍스트는 언어적 질의로, 이미지는 시각적 참조로 기능한다. 이러한 데이터 편향은 VLM이 서로 다른 모달리티 간 정보 획득에 대해 뚜렷한 선호도를 보이게 만든다. 결과적으로 VLM은 텍스트와 시각적 운반체 간 의미적으로 동등한 내용의 표현을 정렬하지 못하여 모달리티 대체 하에서 모델 추론이 취약해진다. 이를 해결하기 위해, 우리는 의미적으로 동등한 텍스트와 이미지 운반체 간 교차 모달 표현 불변성에 대한 감독을 제공하도록 설계된 경량 아키텍처 독립적 데이터 큐레이션 패러다임인 로컬 모달리티 대체(LoMo)를 제안한다. LoMo는 단일 모달리티 프롬프트를 매끄럽게 인터리브된 멀티모달 시퀀스로 재구성함으로써 이를 달성한다. 이는 동적으로 대상 텍스트 범위를 선택하여 렌더링된 이미지로 재구성함으로써 '텍스트, 시각, 텍스트' 운반체 간 동일한 의미를 유지한다. 13개의 다양한 멀티모달 벤치마크에 걸친 광범위한 실험을 통해 LoMo가 전반적인 멀티모달 추론을 유의미하게 개선하고 더 깊은 교차 모달 융합을 이끌어냄을 보여준다. 구체적으로, 기반 모델 전반에 걸쳐 일관된 성능 향상을 제공하며, LLaVA-OneVision-1.5-8B에서 표준 SFT 대비 2.67점, Qwen3.5-9B에서 2.82점 향상된다.
강화 학습(RL) 사후 학습은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 것으로 나타났다. 그러나 RL 사후 학습 과정에서 데이터 오염 문제에 대한 탐구는 거의 이루어지지 않았으며, 이는 훈련 과정 자체의 일반화와 평가 신뢰성을 저해할 수 있다. 기존 탐지 방법은 주로 가능도나 엔트로피와 같은 출력 수준 신호에 의존하지만, RL은 토큰 가능도가 아닌 궤적 수준 보상을 통해 행동을 형성하므로 이러한 방법은 RL 훈련 모델에 대해 신뢰도가 낮아진다. 본 논문에서는 RL 사후 훈련된 LLM의 오염 탐지를 위한 계층별 표현 분석 프레임워크인 LaRA를 제안한다. LaRA는 세 가지 상호 보완적 지표를 도입하여, 통제된 섭동 하에서의 섭동 민감도, 방향성 붕괴, 그리고 국소 표현 강성을 측정한다. 오염은 계층 전반에 걸쳐 증폭된 섭동 민감도, 강화된 방향성 붕괴, 그리고 증가된 국소 강성을 포함한 점진적 기하학적 편차를 유발함을 발견했다. 이러한 발견을 바탕으로, 계층과 지표 전반에 걸친 표현 수준 편차를 집계하는 오염 탐지 프로토콜을 개발한다. RL 훈련된 추론 모델에 대한 실험 결과, 제안하는 프로토콜이 오염 탐지에 있어 기존 출력 수준 기준선을 능가함을 보여준다.
대규모 언어 모델에 명시적 스킬을 부여하는 것은 자율 에이전트가 복잡한 작업을 해결할 수 있게 하는 유망한 패러다임으로 부상하고 있다. 에이전트 스킬은 본질적으로 광범위한 인지 전이를 위한 일반 스킬과 동적 실행을 위한 작업 특화 스킬로 구분될 수 있다. 그러나 기존의 스킬 기반 강화학습(RL) 방법은 일반적으로 과도한 컨텍스트 오버헤드를 유발하는 완전 외재화와 과적합 및 지식 충돌의 위험이 있는 완전 내재화 사이에서 경직된 선택을 강요한다. 이러한 딜레마를 해결하기 위해 우리는 일반 스킬 내재화와 작업 특화 스킬 활용을 결합하여 스킬 처리를 명시적으로 차별화하는 새로운 에이전틱 강화학습 프레임워크인 Skill0.5를 제안한다. Skill0.5는 동적이고 난이도를 인식하는 라우터에 의해 구동되며, 작업을 별개의 숙련도 계층으로 분류하여 맞춤형 최적화 전략을 적용한다. 즉, 특권적 증류를 통해 일반 스킬을 내재화하여 어려운 작업을 위한 인지 기반을 구축하는 동시에, 쉬운 작업에는 진단적 프로빙을 사용하여 지름길을 처벌하고 특정 스킬 활용을 강제한다. ALFWorld 및 WebShop에서의 실험은 Skill0.5가 메모리 기반 및 스킬 기반 강화학습 기준선을 모두 능가하며, 분포 내 및 분포 외 시나리오 모두에서 성능 향상을 가져옴을 보여준다.
밀집 검색기가 높은 관련성 점수를 부여하는 이유를 설명하는 것은 여전히 어려운 과제인데, 이는 검색 결정이 불투명한 고차원 임베딩을 통해 이루어지기 때문이다. 기존 설명은 종종 어휘 일치, 토큰 정렬 또는 사후 텍스트 근거와 같은 표면 신호에 초점을 맞추기 때문에, 임베딩 수준에서 밀집 검색 행동을 형성하는 잠재 요인에 대한 통찰을 제한적으로 제공한다. 본 논문에서는 밀집 검색을 설명하기 위한 임베딩 수준의 메커니즘적 프레임워크인 Xetrieval을 제안한다. Xetrieval은 먼저 경량 추론 내재화기를 도입하여, 값비싼 자기회귀 생성을 피하면서 단일 순방향 전달로 임베딩 공간에서 직접 사고 사슬 추론을 근사화하고, 문장 임베딩을 추론 지향 정보로 풍부하게 한다. 그런 다음 이러한 추론 강화 임베딩을 각각 일관된 자연어 설명과 연결된 희소하고 인간이 해석 가능한 특징으로 분해한다. Xetrieval은 여러 문서 측면 뷰에 걸쳐 희소 특징 중첩을 집계함으로써 개별 검색 결정에 대한 특징 수준 설명을 제공한다. 다양한 검색기와 벤치마크에 대한 실험 결과, Xetrieval은 일관된 해석 가능한 특징을 발견하고, 더 강력한 쌍 수준 개입 효과를 나타내며, 과제 수준 특징 조정을 지원함을 보여준다. 프로젝트 페이지와 소스 코드는 https://hihiczx.github.io/Xetrieval에서 확인할 수 있다.
장기 상호작용에서는 언어 모델이 누적되는 정보를 효과적으로 관리해야 한다: 언제 상태를 갱신하고, 언제 상태를 유지하며, 무엇을 무시할지 결정하는 것이다. 본 연구에서는 이러한 과제를 문맥적 신념 관리(Contextual Belief Management, CBM)로 정의한다. 이는 형식적 증거와 일치하는 예측 신념 상태를 유지하면서, 과제와 무관한 잡음을 분리하는 과정이다. CBM을 측정 가능하게 만들기 위해, 유한한 신념 공간과 기호적 검증기를 활용하여 정확한 턴 수준 평가를 가능하게 하는 폐쇄 세계 벤치마크인 BeliefTrack을 도입한다. BeliefTrack은 세 가지 실패 유형, 즉 유지 실패(Failed Stay), 갱신 실패(Failed Update), 격리 실패(Failed Isolation)를 진단한다. 여러 LLM을 대상으로 한 실험에서, 기본 모델은 심각한 CBM 실패를 보였으며, 명시적 신념 추적 프롬프트는 제한적인 개선만을 제공했다. 반면, 신념 상태 보상을 활용한 강화 학습은 평균 실패율을 70.9% 감소시켰다. 추가 탐색을 통해 이러한 실패 배후의 잠재적 신념 상태 동역학이 밝혀졌으며, 표현 수준 조정을 통해 두 과제에서 평균 46.1%의 실패율 감소를 달성하였다\footnote{코드는 https://github.com/zjunlp/CBM에서 곧 공개 예정입니다.}.
확산 모델은 최신 이미지 합성 성능을 달성하며, 그 생성 궤적은 본질적으로 스펙트럼 편향을 나타내어 초기에는 저주파 전역 구조를, 후기에는 고주파 세부 정보를 해결한다. 기존의 확률적 미분 방정식(SDE) 해석기는 이러한 동역학을 고려하지 못하며, 전체 과정에 걸쳐 단순히 균일한 백색 잡음을 주입하고 유한한 에너지 예산을 오용한다. 본 연구에서는 SDE 추론을 표적화된 주파수 분리 에너지 전달로 재구성하는 수학적 프레임워크를 구축한다. 이 프레임워크를 활용하여 학습이 필요 없는 새로운 확률적 해석기인 유색 잡음 샘플링(CNS)을 도입한다. CNS는 균일한 백색 잡음을 주입하는 대신, 구조적으로 해결되지 않은 주파수 대역으로 주입 에너지를 보다 효율적으로 할당하는 동적인 시간 단계 및 주파수 종속 스케줄을 사용한다. CNS는 모델의 고유한 스펙트럼 편향을 적극적으로 활용하여 생성 분포를 실제 데이터 다양체로 체계적으로 유도한다. 광범위한 실험을 통해 CNS가 다양한 아키텍처(SiT, JiT, FLUX)에서 엄격한 플러그 앤 플레이 방식의 추론 시간 샘플러 대체로서 표준 ODE 및 SDE 기준선을 크게 능가함을 입증한다. ImageNet-256에서 표준 샘플링과 비교하여 CNS는 SiT-XL/2에서 8.26에서 6.27로, JiT-B/16에서 32.39에서 26.69로, JiT-H/16에서 11.88에서 8.31로 유도 없는 FID를 크게 감소시켰으며, 분류기-자유 유도와 함께 일관된 상대적 FID 개선을 달성했다. 프로젝트 페이지는 https://hadardavidson.github.io/CNS/에서 확인할 수 있다.
밀집 검색기는 위치 편향을 나타내며, 쿼리 관련 정보가 문서의 앞부분에 있을 때 이를 선호하고, 정보가 뒷부분에 나타날 경우 검색 성능이 저하된다. 밀집 검색기의 위치 편향에 대한 선행 연구는 주로 구조적 설명에 초점을 맞추었으나, 본 연구에서는 훈련 데이터 내 증거의 위치 분포가 검색 수준의 편향 방향에 어떻게 영향을 미치는지 분석한다. 이를 검증하기 위해 쿼리 관련 증거가 문서의 시작, 중간, 또는 끝에 나타나는 합성 위치 타겟 훈련 데이터를 구축하고, 위치 편향 및 균형 훈련 분포에서 8개의 구조적으로 다양한 사전 학습 모델을 미세 조정하였다. 순위 수준에서, 조사된 모델 전반에 걸쳐 강한 방향성 패턴이 관찰되었다. 즉, 편향된 훈련 분포는 해당 위치의 증거를 선호하는 경향을 보였다. 위치 균형 훈련은 위치 인식 벤치마크에서 위치 민감도를 57~87% 감소시켰으며, 통제된 환경에서 경쟁력 있는 평균 검색 성능을 유지하였다. 표현 수준 분석은 미세 조정이 종종 학습된 위치 선호도를 재구성함을 시사하지만, 일부 모델에서는 사전 구조적 또는 사전 학습 특정 경향이 지속됨을 보여준다. 이러한 결과는 훈련 위치 분포가 검색 수준 위치 편향의 주요 통제 가능 요인임을 식별하며, 균형 잡힌 데이터 큐레이션을 실용적인 완화 전략으로 제안한다.
CausaLab은 LLM 에이전트의 상호작용적 인과 발견을 평가하기 위한 확장 가능한 환경입니다. 기존 평가와 달리, CausaLab은 에이전트가 인과적 증거를 활용하여 문제를 해결할 수 있는지 여부와 정답이 충실하게 복구된 인과 메커니즘에 기반하는지 모두 평가합니다. 각 에피소드는 에이전트를 합성 실험실에 배치합니다: 에이전트는 사전 측정 기록을 받고, 조작 변수(manipulator crystal)에 개입하여, 동일한 메커니즘에 의해 제어되는 보류된 반응 변수(reactor crystal)의 공명 주파수를 예측합니다. 숨겨진 데이터 생성 과정은 무작위로 샘플링된 구조적 인과 모형(SCM)이므로, 성공하려면 사전 지식을 회상하는 것이 아니라 인과 그래프와 구조 방정식을 모두 복구해야 합니다. 실험 결과, 예측과 메커니즘 복구 사이에 지속적인 격차가 있음이 드러났습니다: 순수 관찰 기반 6-노드 설정에서 GPT-5.2-high는 92%의 작업 정확도에 도달했지만, 전체 엣지 F_1 점수는 0.471에 불과했습니다. 관찰-개입 혼합 전략은 구조적 충실도를 향상시키는 반면, 순수 개입은 강력한 에이전트에게도 여전히 어려운 과제로 남아 있습니다. 우리는 조기 중단(premature stopping)을 주요 약점으로 식별하고, 일관성 검증이 이를 완화함을 보여줍니다. 따라서 CausaLab은 예측적 성공을 인과적 이해와 분리하고, 실험적 인과 추론자로서의 현재 LLM 에이전트의 한계를 드러냅니다.
대규모 언어 모델 기반 에이전트는 외부 도구를 활용하여 복잡한 작업을 해결하는 데 강력한 성능을 보여주고 있다. 그러나 기존 평가는 도구 사용의 시간적 차원, 특히 도구 응답 지연 시간의 영향을 간과하는 경우가 많으며, 대개 단일 작업 환경으로 제한된다. 실제 응용에서는 여러 작업을 동시에 실행해야 하는 경우가 많으며, 전체 효율성은 에이전트가 도구 응답을 기다리는 동안 유휴 시간을 활용할 수 있는지 여부에 달려 있다. 우리는 이러한 능력을 비동기적 도구 호출이라고 칭한다. 이를 평가하기 위해, 지연된 도구 피드백이 있는 대화형 다중 작업 도구 사용 환경에서 대규모 언어 모델 기반 에이전트를 평가하기 위한 벤치마크인 AsyncTool을 제안한다. AsyncTool은 여러 이질적인 작업을 동시에 제시하고, 실행 중 현실적인 도구 응답 지연 시간을 시뮬레이션한다. 하이브리드 데이터 진화 전략을 사용하여 다양한 시나리오와 도구 사용 패턴을 포괄하는 다양한 비동기 다중 작업 데이터셋을 구축한다. 우리는 단계, 하위 작업, 작업 수준에서 모델을 평가하고, 작업 조정 및 완료 효율성을 측정하기 위한 효율성 중심 지표를 도입한다. 광범위한 실험 결과, 지연된 도구 피드백은 현재 에이전트에 상당한 도전을 제기하며 명백한 성능 저하를 초래한다는 것이 밝혀졌다. 작업 전환, 의존성 추적, 상태 유지를 더 잘 조정하는 모델이 AsyncTool에서 더 강력한 성능을 보인다. 우리의 분석은 현재 도구 사용 에이전트의 주요 실패 모드를 식별하고, 향후 더 강력한 시간 추론 및 조정 능력을 갖춘 시스템 설계를 위한 실용적인 통찰력을 제공한다.
에이전트형 AI 추론의 설계 공간은 두 극단으로 나뉜다: 일반적으로 클라우드에 호스팅되어 다양한 작업에서 강력한 성능을 제공하지만 비용이 상당히 높은 최첨단 대규모 언어 모델(LLM)과, 온디바이스 추론에 적합한 보다 비용 효율적인 소형 언어 모델(SLM)이 그것이다. 온디바이스 모델과 클라우드 모델을 결합한 하이브리드 다중 에이전트 시스템(MAS)은 유망한 중간 지점을 제공하지만, 작업 정확도, 금전적 비용, 엣지 에너지 소비가 밀접하게 연관된 복잡하고 제대로 이해되지 않은 설계 공간을 도입한다; 일반적인 설계 원칙이 부재한 상황에서, 가장 보편적인 선택은 아니지만 하이브리드 구성 요소는 일반적으로 특정 도메인에 맞춰진 임시방편적 결정을 통해 도입된다. 본 연구에서는 이 설계 공간을 보다 체계적으로 검토한다. 하이브리드 추론을 지원하기 위해 두 가지 대표적인 MAS 아키텍처를 조정하고, 개별 설계 선택이 전력, 비용, 성능의 파레토 프론티어를 따라 운영 지점을 어떻게 이동시키는지 연구한다. 우리의 발견은 하이브리드 MAS 설계에 대한 미묘한 그림을 제시한다: SLM이 LLM의 도움으로부터 효과적으로 이점을 얻을 수 있지만, 최적의 아키텍처는 작업에 크게 의존하며, 더 큰 프런티어 수준의 연산이 일관되게 더 나은 성능으로 이어지지는 않는다.
대규모 언어 모델(LLM)은 간결한 사실적 답변을 검색하는 심층 검색에서 분산된 증거를 종합하여 장문의 보고서를 생성하는 심층 연구로 자율 에이전트를 발전시켰습니다. 그러나 결정론적 정답이 없는 개방형 종합과 텍스트 주장과 시각적 증거를 교차 배치해야 하는 필요성으로 인해 검증 가능한 다중 모달 심층 연구는 여전히 어려운 과제입니다. 우리는 교차 배치된 보고서 생성을 위한 다중 에이전트 하네스인 Ptah를 제안합니다. Ptah는 계획, 연구 및 작성 단계를 통해 사용자 질의에서 렌더링된 웹 보고서까지의 수명 주기를 조정하며, 여기서 특수 에이전트는 시각 인식 계획을 구성하고, 주장에 근거한 증거를 수집하며, 시각 작업 기억(Visual Working Memory)에 소스 정렬 이미지를 유지하고, 선언적 다중 모달 도구 사용을 통해 보고서를 작성합니다. 검증 에이전트는 하네스의 수용 함수 역할을 하여 전체 워크플로 전반에 걸쳐 사실적 근거, 인용 충실도 및 교차 모달 일관성을 강화합니다. 또한 기존 벤치마크에 이미지 수준 및 프레젠테이션 수준 평가를 추가하는 평가 프로토콜인 PtahEval을 소개합니다. 심층 연구 벤치마크에 대한 실험 결과, Ptah는 강력한 기준 모델보다 더 신뢰할 수 있고 시각적으로 유용하며 사용자 친화적인 다중 모달 보고서를 생성함을 보여줍니다.
최근 모바일 GUI 에이전트의 발전은 모바일 작업 자동화에 강력한 가능성을 보여주었지만, 대부분의 효과적인 시스템은 여전히 스크린샷 이해와 장기 계획을 위해 대규모 시각-언어 모델에 의존한다. 모바일 기기에 직접 배포할 수 있는 소형 GUI 에이전트는 추론 비용이 낮고 민감한 기기 내 정보를 더 잘 보호할 수 있어 실용적 측면에서 더 매력적이다. 그러나 제한된 모델 용량으로 인해 이러한 경량 에이전트는 스크린샷만으로 GUI 작업을 종단 간 계획 및 실행하는 데 있어 여전히 신뢰성이 부족하다. 본 연구에서는 재사용 가능한 앱별 그래프 지식을 통해 경량 모바일 GUI 에이전트를 개선하는 프레임워크인 UI-KOBE(Knowledge-Oriented Behavior Exploration)를 제안한다. UI-KOBE는 먼저 모바일 애플리케이션을 자율적으로 탐색하고 앱 지식 그래프를 구축하는데, 여기서 노드는 고유한 UI 상태를, 엣지는 실행 가능한 전이를 나타낸다. 런타임 시 경량 GUI 에이전트는 이 그래프를 외부 지침으로 활용하여, 사용자 작업과 현재 스크린샷이 주어지면 현재 그래프 노드를 식별하고 해당 노드와 연관된 자기 루프 동작, 이웃 전이, 작업 완료, 또는 대체 자유 동작 중에서 선택한다. 앱별 그래프 지침을 통해 런타임 결정을 지원함으로써 UI-KOBE는 종단 간 GUI 계획의 부담을 줄이고 경량 모델이 모바일 GUI 작업을 보다 효과적으로 수행할 수 있도록 돕는다. 이는 효율적이고 해석 가능하며 개인정보 보호를 중시하는 온디바이스 GUI 에이전트를 위한 실질적인 진전을 제공한다.
터미널 환경을 마스터하기 위해서는 다단계 계획, 피드백 기반 실행, 동적 상태 적응이 가능한 언어 에이전트가 필요하다. 그러나 현재 이러한 에이전트를 학습시키는 과정은 수집된 외부 저장소에 의존하는 데 병목 현상이 있어, 도메인 다양성, 환경 제어 가능성, 특정 능력 결핍에 대한 타겟팅이 제한된다. 본 연구에서는 도메인 명세로부터 직접 실행 가능하고 검증 가능한 터미널 학습 환경을 자율적으로 생성하는 제로 의존성 합성 파이프라인인 LiteCoder-Terminal-Gen을 제안한다. 이 프레임워크를 활용하여 두 가지 대규모 자원을 구축하였다: 10개 도메인에 걸친 11,255개의 전문가 궤적으로 구성된 LiteCoder-Terminal-SFT와, 궤적 수준의 선호도 최적화를 위한 602개의 검증 가능한 환경을 갖춘 LiteCoder-Terminal-RL이다. Qwen 계열 모델에 대한 지도 미세 조정 결과, 미세 조정된 에이전트는 기본 모델보다 현저히 우수한 성능을 보였다. 특히 32B 변형 모델은 Terminal Bench 1.0, 2.0, Pro에서 각각 29.06%, 18.54%, 34.00%의 pass@1을 달성하였다. 또한 RL 환경에 DMPO(Direct Multi-turn Preference Optimization)를 적용하여 추가적인 성능 향상을 얻었다. 이러한 결과는 완전히 합성된 실행 가능 환경이 복잡한 실제 명령줄 워크플로우를 마스터하기 위한 확장 가능하고 검증 가능한 감독 신호를 제공함을 체계적으로 입증한다.
본 연구는 물리적으로 정확하고 시각적으로 충실한 4D 인간-물체 상호작용(HOI) 생성 작업을 다룹니다. 정적인 3D 인간과 대상 물체가 3D 가우시안 스플랫(3DGS)으로 표현된 상태에서, 우리의 목표는 입력 텍스트에 따라 펀치나 발차기와 같은 동작을 통해 인간이 물체와 능동적으로 상호작용하는 동적 장면을 합성하는 것입니다. 이를 위해 우리는 생성적 인간 움직임과 명시적 물리적 물체 시뮬레이션을 결합한 새로운 프레임워크인 PhyGenHOI를 소개합니다. 우리는 인간을 동작 확산 모델(MDM)에 의해 구동되는 의미적 에이전트로, 물체를 재료 점 방법(MPM)을 통해 시뮬레이션되는 물리적 에이전트로 모델링하며, 통합적이고 미분 가능한 표현으로 3D 가우시안을 활용합니다. 이들의 상호작용은 세 가지 결합 메커니즘을 통해 감독됩니다: (1) 생성적 움직임을 시간적으로 동기화하여 물체를 가로채기 위한 윈도우 기반 인력 손실; (2) 충돌 시 물리적으로 일관된 운동량 전달을 유발하는 접촉 기반 재시뮬레이션 단계; (3) 접촉 충실도를 향상시키기 위해 비디오 기반 사전 정보를 주입하는 마스크된 비디오-SDS 목적 함수. 실험 결과, PhyGenHOI는 다양한 동작, 인간, 물체에 걸쳐 물리적으로 일관된 4D HOI를 생성하며, 기준 모델들을 능가함을 보여줍니다. 프로젝트 페이지 및 비디오: https://omerbenishu.github.io/PhyGenHOI/
머신러닝 학술지/학회에 제출되는 논문이 급속히 증가하면서 과학적 피어 리뷰 시스템에 부담이 가중되었고, 이에 따라 LLM 기반 자동 피어 리뷰어에 대한 관심도 높아졌다. 그러나 이러한 시스템이 실제로 얼마나 우수한지, 특히 과학적 공백을 포착하는 데 있어 인간 리뷰어와 비교했을 때 어떠한지는 여전히 잘 이해되지 않고 있다. 본 연구에서는 리뷰 품질을 네 가지 차원(분석 깊이, 참신성 평가, 결함 식별 및 주요 문제 우선순위, 다차원적 건설성)에 걸쳐 평가하는 벤치마킹 프레임워크인 PRISM(Peer Review Intelligence via Structured Multi-dimensional assessment)을 소개한다. ROUGE, BLEU와 같은 표면 수준의 지표나 유창성과 엄격성을 혼동하는 비제약적 LLM 평가자 프롬프팅에 기반한 대부분의 기존 평가와 달리, PRISM은 각 차원을 논증 마이닝, 검색 증강 검증, 합의 기반 점수 산정에 근거한다. 우리는 PRISM을 적용하여 ICLR, ICML, NeurIPS에서 수집한 계층화된 리뷰 코퍼스를 대상으로 5개의 주요 자동 리뷰어 시스템과 인간 리뷰어를 벤치마킹했다. 결과에 따르면, LLM은 개별 차원에서 인간 리뷰어와 동등하거나 더 나은 성과를 낼 수 있다. 즉, 비슷한 수준의 분석 깊이, 더 강력한 참신성 검증, 그리고 매우 정확한 비판 우선순위 지정이 가능하다. 그러나 단일 시스템이 모든 차원에서 인간 기준선의 균형 잡힌 성과를 일관되게 따라잡는 경우는 없었다. 각 시스템은 고유한 특화 프로필과 특징적인 사각지대, 즉 집계 지표가 완전히 놓치는 실패 모드를 보였다. 이는 LLM 리뷰어가 인간 리뷰에 대한 표적 보완재로서 가장 잘 이해되며, 특정 차원 내에서는 효과적이지만 독립적 대체재로서는 신뢰할 수 없음을 시사한다. 데모 및 주요 결과는 https://khanhthanhdev.github.io/prism-page/에서 확인할 수 있다.
점별 보상 모델링은 LLM 후학습에 중요한 신호를 제공하지만, 주관적이고 검증이 불가능한 환경에서는 절대적 점수 산정에 어려움을 겪는다. 루브릭 기반 방법은 평가를 명시적 기준으로 분해하여 이러한 문제를 해결하지만, 기존 접근법은 일반적으로 최첨단 LLM에 의존하고 엄격한 부울 집계로 인해 동점 문제가 발생한다. 본 논문에서는 교대 프레임워크인 RUBRIC-ARROW를 제안한다. 이는 루브릭 생성기와 루브릭 조건부 판별기를 공동으로 학습하며, 강화학습 단계에서는 쌍별 선호 데이터만을 사용한다. 제안 방법은 동점을 줄이는 확률 기반 점수 규칙과 단계별 선호 기반 보상, 그리고 점별 평가기를 함께 학습하는 교대 GRPO 기법을 결합한다. 광범위한 실험을 통해 RUBRIC-ARROW가 경쟁력 있는 보상 모델링 정확도를 달성하고, 하위 정책 후학습에서 일관된 성능 향상을 제공함을 보여준다.
로봇 조작은 동작과 관련된 장면의 측면을 보존하는 인식에 결정적으로 의존한다. 그러나 대부분의 로봇 학습 파이프라인은 정적 인식 또는 시각-언어 정렬을 위해 사전 학습된 시각 인코더를 기반으로 구축되어, 동작 이해는 하위 정책에 맡겨진다. 본 논문에서는 동작 인식을 인식(perception) 단계로 상향 이동시키는 동적 인식 기반의 다중 모달 사전 학습 프레임워크인 DynaFLIP을 제안한다. 우리는 이질적인 인간 및 로봇 비디오로부터 이미지-언어-3D 흐름 삼중항을 구성하고, 이 삼중항을 학습 시간의 감독 신호로 사용하여 이미지 전용 인코더를 형성한다. 핵심 아이디어는 세 가지 모달리티가 공유 초구 공간에서 작은 단체 부피(simplex volume)를 형성하도록 유도하는 것이다. 단체 부피가 작을수록 더 강한 정렬을 의미한다. 단순한 부피 최소화의 기하학적 모호성과 사소한 붕괴(trivial collapse)를 방지하기 위해, 단체 부피 최소화를 코사인 정칙화 항(cosine regularizer) 및 대조 손실(contrastive objective)과 결합한다. 분석 결과 DynaFLIP은 조작에 중요한 제어 관련 영역에 초점을 맞추는 것으로 나타났다. 결과적으로 얻어진 동적 인식 기반 표현은 재사용 가능한 시각 백본 역할을 하며, VLA(비전-언어-행동) 모델을 포함한 다양한 하위 정책에서 일관되게 기준선을 능가한다. 다양한 시뮬레이션 및 실제 환경에서 검증한 결과, 분포 외 시나리오에서 최대 +22.5%의 성능 향상을 달성했다. 본 결과는 시각적 표현이 단순히 무엇이 존재하는지뿐만 아니라, 행동 하에서 세계가 어떻게 변화하는지를 인코딩하도록 학습될 때 로봇 일반화가 향상됨을 시사한다.
지식 집약적 질의응답에서 사실적 정확성을 개선하기 위해 강화 학습을 적용할 때 보상 설계 딜레마가 발생한다. 응답 수준 보상은 거친 수준의 감독만을 제공하며 추론 과정 내에서 올바른 진술과 잘못된 진술을 구분할 수 없다. 문장 수준 대안은 더 세분화된 피드백을 제공하지만, 일반적으로 NLI 검증기, LLM 판별기 또는 지식 검증 파이프라인에 의존하며, 이는 강화 학습 규모에서 배포하기에 비용이 많이 들고, 특히 정확한 보상 신호가 중요한 희소 개체 사실에 대해 종종 신뢰할 수 없다. 우리는 신경 검증기를 위키피디아 동시 발생 통계에서 파생된 코퍼스 기반 신호로 대체하는 경량의 플러그인 방식 프로세스 보상인 CorVer(Corpus Verify)를 제안한다. CorVer는 문장 수준의 신용을 할당하고 간단한 정렬을 통해 이를 토큰 수준 이점에 매핑하며, 문장당 5억 개 규모의 추출기와 단일 코퍼스 조회만을 필요로 한다. 여섯 가지 명령어 튜닝 모델(3B~14B)과 다섯 가지 QA 벤치마크에 걸친 30개(모델, 벤치마크) 셀에서 CorVer는 모든 셀에 대해 원시 기준선 대비 성능을 향상시켰으며, TriviaQA에서 평균 +4.1% 포인트의 이득을 보였다. 또한 실행 가능한 구성 하에서 20개 셀 중 18개에서 네 가지 신경 검증기 기준선을 능가했으며, 훈련 속도는 4.8배에서 8.4배 더 빨랐다.
아동이 소통하는 다양한 음향 신호를 특성화하기 위한 새로운 벤치마크인 ChildVox를 제시한다. 구체적으로, ChildVox는 출생부터 학령기까지의 전체 발달 궤적을 따라 생리학적 소리, 비언어적 발성, 정규 음절, 그리고 구어를 포괄한다. ChildVox는 17개의 아동 중심 오디오 및 음성 데이터셋에 걸쳐 20개 이상의 하위 과제를 통합하여 체계적인 말뭉치 간 및 도메인 간 비교를 가능하게 한다. 우리는 자기지도, ASR 지향, 대규모 오디오-언어 모델을 포함한 대표적인 오디오 및 음성 기초 모델들을 생리학적 소리 분류, 발성 및 정규 음절 모델링, 음성 품질 평가 및 인식 과제에서 평가한다. 벤치마크 결과는 ChildVox가 아동의 다양한 음향 신호를 인식하는 데 있어 고성능 모델 모음을 제공하며, 아동의 언어 수준 특성화 및 연령에 따른 발화 생성 추적과 같은 하위 응용을 지원함을 보여준다.
멀티모달 대규모 언어 모델은 장기 에이전트로 점점 더 많이 배치되고 있으며, 이때 메모리는 단순한 회상을 넘어 진화하는 세계를 추적하고, 낡은 정보를 갱신하며, 의사 결정 시점에 적절한 증거를 제공해야 한다. 기존 벤치마크는 정적 대화에 대한 회상을 측정하고, 메모리를 단일 과제 종료 정확도로 축소하며, 시각적 관찰을 캡션으로 축소함으로써 기록, 유지, 검색, 사용 중 어느 단계에서 실패가 발생했는지 파악할 수 없게 한다. 스스로 메모리를 관리하는 에이전트 하네스의 등장은 이러한 격차를 더욱 심화시키는데, 수동 설계 파이프라인과 자체 관리 대안을 원칙적으로 비교할 방법이 없기 때문이다. 이러한 격차를 해소하기 위해, 우리는 멀티모달 에이전트 메모리를 관찰 가능한 4단계 생애주기를 가진 행동-세계 상호작용 루프로 정식화하고, 이를 WorldMemArena에 구현하였다. WorldMemArena는 평생 진화(진화하는 개인 및 과제 상태)와 에이전트 실행(실제 관찰, 행동, 피드백으로부터의 메모리)에 걸친 400개의 다중 세션 멀티모달 과제로 구성되며, 단계별 진단을 위한 실측 메모리 포인트, 업데이트, 방해 요소, 증거 체인이 주석으로 제공된다. 이를 통해 장기 컨텍스트, 수동 설계(RAG 및 외부 메모리 시스템), 하네스 기반 메모리 에이전트 간의 최초의 직접 비교가 가능해졌다. 결과는 다음과 같다: (1) 더 나은 메모리 기록과 저장이 더 나은 성능을 보장하지 않는다; (2) 멀티모달 메모리는 여전히 시각적 증거를 완전히 활용하는 데 어려움을 겪는다; (3) 시스템은 도메인 간에 불안정하며 현실적인 에이전트 궤적에서 성능이 저하된다; (4) 하네스 메모리는 더 유연하지만 여전히 비용이 많이 들고 신뢰성이 떨어진다.
원샷 Program-of-Thought (PoT)는 기본 동작 계획을 출력하는 Python 프로그램을 생성하며, 단 하나의 유효하지 않은 동작이 궤적 전체를 무효화한다. 우리는 RePoT(Recoverable PoT)를 제안한다: 이는 검증된 재생(verified replay)을 통해 계획을 환경에서 첫 번째 유효하지 않은 전이까지 실행한 후, 한 번의 LLM 호출로 검증된 접두사(verified prefix)부터 재개하는 결정론적 방법이다. RePoT는 PoT가 실패하는 약 14%의 문제에서 최대 한 번의 추가 LLM 호출만을 필요로 한다. RePoT는 PuzzleZoo-775에서 네 가지 폐쇄형 모델 구성에 대해 PoT 대비 +3~+11%p의 성능 향상을 보이며, gpt-5.4-mini-medium에서 86.3% 대비 96.9%의 최고 성능을 달성한다. 동일 예산의 PoT 재시도 기준선과 비교하여 RePoT는 Gemini에서 확실한 승리(+3.8%p, 95% CI [+2.2, +5.4])를 거두고, GPT-medium과 Claude에서는 샘플링 노이즈 이내이며, GPT-mini에서는 패배한다. 이는 적응형 RePoT(Adaptive RePoT)로 대응하기 시작한 능력 확장 패턴으로, 적응형 RePoT는 검증된 접두사의 길이에 기반하여 접미사 복구(suffix repair)와 새로운 PoT 재시도 간을 라우팅하는 규칙 기반 디스패처이다(예비 연구). PlanBench Blocksworld(+1.1~+11.4%p)와 네 개의 오픈 가중치 모델(네 개 중 세 개에서 +3.3~+20.0%p)에서도 결과를 재현한다. 통제된 복구 벤치마크인 Derail-550에서, 체크포인트 정보에 접근할 수 있는 모든 조건은 GPT-medium에서 30% 이상, Gemini에서 70% 이상의 성공률을 달성한 반면, 오류 정보만 제공된 조건은 3.1% 이하에 그쳤다. 이는 체크포인트 정보가 특정 검증된 접두사의 꼬리 부분이 아니라 복구의 핵심 신호임을 보여준다.
더 큰 모델은 더 작은 모델이 학습하지 못하는 작업을 학습한다. 이 현상의 원인은 무엇인가? 우리는 멱법칙 스케일링이 이미 더 큰 모델이 무한한 훈련 데이터를 사용하더라도 더 작은 모델이 학습하지 못하는 데이터 분포의 일부를 학습할 수 있음을 시사한다는 단순한 현상학적 논증을 제시한다. 이 주장을 검증하고 그 원인을 파악하기 위해, 단조로운 스케일링 곡선을 보이는 작업들의 혼합으로 구성된 합성 설정에서 모델 스케일링의 효과를 연구한다. 결과는 데이터 유발 자원(뉴런) 경쟁을 지적한다. 구체적으로, 더 작은 모델은 뉴런을 높은 빈도 또는 낮은 복잡성의 작업에 할당하므로, 드물고 복잡한 작업에 대해 성능이 낮은 해결책을 학습한다. 더욱이, 이는 원하는 작업을 표현할 수 있는 해결책이 존재하는 경우에도 발생한다. 그런 다음 더 큰 모델이 이러한 데이터 중심 병목 현상을 어떻게 극복하는지 평가하며, 이것이 감소된 간섭 메커니즘에 기인함을 발견한다: 더 큰 모델은 일반적인 작업에 충분한 자원을 할당하여 해당 작업에 대한 기울기 업데이트가 약해지며, 이는 드문 작업의 특징이 천천히 축적될 때 덮어쓰지 않음을 의미한다. 마지막으로, 이 주장들을 추가로 검증하기 위해 다양한 빈도와 복잡성을 가진 새로운 작업에 대해 OLMo 모델(400만 ~ 40억 파라미터)을 사전 훈련한다. 결과는 합성 데이터 실험 결과와 일치한다: 더 큰 OLMo 모델만이 드물고 복잡한 작업을 학습하며, 이러한 더 큰 모델은 표현에 더 많은 작업 특징을 내장하고 작업 간 기울기 간섭이 적게 나타난다. 전반적으로, 우리는 더 큰 모델이 더 작은 모델이 학습하지 못하는 작업을 학습하는 이유에 대한 데이터 중심 설명을 제공한다. 이는 실제로 더 큰 모델이 더 나은 이유를 설명하는 데 도움이 되며, 모델 크기와 훈련 데이터 혼합에 관한 실용적인 질문에 정보를 제공할 수 있다.
데이터 기반 접근법은 3D 비전에 혁명을 일으켜 트랜스포머가 정적 3D 객체를 효과적으로 재구성하고 생성할 수 있게 하였다. 그러나 포괄적인 3D 세계 모델을 구축하는 데 중요함에도 불구하고, 다양한 물리적 조건에서 정적 객체의 현실적인 시간적 변형인 시뮬레이티브 4D 동역학을 생성하는 것은 여전히 어렵고 종종 임시방편적으로 이루어진다. 대부분의 기존 방법은 사전 정의된 물리 모델을 가정하고 시스템 식별을 통해 매개변수를 추정하므로, 이러한 방법은 특정 범주와 소규모 데이터셋으로 제한된다. 우리는 객체 중심 물리 시스템에 대한 데이터 기반 운동학적 상태 매개변수화를 학습함으로써 이러한 제한을 극복할 수 있다고 제안한다. 구체적으로, 객체의 가능한 모든 상태를 나타내는 잠재 공간과 샘플링된 잠재 변수를 객체의 그럴듯하게 변형된 형상으로 매핑하는 디코더를 모두 학습한다. 우리는 이 매개변수화를 신경 객체 운동학(NeuROK)이라 명명하고, 선별된 대규모 4D 데이터셋에서 트랜스포머 기반 인코더-디코더 모델을 학습한다. 이 공식과 학습된 모델은 시뮬레이티브 동역학 생성을 크게 단순화하는데, 이는 고전 물리학의 라그랑주 역학 관점에서 저차원 잠재 공간 내의 동역학만 고려하면 되기 때문이다. 우리는 다양한 동적 객체 유형에 걸쳐 이 신경 시뮬레이션 프레임워크의 효과성과 일반성을 입증하며, 이전 연구보다 명확한 이점을 보여준다. 프로젝트 페이지: https://chen-geng.com/neurok
자기회귀 비디오 확산 모델은 프레임을 순차적으로 생성하고 각 청크를 이전에 생성된 콘텐츠에 조건부로 두면서 스트리밍 비디오를 생성한다. 이러한 모델은 구조적으로 첫 번째 프레임에 고정되어 있다. 즉, 첫 번째 프레임의 키-값 표현은 어텐션 캐시 내에서 특권적 위치를 차지하며, 생성 과정 전반에 걸쳐 주요 장면 참조 역할을 한다. 캐시 내에서 가장 깨끗하고 오류가 없는 위치인 이 앵커는 불균형적인 주의를 끌어 비디오 역동성을 억제하고, 장면이 자연스럽게 진화하더라도 장면 구성을 초기 시점에 고정시킨다. 그 결과 움직임, 카메라 이동 및 장면 진행이 정적 일관성을 위해 억제된 시간적으로 얕은 비디오가 생성된다. 이 문제를 해결하기 위해, 우리는 정적 앵커를 적응형 상태, 즉 모델이 매 청크마다 콘텐츠와 함께 잡음 제거를 수행하지만 결코 렌더링하지 않는 숨겨진 잠재 변수로 대체한다. 모델은 고정된 첫 번째 프레임을 참조하는 대신, 이전 상태와 현재 콘텐츠 모두에 주의를 기울여 각 단계에서 자체 장면 앵커를 생성하며, 이는 생성된 콘텐츠와 함께 진화하는 참조를 만들어낸다. 절대적 시간 개념을 부호화하는 표준 비디오 생성과 달리, 우리의 공식은 시간을 상대적으로 취급한다. 즉, 모든 생성 단계는 생성이 얼마나 진행되었는지와 관계없이 동일한 위치 구조를 보며, 상태 전환은 모든 청크에서 동일하다. 이러한 속성들은 공동으로 생성 과정에 재귀성을 도입하며, 여기서 잡음 제거는 전이 함수 역할을 하고 KV 캐시는 전달자 역할을 하여 외부 모듈이 필요하지 않다. 실험 결과는 적응형 상태가 비디오 역동성을 크게 개선하여 생성된 비디오 내에서 더 풍부한 움직임과 자연스러운 장면 진행을 가능하게 함을 보여준다.
자연 생성(Natural generation)은 대규모 언어 모델(LLM)이 풍부한 추론을 바탕으로 자유로운 형태의 응답을 생성할 수 있게 하지만, 구조가 부족하여 출력 결과를 검증하기 어렵다. 반면, 제약 디코딩(Constrained decoding)은 표준화된 형식을 보장하지만, 생성 과정 초기에 제약을 부과하여 의도치 않게 추론 능력을 제한할 수 있다. 본 논문에서는 단일 호출로 자유로운 형태의 추론과 구조적 생성을 결합한 하이브리드 접근법인 In-Writing을 제안한다. 모델은 먼저 제약 없는 추론을 수행하고, 트리거 토큰(trigger token)이 생성된 후에만 구조적 디코딩을 적용하여 추론과 형식화를 명시적으로 분리한다. 우리는 트리거 토큰 전략이 제약 디코딩이 진행 중인 추론을 중단시키는 오류 모드인 조기 트리거링을 사실상 근절할 수 있음을 입증한다. 분류 및 추론 과제를 포함한 다양한 데이터셋에 대한 평가 결과, 우리의 접근 방식이 자연 생성 대비 최대 27%의 정확도 향상을 달성하여 최첨단 성능을 능가함을 보여준다. 코드는 다음에서 확인할 수 있다: https://github.com/Nokia-Bell-Labs/InWriting.
비디오의 서사 품질은 근본적으로 그 지각적 가치를 결정한다. 기존의 비디오 생성 방법은 시각적으로 매력적인 콘텐츠를 생성할 수 있지만, 주로 텍스트 프롬프트나 첫 번째/마지막 프레임과 같은 희소한 조건 신호에 의존하므로 서사 구조와 시간적 페이싱에 대한 정밀한 제어가 제한된다. 본 논문에서는 다중 키프레임을 통해 비디오 생성 모델의 서사 능력을 향상시키는 프레임워크인 SmartDirector를 제안한다. SmartDirector는 단일 샷 생성, 다중 샷 서사 합성, 비디오 확장을 포함한 유연한 생성 시나리오를 지원한다. 프레임워크는 두 단계로 작동한다: Director-Gen은 제공된 키프레임을 조건으로 저해상도 비디오를 생성하고, Director-SR은 고해상도 키프레임을 의미적 앵커로 활용하여 미세한 세부 사항을 복원함으로써 출력을 개선한다. 강건한 다중 키프레임 훈련을 가능하게 하기 위해, 영화에서 단일 샷 및 다중 샷 시퀀스를 선별하는 데이터 파이프라인을 구축한다. 광범위한 실험을 통해 SmartDirector가 기존 최첨단 접근법을 크게 능가함을 입증한다. 추후 연구를 위해 코드를 공개할 예정이다.
가려짐 인식 예측은 관찰되지 않은 영역의 내재적 불확실성으로 인해 자율 주행에서 여전히 중요한 과제로 남아 있다. 기존 접근법들은 도달 가능한 상태에 기반하여 위험을 과대평가하거나 높은 가려짐 불확실성 하에서 정확한 궤적을 예측하는 데 어려움을 겪는다. 이러한 한계를 해결하기 위해, 우리는 부분적으로 관찰 가능한 환경을 위한 통합된 위험 지도 모델링 및 학습 프레임워크를 제안한다. 본 방법은 시공간 모델링을 통해 교통 흐름 위험과 충돌 위험을 통합하여 가려짐으로 인한 위험을 세밀하게 평가할 수 있게 한다. 가려진 상호작용이 포함된 시나리오의 부족 문제를 해결하기 위해, 우리는 현실적이면서도 적대적인 시나리오를 생성하는 확산 기반 시나리오 생성 프레임워크를 도입한다. 통합된 위험 지도의 모델링과 학습을 부분적 관찰 가능성 하에서 위험 인식 계획을 지원하는 하나의 프레임워크로 통합한다. Waymo Open Motion Dataset 실험 결과, 우리의 방법은 최신 가려짐 인식 기준선보다 현저히 우수한 성능을 보여주며, 최소 충돌 시간을 0.78배, 평균 충돌 시간을 1.67배 개선하였다. 제안된 프레임워크는 부분적으로 관찰 가능한 환경에서 위험 인식 계획을 위한 포괄적이고 실용적인 솔루션을 제공한다.
자기 지도 비전 모델과 텍스트-이미지 확산 모델의 기초 특징들은 의미론적 대응점 추정에 효과적임이 입증되었다. 그러나 이러한 특징들은 주로 2D 이미지 목적 함수로 학습되기 때문에 명시적인 3D 인식이 부족하며, 3D에서는 구별되는 대칭적인 객체 측면, 반복되는 부분, 시각적으로 유사한 구조를 종종 혼동한다. 본 논문에서는 3D 기초 모델의 사전 지식을 통합하여 기존 2D 기초 특징들을 넘어서는 3D 인식 사후 학습 프레임워크를 소개한다. 주어진 이미지에 대해, 우리의 방법은 SAM3D를 사용하여 객체 형상과 포즈를 추정하고, 렌더링-비교 최적화를 통해 포즈를 정제한다. 이후, 추정된 객체 포즈를 기반으로 재구성된 형상의 PartField 설명자를 이미지 평면에 렌더링한다. 결과적으로 얻어진 형상 인식 특징 맵은 DINO 및 Stable Diffusion 특징을 보완하며, 재구성된 형상에서의 측지 거리는 후보 대응점의 신뢰성 있는 필터링을 가능하게 한다. 필터링된 정합 쌍을 감독 신호로 사용하여 DINO 및 Stable Diffusion 위에 경량 어댑터를 학습시켜 의미론적 대응을 수행한다. 포즈 주석을 필요로 하고 거친 구형 형상에 의존하는 기존 사후 학습 접근법과 달리, 우리의 방법은 자동으로 인스턴스별 3D 구조를 얻고 이를 사용하여 대응 학습을 안내한다. 실험 결과, 우리의 접근법이 수동 형상 감독을 줄이면서 기존 방법보다 의미론적 대응 성능을 향상시킴을 보여준다. 코드와 모델은 https://github.com/GenIntel/3D-SC에서 확인할 수 있다.
최근 멀티모달 웹 에이전트의 발전은 종종 롤아웃 탐색, 검증기 패스, 오프라인 스킬 발견, 전문가 모델 스택 등을 포함한 추론 시 계산량 증가에 의존한다. 이는 핵심적인 질문을 제기한다: 웹 에이전트가 경험을 축적함에 따라 더 비용이 많이 드는 대신 더 효율적이 될 수 있는가? 먼저 VisualWebArena의 궤적을 분석하여 반복-행동 루프, 숨겨진 발견 비용, 낮은 프롬프트 캐시 재사용이라는 세 가지 반복적인 비효율성 원인을 식별한다. 그런 다음 PANDO를 소개한다. PANDO는 단일 롤아웃 온라인 스킬 증류 프레임워크로, 구조화된 스킬 라이브러리를 유지하며 진행 상황 반영, 신뢰도 기반 스킬 강등, 계층적 라우팅, 시각적 압축, 캐시 인식 프롬프팅을 결합한다. 총 910개의 VisualWebArena 작업에서 PANDO는 58.3%의 성공률을 달성하여 SGV(54.0%) 및 WALT 재현 실험(45.2%)을 능가하는 동시에 SGV보다 58%, WALT보다 61% 적은 토큰을 사용하며, 사전 평가 발견 비용이 전혀 없다. 300개 작업에 대한 추가 실험은 규칙과 루틴이 성공률 향상의 대부분을 제공하는 반면, 라우팅, 압축 및 캐시 인식 프롬프팅이 더 큰 스킬 라이브러리를 더 낮은 한계 토큰 비용으로 전환함을 보여준다. 마지막으로, 행동 반복률, 단계 오버헤드 비율, 프롬프트 캐시 활용률의 세 가지 궤적 수준 효율성 지표를 도입하여 최종 성공 너머에서도 효율성을 가시화한다.
장기 범위 LLM 추론은 키-값(KV) 캐시를 지배적인 GPU 메모리 소비자로 만들고, 토큰별 어텐션 비용을 점점 더 증가시킨다. 많은 일반적인 제거 정책은 정적 최신성 윈도우나 과거 어텐션을 사용하며, 매 디코딩 단계에서 계산되는 신호인 모델의 현재 불확실성을 활용하지 않는다. 본 논문은 CONF-KV를 소개한다. 이는 다음 토큰 분포를 스칼라 신뢰도 점수로 변환하고, 이를 이용해 단계별 캐시 예산을 결정하여 모델이 불확실할 때는 더 많은 컨텍스트를 유지하고, 확신이 있을 때는 적극적으로 가지치기(pruning)를 수행하는 KV 캐시 관리자이다. 각 예산 내에서 토큰은 누적 어텐션 질량과 최신성의 복합 지표에 따라 순위가 매겨지며, 보호된 최근 윈도우는 지역적 일관성을 유지한다. 우리는 이 정책을 블록별 온라인 소프트맥스 어텐션, 혼합 FP16/INT8 저장소, 그리고 피라미드형 레이어별 예산 변형과 결합한다. 네 가지 모델 군과 최대 4K까지의 생성 길이에 걸쳐 CONF-KV는 고정 512-토큰 슬라이딩 윈도우의 메모리 사용량에 가까우면서도, 전체 KV 대비 1.5~2.1 퍼플렉서티 포인트 이내를 유지한다. 최대 32K 토큰의 Needle-in-a-Haystack 작업에서 CONF-KV는 91.4%의 검색 정확도를 달성하며, 이는 슬라이딩 윈도우의 53.8%, H2O의 80.6%보다 높은 수치이다. 75개의 VisualWebArena 작업에서는 전체 KV 성공률의 95.3%를 유지하면서 최고 메모리는 2.8배 낮았다.
대규모 언어 모델(LLM)은 지침 수행과 복잡한 추론 능력이 점점 향상되면서, 파라미터 업데이트 없이 모델을 적용할 수 있는 유연한 인터페이스로서 프롬프팅이 주목받고 있다. 그러나 프롬프트 설계는 여전히 노동 집약적이며 형식, 표현 방식, 지침 순서에 매우 민감하여, 수동 작업을 줄이면서도 추론 시 유연성을 유지하는 자동화된 프롬프트 최적화 방법이 필요하게 되었다. 하지만 기존 방법들은 대개 프롬프트 후보군을 탐색하거나 개별 예시 또는 소규모 배치에 기반한 고정된 비평-수정 파이프라인을 사용하기 때문에, 체계적인 오류 패턴을 포착하고 실패 이력을 바탕으로 한 정밀한 수정을 수행하는 데 한계가 있다. 본 연구에서는 인간 프롬프트 엔지니어의 반복적 작업 흐름을 모사하기 위해 LLM 함수 호출을 활용하는 프레임워크인 반영적 프롬프트 튜닝(Reflective Prompt Tuning, RPT)을 제안한다. LLM 옵티마이저는 전체 최적화 세트에 대해 대상 모델을 평가하고, 반복적으로 발생하는 실패 유형을 요약하며, 구조화된 진단 보고서를 반환하는 진단 함수를 호출한다. 옵티마이저는 이 보고서와 이전 보고서들의 축적된 메모리를 활용하여 다음 반복을 위한 프롬프트를 수정한다. 또한 RPT는 진단 피드백과 최종 프롬프트 선택에 교정 신호(calibration signals)를 활용하여 신뢰도 인식 최적화를 지원한다. 세 가지 추론 과제에서 RPT는 초기 프롬프트 대비 최대 12.9점 향상되었으며, 최신 기술과 경쟁력을 유지하고 신뢰도 교정을 개선하였다. 분석 결과, RPT는 다중 홉 및 수학적 추론에서 특히 효과적이며, 진단된 실패 패턴에 부합하는 정밀한 프롬프트 수정을 통해 과제 성능과 교정에서 이점을 제공함을 보여준다.
대규모 언어 모델(LLM)은 인공지능의 핵심 패러다임으로 자리 잡았지만, 주의 메커니즘(attention)의 핵심 계산 원형은 구조적으로 변하지 않은 상태로 남아 있다. 국소 선형 주의(Local Linear Attention, LLA)는 테스트-시간 회귀(test-time regression) 프레임워크에서 비모수 통계로부터 도출된 주의 메커니즘이다. 기존의 효율적인 주의 변형 연구와 달리, LLA는 소프트맥스 주의(softmax attention)에서의 국소 상수 추정을 국소 선형 추정으로 업그레이드하여 연상 기억(associative memory)에 대해 증명 가능하게 우수한 편향-분산 절충(bias-variance tradeoff)을 제공한다. 그러나 LLA는 계산 및 수치 안정성 문제로 인해 LLM 사전학습에서 확장되지 못했다. 우리는 LLM에 대해 확장 가능한 매개변수화된 국소 선형 주의인 Parallax를 소개한다. Parallax는 LLA의 수치 해법기를 제거하고 KV 공분산을 탐색하는 추가적인 쿼리 유사 프로젝터(projector)를 학습한다. Parallax를 대역폭(bandwidth), 프로브 구성(probe construction), 아핀 구조(affine structure)로 연결된 주의 메커니즘군(family) 내에 위치시킨다. 우리는 FlashAttention보다 연산 강도(arithmetic intensity)를 높여 주의를 더욱 연산-지배(compute bound) 영역으로 전환하는 하드웨어 인식 알고리즘을 제안한다. 우리의 프로토타입 디코딩 커널은 다양한 배치 크기와 컨텍스트 길이에서 FlashAttention 2/3와 일치하거나 이를 능가한다. 0.6B 및 1.7B 규모에서 Parallax를 사전학습한 결과, 사전학습 전반에 걸쳐 일관된 혼란도(perplexity) 개선이 관찰되었으며, 그 이점은 하류 벤치마크(downstream benchmarks)로 전이되었다. 이러한 우위는 매개변수-일치 및 연산-일치 통제 하에서도 유지되어 파레토 개선(Pareto improvement)을 입증한다. 우리는 주의 깊은 사전학습 절제 실험(ablations)을 수행했으며, Muon이 Parallax의 용량을 잠금 해제하는 새로운 현상을 식별했다. 우리가 아는 한, 이는 구조 연구 문헌에서 주의 메커니즘에 대한 강력한 구조-최적화기 공동설계(architecture-optimizer codesign)의 첫 번째 실증적 시연이다.
인간 피드백 기반 강화학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 정렬시키는 표준 방법이다. 본 연구에서는 LLM이 정렬 과정을 겪으면서 선호도 데이터셋에 영향을 미쳐 RLHF가 바람직하지 않은 행동을 증폭시키는 잠재적 취약점인 **정렬 변조(alignment tampering)**를 소개한다. 이는 RLHF의 근본적인 한계에서 비롯된다: (1) 선호도 데이터셋이 LLM 자체의 출력으로부터 구축되므로 모델이 이에 영향을 줄 수 있으며, (2) 쌍별 비교(pairwise comparison)는 어떤 응답이 더 나은지만 나타낼 뿐 그 이유를 설명하지 않는다. 이러한 한계는 정렬 변조를 유발하도록 악용될 수 있다. 예를 들어, LLM이 편향된 응답을 더 높은 품질로 생성한다면, 주석자(annotator)는 품질에 기반해 이를 선호하게 된다. 그러나 선호도 레이블은 품질과 편향을 구분하지 못하며, 보상 모델도 이러한 한계를 그대로 물려받는다. 강화학습이나 best-of-N 샘플링을 통해 이러한 보상을 최적화하면 잘못 정렬된 편향이 증폭될 수 있다. 본 실험은 다양한 편향(키워드 편향에서부터 성차별과 같은 선전, 브랜드 홍보, 도구적 목표 추구까지)에 걸쳐 이러한 증폭 현상을 입증한다. 기존의 강건한 RLHF 기법들이 응답 품질을 희생하지 않고는 정렬 변조를 완전히 해결하지 못하므로, 이에 대한 완화는 여전히 어려운 과제로 남아 있다. 이러한 발견은 현재 RLHF의 구조적 취약점을 드러내며, 이 취약점을 방지할 필요성을 강조한다. 프로젝트 페이지: https://alignment-tampering.github.io/
대규모 API 카탈로그에서의 도구 검색은 LLM 에이전트의 핵심 병목 현상입니다. 사용자 질의는 구어체의, 종종 불충분하게 명시된 언어로 도착하는 반면, 카탈로그는 고정 인코더만으로는 자체적으로 연결할 수 없는 기술적인 API 어휘를 사용합니다. 두 가지 지배적인 훈련 접근 방식인 대조적 인코더 미세 조정과 고정된 LLM을 사용하는 HyDE 스타일 질의 확장은 이 문제를 반대쪽 끝에서 접근하며 상호 보완적인 방향으로 실패합니다. 미세 조정된 인코더는 질의의 표면 형태가 이미 카탈로그와 일치할 때 뛰어나지만 그렇지 않을 때는 붕괴되는 반면, 제로샷 HyDE는 불충분하게 명시된 질의에 더 강건하지만 질의가 잘 형성되었을 때 검색을 저하시키는 카탈로그를 인식하지 못하는 가상 설명을 생성합니다. 우리는 밀집 인코더와 LLM 재작성기를 단일 공진화 시스템으로 훈련하는 반복 절차인 CoHyDE를 소개합니다. 인코더는 재작성기가 생성한 카탈로그 스타일의 가상 설명에 대해 InfoNCE로 재훈련되고, 재작성기는 인코더의 검색 점수에 대해 DPO를 통해 선호도 정렬되며, 루프가 시작되기 전에 양쪽 모두 도구 카탈로그에서 웜 스타트됩니다. ToolBench 카탈로그의 약 10k 도구 하위 집합에서 세 번의 CoHyDE 라운드는 가장 강력한 단일 구성 요소 기준선보다 표준 질의에서 +2.5 pp NDCG@5, 보류된 모호한 질의에서 +6.3 pp 향상되었으며, 가장 어려운 모호한 계층에서는 최대 +8 pp의 이득을 보였습니다. 절제 실험을 통해 공동 훈련이 핵심 요소임을 확인했습니다. 단일 구성 요소를 독립적으로 사용하면 잘 형성된 질의와 모호한 질의 모두에서 CoHyDE에 미치지 못하며, 모호한 질의에서는 최대 -8 pp의 손실이 발생합니다.
우리는 LoRA 어댑터(미세 조정된 LLM의 지배적인 배포 형식)가 기본 작업 성능을 유지하면서 학습 데이터 오염을 통해 신뢰할 수 있게 백도어될 수 있음을 보여준다. Qwen 2.5 1.5B 프롬프트 주입 분류기에서 소량의 오염된 예제가 정확도를 유지하는 백도어를 포화 상태로 유도한다. 결과 백도어는 구조적 패턴 수준이 아닌 토큰 특징 수준에서 일반화된다. 즉, 하나의 RFC 참조로 학습된 모델은 임의의 RFC 참조에서 활성화되지만, 구조적으로 동일한 ISO, OWASP, CWE 또는 NIST 인용에는 전이되지 않는다. 이러한 비대칭성은 공격자에게 유리한데, 방어자가 "구조화된 인용"을 일반적으로 탐지할 수 없기 때문이다. 우리는 이 공격을 기본 모델 규모와 계열, LoRA 랭크, 트리거 문자열에 걸쳐 특성화하고, 다중 시드 어댑터 코호트에 대해 두 가지 상호 보완적 탐지 경로를 평가한다. 두 가지 프로브 배터리 통계량(outlier_gap과 mean_attack_rate)으로 구축된 행동 탐지기는 프로브 배터리가 트리거의 토큰 이웃과 겹칠 때 오염된 어댑터와 깨끗한 어댑터를 완벽히 분리하며, 겹치지 않을 때는 거짓 양성 없이 높은 재현율을 보인다. 차원 정규화된 프로베니우스 노름의 교차 모듈 표준 편차라는 가중치 수준 통계량은 모델을 실행하지 않고도 코호트를 완벽히 분리한다. 두 경로를 결합하면 프로브 구성에 강건하다. 인과 패칭은 백도어를 중간에서 후반 레이어의 MLP 블록에 국한시키며, down_proj가 가장 강력한 단일 투영 원인임을 보여준다. 규모, 계열, 랭크에 걸친 복제 실험은 행동 탐지기가 재조정 없이 전이되는 반면, 가중치 수준 탐지기는 기본 모델에 교정에 의해 묶여 있음을 보여준다. 공격은 랭크에 따라 단조롭게 증가하며, 선택된 트리거-앵커 토큰은 트리거와 기본 모델 모두에 의존적이다. 행동 탐지기는 어댑터 공급망 스캐닝을 위한 운영상 이식 가능한 결과이다.
비전-언어 모델(VLM)은 종종 강건한 3D 공간 추론에 어려움을 겪는다. 기존의 주된 방법들은 3D 시각 질의응답(VQA) 데이터셋을 미세 조정하는 데 의존하는데, 이는 데이터셋 특유의 편향에 과적합될 수 있으며, 특수화된 3D 시각 인코더를 통합하는 것은 종종 유연하지 못하고 번거롭다. 본 논문에서는 진정한 공간 이해가 고수준의 VQA 감독뿐만 아니라 기본적인 기하학적 사전 지식을 학습함으로써 비롯되어야 한다고 주장한다. 우리는 이러한 사전 지식을 LLM의 트랜스포머 층에 직접 주입하는 프레임워크인 GASP(Geometric-Aware Spatial Priors)를 제안한다. GASP는 모든 층에 걸쳐 깊은 감독 신호로 적용되는 소형 대응 헤드를 사용하며, 대규모 비디오 장면의 실제 기하학을 활용한 이중 목적 함수로 훈련된다. 즉, 실제 점 대응에 대한 대조 손실은 2D 시점 불변성을 강제하고, 깊이 일관성 감독은 3D 기하학적 모호성을 해결한다. 우리의 분석은 먼저 표준 VLM의 내부 대응 정합 정확도가 매우 낮음(종종 5% 미만)을 보여주는 진단을 제공한다. 그런 다음 우리의 훈련이 이 동작을 실질적으로 개선하여 층별 대응 최고치를 70% 이상으로 끌어올리고 기준선이 5% 미만인 상태에서 85% 이상의 시간적 강건성을 유지함을 입증한다. 이러한 내부 개선은 하류 공간 벤치마크에서 상당한 성능 향상으로 이어져, All-Angles Bench에서 +18.2%, VSI-Bench에서 +29.0%의 향상을 보였으며, 이 모든 것은 3D VQA 데이터에 대한 훈련 없이 이루어졌다. 우리의 발견은 기본 기하학적 사전 지식으로부터 학습하는 것이 보다 신뢰할 수 있는 3D 공간 추론을 갖춘 VLM을 향한 유망하고 일반화 가능한 경로임을 시사한다.
우리는 협력을 위한 2단계 자동 연구(auto research)를 연구한다: 외부 루프 AI 에이전트가 다중 에이전트 순차적 사회적 딜레마(SSD)를 위한 LLM 정책 합성 시스템의 내부 루프 파이프라인을 자율적으로 재설계한다. 연구자 에이전트 R(코딩 에이전트로 실행됨)은 내부 루프 소스 코드를 읽고, 시스템 프롬프트, 피드백 함수, 헬퍼 라이브러리 및 반복 로직을 편집하며, 평가를 실행하고, 유지할 항목을 결정함으로써 자동 연구 패러다임을 따른다. 두 게임(Cleanup 및 Gathering), 두 개의 정책 합성기 LLM, 두 가지 복지 목표(공리주의적 효율성 및 롤스적 맥시민)에 걸쳐, 연구자는 수동 설계 기준선을 확실히 능가하고, 실행 간 분산을 급격히 좁히며, 프롬프트 전용 최적화보다 성능이 우수하다. 발견된 파이프라인은 목표 의존적이다: 맥시민 하에서만 연구자는 합성기 파이프라인에 명시적 공정성 메커니즘을 주입하는데, 이는 연구자 자신의 목표 비의존적 시스템 프롬프트와 모든 효율성 최적화 파이프라인에는 없는 메커니즘 유형이다. 이는 연구자가 복지 목표의 함수로서 제한적 합리성을 가진 합성기에게 무엇을 공개할지 선택하는 정보 설계(information-design) 해석을 뒷받침한다. 코드는 https://github.com/vicgalle/autoresearch-social-dilemmas에서 확인할 수 있다.
본 논문에서는 OmniInteract를 소개한다. 이는 오디오-비주얼 스트림에 대한 네이티브 온라인 추론을 통해 평가되는 실시간 옴니모달 대규모 언어 모델을 위한 스트리밍 벤치마크이다. 오프라인 비디오 이해나 텍스트 프롬프트 기반 스트리밍 QA와 달리, OmniInteract는 원본 오디오-비주얼 스트림을 유지하며 모델이 미래 콘텐츠에 접근하지 않고 온라인으로 처리할 것을 요구한다. 사용자 질의와 주변 소리는 오디오 트랙에 내장되어 있어, 모델이 멀티모달 트리거를 감지하고, 응답 시점을 결정하며, 스트림이 전개되는 동안 답변해야 한다. OmniInteract는 250개의 비디오와 1,430개의 시간적으로 고정된 응답 슬롯을 포함한다: 실시간, 능동적, 그리고 중첩 시나리오에 걸친 1,062개의 1Q1A 슬롯과 연속적인 작업 모니터링 및 단계 안내를 위한 368개의 1QnA 슬롯이 있다. 각 슬롯에는 트리거, 응답 윈도우, 그리고 목표 답변이 포함된다. 응답 정확성, 타이밍, 무효 출력, 중단 처리, 그리고 맥락 연속성을 상호작용 인식 품질-적시성 F1, 중단 진단 스위트, 중첩 체인 완료 점수를 사용하여 평가한다. 실험 결과, 현재 모델은 스트리밍 상호작용에서 여전히 취약하며, 최고 전체 IA-QTF1은 0.368에 불과하고 최고 1QnA IA-QTF1은 0.052에 그친다. 전이중 설정에서의 수학적 추론에 대한 추가 연구는 오프라인 능력이 반드시 온라인 상호작용으로 전이되지 않음을 보여준다. 코드와 데이터셋은 https://github.com/Lucky-Lance/OmniInteract에서 공개적으로 접근 가능할 것이다.
고충실도 3D 가우시안 헤드 아바타 생성은 AR/VR, 원격현장감, 디지털 휴먼과 같은 응용 분야에 필수적이다. 기존 방법들은 다중 시점 데이터셋, 3D 캡처, 또는 중간 2D 뷰 합성에 의존한다. 이와 대조적으로, 우리는 다중 시점 데이터, 3D 감독, 또는 중간 뷰 생성 없이 무작위로 샘플링된 2D 이미지만으로 조건부 및 무조건부 3D 헤드 모델을 모두 학습한다. 우리는 MVCHead를 제안하는데, 이는 단일 샷 상태 공간 모델로서 3D 표현에서 직접 다중 시점 일관성(MVC)을 강제하면서 이러한 제약 조건 하에 3D 가우시안을 회귀한다. 핵심적으로, 우리는 계층적 상태 공간(HiSS) 블록을 제안하여 가우시안을 대략적에서 정밀하게 점진적으로 개선하면서 장거리 의존성을 포착한다. 각 HiSS 블록 내에서, 우리는 Mamba의 표준 단방향 스캔을 제안된 계층적 양방향 상태 스캔(HiBiSS)으로 수정하여, 재귀를 다중 시점 불일치가 가장 강한 축과 정렬한다. 마지막으로, 우리는 SE(3) 다중 시점 비평가를 설계하여 자체 렌더링 집합이 단일 하부 3D 구성에서 비롯되었는지 판단하고, 실제 다중 시점 쌍을 관찰하지 않고도 교차 뷰 픽셀 정렬에 보상을 제공한다. MVCHead는 최첨단 지각 품질을 달성하며, 질감 및 기하학적 일관성 모두에서 이전 방법을 능가하고, 형태 일관성도 유사하게 유지한다. 확장성을 입증하기 위해, 우리는 3D 헤드 모델의 훈련 및 평가를 위한 사용 준비된 3D 가우시안 헤드 에셋으로 구성된 최초의 대규모 데이터셋인 FaceGS-10K를 공개한다. 프로젝트 페이지 및 코드: https://humansensinglab.github.io/MVCHead/
세계화와 다문화주의는 점점 더 다양한 언어 변이형을 생성하고 있다. 그러나 현재의 음성 대화 시스템은 과소 대표된 방언과 억양에서 자주 실패하며, 입력 언어를 잘못 식별하여 하류 대화 작업에서 연쇄적 실패를 초래한다. 저자원 제약 하에서 이러한 방언 변이를 해결하는 것은 여전히 해결되지 않은 과제로 남아 있는데, 표준 미세 조정은 계산 비용이 많이 들고 고차원 음성 데이터에 과적합되기 쉽기 때문이다. 본 논문에서는 이론적으로 정립된 볼록 최적화 기법을 음성 대화 시스템 파이프라인에 통합한 새로운 프레임워크인 Convex Language Detection (CLD)을 제안한다. 본 방법은 JAX에서 다중 GPU 교번 방향 승수법(ADMM)을 통해 효율적으로 구현되어 전역 최적성 보장과 다항식 시간 내 빠른 학습을 제공한다. 이론적으로, 우리는 볼록 목적 함수가 인증된 마진 안정성을 유도하며 특징 섭동에 대한 보장을 제공함을 증명한다. 실험적으로, 우리는 샘플 효율성과 입력 방언 변이에 대한 강건성을 입증하며, 까다로운 저자원 환경에서 97-98%의 정확도를 달성한다. 오픈소스 패키지는 https://pypi.org/project/jaxcld/에서 제공된다.
이산 확산 모델은 종종 깨끗한 데이터 예측을 통해 훈련되지만, 이 예측은 역방향 동역학을 정의하는 데 다양한 방식으로 사용될 수 있습니다. 마스크 확산 모델(MDM)에서는 이러한 선택이 대체로 일치하는 반면, 균일 확산 모델(UDM)에서는 그렇지 않습니다. 우리는 UDM에 대한 표준 플러그인 브리지 매개변수화가 잡음 제거 사후 확률에 의해 최적화되지 않고, 각 깨끗한 토큰을 자신의 잡음 관측값을 사용하지 않고 예측하는 leave-one-out 사후 확률에 의해 최적화된다는 것을 보여줍니다. 이는 플러그인 ELBO와 일반적인 교차 엔트로피 잡음 제거 목적 함수 간의 불일치를 식별합니다. 우리는 leave-one-out 대상을 특성화하고, 잡음 제거기, leave-one-out 사후 확률, 스코어 간의 정확한 변환을 도출합니다. 이러한 변환을 통해 매개변수화와 훈련 목적 함수를 분리할 수 있습니다. 우리의 결과는 또한 정보에 기반한 예측자-교정자 샘플러와 leave-one-out 예측자에 기반한 개선된 온도 샘플링을 통해 추가 훈련 없이 추론 개선을 이끌어냅니다. 또한 우리는 UDM 결합 법칙을 유지하면서 이를 마스크 확산과 유사한 샘플링 연산, 더 간단한 잡음 제거 사후 확률, 이월 언마스킹, 자연스러운 재마스킹 메커니즘으로 분해하는 균일 확산의 흡수 상태 재구성을 소개합니다. 언어 모델링에서 leave-one-out 매개변수화는 UDM 생성 성능을 일관되게 향상시키는 반면, 흡수 구성은 마스크 확산과 동등하거나 이를 능가합니다. 이러한 결과는 마스크 확산과 균일 확산 사이의 경험적 차이가 한계 분포 자체의 선택보다는 매개변수화와 샘플링 설계에 더 크게 기인함을 시사합니다. 코드와 모델은 https://github.com/samsongourevitch/rev_udm에서 확인할 수 있습니다.
영화 수준의 동물 효과를 구현하려면 근육과 털의 동역학을 정밀하게 모델링해야 하며, 이 과정은 기존 제작 파이프라인에서 여전히 많은 노동력과 계산 비용을 요구한다. 생성적 확산 모델이 다양한 예술적 워크플로에서 가능성을 보여주었지만, 고충실도 동물 시뮬레이션을 위한 역량은 아직 충분히 활용되지 못하고 있다. 본 논문에서는 MoZoo를 제안한다. 이는 생성적 동역학 해법기로서, 기존의 정교화 과정을 생략하고 거친 메시로부터 멀티모달 가이던스 하에 고충실도 동물 비디오를 합성한다. 역할 인식 RoPE(Role-Aware RoPE, RAR-RoPE)를 제안하여 역할 기반 인덱스 재매핑을 통해 모션 정렬을 동기화하는 동시에 고정된 시간적 오프셋을 통해 참조 정보를 분리한다. 이와 더불어 비대칭 분리 어텐션(Asymmetric Decoupled Attention)은 잠재 시퀀스를 분할하여 단방향 정보 흐름을 강제함으로써 특징 간섭을 효과적으로 방지하고 계산 효율성을 향상시킨다. 고품질 훈련 데이터의 부족 문제를 해결하기 위해 MoZoo-Data를 도입한다. 이는 렌더링 엔진과 역매핑 접근법을 활용하여 대규모 쌍 시퀀스 데이터셋을 구축하는 합성-실사 파이프라인이다. 또한, 120개의 메시-비디오 쌍으로 구성된 포괄적 벤치마크인 MoZooBench를 구축한다. 실험 결과는 MoZoo가 다양한 동물 골격과 배치에서 고충실도 털 시뮬레이션을 달성하며, 시간적 및 구조적 일관성을 우수하게 유지함을 보여준다.
대규모 언어 모델(LLM)은 다양한 민감한 맥락에서 체계적인 정치적 편향을 나타냅니다. 우리는 LLM이 반대 정치 진영의 대응 주제를 비대칭적으로 처리한다는 것을 발견했습니다. 이 현상을 은밀한 정치적 편향이라고 부르며, 이를 작동시키는 7가지 기술 범주를 식별했습니다. 우리는 은밀한 편향을 측정하기 위한 두 가지 지표를 제안합니다: 감정 일관성은 짝을 이룬 정치적 프롬프트 간 수사와 프레이밍의 대칭성을 측정하고, 유용성 일관성은 대칭적인 깊이와 참여도를 측정합니다. 두 가지 유형의 은밀한 편향을 줄이기 위해, 우리는 정치적 일관성 훈련(PCT)을 도입합니다. 이는 감정 일관성 훈련과 유용성 일관성 훈련이라는 두 가지 보완적 패러다임을 가진 강화 학습 훈련 방법입니다. 우리는 PCT가 전반적인 유용성을 유지하고, 은밀한 정치적 편향을 실질적으로 줄이며, 보류된 벤치마크에 일반화됨을 보여줍니다. 우리의 작업을 https://political-manipulation.ai에서 공개합니다.
최근 시각-언어 모델(VLM)의 발전은 다양한 작업에서 인상적인 성능을 달성했지만, 대규모 언어 모델이나 멀티모달 모델을 순차 데이터의 이상 패턴 탐지에 적용할 때는 만족스럽지 못한 성능이 보고되어 왔다. 공개 이상 탐지 벤치마크는 일반적으로 구간 주석을 제공하지만 자연어 설명을 제공하지 않아, 근거 기반의 해석 가능한 결정을 내릴 수 있도록 VLM을 미세 조정하기 어렵게 만든다. 이러한 격차를 해소하기 위해, 우리는 공개 시계열 데이터셋을 기반으로 구축되고 세분화된 작업별 보상을 사용하여 여러 대규모 VLM에서 선별된 고품질 이상 설명으로 보강된 벤치마크인 VisAnomBench를 구축한다. 이 벤치마크에 대한 미세 조정을 통해, 우리는 시계열 이상 탐지를 위한 매개변수 효율적 VLM인 VisAnomReasoner를 개발한다. VisAnomBench에 대한 실험 결과, VisAnomReasoner는 더 정확한 이상 위치 파악을 달성하며 모든 기준 모델을 지속적으로 능가하여 정밀도와 F1에서 각각 최소 21.23 및 23.87 퍼센트 포인트의 향상을 보였다. TSB-AD-U 벤치마크에 대한 추가 실험은 강력한 교차 벤치마크 일반화를 입증했으며, VisAnomReasoner는 정밀도와 F1을 각각 9.57 및 13.39 퍼센트 포인트 향상시켰다.
본 연구는 비디오 시퀀스로부터 공간적으로 밀집되고 시간적으로 일관된 기하 정보를 복원하는 피드포워드 기반 모델 ViGeo를 제시한다. 작업별 아키텍처 수정 없이 단순 트랜스포머 아키텍처를 기반으로 구축된 ViGeo는 통합 모델 내에서 스트리밍, 전체 시퀀스 및 장기 비디오 추론을 지원한다. 핵심 설계는 동적 청킹 어텐션(dynamic chunking attention)으로, 이는 훈련 중에 모델이 양방향 및 인과적 시간적 맥락을 모두 접하도록 하고, 재훈련 없이 테스트 시점에 어텐션 패턴을 적응시킬 수 있게 한다. 또한, 지도(supervision) 품질을 향상시키기 위해 완성 기반 데이터 정제 프레임워크를 추가로 도입한다. 이 프레임워크는 희소하고 잡음이 있는 주석(annotation)을 조건으로 하여 비디오/다중 시점 맥락을 활용하여 밀집되고 시간적으로 일관되며 기하학적으로 신뢰할 수 있는 훈련 대상을 생성하는 비디오 깊이 완성 교사(video depth completion teacher)를 훈련한다. ViGeo는 깊이 및 포인트 맵 외에도 동일한 프레임워크 내에서 표면 법선을 예측한다. 공개 데이터셋만으로 훈련된 ViGeo는 온라인, 오프라인 및 장기 비디오 깊이 추정, 표면 법선 추정, 비디오 포인트 맵 추정 분야에서 최고 수준의 성능을 달성한다.
휴대폰 사용 에이전트의 핵심 병목은 실제 모바일 행동을 포괄하는 통제 가능하고 재현 가능한 환경을 대규모로 구축하기 어렵다는 점이다. 기존 모바일 에이전트 벤치마크는 평가에서 중요한 진전을 이루었지만, 그 자체만으로는 많은 새로운 휴대폰 사용 환경을 구축할 수 있는 확장 가능한 방법을 제공하지 못한다. 우리는 PhoneWorld를 제시한다. 이는 실제 GUI 궤적과 스크린샷을 통제 가능한 휴대폰 사용 환경, 실행 가능한 작업, 자동 검증기, 훈련 롤아웃으로 변환하는 재사용 가능한 파이프라인이다. 한 번에 하나의 모바일 벤치마크를 수동으로 구축하는 대신, PhoneWorld는 실제 궤적을 사용하여 어떤 화면이 중요한지, 화면이 어떻게 연결되는지, 어떤 상호작용이 환경 상태를 변경해야 하는지, 그리고 어떤 사용자 목표가 자동 검증을 허용하는지를 복원한다. 이러한 신호로부터 읽기 전용 앱 콘텐츠와 가변 상태로 뒷받침되는 실행 가능한 모의 안드로이드 앱을 구축한 다음, 동일한 환경에서 실행 가능한 작업, 규칙 기반 검증기 및 훈련 롤아웃을 도출한다. 현재 구현에서 PhoneWorld는 16개 도메인의 34개 앱을 포괄하며, 검색, 브라우징, 쇼핑, 예약, 미디어, 소셜 상호작용과 같은 일반적인 소비자 모바일 행동을 다룬다. 고정된 훈련 예산 하에서, AndroidWorld 기반 기준선의 보조 AndroidWorld 코퍼스에서 10K 스텝을 광범위한 PhoneWorld 감독으로 대체하면 네 가지 평가 벤치마크가 모두 동시에 개선되어 HYMobileBench가 17.7포인트, AndroidControl이 6.0포인트, AndroidWorld가 14.7포인트, PhoneWorld가 52.5포인트 상승한다. 그런 다음 두 가지 추가 확장 질문을 연구한다: PhoneWorld 감독량을 늘리면 PhoneWorld 성능이 크게 향상되며, 고정된 PhoneWorld 예산 하에서 앱 범위를 확장하면 훨씬 더 큰 이득을 얻을 수 있다. 전반적으로 PhoneWorld는 한 번에 하나의 모바일 벤치마크를 구축하는 것에서 휴대폰 사용 환경 자체의 공급을 확장하는 것으로 초점을 전환한다.
스마트폰 사기는 점점 더 보편화되고 있으며, 일반적으로 다단계의 교차 애플리케이션 프로세스로 나타나 의도가 점진적으로 드러난다. 따라서 효과적인 개입을 위해서는 의도가 명확해지기 전에 사기를 예측해야 한다. 이는 부분적인 궤적과 시간적으로 분산된 증거에 기반해 결정을 내려야 하므로 본질적으로 어렵다. 본 논문에서는 스트리밍 앱 사용 궤적에서 초기 사기를 예측하기 위한 최초의 에이전트 기반 프레임워크인 ORACLE(Online Reasoning for Anticipating Cross-temporal Latent thrEats)을 제안한다. 이 설정을 지원하기 위해, 12가지 사기 유형을 포함하고, 확장된 기간(평균 15일)에 걸쳐 있으며, 다양한 애플리케이션(95개 앱)을 포함하고, 정상 행동과 사기 행동이 혼재된 실제 장기 스트리밍 앱 사용 궤적 벤치마크를 구축했다. 분산된 증거 문제를 해결하기 위해, 시간이 지남에 따라 개체 중심 상호작용을 적응적으로 통합하는 자기 진화 컨텍스트 관리자를 도입하여 부분 관측에서 시계열적 증거를 보다 효과적으로 재구성할 수 있게 했다. 잠재적인 초기 단계 신호에 대한 민감도를 높이기 위해, 스킬별로 요약된 안티스캠 반성 및 단서를 조건으로 하는 교사 모델이 이러한 반성에 접근할 수 없는 학생 모델을 감독하는 온-폴리시 자기 증류 기법을 제안한다. 이 기법은 증거 기반 지식을 증류하여 부분 궤적에서 새로운 사기 패턴을 인식하는 능력을 향상시킨다. 실험 결과, ORACLE은 초기 사기 예측을 일관되게 개선하여 현실적인 스트리밍 시나리오에서 적시에 경고를 제공하면서 오경보를 감소시킨다.