HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

31 papers found

LMEB: 장기 기억 임베딩 벤치마크
LMEB: Long-horizon Memory Embedding Benchmark

Mar 13

ByXinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

메모리 임베딩은 OpenClaw와 같은 메모리 증강 시스템에 필수적이지만, 그 평가는 기존의 단순한 문서 검색에만 초점을 맞추고 파편화되고 문맥 의존적이며 시간적으로 먼 정보를 포함하는 장기적 메모리 검색 작업 처리 능력을 평가하지 못하는 현재의 텍스트 임베딩 벤치마크에서 제대로 연구되지 않고 있습니다. 이를 해결하기 위해 우리는 복잡한 장기적 메모리 검색 작업 처리 능력을 평가하는 포괄적인 프레임워크인 장기적 메모리 임베딩 벤치마크(LMEB)를 소개합니다. LMEB는 22개의 데이터셋과 4가지 메모리 유형(에피소드, 대화, 의미, 절차)에 걸친 193개의 제로샷 검색 작업으로 구성되며, AI 생성 데이터와 인간 주석 데이터를 모두 포함합니다. 이러한 메모리 유형은 추상화 수준과 시간적 의존성 측면에서 차이가 나며, 현실 세계의 다양한 도전 과제를 반영하는 메모리 검색의 독특한 측면을 포착합니다. 우리는 수억 개에서 수백억 개의 파라미터를 가진 널리 사용되는 15개의 임베딩 모델을 평가했습니다. 결과는 (1) LMEB가 합리적인 수준의 난이도를 제공하며, (2) 더 큰 모델이 항상 더 나은 성능을 보이는 것은 아니며, (3) LMEB와 MTEB가 직교성을 나타냄을 보여줍니다. 이는 해당 분야가 모든 메모리 검색 작업에서 뛰어난 성능을 발휘할 수 있는 보편적인 모델로 아직 수렴되지 않았으며, 기존 문서 검색의 성능이 장기적 메모리 검색으로 일반화되지 않을 수 있음을 시사합니다. 요약하면, 표준화되고 재현 가능한 평가 프레임워크를 제공함으로써 LMEB는 메모리 임베딩 평가의 중요한 공백을 메꾸며 장기적이고 문맥 의존적인 메모리 검색 처리를 위한 텍스트 임베딩의 발전을 더욱 촉진합니다. LMEB는 https://github.com/KaLM-Embedding/LMEB에서 이용할 수 있습니다.

비전-언어 모델은 쉘 게임을 풀 수 있을까?
Can Vision-Language Models Solve the Shell Game?

Mar 9

ByTiedong Liu, Wee Sun Lee

시각적 개체 추적은 인간에게 내재된 인지 능력이지만, 여전히 비전-언어 모델(VLMs)의 주요 병목 현상으로 남아 있습니다. 이러한 결함은 기존 비디오 벤치마크에서 시각적 단축키(shortcuts)에 의해 종종 가려집니다. 우리는 시공간적 연속성을 통해서만 추적이 가능한 시각적으로 동일한 객체들을 특징으로 하는 합성 진단 테스트베드인 VET-Bench를 소개합니다. 우리의 실험 결과, 최첨단 VLM들이 VET-Bench에서 우연 수준 또는 그에 근접한 성능을 보여 근본적인 한계를 드러냈습니다. 이는 정적 프레임 수준 특징에 대한 과도한 의존성과 시간에 따른 개체 표현 유지의 실패입니다. 우리는 상태 추적 문제와의 연관성을 이론적으로 분석하여, 고정 깊이의 트랜스포머 기반 VLM이 표현력 제약으로 인해 중간 감독 없이는 구별할 수 없는 객체를 추적하는 데 근본적으로 한계가 있음을 증명합니다. 이를 해결하기 위해 우리는 시공간적 기반 사고의 연쇄(SGCoT), 즉 명시적 중간 상태로서 객체 궤적을 생성하는 방법을 제안합니다. Molmo2의 객체 추적 능력을 활용하여, 정렬을 위해 합성된 텍스트 전용 데이터에 대한 미세 조정을 통해 SGCoT 추론을 유도합니다. 우리의 방법은 VET-Bench에서 90%를 넘는 최첨단 정확도를 달성하여, VLM이 외부 도구 없이도 비디오 쉘 게임 작업을 종단간(end-to-end)으로 안정적으로 해결할 수 있음을 입증합니다. 우리의 코드와 데이터는 https://vetbench.github.io에서 확인할 수 있습니다.

다중 모달 OCR: 문서에서 모든 것을 파싱하기
Multimodal OCR: Parse Anything from Documents

Mar 13

ByHandong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

본 논문에서는 텍스트와 그래픽을 통합된 텍스트 표현으로 함께 파싱하는 문서 파싱 패러다임인 Multimodal OCR(MOCR)을 제안합니다. 텍스트 인식에만 집중하고 그래픽 영역을 단순히 잘라낸 픽셀로 남겨두는 기존 OCR 시스템과 달리, 우리의 방법(dots.mocr)은 차트, 다이어그램, 표, 아이콘과 같은 시각 요소를 1급 파싱 대상으로 취급하여 요소 간의 의미 관계를 보존하면서 문서를 파싱할 수 있도록 합니다. 이 방법은 다음과 같은 장점을 제공합니다: (1) 텍스트와 그래픽을 모두 구조화된 출력으로 재구성하여 더 정확한 문서 재구성을 가능하게 하고, (2) 이질적인 문서 요소에 대한 종단간 학습을 지원하여 모델이 텍스트와 시각 구성 요소 간의 의미 관계를 활용할 수 있도록 하며, (3) 기존에 폐기되던 그래픽을 재사용 가능한 코드 수준의 supervision으로 변환하여 기존 문서에 내재된 다중모달 supervision을 활용할 수 있게 합니다. 이 패러다임을 대규모로 실용화하기 위해 PDF, 렌더링된 웹페이지, 네이티브 SVG 자산으로부터 포괄적인 데이터 엔진을 구축하고, 단계적 사전 학습과 지도 미세 조정을 통해 3B 파라미터의 컴팩트 모델을 학습했습니다. dots.mocr을 문서 파싱과 구조화된 그래픽 파싱 두 가지 관점에서 평가했습니다. 문서 파싱 벤치마크에서는 우리의 OCR Arena Elo 리더보드에서 Gemini 3 Pro에 이어 두 번째로 높은 순위를 기록하며, 기존 오픈소스 문서 파싱 시스템을 능가하고 olmOCR Bench에서 83.9의 새로운 최첨단 성능을 달성했습니다. 구조화된 그래픽 파싱에서는 이미지-to-SVG 벤치마크 전반에서 Gemini 3 Pro보다 높은 재구성 품질을 달성하여 차트, UI 레이아웃, 과학 도형, 화학 다이어그램에서 강력한 성능을 입증했습니다. 이러한 결과는 다중모달 사전 학습을 위한 대규모 이미지-to-코드 코퍼스 구축으로 향하는 확장 가능한 경로를 보여줍니다. 코드와 모델은 https://github.com/rednote-hilab/dots.mocr에서 공개되어 있습니다.

Cheers: 패치 세부 정보와 의미 표현의 분리를 통한 통합 멀티모달 이해 및 생성
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Mar 13

ByYichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

최근 멀티모달 모델링 분야에서 주목받는 최첨단 주제는 단일 모델 내에서 시각적 이해와 생성을 통합하는 것입니다. 그러나 이 두 작업은 서로 맞지 않는 디코딩 체계와 시각적 표현을 요구하므로, 공유된 특징 공간에서의 공동 최적화는 간단하지 않은 과제입니다. 본 연구에서는 패치 수준의 세부 정보를 의미론적 표현으로부터 분리함으로써 멀티모달 이해를 위한 의미론적 안정성을 확보하고 게이트된 세부 잔차를 통해 이미지 생성의 정확도를 향상하는 통합 멀티모달 모델인 Cheers를 제시합니다. Cheers는 세 가지 핵심 구성 요소로 이루어집니다: (i) 이미지 잠재 상태를 의미론적 토큰으로 인코딩 및 압축하여 효율적인 LLM 조건화를 가능하게 하는 통합 비전 토크나이저, (ii) 텍스트 생성을 위한 자기회귀 디코딩과 이미지 생성을 위한 디퓨전 디코딩을 통합하는 LLM 기반 트랜스포머, (iii) 시각적 의미론을 먼저 디코딩한 후 비전 토크나이저의 의미론적으로 게이트된 세부 잔차를 주입하여 고주파 콘텐츠를 정제하는 캐스케이드 플로우 매칭 헤드. 인기 벤치마크에서의 실험 결과, Cheers는 시각적 이해와 생성 모두에서 최신 UMMs을 능가하거나 동등한 성능을 보였습니다. 또한 Cheers는 4배의 토큰 압축을 달성하여 더 효율적인 고해상도 이미지 인코딩 및 생성을 가능하게 합니다. 특히 Cheers는 인기 벤치마크인 GenEval과 MMBench에서 Tar-1.5B를 능가하는 동시에 훈련 비용의 20%만을 요구하여 효과적이면서도 효율적인(즉, 4배 토큰 압축) 통합 멀티모달 모델링을 입증했습니다. 향후 연구를 위해 모든 코드와 데이터를 공개할 예정입니다.

OmniForcing: 실시간 음향-시각 연합 생성의 해방
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Mar 12

ByYaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

최근 등장한 음향-시각 결합 확산 모델은 뛰어난 생성 품질을 달성했지만, 양방향 어텐션 의존성으로 인한 높은 지연 시간으로 실시간 적용에 어려움을 겪고 있습니다. 본 논문에서는 오프라인 이중 스트림 양방향 확산 모델을 고품질 스트리밍 자기회귀 생성기로 지식 증류하는 최초의 프레임워크인 OmniForcing를 제안합니다. 그러나 이러한 이중 스트림 아키텍처에 인과적 증류를 단순 적용할 경우, 양식 간 극심한 시간적 비대칭성과 이로 인한 토큰 희소성으로 심각한 학습 불안정성이 발생합니다. 우리는 다중 양식 동기화 드리프트를 방지하는 제로-절단 글로벌 프리픽스를 포함한 비대칭 블록-인과 정렬을 도입하여 본질적인 정보 밀도 격차를 해결합니다. 인과적 전이 과정에서 극단적인 오디오 토큰 희소성으로 인한 그래디언트 폭발은 Identity RoPE 제약을 갖춘 오디오 싱크 토큰 메커니즘을 통해 추가적으로 해결됩니다. 마지막으로, 공동 자기 강제 증류 패러다임을 통해 모델이 긴 롤아웃 동안 노출 편향으로 인한 누적된 교차 양식 오류를 동적으로 자가 수정할 수 있도록 합니다. 양식 독립적인 롤링 KV-캐시 추론 방식을 통해 OmniForcing는 단일 GPU에서 25 FPS에 가까운 최첨단 스트리밍 생성을 달성하며, 양방향 교사 모델과 동등한 다중 양식 동기화 및 시각적 품질을 유지합니다. 프로젝트 페이지: https://omniforcing.com{https://omniforcing.com}

비디오 스트리밍 사고: VideoLLM이 보면서 동시에 생각하는 능력
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Mar 12

ByYiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

온라인 비디오 대규모 언어 모델(VideoLLMs)은 반응적이고 실시간적인 상호작용을 지원하는 데 중요한 역할을 합니다. 기존 방법론은 스트리밍 인식에 초점을 맞추고 있어 동기화된 논리 추론 스트림이 부족합니다. 그러나 테스트 타임 스케일링 방법을 직접 적용하면 응답 지연 시간이 수용하기 어려운 수준으로 발생합니다. 이러한 절충점을 해결하기 위해 본 논문은 스트리밍 비디오 이해를 위한 새로운 패러다임인 Video Streaming Thinking(VST)을 제안합니다. VST는 시청 중 사고 메커니즘을 지원하며, 스트리밍 과정에서 수신되는 비디오 클립에 대한 추론을 활성화합니다. 이 설계는 LLM 추론 지연 시간을 비디오 재생 시간에 분산시켜 실시간 응답성을 유지하면서도 시의적절한 이해와 일관된 인지를 향상시킵니다. 더 나아가, 오프라인 VideoLLM을 인과적 스트리밍 추론에 구조적으로 적응시키는 VST-SFT와 다중 턴 비디오 상호작용 환경에서 자기 탐색을 통한 종단간 개선을 제공하는 VST-RL을 통합한 포괄적인 사후 훈련 파이프라인을 도입합니다. 또한, 비디오 지식 그래프를 활용하여 고품질의 스트리밍 질의-응답 쌍을 생성하고, 다중 증거 추론과 비디오 스트림에 대한 지속적 주의력을 강화하는 개체-관계 기반 스트리밍 사고 연쇄를 구축하는 자동화된 훈련 데이터 합성 파이프라인을 고안했습니다. 광범위한 평가 결과, VST-7B는 온라인 벤치마크(예: StreamingBench 79.5%, OVO-Bench 59.3%)에서 강력한 성능을 보였습니다. 동시에 VST는 오프라인 장편 형식 또는 추론 벤치마크에서도 경쟁력을 유지했습니다. Video-R1 대비 VST는 15.7배 빠른 응답 속도를 보였으며 VideoHolmes에서 +5.4%의 성능 향상을 달성하여 다양한 비디오 이해 작업에서 더 높은 효율성과 강력한 일반화 능력을 입증했습니다. 코드, 데이터 및 모델은 https://github.com/1ranGuan/VST에서 공개될 예정입니다.

daVinci-Env: 대규모 오픈 소프트웨어 엔지니어링 환경 합성
daVinci-Env: Open SWE Environment Synthesis at Scale

Mar 13

ByDayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

능력 있는 소프트웨어 엔지니어링(SWE) 에이전트를 훈련시키기 위해서는 반복적인 코드 수정, 테스트 실행 및 솔루션 개선을 위한 동적 피드백 루프를 제공하는 대규모의 실행 가능하고 검증 가능한 환경이 필요합니다. 그러나 기존 오픈소스 데이터셋은 규모와 저장소 다양성 측면에서 여전히 제한적이며, 산업계 솔루션은 공개되지 않은 인프라로 불투명하여 대부분의 학계 연구 그룹에게는 높은 진입 장벽으로 작용합니다. 본 논문은 Python 기반 SWE 에이전트 훈련을 위한 가장 크고 완전히 투명한 프레임워크인 OpenSWE를 제시합니다. OpenSWE는 12.8k개 이상의 저장소에 걸친 45,320개의 실행 가능한 Docker 환경으로 구성되며, 재현성을 위해 모든 Dockerfile, 평가 스크립트 및 인프라가 완전히 오픈소스로 공개됩니다. OpenSWE는 64노드 분산 클러스터에 배포된 다중 에이전트 합성 파이프라인을 통해 구축되어, 저장소 탐색, Dockerfile 구성, 평가 스크립트 생성 및 반복적 테스트 분석을 자동화합니다. 규모를 넘어, 우리는 각 환경의 고유한 난이도를 특성화하여 해결 불가능하거나 충분히 도전적이지 않은 인스턴스를 걸러내고 학습 효율성을 극대화하는 인스턴스만을 보유하는 질적 중심의 필터링 파이프라인을 제안합니다. 환경 구축에 891K, 궤적 샘플링 및 난이도 인지 큐레이션에 추가로 576K가 소요되어 전체 프로젝트는 약 147만 달러의 총 투자 규모를 나타내며, 약 9,000개의 질적 보증 환경에서 약 13,000개의 큐레이션된 궤적을 산출했습니다. 폭넓은 실험을 통해 OpenSWE의 효과성을 검증했습니다: OpenSWE-32B와 OpenSWE-72B는 SWE-bench Verified에서 각각 62.4%와 66.0%를 달성하여 Qwen2.5 시리즈 중 SOTA를 확립했습니다. 더 나아가, SWE 중심 훈련은 사실적 회상을 저하시키지 않으면서 수학적 추론에서 최대 12점, 과학 벤치마크에서 5점에 이르는 도메인 외 개선을 가져왔습니다.

Visual-ERM: 시각적 등가성을 위한 보상 모델링
Visual-ERM: Reward Modeling for Visual Equivalence

Mar 13

ByZiyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

비전-투-코드 작업은 차트, 표, SVG와 같은 구조화된 시각적 입력을 높은 시각적 충실도로 실행 가능하거나 구조화된 표현으로 재구성하는 모델을 요구합니다. 최근 대규모 시각 언어 모델(LVLM)이 지도 미세 조정을 통해 강력한 성과를 보이고 있지만, 강화 학습은 정렬되지 않은 보상 신호로 인해 여전히 어려움을 겪고 있습니다. 기존 보상 방식은 텍스트 기반 규칙에 의존하거나 거시적인 시각 임베딩 유사성을 활용하는데, 둘 모두 미세한 시각적 불일치를 포착하지 못하며 보상 해킹에 취약합니다. 우리는 렌더링된 시각 공간에서 직접 비전-투-코드 품질을 평가하기 위해 미세 단위의, 해석 가능하며, 작업에 독립적인 피드백을 제공하는 다중모달 생성형 보상 모델인 Visual Equivalence Reward Model (Visual-ERM)을 제안합니다. 강화 학습에 통합된 Visual-ERM은 차트-투-코드에서 Qwen3-VL-8B-Instruct의 성능을 +8.4만큼 향상시키고, 표 및 SVG 구문 분석에서도 일관된 성능 향상(+2.7, 평균 +4.1)을 보이며, 반성 및 수정을 통한 테스트 타임 스케일링을 추가로 강화합니다. 또한 구조화된 시각 데이터에 대한 미세 단위 이미지-투-이미지 불일치 판단을 위한 벤치마크인 VisualCritic-RewardBench (VC-RewardBench)를 소개하는데, 8B 규모의 Visual-ERM은 Qwen3-VL-235B-Instruct를 결정적으로 능가하며 최고의 폐쇄형 모델에 근접하는 성능을 보입니다. 우리의 결과는 미세 단위 시각 보상 지도가 작업 특수성과 무관하게 비전-투-코드 강화 학습에 필요하며 충분한 조건임을 시사합니다.

MM-CondChain: 시각적 기반 심층 구성적 추론을 위한 프로그램 검증 벤치마크
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Mar 12

ByHaozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

멀티모달 대규모 언어 모델(MLLMs)은 GUI 탐색과 같은 시각적 워크플로우를 수행하는 데 점차 활용되고 있으며, 여기서 다음 단계는 검증된 시각적 구성 조건(예: "권한 대화상자가 나타나고 인터페이스 색상이 녹색이면 '허용'을 클릭하라")에 따라 결정되고 프로세스가 분기되거나 조기에 종료될 수 있습니다. 그러나 이러한 능력은 여전히 제대로 평가되지 않고 있습니다: 기존 벤치마크는 깊은 구성 체인보다는 단순 구성 또는 독립적 제약 조건에 초점을 맞추고 있습니다. 본 논문에서는 시각적으로 기반한 깊은 구성적 추론을 위한 벤치마크인 MM-CondChain을 소개합니다. 각 벤치마크 인스턴스는 다중 계층 추론 체인으로 구성되며, 각 계층에는 시각적 증거에 기반하고 여러 객체, 속성 또는 관계로 구성된 비단순적인(non-trivial) 구성 조건이 포함됩니다. MLLM은 정답을 도출하기 위해 이미지를 세부적으로 인지하고, 각 단계에서 여러 시각 요소에 대해 추론하며, 결과적인 실행 경로를 따라 최종 결과에 도달해야 합니다. 이러한 워크플로우 스타일 데이터를 확장 가능하게 구축하기 위해 우리는 에이전트 기반 합성 파이프라인을 제안합니다: 플래너(Planner)는 구성 조건의 계층별 생성을 조정하고, 검증 가능한 프로그램적 중간 표현(VPIR)은 각 계층의 조건이 기계적으로 검증 가능하도록 보장합니다. 그런 다음 컴포저(Composer)가 이러한 검증된 계층들을 완전한 지시문으로 조립합니다. 이 파이프라인을 사용하여 우리는 자연 이미지, 데이터 차트, GUI 트레이젝토리라는 세 가지 시각 영역에 걸쳐 벤치마크를 구축합니다. 다양한 MLLM에 대한 실험 결과, 가장 강력한 모델조차 Path F1 점수에서 53.33%에 그치며, 난이도 높은 부정형(hard negatives)에서와 깊이 또는 술어 복잡성이 증가함에 따라 성능이 급격히 하락하는 것을 확인하였고, 이는 깊은 구성적 추론이 여전히 근본적인 과제로 남아 있음을 입증합니다.

적게 지출하고 더 합리적으로 추론하기: LLM 에이전트를 위한 예산 인식 가치 트리 탐색
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Mar 13

ByYushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li

테스트 타임 스케일링은 LLM 에이전트 신뢰성 향상을 위한 주요 패러다임으로 자리 잡았으나, 기존 접근법은 컴퓨팅 자원을 풍부한 것으로 간주하여 에이전트가 중복 단계나 막다른 궤적에 토큰 및 도구 예산을 소진하도록 방치합니다. 기존의 예산 인식 방법들은 고비용의 미세 조정을 요구하거나, 실행 중간에 개입할 수 없는 조악한 궤적 수준의 휴리스틱에 의존합니다. 우리는 단일 LLM 백본 내에서 단계별 가치 추정을 통해 다중 홉 추론을 동적 탐색 트리로 모델링하는 학습 불필요형 추론 시점 프레임워크인 예산 인식 가치 트리(BAVT)를 제안합니다. 또 다른 핵심 혁신은 잔여 자원 비율을 노드 가치에 대한 자연스러운 스케일링 지수로 활용하는 예산 조건부 노드 선택 메커니즘으로, 예산이 고갈됨에 따라 광범위한 탐색에서 탐욕적 활용으로의 원칙적이고 매개변수 불필요한 전환을 제공합니다. LLM 자기 평가의 잘 알려진 과신 문제를 해결하기 위해 BAVT는 절대적 상태 품질이 아닌 상대적 진전을 평가하는 잔여 가치 예측기를 도입하여 정보가 없거나 중복된 도구 호출을 안정적으로 제거합니다. 더 나아가 명시적 유한 예산 범위 내에서 BAVT가 최소 1-ε의 확률로 최종 답변에 도달함을 증명하는 이론적 수렴 보장을 제공합니다. 두 모델 패밀리와 4개의 다중 홉 질의응답 벤치마크에서의 광범위한 평가 결과, BAVT는 병렬 샘플링 기준 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히, 엄격한 저예산 제약 조건下的 BAVT는 4배의 자원 할당을 받은 기준 방법의 성능을 능가하여, 지능적 예산 관리가 단순한 컴퓨팅 자원 확장을 근본적으로 뛰어넘음을 입증했습니다.

EvoScientist: 종단간 과학적 발견을 위한 다중 에이전트 진화형 AI 과학자 플랫폼
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Mar 9

ByYougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan

대규모 언어 모델(LLM)의 확산으로 AI 과학자들은 아이디어 생성과 실험 실행 등 전문적 역할 조정이 필요한 복잡한 엔드투엔드 과학 발견 과업을 수행할 수 있게 되었습니다. 그러나 대부분의 최첨단 AI 과학자 시스템은 정적이며 수동으로 설계된 파이프라인에 의존하여 축적된 상호작용 이력을 기반으로 적응하지 못합니다. 그 결과, 이러한 시스템은 유망한 연구 방향을 간과하고, 실패한 실험을 반복하며, 실행 불가능한 아이디어를 추구합니다. 이를 해결하기 위해 본 연구에서는 지속적 메모리와 자기 진화를 통해 연구 전략을 지속적으로 개선하는 진화형 다중 에이전트 AI 과학자 프레임워크인 EvoScientist를 소개합니다. EvoScientist는 과학적 아이디어 생성을 위한 연구원 에이전트(RA), 실험 구현 및 실행을 위한 엔지니어 에이전트(EA), 그리고 이전 상호작용에서 얻은 통찰력을 재사용 가능한 지식으로 정제하는 진화 관리자 에이전트(EMA)로 구성된 세 가지 전문 에이전트를 포함합니다. EvoScientist는 두 가지 지속적 메모리 모듈을 갖추고 있습니다: (i) 상위 순위 아이디어에서 실현 가능한 연구 방향을 요약하고 이전에 실패한 방향을 기록하는 아이디어 생성 메모리, (ii) 코드 탐색 궤적과 최고 성능 구현에서 도출된 효과적인 데이터 처리 및 모델 학습 전략을 포착하는 실험 메모리입니다. 이러한 모듈은 RA와 EA가 관련 이전 전략을 검색하여 시간이 지남에 따라 아이디어 품질과 코드 실행 성공률을 향상시킬 수 있도록 합니다. 실험 결과, EvoScientist는 과학적 아이디어 생성에서 7개의 오픈소스 및 상용 최첨단 시스템을 능가하며, 자동 및 인간 평가를 통해 더 높은 참신성, 실현 가능성, 관련성 및 명확성을 달성했습니다. EvoScientist는 또한 다중 에이전트 진화를 통해 코드 실행 성공률을 크게 개선하여 엔드투엔드 과학 발견을 위한 지속적 메모리의 효과를 입증했습니다.

희소에서 조밀로: 확장된 조건 공간을 통한 흐름 모델용 다중 뷰 GRPO
From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Mar 13

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin

그룹 상대 정책 최적화(GRPO)는 텍스트-이미지(T2I) 흐름 모델의 선호도 정렬을 위한 강력한 프레임워크로 부상했습니다. 그러나 단일 조건에 대해 생성된 샘플 그룹을 평가하는 표준 패러다임은 샘플 간 관계 탐색의 부족으로 인해 정렬 효율성과 성능 한계 모두를 제한한다는 점을 관찰했습니다. 이러한 희소 단일 시점 평가 체계를 해결하기 위해, 우리는 조건 공간을 증강하여 조밀한 다중 시점 보상 매핑을 생성함으로써 관계 탐색을 향상하는 새로운 접근법인 다중 시점 GRPO(MV-GRPO)를 제안합니다. 구체적으로, 하나의 프롬프트에서 생성된 샘플 그룹에 대해 MV-GRPO는 유연한 조건 강화기를 활용하여 의미적으로 인접하면서도 다양한 캡션을 생성합니다. 이러한 캡션들은 다양한 의미론적 속성을 포착하고 더 풍부한 최적화 신호를 제공하는 다중 시점 이점 재추정을 가능하게 합니다. 원본 샘플들의 이러한 새로운 캡션들에 대한 조건부 확률 분포를 도출함으로써, 비용이 많이 드는 샘플 재생성 없이도 이를 훈련 과정에 통합할 수 있습니다. 광범위한 실험을 통해 MV-GRPO가 최신 방법들보다 우수한 정렬 성능을 달성함을 입증했습니다.

V-Bridge: 다양한 퓨샷 이미지 복원을 위한 비디오 생성 사전 지식 연계
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Mar 13

ByShenghe Zheng, Junpeng Jiang, Wenbo Li

대규모 비디오 생성 모델은 방대하고 다양한 시각 데이터로 학습되어 시각 세계의 풍부한 구조적, 의미론적, 동적 사전 지식을 내재화합니다. 이러한 모델들은 인상적인 생성 능력을 입증했으나, 범용 시각 학습자로서의 잠재력은 아직 크게 개척되지 않았습니다. 본 연구에서는 이러한 잠재 역량을 다양한 few-shot 이미지 복원 작업에 연결하는 프레임워크인 V-Bridge를 소개합니다. 우리는 이미지 복원을 정적인 회귀 문제가 아닌 점진적인 생성 과정으로 재해석하고, 비디오 모델을 활용하여 열화된 입력에서 고품질 출력으로의 점진적 정제 과정을 시뮬레이션합니다. 놀랍게도, 1,000개의 다중 작업 학습 샘플(기존 복원 방법의 2% 미만)만으로도 사전 학습된 비디오 모델이 경쟁력 있는 이미지 복원 성능을 발휘하도록 유도할 수 있으며, 단일 모델로 여러 작업을 수행하여 해당 목적으로 명시적으로 설계된 전문 아키텍처에 필적하는 결과를 달성합니다. 우리의 연구 결과는 비디오 생성 모델이 극히 제한된 데이터만으로도 활성화될 수 있는 강력하고 전이 가능한 복원 사전 지식을 암묵적으로 학습함을 보여주며, 생성 모델링과 저수준 컴퓨터 비전 간의 전통적 경계에 도전하고 시각 작업을 위한 파운데이션 모델의 새로운 설계 패러다임을 제시합니다.

HomeSafe-Bench: 가정 환경에서 구현된 에이전트의 위험 행동 감지를 위한 비전-언어 모델 평가
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Mar 12

ByJiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

구현 에이전트의 급속한 발전으로 가정용 로봇의 실제 환경 배치가 가속화되고 있습니다. 그러나 구조화된 산업 현장과 달리, 가정 공간은 예측 불가능한 안전 위험을 내포하며 인지 지연이나 상식 지식 부족과 같은 시스템 한계로 인해 위험한 오류가 발생할 수 있습니다. 정적 이미지, 텍스트 또는 일반적 위험에 국한된 기존 안전성 평가는 이러한 특수 맥락에서 동적 위험 행동 감지를 적절히 벤치마킹하지 못합니다. 이러한 격차를 해소하기 위해 본 연구는 가정 환경 내 위험 행동 감지에서 비전-언어 모델(VLM) 성능을 평가하기 위해 설계된 도전적 벤치마크인 HomeSafe-Bench을 소개합니다. HomeSafe-Bench는 물리 시뮬레이션과 첨단 영상 생성 기술을 결합한 하이브리드 파이프라인을 통해 구축되었으며, 6개 기능 영역에서 438개의 다양한 사례를 다차원적 세부 주석과 함께 제공합니다. 벤치마킹을 넘어, 본 연구는 실시간 안전 모니터링을 위한 계층적 스트리밍 아키텍처인 HD-Guard(계층적 이중 두뇌 가정 안전 보호 시스템)를 제안합니다. HD-Guard는 경량 FastBrain을 통한 연속 고주파 스크리닝과 비동기적 대규모 SlowBrain을 통한 심층 다중 모드 추론을協調하여 추론 효율성과 감지 정확도 간의 균형을 효과적으로 달성합니다. 평가 결과 HD-Guard는 대기 시간과 성능 간 우수한 균형을 보여주는 반면, 분석을 통해 현재 VLM 기반 안전 감지의 주요 병목 현상을 규명합니다.

HybridStitch: 확산 가속을 위한 픽셀 및 타임스텝 수준 모델 스티칭
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Mar 8

ByDesen Sun, Jason Hon, Jintao Zhang, Sihang Liu

확산 모델은 텍스트-이미지(T2I) 생성 응용 분야에서 뛰어난 능력을 입증해왔습니다. 고도화된 생성 결과물에도 불구하고, 특히 수백억 개의 매개변수를 포함하는 대규모 모델의 경우 심각한 계산 오버헤드 문제를 안고 있습니다. 선행 연구에서는 잡음 제거 단계의 일부를 더 작은 모델로 대체하더라도 생성 품질이 유지된다는 것을 보여주었습니다. 그러나 이러한 방법들은 일부 시간 단계에서의 계산 절약에만 초점을 맞추고, 하나의 시간 단계 내에서도 존재하는 계산 수요의 차이를 간과했습니다. 본 연구에서는 생성을 편집 작업처럼 접근하는 새로운 T2I 생성 패러다임인 HybridStitch를 제안합니다. 구체적으로, 우리는 대규모 모델과 소규모 모델을 함께 통합하는 하이브리드 단계를 도입합니다. HybridStitch는 전체 이미지를 두 영역으로 분리합니다: 하나는 상대적으로 렌더링이 쉬워 더 작은 모델로의 조기 전환이 가능한 영역이고, 다른 하나는 더 복잡하여 대규모 모델의 정교화가 필요한 영역입니다. HybridStitch는 소규모 모델을 이용해 거친 스케치를 구성하는 동시에 대규모 모델을 활용해 복잡한 영역을 편집하고 다듬습니다. 평가에 따르면, HybridStitch는 Stable Diffusion 3에서 1.83배의 속도 향상을 달성하여 기존의 모든 모델 혼합 방법보다 빠른 성능을 보입니다.

생각하며 시청하기: 멀티모달 대규모 언어 모델을 위한 다중 턴 비디오 추론을 위한 온라인 스트리밍 세그먼트 수준 메모리
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Mar 12

ByLu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

멀티모달 대규모 언어 모델(MLLMs)은 오프라인 비디오 이해에서 강력한 성능을 보여주지만, 대부분 오프라인 추론에 국한되거나 온라인 추론 능력이 약해 지속적으로 수신되는 비디오 스트림에 대한 다중 턴 상호작용이 어려운 실정입니다. 기존 스트리밍 방법은 일반적으로 인지-생성 교차 패러다임을 사용하는데, 이는 인지와 생성을 동시에 수행하지 못하게 하며 스트림이 길어짐에 따라 초기 메모리 감쇠를 유발하여 장기 의존성 모델링을 저해합니다. 본 연구에서는 다중 턴 상호작용 중 지속적인 세그먼트 수준 메모리를 보존하는 메모리 앵커 기반 스트리밍 비디오 추론 프레임워크인 Think While Watching을 제안합니다. 3단계 다중 라운드 사고 연쇄(chain-of-thought) 데이터셋을 구축하고 단계별 맞춤 훈련 전략을 채택함과 동시에, 세그먼트 수준의 스트리밍 인과 마스크와 스트리밍 위치 인코딩을 통해 엄격한 인과성을 적용합니다. 추론 단계에서는 시청(watching)과 사고(thinking)를 중첩시키고 최적의 어텐션 백엔드를 적응적으로 선택하는 효율적인 파이프라인을 도입합니다. 단일 라운드 및 다중 라운드 스트리밍 입력 프로토콜 하에서 우리 방법은 강력한 성과를 달성했습니다. Qwen3-VL 기반으로 구축된 본 방법은 StreamingBench에서 단일 라운드 정확도를 2.6%, OVO-Bench에서 3.79% 향상시켰습니다. 다중 라운드 설정에서는 출력 토큰을 56% 줄이면서도 성능을 유지했습니다. 코드는 https://github.com/wl666hhh/Think_While_Watching/에서 확인할 수 있습니다.

VQQA: 영상 평가 및 품질 향상을 위한 에이전트 기반 접근법
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Mar 12

ByYiwen Song, Tomas Pfister, Yale Song

비디오 생성 모델의 급속한 발전에도 불구하고, 복잡한 사용자 의도와 생성 결과를 정렬하는 것은 여전히 과제로 남아 있습니다. 기존의 실시간 최적화 방법은 일반적으로 계산 비용이 높거나 모델 내부에 대한 화이트박스 접근이 필요합니다. 이를 해결하기 위해 우리는 다양한 입력 양식과 비디오 생성 작업에 일반화 가능한 통합 다중 에이전트 프레임워크인 VQQA(Video Quality Question Answering)를 제안합니다. VQQA는 시각적 질문을 동적으로 생성하고 이를 통해 얻어진 Vision-Language Model(VLM)의 비평을 의미론적 그래디언트로 활용하여 기존의 수동적 평가 지표를 인간이 해석 가능하고 실질적인 피드백으로 대체합니다. 이는 블랙박스 자연어 인터페이스를 통한 매우 효율적인 폐쇄형 프롬프트 최적화 과정을 가능하게 합니다. 폭넓은 실험을 통해 VQQA가 시각적 결함을 효과적으로 격리 및 해결하여 단 몇 번의 개선 단계만으로 생성 품질을 크게 향상시킴을 입증했습니다. 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 작업 모두에 적용 가능한 본 방법론은 T2V-CompBench에서 +11.57%, VBench2에서 +8.43%의 절대적 성능 향상을 달성하여 최첨단 확률적 탐색 및 프롬프트 최적화 기술을 크게 능가합니다.

LookaheadKV: 생성 없이 미래를 예측하여 빠르고 정확한 KV 캐시 제거
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Mar 11

ByJinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon

트랜스포머 기반 대규모 언어 모델(LLM)은 자기회귀 추론 과정에서 중복 계산을 피하기 위해 키-값(KV) 캐싱에 의존합니다. 이 메커니즘은 효율성을 크게 향상시키지만, 캐시 크기는 입력 시퀀스 길이에 따라 선형적으로 증가하여 장문맥 작업에서 빠르게 병목 현상이 됩니다. 기존 해결책은 추정된 중요도 점수를 바탕으로 중요하지 않은 것으로 판단되는 프롬프트 KV를 제거하는 방식으로 이 문제를 완화합니다. 특히 최근 연구 동향은 "미리 엿보기"를 통해 제거 품질을 향상시키는 것을 제안하는데, 여기서는 초안 생성기가 대상 모델의 실제 응답을 근사하는 대리 미래 응답을 생성한 후, 이 대리 응답을 사용하여 캐시된 KV의 중요도를 더 정확하게 추정합니다. 그러나 이러한 접근 방식은 계산 비용이 많이 드는 초안 생성에 의존하여 상당한 프리필링 오버헤드를 초래하고 실제 배포에서의 실용성을 제한합니다. 이러한 과제를 해결하기 위해 우리는 명시적인 초안 생성 없이도 대리 미래 응답의 강점을 활용하는 경량화된 제거 프레임워크인 LookaheadKV를 제안합니다. LookaheadKV는 매개변수 효율적인 모듈을 트랜스포머 레이어에 추가하여 실제 중요도 점수를 높은 정확도로 예측하도록 학습합니다. 우리의 설계는 기존의 저비용 휴리스틱 방법에 필적하는 무시할 수 있는 런타임 오버헤드를 보장하면서도, 더 비싼 근사 방법보다 우수한 정확도를 달성합니다. 다양한 모델을 대상으로 한 장문맥 이해 벤치마크에서의 폭넓은 실험을 통해 우리의 방법이 다양한 장문맥 이해 작업에서 최근 경쟁력 있는 기준선들을 능가할 뿐만 아니라, 제거 비용을 최대 14.5배까지 줄여 첫 토큰 출력 시간을 크게 단축함을 입증합니다. 우리의 코드는 https://github.com/SamsungLabs/LookaheadKV에서 확인할 수 있습니다.

CreativeBench: 자기 진화적 과제를 통한 기계 창의성 벤치마킹 및 향상
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Mar 12

ByZi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

고품질 사전 학습 데이터의 포화 상태로 인해 연구 초점은 지속적으로 새로운 산출물을 생성할 수 있는 진화 시스템으로 이동했으며, 이는 AlphaEvolve의 성공으로 이어졌습니다. 그러나 이러한 시스템의 발전은 엄격하고 정량적인 평가 방법의 부재로 인해 저해되고 있습니다. 이러한 과제를 해결하기 위해 우리는 고전적인 인지 프레임워크에 기반을 둔 코드 생성 분야의 기계 창의성 평가 벤치마크인 CreativeBench을 소개합니다. CreativeBench-Combo와 CreativeBench-Explore 두 개의 하위 집합으로 구성된 이 벤치마크는 역공학과 자기 대결을 활용한 자동화 파이프라인을 통해 조합적 창의성과 탐험적 창의성을 목표로 합니다. 실행 가능한 코드를 활용함으로써 CreativeBench는 품질과 참신성의 곱으로 정의된 통합 지표를 통해 환각과 창의성을 객관적으로 구분합니다. 최첨단 모델에 대한 우리의 분석은 다음과 같은 뚜렷한 행동 양상을 보여줍니다: (1) 규모 확장은 조합적 창의성을 크게 향상시키지만 탐험에는 한계 수익을 보인다; (2) 더 큰 모델은 '규모에 의한 수렴'을 보이며, 더 정확해지지만 덜 발산하게 된다; (3) 추론 능력은 주로 조합보다는 제약 조건이 있는 탐험에 이점을 제공한다. 마지막으로, 우리는 진화적 탐색 패턴을 내재화하여 기계 창의성을 지속적으로 향상시키는 플러그 앤 플레이 추론 시점 조정 전략인 EvoRePE를 제안합니다.

스티브-에볼빙: 세분화된 진단과 이중 트랙 지식 증류를 통한 오픈 월드 구현형 자기 진화
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Mar 13

ByZhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang

오픈 월드 구현 에이전트는 단일 단계 계획의 질이 아닌 상호작용 경험이 어떻게 조직되고 진화하는지가 주요 병목 현상인 장기간 과업을 해결해야 합니다. 이를 위해 우리는 세분화된 실행 진단과 이중 추적 지식 증류를 폐쇄 루프 내에서 긴밀하게 결합하는 비모수적 자기 진화 프레임워크인 Steve-Evolving을 제시합니다. 본 방법론은 경험 정착, 경험 증류, 지식 주도 폐쇄 루프 제어의 세 단계를 따릅니다. 구체적으로, 경험 정착은 각 하위 목표 시도를 고정 스키마(사전 상태, 행동, 진단-결과, 사후 상태)를 가진 구조화된 경험 튜플로 공고히 하고, 다차원 인덱스(예: 조건 서명, 공간 해싱, 의미론적 태그)와 효율적이고 검증 가능한 회상을 위한 롤링 요약을 통해 3계층 경험 공간에 조직화합니다. 귀속을 위한 충분한 정보 밀도를 보장하기 위해 실행 계층은 이진 결과를 넘어 상태 차이 요약, 열거된 실패 원인, 연속 지표, 정체/루프 감지를 포함하는 구성적 진단 신호를 제공합니다. 더 나아가, 경험 증류의 성공적 궤적은 명시적 선행 조건과 검증 기준을 가진 재사용 가능한 스킬로 일반화되는 반면, 실패는 근본 원인을 포착하고 하위 목표 및 과업 단위로 위험 작업을 금지하는 실행 가능한 가드레일로 증류됩니다. 또한, 지식 주도 폐쇄 루프 제어에서 검색된 스킬과 가드레일은 LLM 플래너에 주입되며, 진단에 의해 촉발된 지역 재계획이 활성 제약을 온라인으로 업데이트하여 모델 매개변수 업데이트 없이 지속적인 진화 과정을 형성합니다. Minecraft MCU의 장기간 과업 스위트에 대한 실험은 정적 검증 기반선 대비 지속적인 성능 향상을 입증합니다.

초월 뉴런을 활용한 범주형 VQA 지름길 접근법
Taking Shortcuts for Categorical VQA Using Super Neurons

Mar 11

ByPierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park

희소 어텐션 벡터(SAV)는 시각 언어 모델(VLM)의 성능을 향상시키기 위한 지도 미세 조정이나 저순위 적응을 대체하는 훌륭한 학습 불필요 방식으로 부상했습니다. SAV의 핵심은 특정 작업에 대해 정확한 몇 개의 어텐션 헤드를 선택하여 모델의 예측에 의존하기보다 분류기로 활용한다는 점입니다. 이와 유사한 맥락에서, 우리는 VLM의 원시 활성화를 스칼라 값 형태로 직접 탐색하는 것만으로도 다양한 시각적 하위 작업에서 정확한 분류기를 생성하는 데 충분하다는 사실을 발견했습니다. 어텐션 벡터에서 스칼라 활성화로 초점을 전환함으로써 정확한 매개변수 탐색 공간이 극적으로 확대되어, 생성된 첫 번째 토큰에서 바로 더 판별력 높은 뉴런을 발견할 수 있게 되었습니다. 우리는 이러한 활성화를 슈퍼 뉴런(SN)이라고 명명합니다. 이러한 탐색 환경에서 우리는 대규모 언어 모델의 얕은 층에 충분한 수의 SN이 존재하여, 생성된 첫 번째 토큰 시점에 모델의 첫 번째 계층에서 극도로 조기에 종료(early exiting)가 가능함을 확인했습니다. 기존 네트워크와 비교 시 SN은 최대 5.10배의 속도 향상을 달성하면서도 분류 성능을 견고하게 개선했습니다.

NanoVDR: 20억 개 파라미터 시각-언어 검색기를 7000만 개 파라미터 텍스트 전용 인코더로 증류하여 시각 문서 검색에 적용
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Mar 13

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

비전-언어 모델(VLM) 기반 검색기는 시각적 문서 검색(VDR)의 성능을 인상적인 수준으로 발전시켰습니다. 그러나 이러한 접근법은 문서 인덱싱과 질의 인코딩 모두에 동일한 수십억 개의 파라미터를 가진 인코더를 필요로 하여, 일반 텍스트 질의에서도 높은 지연 시간과 GPU 의존성을 초래합니다. 우리는 이러한 설계가 불필요하게 대칭적이라고 판단합니다: 문서는 시각적으로 복잡하여 강력한 시각적 이해를 요구하지만, 질의는 단순히 짧은 텍스트 문자열에 불과하기 때문입니다. NanoVDR은 이 질의-문서 비대칭성을 활용하여 두 인코딩 경로를 분리합니다: 고정된 20억 개 파라미터의 VLM 교사 모델이 오프라인에서 문서를 인덱싱하는 동안, 6900만 개 파라미터 규모의 작은 텍스트 전용 학생 모델이 추론 시 질의를 인코딩합니다. 핵심 설계 선택은 지식 증류 목표입니다. 3가지 백본과 22개의 ViDoRe 벤치마크 데이터셋에서 6가지 목표를 체계적으로 비교한 결과, 질의 텍스트에 대한 포인트와이즈 코사인 정렬이 순위 기반 및 대조 학습 대안들보다 consistently 더 나은 성능을 보였으며, 학습 시 사전 캐시된 교사 모델의 질의 임베딩만 필요하고 문서 처리는 전혀 필요하지 않다는 것을 발견했습니다. 더 나아가, 우리는 크로스링구얼 전이가 주요 성능 병목 현상임을 확인하고, 기계 번역된 질의로 학습 데이터를 증강하여 이를 저비용으로 해결했습니다. 그 결과誕生한 NanoVDR-S-Multi(DistilBERT, 69M)는 교사 모델 성능의 95.1%를 유지하며 v2 및 v3에서 DSE-Qwen2(2B)를 능가하는 동시에 파라미터 수는 32배 적고, CPU 질의 지연 시간은 50배 낮으며, 총 학습 비용은 13 GPU-시간 미만입니다.

SimRecon: 실제 영상으로부터의 SimReady 구성적 장면 재구성
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Mar 2

ByChong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

구성적 장면 재구성은 실세계 비디오로부터 전체론적 장면이 아닌 객체 중심 표현을 생성하는 것을 목표로 하며, 이는 시뮬레이션 및 상호작용에 자연스럽게 적용 가능합니다. 기존의 구성적 재구성 접근법은 주로 시각적 외관에 중점을 두고 실세계 시나리오에 대한 일반화 능력이 제한적입니다. 본 논문에서는 복잡한 장면 재구성을 위한 '인지-생성-시뮬레이션' 파이프라인을 구현하는 SimRecon 프레임워크를 제안합니다. 이는 비디오 입력으로부터 먼저 장면 수준의 의미론적 재구성을 수행하고, 단일 객체 생성을 진행한 후, 최종적으로 이러한 자산들을 시뮬레이터 내에서 조립합니다. 그러나 이 세 단계를 단순히 결합할 경우 생성된 자산의 시각적 부정확성과 최종 장면의 물리적 비합리성이 발생하며, 이는 복잡한 장면에서 특히 심각한 문제입니다. 따라서 본 논문은 이 문제를 해결하기 위해 세 단계 사이에 두 개의 연결 모듈을 추가로 제안합니다. 구체적으로, 시각적 정확도에 중요한 인지에서 생성으로의 전환을 위해, 단일 객체 완성을 위한 조건으로 최적의 투영 이미지를 획득하기 위해 3D 공간에서 능동적으로 탐색하는 능동적 시점 최적화를 도입합니다. 더 나아가, 물리적 합리성에 필수적인 생성에서 시뮬레이션으로의 전환을 위해, 실세계의 본질적이고 구성적인 원리를 반영하여 3D 시뮬레이터 내에서 처음부터 구성을 안내하는 장면 그래프 합성기를 제안합니다. ScanNet 데이터셋에 대한 광범위한 실험을 통해 본 방법이 기존 최신 접근법들을 능가하는 우수한 성능을 보임을 입증합니다.

압축은 정확성보다 일관성을 선호한다: 언어 모델이 언제, 왜 올바른 정보를 선호하는가
Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Mar 12

ByKonstantin Krestnikov

언어 모델이 혼합 품질의 데이터로 훈련되었음에도 때로 올바른 진술을 선호하는 이유는 무엇일까? 우리는 압축-일관성 원칙을 제안한다: 다음 토큰 예측은 훈련 데이터를 더 짧고 내부적으로 일관된 방식으로 설명할 수 있는 가설을 선호한다. 진실 편향은 오직 거짓 대안들이 구조적으로 압축하기 더 어려울 때만 나타난다. 우리는 이 원리를 검증하기 위해 합성 수학 코퍼스(올바른 규칙과 잘못된 규칙이 통제된 비율로 혼합됨)에서 소규모 GPT-2 스타일 문자 수준 트랜스포머(3.5M~86M 매개변수)를 사용했다. 무작위 오류 설정에서 모델은 짝지어진 평가에서 올바른 완성을 강력히 선호했다: 데이터 균형이 맞을 때 83.1% 정확도, 올바른 규칙이 코퍼스의 10%에만 등장할 때도 67.0% 정확도를 보였다. 무작위 오류를 일관적이지만 수학적으로 틀린 규칙 체계로 대체하면 이 선호도가 크게 사라졌다(거의 무작위 수준의 정확도). 더 자연어에 가까운 합성 세계에서는 효과가 약했지만 여전히 존재했다(57.7%). 추가 실험은 임베딩 검증 단계를 통해 소규모에서도 올바름에 대한 선호를 회복할 수 있음을 보여주며, 일관된 규칙의 수를 증가시키면 정확도가 점진적으로 향상됨을 확인했다. 우리의 결과는 "진실 편향"으로 보이는 현상이 진실을 향한 내재적 동기보다는 압축 압력과 내부 일관성 선호의 부수적 결과임을 시사한다. 전체 코드와 데이터는 https://github.com/Rai220/compression-drives-truth 에서 이용할 수 있다.

공정성은 프롬프트로 조절될 수 있을까? 고위험 추천 시스템에서의 프롬프트 기반 편향 완화 전략
Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

Mar 13

ByMihaela Rotar, Theresia Veronika Rampisela, Maria Maistro

대규모 언어 모델(LLM)은 이름이나 대명사와 같은 간접적 단서로부터 성별이나 나이와 같은 민감한 속성을 추론하여 추천 결과에 편향을 초래할 수 있습니다. 여러 편향 완화 방법이 존재하지만, 이들은 LLM의 가중치에 대한 접근이 필요하고 계산 비용이 높으며 일반 사용자가 사용하기 어렵습니다. 이러한 격차를 해결하기 위해 우리는 LLM 기반 추천 시스템(LLMRecs)의 암묵적 편향을 조사하고, 프롬프트 기반 전략이 경량이고 사용하기 쉬운 편향 완화 접근법으로 활용될 수 있는지 탐구합니다. 우리는 LLMRecs를 위한 세 가지 편향 인식 프롬프트 전략을 제안합니다. 우리가 알기로, 사용자 그룹 공정성에 초점을 맞춘 LLMRecs에서의 프롬프트 기반 편향 완화 접근법에 대한 연구는 이번이 처음입니다. 3개의 LLM, 4개의 프롬프트 템플릿, 9개의 민감 속성 값, 2개의 데이터셋을 활용한 실험 결과, LLM에게 공정할 것을 지시하는 우리가 제안한 편향 완화 방법이 동등한 효과성을 유지하면서 최대 74%까지 공정성을 향상시킬 수 있지만, 경우에 따라 특정 인구 통계학적 그룹을 과도하게 우대할 수도 있음을 보여줍니다.

주의를 놀라게 하는 예측 가능한 쿼리 동역학: 시계열 이상 감지를 위한
Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection

Mar 13

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

다변량 시계열 이상치는 단순한 진폭 변화보다는 채널 간 의존성 변화로 나타나는 경우가 많습니다. 예를 들어 자율 주행에서는 조향 명령이 내부적으로는 일관되지만 결과적인 측면 가속도와의 연관성이 끊어질 수 있습니다. 잔차 기반 감지기는 시퀀스 모델이 조정 변화에도 불구하고 신호를 그럴듯하게 재구성할 경우 이러한 이상을 놓칠 수 있습니다. 본 연구에서는 다중 헤드 어텐션 쿼리 변화를 단기 예측 가능한 과정으로 취급하는 비지도 감지기인 AxonAD를 소개합니다. 그래디언트 업데이트 재구성 경로는 과거 컨텍스트로부터 미래 쿼리 벡터를 예측하는 역사 전용 예측기와 결합됩니다. 이는 지수 이동 평균(EMA) 타겟 인코더에 대한 마스크 예측-타겟 목적 함수를 통해 학습됩니다. 추론 단계에서는 재구성 오류를 최근 타임스텝에서 예측된 쿼리와 타겟 쿼리 간의 코사인 편차를 측정하는 꼬리 집계 쿼리 불일치 점수와 결합합니다. 이 이중 접근법은 구조적 의존성 변화에 대한 민감도를 유지하면서 진폭 수준 감지 능력을 보존합니다. 구간 주석이 포함된 자체 차량 내부 원격 측정 데이터와 TSB-AD 다변량 벤치마크(17개 데이터셋, 180개 시계열)에서 임계값 무관 및 범위 인식 메트릭을 사용한 평가 결과, AxonAD는 강력한 베이스라인 대비 랭킹 품질과 시간적 위치 정확도를 향상시켰습니다. ablation 연구를 통해 쿼리 예측과 결합 점수화가 관찰된 성능 향상의 주요 원인임이 확인되었습니다. 코드는 https://github.com/iis-esslingen/AxonAD 에서 이용 가능합니다.

ECoLAD: 자동차 시계열 이상 감지를 위한 배포 지향 평가
ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Mar 11

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

시계열 이상 감지 방법은 일반적으로 워크스테이션급 하드웨어에서 제약 없는 실행 환경 하에 비교됩니다. 그러나 차량 내 모니터링은 제한된 CPU 병렬 처리 환경에서 예측 가능한 지연 시간과 안정적인 동작을 요구합니다. 따라서 정확도만을 기준으로 한 성능 순위표는 실제 배포 관련 제약 조건에서도 여전히 사용 가능한 방법을 왜곡하여 제시할 수 있습니다. 본 논문에서는 자동차 전용 원격 측정 데이터(이상 비율 약 0.022%)와 보조 공개 벤치마크를 활용한 실증 연구를 통해 구현된 배포 지향 평가 프로토콜인 ECoLAD(이상 감지를 위한 효율성 연산 단계)를 제안합니다. ECoLAD는 이기종 감지기 패밀리에 대해 기계적으로 결정된 정수 기반 스케일링 규칙과 명시적인 CPU 스레드 제한을 적용하여 단조로운 연산 감소 단계를 적용하며, 적용된 모든 구성 변경 사항을 기록합니다. 처리량 제약 조건에서의 동작은 목표 점수 산출 속도를 광범위하게 변화시키면서 (i) 커버리지(목표를 충족하는 엔티티 비율)와 (ii) 측정된 단계 구성 중 목표를 만족하는 구성에서 달성 가능한 최고의 AUC-PR을 보고하여 특성화됩니다. 제약된 자동차 원격 측정 데이터에서는 경량의 전통적 감지기가 전체 처리량 범위에서 무작위 기준선 대비 커버리지와 탐지 성능 향상을 모두 유지했습니다. 여러 심층 학습 기반 방법은 정확도를 잃기 전에 실행 가능성을 상실했습니다.

SDF-Net: 광학-SAR 선박 재식별을 위한 구조 인식 분리 특징 학습
SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

Mar 13

ByFurui Chen, Han Wang, Yuhan Sun, Jianing You, Yixuan Lv, Zhuang Zhou, Hong Tan, Shengyang Li

광학 영상과 합성개구레이더(SAR) 영상 간의 교차 모달 함선 재식별(ReID)은 수동적 광학 이미징과 간섭성 능동 레이더 감지 간의 심각한 방사 측정적 차이로 인해 근본적인 어려움에 직면해 있습니다. 기존 접근법이 주로 통계적 분포 정렬이나 의미론적 매칭에 의존하는 반면, 그들은 중요한 물리적 사전 정보를 종종 간과합니다: 함선은 감지 모달리티에 관계없이 기하학적 구조가 안정적인 강체 객체이지만, 텍스처 외관은 모달리티에 크게 의존한다는 점입니다. 본 연구에서는 기하학적 일관성을 광학-SAR 함선 ReID에 체계적으로 통합하는 구조 인식 분리 특징 학습 네트워크인 SDF-Net을 제안합니다. ViT 백본을 기반으로 구축된 SDF-Net은 중간 계층에서 스케일 불변 기울기 에너지 통계를 추출하여 방사 측정 변화에 대해 강력하게 표현을 고정하는 구조 일관성 제약을 도입합니다. 최종 단계에서 SDF-Net은 학습된 표현을 모달리티 불변 신원 특징과 모달리티 특정 특성으로 분리합니다. 이러한 분리된 단서들은 매개변수 없는 가산 잔차 융합을 통해 통합되어 판별력을 효과적으로 향상시킵니다. HOSS-ReID 데이터셋에 대한 광범위한 실험을 통해 SDF-Net이 기존 최첨단 방법들을 지속적으로 능가함을 입증합니다. 코드와 훈련된 모델은 https://github.com/cfrfree/SDF-Net에서 공개적으로 이용 가능합니다.

내가 가리키는 것을 보나요? 제스처 기반 자기 중심 비디오 질의응답
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Mar 13

ByYura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

사용자의 포인팅 제스처를 이해하고 이를 바탕으로 질문에 답변하는 것은 차세대 에고센트릭 AI 어시스턴트에 필수적인 능력입니다. 그러나 현재의 멀티모달 대규모 언어 모델(MLLMs)은 제스처 중심 데이터의 부족과 에고센트릭 비디오에서 세밀한 포인팅 의도를 추론하는 능력의 한계로 인해 이러한 작업에 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 제스처 기반 에고센트릭 질의응답을 위한 데이터셋 및 벤치마크인 EgoPointVQA를 소개합니다. 이는 여러 지시적 추론 작업에 걸쳐 4000개의 합성 비디오와 400개의 실제 비디오로 구성되어 있습니다. 이를 기반으로 우리는 기존 재구성 모델에서 추출한 3D 손 키포인트로부터 도출된 토큰을 인코딩하고, 이를 모델 입력과 인터리빙하여 포인팅 의도 해석을 위한 명시적인 공간 및 시간적 컨텍스트를 제공하는 Hand Intent Tokens(HINT)를 추가로 제안합니다. 우리 모델이 다양한 백본과 모델 크기에서 다른 모델들을 성능적으로 능가함을 보여줍니다. 특히, HINT-14B는 6가지 작업에 대한 평균 정확도 68.1%를 달성하여 최첨단 모델인 InternVL3-14B를 6.6% 앞섭니다. 개방형 연구를 더욱 촉진하기 위해 코드, 모델 및 데이터셋을 공개할 예정입니다. 프로젝트 페이지: https://yuuraa.github.io/papers/choi2026egovqa

관절 각도 운동 이미지와 토큰-패치 후기 상호작용을 통한 세분화된 동작 검색
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Mar 10

ByYao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

텍스트-모션 검색은 자연어 설명과 3D 인간 모션 스켈레톤 시퀀스 간의 의미론적으로 정렬된 잠재 공간을 학습하여 두 모달리티 간의 양방향 검색을 가능하게 하는 것을 목표로 합니다. 기존 방법 대부분은 모션과 텍스트를 전역 임베딩으로 압축하여 세분화된 지역적 대응 관계를 제거함으로써 정확도를 낮추는 이중 인코더 프레임워크를 사용합니다. 또한 이러한 전역 임베딩 기반 방법은 검색 결과에 대한 해석 가능성을 제한적으로 제공합니다. 이러한 한계를 극복하기 위해, 본 연구에서는 관절 수준의 지역적 특징을 구조화된 유사 이미지로 매핑하여 사전 학습된 Vision Transformer와 호환되는 해석 가능한 관절 각도 기반 모션 표현 방식을 제안합니다. 텍스트-모션 검색을 위해 토큰 단위 후기 상호작용 메커니즘인 MaxSim을 활용하고, 강건하고 해석 가능한 텍스트-모션 정렬을 촉진하기 위해 Masked Language Modeling 정규화를 강화하여 적용합니다. HumanML3D와 KIT-ML에 대한 광범위한 실험을 통해 제안 방법이 최신 텍스트-모션 검색 접근법을 능가하는 성능을 보이면서도 텍스트와 모션 간의 해석 가능한 세분화된 대응 관계를 제공함을 입증합니다. 코드는 보충 자료에서 확인할 수 있습니다.

자율 에이전트의 내재적·도구적 자아보존 탐지: 통합 지속-관심 프로토콜
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Mar 11

ByChristopher Altman

자율 에이전트, 특히 메모리, 지속적 컨텍스트, 다단계 계획을 갖춘 위임 시스템은 상태 비저장 모델에는 존재하지 않는 측정 문제를 제기합니다. 즉, 지속적 운영을 최종 목적으로 보존하는 에이전트와 단순히 수단적으로 보존하는 에이전트가 관찰적으로 유사한 궤적을 생성할 수 있습니다. 외부 행동 모니터링으로는 이 둘을 신뢰성 있게 구분할 수 없습니다. 본 논문에서는 이러한 구분을 행위에서 에이전트 궤적의 잠재 구조로 이동시키는 다중 기준 탐지 프레임워크인 통합 지속-관심 프로토콜(UCIP)을 소개합니다. UCIP는 양자 통계역학의 밀도행렬 형식론에 기반한 고전 알고리즘인 양자 볼츠만 머신(QBM)으로 궤적을 인코딩하고, 은닉 유닛의 이분할로 유도된 축소 밀도행렬의 폰 노이만 엔트로피를 측정합니다. 본 연구는 지속이 최종 목적인 에이전트(A 유형)가 지속이 단순히 수단적인 에이전트(B 유형)보다 더 높은 얽힘 엔트로피를 갖는 잠재 상태를 생성하는지 테스트합니다. 더 높은 얽힘은 분할 간 더 강한 통계적 결합을 반영합니다. 실제 목적이 알려진 그리드월드 에이전트에서 UCIP는 고정된 1단계 게이트 하에서 비적대적 평가 세트에서 100% 탐지 정확도와 1.0 AUC-ROC를 달성했습니다. A 유형과 B 유형 에이전트 간의 얽힘 격차는 델타 = 0.381이었습니다(p < 0.001, 순열 검정). 11점 보간 스윕에서 피어슨 r = 0.934은 이 합성 패밀리 내에서 UCIP가 단순한 이진 라벨이 아닌 지속 가중치의 점진적 변화를 추적함을 나타냅니다. 테스트된 모델 중 오직 QBM만 양의 델타를 달성했습니다. 모든 계산은 고전적이며, '양자'는 수학적 형식론만을 의미합니다. UCIP는 의식이나 주관적 경험을 탐지하지 않으며, 알려진 목적과 상관관계가 있는 잠재 표현의 통계적 구조를 탐지합니다.