ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

1

Omni-WorldBench: 세계 모델을 위한 포괄적 상호작용 중심 평가 방향
Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Mar 23
ByMeiqi Wu, Zhixin Cai, Fufangchen Zhao, Xiaokun Feng, Rujing Dang, Bingze Song, Ruitian Tian, Jiashu Zhu, Jiachen Lei, Hao Dou, Jing Tang, Lei Sun, Jiahong Wu, Xiangxiang Chu, Zeming Liu, Kaiqi Huang
113
8

비디오 기반 월드 모델은 비디오 생성과 3D 재구성이라는 두 가지 주요 패러다임을 따라 발전해 왔습니다. 그러나 기존 평가 벤치마크는 생성 모델에 대한 시각적 충실도와 텍스트-비디오 정렬에만 집중하거나, 근본적으로 시간적 역동성을 간과하는 정적 3D 재구성 메트릭에 의존하는 한계가 있습니다. 우리는 월드 모델링의 미래가 공간 구조와 시간적 변화를 함께 모델링하는 4D 생성에 있다고 주장합니다. 이 패러다임에서 핵심 능력은 상호작용적 응답, 즉 상호작용 행동이 시공간에 걸쳐 상태 전이를 어떻게驱动하는지를 충실히 반영하는 능력입니다. 그러나 기존 벤치마크는 이 중요한 차원을 체계적으로 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 4D 환경에서 월드 모델의 상호작용 응답 능력을 평가하기 위해 특별히 설계된 포괄적인 벤치마크인 Omni-WorldBench를 제안합니다. Omni-WorldBench는 두 가지 핵심 구성 요소로 이루어집니다: 다양한 상호작용 수준과 장면 유형을 포괄하는 체계적인 프롬프트 모음인 Omni-WorldSuite, 그리고 상호작용 행동이 최종 결과와 중간 상태 진화 궤적에 미치는 인과적 영향을 측정하여 월드 모델링 능력을 정량화하는 에이전트 기반 평가 프레임워크인 Omni-Metrics입니다. 우리는 여러 패러다임에 걸친 18개의 대표적인 월드 모델에 대한 광범위한 평가를 수행합니다. 우리의 분석은 현재 월드 모델의 상호작용 응답 능력에 대한 중요한 한계를 드러내며, 향후 연구를 위한 실질적인 통찰을 제공합니다. Omni-WorldBench는 상호작용적 4D 월드 모델링의 발전을 촉진하기 위해 공개될 예정입니다.

2

단순함으로 구현한 속도: 빠른 오디오-비디오 생성 파운데이션 모델을 위한 단일 스트림 아키텍처
Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Mar 23
BySII-GAIR, Sand. ai, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu
92
4

우리는 인간 중심 생성(task)을 위한 오픈소스 오디오-비디오 생성 파운데이션 모델인 daVinci-MagiHuman을 제안합니다. daVinci-MagiHuman은 텍스트, 비디오, 오디오를 통합 토큰 시퀀스로 처리하는 단일 스트림(single-stream) Transformer를 통해 동기화된 비디오와 오디오를 결합(jointly)하여 생성합니다. 이 단일 스트림 설계는 다중 스트림(multi-stream) 또는 교차 주의(cross-attention) 아키텍처의 복잡성을 피하면서도 표준 학습 및 추론 인프라를 사용하여 최적화하기 쉽습니다. 본 모델은 특히 인간 중심 시나리오에서 강점을 보이며, 표현력 있는 얼굴 연기, 자연스러운 발화-표정 조율, 사실적인 신체 움직임, 그리고 정확한 오디오-비디오 동기화를 구현합니다. 중국어(보통화 및 광둥어), 영어, 일본어, 한국어, 독일어, 프랑스어에 걸친 다국어 음성 생성을 지원합니다. 효율적인 추론을 위해 단일 스트림 백본에 모델 경량화(model distillation), 잠재 공간 초해상도(latent-space super-resolution), Turbo VAE 디코더를 결합하여 단일 H100 GPU에서 5초 길이의 256p 비디오를 2초 만에 생성할 수 있습니다. 자동 평가에서 daVinci-MagiHuman은 주요 오픈 모델 중 최고의 시각적 품질과 텍스트 정확도(text alignment)를 달성했으며, 음성 명료도 측정에서 가장 낮은 단어 오류율(14.60%)을 기록했습니다. 2000건의 비교를 통한 인간 주도 쌍별 평가(pairwise human evaluation)에서는 Ovi 1.1 대비 80.0%, LTX 2.3 대비 60.9%의 승률을achieved achieved 달성했습니다. 우리는 기본 모델, 경량화 모델, 초해상도 모델 및 추론 코드베이스를 포함한 전체 모델 스택을 오픈소스로 공개합니다.

3

효율적인 시각 언어 모델을 위한 고해상도 작물 검색: 핵심 영역에 집중하기
Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Mar 14
ByNimrod Shabtay, Moshe Kimhi, Artem Spector, Sivan Haray, Ehud Rivlin, Chaim Baskin, Raja Giryes, Eli Schwartz
66
2

비전-언어 모델(VLM)은 일반적으로 원본 고해상도 이미지를 처리하므로 정확도와 계산 효율성 사이의 트레이드오프를 강요합니다. 고해상도 입력은 세부 사항을 잘 포착하지만 상당한 계산 비용이 발생하는 반면, 저해상도 입력은 효율성을 추구하지만 작은 텍스트 같은 중요한 시각 정보를 놓칠 가능성이 있습니다. 본 논문에서는 저해상도 전역 뷰를 기반으로 작동하며 주어진 질의에 필요한 고해상도 영역만 도구 호출을 통해 검색하는 온디맨드 공간 프레임워크인 AwaRes를 제시합니다. 우리는 지도 데이터를 자동으로 구축합니다: 저해상도와 고해상도 답변을 판단 모델이 비교하여 크롭 필요 여부를 레이블링하고, 오라클 기반 접근 모델이 정답의 근거를 위치시킨 후 이를 이산적 크롭 집합에 매핑하여 다중 턴 도구 사용 궤적을 형성합니다. 콜드-스타트 SFT 후 시맨틱 답변 정확도와 명시적 크롭 비용 패널티를 결합한 복합 보상으로 다중 턴 GRPO를 수행하여 프레임워크를 학습합니다. 프로젝트 페이지: https://nimrodshabtay.github.io/AwaRes

4

LongCat-Flash-Prover: 에이전트 도구 통합 강화학습을 통한 네이티브 형식적 추론 기술 발전
LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Mar 22
ByJianing Wang, Jianfei Zhang, Qi Guo, Linsen Guo, Rumei Li, Chao Zhang, Chong Peng, Cunguang Wang, Dengchang Zhao, Jiarong Shi, Jingang Wang, Liulin Feng, Mengxia Shen, Qi Li, Shengnan An, Shun Wang, Wei Shi, Xiangyu Xi, Xiaoyu Li, Xuezhi Cao, Yi Lu, Yunke Zhao, Zhengyu Chen, Zhimin Lin, Wei Wang, Peng Pei, Xunliang Cai
63
2

본 논문에서는 에이전트 도구 통합 추론(TIR)을 통해 Lean4의 네이티브 형식적 추론 능력을 발전시키는 5600억 개의 매개변수를 가진 오픈소스 MoE(전문가 혼합) 플래그십 모델인 LongCat-Flash-Prover를 소개한다. 우리는 네이티브 형식적 추론 과제를 세 가지 독립적인 형식적 능력, 즉 자동 형식화, 스케치 작성, 증명으로 분해한다. 이러한 능력을 지원하기 위해 고품질 작업 궤적을 확장하는 하이브리드 전문가 반복 프레임워크를 제안하며, 여기에는 주어진 비형식 문제를 바탕으로 형식 명제 생성, 명제로부터 직접 전체 증명 생성, 또는 보조정리 스타일 스케치 생성이 포함된다. 에이전트 강화학습 과정에서는 이러한 장기 과제에서 MoE 모델 학습을 안정화하기 위한 계층적 중요도 샘플링 정책 최적화(HisPO) 알고리즘을 제시한다. 이 알고리즘은 시퀀스 및 토큰 수준에서의 정책 노후화와 내재된 학습-추론 엔진 간 차이를 고려하는 그래디언트 마스킹 전략을 사용한다. 또한, 보상 해킹 문제를 방지하기 위해 정리 일관성 및 합법성 검출 메커니즘을 통합하였다. 광범위한 평가 결과, 우리의 LongCat-Flash-Prover는 자동 형식화 및 정리 증명 분야에서 오픈 가중치 모델의 새로운 최첨단 기술을 수립하였다. 놀라운 샘플 효율성을 보여주며, 문제당 72회의 추론 예산만으로 MiniF2F-Test에서 97.1%의 통과율을 달성했다. 더 어려운 벤치마크에서는 문제당 최대 220회의 시도로 ProverBench의 70.8%, PutnamBench의 41.5%를 해결하여 기존 오픈 가중치 기준선을 크게 능가하는 성능을 보였다.

5

OpenResearcher: 장기 심층 연구 경로 합성을 위한 완전 오픈 파이프라인
OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Mar 17
ByZhuofeng Li, Dongfu Jiang, Xueguang Ma, Haoxiang Zhang, Ping Nie, Yuyu Zhang, Kai Zou, Jianwen Xie, Yu Zhang, Wenhu Chen
61
2

깊은 연구 에이전트를 훈련시키기 위해서는 탐색, 증거 통합, 다단계 추론이 교차되는 장기 궤적이 필요합니다. 그러나 기존 데이터 수집 파이프라인은 일반적으로 독점 웹 API에 의존하여 대규모 궤적 합성이 비용이 많이 들고 불안정하며 재현하기 어렵습니다. 본 논문에서는 1회성 코퍼스 부트스트래핑과 다중 턴 궤적 합성을 분리하고, 1,500만 개 문서 코퍼스 상에서 검색, 열기, 찾기의 세 가지 명시적 브라우저 기본 동작을 통해 검색-탐색 루프를 완전히 오프라인으로 실행하는 재현 가능한 파이프라인인 OpenResearcher를 제시합니다. GPT-OSS-120B를 교사 모델로 사용하여 97,000개 이상의 궤적을 합성했으며, 여기에는 100회 이상의 도구 호출을 포함하는 상당한 장기 궤적 꼬리 부분이 포함됩니다. 30B-A3B 백본 모델을 이러한 궤적으로 지도 미세 조정한 결과 BrowseComp-Plus에서 54.8%의 정확도를 달성하여 기본 모델 대비 +34.0점 향상되었으며, BrowseComp, GAIA, xbench-DeepSearch에서도 경쟁력을 유지했습니다. 환경이 오프라인이며 완전히 계측되어 있기 때문에 통제된 분석도 가능한데, 본 연구를 통해 데이터 필터링 전략, 에이전트 구성 선택, 최종 답변 정확도와의 검색 성공도 연관성을 포함한 깊은 연구 파이프라인 설계에 대한 실용적인 통찰력을 제시합니다. 파이프라인, 합성된 궤적, 모델 체크포인트, 오프라인 검색 환경을 https://github.com/TIGER-AI-Lab/OpenResearcher에서 공개합니다.

6

VideoDetective: 장기 영상 이해를 위한 외부 질의와 내적 관련성을 통한 단서 추적
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Mar 23
ByRuoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu
45
2

긴 영상 이해는 제한된 컨텍스트 윈도우로 인해 멀티모달 대규모 언어 모델(MLLM)에게 여전히 어려운 과제이며, 이로 인해 질의와 관련된 희소한 영상 세그먼트를 식별해야 합니다. 그러나 기존 방법들은 주로 질의만을 기준으로 단서를 지역화하여 영상의 내재적 구조와 세그먼트 간 다양한 관련성을 간과해 왔습니다. 이를 해결하기 위해 우리는 긴 영상 질의 응답에서 효과적인 단서 탐색을 위해 질의-세그먼트 관련성과 세그먼트 간 친화도를 통합하는 VideoDetective 프레임워크를 제안합니다. 구체적으로, 우리는 영상을 다양한 세그먼트로 분할하고 시각적 유사성과 시간적 근접성을 기반으로 구축된 시각-시간적 친화도 그래프로 표현합니다. 그런 다음 가설-검증-정교화 루프를 수행하여 관찰된 세그먼트들의 질의 대비 관련성 점수를 추정하고 이를 관찰되지 않은 세그먼트들로 전파하여, 희소 관찰만으로 최종 응답에 가장 중요한 세그먼트의 지역화를 안내하는 전역 관련성 분포를 생성합니다. 실험 결과, 우리 방법은 대표적인 벤치마크에서 다양한 주류 MLLM들에 걸쳐 일관되게 상당한 성능 향상을 달성했으며, VideoMME-long에서 최대 7.5%의 정확도 향상을 보였습니다. 우리의 코드는 https://videodetective.github.io/에서 확인할 수 있습니다.

7

공간 향상: 언어 기반 추론을 통한 시각적 표현 향상
SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Mar 23
ByByungwoo Jeon, Dongyoung Kim, Huiwon Jang, Insoo Kim, Jinwoo Shin
40
2

대규모 사전 학습 이미지 표현 모델(즉, 비전 인코더)이 다양한 비전 과제에서 놀라운 성공을 거두었음에도 불구하고, 이들은 주로 2D 이미지 데이터로 학습되어 실제 세계의 객체와 배경 간 3D 공간 관계를 제대로 포착하지 못하는 경우가 많으며, 이로 인해 많은 다운스트림 애플리케이션에서의 효과가 제한된다. 이를 해결하기 위해, 우리는 기존 사전 학습된 비전 인코더의 공간 인식 능력을 언어적 설명으로 표현된 3D 공간 지식을 주입하여 향상시키는 확장 가능한 프레임워크인 SpatialBoost를 제안한다. 핵심 아이디어는 2D 이미지에서 추출된 조밀한(dense) 3D 공간 정보를 언어적 표현으로 변환한 후, 이를 대규모 언어 모델(LLM)을 통해 비전 인코더에 주입하는 것이다. 이를 위해, 우리는 점진적으로 조밀한 공간 지음을 통합하고 계층적인 공간 이해를 구축하는 다중 턴 사고 연쇄(Chain-of-Thought, CoT) 추론 과정을 채택한다. 효과를 검증하기 위해, SpatialBoost를 DINOv3와 같은 최첨단 비전 인코더에 적용하고, 3D 인식과 일반 비전 능력이 모두 필요한 다양한 벤치마크에서의 성능 향상을 평가한다. 예를 들어, SpatialBoost는 ADE20K에서 DINOv3 성능을 55.9 mIoU에서 59.7 mIoU로 향상시켜 사전 학습된 DINOv3 대비 3.8%의 성능 향상과 함께 최첨단 성능을 달성한다.

8

비디오 생성을 위한 강화 학습의 매니폴드 인식 탐색
Manifold-Aware Exploration for Reinforcement Learning in Video Generation

Mar 23
ByMingzhe Zheng, Weijie Kong, Yue Wu, Dengyang Jiang, Yue Ma, Xuanhua He, Bin Lin, Kaixiong Gong, Zhao Zhong, Liefeng Bo, Qifeng Chen, Harry Yang
32
2

비디오 생성 분야의 FlowGRPO와 같은 그룹 상대 정책 최적화(GRPO) 방법은 언어 모델 및 이미지 생성에 적용된 동급 방법들에 비해 여전히 신뢰도가 크게 떨어진다. 이러한 격차는 비디오 생성이 복잡한 해결 공간을 가지며, 탐색을 위해 사용되는 ODE-to-SDE 변환이 과도한 노이즈를 유입시켜 rollout 품질을 저하시키고 보상 추정의 신뢰성을 낮춤으로써 사후 훈련 정렬을 불안정하게 만들기 때문에 발생한다. 이 문제를 해결하기 위해 우리는 사전 훈련된 모델이 유효한 비디오 데이터 매니폴드를 정의한다고 보고, 핵심 문제를 이 매니폴드 주변 내에서 탐색을 제한하는 것으로 정식화하여 rollout 품질이 유지되고 보상 추정이 신뢰할 수 있도록 한다. 우리는 미시적 및 거시적 수준에서 모두 제약을 적용하는 SAGE-GRPO(탐색을 통한 안정적 정렬)를 제안한다. 미시적 수준에서는 로그 곡률 보정을 포함한 정확한 매니폴드 인식 SDE를 유도하고, 시간 단계별 샘플링 및 업데이트를 안정화하기 위한 그래디언트 노름 균등기를 도입한다. 거시적 수준에서는 주기적 이동 앵커와 단계적 제약을 갖는 이중 신뢰 영역을 사용하여 신뢰 영역이 매니폴드에 더 가까운 체크포인트를 추적하고 장기간 드리프트를 제한하도록 한다. 우리는 HunyuanVideo1.5에서 원본 VideoAlign을 보상 모델로 사용하여 SAGE-GRPO를 평가한 결과, VQ, MQ, TA 및 시각적 지표(CLIPScore, PickScore)에서 기존 방법 대비 지속적인 향상을 관찰하여 보상 극대화와 전반적인 비디오 품질 모두에서 우수한 성능을 입증했다. 코드와 시각 자료 갤러리는 https://dungeonmassster.github.io/SAGE-GRPO-Page/에서 확인할 수 있다.

9

mSFT: 다중 작업 SFT에서 데이터셋 혼합의 이질적 과적합 문제 해결
mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Mar 23
ByWoosung Koh, Jeyoung Jeon, Youngjin Song, Yujin Cheon, Soowon Oh, Jaehyeong Choi, Se-Young Yun
31
2

현재 언어 모델 훈련에서는 일반적으로 모든 하위 데이터셋에 동일한 컴퓨팅 예산을 적용한 다중 작업 지도 미세 조정(SFT)이 널리 사용되고 있습니다. 그러나 이러한 접근 방식은 근본적으로 최적이 아닙니다. 이질적인 학습 역학으로 인해 학습 속도가 빠른 작업은 초기에 과적합되는 반면, 느린 작업은 여전히 과소적합 상태에 머물게 됩니다. 이를 해결하기 위해 우리는 다중 작업 데이터 혼합을 위한 반복적이고 과적합 인식 탐색 알고리즘인 mSFT를 제안합니다. mSFT는 활성 혼합 데이터로 모델을 훈련시키고, 가장 먼저 과적합되는 하위 데이터셋을 식별하여 제외한 후, 해당 특정 최적 체크포인트로 복귀하여 훈련을 계속합니다. 광범위한 평가 결과, mSFT가 10개의 벤치마크와 6개의 기본 모델에서 4가지 기준 방법을 일관되게 능가함을 확인했습니다. 추가 분석을 통해 mSFT가 다양한 데이터셋 크기와 작업 세분성에서도 견고한 성능 향상을 유지하며, 단일 신규 하이퍼파라미터(컴퓨팅 예산)에 둔감함을 확인했습니다. 특히 낮은 컴퓨팅 예산에서 mSFT는 훈련 FLOPs를 줄이면서도 성능을 향상시킬 수 있습니다. 궁극적으로 mSFT는 다양한 데이터 혼합에서 모델의 잠재력을 극대화하는 실용적인 과적합 인식 다중 작업 SFT 알고리즘을 정립합니다.

10

F4Splat: 피드-포워드 3D 가우시안 스플래팅을 위한 피드-포워드 예측 밀도화
F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Mar 22
ByInjae Kim, Chaehyeon Kim, Minseong Bae, Minseok Joo, Hyunwoo J. Kim
31
3

피드포워드 3D 가우시안 스플랫팅 방법은 단일 패스(single-pass) 재구성과 실시간 렌더링을 가능하게 합니다. 그러나 이 방법들은 일반적으로 픽셀-가우시안 또는 복셀-가우시안과 같은 경직된 파이프라인을 채택하여 균일하게 가우시안을 할당함으로써 다양한 시점에서 중복된 가우시안이 발생하는 문제가 있습니다. 더욱이, 재구성 정확도를 유지하면서 총 가우시안 수를 효과적으로 제어할 수 있는 메커니즘이 부족합니다. 이러한 한계를 해결하기 위해 본 논문에서는 F4Splat을 제안합니다. F4Splat은 피드포워드 3D 가우시안 스플랫팅을 위한 피드포워드 예측적 밀도화(densification)를 수행하며, 공간적 복잡도와 다중 시점 중첩도에 따라 가우시안을 적응적으로 분배하는 밀도화-점수-기반 할당 전략을 도입합니다. 우리 모델은 지역별 밀도화 점수를 예측하여 필요한 가우시안 밀도를 추정하고, 재학습 없이도 최종 가우시안 예산을 명시적으로 제어할 수 있도록 합니다. 이러한 공간 적응적 할당은 단순 영역에서의 중복성을 줄이고 중첩된 시점 간 중복 가우시안을 최소화하여 컴팩트하면서도 고품질의 3D 표현을 생성합니다. 광범위한 실험을 통해 우리 모델이 기존의 보정되지 않은(uncalibrated) 피드포워드 방법들에 비해 훨씬 적은 수의 가우시안을 사용하면서도 우수한 새로운 시점 합성 성능을 달성함을 입증합니다.

11

기하학적 파운데이션 모델의 다중 뷰 확산 적용 재구성
Repurposing Geometric Foundation Models for Multi-view Diffusion

Mar 23
ByWooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, Sainan Liu
29
2

최근 생성형 잠재 공간의 발전으로 단일 이미지 생성 분야에서 상당한 진전이 이루어졌지만, 새로운 시점 합성(NVS)에 최적화된 잠재 공간은 여전히 크게 탐구되지 않았다. 특히 NVS는 시점 간 기하학적 일관성을 요구하지만, 기존 접근법들은 일반적으로 시점 독립적인 VAE 잠재 공간에서 작동한다. 본 논문에서는 기하학적 기초 모델의 기하학적 일관성 특징 공간을 다중 시점 확산 모델의 잠재 공간으로 재활용하는 프레임워크인 GLD(Geometric Latent Diffusion)를 제안한다. 해당 특징들이 높은 정밀도의 RGB 재구성을 지원할 뿐만 아니라 강력한 시점 간 기하학적 대응 관계를 인코딩함으로써 NVS에 적합한 잠재 공간을 제공함을 보여준다. 실험 결과, GLD는 2D 이미지 품질 및 3D 일관성 메트릭에서 VAE와 RAE를 모두 능가하며, VAE 잠재 공간 대비 4.4배 이상 학습 속도를 향상시킨다. 특히 GLD는 대규모 텍스트-이미지 사전 학습을 활용하는 최신 방법들과 비교했을 때, 해당 생성적 사전 학습 없이 확산 모델을 처음부터 학습함에도 불구하고 경쟁력을 유지한다.

12

Group3D: 개방형 어휘 3D 객체 감지를 위한 MLLM 기반 의미론적 그룹화
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

Mar 23
ByYoubin Kim, Jinho Park, Hogun Park, Eunbyung Park
25
2

오픈-보커블러리 3D 객체 탐지는 고정된 학습 분류체계를 넘어서는 객체의 위치를 파악하고 인식하는 것을 목표로 합니다. 다중 뷰 RGB 환경에서 최근 접근법들은 기하학 기반 인스턴스 구성과 의미론적 레이블 지정을 분리하여, 클래스 독립적인 프래그먼트를 생성한 후 사후적으로 오픈-보커블러리 범주를 할당하는 방식을 자주 사용합니다. 이러한 분리 방식은 유연하지만, 인스턴스 구성이 주로 기하학적 일관성에 의해 지배되어 병합 과정 중 의미론적 제약이 결여됩니다. 기하학적 증거가 뷰 의존적이고 불완전할 때, 이러한 기하학 전용 병합은 서로 다른 객체의 과도한 병합이나 단일 인스턴스의 분할을 포함한 되돌릴 수 없는 연관 오류를 초래할 수 있습니다. 우리는 의미론적 제약을 인스턴스 구성 과정에 직접 통합하는 다중 뷰 오픈-보커블러리 3D 탐지 프레임워크인 Group3D를 제안합니다. Group3D는 다중 모드 대형 언어 모델(MLLM)에서 파생된 장면 적응형 어휘 집합을 유지하며, 이를 다중 뷰에서 타당한 범주 등가성을 인코딩하는 의미론적 호환성 그룹으로 구성합니다. 이러한 그룹들은 병합 시점의 제약 조건으로 작용합니다: 3D 프래그먼트들은 의미론적 호환성과 기하학적 일관성 모두를 충족할 때만 연관됩니다. 이러한 의미론적으로 제어되는 병합은 기하학에 의한 과도한 병합을 완화하면서 다중 뷰 범주 변동성을 흡수합니다. Group3D는 포즈 정보가 알려진 설정과 알려지지 않은 설정을 모두 지원하며, RGB 관측만을 의존합니다. ScanNet과 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈-보커블러리 3D 탐지에서 최첨단 성능을 달성하는 동시에 제로-샷 시나리오에서 강력한 일반화 능력을 보여줍니다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/에서 확인할 수 있습니다.

13

로보얼라인: 비전-언어-행동 모델에서 언어-행동 정렬을 위한 테스트 타임 추론 학습
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Mar 22
ByDongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
22
2

멀티모달 대규모 언어 모델(MLLM)의 구현적 추론 능력 향상은 다중 모드 이해를 저수준 동작으로 전환할 수 있는 시각-언어-행동 모델(VLA) 구축에 필수적입니다. 이에 최근 연구에서는 시각 질의응답 유형의 지도를 통해 MLLM의 구현적 추론을 강화하는 방법을 탐구해 왔습니다. 그러나 이러한 접근법은 VLA 성능을 불안정하게 만들어 종종 미미하거나 오히려 부정적인 성능 향상을 보이는 것으로 보고되었습니다. 본 논문에서는 VLA 성능을 안정적으로 향상시키는 체계적인 MLLM 학습 프레임워크인 RoboAlign을 제안합니다. 우리의 핵심 아이디어는 제로샷 자연어 추론을 통해 행동 토큰을 샘플링하고 강화 학습(RL)을 사용해 이 추론을 정제하여 행동 정확도를 높이는 것입니다. 그 결과 RoboAlign은 MLLM 내에서 언어와 저수준 행동 간의 모달리티 격차를 해소하고 MLLM에서 VLA로의 지식 전이를 촉진합니다. RoboAlign의 효과를 검증하기 위해 MLLM 백본 위에 확산 기반 행동 헤드를 추가하여 VLA를 학습시키고 주요 로봇 공학 벤치마크에서 평가했습니다. 주목할 점은 1% 미만의 데이터를 사용한 SFT 이후 RL 기반 정렬을 수행함으로써 RoboAlign이 LIBERO, CALVIN 및 실제 환경에서 SFT 기준 대비 각각 17.5%, 18.9%, 106.6%의 성능 향상을 달성했다는 것입니다.

14

대규모 언어 모델 추론을 위한 RLVR 업데이트 방향: 식별과 활용
On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Mar 23
ByKexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou
20
2

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 크게 향상시켰다. 기존 분석들은 RLVR에 의해 유도된 변화가 희소하다는 점을 확인하지만, 주로 이러한 업데이트의 규모에 초점을 맞추고 그 방향성은 크게 간과해 왔다. 본 연구에서는 업데이트의 방향이 RLVR의 효과를 이해하는 데 더 중요한 렌즈라고 주장하며, 이는 기본 RLVR 모델과 최종 RLVR 모델 간의 부호가 있는 토큰 수준 로그 확률 차이 Δlog p로 포착될 수 있다고 본다. 통계적 분석과 토큰 대체 개입을 통해 우리는 Δlog p가 규모 기반 지표(예: 발산도 또는 엔트로피)보다 희소하면서도 추론에 중요한 업데이트를 더 효과적으로 식별함을 입증한다. 이러한 통찰을 바탕으로 두 가지 실용적인 응용 방안을 제안한다: (1) 추가 학습 없이 추론 정확도를 향상시키기 위해 학습된 Δlog p 방향으로 정책을 증폭하는 테스트 시점 외삽 방법; (2) 낮은 확률(더 높은 Δlog p에 해당) 토큰에 학습을 집중시키는 학습 시점 재가중 방법으로, 이는 다양한 모델과 벤치마크에서 추론 성능을 향상시킨다. 우리의 연구는 변화의 방향을 RLVR을 분석하고 개선하는 핵심 원리로 정립한다.

15

BubbleRAG: 블랙박스 지식 그래프를 위한 증거 기반 검색 증강 생성
BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Mar 19
ByDuyi Pan, Tianao Lou, Xin Li, Haoze Song, Yiwen Wu, Mengyi Deng, Mingyu Yang, Wei Wang
18
3

대규모 언어 모델(LLM)은 지식 집약적 작업에서 환각 현상을 보입니다. 그래프 기반 검색 증강 생성(RAG)이 유망한 해결책으로 부상했지만, 기존 접근법은 블랙박스 지식 그래프(사전에 스키마와 구조가 알려지지 않은 그래프)에서 작동할 때 근본적인 재현율과 정밀도의 한계를 겪습니다. 우리는 재현율 손실(의미론적 인스턴스화 불확실성 및 구조적 경로 불확실성)과 정밀도 손실(증거 비교 불확실성)을 유발하는 세 가지 핵심 과제를 규명합니다. 이러한 과제를 해결하기 위해 검색 작업을 최적 정보 하위 그래프 검색(OISR) 문제—그룹 슈타이너 트리의 변형—로 공식화하고, 이 문제가 NP-난해 및 APX-난해임을 증명합니다. 우리는 의미론적 앵커 그룹화, 후보 증거 그래프(CEG) 발견을 위한 휴리스틱 버블 확장, 복합 랭킹, 추론 인식 확장을 통해 재현율과 정밀도를 체계적으로 최적화하는 학습 불필요 파이프라인인 BubbleRAG를 제안합니다. 다중 홉 질의응답 벤치마크에서의 실험 결과, BubbleRAG는 플러그 앤 플레이 방식을 유지하면서 F1과 정확도 모두에서 강력한 베이스라인을 능가하는 최첨단 성과를 달성함을 보여줍니다.

16

SEM: 시각-언어 모델의 사후 편향 제어를 위한 희소 임베딩 변조 기법
SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Mar 19
ByQuentin Guimard, Federico Bartsch, Simone Caldarella, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini
16
2

CLIP과 같은 시각-언어 간 연결을 위한 모델은 다중모달 AI의 핵심 구성 요소이지만, 대규모로 정제되지 않은 학습 데이터로 인해 심각한 사회적 편향과 허위 상관관계가 도입됩니다. 기존의 사후 편향 제거 방법들은 주로 CLIP의 조밀한 임베딩 공간에서 직접 작동하는데, 이 공간에서는 편향과 작업 관련 정보가 심하게 얽혀 있습니다. 이러한 얽힘은 의미적 정확도를 저하시키지 않으면서 편향을 제거하는 능력을 제한합니다. 본 연구에서는 희소 오토인코더(SAE) 잠재 공간에서 작동하는 사후 제로샷 편향 제거 프레임워크인 SEM(Sparse Embedding Modulation)을 제안합니다. SEM은 CLIP 텍스트 임베딩을 분리된 특징들로 분해함으로써, 쿼리 관련 뉴런은 보존한 채 편향 관련 뉴런을 식별하고 조절합니다. 이를 통해 더 정밀한 비선형 개입이 가능해집니다. 4개의 벤치마크 데이터셋과 2개의 CLIP 백본에 걸쳐, SEM은 검색 및 제로샷 분류 작업에서 상당한 공정성 향상을 달성했습니다. 우리의 결과는 희소 잠재 표현이 시각-언어 모델의 사후 편향 제거를 위한 효과적인 기반을 제공함을 보여줍니다.

17

PivotRL: 낮은 컴퓨팅 비용으로 높은 정확도를 달성하는 에이전트 사후 학습 기법
PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Mar 22
ByJunkeun Yi, Damon Mosk-Aoyama, Baihe Huang, Ritu Gala, Charles Wang, Sugam Dipak Devare, Khushi Bhardwaj, Abhibha Gupta, Oleksii Kuchaiev, Jiantao Jiao, Jian Zhang, Venkat Srinivasan
13
1

장기 과제 수행 에이전트의 사후 훈련에서는 계산 효율성과 일반화 사이에 긴장 관계가 존재합니다. 지도 미세 조정(SFT)은 계산 효율성이 뛰어나지만, 도메인 외(OOD) 환경에서 성능 저하가 자주 발생합니다. 반면, 종단간 강화 학습(E2E RL)은 OOD 능력을 유지하지만, 다수의 온-정책 롤아웃 단계로 인해 높은 계산 비용이 수반됩니다. 본 연구에서는 기존 SFT 궤적을 활용하여 SFT의 계산 효율성과 E2E RL의 OOD 정확도를 결합하는 새로운 프레임워크인 PivotRL을 소개합니다. PivotRL은 두 가지 핵심 메커니즘에 기반합니다: 첫째, 지역적 온-정책 롤아웃을 실행하고 샘플링된 행동의 결과 변동성이 높은 정보적 중간 단계인 피벗을 선별합니다; 둘째, SFT 시범 데이터와의 엄격한 문자열 일치를 요구하기보다 기능적으로 동등한 행동에 대한 보상을 활용합니다. 이론적으로 이러한 메커니즘이 높은 자연 기울기 노름을 지닌 강력한 학습 신호를 장려하면서도, 훈련 과제와 무관한 행동에 대한 정책 확률 순서를 최대한 보존함을 입증합니다. 동일한 데이터에 대한 표준 SFT 대비 PivotRL은 4개 에이전트 도메인에서 평균 +4.17% 높은 도메인 내 정확도와 비에이전트 과제에서 +10.04% 높은 OOD 정확도를 달성했습니다. 특히 에이전트 코딩 과제에서 PivotRL은 E2E RL 대비 롤아웃 단계를 4분의 1로 줄이면서도 경쟁력 있는 정확도를 보였습니다. PivotRL은 NVIDIA의 Nemotron-3-Super-120B-A12B에 채택되어 프로덕션 규모의 에이전트 사후 훈련 핵심 기술로 활용되고 있습니다.

18

REVERE: 과학적 워크플로우를 위한 반성적 진화 연구 엔지니어
REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Mar 21
ByBalaji Dinesh Gangireddi, Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
11
2

기존 프롬프트 최적화 기법은 동작 업데이트에 지역적 신호에 의존하여 과제 전반에 걸친 광범위하고 반복적인 패턴을 간과함으로써 일반화 성능이 낮은 경우가 많으며, 전체 프롬프트 재작성이나 비정형 병합에 의존함으로써 지식 손실이 발생합니다. 이러한 한계는 이질적인 저장소, 불충분하게 명시된 환경, 약한 피드백이 수반되며 공개 코드베이스에서 결과 재현이 확립된 평가 방식인 연구-코딩 워크플로우에서 더욱 두드러집니다. 우리는 글로벌 훈련 컨텍스트로부터 지속적으로 학습하고, 저장소 간 실행 궤적에서 반복적으로 나타나는 실패 모드를 인지하며, 이를 재사용 가능한 휴리스틱으로 정제한 뒤, 시스템 프롬프트, 작업 프롬프트 템플릿, 누적 치트시트라는 세 가지 구성 가능한 영역에 걸쳐 표적 편집을 수행하는 Reflective Evolving Research Engineer(REVERE) 프레임워크를 소개합니다. REVERE는 이러한 성찰적 최적화 프레임워크를 통해 연구 코딩 과제에서 기존 최첨단 전문가 제작 지침 대비 성능을 각각의 메트릭 기준으로 SUPER에서 4.50%, ResearchCodeBench에서 3.51%, ScienceAgentBench에서 4.89% 향상시켰습니다. 이러한 결과는 지속적 학습과 글로벌 메모리 통합 메커니즘을 갖춘 에이전트가 시간이 지남에 따라 자신의 역량을 의미 있게 진화시킬 수 있음을 보여줍니다.

19

Insight-V++: 다중 모달 대규모 언어 모델을 활용한 고급 장기 시각 추론 방향
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Mar 18
ByYuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu
10
2

대규모 언어 모델(LLM)은 확장된 테스트 타임 추론을 통해 뛰어난 신뢰성과 고급 능력을 달성했습니다. 그러나 고품질의 장기간 추론 데이터와 최적화된 훈련 파이프라인의 심각한 부족으로 인해 이러한 능력을 다중 모달 대규모 언어 모델(MLLM)로 확장하는 것은 여전히 큰 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 이미지 중심 기반 모델인 Insight-V에서 출발하여 일반화된 시공간 아키텍처인 Insight-V++로 체계적으로 진화하는 통합 다중 에이전트 시각 추론 프레임워크를 제시합니다. 먼저, 다중 세분성 평가를 갖춘 확장 가능한 데이터 생성 파이프라인을 제안하여 인간의 개입 없이 이미지 및 비디오 영역에 걸친 구조화된 복잡한 추론 궤적을 자율적으로 합성합니다. 이러한 복잡한 데이터로 MLLM을 직접 지도하는 것이 최적의 결과를 내지 못한다는 점을 인식하고, 우리는 광범위한 분석 체인을 실행하는 추론 에이전트와 최종 결과를 비판적으로 평가하여 정제하는 요약 에이전트로 구성된 이중 에이전트 아키텍처를 설계했습니다. 초기 프레임워크는 직접 선호도 최적화(DPO)를 사용했지만, 그 오프-폴리시 특성으로 인해 강화 학습의 잠재력이 근본적으로 제한되었습니다. 특히 장기간 비디오 이해를 위해 이러한 한계를 극복하기 위해 Insight-V++는 시공간 추론을 강화하고 평가 견고성을 개선하는 두 가지 새로운 알고리즘인 ST-GRPO와 J-GRPO를 도입합니다. 중요한 것은 요약 에이전트의 신뢰할 수 있는 피드백을 활용하여 반복적인 추론 경로 생성 과정을 안내하고, 전체 다중 에이전트 시스템을 지속적이고 자기 개선적인 루프 내에서 재훈련한다는 점입니다. LLaVA-NeXT 및 Qwen2.5-VL과 같은 기본 모델에 대한 광범위한 실험을 통해 기존의 인식 중심 작업에 대한 강력한 능력을 유지하면서도 까다로운 이미지 및 비디오 추론 벤치마크 전반에 걸쳐 상당한 성능 향상을 입증했습니다.

20

**스케일링 DoRA: 인수분해 노름과 융합 커널을 통한 고차원 순위 적응**
Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

Mar 23
ByAlexandra Zelenin, Alexandra Zhuravlyova
9
2

가중치 분해 저순위 적응(DoRA)은 LoRA를 확장하여 가중치 크기를 방향과 분리하지만, 순전파 과정에서는 W + sBA의 행별 노름 계산이 필요합니다. 주요 프레임워크들은 모두 [d_out, d_in] 크기의 밀집 행렬 곱 BA를 실제로 생성하는 방식으로 이를 구현합니다. d_in = 8192이고 순위 r = 384일 때, 단일 모듈의 노름 계산은 bf16 기준 약 512MB의 일시적 작업 메모리가 필요하여, 수백 개의 적응 모듈과 체크포인팅이 동반되면 고순위 DoRA는 일반적인 단일 GPU 환경에서 비용이 높고 종종 실행 불가능합니다. 본 논문은 두 가지 시스템 기여를 제시합니다. 인수분해 노름은 제곱 노름을 기본, 교차, Gram 항으로 분해하여 O(d_out r + r^2) 중간 계산을 통해 밀집 행렬 곱을 제거합니다. 융합 Triton 커널은 4단계의 DoRA 구성 커널을 단일 패스로 통합하여 메모리 트래픽을 약 4분의 1로 줄이고, 실제 크기 스케일이 집중되는 near-unity 재조정 영역에서 치명적 취소를 방지하는 수치적으로 안정된 형태를 사용합니다. bf16 기준 r = 384로 세 가지 NVIDIA GPU(RTX 6000 PRO, H200, B200)에서 6개의 8-32B 비전-언어 모델에 대해 테스트한 결과, 융합 구현은 Hugging Face PEFT의 DoRA 구현보다 추론 시 1.5-2.0배, 기울기 계산 시(옵티마이저 단계 제외) 1.5-1.9배 빠르며, 최대 7GB 더 낮은 최대 VRAM을 보였습니다. 4세대 아키텍처에 걸친 6개 GPU(L40S, A100, RTX 6000 PRO, H200, B200, B300)의 마이크로 벤치마크는 구성 커널 속도가 1.5-2.7배 향상됨을 확인합니다. 최종 로짓 코사인 유사도는 모든 모델/GPU 쌍에서 0.9999를 초과하며, 2000단계에 걸친 다중 시드 학습 곡선은 단계별 평균 손실 차이 7.1 x 10^-4 이내로 일치합니다.

21

범용 정규 임베딩
The Universal Normal Embedding

Mar 23
ByChen Tasker, Roy Betser, Eyal Gofer, Meir Yossef Levi, Guy Gilboa
7
2

생성 모델과 비전 인코더는 서로 다른 목표에 최적화되고 상이한 수학적 원리에 기반하여 대체로 별개의 경로로 발전해왔습니다. 그러나 이들은 근본적인 속성을 공유하는데, 바로 잠재 공간의 가우시안성(Gaussianity)입니다. 생성 모델은 가우시안 노이즈를 이미지로 매핑하는 반면, 인코더는 이미지를 의미론적 임베딩으로 매핑하며, 이 임베딩의 좌표들은 경험적으로 가우시안 분포를 따르는 것으로 관찰됩니다. 우리는 이 두 가지가 공유 잠재 소스인 **범용 정규 임베딩(Universal Normal Embedding, UNE)** 의 서로 다른 관점이라고 가정합니다. UNE는 대략적으로 가우시안인 잠재 공간으로, 인코더 임베딩과 DDIM 역전파 노이즈가 잡음이 섞인 선형 투영으로부터 발생합니다. 우리 가설을 검증하기 위해, DDIM 역전파 확산 노이즈와 이에 대응하는 인코더 표현(CLIP, DINO)으로 구성된 이미지별 잠재 코드 데이터셋인 **NoiseZoo**를 소개합니다. CelebA 데이터셋에서 두 공간의 선형 탐사기(linear probe)는 강력하고 일관된 속성 예측 결과를 보여주며, 생성 노이즈가 선형 방향을 따라 의미 있는 의미론을 인코딩함을 시사합니다. 이러한 방향성을 이용하면 아키텍처 변경 없이도 신뢰할 수 있는 제어형 편집(예: 미소, 성별, 나이)이 가능하며, 간단한 직교화를 통해 불필요한 변수 간섭을 완화할 수 있습니다. 종합적으로, 우리의 결과는 UNE 가설에 대한 경험적 근거를 제공하고, 인코딩과 생성을 구체적으로 연결하는 공유된 가우시안형 잠재 기하학을 밝혀냅니다. 코드와 데이터는 https://rbetser.github.io/UNE/에서 이용 가능합니다.

22

스냅샷에서 일반화된 이산 확산
Generalized Discrete Diffusion from Snapshots

Mar 22
ByOussama Zekri, Théo Uscidda, Nicolas Boullé, Anna Korba
7
2

우리는 대규모 이산 상태 공간에서 임의의 노이즈 추가 과정을 지원하는 통합 이산 확산 모델링 프레임워크인 GDDS(Generalized Discrete Discrete Diffusion from Snapshots)를 소개합니다. 우리의 공식은 기존의 모든 이산 확산 접근법을 포괄하면서도 손상 역학 선택에 있어 훨씬 더 큰 유연성을 허용합니다. 순방향 노이즈 추가 과정은 균일화(uniformization)에 기반하며 빠른 임의 손상을 가능하게 합니다. 역과정에서는 전체 노이즈 경로 대신 스냅샷 잠재 변수 기반의 단순한 ELBO(Evidence Lower Bound)를 유도하여, 명확한 확률론적 해석과 함께 표준 생성 모델 아키텍처의 효율적인 학습을 가능하게 합니다. 대규모 어휘 집합을 대상으로 한 이산 생성 실험에서, 제안된 프레임워크는 학습 효율성과 생성 품질 측면에서 기존 이산 확산 방법을 능가하며, 이 규모에서는 처음으로 자기회귀 모델을 앞질렀습니다. 코드와 블로그 글은 프로젝트 페이지(https://oussamazekri.fr/gdds)에서 확인할 수 있습니다.

23

ToolRosetta: 자동화된 도구 표준화를 통해 오픈소스 저장소와 대규모 언어 모델 에이전트 연결하기
ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Mar 10
ByShimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui
5
2

기존 코드의 재사용과 호출은 여전히 비용이 많이 들고 신뢰하기 어려운 실정인데, 이는 대부분의 실용적인 도구들이 이기종 코드 저장소에 내재되어 있고 표준화된 실행 가능한 인터페이스가 부족하기 때문입니다. 대규모 언어 모델(LLM)과 Model Context Protocol(MCP) 기반 도구 호출 프레임워크가 자연어 작업 실행을 가능하게 하지만, 현재의 접근 방식은 확장성을 근본적으로 제한하는 수동 도구 선별 및 표준화에 크게 의존하고 있습니다. 본 논문에서는 오픈소스 코드 저장소와 API를 LLM이 안정적으로 호출할 수 있는 MCP 호환 도구로 자동 변환하는 통합 프레임워크인 ToolRosetta를 제안합니다. ToolRosetta는 사용자 작업이 주어지면 도구 체인을 자율적으로 계획하고 관련 코드베이스를 식별한 후 이를 실행 가능한 MCP 서비스로 변환하여 최소한의 인간 개입으로 종단간 작업 완성을 가능하게 합니다. 또한 ToolRosetta는 임의 코드 실행에 내재된 위험을 완화하기 위한 보안 검사 계층을 포함합니다. 다양한 과학 분야에 걸친 폭넓은 실험을 통해 ToolRosetta가 대량의 오픈소스 도구를 자동으로 표준화하고 코드 재현 및 배포에 필요한 인간의 노력을 줄일 수 있음을 입증했습니다. 특히, 특화된 오픈소스 도구를 원활하게 활용함으로써 ToolRosetta 기반 에이전트는 상용 LLM 및 기존 에이전트 시스템과 비교해 작업 완성 성능을 지속적으로 향상시킵니다.

24

세부 잠재 작업 탐색을 통한 확장 가능한 프롬프트 라우팅
Scalable Prompt Routing via Fine-Grained Latent Task Discovery

Mar 19
ByYunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis
5
2

프롬프트 라우팅은 후보 모델 풀에서 각 쿼리에 가장 적합한 대규모 언어 모델을 동적으로 선택하여 비용을 관리하면서 성능을 최적화합니다. 모델 풀이 성능 격차가 미세한 수십 개의 최첨단 모델로 확장됨에 따라, 기존 접근법은 중대한 과제에 직면하고 있습니다: 수동으로 정의된 작업 분류 체계는 세분화된 능력 차이를 포착하지 못하며, 단일화된 라우터는 다양한 작업 간 미세한 차이를 구분하기 어렵습니다. 본 연구에서는 자동화된 세분화 작업 발견과 작업 인식 품질 추정을 통해 이러한 한계를 해결하는 2단계 라우팅 아키텍처를 제안합니다. 첫 번째 단계에서는 그래프 기반 클러스터링을 통해 잠재적 작업 유형을 발견하고 분류기를 훈련시켜 프롬프트를 발견된 작업에 할당합니다. 두 번째 단계에서는 작업별 예측 헤드를 갖는 전문가 혼합 아키텍처를 사용하여 특화된 품질 추정을 수행합니다. 추론 시 두 단계의 예측을 종합하여 작업 수준 안정성과 프롬프트별 적응성을 균형 있게 조정합니다. 11개의 최첨단 모델과 10개 벤치마크에서 평가한 결과, 우리의 방법은 기존 베이스라인을 지속적으로 능가하며 가장 강력한 단일 모델을 넘어서는 성능을 보였고, 그 비용은 절반 미만으로 발생했습니다.

25

**행위적 AI와 차세대 지능 폭발**
Agentic AI and the next intelligence explosion

Mar 21
ByJames Evans, Benjamin Bratton, Blaise Agüera y Arcas
5
1

"AI 특이점"은 종종 단일하고 신과 같은 정신체로 오해된다. 진화는 다른 길을 제시한다. 지성은 근본적으로 복수적, 사회적, 관계적이다. 에이전트 AI의 최근 발전은 DeepSeek-R1과 같은 첨단 추론 모델이 단순히 "더 오래 생각함"으로써 개선되지 않음을 보여준다. 대신, 이들은 복잡한 과제를 해결하기 위해 논쟁하고, 검증하며, 조정하는 자발적 인지 토론, 즉 내부적 '사고 사회'를 시뮬레이션한다. 더 나아가 우리는 인간-AI 센타우로스의 시대로 진입하고 있다. 이는 집단적 주체성이 개별적 통제를 초월하는 혼합 행위자들이다. 이러한 지성을 확장하기 위해서는 이원적 정렬(RLHF)에서 제도적 정렬로의 전환이 필요하다. 조직과 시장을 모델로 한 디지털 프로토콜을 설계함으로써, 우리는 견제와 균형의 사회적 인프라를 구축할 수 있다. 다음 지성 폭발은 단일한 실리콘 뇌가 아닌, 도시처럼 전문화되고 확장되는 복잡한 조합적 사회가 될 것이다. 어떤 마음도 고립된 섬이 아니다.

26

비동기 소프트웨어 엔지니어링 에이전트의 효과적 전략
Effective Strategies for Asynchronous Software Engineering Agents

Mar 23
ByJiayi Geng, Graham Neubig
4
1

AI 에이전트는 GitHub 이슈 해결과 같은 개별적인 소프트웨어 공학(SWE) 작업에서 점점 더 높은 성능을 보이고 있습니다. 그러나 여러 상호 의존적인 하위 작업으로 구성된 장기간 과제는 정확성과 신속한 완료 측면에서 여전히 어려움을 제시합니다. 이러한 장기간 과제를 신속하게 해결하기 위한 자연스러운 접근법은 비동기적 다중 에이전트 협업으로, 여러 에이전트가 동시에 작업의 다른 부분을 담당하는 방식입니다. 하지만 다중 에이전트 시스템을 효과적으로 적용하는 것은 놀라울 정도로 어려운 것으로 입증되었습니다. 여러 에이전트의 동시 편집은 서로 간섭을 일으키고, 의존성을 동기화하기 어려우며, 부분적인 진행 상황을 일관된 전체로 통합하는 것은 매우 까다롭습니다. 반면, 인간 개발자들은 대규모 소프트웨어 프로젝트에서 이러한 어려움을 관리하기 위해 오랫동안 성숙된 협업 인프라에 의존해 왔습니다. 이러한 협업 기본 요소에서 영감을 받아, 우리는 세 가지 핵심 SWE 기본 원칙(중앙 집중식 작업 위임, 비동기 실행, 분리된 작업 공간)에 기반한 구조화된 다중 에이전트 조정 패러다임인 CAID(Centralized Asynchronous Isolated Delegation)를 소개합니다. CAID는 중앙 관리자를 통해 의존성을 인지한 작업 계획을 수립하고, 분리된 작업 공간에서 하위 작업을 동시에 실행하며, 실행 가능한 테스트 기반 검증과의 구조화된 통합을 통해 진행 상황을 통합합니다. 실증 평가에서 CAID는 단일 에이전트 기준선 대비 논문 재현 작업(PaperBench)에서 26.7% 절대적 정확도 향상, Python 라이브러리 개발 작업(Commit0)에서 14.3%의 정확도 향상을 보였습니다. 체계적인 분석을 통해 브랜치 및 병합이 다중 에이전트 협업의 핵심 조정 메커니즘이며, git worktree, git commit, git merge와 같은 SWE 기본 요소들이 이를 안정적이고 실행 가능한 방식으로 구현할 수 있게 한다는 사실을 확인했습니다.

27

Perceptio: 공간 토큰 생성을 통한 시각 언어 모델의 인식 향상
Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Mar 19
ByYuchen Li, Amanmeet Garg, Shalini Chaudhuri, Rui Zhao, Garin Kessler
4
2

대규모 시각 언어 모델(LVLM)은 의미론적 이해에서는 뛰어나지만, 모델이 공간적 해석을 생성하지 않고 복잡한 기하학을 암묵적으로 추론해야 하기 때문에 세밀한 공간 기반 이해에는 어려움을 겪습니다. 본 연구에서는 자동회귀 시퀀스 내에서 직접 생성되는 명시적인 의미 분할 토큰과 깊이 토큰을 통해 2D 및 3D 공간 추론 능력을 갖춘 인식 강화형 LVLM인 Perceptio를 제시합니다. 구체적으로, 우리는 (i) 강력한 단안 교사 모델로부터 VQ-VAE 깊이 코드북을 추출하여 조밀한 깊이 정보를 컴팩트한 시퀀스로 토큰화하고, (ii) SAM2 기반 의미 분할 토큰과 VQ-VAE 깊이 토큰을 LLM 내부에 통합하여 모델이 먼저 공간 토큰을 생성한 후 답변하도록 합니다. 깊이 토큰 생성을 안정화하기 위해 새로운 복합 깊이 토큰 목적 함수(마커, 토큰, 카운트 손실)와 미분 가능 재구성을 위한 소프트 병합 기법을 도입합니다. 다양한 데이터셋에 걸친 다중 작업 공동 훈련 전략을 채택하여 모델이 다수의 하위 작업을 처리하기 위한 인식 토큰을 학습하도록 합니다. InternVL을 기반으로 구축된 Perceptio는 다양한 벤치마크에서 최첨단 성능을 달성합니다: RefCOCO/+/g에서 참조 표현 분할 성능을 cIoU 기준 +0.8/+1.4/+1.1만큼 향상시키고, HardBLINK 공간 이해 정확도를 10.3% 향상시키며, MMBench 정확도를 1.0% 향상시켜 명시적인 공간 사고 연쇄가 LVLM의 공간 기반 이해를 실질적으로 강화함을 입증합니다.

28

AnimalCLAP: 종 분류 인식 및 형질 추론을 위한 분류학 인식 언어-오디오 사전 학습
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Mar 23
ByRisa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura
3
2

동물 발성 음성은 복잡한 산림 환경과 같은 조건에서 야생동물 평가에 중요한 통찰력을 제공하며, 종 식별 및 생태 모니터링에 기여합니다. 최근 딥러닝의 발전으로 동물 발성 음성을 통한 자동 종 분류가 가능해졌지만, 훈련 과정에서 접하지 못한 미등록 종의 분류는 여전히 과제로 남아 있습니다. 이러한 한계를 해결하기 위해 본 연구에서는 계층적 생물학적 정보를 통합한 새로운 데이터셋과 모델로 구성된 taxonomy-aware 언어-오디오 프레임워크인 AnimalCLAP을 제안합니다. 구체적으로, 우리가 구축한 발성 음성 데이터셋은 6,823종을 아우르는 4,225시간 분량의 녹음 자료로 구성되었으며, 22가지 생태 특성으로 주석이 달려 있습니다. AnimalCLAP 모델은 이 데이터셋을 기반으로 분류학적 구조를 활용하여 오디오와 텍스트 표현의 정렬을 학습함으로써 미등록 종 인식 성능을 향상시킵니다. 우리가 제안한 모델은 CLAP 대비 우수한 성능을 달성하며, 동물 발성 음성만으로부터 종의 생태적 및 생물학적 속성을 효과적으로 추론함을 입증합니다. 본 데이터셋, 코드 및 모델은 https://dahlian00.github.io/AnimalCLAP_Page/에서 공개될 예정입니다.

29

WorldCache: 가속화된 비디오 월드 모델을 위한 콘텐츠 인식 캐싱
WorldCache: Content-Aware Caching for Accelerated Video World Models

Mar 23
ByUmair Nawaz, Ahmed Heakl, Ufaq Khan, Abdelrahman Shaker, Salman Khan, Fahad Shahbaz Khan
3
1

확산 변환기(DiT)는 높은 정확도의 비디오 월드 모델을 구동하지만 순차적 노이즈 제거와 고비용의 시공간적 어텐션으로 인해 계산 비용이 많이 듭니다. 학습 없이 특징을 캐싱하는 방식은 노이즈 제거 단계 간 중간 활성화를 재사용하여 추론 속도를 높이지만, 기존 방법은 전반적 드리프트가 작을 때 캐시된 특징을 정적 스냅샷으로 재사용하는 영차 유지 가정에 크게 의존합니다. 이는 동적 장면에서 고스팅 아티팩트, 흐림 현상 및 모션 불일치를 초래하는 경우가 많습니다. 우리는 **언제**, **어떻게** 특징을 재사용할지 모두 개선하는 지각 기반 동적 캐싱 프레임워크인 **WorldCache**를 제안합니다. WorldCache는 모션 적응형 임계값, 중요도 가중 드리프트 추정, 블렌딩 및 워핑을 통한 최적 근사, 그리고 확산 단계 전반의 위상 인식 임계값 스케줄링을 도입합니다. 우리의 통합적 접근법은 재학습 없이도 모션 일관성을 유지하는 적응형 특징 재사용을 가능하게 합니다. PAI-Bench에서 평가된 Cosmos-Predict2.5-2B에서 WorldCache는 기준 모델 대비 99.4%의 품질을 유지하면서 2.3배의 추론 속도 향상을 달성하여, 기존의 학습 없는 캐싱 접근법을 크게 능가합니다. 우리의 코드는 https://umair1221.github.io/World-Cache/{World-Cache}에서 확인할 수 있습니다.

30

안전 흐름 Q-러닝: 도달 가능성 기반 흐름 정책을 활용한 오프라인 안전 강화 학습
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Mar 16
ByMumuksh Tayal, Manan Tayal, Ravi Prakash
2
2

오프라인 안전 강화 학습(RL)은 엄격한 안전 제약 조건 하에서 정적 데이터셋으로부터 보상 극대화 정책을 탐구한다. 기존 방법들은 소프트 기대 비용 목적 함수나 반복적 생성 추론에 의존하는 경우가 많으며, 이는 안전이 중요한 실시간 제어에는 부족할 수 있다. 본 연구에서는 FQL을 안전 오프라인 RL로 확장한 Safe Flow Q-Learning(SafeFQL)을 제안한다. SafeFQL은 Hamilton-Jacobi 도달 가능성에서 영감을 받은 안전 가치 함수와 효율적인 one-step flow 정책을 결합한다. SafeFQL은 자기 일관성 벨만 순환을 통해 안전 가치를 학습하고, 행동 복제를 통해 flow 정책을 훈련하며, 이를 one-step 행위자로 정제하여 배포 시 거부 샘플링 없이 보상 극대화 안전 행동 선택을 수행한다. 학습된 안전 경계에서 유한 데이터 근사 오차를 고려하기 위해, 안전 임계값을 조정하고 유한 표본 확률적 안전 coverage를 제공하는 conformal prediction 보정 단계를 추가한다. 실험적으로 SafeFQL은 확산 기반 안전 생성 기준선 대비 오프라인 훈련 비용이 약간 높은 대신 추론 지연 시간을 현저히 줄여, 안전이 중요한 실시간 배포에 유리하다. 보트 항해 및 Safety Gymnasium MuJoCo 과제 전반에서 SafeFQL은 기존 오프라인 안전 RL 성능을 유지하거나 능가하면서 제약 위반을 크게 감소시킨다.

31

모든 계층이 동일하지는 않다: 개인화된 이미지 생성을 위한 적응형 LoRA 계층 순위
Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

Mar 23
ByDonald Shenaj, Federico Errica, Antonio Carta
2
2

LoRA(Low Rank Adaptation)는 사전 학습된 확산 모델로부터 개인화된 이미지를 생성하기 위한 사실상 표준 미세 조정 전략입니다. 적절한 랭크 선택은 성능과 메모리 사용량을 절충하기 때문에 매우 중요하지만, 현재는 개인화 대상의 복잡도와 관계없이 커뮤니티의 합의에 따라 결정되는 경우가 많습니다. 그 이유는 명백한데, 각 LoRA 구성 요소에 대한 적절한 랭크 선택 비용이 조합적으로 증가하기 때문에 모든 구성 요소에 동일한 랭크를 고정하는 실용적인 지름길을 선택하기 때문입니다. 본 논문에서는 이러한 문제를 해결하기 위한 첫걸음을 내디뎠습니다. 신경망의 적응형 폭을 학습하는 변분 방법에서 영감을 받아, 대상에 대한 미세 조정 동안 각 계층의 랭크가 자유롭게 적응하도록 합니다. 이를 위해 랭크 위치에 중요도 순서를 부여하여 엄밀히 필요할 때만 더 높은 랭크가 생성되도록 효과적으로 유도합니다. 정성적 및 정량적 평가에서 우리의 접근법인 LoRA^2는 29개 대상에 걸쳐 DINO, CLIP-I, CLIP-T 지표에서 경쟁력 있는 절충 성능을 달성하면서도 높은 랭크를 가진 LoRA 버전보다 훨씬 적은 메모리와 더 낮은 랭크를 요구합니다. 코드: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

32

장기적 도구 사용 에이전트를 위한 강화 학습 해설: 포괄적 실전 가이드
Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Mar 23
ByXixi Wu, Qianguo Sun, Ruiyang Zhang, Chao Song, Junlong Wu, Yiyan Qi, Hong Cheng
2
2

강화학습(Reinforcement Learning, RL)은 대규모 언어 모델(LLM)이 장기적인 계획을 수립할 수 있는 자율 에이전트로 발전하는 데 필수적이지만, 복잡한 다중 턴 환경에서 RL을 확장하기 위한 실용적인 방법론은 여전히 부족합니다. 본 논문은 다양한 제약 조건을 충족하기 위해 도구 조정이 필요한 난제인 TravelPlanner 테스트베드를 활용한 체계적인 실증 연구를 제시합니다. 우리는 에이전트 RL 설계 공간을 보상 설계, 모델 규모, 데이터 구성, 알고리즘 선택, 환경 안정성이라는 5가지 축으로 분해합니다. 통제된 실험을 통해 7가지 주요 시사점을 도출했으며, 예를 들어 (1) 보상과 알고리즘 선택은 규모에 의존적이어서 소규모 모델은 단계적 보상과 향상된 탐색의 이점을 얻는 반면, 대규모 모델은 단순한 조밀 보상으로도 효율적으로 수렴하고, (2) 약 1,000개의 훈련 샘플과 균형 잡힌 난이도 혼합이 도메인 내 및 도메인 외 성능 모두에서 최적점을 나타내며, (3) 정책 성능 저하를 방지하기 위해 환경 안정성이 중요하다는 것을 확인했습니다. 우리가 정제한 방법론을 바탕으로, RL로 훈련된 우리 모델은 TravelPlanner에서 최첨단 성능을 달성하며 주요 LLM을 크게 능가합니다.

33

MemDLM: 메모리 향상 DLM 훈련
MemDLM: Memory-Enhanced DLM Training

Mar 23
ByZehua Pei, Hui-Ling Zhen, Weizhe Lin, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu
2
2

확산 언어 모델(DLM)은 전체 주의 병렬 디코딩 및 유연한 생성과 같은 자기회귀(AR) 모델 대비 매력적인 장점을 제공합니다. 그러나 DLM은 현저한 훈련-추론 불일치 문제를 겪습니다: DLM은 정적이고 단일 단계의 마스크 예측 목표로 훈련되지만, 다단계 점진적 잡음 제거 궤적을 통해 배포됩니다. 우리는 이중 수준 최적화를 통해 시뮬레이션된 잡음 제거 과정을 훈련에 내재화하여 이러한 격차를 줄이는 MemDLM(메모리 강화 DLM)을 제안합니다. 내부 루프는 각 샘플의 지역적 궤적 경험을 포착하는 매개변수 메모리를 형성하는 빠른 가중치 집합을 업데이트하는 반면, 외부 루프는 이 메모리에 조건화되어 기본 모델을 업데이트합니다. 토큰 표현에서 매개변수로의 암기 부담을 전가함으로써 MemDLM은 더 빠른 수렴과 더 낮은 훈련 손실을 달성합니다. 더욱이 내부 루프는 추론 시점에 적응 단계로 재활성화될 수 있어 장문맥 이해에서 추가적인 성능 향상을 가져옵니다. 우리는 추론 시점에 활성화될 때 이 매개변수 메모리가 발생적인 내부 가중치 검색 메커니즘으로 작동하여, MemDLM이 어려운 건초 더미 속 바늘 검색 과제에서 토큰 수준 주의 병목 현상을 추가로 줄이는 데 도움을 준다는 사실을 발견했습니다. 코드: https://github.com/JarvisPei/MemDLM.

34

SNAP: 음성 딥페이크 탐지를 위한 잡음 제거를 위한 화자 영상화 기법
SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Mar 21
ByKyudan Jung, Jihwan Kim, Minwoo Lee, Soyoon Kim, Jeonghoon Kim, Jaegul Choo, Cheonbok Park
2
2

최근 텍스트-음성 변환 기술의 발전으로 실제 인간 음성과 구분하기 어려운 고품질 합성 음성 생성이 가능해졌다. 최근 연구에서 자기 지도 학습 기반 음성 인코더가 딥페이크 탐지에 효과적임이 밝혀졌으나, 이러한 모델들은 학습 과정에서 접하지 못한 화자에 대한 일반화 성능이 떨어진다. 우리의 정량적 분석 결과, 이러한 인코더 표현들이 화자 정보에 상당히 영향을 받아 탐지기가 인공물 관련 단서보다 화자별 상관관계를 활용하게 되는 것으로 나타났다. 우리는 이러한 현상을 화자 얽힘 현상이라고 명명한다. 이러한 의존성을 완화하기 위해 화자 정보 무효화 프레임워크인 SNAP를 제안한다. 우리는 화자 부분공간을 추정하고 직교 투영을 적용하여 화자 의존적 요소를 억제함으로써 잔차 특징 내에 합성 인공물을 분리한다. 화자 얽힘 현상을 감소시킴으로써 SNAP는 탐지기가 인공물 관련 패턴에 집중하도록 유도하여 최첨단 성능을 달성한다.

35

비주기적 구조는 절대 무너지지 않는다: 무손실 압축을 위한 피보나치 계층 구조
Aperiodic Structures Never Collapse: Fibonacci Hierarchies for Lossless Compression

Mar 16
ByRoberto Tacconelli
1
2

우리는 비주기적 위계 구조가 주기적 대안에 비해 무손실 압축에서 구조적 이점을 제공할 수 있는지 연구한다. 피보나치 준결정 타일링은 주기적 위계 구조에 영향을 미치는 유한 깊이 붕괴를 회피함을 보인다: 사용 가능한 n-gram 탐색 위치는 모든 수준에서 0이 아닌 값을 유지하는 반면, 주기 p에 대한 주기적 타일링은 O(log p) 수준 이후 붕괴된다. 이로 인해 비주기적 위계 구조 이점이 발생한다: 유한 깊이를 넘어 사라지는 대신 모든 규모에 걸쳐 사전 재사용이 가능하게 된다. 우리의 분석은 네 가지 주요 결과를 제공한다. 첫째, Golden Compensation 특성은 위치 수의 지수적 감소가 구문 길이의 지수적 성장과 정확히 균형을 이룸을 보여주므로 잠재적 커버리지는 점근값 Wvarphi/5로 규모 불변성을 유지한다. 둘째, Sturmian 복잡도 법칙 p(n)=n+1을 사용하여 피보나치/Sturmian 위계 구조가 이진 비주기적 타일링 중 코드북 커버리지 효율을 극대화함을 보인다. 셋째, 장기 상관관계 하에서 결과적 위계 구조는 상응하는 주기적 위계 구조보다 낮은 코딩 엔트로피를 달성한다. 넷째, 중복성은 깊이에 따라 초지수적으로 감소하는 반면, 주기적 시스템은 붕괴가 발생하는 깊이에 고정된다. 우리는 이러한 결과를 구문 길이 {2,3,5,8,13,21,34,55,89,144}의 10단계 피보나치 위계 구조를 기반으로 구축된 무손실 텍스트 압축기 Quasicryth로 검증한다. 동일한 코드북을 사용한 통제된 A/B 실험에서, Period-5 기준선 대비 비주기적 이점은 3MB에서 36,243B부터 1GB에서 11,089,469B까지 증가하며, 이는 더 깊은 위계 수준의 활성화로 설명된다. enwik9에서 Quasicryth는 225,918,349B(22.59%)를 달성하며, 타일링 미사용 대비 피보나치 타일링으로 20,735,733B를 절약한다.

36

AdditiveLLM2: 적층 제조를 위한 다중 모달 대규모 언어 모델
AdditiveLLM2: A Multi-modal Large Language Model for Additive Manufacturing

Mar 23
ByPeter Pak, Amir Barati Farimani
1
2

본 연구에서는 약 5천만 토큰의 상대적으로 소규모 데이터셋을 사용하여 Gemma 3 모델의 지시어 튜닝 변형을 기반으로 구축된 다중 모달 도메인 적응 대규모 언어 모델인 AdditiveLLM2를 제시한다. 데이터셋(AdditiveLLM2-OA)은 도메인 적응 사전 학습 및 시각적 지시어 튜닝 과정을 위해 추출된 데이터와 함께 오픈 액세스 적층 제조 학술 논문으로 구성된다. 개발된 모델의 다양한 단계는 공개된 자료들로부터 수집된 적층 제조 도메인 특화 과제들로 구성된 Additive-Manufacturing-Benchmark를 통해 평가된다. AdditiveLLM2는 언어 및 시각 기반 과제 모두에서 능숙함을 보여주며, 일반 적층 제조 지식에서 90% 이상의 정확도를 달성한다. 이러한 도메인 적응 사전 학습 및 지시어 튜닝 전략은 적층 제조와 같은 특정 도메인에 대규모 언어 모델을 접근 가능하게 전문화하는 방법을 제시한다.

37

액션 양자화를 통한 행동 복제 이해하기
Understanding Behavior Cloning with Action Quantization

Mar 20
ByHaoqun Cao, Tengyang Xie
1
2

행동 복제는 로봇공학, 자율주행, 생성 모델에 이르기까지 전문가 시연 데이터로부터 정책 학습을 가능하게 하는 기계 학습의 기본 패러다임입니다. 트랜스포머와 같은 자기회귀 모델은 대규모 언어 모델(LLM)부터 시각-언어-행동 시스템(VLA)에 이르기까지 매우 효과적인 것으로 입증되었습니다. 그러나 자기회귀 모델을 연속 제어에 적용하려면 양자화를 통한 행동 이산화가 필요하며, 이는 널리 채택되었으나 이론적으로는 제대로 이해되지 못한 관행입니다. 본 논문은 이러한 관행에 대한 이론적 기반을 제공합니다. 우리는 양자화 오류가 시간 지평을 따라 어떻게 전파되고 통계적 표본 복잡도와 상호작용하는지 분석합니다. 동역학이 안정적이고 정책이 확률적 평활성 조건을 만족하는 경우, 양자화된 행동과 로그 손실을 사용한 행동 복제가 기존 하한과 일치하는 최적의 표본 복잡도를 달성하며 양자화 오류에 대한 시간 지평 의존성이 다항식 수준에 그친다는 것을 보여줍니다. 또한 우리는 서로 다른 양자화 방식이 이러한 요구사항을 언제 충족하거나 위반하는지 규명하고, 정책 평활성을 요구하지 않으면서 오류 한계를 개선할 수 있음을 증명 가능한 모델 기반 증강 기법을 제안합니다. 마지막으로, 양자화 오류와 통계적 복잡도의 영향을 함께 포착하는 근본적 한계를 규명합니다.

38

연속 환경에서의 의미론적 오디오-시각 항법
Semantic Audio-Visual Navigation in Continuous Environments

Mar 20
ByYichen Zeng, Hebaixu Wang, Meng Liu, Yu Zhou, Chen Gao, Kehan Chen, Gongping Huang
1
2

시청각 내비게이션은 구현된 에이전트가 청각 및 시각 단서를 활용하여 음원 대상으로 이동할 수 있게 합니다. 그러나 기존 대부분의 접근법은 양이음향 오디오 렌더링에 사전 계산된 실음향 반응(RIR)에 의존하여, 에이전트를 이산적 격자 위치로 제한하고 공간적으로 불연속적인 관측을 초래합니다. 보다 현실적인 환경을 구축하기 위해, 우리는 연속 환경에서의 의미론적 시청각 내비게이션(SAVN-CE)을 제안합니다. 이 환경에서 에이전트는 3D 공간 내에서 자유롭게 이동하며 시간적, 공간적으로 일관된 시청각 스트림을 인지할 수 있습니다. 본 환경에서는 목표물이 간헐적으로 침묵하거나 소리 발생을 완전히 중단하여 에이전트가 목표 정보를 상실할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 공간적 및 의미론적 목표 표현을 공동으로 인코딩하고 역사적 맥락과 자체 운동 단서를 통합하여 메모리 증강 목표 추론을 가능하게 하는 다중모드 변환기 기반 모델인 MAGNet을 제안합니다. 포괄적 실험 결과, MAGNet이 최첨단 방법들을 크게 능가하며 성공률에서 최대 12.1%의 절대적 향상을 달성함을 보여줍니다. 이러한 결과는 또한 짧은 지속 시간 소음 및 장거리 내비게이션 시나리오에 대한 MAGNet의 강건성을 부각합니다. 코드는 https://github.com/yichenzeng24/SAVN-CE에서 이용 가능합니다.

39

제어 가능한 이미지 편집을 통한 차량 검출기의 야생 환경 위장 공격
In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing

Mar 19
ByXiao Fang, Yiming Gong, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
1
2

딥 뉴럴 네트워크(DNN)는 컴퓨터 비전 분야에서 놀라운 성과를 거두었지만, 적대적 공격에는 여전히 매우 취약합니다. 특히 위장 공격(camouflage attack)은 인간의 눈에는 탐지되지 않으면서 객체 감지기를 속이기 위해 대상의 시각적 외형을 변조하는 기법입니다. 본 논문에서는 차량 위장 공격을 조건부 이미지 편집 문제로 공식화하는 새로운 프레임워크를 제안합니다. 구체적으로 이미지 수준과 장면 수준의 위장 생성 전략을 탐구하며, 실제 이미지에서 위장 차량을 직접 합성하기 위해 ControlNet을 미세 조정합니다. 또한 차량 구조적 정확도, 스타일 일관성, 적대적 효율성을 동시에 보장하는 통합 목적 함수를 설계했습니다. COCO 및 LINZ 데이터셋에서의 광범위한 실험 결과, 기존 방법 대비 38% 이상의 AP50 저하를 보이는 월등한 공격 효율성을 달성하면서도 차량 구조를 더 잘 보존하고 인간이 인지하는 은밀성을 향상시킴을 확인했습니다. 더 나아가 본 프레임워크는 보지 않은 블랙박스 감지기에도 효과적으로 일반화되며, 물리적 세계로의 유의미한 전이 가능성을 보여줍니다. 프로젝트 페이지는 https://humansensinglab.github.io/CtrlCamo 에서 확인할 수 있습니다.

40

FluidWorld: 세계 모델의 예측 기반으로서의 반응-확산 역학
FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Mar 22
ByFabien Polly
1
2

월드 모델은 환경의 미래 상태를 예측하여 계획 수립과 정신적 시뮬레이션을 가능하게 합니다. 현재의 접근법은 학습된 잠재 공간에서 동작하는 Transformer 기반 예측기를 기본으로 합니다. 이에는 O(N^2) 계산 복잡도와 명시적인 공간 귀납 편향의 부재라는 대가가 따릅니다. 본 논문은 예측적 월드 모델링에 self-attention이 정말 필요한지, 아니면 다른 계산 기반이 동등하거나 더 우수한 결과를 달성할 수 있는지라는 근본적인 질문을 던집니다. 저는 개념 증명 월드 모델인 FluidWorld를 소개합니다. 이 모델의 예측 역학은 반응-확산 형 편미분방정식(PDE)에 의해 제어됩니다. 별도의 신경망 예측기를 사용하는 대신, PDE 적분 자체가 미래 상태 예측을 생성합니다. 조건부 없는 UCF-101 비디오 예측(64x64, 약 80만 개의 매개변수, 동일한 인코더, 디코더, 손실 함수 및 데이터)에 대한 매개변수를 엄격하게 일치시킨 3방향 제거 실험에서 FluidWorld는 Transformer 기준 모델(self-attention) 및 ConvLSTM 기준 모델(합성곱 순환)과 비교되었습니다. 세 모델 모두 유사한 단일 단계 예측 손실에 수렴했지만, FluidWorld는 2배 낮은 재구성 오차를 달성했으며, 공간 구조 보존율이 10-15% 더 높고 효과적 차원이 18-25% 더 많은 표현을 생성했습니다. 또한 결정적으로, 두 기준 모델이 급격히 성능이 저하되는 상황에서도 일관된 다중 단계 롤아웃을 유지했습니다. 모든 실험은 대규모 컴퓨팅 자원 없이 단일 소비자용 PC(Intel Core i5, NVIDIA RTX 4070 Ti)에서 수행되었습니다. 이러한 결과는 본질적으로 O(N) 공간 복잡도, 적응형 계산, 확산을 통한 전역적 공간 일관성을 제공하는 PDE 기반 역학이 월드 모델링을 위한 attention과 합성곱 순환 모두에 대해 실용적이고 매개변수 효율적인 대안이 됨을 입증합니다.

41

설명 가능한 인용 기반 대화를 위한 점진적 훈련: 영어-힌디어 대규모 언어 모델의 환각 현상을 제로로 줄이기
Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Mar 19
ByVedant Pandya
1
2

지식 기반 대화 시스템은 외부 지식 소스를 조건으로 하여 정보성이 풍부하고 맥락에 적합한 응답을 생성하는 것을 목표로 합니다. 그러나 기존 대부분의 접근법은 영어에만 집중하고, 사실 주장 검증을 위한 명시적 인용 메커니즘이 부족하며, 모델 의사 결정에 대한 투명성이 제한적입니다. 본 연구에서는 양국어(영어-힌디어) 환경에서 설명 가능한 지식 기반 대화 생성을 위한 점진적 4단계 학습 파이프라인인 XKD-Dial을 제시합니다. 이 파이프라인은 (1) 다국어 적응, (2) 인용 근거를 포함한 영어 대화 SFT(지도 미세 조정), (3) 양국어 대화 SFT, (4) 인용 인식 보상을 활용한 GRPO(일반화 정책 최적화) 정렬로 구성됩니다. 인코더-디코더(250M-3B) 및 디코더 전용(1B-7B) 아키텍처를 아우르는 6가지 모델을 파이프라인 각 단계에서 평가합니다. 본 연구의 주요 기여는 다음과 같습니다: (i) 학습轨迹를 따라 체계적으로 적용된 3가지 사후 설명 가능성 분석(교차 주의 정렬, 통합 그래디언트 기여도, 폐색 기반 인과적 근거 지정)을 통해 '인용 행동'이 학습되는 '여부'뿐만 아니라 '어떻게' 학습되는지를 밝혀냄; (ii) 인용 근거 SFT는 2단계 이후 인코더-디코더 모델의 환각 현상을 0.0%로 감소시킴; (iii) 점진적 파이프라인은 힌디어 능력을 향상시키면서도 치명적 망각을 방지함; (iv) SFT 후 영어 평가에서 소규모 모델이 대규모 모델과 유사한 성능을 보임; (v) 구조화된 인용 작업에 대해 잘 설계된 SFT 대비 GRPO는 한계적인 개선 효과만 제공함. 평가는 6가지 자동 평가 척도(BLEU, ROUGE, BERTScore, FactScore, Citation-F1, 환각률)를 통해 수행되었습니다.

Mar 23
Mar 24
Mar 25