ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

1

기술1: 강화 학습을 통한 기술 강화 에이전트의 통합 진화
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

지속적 스킬 라이브러리를 통해 언어 모델 에이전트는 다양한 작업에 걸쳐 성공적인 전략을 재사용할 수 있습니다. 이러한 라이브러리를 유지하려면 세 가지 상호 연계된 역량이 필요합니다. 에이전트는 관련 스킬을 선택하고, 실행 과정에서 이를 활용하며, 경험으로부터 새로운 스킬을 정제합니다. 기존 방법론은 이러한 역량을 개별적으로 또는 별도의 보상 원천을 통해 최적화하여 부분적이고 상충되는 진화를 초래했습니다. 본 연구에서는 단일 정책을 훈련시켜 스킬 선택, 활용, 정제를 공유 작업 결과 목표를 향해 공동 진화시키는 Skill1 프레임워크를 제안합니다. 이 정책은 스킬 라이브러리 검색을 위한 질의를 생성하고, 후보를 재순위화하여 선택하며, 선택된 스킬을 조건으로 작업을 해결한 후, 해당 경로에서 새로운 스킬을 정제합니다. 모든 학습은 단일 작업 결과 신호에서 비롯됩니다. 그 저주파수 추세는 선택을, 고주파수 변동은 정제를 각각 신용 배분합니다. ALFWorld와 WebShop에서의 실험 결과, Skill1이 기존 스킬 기반 및 강화 학습 기준선을 능가함을 보여줍니다. 훈련 역학은 세 가지 역량의 공동 진화를 확인하며, ablation 실험은 어느 신용 신호를 제거하더라도 진화가 저하됨을 보여줍니다.

2

의미적 유사성의 한계를 넘어: 직접적 코퍼스 상호작용을 통한 에이전트 기반 검색의 재고
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

어휘적이든 의미적이든 현대 검색 시스템은 코퍼스에 대한 접근을 단일의 상위 k개 검색 단계로 압축하는 고정된 유사도 인터페이스를 통해 코퍼스를 제공합니다. 이러한 추상화는 효율적이지만, 에이전트 기반 검색에서는 병목 현상이 됩니다. 정확한 어휘 제약 조건, 희소한 단서 결합, 지역적 문맥 확인, 다단계 가설 정제 등은 기존의 상용 검색기를 호출하여 구현하기 어렵고, 초기 단계에서 걸러진 증거는 강력한 하류 추론으로도 회복할 수 없습니다. 에이전트 작업은 중간 개체 발견, 약한 단서 결합, 부분적 증거 관찰 후 계획 수정 등 여러 단계를 조정해야 하므로 이러한 한계를 더욱 악화시킵니다. 이러한 한계를 해결하기 위해 우리는 직접 코퍼스 상호작용(DCI)을 연구합니다. DCI에서는 에이전트가 임베딩 모델, 벡터 인덱스, 검색 API 없이 범용 터미널 도구(예: grep, 파일 읽기, 셸 명령, 경량 스크립트)를 사용하여 원시 코퍼스를 직접 검색합니다. 이 접근 방식은 오프라인 색인이 필요 없으며 진화하는 지역 코퍼스에 자연스럽게 적응합니다. IR 벤치마크와 종단간 에이전트 검색 작업 전반에 걸쳐, 이 간단한 설정은 여러 BRIGHT 및 BEIR 데이터셋에서 강력한 희소, 밀집, 재순위화 기준선을 크게 능가하며, 기존의 의미 기반 검색기에 의존하지 않고 BrowseComp-Plus 및 다중 홉 질의응답에서 높은 정확도를 달성합니다. 우리의 결과는 언어 에이전트가 강력해질수록 검색 품질이 추론 능력뿐만 아니라 모델이 코퍼스와 상호작용하는 인터페이스의 해상도에 달려 있음을 시사하며, DCI는 에이전트 기반 검색을 위한 더 넓은 인터페이스 설계 공간을 열어줍니다.

3

연속 잠재 디퓨전 언어 모델
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

대규모 언어 모델은 자기회귀 패러다임 하에서 놀라운 성공을 거두었으나, 고품질 텍스트 생성이 반드시 고정된 좌측-우측 순서에 얽매일 필요는 없습니다. 기존 대안들은 생성 효율성, 확장 가능한 표현 학습, 효과적인 전역 의미 모델링을 동시에 달성하는 데 여전히 어려움을 겪고 있습니다. 본 연구에서는 텍스트 생성을 계층적 정보 분해를 통해 접근하는 계층적 잠재 디퓨전 언어 모델인 Cola DLM을 제안합니다. Cola DLM은 먼저 Text VAE로 안정적인 텍스트-잠재 매핑을 학습한 후, 블록-인과 DiT를 사용하여 연속 잠재 공간에서 전역 의미 사전 분포를 모델링하고, 마지막으로 조건부 디코딩을 통해 텍스트를 생성합니다. 통합 마르코프 경로 관점에서 볼 때, 이의 디퓨전 과정은 토큰 수준의 관측치 복원이 아닌 잠재 사전 분포 전달을 수행함으로써 전역 의미 구성과 지역적 텍스트 구현을 분리합니다. 이러한 설계는 더 유연한 비자기회귀적 귀납적 편향을 제공하며, 연속 공간에서의 의미 압축 및 사전 분포 적합을 지원하고, 다른 연속 양상으로의 자연스러운 확장이 가능합니다. 4개의 연구 문제, 8개의 벤치마크, 엄격하게 매칭된 약 20억 파라미터 규모의 자기회귀 및 LLaDA 기준 모델, 그리고 약 2000 EFLOPs에 이르는 스케일링 곡선을 아우르는 실험을 통해, 우리는 Cola DLM의 효과적인 전체 구성을 확인하고 텍스트 생성에 대한 그 강력한 스케일링 동작을 검증합니다. 종합적으로, 이러한 결과는 계층적 연속 잠재 사전 분포 모델링이 엄격한 토큰 수준 언어 모델링의 원리적 대안으로 자리매김함을 입증합니다. 여기서는 생성 품질과 스케일링 동작이 가능도보다 모델 능력을 더 잘 반영할 수 있으며, 동시에 이산적 텍스트와 연속 양상을 아우르는 통합 모델링을 위한 구체적인 경로를 제시합니다.

4

MiA-Signature: 장문 컨텍스트 이해를 위한 글로벌 활성화 근사 기법
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

인지 과학 분야의 연구 결과가 축적되면서 보고 가능한 의식적 접근은 분산된 기억 시스템 전반에 걸친 전역 점화(global ignition)와 연관되어 있으나, 이러한 활성화는 개인이 활성화된 모든 내용에 직접 접근하거나 열거할 수 없기 때문에 부분적으로만 접근 가능한 것으로 나타났다. 이러한 긴장 관계는 인지가 다운스트림 처리에 미치는 활성화의 전역적 영향을 근사하는 간결한 표현에 의존할 수 있다는 합리적 메커니즘을 시사한다. 이 아이디어에서 영감을 받아, 본 연구에서는 쿼리에 의해 유도된 전역 활성화 패턴의 압축된 표현인 마인드스케이프 활성화 시그니처(MiA-Signature) 개념을 제안한다. LLM 시스템에서 이는 활성화된 컨텍스트 공간을 포괄하는 고수준 개념들의 서브모듈러 기반 선택을 통해 구현되며, 선택적으로 작업 기억을 이용한 경량의 반복적 업데이트를 통해 정제된다. 그 결과 생성된 MiA-Signature는 전체 활성화 상태의 효과를 근사하면서도 계산적으로 다루기 쉬운 조건화 신호로 작용한다. MiA-Signature를 RAG 및 에이전트 시스템에 통합하면 여러 장문 컨텍스트 이해 과제에서 일관된 성능 향상을 얻을 수 있다.

5

SemEval-2026 Task 8에서의 RaguTeam: 신뢰할 수 있는 다중 턴 응답 생성을 위한 Judge-Orchestrated LLM 앙상블에서의 Meno와 Friends
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

SemEval-2026 Task~8: MTRAGEval의 Task~B(참조 문단을 활용한 생성)에서 우승한 시스템을 제안한다. 본 방법론은 두 가지 프롬프트 변형을 적용한 7개의 LLM으로 구성된 이기종 앙상블로, GPT-4o-mini 판별기가 인스턴스별 최적 후보를 선택한다. 우리는 26개 팀 중 1위를 차지하여 조건부 조화평균 0.7827을 달성했으며, 가장 강력한 베이스라인(gpt-oss-120b, 0.6390)을 능가했다. ablation 실험을 통해 모델 패밀리, 규모, 프롬프트 전략의 다양성이 핵심적이며, 앙상블이 단일 모델을 지속적으로 상회함을 확인했다. 또한 우수한 비용 대비 성능을 지닌 7B 규모의 도메인 적응 모델인 Meno-Lite-0.1을 소개하고, MTRAGEval의 주석 한계와 개선 방향을 분석한다. 코드는 공개되어 있다: https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE: 확산 RL을 위한 다중 측면 보상 균형
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

강화 학습 미세 조정은 확산 모델을 인간의 선호도에 맞추는 데 있어 지배적인 접근법으로 자리 잡았습니다. 그러나 이미지 평가는 본질적으로 다차원적인 작업이며, 여러 평가 기준을 동시에 최적화해야 합니다. 기존 방법론은 보상마다 별도의 전문가 모델을 훈련하거나, 가중합 보상 R(x)=∑_k w_k R_k(x)을 최적화하거나, 수작업으로 설계된 단계별 일정에 따라 순차적으로 미세 조정하는 방식으로 다중 보상을 처리합니다. 이러한 접근법들은 모든 보상에 대해 공동으로 훈련될 수 있는 통합 모델을 생산하지 못하거나, 많은 수작업 조정이 필요한 순차적 훈련을 필요로 합니다. 우리는 이러한 실패의 근본 원인이 단순한 가중합 보상 집계 방식에 있다고 판단했습니다. 이 방식은 샘플 수준의 불일치 문제를 겪는데, 대부분의 롤아웃은 특정 보상 차원에서는 매우 유익하지만 다른 차원에서는 관련성이 낮은 전문가 샘플이기 때문입니다. 결과적으로 가중합 계산은 이들의 지도 신호를 희석시킵니다. 이 문제를 해결하기 위해 우리는 MARBLE(Multi-Aspect Reward BaLancE)을 제안합니다. MARBLE은 각 보상에 대해 독립적인 어드밴티지 추정기를 유지하고, 보상별 정책 그래디언트를 계산한 후, 2차 계획법 문제를 해결하여 수동 조정된 보상 가중치 없이도 이들을 단일 업데이트 방향으로 조화시키는 그래디언트 공간 최적화 프레임워크입니다. 또한 우리는 DiffusionNFT에서 사용되는 손실 함수의 아핀 구조를 활용하여 단계별 비용을 K+1회 역전파에서 단일 보상 기준선 수준으로 줄이는 상각 공식과, 일시적인 단일 배치 변동에 대한 업데이트 안정성을 높이기 위한 균형 계수에 대한 EMA 평활화 기법을 함께 제안합니다. 5가지 보상을 대상으로 SD3.5 Medium에서 실험한 결과, MARBLE은 5가지 보상 차원을 모두 동시에 개선했으며, 가중합 방식으로는 미니 배치의 80%에서 최악의 정렬 보상의 그래디언트 코사인이 음수였던 것을 지속적으로 양수로 전환했으며, 기준선 훈련 대비 0.97배의 훈련 속도를 보였습니다.

7

상상력을 신뢰할 때: 세계 행동 모델을 위한 적응형 행동 실행
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

월드 액션 모델(WAM)은 최근 미래의 시각적 관측과 미래 행동을 함께 예측함으로써 로봇 매니픽레이션 분야에서 유망한 패러다임으로 부상하고 있습니다. 그러나 기존 WAM은 일반적으로 각 모델 추론 후 고정된 횟수의 예측된 행동을 실행하며, 이로 인해 상상된 미래가 실제 물리적 실행과 여전히 일관성을 유지하는지 여부를 로봇이 인지하지 못하는 한계가 있습니다. 본 연구에서는 적응형 WAM 실행을 미래-현실 검증 문제로 공식화합니다. 즉, 로봇은 WAM이 예측한 미래가 신뢰할 수 있을 때는 더 오래 실행하고, 현실이 예상과 벗어날 때는 더 일찍 재계획해야 합니다. 이를 위해 우리는 예측된 미래 행동, 예측된 시각적 역학, 실제 관측, 언어 명령을 종합적으로 추론하여 남은 행동 실행이 여전히 신뢰할 수 있는지 여부를 추정하는 경량 검증기인 Future Forward Dynamics Causal Attention(FFDC)을 제안합니다. FFDC는 예측-관측 일관성의 자연스러운 결과로 적응형 행청크 크기를 가능하게 하여, 장기간 실행의 효율성을 유지하면서 접촉이 빈번하거나 어려운 단계에서의 반응성을 회복합니다. 또한 적응형 실행을 위한 장기 궤적 커버리지를 개선하기 위해 Mixture-of-Horizon Training을 도입합니다. RoboTwin 벤치마크와 실제 환경에서의 실험을 통해 우리 방법이 강력한 강건성-효율성 균형을 달성함을 입증했습니다. RoboTwin에서 본 방법은 단기 청크 베이스라인 대비 WAM 순전파 횟수를 69.10%, 실행 시간을 34.02% 줄이면서 성공률을 2.54% 향상시켰으며, 실제 실험에서는 성공률을 35% 향상시켰습니다.

8

소수 스텝 확산 증류를 위한 연속시간 분포 매칭
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

스텝 증류는 확산 모델 가속화를 위한 주요 기법으로 자리 잡았으며, 그 중 분포 매칭 증류(DMD)와 일관성 증류가 대표적인 패러다임이다. 일관성 기반 방법은 전체 PF-ODE 궤적을 따라 자기 일관성을 강화하여 깨끗한 데이터 매니폴드로 유도하는 반면, 기본 DMD는 소수의 미리 정의된 이산 시간 단계에서 희소한 지도 학습에 의존한다. 이러한 제한된 이산 시간 구성과 역 KL 발산의 모드 추적 특성은 시각적 아티팩트와 과도하게 평활화된 결과를 보이는 경향이 있어, 시각적 충실도를 회복하기 위해 GAN이나 보상 모델과 같은 복잡한 보조 모듈을 필요로 하는 경우가 많다. 본 연구에서는 DMD 프레임워크를 이산 고정점 방식에서 최초로 연속 최적화로 전환하는 연속 시간 분포 매칭(CDM)을 제안한다. CDM은 두 가지 연속 시간 설계를 통해 이를 실현한다. 첫째, 고정된 이산 스케줄을 임의 길이의 동적 연속 스케줄로 대체하여 소수의 고정된 앵커 지점이 아닌 샘플링 궤적 상의 임의 지점에서 분포 매칭이 수행되도록 한다. 둘째, 학생 모델의 속도장으로 외삽된 잠재 변수에 대해 능동적인 궤적 외부 매칭을 수행하는 연속 시간 정렬 목적함수를 제안하여 일반화 성능을 향상시키고 미세한 시각적 디테일을 보존한다. SD3-Medium 및 Longcat-Image를 포함한 다양한 아키텍처에서의 광범위한 실험을 통해 CDM이 복잡한 보조 목적함수 없이도 소수 스텝 이미지 생성에서 매우 경쟁력 있는 시각적 충실도를 제공함을 입증한다. 코드는 https://github.com/byliutao/cdm에서 확인할 수 있다.

9

SkillOS: 자기 진화 에이전트를 위한 스킬 큐레이션 학습
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

LLM 기반 에이전트는 스트리밍 작업을 처리하기 위해 점점 더 많이 배포되고 있지만, 과거 상호작용으로부터 학습하지 못하는 일회성 문제 해결사로 남아 있는 경우가 많습니다. 경험에서 추출된 재사용 가능한 기술은 자기 진화를 위한 자연스러운 기반을 제공하며, 여기서 고품질 기술 큐레이션이 주요 병목 현상으로 작용합니다. 기존 접근법은 수동 기술 큐레이션에 의존하거나 휴리스틱 기술 운영을 규정하거나 단기적인 기술 운영을 학습합니다. 그러나 이러한 방법들도 간접적이고 지연된 피드백으로부터 복잡한 장기 큐레이션 정책을 학습하는 데는 여전히 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 자기 진화 에이전트의 기술 큐레이션 학습을 위한 경험 기반 RL(강화 학습) 학습 방법론인 SkillOS를 제안합니다. SkillOS는 기술을 검색하여 적용하는 고정(frozen) 에이전트 실행기(executor)와 축적된 경험으로부터 외부 SkillRepo를 업데이트하는 훈련 가능한 기술 큐레이터(curator)를 결합합니다. 큐레이션을 위한 학습 신호를 제공하기 위해 우리는 복합 보상 시스템을 설계하고 기술 관련 작업 종속성을 기반으로 그룹화된 작업 스트림에 대해 훈련합니다. 여기서 초기 궤적(trajectory)은 SkillRepo를 업데이트하고, 이후 관련 작업들은 이러한 업데이트를 평가합니다. 다중 턴 에이전트 작업과 단일 턴 추론 작업 전반에 걸쳐 SkillOS는 효과성과 효율성 모두에서 메모리가 없는 강력한 베이스라인과 메모리 기반 베이스라인을 꾸준히 능가하며, 학습된 기술 큐레이터는 서로 다른 실행기 백본과 작업 도메인에 걸쳐 일반화 성능을 보여줍니다. 추가 분석에 따르면 학습된 큐레이터는 더 목표 지향적인 기술 사용을 생성하는 반면, SkillRepo의 기술들은 시간이 지남에 따라 더 높은 수준의 메타 기술을 인코딩하는 더 풍부하게 구조화된 Markdown 파일로 진화합니다.

10

무의미함이 도움이 된다: 프롬프트 공간 변형이 추론 탐색을 확장한다
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

검증 가능한 보상을 활용한 강화 학습, 특히 그룹 상대 정책 최적화(GRPO)는 대규모 언어 모델(LLM)의 추론 능력을 크게 발전시켰다. 그러나 복잡한 작업에서 GRPO는 '제로 어드밴티지 문제'를 자주 겪는다. 즉, 질의에 대한 모든 샘플링된 롤아웃이 실패할 경우 상대적 어드밴티지가 0으로 붕괴된다. 그 결과 모델은 이러한 질문에 대한 효과적인 학습 신호를 상실하여 학습 데이터와 계산 자원을 낭비하게 된다. 이러한 문제에 대해 단순히 샘플링 예산을 늘리는 것이 일반적인 해결책이지만, 정적인 샘플링 정책은 본질적으로 추론 탐색을 제한하여 성공률을 저해한다. 본 논문에서는 이러한 탐색 병목 현상을 극복하기 위한 간단하면서 효과적인 학습 프레임워크인 Lorem Perturbation for Exploration(LoPE)을 제안한다. 우리는 작업과 무관한 프롬프트 공간 변형이 어려운 질문에 대한 직교적인 추론 경로를 활성화할 수 있을 정도로 모델의 출력 분포를 전환할 수 있다고 가정한다. 구체적으로 LoPE는 재샘플링 전에 프롬프트에 Lorem Ipsum 어휘(의사 라틴어 플레이스홀더 텍스트)에서 확률적으로 조합된 시퀀스를 추가한다. 17억, 40억, 70억 매개변수 모델에서의 실험 결과, LoPE가 기존 프롬프트를 이용한 재샘플링을 크게 능가함을 확인했다. 추가 분석에 따르면, 낮은 perplexity를 보이는 다른 라틴어 기반 무작위 시퀀스도 효과적인 변형으로 작용한다. 우리의 결과는 LoPE가 LLM 강화 학습의 탐색 범위 확장을 위한 강력한 기준선임을 입증한다.

11

대규모 파운데이션 모델에서의 오디오-비주얼 인텔리전스
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

오디오-비주얼 인텔리전스(AVI)는 인공지능의 핵심 프론티어로 부상하며 청각과 시각 양상을 연결함으로써 다중모드 현실 세계에서 지각, 생성, 상호작용이 가능한 기계를 구현하는 분야입니다. 대규모 파운데이션 모델 시대에 오디오와 비전의 통합 모델링은 이해뿐만 아니라 동적이며 시간 기반 신호에 대한 제어 가능한 생성 및 추론을 위해 점점 더 중요해지고 있습니다. Meta MovieGen과 Google Veo-3과 같은 최근 발전은 방대한 다중모드 데이터로 학습하는 통합 오디오-비전 아키텍처에 대한 산학계의 관심이 높아지고 있음을 보여줍니다. 그러나 빠른 발전에도 불구하고, 다양한 작업, 일관성 없는 분류 체계, 이질적인 평가 관행으로 인해 체계적인 비교와 지식 통합이 저해되어 관련 연구는 여전히 파편화된 상태입니다. 본 설문 논문은 대규모 파운데이션 모델의 관점에서 AVI에 대한 최초의 포괄적인 검토를 제공합니다. 우리는 이해(예: 음성 인식, 음원 위치 추정)부터 생성(예: 오디오 기반 비디오 합성, 비디오-투-오디오), 상호작용(예: 대화, 구현형 또는 에이전시 인터페이스)에 이르는 광범위한 AVI 작업 영역을 아우르는 통합 분류 체계를 확립합니다. 또한 모달리티 토큰화, 교차 모달리티 융합, 자기회귀 및 확산 기반 생성, 대규모 사전 학습, 지시 정렬, 선호도 최적화를 포함한 방법론적 기초를 종합합니다. 나아가 대표적인 데이터셋, 벤치마크, 평가 지표를 체계화하여 작업군 전반에 걸친 구조化的 비교를 제시하고 동기화, 공간 추론, 제어 가능성, 안전성 분야의 미해결 과제를 규명합니다. 이처럼 급속히 확장되는 분야를 일관된 프레임워크로 통합함으로써, 본 설문 논문은 대규모 AVI의 향후 연구를 위한 기초 참고자료로 활용되고자 합니다.

12

StraTA: 전략적 궤적 추상화를 통한 능동적 강화 학습 유도
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

대규모 언어 모델(LLM)이 점차 대화형 에이전트로 활용되고 있지만, 장기적 의사 결정을 위해 최적화하는 것은 여전히 어려운 과제입니다. 이는 현재의 방법론이 대부분 순전히 반응적이어서 장기 궤적에서의 탐색과 크레딧 할당을 모두 약화시키기 때문입니다. 본 연구에서는 명시적인 궤적 수준 전략을 에이전트 강화 학습(RL)에 도입하는 간단한 프레임워크인 전략적 궤적 추상화(StraTA)를 제안합니다. StraTA는 초기 작업 상태에서 간결한 전략을 샘플링하고, 이후 행동을 해당 전략에 조건화하며, 계층적 GRPO 스타일 롤아웃 설계를 통해 전략 생성과 행동 실행을 공동으로 학습합니다. 여기에 다양한 전략 롤아웃과 비판적 자기 판단을 더해 성능을 향상시켰습니다. ALFWorld, WebShop, SciWorld에서의 실험 결과, StraTA가 강력한 베이스라인 대비 샘플 효율성과 최종 성능을 모두 지속적으로 향상시키는 것으로 나타났습니다. StraTA는 ALFWorld에서 93.1%, WebShop에서 84.2%의 성공률을 기록했습니다. SciWorld에서는 63.5%의 종합 점수를 달성하여 최첨단 클로즈드소스 모델들을 능가하는 성과를 보였습니다.

13

전문 에이전트를 활용한 자동 연구로 효과적이고 비범한 훈련 방법 개발
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

우리는 외부 측정으로 구동되는 폐쇄적 실증 순환으로서의 자동화 연구 방법론을 연구한다. 각 제출된 시도는 가설, 실행 가능한 코드 수정, 평가자가 소유한 결과, 그리고 다음 제안을 형성하는 피드백을 포함한다. 출력물은 생성된 논문이나 단일 모델 체크포인트가 아니라, 제안, 코드 차이, 실험, 점수, 실패 레이블로 구성된 감사 가능한 궤적이다. 우리는 이 순환을 레시피 표면을 분할하고 시도 간 측정된 계보를 공유하는 전문가 에이전트로 구현한다. 핵심 실증 결과는 계보 피드백이 에이전트로 하여금 크래시, 예산 초과, 크기 위반, 정확도 기준 미달 등 평가자의 결과를 일회성 제안이 아닌 후속 프로그램 수준의 레시피 수정으로 전환하게 한다는 점이다. 1,197회의 헤드라인 실행 시도와 600회의 Parameter Golf 대조군 시도 동안, 일회성 설정 및 시작 후 인간은 제안 선택, 레시피 수정, 점수 무시, 실패한 시도 수리를 수행하지 않았다. 세 가지 헤드라인 실행에서 동일한 제출-시도 순환은 Parameter Golf 검증 bpb를 0.81% 감소시키고, NanoChat-D12 CORE를 38.7% 향상시키며, CIFAR-10 Airbench96 월클록을 4.59% 단축했으며, 각 작업은 자체 외부 평가자와 합법성 검사를 통해 측정되었다. 궤적에는 157건의 헤드라인 실행 제출물에 대한 엄격한 아키텍처-도메인 감사와 NanoChat 어텐션 커널 경로 변경 같은 프로그램 재작성이 포함된다. 이 범위 내에서 순환은 코드 작성, 실험 제출, 피드백 흡수, 각 환경 내 기법 적용 및 결합, 공개 시작 레시피 개선을 자율적으로 수행한다.

14

A^2TGPO: 적응형 턴 단위 클리핑을 통한 에이전트 턴-그룹 정책 최적화
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

에이전트형 대규모 언어 모델(LLM)의 강화 학습은 일반적으로 희소하고 궤적 수준의 결과 보상을 사용하므로, 다중 턴 상호작용 내에서 개별 도구 호출의 기여도를 평가하기 어렵습니다. 이러한 과정 신용 할당에 대한 기존 접근법은 추가적인 비용을 유발하는 별도의 외부 과정 보상 모델에 의존하거나, 궤적 다양성을 제한하면서 결과 신호를 재분배하는 것에 그치는 트리 기반 구조적 롤아웃에 의존합니다. 유망한 대안으로는 외부 평가자 없이 내재적 과정 신호로 정답에 대한 정책의 예측 확률 변화(정보 이득, IG)를 턴별로 활용하는 방법이 있습니다. 그러나 RL 훈련 루프 내에서 IG 신호를 활용한 기존 연구는 세 가지 체계적인 문제에 직면합니다: 이질적인 위치적 맥락을 가진 턴 간 정규화는 개별 턴의 상대적 가치를 왜곡할 수 있으며, 가변적인 항목 수의 누적은 이점의 크기가 궤적 깊이에 따라 변동하게 만들고, 고정된 클리핑 범위는 크게 다른 IG 신호를 가진 턴들에 대해 동일한 정책 업데이트를 적용합니다. 본 논문에서는 IG를 내재적 신호로 유지하지만 이를 정규화, 누적, 활용하는 방식을 재설계한 A^2TGPO(적응형 턴 수준 클리핑을 통한 에이전트형 턴 그룹 정책 최적화)를 제안합니다: (i) 턴 그룹 정규화: 각 (프롬프트, 턴 인덱스) 그룹 내에서 IG를 정규화하여 동일한 상호작용 깊이의 동등한 턴들과만 비교하도록 합니다; (ii) 분산 재조정 할인 누적: 누적 정규화 IG를 누적 항목 수의 제곱근으로 나누어 턴 위치에 관계없이 이점 크기를 비교 가능하게 유지합니다; (iii) 적응형 턴 수준 클리핑: 각 턴의 정규화된 IG를 기반으로 클리핑 범위를 조절하여 정보량이 많은 턴은 업데이트 영역을 넓히고 정보량이 적은 턴은 좁힙니다.

15

RL이 LLM에 장기적 추론 능력을 가르칠 수 있을까? 표현력이 핵심이다
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 적용되어 왔지만, 과제 난이도에 따른 훈련 규모 확장에 대한 체계적인 연구는 통제 가능하고 확장성 있는 환경의 부재로 어려움을 겪어왔다. 본 연구에서는 두 가지 난이도 축(필요한 증명 계획의 깊이, 즉 계획 지평과 기반 논리의 표현력)을 독립적으로 제어할 수 있는 합성 논리 추론 프레임워크인 ScaleLogic을 소개한다. 제안된 프레임워크는 단순한 함축 전용 논리("if-then")부터 접속사("and"), 선언사("or"), 부정("not"), 전칭 한정("for all")을 포함한 더 표현력丰富的한 1차 논리 추론에 이르기까지 광범위한 논리 체계를 지원한다. 이 프레임워크를 이용하여, RL 훈련 시 소요되는 계산량 T가 추론 깊이 D에 대해 멱법칙(T ∝ D^γ, R² > 0.99)을 따르며, 이 스케일링 지수 γ가 논리적 표현력이 증가함에 따라 1.04에서 2.60으로 단조 증가함을 보인다. 하류 수학 및 일반 추론 벤치마크에서, 표현력이 낮은 설정에 비해 표현력이 높은 훈련 설정에서 더 큰 성능 향상(최대 +10.66점)과 더 높은 계산 효율의 전이를 달성하여, 모델의 성능이 '얼마나 많이' 훈련되었는지 뿐만 아니라 '무엇으로' 훈련되었는지가 하류 전이를 결정함을 입증한다. 또한 이 멱법칙 관계가 여러 RL 방법에서도 유지되며, 커리큘럼 기반 훈련이 스케일링 효율을 크게 향상시킴을 보여준다.

16

ReflectDrive-2: 강화 학습과 정렬된 이산 확산 주행을 위한 자기 수정 기법
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

자율 주행을 위한 별도의 액션 전문가와 마스크드 이산 확산 플래너인 ReflectDrive-2를 소개한다. 본 방법론은 계획을 이산 궤적 토큰으로 표현하고 병렬 마스크드 디코딩을 통해 생성한다. 이 이산 토큰 공간은 보조 정제 네트워크 없이 동일 모델을 사용해 선택된 토큰을 재작성하는 인-플레이스 궤적 수정 기능(AutoEdit)을 가능하게 한다. 이러한 능력을 훈련하기 위해 두 단계 절차를 사용한다. 먼저, 전문가 궤적에 대해 종방향 진행 및 횡방향 헤딩 방향을 따라 구조 인식 섭동을 구성하고 모델이 원본 전문가 궤적을 복구하도록 지도 학습한다. 이후 의사결정-초안-반성 롤아웃 전체를 강화 학습(RL)으로 미세 조정하며, 최종 편집 후 궤적에 종단 주행 보상을 할당하고 전체 롤아웃 전이를 통해 정책 그래디언트 신용을 전파한다. 전체 롤아웃 RL은 초안 작성과 편집의 결합에 중요하다는 것이 입증되었다: 지도 학습만으로는 추론 시점 AutoEdit가 PDMS를 최대 0.3까지 개선하지만, RL은 이를 1.9까지 증가시킨다. 또한 의사결정-초안-반성 파이프라인을 위한 효율적인 반성 디코딩 스택을 공동 설계하여 공유 프리픽스 KV 재사용, 교대 단계 디코딩(Alternating Step Decode), 그리고 융합된 온디바이스 언마스킹을 결합하였다. NAVSIM에서 ReflectDrive-2는 카메라 전용 입력으로 91.0 PDMS, 6개 오라클 베스트 설정(best-of-6 oracle setting)에서 94.8 PDMS를 달성했으며, NVIDIA Thor에서 평균 31.8ms의 지연 시간으로 실행된다.

17

TabEmbed: 표 형태 데이터 이해를 위한 범용 임베딩 벤치마킹 및 학습
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

파운데이션 모델은 자연어 처리 분야에서 통합된 표현 체계를 구축했으나, 이러한 패러다임은 테이블 형식 데이터에는 여전히 미개척 상태로 남아 있습니다. 기존 방법론은 근본적인 한계에 직면해 있습니다: 대규모 언어 모델 기반 접근법은 검색 호환 벡터 출력이 부재한 반면, 텍스트 임베딩 모델은 종종 테이블 구조와 수치적 의미를 제대로 포착하지 못합니다. 이러한 격차를 해소하기 위해 우리는 먼저 임베딩 모델의 테이블 이해 능력을 평가하기 위한 종합적인 벤치마크인 Tabular Embedding Benchmark(TabBench)를 소개합니다. 그런 다음 공유 임베딩 공간 내에서 테이블 분류와 검색을 통합하는 최초의 범용 임베딩 모델인 TabEmbed를 제안합니다. 다양한 테이블 작업을 의미적 매칭 문제로 재정의함으로써, TabEmbed는 긍정 인식 하드 네거티브 마이닝을 통한 대규모 대조 학습을 활용하여 세분화된 구조적 및 수치적 뉘앙스를 식별합니다. TabBench에 대한 실험 결과는 TabEmbed가 최첨단 텍스트 임베딩 모델들을 크게 능가하며, 범용 테이블 표현 학습의 새로운 기준을 수립함을 보여줍니다. 코드와 데이터셋은 https://github.com/qiangminjie27/TabEmbed와 https://huggingface.co/datasets/qiangminjie27/TabBench에서 공개되어 있습니다.

18

UniPool: 혼합 전문가 모델을 위한 글로벌 공유 전문가 풀
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

현대적인 MoE(전문가 혼합) 아키텍처는 각 트랜스포머 계층이 별도의 전문가 집합을 소유하는 엄격한 계층별 규칙을 통해 전문가 용량을 할당합니다. 이러한 관행은 깊이 확장과 선형적인 전문가 매개변수 증가를 결합하며, 모든 계층이 분리된 전문가 용량을 필요로 한다고 가정합니다. 그러나 최근 분석과 우리의 라우팅 탐사 결과는 이 할당 규칙에 의문을 제기합니다. 여러 실제 운영 MoE 모델에서 더 깊은 계층의 학습된 상위-k 라우터를 균일 무작위 라우팅으로 대체해도 하류 작업 정확도가 1.0-1.6점 밖에 떨어지지 않습니다. 이러한 중복성에 착안하여, 우리는 전문가 용량을 글로벌 아키텍처 예산으로 취급하는 UniPool 아키텍처를 제안합니다. 이는 계층별 전문가 소유권을 독립적인 계층별 라우터가 접근하는 단일 공유 풀로 대체합니다. 공유 환경에서 안정적이고 균형 잡힌 학습을 가능하게 하기 위해, 전체 풀 전체에서 전문가 활용도를 균형 있게 조절하는 풀 수준 보조 손실을 도입하고, 공유 전문가 풀에 대한 희소성 및 규모 안정성 라우팅을 제공하는 NormRouter를 채택합니다. Pile 데이터셋의 300억 토큰으로 학습된 다섯 가지 LLaMA 아키텍처 모델 규모(182M, 469M, 650M, 830M, 978M 매개변수)에서 UniPool은 대응되는 일반 MoE 기준 모델 대비 검증 손실과 복잡도를 지속적으로 개선했습니다. 이러한 규모 전반에 걸쳐 UniPool은 일반 MoE 대비 검증 손실을 최대 0.0386까지 감소시켰습니다. 원시 손실 개선을 넘어, 우리의 결과는 풀 크기를 명시적인 깊이 확장 하이퍼파라미터로 규명합니다. 일반 전문가 매개변수 예산의 41.6%~66.7%만 사용하는 축소 풀 UniPool 변형이 테스트된 규모에서 계층별 MoE와 성능이 동등하거나 더 우수했습니다. 이는 공유 풀 설계 하에서는 전문가 매개변수가 깊이에 따라 선형적으로 증가할 필요가 없으며, 일반 MoE보다 더 효율적이고 효과적으로 유지되면서도 준선형적으로 증가할 수 있음을 보여줍니다. 추가 분석에 따르면 UniPool의 이점은 더 세분화된 전문가 분해와 결합되어 적용됩니다.

19

SwiftI2V: 조건부 세그먼트 단위 생성을 통한 효율적인 고해상도 이미지-비디오 생성
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

고해상도 이미지-비디오(I2V) 생성은 입력 이미지의 정밀한 외관 디테일을 보존하면서 사실적인 시간적 동역학을 합성하는 것을 목표로 합니다. 2K 해상도에서는 이 작업이 극히 어려워지며, 기존 솔루션들은 다양한 약점을 보입니다: 1) 종단간(end-to-end) 모델은 메모리와 지연 시간 측면에서 종종 감당하기 어려울 정도로 비용이 큽니다; 2) 저해상도 생성과 일반적인 비디오 초해상도 방식을 연쇄적으로 사용하는 방법은 초해상도 단계가 입력 이미지를 명시적으로 조건으로 삼지 않기 때문에 디테일을 허구적으로 생성하고 입력에 특화된 지역 구조에서 이탈하는 경향이 있습니다. 이를 위해 우리는 고해상도 I2V에 특화된 효율적인 프레임워크인 SwiftI2V를 제안합니다. 널리 사용되는 2단계 설계를 따라, 이 프레임워크는 먼저 토큰 비용을 줄이고 모델링 부담을 완화하기 위한 저해상도 모션 참조를 생성한 후, 모션의 guidance를 받아 입력에 충실한 디테일을 제어된 오버헤드로 복원하는 강력한 이미지 조건 기반의 2K 합성을 수행하여 효율성과 정확도 사이의 딜레마를 해결합니다. 구체적으로, 생성의 확장성을 높이기 위해 SwiftI2V는 조건부 세그먼트 단위 생성(CSG)을 도입하여 단계별 토큰 예산을 한정하면서 비디오를 세그먼트별로 합성하며, 각 세그먼트 내에서 양방향 문맥 상호작용을 채택하여 세그먼트 간 일관성과 입력 충실도를 향상시킵니다. 2K 해상도의 VBench-I2V에서 SwiftI2V는 종단간 기준 모델들과 비슷한 성능을 달성하면서 전체 GPU 시간을 202배 줄였습니다. 특히, 단일 데이터센터 GPU(예: H800) 또는 소비자용 GPU(예: RTX 4090)에서 실용적인 2K I2V 생성을 가능하게 합니다.

20

AI 공동 수학자: 에이전트 AI로 수학자의 연구 속도를 높이다
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

AI 공동 수학자(AI co-mathematician)를 소개합니다. 이는 수학자들이 AI 에이전트를 대화형으로 활용하여 개방형 연구를 수행할 수 있도록 지원하는 작업 환경(workbench)입니다. AI 공동 수학자는 아이디어 구상, 문헌 조사, 계산적 탐색, 정리 증명, 이론 구축 등 수학적 워크플로우의 탐색적이고 반복적인 특성을 종합적으로 지원하도록 최적화되었습니다. 불확실성을 관리하고, 사용자의 의도를 정제하며, 실패한 가설을 추적하고, 표준적인 수학적 결과물을 출력하는 비동기적이며 상태를 유지하는 작업 공간을 제공함으로써, 본 시스템은 인간의 협업 워크플로우를 반영합니다. 초기 테스트에서 AI 공동 수학자는 연구자들이 미해결 문제를 해결하고, 새로운 연구 방향을 식별하며, 간과되었던 문헌 참고자료를 발견하는 데 도움을 주었습니다. AI 지원 수학적 발견을 위한 매우 상호작용적인 패러다임을 보여주는 것 외에도, AI 공동 수학자는 FrontierMath Tier 4에서 48%라는 평가된 모든 AI 시스템 중 최고 점수를 포함하여, 난이도 높은 문제 해결 벤치마크에서 최첨단 결과를 달성했습니다.

21

RemoteZero: 인간 주해 없이 수행하는 지리공간 추론
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

지공간 추론은 모델이 복잡한 공간 의미와 사용자 의도를 지구 관측을 위한 정확한 대상 위치로 해석해야 하는 과제입니다. 최근 발전으로 추론 경로가 수동 편집에서 벗어나 모델이 자체적인 추론 체인을 생성할 수 있게 되었습니다. 그러나 최종적인 의존성은 여전히 남아있는데, 바로 인간이 주석을 단 실제 좌표 값에 대한 감독입니다. 이로 인해 추론 과정은 자율적이지만 공간적 종착점은 그렇지 못하며, 풍부한 레이블이 없는 원격 감지 데이터에 대한 진정한 자기 진화가 방해받고 있습니다. 이러한 병목 현상을 해결하기 위해 우리는 박스 감독이 없는 지공간 추론 프레임워크인 RemoteZero를 소개합니다. RemoteZero는 단순한 비대칭성에서 출발합니다: MLLM(멀티모달 대형 언어 모델)은 일반적으로 정확한 좌표를 직접 생성하는 것보다 특정 영역이 질의를 만족하는지 검증하는 데 더 뛰어납니다. 이更强的 판별 능력을 활용하여 RemoteZero는 기하학적 감독을 내재적 의미론적 검증으로 대체하고 박스 주석 없이 GRPO 훈련을 가능하게 합니다. 결과적인 프레임워크는 반복적 자기 진화를 추가로 지원하여 모델이 자체 검증 신호를 통해 레이블이 없는 원격 감지 이미지로부터 개선될 수 있도록 합니다. 실험 결과, RemoteZero는 강력한 감독 방식과 비교해 경쟁력 있는 성능을 달성하여 지공간 추론 위치 결정을 위한 자기 검증 훈련의 잠재력을 입증했습니다.

22

입자성 축: 언어 모델의 사회적 역할에 대한 미시-거시 잠재 방향
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

대규모 언어 모델(LLM)은 개인부터 기관에 이르기까지 다양한 사회적 역할을 수행하도록 프롬프트되는 것이 일상적이지만, 이러한 역할의 세분성, 즉 미시적 차원의 개인적 경험부터 거시적 차원의 조직, 기관 또는 국가 수준의 사고에 이르기까지 그 내부 표현이 어느 정도까지 그러한 세분성을 인코딩하는지는 여전히 불분명합니다. 우리는 그것이 인코딩됨을 보여줍니다. 우리는 대조 기반 세분성 축(Granularity Axis)을 거시적 역할과 미시적 역할의 평균 은닉 상태 차이로 정의합니다. Qwen3-8B에서 이 축은 역할 표현 공간의 주축(PC1)과 코사인 유사도 0.972로 정렬되며 분산의 52.6%를 설명하는데, 이는 세분성이 프롬프트된 사회적 역할을 구성하는 지배적인 기하학적 축임을 시사합니다. 우리는 5개 세분성 수준에 걸쳐 75개의 사회적 역할을 구성하고 공유 질문과 프롬프트 변형에 대해 91,200개의 역할 조건부 응답을 수집한 후, 역할 수준 은닉 상태를 추출하여 해당 축에 투영합니다. 역할 투영값은 5개 수준 모두에서 단조롭게 증가하며, 계층, 프롬프트 변형, 엔드포인트 정의, 홀드아웃 분할, 점수 필터링된 부분집합에 걸쳐 안정적으로 유지되고 Llama-3.1-8B-Instruct로도 전이됩니다. 이 축은 인과적으로도 관련이 있습니다: 축을 따라 활성화 스티어링을 가하면 예측된 방향으로 응답 세분성이 변화하며, 지역적 응답이 가능한 프롬프트에서 Llama는 양의 스티어링 하에 5점 척도 거시 점수가 2.00에서 3.17로 이동합니다. 두 모델은 제어 가능성에서 차이를 보여, 스티어링이 각 모델의 기본 작동 체계에 의존함을 시사합니다. 전반적으로, 우리의 연구 결과는 사회적 역할 세분성이 단순한 양식적 표면 특징이 아니라, 역할 조건부 언어 모델 행동에서 구조화되고 순서화되며 인과적으로 조작 가능한 잠재 방향임을 보여줍니다.

23

EMO: 출현적 모듈성을 위한 전문가 혼합 사전 학습
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

대규모 언어 모델은 일반적으로 모놀리식 시스템으로 배포되며, 애플리케이션이 코드, 수학 또는 도메인 특화 지식과 같은 특정 기능의 일부만 필요로 하는 경우에도 전체 모델을 필요로 합니다. 전문가 혼합(MoE) 모델은 입력당 전문가의 일부만 활성화하는 대안처럼 보이지만, 실제로 특정 도메인에 대해 전문가 하위 집합만으로 추론을 제한하면 심각한 성능 저하가 발생합니다. 이는 모델이 더 크고 희소해짐에 따라 메모리가 제한된 환경에서의 실용성을 제한합니다. 우리는 인간이 정의한 사전 지식 없이도 모듈성, 즉 전문가 하위 집합의 독립적 사용 및 구성을 위해 설계된 MoE인 EMO를 소개합니다. 우리의 핵심 아이디어는 유사한 도메인의 토큰이 유사한 전문가에 의존하도록 유도하는 것입니다. 문서 내 토큰들은 동일한 도메인을 공유하는 경우가 많기 때문에, EMO는 이들이 공유 풀에서 전문가를 선택하도록 제한하는 동시에 다른 문서들이 서로 다른 풀을 사용할 수 있도록 합니다. 이 간단한 제약만으로도 사전 학습 시 문서 경계만을 사용하여 응집력 있는 전문가 그룹이 형성됩니다. 우리는 1T 토큰으로 10억 개 활성, 140억 개 전체 파라미터 규모의 EMO를 사전 학습했습니다. 전체 모델로서는 표준 MoE 성능에 필적합니다. 중요한 것은 선택적 전문가 사용이 가능하다는 점으로, 전문가의 25%(12.5%)만 유지해도 절대 성능이 1%(3%)만 하락하는 반면, 동일한 설정에서 표준 MoE는 작동 불능 상태가 됩니다. 또한 우리는 EMO의 전문가 하위 집합이 표준 MoE에서 관찰되는 저수준 구문 특화와 달리 수학이나 코드와 같은 도메인 수준의 의미론적 특화를 보인다는 사실을 발견했습니다. 전반적으로 우리의 결과는 대규모 희소 모델의 모듈적이고 메모리 효율적인 배포를 위한 길을 제시하며, 구성 가능 아키텍처에 새로운 기회를 열어줍니다.

24

데이터 제약 환경에서의 훈련을 위한 규범적 스케일링 법칙
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

훈련 컴퓨팅 자원이 고품질 데이터의 가용성을 점점 더 앞지르고 있습니다. 이로 인해 핵심 과제는 최적의 컴퓨팅 자원 배분에서 제한된 데이터로부터 최대의 가치를 추출하는 방향으로 전환되고 있습니다. 널리 채택된 Chinchilla 스케일링 법칙은 모든 훈련 토큰이 고유하다고 가정하는데, 이로 인해 데이터가 제한된 환경에서 사전 훈련 결정을 안내하는 능력이 제한됩니다. 우리는 반복 훈련 시 초과 손실을 단순 가법적 과적합 패널티로 모델링하였으며, 이가 모델 동작을 정확히 설명함을 확인했습니다. 우리의 스케일링 법칙은 정성적으로 새로운 컴퓨팅 최적 배분 방안을 제시합니다. 일정 지점 이후에는 추가적인 반복은 역효과를 내며, 컴퓨팅 자원은 모델 용량에 투자하는 것이 더 효과적입니다. 우리의 법칙이 권장하는 구성을 따를 때 데이터가 제한된 환경에서 성능이 향상됨을 보여줍니다. 마지막으로, 우리의 단일 매개변수 형태는 과적합을 단일 계수로 분리하기 때문에 다양한 훈련 구성 간 직접 비교가 가능합니다. 사례 연구로, 강력한 가중치 감쇠(λ=1.0)가 이 계수를 약 70% 감소시킴을 보여주며, 데이터 제약 환경에서 최적의 가중치 감쇠가 일반적인 관행보다 한 차원 크게 적용되어야 한다는 최근 연구 결과에 대한 스케일링 법칙 기반 설명을 제공합니다.

25

KernelBench-X: LLM 생성 GPU 커널 평가를 위한 종합 벤치마크
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

LLM 기반 Triton 커널 생성은 상당한 관심을 끌었으나, 근본적인 실증적 의문은 여전히 해결되지 않았습니다: 이 능력은 어디에서 한계에 부딪히며, 그 이유는 무엇인가? 우리는 이 문제에 답하기 위해 15개 범주에 걸친 176개 작업에 대해 범주 인식 정확도 및 하드웨어 효율성 평가를 수행하는 벤치마크인 KernelBench-X를 소개합니다. 5가지 대표적 방법론에 대한 체계적 비교를 통해 세 가지 주요 발견을 도출했습니다. 첫째, 작업 구조가 방법론 설계보다 정확도에 더 큰 영향을 미칩니다. 범주는 방법론 대비 의미적 정확도 변동을 약 3배 더 많이 설명하며(설명된 편차: 9.4% 대 3.3%), Fusion 작업의 72%는 5가지 방법론 모두에서 실패한 반면 Math 작업은 일관되게 해결되었습니다. 둘째, 반복적 정제는 정확도는 개선하지만 성능은 향상시키지 않습니다. GEAK 반복 과정에서 컴파일 성공률은 52.3%에서 68.8%로 상승한 반면, 평균 속도 향상은 1.58배에서 1.44배로 감소했습니다. 새로 복구된 커널은 지속적으로 정확한 커널보다 consistently 낮은 성능을 보였습니다(0~1차 반복에서 속도 향상: 1.16배 대 1.58배). 셋째, 정확성이 효율성을 보장하지 않습니다. 정확한 커널의 46.6%가 PyTorch eager 기준점보다 느렸으며, 하드웨어 간 속도 향상 변동은 21.4배에 달했습니다. 또한 양자화는 비록 비중 있는 컴파일 성공률에도 불구하고 완전히 미해결 상태이며(30개 작업 중 0개 성공), 이는 표면적 구문 오류가 아닌 수치 계산 규약에 대한 체계적 오해를 드러냅니다. 이러한 발견들은 향후 발전이 전역 조정 처리, 수치 정밀도 명시적 모델링, 그리고 생성 과정에 하드웨어 효율성 통합에 달려 있음을 시사합니다. 코드는 https://github.com/BonnieW05/KernelBenchX에서 이용 가능합니다.

26

균형 집계: GRPO의 집계 편향 이해 및 해결
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 및 코드 생성 능력 향상을 위한 핵심 패러다임으로 자리 잡았으며, GRPO 스타일 학습은 그 간결함과 효과성으로 널리 채택되고 있습니다. 그러나 중요한 설계 선택지인 각 샘플링 그룹 내에서 토큰 수준 정책 그래디언트 항을 어떻게 집계할 것인가에 대한 문제는 충분히 탐구되지 않았습니다. 표준 GRPO는 시퀀스 집계를 사용하는 반면, 최근 연구에서는 토큰 집계가 더 나은 대안이라고 주장합니다. 본 연구는 이 두 규칙이 서로 다른 최적화 편향을 유발함을 보입니다: 토큰 집계는 부호-길이 결합을 도입하는 반면, 시퀀스 집계는 시퀀스 수준 동등 가중치를 통해 긴 응답을 암묵적으로 낮은 가중치로 처리합니다. 이러한 긴장 관계를 해결하기 위해 우리는 균형 집계(BA)를 제안합니다. 이는 긍정 및 부정 하위 집합 내에서 토큰 수준 평균을 별도로 계산한 후 시퀀스 개수 기반 가중치로 결합하는 간단한 대체 방법입니다. Qwen2.5-Math-7B 및 Qwen3-1.7B 모델을 사용하여 DAPO-17k와 Polaris 데이터셋으로 실험을 수행하고 6개의 추론 및 코딩 벤치마크에서 평가한 결과, BA가 표준 토큰 및 시퀀스 집계 대비 consistently 더 높은 학습 안정성과 최종 성능을 달성함을 확인했습니다. 우리의 분석은 더 나아가 토큰과 시퀀스 집계의 상대적 효과성이 주로 응답 길이 변동과 긍정-부정 길이 차이에 의해 크게 좌우됨을 보여주며, GRPO 스타일 RLVR에서 집계 방식이 중요한 설계 차원임을 강조합니다.

27

트랜스포머 모델에서 내재적 연역 추론의 스케일링 특성
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

우리는 깊이 제한 트랜스포머에서 Horn 절에 대한 암묵적 연역 추론의 확장 특성을 연구한다. 증명 가능성을 허위 특징과 체계적으로 분리하고 알고리즘 정렬을 강제함으로써, 충분히 깊은 양방향 프리픽스 마스크 모델에서 암묵적 추론이 그래프 토폴로지와 문제 폭에 걸쳐 명시적 CoT 성능에 접근함을 발견했으나, 깊이 외삽을 위해서는 CoT가 여전히 필요하다.

28

GeoStack: VLMs에서의 준-아벨 지식 구성 프레임워크
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

우리는 비전-언어 모델(VLM)에서 지식 구성을 위한 과제를 다루며, 다중 도메인이나 작업에 걸쳐 전문성을 축적할 때 일반적으로 발생하는 치명적 망각 문제를 해결하고자 한다. 본 논문에서는 독립적으로 훈련된 도메인 전문가 모듈이 통합 모델로 구성될 수 있는 모듈형 프레임워크인 GeoStack(기하학적 스택킹)을 소개한다. 어댑터 매니폴드에 기하학적 및 구조적 제약을 부과함으로써 GeoStack은 기본 모델의 기초 지식이 보존되도록 보장한다. 더 나아가 우리는 통합된 전문가 수와 무관하게 일정한 추론 복잡도(O(1))를 달성하는 가중치 폴딩 특성을 수학적으로 증명한다. 다중 도메인 적응 및 클래스 증분 학습에 대한 실험 결과는 GeoStack이 치명적 망각을 현저히 완감하면서 장기적인 지식 구성을 위한 효율적인 메커니즘을 제공함을 보여준다. 코드는 https://github.com/QuantitativeImagingLaboratory/GeoStack에서 확인할 수 있다.

29

기준이 존재하지 않을 때: 실측 레이블 없이 비교적 LLM 안전성 점수 검증하기
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

많은 현장 배포에서는 관련 언어, 분야 또는 규제 체계에 대한 레이블된 벤치마크가 존재하기 전에 후보 언어 모델의 안전성을 비교해야 합니다. 우리는 이러한 설정을 벤치마크 없는 비교 안전성 점수화로 공식화하고, 시나리오 기반 감사가 배포 증거로 해석될 수 있는 계약 조건을 명시합니다. 점수는 고정된 시나리오 팩, 채점 기준, 감사관, 판단자, 샘플링 구성 및 재실행 예산 하에서만 유효합니다. 레이블이 없기 때문에 우리는 실제 정답 일치를 도구적 타당성 연쇄로 대체합니다: 통제된 안전-대-제거 대비에 대한 반응성, 감사관 및 판단자 인공물보다 목표 대상에 의한 변동성의 우세, 그리고 재실행 간 안정성. 우리는 이 연쇄를 로컬-퍼스트(local-first) 점수화 도구인 SimpleAudit에서 구현하고 노르웨이어 안전 팩으로 이를 검증합니다. 안전 대상과 제거 대상은 AUROC 값 0.89에서 1.00 사이로 분리되며, 대상 정체성이 변동성의 주요 구성 요소이고(η^2 약 0.52), 심각도 프로필은 10회 재실행 시점에 안정화됩니다. 동일한 연쇄를 Petri에 적용하면 두 도구 모두를 수용함을 확인할 수 있습니다. 상당한 차이는 이 연쇄의 상류, 즉 주장-계약 집행과 배포 적합성에서 발생합니다. Borealis와 Gemma 3를 비교하는 노르웨이어 공공部門 조달 사례는 결과적인 증거가 실제로 어떻게 적용되는지 보여줍니다: 더 안전한 모델은 시나리오 범주와 위험 측정 방법에 따라 달라집니다. 결과적으로, 점수, 매칭 델타, 임계율, 불확실성, 그리고 사용된 감사관과 판단자는 단일 순위로 축약되지 않고 함께 보고되어야 합니다.

30

생성형 양자 영감 콜모고로프-아르놀드 고유값 솔버
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

고성능 컴퓨팅(HPC)은 클래식 생성 모델, 양자 회로 시뮬레이션, 선택적 구성 상호작용 후처리를 결합한 확장 가능한 양자 화학 워크플로우에서 점점 더 중요해지고 있다. 본 논문에서는 양자 화학을 위한 생성 양자 고유값 솔버(GQE)의 매개변수 효율적 확장인 생성적 양자 영감 콜모고로프-아르놀드 고유값 솔버(GQKAE)를 제안한다. GQKAE는 GPT 스타일 생성 고유값 솔버에서 매개변수가 많은 피드포워드 네트워크 구성 요소를 하이브리드 양자 영감 콜모고로프-아르놀드 네트워크 모듈로 대체하여 컴팩트한 HQKANsformer 백본을 형성한다. 이 방법은 자동회귀적 연산자 선택과 양자 선택 구성 상호작용 평가 파이프라인을 유지하면서, 단일 큐비트 데이터 재업로드 활성화 모듈을 사용하여 표현력 있는 비선형 매핑을 제공한다. H4, N2, LiH, C2H6, H2O 및 H2O 이합체에 대한 수치 벤치마크 결과, GQKAE는 GPT 기반 GQE 아키텍처와 유사한 화학적 정확도를 달성하면서 훈련 가능 매개변수와 메모리를 약 66% 절감하고 월타임 성능을 향상시킨다. N2 및 LiH와 같은 강한 상관관계 시스템에서 GQKAE는 수렴 행동과 최종 에너지 오차도 개선한다. 이러한 결과는 양자 영감 콜모고로프-아르놀드 네트워크가 회로 생성 품질을 유지하면서 클래식 측 오버헤드를 줄일 수 있음을 보여주며, 단기적 양자 플랫폼에서 HPC-양자 공동 설계를 위한 확장 가능한 경로를 제시한다.

31

생각한 후 채점: 비디오 보상 모델링을 위한 분리된 추론과 채점
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

생성 비디오 모델의 최근 발전은 훈련 후 및 테스트 타임 스케일링에 점점 더 의존하고 있으며, 이들 모두 비디오 보상 모델(RM)의 품질에 크게 좌우됩니다. 이상적인 보상 모델은 다양한 시나리오에서 인간의 선호도와 일치하는 정확한 보상을 예측해야 합니다. 그러나 기존 패러다임은 근본적인 딜레마에 직면해 있습니다: 판별적 RM은 명시적 추론 없이 다중모드 대규모 언어 모델(MLLM)이 추출한 특징에 대해 직접 보상을 회귀하므로, 단축 학습에 취약하고 일반화를 위해 대규모 데이터 스케일링에 크게 의존합니다. 반면, 사고 사슬(CoT) 추론을 활용하는 생성적 RM은 인간 선호도 배후의 근거를 내재화하기 위해 세밀한 의미론적 감독을 활용하므로 우수한 해석 가능성과 일반화 잠재력을 보여줍니다. 그러나 단일 자기회귀 추론 체인 내에서 추론과 채점이 결합되어 있어 본질적인 최적화 병목 현상을 겪습니다. CoT 추론의 일반화 이점을 활용하면서 결합된 추론과 채점의 훈련 불안정성을 완화하기 위해, 우리는 훈련 효율적이고 일반화 가능한 비디오 보상 모델인 DeScore를 소개합니다. DeScore는 분리된 "생각-후-채점" 패러다임을 채택합니다: MLLM이 먼저 명시적 CoT를 생성한 후, 학습 가능한 질의 토큰과 최종 보상을 예측하는 회귀 헤드로 구성된 전용 판별적 채점 모듈이 이를 따라옵니다. DeScore는 두 단계 프레임워크를 통해 최적화됩니다: (1) 강력한 채점 능력을 보장하기 위한 무작위 마스크 메커니즘을 통합한 판별적 콜드 스타트, (2) CoT 추론 품질을 독립적으로 개선하고 최종 보상을 보정하는 이중 목표 강화 학습 단계로, 더 높은 품질의 추론이 직접적으로 우수한 모델 성능으로 이어지도록 합니다.

32

확산 기반 정책에서 숨겨진 보상 복원하기
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

본 논문은 스칼라 에너지 함수의 기울기가 노이즈 제거 필드가 되도록 매개변수화하여 생성적 행동 모델링과 역강화학습을 통합하는 EnergyFlow 프레임워크를 소개한다. 최대 엔트로피 최적성 하에서 노이즈 제거 점수 매칭을 통해 학습된 점수 함수가 전문가의 소프트 Q-함수의 기울기를 복원함으로써 적대적 학습 없이도 보상 추출이 가능함을 규명한다. 형식적으로, 학습된 필드를 보존적으로 제약하는 것이 가설 복잡도를 줄이고 분포 외 일반화 경계를 강화함을 증명한다. 더 나아가 복원된 보상의 식별 가능성을 규명하고 점수 추정 오류가 행동 선호도에 어떻게 전파되는지 한계를 규정한다. 실험적으로 EnergyFlow는 다양한 조작 작업에서 최첨단 모방 성능을 달성하는 동시에, 적대적 역강화학습 방법과 우도 기반 대안을 모두 능가하는 하위 강화학습을 위한 효과적인 보상 신호를 제공한다. 이러한 결과는 유효한 보상 추출에 필요한 구조적 제약이 동시에 정책 일반화에 유리한 귀납적 편향으로 작용함을 보여준다. 코드는 https://github.com/sotaagi/EnergyFlow에서 이용 가능하다.

33

스파클: 분리된 지침을 통한 생동감 있는 지시어 기반 비디오 배경 교체 구현
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

최근 Senorita-2M과 같은 오픈소스 노력으로 비디오 편집이 자연어 명령어 방식으로 발전해 왔습니다. 그러나 현재 공개된 데이터셋은 주로 원본 장면 구조를 대체로 보존하고 확장이 용이한 지역적 편집이나 스타일 변환에 집중되어 있습니다. 이와 대조적으로 영화 제작 및 광고와 같은 창의적 응용 분야의 핵심 과제인 배경 교체는 정확한 전경-배경 상호작용을 유지하면서 완전히 새롭고 시간적 일관성을 가진 장면을 합성해야 하므로, 대규모 데이터 생성이 훨씬 더 어려운 과제입니다. 그 결과 고품질 훈련 데이터의 부족으로 이 복잡한 작업은 여전히 크게 미개발된 상태로 남아 있습니다. 이러한 격차는 최신 모델인 Kiwi-Edit의 저조한 성능에서 명확히 드러나는데, 이는 해당 작업을 포함하는 주요 오픈소스 데이터셋인 OpenVE-3M이 정적이고 부자연스러운 배경을 빈번히 생성하기 때문입니다. 본 논문에서는 이러한 품질 저하가 데이터 합성 과정에서 정밀한 배경 지도 부재에 기인함을 규명합니다. 이에 따라 우리는 엄격한 품질 필터링과 함께 전경과 배경 지도를 분리된 방식으로 생성하는 확장 가능한 파이프라인을 설계했습니다. 이 파이프라인을 기반으로 약 14만 개의 비디오 쌍으로 구성되고 5가지 일반적인 배경 변경 테마를 아우르는 Sparkle 데이터셋과 배경 교체를 위해 현재까지 제안된 가장 큰 평가 벤치마크인 Sparkle-Bench를 소개합니다. 실험 결과, 우리의 데이터셋과 이를 기반으로 훈련된 모델이 OpenVE-Bench와 Sparkle-Bench 모두에서 기존 모든 기준 모델보다 상당히 우수한 성능을 달성함을 확인했습니다. 우리가 제안하는 데이터셋, 벤치마크 및 모델은 https://showlab.github.io/Sparkle/에서 완전히 오픈소스로 공개됩니다.

34

다중모드 도메인 일반화에서 진전이 있는가: 포괄적 벤치마크 연구
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

다중 모달 도메인 일반화(MMDG)의 모델 강건성 향상 효과에 대한 관심이 높아지고 있지만, 보고된 성능 향상이 진정한 알고리즘적 진전을 반영하는지, 아니면 일관되지 않은 평가 프로토콜의 결과인지는 여전히 불분명합니다. 현재 연구는 데이터셋, 모달리티 구성, 실험 설정에 따라 상이하게 진행되어 파편화된 상태입니다. 더욱이 기존 벤치마크는 주로 행동 인식에 집중하여 입력 손상, 모달리티 결합, 모델 신뢰성과 같은 중요한 현실적 과제를 종종 간과하고 있습니다. 이러한 표준화 부재는 해당 분야의 진전을 신뢰롭게 평가하는 데 장애가 되고 있습니다. 이러한 문제를 해결하기 위해 우리는 MMDG 최초의 통합적이고 포괄적인 벤치마크인 MMDG-Bench를 소개합니다. MMDG-Bench는 행동 인식, 기계적 고장 진단, 감성 분석이라는 세 가지 다양한 과제에 걸친 6개 데이터셋에서 평가를 표준화합니다. MMDG-Bench는 6가지 모달리티 조합, 9가지 대표 방법, 다양한 평가 설정을 포함합니다. 표준 정확도 외에도 손상 강건성, 결합 모달리티 일반화, 오분류 탐지, 분포 외 탐지를 체계적으로 평가합니다. 95개의 독특한 교차 도메인 과제에 걸쳐 총 7,402개의 신경망을 학습시킨 MMDG-Bench는 다음과 같은 다섯 가지 주요 결과를 도출했습니다: (1) 공정한 비교 하에서 최근의 전문화된 MMDG 방법은 ERM 기준선 대비 미미한 향상만 제공합니다; (2) 단일 방법이 모든 데이터셋이나 모달리티 조합에서 일관되게 다른 방법들을 능가하지는 않습니다; (3) 상한선 성능까지 상당한 격차가 지속되어 MMDG 문제가 해결되기에는 아직 멀었음을 시사합니다; (4) 3개 모달리티 융합이 가장 강력한 2개 모달리티 구성을 일관되게 능가하지는 않습니다; (5) 평가된 모든 방법은 손상 및 모달리티 결합 시나리오에서 성능이 현저히 저하되며, 일부 방법은 모델 신뢰성을 추가로 훼손합니다.

35

EDU-CIRCUIT-HW: 대학 수준 STEM 과목 학생들의 실제 손글씨 풀이에 대한 다중 모달 대규모 언어 모델 평가
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

다중모드 대규모 언어 모델(MLLM)은 전통적인 교육 방식을 혁신하고 교사의 업무 부담을 줄이는 데 상당한 가능성을 지니고 있습니다. 그러나 실제적이고 도메인 특화된 벤치마크의 부족으로 인해 수학 공식, 도형, 텍스트 기반 추론이 복잡하게 얽힌 제약 없는 STEM 분야 학생 필기 해답을 정확하게 해석하는 것은 여전히 큰 과제로 남아 있습니다. 또한 현재의 평가 방식은 하류 작업 결과(예: 자동 채점)에 주로 의존하는데, 이는 인식된 콘텐츠의 일부만을 검증할 뿐 MLLM의 복잡한 필기 논리에 대한 종합적 이해도를 제대로 파악하지 못합니다. 이러한 격차를 해소하기 위해 본 연구에서는 대학 수준 STEM 강좌에서 수집한 1,300개 이상의 실제 학생 필기 해답으로 구성된 EDU-CIRCUIT-HW 데이터세트를 공개합니다. 전문가 검증을 거친 해답 원문 필사본 및 채점 보고서를 활용하여 다양한 MLLM의 상위 단계 인식 정확도와 하위 단계 자동 채점 성능을 동시에 평가했습니다. 평가 결과, MLLM이 인식한 학생 필기 내용 내에서 놀라울 정도의 잠재적 오류가 발견되었으며, 이는 높은 위험성을 지닌 교육 환경에서 자동 채점 및 기타 이해 중심 응용 프로그램에 대한 모델의 신뢰성이 아직 불충분함을 보여줍니다. 가능한 해결책으로, 인식된 오류 유형을 활용하여 사전에 오류를 탐지하고 수정하는 사례 연구를 제시합니다. 이 방법은 최소한의 인간 개입(예: 과제의 3.3%는 인간 채점자에게, 나머지는 GPT-5.1 채점자에게 배분)만으로도 배포된 AI 기반 채점 시스템의 강건성을 효과적으로 높일 수 있음을 입증했습니다. 코드와 데이터세트는 다음 GitHub 저장소에서 이용할 수 있습니다: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

36

PianoCoRe: 통합 및 정제된 피아노 MIDI 데이터셋
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

악보와 연주가 매칭된 기호 음악 데이터셋은 많은 음악 정보 검색(MIR) 작업에 필수적입니다. 그러나 기존 자료들은 작곡가 범위가 제한적이고, 연주 다양성이 부족하며, 음표 수준 정렬이 생략되거나, 일관성 없는 명명 형식을 사용하는 경우가 많습니다. 본 연구는 주요 오픈소스 피아노 코퍼스를 통합 및 정제한 대규모 피아노 MIDI 데이터셋인 PianoCoRe를 소개합니다. 이 데이터셋은 483명의 작곡가가 작곡한 5,625개의 곡에 대한 250,046개의 연주를 포함하며, 총 연주 음악 시간은 21,763시간에 달합니다. PianoCoRe는 다양한 응용 프로그램을 지원하기 위해 계층화된 하위 집합으로 공개됩니다: 대규모 분석 및 사전 학습(PianoCoRe-C 및 중복 제거된 PianoCoRe-B)부터 음표 수준 악보 정렬이 포함된 표현적 연주 모델링(PianoCoRe-A/A*)까지. 음표 정렬 하위 집합인 PianoCoRe-A는 현재까지 오픈소스로 공개된 것 중 가장 큰 규모의 1,591개 악보와 정렬된 157,207개 연주 컬렉션을 제공합니다. 데이터셋 외에도 본 연구의 기여점은 다음과 같습니다: (1) 손상되었거나 악보와 유사한 트랜스크립션을 detect하기 위한 MIDI 품질 분류기, (2) 시간적 정렬 오류를 정리하고 누락된 음표를 보간하는 정렬 정제 파이프라인인 RAScoP. 분석 결과, 정제 과정을 통해 시간적 노이즈가 감소하고 템포 이상치가 제거되는 것으로 나타났습니다. 또한, PianoCoRe로 학습된 표현적 연주 렌더링 모델은 원본 또는 더 작은 데이터셋으로 학습된 모델에 비해 보지 못한 곡에 대한 견고성이 향상되었음을 보여줍니다. PianoCoRe는 차세대 표현적 피아노 연주 연구를 위한 바로 사용 가능한 기반을 제공합니다.

37

BioTool: 대규모 언어 모델의 생의학 능력 향상을 위한 포괄적 도구 호출 데이터셋
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

대규모 언어 모델(LLM)이 일반 목적 작업에서는 성공을 거두었지만, 생명의학과 같은 고도로 전문화된 분야에서의 성능은 여전히 만족스럽지 못합니다. 주요 한계점은 LLM이 임상 전문가와 생명의학 연구자들이 일상 업무에서 광범위하게 의존하는 생명의학 도구를 효과적으로 활용하지 못한다는 것입니다. 최근 일반 영역의 도구 호출 데이터셋이 LLM 에이전트의 능력을 크게 향상시켰지만, 생명의학 영역의 기존 연구는 주로 컨텍스트 내 학습에 의존하고 소규모 도구 집합으로 모델을 제한하고 있습니다. 이러한 격차를 해결하기 위해 본 연구는 LLM 미세 조정을 위해 설계된 포괄적인 생명의학 도구 호출 데이터셋인 BioTool을 소개합니다. BioTool은 NCBI, Ensembl, UniProt 데이터베이스에서 수집한 34개의 빈번히 사용되는 도구와 변이, 유전체학, 단백체학, 진화, 일반 생물학 분야에 걸친 7,040개의 고품질 인간 검증 질의-API 호출 쌍으로 구성됩니다. 40억 개의 파라미터를 가진 LLM을 BioTool로 미세 조정한 결과, 생명의학 도구 호출 성능이 현저히 향상되어 GPT-5.1과 같은 최첨단 상용 LLM을 능가하는 것으로 나타났습니다. 더 나아가, 인간 전문가 평가를 통해 BioTool로 미세 조정된 도구 호출기를 통합하면 도구 사용 없이 동일한 LLM을 사용할 때보다 하류 작업의 응답 품질이 크게 개선됨을 확인하여, BioTool이 LLM의 생명의학 역량 강화에 효과적임을 입증했습니다. 전체 데이터셋과 평가 코드는 https://github.com/gxx27/BioTool 에서 이용할 수 있습니다.

38

TIDE: 모든 계층이 문맥 아래의 토큰을 인식한다
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

현대 모든 LLM에서 보편적으로 채택되었으나 충분히 검토되지 않은 설계 선택을 재고한다: 토큰 인덱스는 입력 임베딩 층에서 한 번 조회된 후 영구적으로 폐기된다. 이러한 단일 주입 가정은 두 가지 구조적 결함을 야기한다: (i) 희소 토큰 문제 - 어휘의 Zipf형 분포로 인해 희소 토큰 임베딩이 빈도 높은 토큰에 비해 누적 그래디언트 신호의 일부만 수신하여 만성적으로 학습 부진 상태에 처하며, (ii) 문맥 붕괴 문제 - 제한된 매개변수 모델이 분포적으로 유사한 토큰을 구분 불가능한 은닉 상태로 매핑한다. 양 문제를 동시에 해결하기 위한 시도로, 표준 트랜스포머를 TIDE로 확장한다. TIDE는 EmbeddingMemory를 도입하는데, 이는 K개의 독립적 MemoryBlock 앙상블로 구성되어 토큰 인덱스를 문맥 독립적 의미 벡터로 매핑하며, 학습 가능한 null bank를 갖춘 깊이 조건부 소프트맥스 라우터를 통해 매 층에 주입된다. 우리는 이론적 및 실증적으로 TIDE가 단일 토큰 정체성 주입 관련 문제를 해결하는 이점과 더불어 다중 언어 모델링 및 하류 작업 전반에 걸친 성능 향상을 입증한다.

May 7
May 8