ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

1

VibeVoice 기술 보고서
VibeVoice Technical Report

Aug 26
ByZhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
18
1

본 보고서는 VibeVoice라는 새로운 모델을 소개합니다. 이 모델은 다중 화자를 포함한 장편 음성 합성을 위해 다음 토큰 확산(next-token diffusion)을 활용합니다. 다음 토큰 확산은 연속 데이터를 모델링하기 위한 통합 방법으로, 확산 과정을 통해 잠재 벡터를 자기회귀적으로 생성합니다. 이를 가능하게 하기 위해, 우리는 새로운 연속 음성 토큰화기를 도입했습니다. 이 토큰화기는 널리 사용되는 Encodec 모델과 비교했을 때 데이터 압축률을 80배 향상시키면서도 비슷한 성능을 유지합니다. 이 토큰화기는 오디오 충실도를 효과적으로 보존하면서도 긴 시퀀스 처리에 대한 계산 효율성을 크게 향상시킵니다. 따라서 VibeVoice는 최대 4명의 화자를 포함하여 최대 90분 길이의 장편 음성(64K 컨텍스트 윈도우 길이 기준)을 합성할 수 있으며, 실제 대화의 "분위기"를 포착하여 오픈소스 및 상용 대화 모델들을 능가합니다.

2

Spacer: 엔지니어링된 과학적 영감을 향하여
Spacer: Towards Engineered Scientific Inspiration

Aug 25
ByMinhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
18
1

최근 대형 언어 모델(LLM)의 발전으로 인해 자동화된 과학 연구는 인공 초지능으로 가는 길에서 다음 전선이 되었습니다. 그러나 이러한 시스템들은 좁은 범위의 작업이나 LLM의 제한된 창의적 능력에 묶여 있습니다. 우리는 외부 개입 없이 창의적이고 사실에 기반한 개념을 개발하는 과학적 발견 시스템인 Spacer를 제안합니다. Spacer는 '의도적인 탈문맥화'라는 접근 방식을 통해 이를 달성하려고 합니다. 이 접근 방식은 정보를 원자 단위인 키워드로 분해하고, 이들 간의 탐구되지 않은 연결에서 창의성을 도출합니다. Spacer는 (i) 키워드 세트를 구축하는 영감 엔진인 Nuri와 (ii) 이러한 세트를 정교한 과학적 진술로 다듬는 Manifesting Pipeline으로 구성됩니다. Nuri는 생물학 분야의 180,000편의 학술 논문으로 구축된 키워드 그래프에서 새롭고 잠재력이 높은 키워드 세트를 추출합니다. Manifesting Pipeline은 키워드 간의 연결을 찾고, 그들의 논리적 구조를 분석하며, 타당성을 검증하고, 궁극적으로 독창적인 과학적 개념을 초안으로 작성합니다. 우리의 실험에 따르면, Nuri의 평가 지표는 AUROC 점수 0.737로 고영향력 논문을 정확하게 분류합니다. 또한, Manifesting Pipeline은 최신 최상위 저널 논문의 핵심 개념을 키워드 세트만으로 성공적으로 재구성합니다. LLM 기반 채점 시스템은 이 재구성이 85% 이상의 경우에서 타당하다고 추정합니다. 마지막으로, 우리의 임베딩 공간 분석은 Spacer의 출력이 최첨단 LLM의 출력보다 선도적인 논문들과 훨씬 더 유사함을 보여줍니다.

3

CMPhysBench: 응집물질 물리학에서의 대형 언어 모델 평가를 위한 벤치마크
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Aug 25
ByWeida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
15
1

우리는 대형 언어 모델(LLMs)의 응집물리학 분야 숙련도를 평가하기 위해 CMPhysBench이라는 새로운 벤치마크를 소개합니다. CMPhysBench은 자성, 초전도성, 강상관계 시스템 등 응집물리학의 대표적인 하위 분야와 기초 이론 프레임워크를 포괄하는 520개 이상의 대학원 수준의 정교하게 선별된 문제들로 구성되어 있습니다. 문제 해결 과정에 대한 깊은 이해를 보장하기 위해, 우리는 계산 문제에만 초점을 맞추어 LLMs가 독립적으로 포괄적인 해결책을 생성하도록 요구합니다. 동시에, 표현식의 트리 기반 표현을 활용하여, 예측과 정답 간의 유사성을 더 정확하게 평가할 수 있는 세분화된(이진이 아닌) 부분 점수를 제공하는 확장 가능한 표현식 편집 거리(SEED) 점수를 도입했습니다. 우리의 결과에 따르면, 가장 우수한 모델인 Grok-4조차도 CMPhysBench에서 평균 SEED 점수 36점과 28%의 정확도를 기록하며, 특히 전통적인 물리학에 비해 이 실용적이고 첨단 분야에서 상당한 능력 격차가 있음을 보여줍니다. 코드와 데이터셋은 https://github.com/CMPhysBench/CMPhysBench에서 공개적으로 이용 가능합니다.

4

OmniHuman-1.5: 인지 시뮬레이션을 통해 아바타에 적극적인 사고 능력 부여
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Aug 26
ByJianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
11
1

기존의 비디오 아바타 모델은 유연한 인간 애니메이션을 생성할 수 있지만, 단순한 외형적 유사성을 넘어 캐릭터의 진정한 본질을 포착하는 데는 어려움을 겪습니다. 이들의 동작은 일반적으로 오디오 리듬과 같은 저수준의 신호와 동기화되어 있으며, 감정, 의도 또는 맥락에 대한 더 깊은 의미론적 이해가 부족합니다. 이러한 격차를 해소하기 위해, 우리는 물리적으로 타당할 뿐만 아니라 의미론적으로 일관되고 표현력 있는 캐릭터 애니메이션을 생성하도록 설계된 프레임워크를 제안합니다. 우리의 모델인 OmniHuman-1.5는 두 가지 핵심 기술적 기여를 기반으로 구축되었습니다. 첫째, 우리는 다중모달 대형 언어 모델(Multimodal Large Language Models)을 활용하여 고수준의 의미론적 지침을 제공하는 구조화된 텍스트 표현을 합성합니다. 이 지침은 단순한 리듬 동기화를 넘어 우리의 모션 생성기를 이끌어, 맥락적이고 감정적으로 공감되는 동작을 생성할 수 있게 합니다. 둘째, 이러한 다중모달 입력의 효과적인 융합을 보장하고 모달 간 충돌을 완화하기 위해, 새로운 Pseudo Last Frame 설계를 갖춘 전문화된 다중모달 DiT 아키텍처를 도입합니다. 이러한 구성 요소들의 시너지는 우리의 모델이 오디오, 이미지 및 텍스트의 공동 의미론을 정확하게 해석할 수 있게 하여, 캐릭터, 장면 및 언어적 내용과 깊이 일관된 모션을 생성합니다. 광범위한 실험을 통해 우리의 모델이 립싱크 정확도, 비디오 품질, 모션 자연스러움 및 텍스트 프롬프트와의 의미론적 일관성을 포함한 포괄적인 메트릭에서 선도적인 성능을 달성함을 입증했습니다. 또한, 우리의 접근 방식은 다인물 및 비인간 주체를 포함한 복잡한 시나리오에서도 놀라운 확장성을 보여줍니다. 홈페이지: https://omnihuman-lab.github.io/v1_5/

5

UltraMemV2: 우수한 장기 문맥 학습을 지원하며 1200억 파라미터로 확장 가능한 메모리 네트워크
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Aug 26
ByZihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
10
1

전문가 혼합(Mixture of Experts, MoE) 모델은 매개변수의 일부만 활성화함으로써 뛰어난 효율성을 달성하지만, 추론 과정에서 높은 메모리 접근 비용이 발생하는 문제가 있습니다. 메모리 계층 아키텍처는 매우 적은 메모리 접근으로 매력적인 대안을 제공하지만, UltraMem과 같은 이전 시도들은 2-전문가 MoE 모델의 성능에만 근접했으며, 최신 8-전문가 구성에 비해 크게 뒤떨어졌습니다. 우리는 이러한 성능 격차를 해소한 재설계된 메모리 계층 아키텍처인 UltraMemV2를 제시합니다. 우리의 접근 방식은 다섯 가지 주요 개선 사항을 도입합니다: 모든 트랜스포머 블록에 메모리 계층을 통합, 단일 선형 투영으로 값 확장을 단순화, PEER에서 채택한 FFN 기반 값 처리, 원칙적인 매개변수 초기화 구현, 그리고 메모리 대 FFN 계산 비율 재조정 등입니다. 광범위한 평가를 통해 UltraMemV2가 동일한 계산 및 매개변수 조건에서 8-전문가 MoE 모델과 성능을 동등하게 달성하지만, 메모리 접근은 상당히 낮음을 입증했습니다. 특히, UltraMemV2는 메모리 집약적인 작업에서 우수한 성능을 보이며, 장문 맥락 기억에서 +1.6점, 다중 라운드 기억에서 +6.2점, 컨텍스트 내 학습에서 +7.9점의 향상을 달성했습니다. 우리는 총 120B 매개변수 중 2.5B 활성 매개변수를 가진 모델로 대규모 검증을 수행했으며, 활성화 밀도가 전체 희소 매개변수 수보다 성능에 더 큰 영향을 미친다는 것을 확인했습니다. 우리의 연구는 메모리 계층 아키텍처를 최신 MoE 모델과 동등한 성능 수준으로 끌어올려, 효율적인 희소 계산을 위한 강력한 대안을 제시합니다.

6

VoxHammer: 네이티브 3D 공간에서의 학습 없이도 정밀하고 일관된 3D 편집
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Aug 26
ByLin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
7
1

게임 산업과 로봇 상호작용을 위해 특정 영역의 3D 로컬 편집은 매우 중요합니다. 최근의 방법들은 일반적으로 렌더링된 다중 뷰 이미지를 편집한 후 3D 모델을 재구성하지만, 편집되지 않은 영역을 정확하게 보존하고 전반적인 일관성을 유지하는 데 어려움을 겪습니다. 구조화된 3D 생성 모델에서 영감을 받아, 우리는 3D 잠재 공간에서 정확하고 일관된 편집을 수행하는 새로운 학습 없는 접근 방식인 VoxHammer를 제안합니다. 주어진 3D 모델에 대해 VoxHammer는 먼저 역전 궤적을 예측하고 각 시간 단계에서 역전된 잠재 변수와 키-값 토큰을 얻습니다. 이후, 노이즈 제거 및 편집 단계에서 보존된 영역의 노이즈 제거 특징을 해당 역전된 잠재 변수와 캐시된 키-값 토큰으로 대체합니다. 이러한 문맥적 특징을 유지함으로써, 이 접근 방식은 보존된 영역의 일관된 재구성과 편집된 부분의 일관된 통합을 보장합니다. 보존된 영역의 일관성을 평가하기 위해, 우리는 수백 개의 샘플로 구성된 인간 주석 데이터셋인 Edit3D-Bench를 구축했습니다. 각 샘플은 신중하게 라벨링된 3D 편집 영역을 포함하고 있습니다. 실험 결과, VoxHammer는 보존된 영역의 3D 일관성과 전반적인 품질 측면에서 기존 방법들을 크게 능가하는 것으로 나타났습니다. 우리의 방법은 고품질의 편집된 짝 데이터를 합성하여 문맥 내 3D 생성을 위한 데이터 기반을 마련할 수 있을 것으로 기대됩니다. 자세한 내용은 프로젝트 페이지(https://huanngzh.github.io/VoxHammer-Page/)를 참조하십시오.

7

TreePO: 휴리스틱 트리 기반 모델링을 통해 정책 최적화와 효율성 및 추론 효율성 간의 격차 해소
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Aug 24
ByYizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
6
1

최근 강화 학습을 통해 대규모 언어 모델을 정렬하는 기술의 발전은 복잡한 추론 문제 해결에서 놀라운 성과를 달성했지만, 비용이 많이 드는 온-정책 롤아웃과 다양한 추론 경로 탐색의 제한이라는 대가를 치러야 했습니다. 본 연구에서는 시퀀스 생성을 트리 구조 탐색 과정으로 보는 자체 주도형 롤아웃 알고리즘인 TreePO를 소개합니다. 동적 트리 샘플링 정책과 고정 길이 세그먼트 디코딩으로 구성된 TreePO는 지역적 불확실성을 활용하여 추가 분기를 보장합니다. 공통 접두어 간의 계산을 분할하고 낮은 가치의 경로를 조기에 제거함으로써, TreePO는 업데이트당 계산 부담을 크게 줄이면서도 탐색 다양성을 유지하거나 향상시킵니다. 주요 기여점은 다음과 같습니다: (1) 연속적인 세그먼트를 통해 KV 캐시 부담을 완화하고 조기 중단 메커니즘과 함께 새로운 분기를 생성하는 세그먼트 단위 샘플링 알고리즘, (2) 전역 및 지역 근접 정책 최적화를 모두 고려하는 트리 기반 세그먼트 수준 이점 추정, 그리고 (3) 확률 및 품질 기반 동적 발산 및 폴백 전략의 효과성 분석. 우리는 TreePO의 성능 향상을 일련의 추론 벤치마크에서 실증적으로 검증하고, 훈련된 모델의 샘플링 설계에서 GPU 시간을 22%에서 43%까지 절약하는 효율성을 보여주었으며, 기존 모델의 궤적 수준에서 최대 40%, 토큰 수준에서 최대 35%의 샘플링 계산 감소를 입증했습니다. TreePO는 추론 효율성의 무료 점심을 제공하면서도, 더 적은 샘플과 계산으로 RL 기반 사후 훈련을 확장하는 실용적인 길을 제시합니다. 홈페이지는 https://m-a-p.ai/TreePO에서 확인할 수 있습니다.

8

Pixie: 픽셀 데이터로부터 3D 물리학을 학습하는 빠르고 일반화 가능한 지도 학습
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Aug 20
ByLong Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
6
1

시각 정보로부터 3D 장면의 물리적 속성을 추론하는 것은 상호작용적이고 현실적인 가상 세계를 창조하기 위한 중요하면서도 도전적인 과제입니다. 인간은 탄성이나 강성과 같은 재질 특성을 직관적으로 파악하지만, 기존 방법들은 느린 장면별 최적화에 의존하는 경우가 많아 일반화성과 적용 범위가 제한적입니다. 이 문제를 해결하기 위해, 우리는 PIXIE라는 새로운 방법을 제안합니다. PIXIE는 지도 학습 손실만을 사용하여 3D 시각적 특징으로부터 여러 장면에 걸쳐 물리적 속성을 예측하는 일반화 가능한 신경망을 학습합니다. 한 번 학습된 우리의 순전파 네트워크는 그럴듯한 재질 필드를 빠르게 추론할 수 있으며, 이는 Gaussian Splatting과 같은 학습된 정적 장면 표현과 결합되어 외부 힘 하에서 현실적인 물리 시뮬레이션을 가능하게 합니다. 이 연구를 지원하기 위해, 우리는 또한 3D 자산과 물리적 재질 주석이 짝을 이루는 가장 큰 데이터셋 중 하나인 PIXIEVERSE를 수집했습니다. 광범위한 평가 결과, PIXIE는 테스트 시 최적화 방법들보다 약 1.46-4.39배 더 우수하며 수 차원 더 빠른 것으로 나타났습니다. CLIP과 같은 사전 학습된 시각적 특징을 활용함으로써, 우리의 방법은 합성 데이터만으로 학습되었음에도 불구하고 실제 세계 장면으로의 제로샷 일반화가 가능합니다. https://pixie-3d.github.io/

9

CineScale: 고해상도 시네마틱 비주얼 생성에서의 프리 런치
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Aug 21
ByHaonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
4
1

시각적 확산 모델은 놀라운 발전을 이루었으나, 고해상도 데이터의 부족과 제한된 계산 자원으로 인해 일반적으로 제한된 해상도로 훈련됩니다. 이는 더 높은 해상도에서 고품질의 이미지나 비디오를 생성하는 능력을 저해합니다. 최근 연구에서는 사전 훈련된 모델의 잠재적인 고해상도 시각적 생성 능력을 발휘하기 위해 튜닝이 필요 없는 전략을 탐구했습니다. 그러나 이러한 방법들은 여전히 반복적인 패턴을 가진 저품질의 시각적 콘텐츠를 생성하는 경향이 있습니다. 주요 장애물은 모델이 훈련 해상도를 초과하는 시각적 콘텐츠를 생성할 때 필연적으로 증가하는 고주파 정보로 인해, 누적된 오류로부터 발생하는 바람직하지 않은 반복 패턴이 발생한다는 점입니다. 본 연구에서는 더 높은 해상도의 시각적 생성을 가능하게 하는 새로운 추론 패러다임인 CineScale을 제안합니다. 두 가지 유형의 비디오 생성 아키텍처에서 발생하는 다양한 문제를 해결하기 위해, 각각에 맞춤화된 변형을 제안합니다. 기존의 베이스라인 방법들이 고해상도 T2I(Text-to-Image) 및 T2V(Text-to-Video) 생성에 국한된 반면, CineScale은 최첨단 오픈소스 비디오 생성 프레임워크를 기반으로 고해상도 I2V(Image-to-Video) 및 V2V(Video-to-Video) 합성을 가능하게 함으로써 범위를 확장합니다. 광범위한 실험을 통해 우리의 패러다임이 이미지 및 비디오 모델 모두에 대해 더 높은 해상도의 시각적 생성 능력을 확장하는 데 있어 우수성을 입증했습니다. 특히, 우리의 접근 방식은 어떠한 미세 조정 없이도 8K 이미지 생성을 가능하게 하며, 최소한의 LoRA 미세 조정만으로 4K 비디오 생성을 달성합니다. 생성된 비디오 샘플은 우리의 웹사이트에서 확인할 수 있습니다: https://eyeline-labs.github.io/CineScale/.

10

Wan-S2V: 오디오 기반 시네마틱 비디오 생성
Wan-S2V: Audio-Driven Cinematic Video Generation

Aug 26
ByXin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
2
1

현재 오디오 기반 캐릭터 애니메이션 분야의 최첨단(State-of-the-Art, SOTA) 기술들은 주로 말하기와 노래 부르기와 같은 시나리오에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 기술들은 복잡한 영화 및 TV 제작 환경에서 요구되는 세밀한 캐릭터 상호작용, 현실적인 신체 움직임, 역동적인 카메라 워크와 같은 정교한 요소들을 충족시키는 데는 아직 부족한 면이 있습니다. 이러한 영화 수준의 캐릭터 애니메이션을 달성하기 위한 오랜 과제를 해결하기 위해, 우리는 Wan을 기반으로 한 오디오 기반 모델인 Wan-S2V를 제안합니다. 우리의 모델은 기존 접근법들과 비교하여 영화적 맥락에서 훨씬 더 향상된 표현력과 정확도를 달성합니다. 우리는 Hunyuan-Avatar 및 Omnihuman과 같은 최첨단 모델들과의 벤치마킹을 통해 광범위한 실험을 수행했으며, 실험 결과는 우리의 접근 방식이 기존 솔루션들을 크게 능가함을 일관되게 입증합니다. 또한, 우리는 장편 비디오 생성과 정밀한 비디오 립싱크 편집을 통해 우리 방법의 다양성을 탐구합니다.

11

환각 완화를 위한 QueryBandits: 무후회 재작성을 위한 의미론적 특징 활용
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

Aug 22
ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
2
1

대형 언어 모델(LLMs)의 고급 추론 능력은 환각(hallucination) 발생률을 증가시켰으나, 대부분의 완화 작업은 이를 유발하는 질의를 조정하기보다는 사후 필터링에 초점을 맞추고 있습니다. 본 연구에서는 QueryBandits를 소개합니다. 이는 입력 질의의 17가지 언어적 특성에 대한 민감도를 기반으로 환각 발생 경향성을 포괄하는 보상 모델을 최대화하기 위해 재작성 전략을 설계하는 밴딧 프레임워크로, LLM이 환각을 생성하지 않도록 사전에 조정합니다. 13개의 다양한 QA 벤치마크와 데이터셋당 1,050개의 어휘적 변형 질의를 대상으로 한 실험에서, 최상의 문맥적 QueryBandit(Thompson Sampling)은 재작성 없이 수행한 기준선 대비 87.5%의 승률을 달성했으며, 제로샷 정적 프롬프팅("paraphrase" 또는 "expand")을 각각 42.6%와 60.3% 앞섰습니다. 이를 통해 QueryBandits가 질의 재작성 형태의 개입을 통해 환각을 완화하는 데 효과적임을 실증적으로 입증했습니다. 흥미롭게도, 현재 질의 재작성 문헌에서 상당 부분을 차지하는 특정 정적 프롬프팅 전략은 재작성 없이 수행한 기준선보다 누적 후회도(cumulative regret)가 더 높아, 정적 재작성이 환각을 악화시킬 수 있음을 시사합니다. 또한, 수렴된 개별 전략의 회귀 특성 가중치 벡터를 통해 모든 질의에 대해 단일 최적 재작성 전략이 존재하지 않음을 확인했습니다. 이러한 맥락에서, QueryBandits를 통해 의미론적 특성을 활용한 가이드 재작성은 재학습이나 그래디언트 기반 적응 없이도 순전파 메커니즘을 통해 출력 행동에 상당한 변화를 유도할 수 있습니다.

12

자기회귀적 범용 비디오 분할 모델
Autoregressive Universal Video Segmentation Model

Aug 26
ByMiran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
1
1

최근 SAM2와 같은 비디오 기반 모델들은 마스크를 범용 프리미티브로 취급하여 프롬프트 기반 비디오 세그멘테이션에서 뛰어난 성능을 보여주고 있습니다. 그러나 실제 세계의 많은 설정에서는 외부 단서 없이 비디오 내의 모든 객체를 감지하고 추적하는 비프롬프트 세그멘테이션이 필요하며, 이로 인해 현재의 상황은 작업별 모델과 파이프라인에 걸쳐 분열된 상태입니다. 우리는 스트리밍 비디오 세그멘테이션을 언어 모델링과 유사한 순차적 마스크 예측으로 재구성하고, 프롬프트 및 비프롬프트 비디오 세그멘테이션을 통합하는 단일 아키텍처인 Autoregressive Universal Segmentation Model (AUSM)을 소개합니다. 최신 상태-공간 모델을 기반으로 구축된 AUSM은 고정 크기의 공간 상태를 유지하며 임의 길이의 비디오 스트림에 확장 가능합니다. 또한, AUSM의 모든 구성 요소는 프레임 간 병렬 학습을 위해 설계되어 반복적 학습 대비 상당한 속도 향상을 제공합니다. 표준 벤치마크(DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, OVIS)에서 AUSM은 기존의 범용 스트리밍 비디오 세그멘테이션 방법들을 능가하며, 16프레임 시퀀스에서 최대 2.5배 빠른 학습 속도를 달성했습니다.

13

MovieCORE: 영화 속 인지적 추론
MovieCORE: COgnitive REasoning in Movies

Aug 26
ByGueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
1
1

본 논문은 영화 콘텐츠에 대한 더 깊은 인지적 이해를 탐구하기 위해 설계된 새로운 비디오 질의응답(VQA) 데이터셋인 MovieCORE를 소개합니다. 기존 데이터셋들이 표면적인 이해에 초점을 맞추는 것과 달리, MovieCORE는 비디오 자료에 특화된 상태에서 시스템-2 사고를 활성화하는 질문들을 강조합니다. 우리는 여러 대형 언어 모델(LLM)을 사고 에이전트로 활용하여 고품질의 질문-답변 쌍을 생성하고 개선하는 혁신적인 에이전트 기반 브레인스토밍 접근 방식을 제시합니다. 데이터셋의 품질을 평가하기 위해, 우리는 깊이, 사고 자극 잠재력, 구문적 복잡성을 평가하는 일련의 인지 테스트를 개발했습니다. 또한, 더 깊은 인지적 과제에서 VQA 모델의 성능을 평가하기 위한 포괄적인 평가 체계를 제안합니다. 기존 비디오-언어 모델(VLM)의 한계를 해결하기 위해, 우리는 에이전트 선택 강화(Agentic Choice Enhancement, ACE)라는 에이전트 기반 강화 모듈을 도입하여, 훈련 후 모델의 추론 능력을 최대 25%까지 향상시킵니다. 우리의 연구는 AI 시스템의 영화 이해를 진보시키는 데 기여하며, 영화 콘텐츠에 대한 더 도전적이고 미묘한 질문에 직면했을 때 현재 VQA 모델의 능력과 한계에 대한 귀중한 통찰을 제공합니다. 우리의 프로젝트 페이지, 데이터셋 및 코드는 https://joslefaure.github.io/assets/html/moviecore.html에서 확인할 수 있습니다.

14

ThinkDial: 대규모 언어 모델의 추론 노력 제어를 위한 오픈 레시피
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Aug 26
ByQianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
1
2

체인-오브-생각(chain-of-thought) 추론 능력을 갖춘 대규모 언어 모델(LLMs)은 놀라운 문제 해결 능력을 보여주었지만, 실제 배포를 위해선 이들의 계산 비용을 통제하는 것이 여전히 중요한 과제로 남아 있습니다. 최근 OpenAI의 gpt-oss 시리즈와 같은 독점 시스템은 직관적인 추론 제어를 위한 이산적 운영 모드를 도입했지만, 오픈소스 커뮤니티는 이러한 기능을 구현하는 데 크게 실패했습니다. 본 논문에서는 gpt-oss 스타일의 이산적 운영 모드를 통해 제어 가능한 추론을 성공적으로 구현한 최초의 오픈 레시피(end-to-end) 프레임워크인 ThinkDial을 소개합니다. 우리의 시스템은 세 가지 구별되는 추론 체계 간의 원활한 전환을 가능하게 합니다: 고(High) 모드(완전한 추론 능력), 중(Medium) 모드(50% 토큰 감소 및 <10% 성능 저하), 저(Low) 모드(75% 토큰 감소 및 <15% 성능 저하). 이를 위해 우리는 전체 파이프라인에 걸쳐 예산 모드 제어를 통합한 종단 간(end-to-end) 학습 패러다임을 도입했습니다: 제어 가능한 추론 능력을 학습 과정에 직접 내장한 예산 모드 지도 미세 조정(budget-mode supervised fine-tuning)과 적응형 보상 형성(adaptive reward shaping)을 통한 두 단계의 예산 인식 강화 학습(budget-aware reinforcement learning). 광범위한 실험을 통해 ThinkDial이 성능 임계값을 유지하면서 명확한 응답 길이 감소와 함께 목표 압축-성능 트레이드오프를 달성함을 입증했습니다. 또한 이 프레임워크는 분포 외(out-of-distribution) 작업에서도 강력한 일반화 능력을 보여줍니다.

15

CTF-Dojo를 활용하여 언어 모델 에이전트가 취약점을 찾도록 훈련하기
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Aug 25
ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
1
1

대규모 언어 모델(LLMs)은 실행 가능한 런타임 환경 내에서 훈련될 때 뛰어난 능력을 보여주며, 특히 검증된 피드백 루프를 통해 소프트웨어 엔지니어링 작업에서 탁월한 성과를 거두고 있습니다. 그러나 확장 가능하고 일반화 가능한 실행 기반 환경은 여전히 부족하여, 더 능력 있는 ML 에이전트를 훈련하는 데 있어 진전이 제한되고 있습니다. 우리는 검증 가능한 피드백을 통해 LLMs를 훈련하기 위해 특별히 설계된 첫 번째 대규모 실행 가능한 런타임인 CTF-Dojo를 소개합니다. 이 환경은 Docker에 컨테이너화된 658개의 완전히 기능적인 Capture-The-Flag(CTF) 스타일의 도전 과제를 포함하며, 재현성을 보장합니다. 수동 개입 없이 빠르게 확장할 수 있도록, 우리는 공개적으로 이용 가능한 아티팩트를 몇 분 안에 바로 사용할 수 있는 실행 환경으로 변환하는 자동화된 파이프라인인 CTF-Forge를 개발했습니다. 이를 통해 전통적으로 필요했던 전문가의 수주간의 설정 작업을 제거했습니다. 우리는 CTF-Dojo에서 단 486개의 고품질 실행 검증 궤적을 사용하여 LLM 기반 에이전트를 훈련시켰고, InterCode-CTF, NYU CTF Bench, Cybench 등 세 가지 경쟁력 있는 벤치마크에서 강력한 베이스라인 대비 최대 11.6%의 절대적 성능 향상을 달성했습니다. 우리의 최고 성능을 보인 32B 모델은 31.9%의 Pass@1을 달성하며, DeepSeek-V3-0324 및 Gemini-2.5-Flash와 같은 최첨단 모델에 필적하는 새로운 오픈 웨이트 최신 기술을 확립했습니다. CTF 스타일 작업을 실행 가능한 에이전트 학습을 위한 벤치마크로 설정함으로써, CTF-Dojo는 실행 기반 훈련 신호가 비용이 많이 드는 독점 시스템에 의존하지 않고도 고성능 ML 에이전트를 발전시키는 데 있어 효과적일 뿐만 아니라 필수적임을 입증합니다.

16

FastMesh: 컴포넌트 분리를 통한 효율적인 예술적 메시 생성
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Aug 26
ByJeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan
0
1

최근의 메시 생성 접근법은 일반적으로 삼각형 메시를 토큰 시퀀스로 토큰화하고, 이러한 토큰을 순차적으로 생성하기 위해 자기회귀 모델을 학습시킵니다. 상당한 진전이 있었음에도 불구하고, 이러한 토큰 시퀀스는 매니폴드 메시를 완전히 표현하기 위해 필연적으로 정점을 여러 번 재사용합니다. 이는 각 정점이 여러 면에 의해 공유되기 때문입니다. 이러한 중복성은 과도하게 긴 토큰 시퀀스와 비효율적인 생성 프로세스로 이어집니다. 본 논문에서는 정점과 면을 별도로 처리하여 중복성을 크게 줄이는 효율적인 프레임워크를 제안합니다. 우리는 정점 생성에만 자기회귀 모델을 사용하여, 가장 간결한 기존 토큰화 방법에 필요한 토큰 수의 약 23%로 토큰 수를 줄입니다. 다음으로, 양방향 트랜스포머를 활용하여 정점 간의 관계를 포착하고 메시 면을 정의하는 인접 행렬을 구성함으로써 메시를 한 단계로 완성합니다. 생성 품질을 더욱 향상시키기 위해, 우리는 정점 위치를 더 자연스러운 배열로 정제하는 충실도 향상기를 도입하고, 바람직하지 않은 에지 연결을 제거하기 위한 후처리 프레임워크를 제안합니다. 실험 결과는 우리의 방법이 최신 접근법에 비해 메시 생성 속도가 8배 이상 빠르면서도 더 높은 메시 품질을 달성함을 보여줍니다.

17

대규모 언어 모델의 인지 패턴을 모듈 커뮤니티를 통해 해석하기
Unraveling the cognitive patterns of Large Language Models through module communities

Aug 25
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
0
1

대형 언어 모델(LLMs)은 과학적 발견과 의료 진단부터 챗봇에 이르기까지 다양한 응용 분야를 통해 과학, 공학 및 사회에 있어 중대한 발전을 이루며 우리의 세계를 재구성했습니다. 그러나 그들의 보편성과 유용성에도 불구하고, LLM의 기본 메커니즘은 수십억 개의 매개변수와 복잡한 구조 속에 숨겨져 있어, 그 내부 아키텍처와 인지 과정을 이해하기가 어렵습니다. 우리는 이러한 격차를 해소하기 위해 생물학에서의 신흥 인지 현상을 이해하는 접근법을 채택하고, 인지 능력, LLM 아키텍처 및 데이터셋을 연결하는 네트워크 기반 프레임워크를 개발함으로써 기초 모델 분석에 있어 패러다임 전환을 이끌어냈습니다. 모듈 커뮤니티 내의 기술 분포는 LLM이 특정 생물학적 시스템에서 관찰되는 집중적 전문화와 엄격하게 평행하지는 않지만, 새와 작은 포유류의 뇌에서 볼 수 있는 분산적이면서도 상호 연결된 인지 조직을 부분적으로 반영하는 독특한 모듈 커뮤니티를 보여줍니다. 우리의 수치적 결과는 생물학적 시스템과 LLM 사이의 주요 차이점을 강조하며, 기술 습득이 동적이고 교차 지역적 상호작용 및 신경 가소성으로부터 상당한 이점을 얻는 것을 보여줍니다. 인지 과학 원칙을 기계 학습과 통합함으로써, 우리의 프레임워크는 LLM 해석 가능성에 대한 새로운 통찰을 제공하며, 효과적인 미세 조정 전략은 엄격한 모듈적 개입보다는 분산 학습 역학을 활용해야 함을 시사합니다.

Aug 26
Aug 27