HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

28 papers found

MiroThinker: 모델, 컨텍스트, 상호작용 확장을 통한 오픈소스 연구 에이전트의 성능 한계 확장
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

Nov 14

ByMiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu

156

MiroThinker v1.0을 소개합니다. 이는 도구 활용 추론 및 정보 탐색 능력을 발전시키기 위해 설계된 오픈소스 연구 에이전트입니다. 모델 크기나 컨텍스트 길이만 확장하는 기존 에이전트들과 달리, MiroThinker는 모델 수준의 상호작용 확장을 탐구하며, 성능 향상의 세 번째 차원으로서 더 깊고 빈번한 에이전트-환경 상호작용을 처리하도록 모델을 체계적으로 학습합니다. 독립적으로 운영되고 긴 추론 체인에서 성능 저하 위험이 있는 LLM 테스트 타임 확장과 달리, 상호작용 확장은 환경 피드백과 외부 정보 획득을 활용하여 오류를 수정하고 경로를 개선합니다. 강화 학습을 통해 모델은 효율적인 상호작용 확장을 달성합니다: 256K 컨텍스트 윈도우를 기준으로 태스크당 최대 600회의 도구 호출을 수행할 수 있어, 지속적인 다중 턴 추론과 복잡한 실제 연구 워크플로우를 가능하게 합니다. 4가지 대표 벤치마크(GAIA, HLE, BrowseComp, BrowseComp-ZH)에서 72B 변형은 각각 최대 81.9%, 37.7%, 47.1%, 55.6%의 정확도를 달성하여 기존 오픈소스 에이전트들을 능가하고 GPT-5-high와 같은 상용 대응제에 근접한 성능을 보입니다. 우리의 분석에 따르면, MiroThinker는 상호작용 확장으로부터 일관되게 이점을 얻습니다: 모델이 더 깊고 빈번한 에이전트-환경 상호작용을 수행함에 따라 연구 성능이 예측 가능하게 향상되며, 이는 상호작용 깊이가 모델 크기 및 컨텍스트 길이와 유사한 확장 법칙을 보임을 입증합니다. 이러한 발견들은 모델 용량과 컨텍스트 윈도우를 보완하는, 차세대 오픈 연구 에이전트 구축을 위한 세 번째 중요한 차원으로서 상호작용 확장의 중요성을 확립합니다.

수퍼-모델: 단순 산술이 최첨단 LLM 성능을 여는 방법
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Nov 17

ByShalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach

131

대규모 언어 모델(LLM)은 다양한 영역에서 뛰어난 능력을 보여주고 있지만, 여전히 훈련에는 방대한 컴퓨팅 자원과 시간이 소요되며 훈련 절차의 세심한 조정이 필요합니다. 동일 아키텍처를 가진 여러 모델의 가중치를 평균화하는 모델 수프(Model Souping) 기법은 비용이 많이 드는 재훈련 없이 성능을 향상시킬 수 있는 유망한 훈련 전·후 기법으로 부상했습니다. 본 논문에서는 벤치마크 구성을 활용하여 최적의 모델 후보를 식별하고, 성능을 극대화하기 위해 비균등 가중 평균을 적용하는 원리 기반 모델 수프 접근법인 SoCE(Soup Of Category Experts)를 소개합니다. 기존의 균등 가중 평균 접근법과 달리, 본 방법론은 벤치마크 범주별 모델 성능 간의 상관관계가 낮은 현상을 활용합니다. SoCE는 약한 상관관계를 보이는 범주별 군집에 대해 해당 분야의 "전문가" 모델을 식별하고 균등 가중치가 아닌 최적화된 가중 평균을 통해 이들을 결합합니다. 우리는 제안된 방법이 다국어 능력, 도구 호출, 수학 문제 해결 등 다중 영역에서 성능과 강건성을 향상시키며, Berkeley Function Calling Leaderboard에서 최첨단 성과를 달성함을 입증합니다.

P1: 강화 학습을 활용한 물리 올림피아드 마스터하기
P1: Mastering Physics Olympiads with Reinforcement Learning

Nov 17

ByJiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui

106

대형 언어 모델(LLMs)의 최근 발전은 퍼즐 해결에서 과학적 수준의 추론으로의 전선을 이동시켰는데, 이는 답이 단순히 채점 기준에 부합하는 것이 아니라 자연에 맞서야 하는 문제를 해결하는 데 필요한 종류의 추론이다. 물리학은 이러한 전환을 가장 날카롭게 시험하는 분야로, 기호를 현실에 근본적으로 연결하며 대부분의 현대 기술의 초석 역할을 한다. 본 연구에서는 특히 올림피아드 수준의 물리학 문제 해결에 탁월한 물리학 추론 능력을 갖춘 대형 언어 모델을 개발하여 물리학 연구를 진전시키고자 한다. 우리는 강화 학습(RL)을 통해 전적으로 훈련된 오픈소스 물리학 추론 모델 패밀리인 P1을 소개한다. 이 중 P1-235B-A22B는 최신 국제 물리학 올림피아드(IPhO 2025)에서 금메달 성적을 거둔 첫 번째 오픈소스 모델이며, 2024/2025년에 열린 13개의 국제/지역 물리학 대회 중 12개의 금메달을 획득했다. P1-30B-A3B 또한 IPhO 2025에서 거의 모든 다른 오픈소스 모델을 능가하며 은메달을 획득했다. 에이전트 프레임워크인 PhysicsMinions를 추가로 장착한 P1-235B-A22B+PhysicsMinions는 IPhO 2025에서 종합 1위를 차지했으며, 13개의 물리학 대회에서 최고 평균 점수를 기록했다. 물리학 외에도 P1 모델들은 수학 및 코딩과 같은 다른 추론 과제에서도 뛰어난 성능을 보여주며, P1 시리즈의 뛰어난 일반화 능력을 입증한다.

Uni-MoE-2.0-Omni: 고급 MoE, 훈련 및 데이터를 통한 언어 중심의 범모달 대규모 모델 확장
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Nov 16

ByYunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang

101

라이치(Lychee) 패밀리의 Uni-MoE 2.0을 소개합니다. 완전 오픈소스인 범모달 대규모 모델(OLM)로서, 언어 중심의 멀티모달 이해, 추론 및 생성 능력에서 라이치 Uni-MoE 시리즈를 크게 발전시켰습니다. Qwen2.5-7B 조밀 아키텍처를 기반으로 세 가지 핵심 기여를 통해 Uni-MoE-2.0-Omni를 처음부터 구축했습니다: 동적 용량 전문가 혼합(MoE) 설계, 반복적 강화 전략으로 강화된 점진적 학습 전략, 그리고 신중하게 구성된 멀티모달 데이터 매칭 기법입니다. 이 모델은 범모달 이해는 물론 이미지, 텍스트, 음성 생성을 수행할 수 있습니다. 아키텍처 측면에서, 우리의 새로운 MoE 프레임워크는 공유 전문가, 라우팅 전문가, 널 전문가를 활용하여 10가지 교차 모달 입력에 대한 계산 효율성과 성능을 균형 있게 조정하며, Omni-Modality 3D RoPE는 자기 주의 계층에서 시공간적 교차 모달 정렬을 보장합니다. 학습 측면에서는 교차 모달 사전 학습 후, 균형 잡힌 데이터 구성과 반복적 GSPO-DPO 방법으로 강화되어 RL 학습을 안정화하고 추론 능력을 향상시키는, 모달리티 특화 전문가를 활성화하는 점진적 지도 미세 조정 전략을 사용합니다. 데이터 측면에서, 약 750억 토큰의 오픈소스 멀티모달 데이터로 학습된 기본 모델은 특수 음성 및 이미지 생성 토큰을 갖추어 언어적 단서를 바탕으로 출력을 조절하며 이러한 생성 과제를 학습할 수 있습니다. 85개 벤치마크에 걸친 광범위한 평가 결과, 우리 모델은 선도적인 OLM 대비 SOTA 또는 매우 경쟁력 있는 성능을 달성하며, 76개 벤치마크 중 50개 이상에서 Qwen2.5-Omni(1.2T 토큰으로 학습)를 능가하는 것으로 나타났습니다. 주요 강점은 비디오 이해(8개 기준 평균 +7%), 범모달 이해(4개 기준 평균 +7%), 시청각 추론(평균 +4%)을 포함합니다. 또한 장형 음성 처리(WER 4.2% 감소)를 발전시켰고, 5가지 메트릭에 걸친 저수준 이미지 처리 및 제어 가능한 생성 분야에서도 선두를 달리고 있습니다.

MMaDA-Parallel: 사고 인식 편집 및 생성을 위한 멀티모달 대규모 확산 언어 모델
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Nov 12

ByYe Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li

사고 인식 생성이 복잡한 작업의 성능 향상을 목표로 하지만, 우리는 기존의 순차적 자동회귀 접근법이 오류 전파로 인해 오히려 성능을 저하시키는 역설적인 실패 모드를 확인했습니다. 이 문제를 체계적으로 분석하기 위해 텍스트와 이미지 출력 양식을 모두 평가하도록 설계된 새로운 벤치마크인 ParaBench을 제안합니다. ParaBench을 활용한 분석 결과, 이러한 성능 저하가 생성된 추론 과정과 최종 이미지 간의 낮은 정렬도와 강한 상관관계가 있음을 밝혀냈습니다. 이를 해결하기 위해 우리는 전체 노이즈 제거 궤적에 걸쳐 텍스트와 이미지 간의 지속적이고 양방향적인 상호작용을 가능하게 하는 병렬 멀티모달 확산 프레임워크인 MMaDA-Parallel을 제안합니다. MMaDA-Parallel은 지도 미세 조정으로 학습된 후, 궤적을 따라 의미론적 보상을 적용하여 교차 모달 일관성을 강화하는 새로운 전략인 병렬 강화 학습(ParaRL)을 통해 추가로 최적화됩니다. 실험을 통해 우리 모델이 교차 모달 정렬도와 의미론적 일관성을 크게 개선하며, 최첨단 모델인 Bagel 대비 ParaBench에서 출력 정렬도 기준 6.9% 향상을 달성하여 더욱 견고한 사고 인식 이미지 합성 패러다임을 정립함을 입증했습니다. 우리의 코드는 https://github.com/tyfeld/MMaDA-Parallel에서 공개되었습니다.

Part-X-MLLM: 부품 인식 3D 멀티모달 대규모 언어 모델
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Nov 17

ByChunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo

우리는 다양한 3D 작업을 구조화된 실행 가능한 문법 내 프로그램으로 공식화하여 통합하는 네이티브 3D 멀티모달 대규모 언어 모델인 Part-X-MLLM을 소개합니다. RGB 포인트 클라우드와 자연어 프롬프트가 주어지면, 우리 모델은 파트 수준 바운딩 박스, 의미론적 설명, 편집 명령을 인코딩하는 단일且 일관된 토큰 시퀀스를 자동회귀적으로 생성합니다. 이 구조화된 출력은 파트 기반 생성 및 편집을 위한 지오메트리 인식 다운스트림 모듈을 구동하는 다목적 인터페이스 역할을 합니다. 기호적 계획과 기하학적 합성을 분리함으로써, 우리의 접근 방식은 단일한 언어 네이티브 프론트엔드를 통해 호환 가능한 모든 지오메트리 엔진을 제어할 수 있게 합니다. 우리는 구조와 의미론을 분리하기 위해 듀얼 인코더 아키텍처를 사전 학습하고 대규모 파트 중심 데이터셋으로 모델을 지시 튜닝합니다. 실험 결과, 우리 모델이 고품질의 구조화된 계획 생산에 탁월하여 통합된 단일 인터페이스를 통해 근거 기반 질의응답, 구성적 생성, 지역화된 편집 분야에서 최첨단 성능을 가능하게 함을 입증합니다. 프로젝트 페이지: https://chunshi.wang/Part-X-MLLM/

기본으로 돌아가자: 노이즈 제거 생성 모델이 노이즈를 제거하게 하라
Back to Basics: Let Denoising Generative Models Denoise

Nov 17

ByTianhong Li, Kaiming He

오늘날의 디노이징 디퓨전 모델은 고전적인 의미의 '노이즈 제거'를 수행하지 않으며, 즉 깨끗한 이미지를 직접 예측하지 않습니다. 오히려 신경망은 노이즈 또는 노이즈가 첨가된 양을 예측합니다. 본 논문에서는 깨끗한 데이터를 예측하는 것과 노이즈가 첨가된 양을 예측하는 것이 근본적으로 다르다는 점을 제안합니다. 매니폴드 가정에 따르면 자연 데이터는 저차원 매니폴드 상에 존재해야 하는 반면, 노이즈가 첨가된 양은 그렇지 않습니다. 이 가정을 바탕으로 우리는 깨끗한 데이터를 직접 예측하는 모델을 주장하며, 이를 통해 명백히 낮은 용량의 네트워크가 매우 고차원 공간에서 효과적으로 작동할 수 있게 합니다. 우리는 픽셀 기반의 단순한 대형 패치 트랜스포머가 강력한 생성 모델이 될 수 있음을 보여줍니다: 토크나이저 없이, 사전 훈련 없이, 추가 손실 없이도 가능합니다. 우리의 접근 방식은 개념적으로 "그냥 이미지 트랜스포머(Just image Transformers)", 즉 약어로 JiT에 불과합니다. 우리는 ImageNet에서 256 및 512 해상도로 16과 32의 큰 패치 크기를 사용한 JiT의 경쟁력 있는 결과를 보고하며, 고차원 노이즈 양을 예측하는 것이 치명적으로 실패할 수 있는 상황에서도 좋은 성능을 보입니다. 우리의 네트워크가 매니폴드의 기본 원리로 회귀함에 따라, 우리의 연구는 기본으로 돌아가 원시 자연 데이터 기반의 트랜스포머 디퓨전을 위한 자체 포함 패러다임을 추구합니다.

GroupRank: 강화 학습 기반 그룹 단위 재순위 지정 패러다임
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Nov 10

ByDuolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu

대규모 언어 모델은 RAG 시스템의 전반적인 성능을 향상시키는 리랭커로서 강력한 잠재력을 보여주고 있습니다. 그러나 기존의 재순위화 패러다임은 핵심적인 이론적, 실질적 딜레마에 제약을 받고 있습니다. 포인트와이즈 방식은 단순하고 유연성이 높지만 문서를 독립적으로 평가하여 '순위 근시함 함정'에 빠지기 쉬워 문서 간 상대적 중요성을 간과합니다. 반면, 리스트와이즈 방식은 전역적 순위 맥락을 인식할 수 있지만 고유한 '리스트 경직성' 문제로 인해 대규모 후보 문서 집합을 처리할 때 확장성과 유연성에 심각한 문제가 발생합니다. 이러한 문제를 해결하기 위해 우리는 새로운 재순위화 패러다임인 그룹와이즈를 제안합니다. 이 접근법에서는 질의와 문서 그룹을 모델에 함께 입력하여 그룹 내 비교를 수행함으로써 각 문서에 개별 관련성 점수를 부여합니다. 이 설계는 포인트와이즈 방식의 유연성을 유지하면서 리스트와이즈 방식의 비교 능력을 가능하게 합니다. 또한 순위 측정지표와 그룹 간 점수 분포 정렬을 목표로 하는 분포 보상을 통합한 이종 보상 함수를 갖춘 GRPO를 모델 학습에 적용합니다. 고품질 레이블 데이터 부족으로 인한 병목 현상을 극복하기 위해, 우리는 고품질 검색 및 순위 데이터를 합성하는 혁신적인 파이프라인을 추가로 제안합니다. 결과적으로 생성된 데이터는 리랭커 학습뿐만 아니라 리트리버 학습에도 활용될 수 있습니다. 광범위한 실험을 통해 우리 접근법의 효과성을 입증하였으며, 두 가지 추론 집중형 검색 벤치마크인 BRIGHT와 R2MED에서 그 성능을 검증했습니다.

PhysX-Anything: 단일 이미지로부터 시뮬레이션 준비가 완료된 물리 기반 3D 에셋 생성
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

Nov 17

ByZiang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu

3D 모델링은 정적인 시각적 표현에서 시뮬레이션 및 상호작용에 직접 사용 가능한 물리적 관절 구조 자산으로 전환되고 있습니다. 그러나 대부분의 기존 3D 생성 방법은 핵심 물리 및 관절 특성을 간과하여 구현형 AI에서의 유용성이 제한됩니다. 이러한 격차를 해소하기 위해 우리는 단일 실제 환경 이미지를 입력으로 받아 명시적 기하학, 관절 구조, 물리적 속성을 갖춘 고품질의 시뮬레이션 준비 3D 자산을 생성하는 최초의 시뮬레이션 준비 물리 3D 생성 프레임워크인 PhysX-Anything을 소개합니다. 구체적으로, 우리는 최초의 VLM 기반 물리 3D 생성 모델과 기하학을 효율적으로 토큰화하는 새로운 3D 표현 방식을 제안합니다. 이는 토큰 수를 193배 줄여 파인튜닝 과정에서 특수 토큰을 도입하지 않고도 표준 VLM 토큰 예산 내에서 명시적 기하학 학습을 가능하게 하며 생성 품질을 크게 향상시킵니다. 추가적으로, 기존 물리 3D 데이터셋의 제한된 다양성을 극복하기 위해 우리는 새로운 데이터셋인 PhysX-Mobility를 구축했습니다. 이는 기존 물리 3D 데이터셋의 객체 범주를 2배 이상 확장하고 풍부한 물리 주석이 포함된 2,000개 이상의 일반적인 실세계 객체를 포함합니다. PhysX-Mobility 및 실제 환경 이미지에 대한 광범위한 실험을 통해 PhysX-Anything이 강력한 생성 성능과 견고한 일반화 능력을 제공함을 입증했습니다. 더 나아가, MuJoCo 스타일 환경에서의 시뮬레이션 기반 실험을 통해 우리의 시뮬레이션 준비 자산이 접촉이 풍부한 로봇 정책 학습에 직접 사용될 수 있음을 검증했습니다. 우리는 PhysX-Anything이 구현형 AI 및 물리 기반 시뮬레이션을 비롯한 광범위한 다운스트림 애플리케이션에 상당한 역량을 부여할 수 있을 것으로 믿습니다.

TiViBench: 비디오 생성 모델의 영상 내 사고 추론 벤치마크
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Nov 17

ByHarold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen

비디오 생성 모델의 급속한 진화는 시각적으로 그럴듯한 결과물 생산에서 물리적 타당성과 논리적 일관성을 요구하는 과제 해결로 초점을 이동시켰습니다. 그러나 Veo 3의 프레임 연쇄 추론과 같은 최근의 돌파구에도 불구하고, 이러한 모델이 대규모 언어 모델(LLM)과 유사한 추론 능력을 보일 수 있는지는 여전히 불분명합니다. 기존 벤치마크는 주로 시각적 정확도와 시간적 일관성을 평가하여 고차원적인 추론 능력을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 이미지-투-비디오(I2V) 생성 모델의 추론 능력을 평가하기 위해 특별히 설계된 계층적 벤치마크인 TiViBench를 제안합니다. TiViBench는 i) 구조적 추론 및 탐색, ii) 공간적 및 시각적 패턴 추론, iii) 상징적 및 논리적 추론, iv) 행동 계획 및 과제 실행이라는 네 가지 차원에 걸쳐 추론을 체계적으로 평가하며, 3가지 난이도에 분포된 24가지 다양한 과제 시나리오를 포함합니다. 광범위한 평가를 통해 상용 모델(예: Sora 2, Veo 3.1)이 더 강력한 추론 잠재력을 보여주는 반면, 오픈소스 모델은 제한된 훈련 규모와 데이터 다양성으로 인해 여전히 억제된 미개발 잠재력을 보여줌을 확인했습니다. 이러한 잠재력을 더욱 개방하기 위해, 우리는 선호도 최적화에서 영감을 받은 간단하면서 효과적인 테스트 타임 전략인 VideoTPO를 도입합니다. VideoTPO는 생성된 후보들에 대해 LLM 자기 분석을 수행하여 강점과 약점을 식별함으로써, 추가적인 훈련, 데이터 또는 보상 모델 없이도 추론 성능을 크게 향상시킵니다. TiViBench와 VideoTPO는 함께 비디오 생성 모델의 추론 능력을 평가하고 발전시키는 길을 열며, 이 신흥 분야의 미래 연구를 위한 기반을 마련합니다.

방법을 진화시키되 프롬프트는 진화시키지 말라: LLM에 대한 재닉스 공격의 진화적 합성
Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Nov 16

ByYunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma

대규모 언어 모델(LLM)을 위한 자동화된 레드 팀링 프레임워크는 점점 더 정교해지고 있지만, 근본적인 한계를 공유합니다. 바로 재택 브레이크 로직이 기존 공격 전략을 선택, 결합 또는 개선하는 데 국한된다는 점입니다. 이는 창의성을 제한하고 완전히 새로운 공격 메커니즘을 자율적으로 발명할 수 없게 만듭니다. 이러한 격차를 극복하기 위해 우리는 패러다임을 공격 계획에서 재택 브레이크 방법의 진화적 합성으로 전환하는 자율 프레임워크인 EvoSynth를 소개합니다. EvoSynth는 프롬프트를 개선하는 대신, 다중 에이전트 시스템을 활용하여 코드 기반의 새로운 공격 알고리즘을 자율적으로 설계, 진화 및 실행합니다. 중요한 것은 코드 수준의 자체 수정 루프를 갖추고 있어 실패에 대응하여 자체 공격 로직을 반복적으로 재작성할 수 있습니다. 광범위한 실험을 통해 우리는 EvoSynth가 Claude-Sonnet-4.5와 같이 매우 강력한 모델에 대해 85.5%의 공격 성공률(ASR)을 달성하여 새로운 최첨단 기술을 구축할 뿐만 아니라, 기존 방법보다 훨씬 더 다양하고 독창적인 공격을 생성한다는 것을 입증했습니다. 재택 브레이크 방법의 진화적 합성이라는 새로운 연구 방향을 촉진하기 위해 우리는 이 프레임워크를 공개합니다. 코드는 https://github.com/dongdongunique/EvoSynth에서 확인할 수 있습니다.

UFO^3: 디지털 에이전트 갤럭시를 엮다
UFO^3: Weaving the Digital Agent Galaxy

Nov 14

ByChaoyun Zhang, Liqun Li, He Huang, Chiming Ni, Bo Qiao, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

대규모 언어 모델(LLM) 기반 에이전트는 디지털 기기를 수동적인 도구에서 능동적인 지능형 협업자로 변모시키고 있습니다. 그러나 기존 대부분의 프레임워크는 단일 OS나 기기에 한정되어 있어, 크로스 디바이스 워크플로우는 취약하고 대부분 수동적으로 운영됩니다. 본 논문은 이기종 엔드포인트(데스크톱, 서버, 모바일 기기, 엣지)를 단일 오케스트레이션 패브릭으로 통합하는 UFO^3 시스템을 제안합니다. UFO^3는 각 사용자 요청을 변경 가능한 TaskConstellation으로 모델링합니다. TaskConstellation은 명시적인 제어 및 데이터 종속성(TaskStarLines)을 가진 원자적 하위 작업(TaskStars)의 분산 DAG(방향성 비순환 그래프)로, 분산 기기로부터 결과가 스트리밍되어 오면서 지속적으로 진화하여 비동기 실행, 적응형 복구, 동적 최적화를 가능하게 합니다. Constellation Orchestrator는 동적 DAG 업데이트를 적용하며 작업을 안전하고 비동기적으로 실행하고, Agent Interaction Protocol(AIP)은 안정적인 작업 디스패치와 결과 스트리밍을 위한 지속적이고 저지연 통신 채널을 제공합니다. 이러한 설계는 기기와 플랫폼 간의 전통적인 경계를 해체하여 에이전트가 원활하게 협업하고 집단 지성을 증폭할 수 있도록 합니다. UFO^3를 5대의 기기와 10개 범주에 걸친 55개의 크로스 디바이스 작업으로 구성된 NebulaBench 벤치마크를 통해 평가했습니다. UFO^3는 83.3%의 하위 작업 완료율, 70.9%의 작업 성공률을 달성했으며, 평균 폭 1.72의 병렬성을 보여주었고, 순차적 기준 대비 종단 간 지연 시간을 31% 단축했습니다. 고장 주입 실험을 통해 일시적 및 영구적 에이전트 장애 상황에서도 우아한 성능 저하와 복구가 가능함을 입증했습니다. 이러한 결과는 UFO^3가 이기종 기기 간에 정확하고 효율적이며 복원력 있는 작업 오케스트레이션을 달성하여, 분리된 에이전트들을 유비쿼터스 컴퓨팅 환경 전반에 걸친 일관적이고 적응형 컴퓨팅 패브릭으로 통합함을 보여줍니다.

NORA-1.5: 월드 모델 및 행동 기반 선호도 보상을 활용해 훈련된 비전-언어-행동 모델
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

Nov 18

ByChia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria

비전-언어-행동(VLA) 모델은 최근 다양한 구체화 작업에서 유망한 성능을 보여주고 있지만, 특히 서로 다른 구현체나 실제 환경에 배포될 경우 신뢰성과 일반화 능력에서 여전히 부족함을 보입니다. 본 연구에서는 사전 훈련된 NORA 백본에 흐름 정합 기반 행동 전문가를 추가하여 VLA 모델인 NORA-1.5를 소개합니다. 이러한 구조적 개선만으로도 상당한 성능 향상을 이루어, NORA-1.5가 시뮬레이션 및 실제 벤치마크에서 NORA와 여러 최첨단 VLA 모델들을 능가할 수 있게 되었습니다. 강건성과 작업 성공률을 더욱 향상시키기 위해 VLA 정책 사후 훈련을 위한 일련의 보상 모델을 개발했습니다. 우리의 보상은 (i) 생성된 행동이 원하는 목표로 이어지는지 평가하는 행동 조건부 세계 모델과 (ii) 양호한 행동과 그렇지 않은 행동을 구분하는 지상 진실 기준 편차 휴리스틱을 결합합니다. 이러한 보상 신호를 사용하여 선호도 데이터셋을 구성하고 직접 선호 최적화를 통해 NORA-1.5를 목표 구현체에 맞게 적응시킵니다. 광범위한 평가를 통해 보상 주도 사후 훈련이 시뮬레이션과 실제 로봇 환경 모두에서 지속적으로 성능을 향상시키며, 간단하면서도 효과적인 보상 모델을 통해 VLA 모델의 신뢰성이 크게 개선됨을 입증합니다. 우리의 연구 결과는 NORA-1.5와 보상 가이드 사후 훈련이 실제 배포에 적합한 더욱 신뢰할 수 있는 구체화 에이전트로 나아가는 실현 가능한 경로임을 보여줍니다.

UnSAMv2: 자기 지도 학습을 통한 임의의 세분화 수준에서의 모든 것 분할 가능
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

Nov 17

ByJunwei Yu, Trevor Darrell, XuDong Wang

Segment Anything Model(SAM) 계열은 널리 채택된 비전 파운데이션 모델이 되었지만, 분할 세분화 정도를 제어하는 능력은 여전히 제한적입니다. 사용자는 원하는 수준의 세부 사항을 달성하기 위해 더 많은 프롬프트를 추가하거나 사전 생성된 마스크 중에서 선택하는 등 수동으로 결과를 다듬어야 하는 경우가 많습니다. 동일한 프롬프트가 여러 개의 타당한 마스크에 대응될 수 있고, 모든 세분화 수준에 걸쳐 조밀한 주석을 수집하는 것은 비용이 너무 많이 들어 지도 학습 기반 솔루션을 실현하기 어렵기 때문에 이 과정은 모호할 수 있습니다. 이러한 한계를 해결하기 위해 우리는 인간 주석 없이도 어떤 세분화 수준에서나 분할을 가능하게 하는 UnSAMv2를 소개합니다. UnSAMv2는 UnSAM의 분할 정복 전략을 확장하여 풍부한 마스크-세분화 쌍을 발견하고, 분할 규모를 정밀하고 연속적으로 제어할 수 있는 새로운 세분화 제어 임베딩을 도입합니다. 주목할 점은, 단 6K개의 비라벨 이미지와 0.02%의 추가 파라미터만으로 UnSAMv2는 SAM-2를 크게 향상시켜 상호작용 분할, 전체 이미지 분할, 비디오 분할 작업 전반에 걸쳐 어떤 세분화 수준에서도 분할을 가능하게 합니다. 11개 이상의 벤치마크에서 평가한 결과, UnSAMv2는 NoC_{90}(5.69 → 4.75), 1-IoU(58.0 → 73.1), AR_{1000}(49.6 → 68.3) 지표를 개선하여 소량의 비라벨 데이터와 세분화 인식 자기 지도 학습 방법이 비전 파운데이션 모델의 잠재력을 끌어낼 수 있음을 보여줍니다.

WebCoach: 교차 세션 메모리 지도를 통한 자가 진화 웹 에이전트
WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Nov 17

ByGenglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu

최근 멀티모달 LLM 기반 에이전트는 웹 탐색 분야에서 인상적인 성능을 보여주며, 다양한 도메인에서 복잡한 브라우징 작업을 완수할 수 있게 되었습니다. 그러나 현재의 에이전트는 반복적인 오류에 취약하며 세션 간 과거 경험으로부터 학습하는 능력이 부족해 장기적 견고성과 샘플 효율성이 제한됩니다. 본 연구에서는 WebCoach를 소개합니다. 이는 모델에 구애받지 않는 자가 진화 프레임워크로, 지속적인 세션 간 메모리를 통해 웹 브라우징 에이전트의 장기 계획 성능, 성찰 능력, 재학습 없이의 지속적 학습 능력을 향상시킵니다. WebCoach는 세 가지 핵심 구성 요소로 이루어집니다: (1) 원시 탐색 로그를 간결한 요약으로 표준화하는 WebCondenser, (2) 완전한 탐색 궤적을 에피소드 경험으로 체계화하는 외부 메모리 저장소, (3) 유사성과 최신성을 기준으로 관련 경험을 검색하며 런타임 후크를 통해 에이전트에 작업별 조언을 주입할지 결정하는 Coach입니다. 이 설계는 웹 에이전트가 기본 컨텍스트 창을 넘어 장기 메모리에 접근할 수 있게 하여 복잡한 브라우징 작업에서의 견고성을 높입니다. 더불어 WebCoach는 새로운 탐색 궤적에서 지속적으로 에피소드 메모리를 구축함으로써 자가 진화를 이루어 내어 에이전트가 재학습 없이 시간이 지남에 따라 성능을 개선할 수 있도록 합니다. WebVoyager 벤치마크에서의 평가 결과, WebCoach가 세 가지 서로 다른 LLM 백본을 사용하는 브라우저 활용 에이전트의 성능을 지속적으로 향상시킴을 확인했습니다. 38B 모델 기준으로 작업 성공률을 47%에서 61%로 높이면서 평균 단계 수를 유지하거나 줄였습니다. 특히 주목할 만한 점은 WebCoach를 적용한 더 작은 기본 모델이 GPT-4o를 사용하는 동일 웹 에이전트와 비슷한 성능을 달성했다는 것입니다.

올모어스: 다중 모달 지구 관측을 위한 안정적 잠재 이미지 모델링
OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

Nov 17

ByHenry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema

지구 관측 데이터는 이미지처럼 공간적이고, 동영상이나 텍스트처럼 순차적이며, 매우 다중 모달적인 독특한 과제를 제시합니다. 본 논문에서는 지구 관측 영역에 맞게 새롭게 설계된 자기 지도 학습 방식, 마스킹 전략, 손실 함수를 활용하는 다중 모달 시공간 파운데이션 모델인 OlmoEarth를 소개합니다. OlmoEarth는 다양한 연구 벤치마크와 외부 파트너의 실제 과제에서 다른 12개의 파운데이션 모델 대비 최첨단 성능을 달성했습니다. 임베딩 평가에서 OlmoEarth는 24개 과제 중 15개에서 최고 성능을 보였으며, 전체 미세 조정 시에는 29개 과제 중 19개에서 최고 성능을 기록했습니다. 우리는 OlmoEarth를 지구 관측 모델의 데이터 수집, 라벨링, 학습, 추론을 위한 종단간 플랫폼의 백본으로 배포합니다. OlmoEarth 플랫폼은 세계적인 난제 해결에 임하는 비영리 단체와 NGO에 최첨단 파운데이션 모델과 강력한 데이터 관리 도구를 제공합니다. OlmoEarth의 소스 코드, 학습 데이터, 사전 학습된 가중치는 https://github.com/allenai/olmoearth_pretrain에서 이용할 수 있습니다.

라이브-SWE-에이전트: 소프트웨어 엔지니어링 에이전트는 실시간으로 자가 진화할 수 있는가?
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

Nov 17

ByChunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang

대규모 언어 모델(LLM)은 소프트웨어 공학을 포함한 거의 모든 산업을 재편하고 있습니다. 최근 몇 년간 실제 소프트웨어 문제를 해결하기 위해 여러 LLM 에이전트가 제안되었습니다. 이러한 소프트웨어 에이전트는 일반적으로 일련의 코딩 도구를 갖추고 있으며, 엔드투엔드 소프트웨어 작업을 해결하기 위한 완전한 실행 경로를 구성하기 위해 다음 행동을 자율적으로 결정할 수 있습니다. 유망하지만, 일반적으로 전용 설계가 필요하며 에이전트 스캐폴드 설계 공간 전체를 탐색하는 것이 매우 어렵고 비용이 많이 들기 때문에 여전히 최적이 아닐 수 있습니다. 소프트웨어 에이전트 자체가 추가로 개선/수정 가능한 소프트웨어라는 점을 인식한 연구자들은 최근 Darwin-Gödel Machine(DGM)을 포함한 여러 자가 진화 소프트웨어 에이전트를 제안했습니다. 한편, 이러한 자가 진화 에이전트는 특정 벤치마크에 대한 고비용의 오프라인 훈련이 필요하며 서로 다른 LLM이나 벤치마크 간에 잘 일반화되지 않을 수 있습니다. 본 논문에서는 실제 소프트웨어 문제를 해결하는 동안 런타임 중에 자율적으로 지속적으로 즉시 진화할 수 있는 최초의 라이브 소프트웨어 에이전트인 Live-SWE-agent를 제안합니다. 보다 구체적으로, Live-SWE-agent는 bash 도구(예: mini-SWE-agent)에만 접근할 수 있는 가장 기본적인 에이전트 스캐폴드로 시작하여 실제 소프트웨어 문제를 해결하면서 자체 스캐폴드 구현을 자율적으로 진화시킵니다. 널리 연구된 SWE-bench Verified 벤치마크에 대한 평가 결과, Live-SWE-agent는 테스트 시간 스케일링 없이도 75.4%라는 인상적인 해결율을 달성하여 기존의 모든 오픈소스 소프트웨어 에이전트를 능가하고 최고의 독점 솔루션 성능에 근접했습니다. 더욱이 Live-SWE-agent는 최근 SWE-Bench Pro 벤치마크에서 최첨단 수동 제작 소프트웨어 에이전트를 능가하며 45.8%라는 가장 높은 해결율을 기록했습니다.

유전체 차원의 다음 토큰 예측 모델은 인-컨텍스트 학습 능력을 갖춘다
Genomic Next-Token Predictors are In-Context Learners

Nov 16

ByNathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi

컨텍스트 내 학습(ICL)은 모델이 입력에 제공된 예시로부터 추상적인 패턴을 추론하고 적용하는 능력으로, 인간의 텍스트에 대한 다음 토큰 예측을 위해 훈련된 대규모 언어 모델에서 광범위하게 연구되어 왔습니다. 실제로, 기존 연구는 종종 이러한 창발적 행동을 인간 언어의 독특한 통계적 특성으로 귀결시키곤 합니다. 이는 근본적인 질문을 제기합니다: ICL이 다른 시퀀스 영역에서도 순수하게 대규모 예측 훈련을 통해 유기적으로 발생할 수 있을까요? 이를 탐구하기 위해 통계적 구조가 풍부한 대체 기호 영역인 유전체 서열로 주목합니다. 구체적으로, 중형 LLM에 필적하는 규모로 주로 다음 뉴클레오티드(A/T/C/G) 예측에 훈련된 Evo2 유전체 모델을 연구합니다. 우리는 언어적 형태와 유전체 형태 모두로 구현된 기호 추론 과제들로 구성된 통제된 실험 프레임워크를 개발하여, 유전체 모델과 언어 모델 간 ICL을 직접 비교할 수 있게 합니다. 우리의 결과는 유전체 모델이 언어 모델과 마찬가지로 컨텍스트 내 데모의 수가 증가함에 따라 패턴 귀납에서 로그-선형적 이득을 보인다는 것을 나타냅니다. 우리가 아는 한, 이는 유전체 서열에서 유기적으로 창발한 ICL의 첫 번째 증거이며, ICL이 풍부한 데이터에 대한 대규모 예측 모델링의 결과로 발생한다는 가설을 지지합니다. 이러한 발견은 창발적 메타러닝을 언어를 넘어 확장하며, 양식에 구애받지 않는 통합된 컨텍스트 내 학습 관점을 제시합니다.

지식 그래프에서 돌발적 발견을 위한 LLM 평가: 약물 재창출 사례
Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

Nov 16

ByMengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu

대규모 언어 모델(LLM)은 지식 그래프 질의응답(KGQA)을 크게 발전시켰으나, 기존 시스템은 일반적으로 높은 관련성을 가진 예측 가능한 답변을 반환하도록 최적화되어 있습니다. 아직 부재하지만 요구되는 능력은 LLM을 활용하여 놀랍고 새로운("우연한 발견적") 답변을 제안하는 것입니다. 본 논문에서는 우연한 발견 인식 KGQA 과제를 공식적으로 정의하고, 과학적 KGQA 과제에서 LLM의 예상치 못한 통찰력 발굴 능력을 평가하기 위한 SerenQA 프레임워크를 제안합니다. SerenQA는 관련성, 참신성, 놀라움을 기반으로 한 엄격한 우연한 발견 메트릭과 약물 재창출에 초점을 맞춘 Clinical Knowledge Graph에서 도출된 전문가 주석 벤치마크를 포함합니다. 또한 지식 검색, 서브그래프 추론, 우연한 발견 탐색이라는 세 가지 하위 과제를 포괄하는 구조화된 평가 파이프라인을 특징으로 합니다. 우리의 실험 결과에 따르면, 최첨단 LLM은 검색에서는 우수한 성능을 보이지만, 진정으로 놀랍고 가치 있는 발견을 식별하는 데는 여전히 어려움을 겪어 향후 개선이 필요함을 시사합니다. 우리가 정리한 자료와 확장 버전은 https://cwru-db-group.github.io/serenQA 에서 공개되었습니다.

MicroVQA++: 멀티모달 대규모 언어 모델을 위한 약한 감독 그래프 기반 고품질 현미경 추론 데이터셋
MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

Nov 14

ByManyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan

멀티모달 대규모 언어 모델(Multimodal Large Language Model)이 생체의학 영상 분야에 점차 적용되고 있으나, 현미경 영상에 대한 과학적 추론 능력은 대규모 고품질 학습 데이터의 부족으로 제한받고 있다. 본 연구에서는 BIOMICHA 아카이브에서 도출된 3단계 대규모 고품질 현미경 VQA 코퍼스인 MicroVQA++를 소개한다. 1단계에서는 동료 심사를 거친 학술 논문에서 추출한 전문가 검증 그림-설명 쌍으로부터 감독 신호를 부트스트랩한다. 2단계에서는 이미지, 설명문, 질의응답을 연결하는 새로운 이종 그래프인 HiCQA-Graph를 적용하여 NLI 기반 텍스트 함의, CLIP 기반 시각-언어 정렬, 에이전트 신호를 융합하여 불일치 샘플을 식별 및 필터링한다. 3단계에서는 멀티모달 대규모 언어 모델(MLLM) 에이전트를 사용하여 객관식 문제를 생성한 후 인간 검수를 거친다. 최종 공개 자료는 대규모 학습 분할 데이터와 인간 검수가 완료된 테스트 분할 데이터로 구성되며, 후자의 블룸 분류체계 상 난이도 높은 샘플 분포는 MicroVQA 벤치마크를 능가한다. 본 연구의 성과는 다음과 같다: (i) 전문가 문헌 자료와 그래프 기반 필터링 및 인간 정제 과정이 결합된 품질 관리 데이터셋, (ii) 크로스모달 일관성 필터링을 위해 (이미지, 설명문, 질의응답)을 통합 모델링한 최초의 그래프인 HiCQA-Graph, (iii) 신중한 데이터 구축을 통해 40억 규모 MLLM이 GPT-5 수준의 경쟁력 있는 현미경 추론 성능에 도달하고 오픈소스 MLLM 중 최고 성능을 달성할 수 있음을 입증한 증거. 코드와 데이터셋은 심사 과정 종료 후 공개될 예정이다.

인스텔라: 뛰어난 성능을 자랑하는 완전 오픈 언어 모델
Instella: Fully Open Language Models with Stellar Performance

Nov 13

ByJiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum

대규모 언어 모델(LLM)은 다양한 과제에서 뛰어난 성능을 입증했으나, 대부분의 고성능 모델은 여전히 폐쇄형 또는 부분 공개형 상태로 투명성과 재현성을 제한하고 있습니다. 본 연구에서는 완전히 공개된 데이터와 코드베이스로만 훈련된 30억 개 파라미터 규모의 완전 오픈소스 언어 모델 패밀리인 Instella를 소개합니다. AMD Instinct MI300X GPU를 기반으로 개발된 Instella는 대규모 사전 훈련, 일반 목적 지시 튜닝, 인간 선호도 정렬을 통해 구축되었습니다. 동시대 많은 모델보다 상당히 적은 사전 훈련 토큰을 사용했음에도 불구하고, Instella는 완전 오픈소스 모델 중 최첨단 성능을 달성하며 유사 규모의 주요 오픈 가중치 모델과도 경쟁력을 보입니다. 또한 두 가지 특화 변종 모델을 공개합니다: 128K 토큰까지의 컨텍스트 길이를 처리할 수 있는 Instella-Long과 수학적 과제에 대한 지도 미세 조정 및 강화 학습으로 강화된 추론 중심 모델 Instella-Math입니다. 이러한 공헌을 통해 Instella는 커뮤니티를 위한 투명하고 고성능이며 다목적 대안으로 자리매김하며, 개방적이고 재현 가능한 언어 모델링 연구의 목표를 앞당기는 성과를 제시합니다.

시각-언어 모델의 제로샷 일반화를 위한 테스트 타임 스펙트럼 인식 잠재 조향
Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Nov 12

ByKonstantinos M. Dafnis, Dimitris N. Metaxas

비전-언어 모델(VLMs)은 제로샷 추론에서 뛰어난 성능을 보이지만, 테스트 시점 도메인 변화가 발생하면 성능이 저하되는 경우가 많습니다. 이에 따라 레이블이 지정되지 않은 단일 이미지에 VLM을 적응시키기 위한 에피소드형 테스트 타임 적응 전략이 최근 강력한 기법으로 부상했습니다. 그러나 기존의 테스트 타임 프롬프트 튜닝과 같은 적응 전략은 일반적으로 대규모 인코더 가중치에 대한 역전파를 수행하거나 핵심 모델 구성 요소를 변경해야 합니다. 본 연구에서는 스펙트럼 인식 테스트 타임 스티어링(STS)이라는 경량화된 적응 프레임워크를 소개합니다. STS는 텍스트 임베딩에서 스펙트럼 부분공간을 추출하여 주요 의미 방향을 정의하고, 증강된 뷰 간 엔트로피를 최소화하기 위해 샘플별 소수의 변화 매개변수를 적응시켜 잠재 표현을 스펙트럼 인식 방식으로 조종하는 방법을 학습합니다. STS는 추론 과정 전체를 잠재 공간에서 수행하며, 고정된 인코더를 통해 역전파를 하거나 인코더를 수정하지 않습니다. 표준 평가 프로토콜을 기반으로 한 포괄적인 실험 결과, STS는 최신 테스트 타임 적응 방법들을 크게 능가하거나 유사한 성능을 보이면서도 소수의 매개변수만 추가하며, 기존 테스트 타임 프롬프트 튜닝 대비 최대 8배 빠른 추론 속도와 12배 적은 메모리 사용량을 달성했습니다. 코드는 https://github.com/kdafnis/STS에서 확인할 수 있습니다.

동적 반영: 텍스트 정렬을 통한 비디오 표현 탐구
Dynamic Reflections: Probing Video Representations with Text Alignment

Nov 4

ByTyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov

최근 다양한 모달리티 간 표현 정렬이 다양한 데이터 유형에 걸쳐 서로 다른 인코더의 구조적 유사성과 다운스트림 성능에 대한 통찰력을 제공하는 것으로 입증되었습니다. 이미지와 텍스트 정렬에서는 상당한 진전이 있었으나, 비디오 데이터의 시간적 특성은 이 맥락에서 거의 탐구되지 않았습니다. 본 연구에서는 현대적인 비디오 및 언어 인코더의 성능을 탐구하는 최초의 포괄적인 비디오-텍스트 표현 정렬 연구를 수행합니다. 우리의 연구 결과는 몇 가지 핵심 통찰을 제시합니다. 첫째, 크로스모달 정렬은 특히 최첨단 비디오 인코더를 사용할 때 테스트 시 제공되는 시각적(정적 이미지 대 다중 프레임 비디오) 및 텍스트 데이터(단일 캡션 대 컬렉션)의 풍부함에 크게 의존함을 입증합니다. 우리는 이러한 현상을 포착하는 파라메트릭 테스트 시간 스케일링 법칙을 제안하며, 경험적 관찰 대비 뛰어난 예측 능력을 보여줍니다. 둘째, 의미론적 정렬과 의미론적 및 비의미론적 다운스트림 과제 성능 간의 상관관계를 조사하여, 텍스트 인코더에 대한 강력한 정렬이 범용 비디오 표현 및 이해 능력과 연관될 수 있음을 보여주는 초기 증거를 제시합니다. 마지막으로, 시간적 추론과 크로스모달 정렬의 상관관계를 분석하여 시각 및 언어 모델을 위한 도전적인 테스트베드를 제공합니다. 전반적으로 우리 연구는 시공간 데이터에 대한 서로 다른 인코더의 표현력을 탐색하는 유익한 제로샷 방식으로 비디오-텍스트 정렬을 소개합니다. 프로젝트 페이지는 https://video-prh.github.io/에서 확인할 수 있습니다.

LoCoBench-Agent: 장문 컨텍스트 소프트웨어 엔지니어링을 위한 LLM 에이전트 상호작용 벤치마크
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

Nov 17

ByJielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang

대규모 언어 모델(LLM)이 복잡한 소프트웨어 개발 작업을 수행할 수 있는 정교한 자율 에이전트로 진화함에 따라, 실제 환경에서의 성능 평가가 중요해졌습니다. LoCoBench~qiu2025locobench과 같은 기존 벤치마크는 장문맥(Long-Context) 코드 이해력을 평가하지만, 단일 턴 평가에 집중하여 현실적인 코딩 에이전트에게 요구되는 다중 턴 상호작용 특성, 도구 사용 패턴, 적응형 추론 능력을 포착하지 못합니다. 본 논문에서는 현실적인 장문맥 소프트웨어 엔지니어링 워크플로우에서 LLM 에이전트를 평가하기 위해 특별히 설계된 포괄적인 평가 프레임워크인 LoCoBench-Agent를 소개합니다. 우리의 프레임워크는 LoCoBench의 8,000개 시나리오를 상호작용형 에이전트 환경으로 확장하여, 다중 턴 대화, 도구 사용 효율, 오류 복구, 장기간 개발 세션에서의 아키텍처 일관성을 체계적으로 평가할 수 있게 합니다. 또한 이해도와 효율성 차원의 9가지 평가 메트릭을 포함한 평가 방법론을 도입합니다. 본 프레임워크는 에이전트에게 8개의 전용 도구(파일 작업, 검색, 코드 분석)를 제공하고 10K에서 1M 토큰에 이르는 다양한 컨텍스트 길이에서 평가하여 장문맥 성능을 정밀하게 분석합니다. 최신 모델들을 체계적으로 평가한 결과 몇 가지 주요 발견점을 도출했습니다: (1) 에이전트는 놀라운 장문맥 강건성을 보인다; (2) 철저한 탐색은 이해도를 높이지만 효율성을 감소시키는, 이해도와 효율성 간 부(-)의 상관관계를 가진 트레이드오프가 존재한다; (3) 대화 효율성은 모델 간 현저한 차이를 보이며, 전략적 도구 사용 패턴이 고성능 에이전트를 구분한다. 소프트웨어 엔지니어링 분야 최초의 장문맥 LLM 에이전트 벤치마크로서, LoCoBench-Agent는 에이전트 능력 측정, 성능 격차 식별, 그리고 대규모 자율 소프트웨어 개발 발전을 위한 견고한 기반을 마련합니다.

SafeGRPO: 규칙 기반 정책 최적화를 통한 자기 보상 다중모달 안전성 정렬
SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

Nov 17

ByXuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye

다중 모달 대규모 언어 모델(MLLMs)은 인상적인 추론 및 지시 수행 능력을 보여주었지만, 확장된 모달리티 공간은 복잡한 텍스트-이미지 상호작용에서 발생하는 새로운 구성적 안전 위험을 야기합니다. 이러한 교차 모달 결합은 개별 입력이 무해한 경우에도 안전하지 않은 의미를 생성할 수 있으며, 이는 현재 MLLMs의 취약한 안전 인식을 드러냅니다. 최근 연구들은 모델이 잠재적 위험에 대해 추론하도록 유도하여 안전성을 강화하고 있지만, 제어되지 않은 추론 흔적은 정렬을 훼손할 수 있습니다. 그룹 상대 정책 최적화(GRPO)는 인간의 감독 없이 자기 보상 정제를 제공하지만, 추론 안전성에 대한 검증 가능한 신호가 부족합니다. 이를 해결하기 위해 우리는 규칙 기반 보상 구성을 GRPO에 통합하여 추론 안전성의 해석 가능하고 검증 가능한 최적화를 가능하게 하는 자기 보상 다중 모달 안전 정렬 프레임워크인 SafeGRPO를 제안합니다. 명시적인 시각, 텍스트 및 결합 안전 태그가 포함된 구축된 SafeTag-VL-3K 데이터셋을 기반으로 하는 SafeGRPO는 단계별 안전 사고를 수행하여 구조화된 추론과 행동 정렬을 강제하며, 일반 능력을 희생하지 않고 다양한 벤치마크에서 다중 모달 안전 인식, 구성적 강건성 및 추론 안정성을 크게 향상시킵니다.

AI-세일즈맨: 신뢰할 수 있는 대규모 언어 모델 기반 텔레마케팅 시스템 구축
AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing

Nov 15

ByQingyu Zhang, Chunlei Xin, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Qing Ye, Qianlong Xie, Xingxing Wang

목표 주도형 설득 대화(텔레마케팅과 같은 응용 분야에서 나타남)는 정교한 다중 턴 계획과 엄격한 사실적 정확성을 요구하며, 이는 최첨단 대규모 언어 모델(LLM)에게도 여전히 큰 과제로 남아 있습니다. 기존 연구들은 과제 특화 데이터의 부족으로 인해 제한을 받는 경우가 많으며, LLM을 직접 적용할 경우 전략적 취약성과 사실 왜곡 문제가 발생합니다. 본 논문에서는 먼저 이 분야 최초의 실제 데이터 기반 대화 데이터셋인 TeleSalesCorpus를 구축하여 공개합니다. 그런 다음 이중 단계 아키텍처를 특징으로 하는 새로운 프레임워크인 AI-Salesman을 제안합니다. 학습 단계를 위해 잡음이 있는 대화로부터 강력한 판매 전략을 학습하는 베이지안 지도 강화 학습 알고리즘을 설계합니다. 추론 단계에서는 사전 구축된 스크립트 라이브러리를 활용하여 턴별 동적 전략 지침을 제공하는 동적 개요 지향 에이전트(DOGA)를 도입합니다. 또한, 핵심 판매 역량에 대한 세분화된 지표와 LLM-as-a-Judge 패러다임을 결합한 포괄적인 평가 프레임워크를 설계합니다. 실험 결과, 제안된 AI-Salesman이 자동 평가 지표와 포괄적인 인간 평가 모두에서 기준 모델들을 크게 능가하며, 복잡한 설득 시나리오에서의 효과성을 입증하였습니다.

블록체인에 출처 신뢰성을 확보한 분산형 검색 증강 생성 시스템
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

Nov 10

ByYining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang

기존 검색 증강 생성(RAG) 시스템은 일반적으로 중앙 집중식 아키텍처를 사용하여 데이터 수집, 통합 및 관리 비용이 높고 개인정보 보호 문제가 발생합니다. 따라서 데이터 소유자가 자신의 소스를 완전히 통제하면서도 기초 모델이 해당 정보를 직접 활용할 수 있는 분산형 RAG 시스템에 대한 필요성이 큽니다. 그러나 분산화는 신뢰도가 크게 다른 수많은 독립 데이터 소스로 인해 검색 정확도와 응답 품질이 저하될 수 있는 과제를 안고 있습니다. 이를 해결하기 위해 본 논문의 분산형 RAG 시스템은 각 소스가 생성에 기여한 응답 품질을 기반으로 동적으로 평가하고 검색 시 고품질 소스를 우선순위화하는 새로운 신뢰도 점수 매커니즘을 갖추고 있습니다. 투명성과 신뢰를 보장하기 위해 점수 산정 과정은 블록체인 기반 스마트 계약을 통해 안전하게 관리되며, 중앙 기관에 의존하지 않고 검증 가능하고 위변조가 불가능한 신뢰도 기록을 생성합니다. 우리는 두 개의 Llama 모델(3B, 8B)과 신뢰도 수준이 다른 6개의 데이터 소스를 가진 두 가지 시뮬레이션 환경에서 분산형 시스템을 평가했습니다. 우리 시스템은 실제와 유사한 신뢰할 수 없는 데이터 환경에서 중앙 집중식 시스템 대비 +10.7%의 성능 향상을 달성했습니다. 특히 이상적으로 신뢰할 수 있는 데이터 환경에서는 중앙 집중식 시스템의 상한선 성능에 근접했습니다. 분산형 인프라는 안전하고 신뢰할 수 있는 점수 관리를 가능하게 하며, 일괄 업데이트 작업을 통해 약 56%의 한계 비용 절감을 달성했습니다. 우리의 코드와 시스템은 github.com/yining610/Reliable-dRAG에서 오픈소스로 공개되었습니다.

OpenUS: 자가 적응형 마스크 대조 학습을 통한 초음파 영상 분석용 완전 오픈소스 기반 모델
OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning

Nov 14

ByXiaoyu Zheng, Xu Chen, Awais Rauf, Qifan Fu, Benedetta Monosi, Felice Rivellese, Myles J. Lewis, Shaogang Gong, Gregory Slabaugh

초음파(Ultrasound, US)는 낮은 비용, 휴대성, 실시간 피드백, 이온화 방사선 부재 등의 장점으로 가장 널리 사용되는 의료 영상 기술 중 하나입니다. 그러나 초음파 영상 해석은 여전히 운영자에 크게 의존적이며, 해부학적 부위, 획득 프로토콜, 장비 유형에 따라 현저한 차이를 보입니다. 이러한 변동성과 더불어 스페클(speckle), 낮은 대비, 제한된 표준화 주석 등 고유한 과제들로 인해 일반화 가능하고 레이블 효율적인 초음파 AI 모델 개발이 저해되고 있습니다. 본 논문에서는 공개 데이터 대규모 컬렉션을 기반으로 구축된 최초의 재현 가능한 오픈소스 초음파 파운데이션 모델인 OpenUS를 제안합니다. OpenUS는 비전 맘바(Vision Mamba) 백본을 사용하여 이미지 전체의 지역적 및 전역적 장거리 종속성을 포착합니다. 사전 훈련 중 풍부한 특징을 추출하기 위해, 대조 학습(contrastive learning)과 마스크 이미지 모델링(masked image modeling)을 결합한 새로운 자체 적응 마스킹 프레임워크를 도입했습니다. 이 전략은 교사(teacher)의 주의 맵(attention map)과 학생(student)의 재구성 손실을 통합하여 임상적으로 관련성 높은 마스킹을 적응적으로 정제함으로써 사전 훈련 효과를 향상시킵니다. OpenUS는 또한 동적 학습 스케줄을 적용하여 사전 훈련 과정의 난이도를 점진적으로 조정합니다. 파운데이션 모델을 개발하기 위해, 우리는 다양한 해부학적 부위, 기관, 영상 장치, 질병 유형을 포함하는 42개의 공개 데이터셋으로부터 30만 8천 장 이상의 이미지로 구성된 역대 최대 규모의 공개 초음파 데이터셋을 구축했습니다. 사전 훈련된 OpenUS 모델은 레이블 효율적 미세 조정(fine-tuning)을 위한 백본으로 활용함으로써 특정 다운스트림 작업에 쉽게 적용될 수 있습니다. 코드는 https://github.com/XZheng0427/OpenUS에서 확인할 수 있습니다.