HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

21 papers found

SLA2: 학습 가능한 라우팅 및 QAT를 적용한 희소 선형 어텐션
SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Feb 13

ByJintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez

희소-선형 어텐션(SLA)은 확산 모델의 가속화를 위해 희소 어텐션과 선형 어텐션을 결합한 방식으로, 비디오 생성에서 강력한 성능을 보여왔습니다. 그러나 (i) SLA는 어텐션 가중치 크기에 따라 계산을 희소 또는 선형 브랜치에 할당하는 휴리스틱 분할 방식에 의존하기 때문에 최적이 아닐 수 있습니다. 또한 (ii) SLA의 어텐션 오류를 정식으로 분석한 결과, SLA가 희소 어텐션과 선형 어텐션으로의 직접적인 분해와 불일치함을 확인했습니다. 우리는 SLA²를 제안하며, 여기에는 (I) 각 어텐션 계산이 희소 어텐션과 선형 어텐션 중 어느 것을 사용할지를 동적으로 선택하는 학습 가능한 라우터, (II) 학습 가능한 비율을 사용하여 희소 어텐션 브랜치와 선형 어텐션 브랜치를 결합하는 더 정확하고 직접적인 희소-선형 어텐션 공식, (III) 양자화 인지 미세 조정을 통해 양자화 오류를 줄이기 위해 저비트 어텐션을 도입한 희소 + 저비트 어텐션 설계가 포함됩니다. 실험 결과, 비디오 확산 모델에서 SLA²는 97%의 어텐션 희소성을 달성하고 생성 품질을 유지하면서 어텐션 속도를 18.6배 향상시킬 수 있음을 보여줍니다.

AutoWebWorld: 유한 상태 기계를 통한 무한 검증 가능 웹 환경 합성
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Feb 15

ByYifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo

자율 웹 GUI 에이전트의 성능은 학습 데이터의 질과 양에 크게 의존합니다. 그러나 근본적인 병목 현상이 존재합니다. 실제 웹사이트로부터 상호작용 궤적을 수집하는 것은 비용이 많이 들고 검증이 어렵습니다. 내재된 상태 전환은 숨겨져 있어 단계별 정확성을 평가하기 위해 일관성 없고 비용이 큰 외부 검증 도구에 의존해야 합니다. 이를 해결하기 위해 우리는 웹 환경을 유한 상태 기계(FSM)로 모델링하고 코딩 에이전트를 사용해 FSM을 상호작용 가능한 웹사이트로 변환하는, 제어 및 검증이 가능한 웹 환경 합성 프레임워크인 AutoWebWorld를 제안합니다. 상태 전환이 암묵적으로 이루어지는 실제 웹사이트와 달리, AutoWebWorld는 모든 상태, 액션, 전환 규칙을 명시적으로 정의합니다. 이를 통해 프로그램적 검증이 가능해집니다. 액션 정확성은 미리 정의된 규칙에 따라 확인되며, 작업 성공 여부는 FSM 그래프 내 목표 상태 도달을 통해 확인됩니다. AutoWebWorld는 완전 자동화된 탐색-검증 파이프라인을 가능하게 하여, 다양한 29개의 웹 환경으로부터 궤적당 약 0.04달러의 저렴한 비용으로 11,663개 이상의 검증된 궤적을 생성합니다. 이 합성 데이터로 학습하면 실제 웹 환경에서의 성능이 크게 향상됩니다. 우리의 70억 파라미터 웹 GUI 에이전트는 WebVoyager에서 15단계 이내에 모든 기준 모델을 능가했습니다. 더 나아가 합성 데이터량이 증가함에 따라 WebVoyager와 Online-Mind2Web에서의 성능이 지속적으로 향상되는 명확한 스케일링 법칙을 관찰했습니다.

RynnBrain: 개방형 구체화된 기초 모델
RynnBrain: Open Embodied Foundation Models

Feb 13

ByRonghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao

멀티모달 기반 모델의 급속한 발전에도 불구하고, 구현형 인텔리전스 커뮤니티는 여전히 인지, 추론, 계획을 현실 세계의 시공간적 역학 안에서 통합하는 통일되고 물리적으로 기반을 둔 기반 모델이 부족한 상황입니다. 본 논문에서는 구현형 인텔리전스를 위한 오픈소스 시공간 기반 모델인 RynnBrain을 소개합니다. RynnBrain은 통합 프레임워크 내에서 네 가지 핵심 역량, 즉 포괄적인 자기 중심적 이해, 다양한 시공간적 위치 파악, 물리적 기반 추론, 그리고 물리 법칙을 인지한 계획 수립 능력을 강화합니다. RynnBrain 패밀리는 세 가지 규모의 기반 모델(2B, 8B, 30B-A3B MoE)과 하류 구현형 작업(즉, RynnBrain-Nav, RynnBrain-Plan, RynnBrain-VLA)이나 복잡한 공간 추론 작업(즉, RynnBrain-CoP)에 맞춰 조정된 네 가지 사후 학습 변형 모델로 구성됩니다. 20개의 구현형 벤치마크와 8개의 일반 영상 이해 벤치마크에 대한 광범위한 평가 결과, 당사의 RynnBrain 기반 모델은 기존 구현형 기반 모델들을 큰 격차로 크게 앞섰습니다. 사후 학습 모델 제품군은 RynnBrain 기반 모델의 두 가지 주요 가능성을 추가로 입증합니다: (i) 물리적으로 기반을 둔 추론과 계획 수립을 가능하게 하고, (ii) 다양한 구현형 작업에 효율적으로 적용될 수 있는 강력한 사전 학습된 백본 역할을 하는 것입니다.

CADEvolve: 프로그램 진화를 통한 현실적인 CAD 생성
CADEvolve: Creating Realistic CAD via Program Evolution

Feb 18

ByMaksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov

컴퓨터 지원 설계(CAD)는 엔지니어링 및 제조 분야에서 신속하고 편집 가능한 모델링을 제공합니다. 최근 인공지능(AI)의 발전으로 다양한 CAD 작업의 완전 자동화가 실현 가능해졌습니다. 그러나 이러한 발전은 데이터에 의해 병목 현상을 겪고 있습니다: 공개 코퍼스는 대부분 스케치-돌출 단계로 구성되어 있으며, 복잡한 연산, 다중 연산 구성 및 설계 의도가 부족하여 효과적인 미세 조정을 방해합니다. 고정된 VLM을 사용하여 이를 우회하려는 시도는 현재 기초 모델의 제한된 3D 이해 능력으로 인해 단순하거나 유효하지 않은 프로그램을 생성하는 경우가 많습니다. 우리는 CADEvolve를 제시합니다. 이는 진화 기반 파이프라인 및 데이터셋으로, 단순한 기본 요소에서 시작하여 VLM 기반 편집 및 검증을 통해 CAD 프로그램을 산업 등급 복잡도로 점진적으로 발전시킵니다. 그 결과 실행 가능한 CadQuery 매개변수 생성기로 표현된 8,000개의 복잡한 부품이 생성되었습니다. 다단계 후처리 및 증강을 거쳐 렌더링된 형상과 쌍을 이루며 CadQuery 연산 세트 전체를 활용하는 130만 개의 스크립트로 구성된 통합 데이터셋을 확보했습니다. CADEvolve로 미세 조정된 VLM은 DeepCAD, Fusion 360, MCB 벤치마크에 걸친 Image2CAD 작업에서 최첨단 성능을 달성했습니다.

오픈 보커블러리 시각적 이동-조작을 위한 휴머노이드 엔드 이펙터 제어 학습
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

휴머노이드 로봇이 실제 환경에서 임의의 객체를 시각 기반 이동-매니플레이션(loco-manipulation)하기 위해서는 정확한 엔드 이펙터(End-Effector, EE) 제어와 시각 입력(예: RGB-D 이미지)을 통한 장면에 대한 일반화된 이해가 필요합니다. 기존 접근법은 실제 세계의 모방 학습에 기반하고 있으며, 대규모 학습 데이터셋 수집의 어려움으로 인해 제한된 일반화 성능을 보입니다. 본 논문은 대규모 비전 모델의 강력한 일반화 및 개방형 어휘 이해 능력과 시뮬레이션 훈련을 통한 강력한 제어 성능을 결합한, 휴머노이드 로봇의 객체 이동-매니플레이션을 위한 새로운 패러다임인 HERO를 제시합니다. 우리는 이를 위해 정확한 잔차 인식(residual-aware) 엔드 이펙터 추적 정책을 설계하여 달성했습니다. 이 EE 추적 정책은 고전적 로봇공학과 기계 학습을 결합합니다. 여기에는 a) 잔여 엔드 이펙터 목표를 참조 궤적으로 변환하기 위한 역기구학, b) 정확한 정기구학을 위한 학습된 신경망 순기구학 모델, c) 목표 조정, d) 재계획이 활용됩니다. 이러한 혁신들을 함께 적용하여 엔드 이펙터 추적 오류를 3.2배 줄였습니다. 우리는 이 정확한 엔드 이펙터 추적기를 활용하여 강력한 시각 일반화를 위해 개방형 어휘 대규모 비전 모델을 사용하는 모듈식 이동-매니플레이션 시스템을 구축했습니다. 우리의 시스템은 사무실부터 커피숍에 이르기까지 다양한 실제 환경에서 운영될 수 있으며, 로봇은 높이 43cm에서 92cm에 이르는 다양한 표면에서 머그컵, 사과, 장난감 등과 같은 다양한 일상 객체를 안정적으로 조작할 수 있습니다. 시뮬레이션과 실제 환경에서 수행한 체계적인 모듈별 및 종단간 테스트는 우리가 제안하는 설계의 효과성을 입증합니다. 본 논문의 발전이 휴머노이드 로봇이 일상적인 객체와 상호작용하도록 훈련시키는 새로운 방식을 열어갈 수 있을 것으로 믿습니다.

문맥적 협력자 추론을 통한 다중 에이전트 협력
Multi-agent cooperation through in-context co-player inference

Feb 18

ByMarissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans

이기적인 에이전트 간 협력 달성은 다중 에이전트 강화 학습의 근본적인 과제로 남아 있다. 최근 연구는 상대 에이전트의 학습 역학을 고려하고 형성하는 "학습 인식" 에이전트 간 상호 협력이 유도될 수 있음을 보여주었다. 그러나 기존 접근법들은 일반적으로 상대방의 학습 규칙에 대한 경직된(종종 일관성 없는) 가정에 의존하거나, 빠른 시간 척도에서 업데이트하는 "단순 학습자"와 이러한 업데이트를 관찰하는 "메타 학습자" 간의 엄격한 분리를 전제로 한다. 본 연구에서는 시퀀스 모델의 컨텍스트 내 학습 능력이 경직된 가정이나 명시적 시간 척도 분리 없이도 상대방 학습 인식을 가능하게 함을 입증한다. 다양한 분포의 상대 에이전트에 대해 시퀀스 모델 에이전트를 훈련시키면 빠른 에피소드 내 시간 척도에서 학습 알고리즘으로 효과적으로 기능하는 컨텍스트 내 최적 반응 전략이 자연스럽게 유도됨을 보여준다. 선행 연구에서 확인된 협력 메커니즘—갈취에 대한 취약성이 상호 형성을 촉진하는—이 본 환경에서 자연스럽게 나타남을 발견했다: 컨텍스트 내 적응은 에이전트를 갈취에 취약하게 만들며, 이로 인한 상대방의 컨텍스트 내 학습 역학을 형성하려는 상호적 압력이 협력적 행동 학습으로 해소된다. 우리의 결과는 시퀀스 모델에 대한 표준 분산 강화 학습과 상대방 다양성의 결합이 협력적 행동 학습을 위한 확장 가능한 경로를 제공함을 시사한다.

MAEB: 대규모 오디오 임베딩 벤치마크
MAEB: Massive Audio Embedding Benchmark

Feb 17

ByAdnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen

대규모 오디오 임베딩 벤치마크(MAEB)를 소개합니다. 이는 음성, 음악, 환경음 및 100개 이상의 언어를 아우르는 크로스모달 오디오-텍스트 추론 분야의 30개 과제를 포괄하는 대규모 벤치마크입니다. 50개 이상의 모델을 평가한 결과, 모든 과제에서 단일 모델이 압도적인 성능을 보이는 경우는 없었습니다: 대조적 오디오-텍스트 모델은 환경음 분류(예: ESC50)에서 뛰어난 반면, 다국어 음성 과제(예: SIB-FLEURS)에서는 무작위 수준에 가까운 점수를 보였고, 음성 사전훈련 모델은 정반대의 양상을 보였습니다. 클러스터링은 모든 모델에게 여전히 어려운 과제로, 가장 성능이 좋은 모델조차도 보통 수준의 결과만을 달성했습니다. 음향 이해에서 뛰어난 모델들은 언어 과제에서 종종 낮은 성능을 보이고, 그 반대의 경우도 관찰됩니다. 또한 MAEB에서의 오디오 인코더 성능은 해당 인코더가 오디오 대규모 언어 모델에 사용될 때의 성능과 높은 상관관계를 보입니다. MAEB는 98개 과제 컬렉션인 MAEB+에서 도출되었습니다. MAEB는 평가 비용을 절감하면서도 과제 다양성을 유지하도록 설계되었으며, 텍스트, 이미지, 오디오 양식에 걸친 통합 평가를 위한 MTEB 생태계에 통합됩니다. MAEB와 98개 전체 과제, 코드, 리더보드를 https://github.com/embeddings-benchmark/mteb 에서 공개합니다.

빈 선반일까, 잃어버린 열쇠일까? 파라메트릭 사실성의 병목 현상은 회상이다
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Feb 15

ByNitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

LLM에 대한 기존 사실성 평가는 모든 오류를 동일하게 취급하여 실패가 지식 부재(빈 선반)에서 비롯된 것인지, 아니면 인코딩된 사실에 대한 접근성 한계(잃어버린 열쇠)에서 비롯된 것인지 모호하게 합니다. 본 연구에서는 질문 수준이 아닌 사실 수준에서 사실 지식을 프로파일링하는 행동 프레임워크를 제안합니다. 이 프레임워크는 각 사실이 인코딩되었는지 여부를 먼저 규정한 후, 접근 가능성(회상 불가, 직접 회상 가능, 추론 단계 계산(사고)을 통해서만 회상 가능)에 따라 특성을 분석합니다. 이러한 프로파일링을 지원하기 위해 웹 검색을 기반으로 한 LLM 프롬프트를 통해 자동화된 파이프라인으로 구성된 새로운 벤치마크인 WikiProfile을 소개합니다. 13개 LLM으로부터 수집된 400만 개의 응답을 분석한 결과, 최첨단 모델에서는 벤치마크 내 사실 인코딩이 거래 포화 상태에 이르러 GPT-5와 Gemini-3가 사실의 95~98%를 인코딩하는 것으로 나타났습니다. 그러나 회상은 여전히 주요 병목 현상입니다: 지식 부재로 귀결되었던 많은 오류가 실제로는 인코딩된 지식에 접근하지 못해 발생하는 경우가 많았습니다. 이러한 실패는 체계적으로 발생하며, 특히 롱테일 사실과 역방향 질문에서 불균형적으로 영향을 미칩니다. 마지막으로, 사고를 통해 회상률이 향상되고 실패 사례의 상당 부분을 회복할 수 있음을 보여주며, 이는 향후 성능 향상이 규모 확장보다는 모델이 이미 인코딩한 내용을 효과적으로 활용하는 방법 개선에 더 의존할 수 있음을 시사합니다.

AI 에이전트 신뢰성 과학을 향하여
Towards a Science of AI Agent Reliability

Feb 18

ByStephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan

AI 에이전트가 중요한 업무를 수행하기 위해 점점 더 많이 배포되고 있습니다. 표준 벤치마크에서 상승하는 정확도 점수는 빠른 발전을 시사하지만, 많은 에이전트들은 실제 상황에서 여전히 실패를 거듭하고 있습니다. 이러한 괴리는 현재 평가 방법의 근본적인 한계를 부각시킵니다. 에이전트의 행동을 단일 성공 지표로 압축하는 것은 중요한 운영상의 결함을 가리기 때문입니다. 특히, 에이전트가 실행 간 일관되게 행동하는지, 외부 교란을 견딜 수 있는지, 예측 가능하게 실패하는지, 오류의 심각도가 제한되는지 여부는 무시됩니다. 안전이 중시되는 공학 분야에 기반하여, 우리는 신뢰도를 네 가지 핵심 차원(일관성, 견고성, 예측 가능성, 안전성)으로 분해하는 12가지 구체적인 지표를 제안함으로써 종합적인 성능 프로필을 제시합니다. 두 가지 상호 보완적인 벤치마크를 통해 14가지 에이전트 모델을 평가한 결과, 최근의 능력 향상이 신뢰도 측면에서는 작은 개선만을 가져왔음을 발견했습니다. 이러한 지속적인 한계를 드러냄으로써, 우리의 지표는 기존 평가를 보완하면서 에이전트가 어떻게 성능을 발휘하고, 저하되고, 실패하는지에 대해 추론할 수 있는 도구를 제공합니다.

월드 액션 모델은 제로샷 정책입니다
World Action Models are Zero-shot Policies

Feb 17

BySeonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

최첨단 Vision-Language-Action(VLA) 모델은 의미론적 일반화에서는 뛰어나지만, 새로운 환경에서 보지 못한 물리적 동작으로의 일반화에는 어려움을 겪습니다. 본 연구에서는 사전 학습된 비디오 확산 모델을 기반으로 구축된 World Action Model(WAM)인 DreamZero를 소개합니다. VLA와 달리 WAM은 비디오를 세계 변화의 밀집 표현으로 사용하여 미래 세계 상태와 행동을 예측함으로써 물리적 역학을 학습합니다. 비디오와 행동을 공동으로 모델링함으로써 DreamZero는 반복적인 데모에 의존하지 않고 이종 로봇 데이터로부터 다양한 기술을 효과적으로 학습합니다. 이로 인해 실제 로봇 실험에서 최첨단 VLA 대비 새로운 작업 및 환경에 대한 일반화 성능이 2배 이상 향상됩니다. 무엇보다도 모델 및 시스템 최적화를 통해 14B 자회귀 비디오 확산 모델이 7Hz로 실시간 폐루프 제어를 수행할 수 있도록 했습니다. 마지막으로 두 가지 형태의 교차 구현체 전이를 입증합니다. 다른 로봇이나 인간의 비디오 전용 데모를 통해 단 10-20분의 데이터로 보지 못한 작업 성능에서 42% 이상의 상대적 개선을 달성했습니다. 더욱 놀랍게도 DreamZero는 소수샷 구현체 적응을 가능하게 하여, 30분의 플레이 데이터만으로 새로운 구현체로 전이하면서도 제로샷 일반화 능력을 유지합니다.

다음 시퀀스 예측을 통한 강화된 고속 가중치
Reinforced Fast Weights with Next-Sequence Prediction

Feb 18

ByHee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

빠른 가중치 아키텍처는 컨텍스트 길이에 관계없이 일정한 메모리 오버헤드를 유지함으로써 장문 컨텍스트 모델링에 있어 주의 기반 트랜스포머에 대한 유망한 대안을 제공합니다. 그러나 그 잠재력은 다음 토큰 예측(NTP) 훈련 패러다임에 의해 제한됩니다. NTP는 단일 토큰 예측을 최적화할 뿐 접두어 이후 여러 토큰에 걸친 의미적 일관성을 무시합니다. 그 결과, 컨텍스트 정보를 저장하기 위해 매개변수를 동적으로 업데이트하는 빠른 가중치 모델은 장거리 의존성을 포착하지 못하는 최적이 아닌 표현을 학습하게 됩니다. 본 연구에서는 강화 학습 프레임워크인 REFINE(Reinforced Fast weIghts with Next sEquence prediction)을 소개합니다. REFINE은 다음 시퀀스 예측(NSP) 목표 하에서 빠른 가중치 모델을 훈련시킵니다. REFINE은 예측 엔트로피를 기반으로 정보성이 높은 토큰 위치를 선택하고, 다중 토큰 롤아웃을 생성하며, 자기 지도 방식의 시퀀스 수준 보상을 할당하고, 그룹 상대 정책 최적화(GRPO)를 통해 모델을 최적화합니다. REFINE은 사전 훈련된 언어 모델의 전체 훈련 생애주기(중간 훈련, 사후 훈련, 테스트 시간 훈련)에 적용 가능합니다. LaCT-760M 및 DeltaNet-1.3B에 대한 실험 결과, REFINE은 바늘 더미 검색, 장문 컨텍스트 질의응답 및 LongBench의 다양한 작업에서 NTP를 사용한 지도 미세 조정을 지속적으로 능가하는 것으로 나타났습니다. REFINE은 빠른 가중치 아키텍처의 장문 컨텍스트 모델링 성능을 향상시키는 효과적이고 다목적인 프레임워크를 제공합니다.

SAM 3D 바디: 강건한 전신 인간 메쉬 복원
SAM 3D Body: Robust Full-Body Human Mesh Recovery

Feb 17

ByXitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

우리는 단일 이미지에서 전신 3D 인간 메쉬 복원(HMR)을 위한 프롬프트 가능 모델인 SAM 3D Body(3DB)를 소개한다. 3DB는 다양한 실제 환경에서 강력한 일반화 성능과 일관된 정확도를 바탕으로 최첨단 성능을 보여준다. 3DB는 신체, 발, 손의 인간 포즈를 추정한다. 이 모델은 골격 구조와 표면 형상을 분리하는 새로운 파라메트릭 메쉬 표현인 Momentum Human Rig(MHR)를 최초로 사용한다. 3DB는 인코더-디코더 아키텍처를 채택하며 2D 키포인트 및 마스크를 포함한 보조 프롬프트를 지원하여, SAM 모델 패밀리와 유사한 사용자 주도 추론을 가능하게 한다. 우리는 수동 키포인트 주석, 미분 가능 최적화, 다중 뷰 기하학, 밀집 키포인트 검출의 다양한 조합을 활용하는 다단계 주석 파이프라인으로부터 고품질 주석을 도출한다. 우리의 데이터 엔진은 데이터 다양성을 보장하기 위해 효율적으로 데이터를 선별 및 처리하며, 특이한 포즈와 희귀한 이미징 조건의 데이터를 수집한다. 우리는 포즈 및 외관 범주별로 구성된 새로운 평가 데이터셋을 제시하여 모델 동작에 대한 세분화된 분석을 가능하게 한다. 우리의 실험은 정성적 사용자 선호도 연구와 기존의 정량적 분석 모두에서 우수한 일반화 성능과 기존 방법 대비 상당한 개선을 입증한다. 3DB와 MHR은 모두 오픈소스로 제공된다.

적응형 매칭 증류를 통한 Few-Step 생성 최적화
Optimizing Few-Step Generation with Adaptive Matching Distillation

Feb 7

ByLichen Bai, Zikai Zhou, Shitong Shao, Wenliang Zhong, Shuo Yang, Shuo Chen, Bojun Chen, Zeke Xie

분포 매칭 증류(DMD)는 강력한 가속 패러다임이지만, 실제 교사가 신뢰할 수 없는 지침을 제공하는 동시에 가짜 교사가 충분한 반발력을 발휘하지 못하는 금지 구역(Forbidden Zone)에서 그 안정성이 종종 저해됩니다. 본 연구에서는 기존 기술을 이러한 오염된 영역을 회피하기 위한 암묵적 전략으로 재해석하는 통합 최적화 프레임워크를 제안합니다. 이러한 통찰을 바탕으로, 보상 프록시를 활용하여 금지 구역을 명시적으로 탐지 및 이탈하는 자가 수정 메커니즘인 적응형 매칭 증류(AMD)를 소개합니다. AMD는 구조적 신호 분해를 통해 수정 그래디언트를 동적으로 우선순위화하고, 반발 경관 샤프닝(Repulsive Landscape Sharpening)을 도입하여 실패 모드 붕괴에 대한 가파른 에너지 장벽을 강화합니다. 이미지 및 비디오 생성 작업(SDXL, Wan2.1 등)과 엄격한 벤치마크(VBench, GenEval 등)에 대한 광범위한 실험을 통해 AMD가 샘플 충실도와 훈련 강건성을 크게 향상시킴을 입증했습니다. 예를 들어, AMD는 SDXL의 HPSv2 점수를 30.64에서 31.25로 향상시켜 최첨단 기준선을 능가합니다. 이러한 결과는 금지 구역 내 최적화 궤적을 명시적으로 수정하는 것이 few-step 생성 모델의 성능 한계를 높이는 데 필수적임을 검증합니다.

사람의 피드백을 통해 개인화된 에이전트 학습하기
Learning Personalized Agents from Human Feedback

Feb 18

ByKaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini

현대 AI 에이전트는 강력하지만 개별 사용자의 독특하고 변화하는 선호도를 따라가지 못하는 경우가 많습니다. 기존 접근법은 일반적으로 상호작용 기록을 통해 암묵적 선호도 모델을 학습하거나 사용자 프로필을 외부 메모리에 인코딩하는 정적 데이터셋에 의존해 왔습니다. 그러나 이러한 접근법은 신규 사용자와 시간에 따라 변화하는 선호도에 대해 어려움을 겪습니다. 본 연구에서는 명시적인 사용자별 메모리를 사용하여 에이전트가 실시간 상호작용으로 온라인 학습을 수행하는 지속적 개인화 프레임워크인 PAHF(Personalized Agents from Human Feedback)를 소개합니다. PAHF는 세 단계 순환 과정을 운영화합니다: (1) 모호성 해결을 위한 행동 전 명료화 요청, (2) 메모리에서 검색된 선호도에 기반한 행동 근거화, (3) 선호도 변화 시 사후 행동 피드백을 통한 메모리 업데이트. 이 능력을 평가하기 위해 본 연구는 체화된 조작과 온라인 쇼핑 분야에서 4단계 프로토콜과 두 가지 벤치마크를 개발했습니다. 이러한 벤치마크는 에이전트가 초기 선호도를 처음부터 학습하고 이후 인격 변화에 적응하는 능력을 정량화합니다. 이론적 분석과 실험 결과는 명시적 메모리와 이중 피드백 채널의 통합이 중요함을 보여줍니다: PAHF는 학습 속도가 현저히 빠르며 메모리 없음 및 단일 채널 기준선을 지속적으로 능가하며, 초기 개인화 오류를 줄이고 선호도 변화에 대한 빠른 적응을 가능하게 합니다.

MMA: 멀티모달 메모리 에이전트
MMA: Multimodal Memory Agent

Feb 18

ByYihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang

장기적 다중모달 에이전트는 외부 메모리에 의존하지만, 유사도 기반 검색은 종종 신뢰도가 낮거나 상충되는 오래된 정보를 표면화하여 과도한 확신 오류를 유발할 수 있습니다. 본 연구에서는 검색된 각 메모리 항목에 출처 신뢰도, 시간적 감쇠, 충돌 인식 네트워크 합의를 결합한 동적 신뢰도 점수를 부여하고, 이 신호를 활용하여 증거 가중치를 재조정하며 지원이 불충분할 경우 판단을 유보하는 다중모달 메모리 에이전트(MMA)를 제안합니다. 또한 발화자 신뢰도가 제어되고 구조화된 텍스트-시각 정보 모순이 포함된 프로그램 방식 생성 벤치마크인 MMA-Bench를 소개합니다. 이 프레임워크를 통해 RAG 기반 에이전트가 기초 모델의 잠재적 시각 편향을 어떻게 계승하는지 보여주는 "시각적 플라시보 효과"를 규명합니다. FEVER에서 MMA는 기준 모델 대비 정확도를 유지하면서 분산을 35.2% 감소시키고 선택적 유용성을 개선했으며, 안전 중심 구성의 LoCoMo에서는 실행 가능 정확도를 향상시키고 오답을 줄였습니다. MMA-Bench에서는 비전 모드에서 MMA가 41.18%의 Type-B 정확도를 달성한 반면, 동일 프로토콜 하에서 기준 모델은 0.0%로 성능이 붕괴되었습니다. 코드: https://github.com/AIGeeksGroup/MMA.

확산 모델을 위한 효율적인 텍스트 주도 컨볼루션 어댑터
Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Feb 16

ByAryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma

구조 보존 조건부 생성(SPCG)을 위한 확산 기반 프레임워크에 텍스트 주도적 효율 어댑터인 Nexus Adapters를 소개한다. 최근 구조 보존 방법들은 프롬프트 조건화를 위한 기본 모델과 스케치 또는 깊이 맵과 같은 구조 입력을 위한 어댑터를 사용하여 조건부 이미지 생성에서 유망한 결과를 달성했다. 이러한 기법들은 매우 비효율적이며, 때로는 기본 아키텍처에 버금가는 매개변수를 어댑터에 요구한다. 확산 모델 자체가 비용이 많이 들고 매개변수를 두 배로 늘리는 것은 매우 비효율적이기 때문에 모델 학습이 항상 가능한 것은 아니다. 이러한 접근법에서 어댑터는 입력 프롬프트를 인식하지 못하므로 구조 입력에만 최적화되어 입력 프롬프트에는 최적화되지 않는다. 위와 같은 문제를 해결하기 위해 프롬프트와 구조 입력의 지도를 받는 두 가지 효율적인 어댑터인 Nexus Prime와 Slim을 제안한다. 각 Nexus Block은 풍부한 다중 모드 조건화를 가능하게 하는 교차 주의 메커니즘을 통합한다. 따라서 제안된 어댑터는 구조를 보존하면서 입력 프롬프트를 더 잘 이해한다. 제안된 모델에 대한 광범위한 실험을 수행한 결과, Nexus Prime 어댑터가 기준 모델인 T2I-Adapter 대비 8M개의 추가 매개변수만 필요로 하면서도 성능을 크게 향상시킴을 확인했다. 또한 T2I-Adapter보다 18M개 더 적은 매개변수를 가진 경량 Nexus Slim 어댑터도 소개하며, 이는 여전히 최첨단 결과를 달성했다. 코드: https://github.com/arya-domain/Nexus-Adapters

실제 세계에서의 상황 인식 학습
Learning Situated Awareness in the Real World

Feb 18

ByChuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang

인간 인지의 핵심 측면은 상황 인식으로, 우리 자신을 주변 물리적 환경과 연관 짓고 맥락 내에서 가능한 행동을 추론하는 능력입니다. 그러나 기존의 다중 모달 기반 모델(MFM) 벤치마크 대부분은 환경 중심의 공간 관계(장면 내 객체 간 관계)에 중점을 두는 반면, 에이전트의 시점, 자세, 움직임에 상대적인 추론이 필요한 관찰자 중심 관계는 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 실제 영상을 활용한 자기 중심적 상황 인식을 평가하기 위한 새로운 벤치마크인 SAW-Bench(실세계 상황 인식)를 소개합니다. SAW-Bench는 Ray-Ban Meta(Gen 2) 스마트 글래스로 촬영한 다양한 실내외 환경의 자체 녹화 영상 786개와 인간이 주석을 단 2,071개 이상의 질문-답변 쌍으로 구성됩니다. 이 벤치마크는 6가지 다른 인식 과제를 통해 모델의 관찰자 중심 이해력을 탐구합니다. 우리의 포괄적 평가 결과, 최고 성능의 MFM인 Gemini 3 Flash를 사용하더라도 인간과 모델 간 성능 차이가 37.66%에 달하는 것으로 나타났습니다. 이러한 차이를 넘어, 심층 분석을 통해 몇 가지 주목할 만한 발견을 했습니다. 예를 들어, 모델은 자기 중심적 영상에서 부분적인 기하학적 단서를 활용할 수 있지만, 종종 일관된 카메라 기하학을 추론하지 못하여 체계적인 공간 추론 오류로 이어집니다. 우리는 SAW-Bench를 수동적 관찰을 넘어 물리적으로 근거 있는 관찰자 중심 역동성을 이해하는, 상황적 공간 지능을 위한 벤치마크로 자리매김합니다.

의료 영상 분석을 위한 불확실성 인식 시각-언어 분할
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Feb 16

ByAryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma

우리는 정확한 의학적 진단을 위해 방사선 영상과 관련 임상 텍스트를 모두 활용하는 새로운 불확실성 인식 다중모달 분할 프레임워크를 소개한다. 우리는 효율적인 교차 모달 융합 및 장거리 종속성 모델링을 가능하게 하는 경량 상태 공간 혼합기(SSMix)를 탑재한 모달리티 디코딩 주의 블록(MoDAB)을 제안한다. 모호성 하에서 학습을 안내하기 위해 공간적 중첩, 스펙트럼 일관성 및 예측 불확실성을 통합 목적 함수로 함께 포착하는 스펙트럼-엔트로피 불확실성(SEU) 손실을 제안한다. 영상 품질이 낮은 복잡한 임상 환경에서 이 구성은 모델 신뢰성을 향상시킨다. 다양한 공개 의료 데이터셋(QATA-COVID19, MosMed++, Kvasir-SEG)에 대한 광범위한 실험을 통해 우리 방법이 기존 최첨단(SoTA) 접근법보다 계산 효율성이 현저히 높으면서도 우수한 분할 성능을 달성함을 입증한다. 우리의 결과는 시각-언어 의료 분할 작업에 불확실성 모델링과 구조화된 모달리티 정렬을 통합하는 것의 중요성을 강조한다. 코드: https://github.com/arya-domain/UA-VLS

BiManiBench: 멀티모달 대규모 언어 모델의 양손 협응 능력 평가를 위한 계층적 벤치마크
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Feb 9

ByXin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li

멀티모달 대규모 언어 모델(MLLMs)은 구현형 AI를 크게 발전시켰으며, 이를 로봇 지능의 벤치마크로 활용하는 것은 핵심적인 추세가 되었습니다. 그러나 기존 프레임워크는 주로 단일 암(single-arm) 조작에 국한되어 있어, 무거운 냄비 들어올리기와 같은 양손 작업에 필요한 시공간적 조정 능력을 평가하지 못합니다. 이를 해결하기 위해 우리는 세 가지 계층(기본 공간 추론, 고수준 행동 계획, 저수준 엔드 이펙터 제어)에 걸쳐 MLLMs를 평가하는 계층적 벤치마크인 BiManiBench를 소개합니다. 우리의 프레임워크는 암 도달 가능성(arm reachability) 및 운동학적 제약과 같은 고유한 양손 작업의 과제를 분리함으로써 지각 환각(perceptual hallucination)과 계획 실패를 구별합니다. 30개 이상의 최첨단 모델 분석 결과, 고수준 추론 능력이 뛰어남에도 불구하고 MLLMs는 양팔 공간 기반화(spatial grounding) 및 제어에 어려움을 겪으며, 이로 인해 상호 간섭과 순서 오류가 빈번히 발생하는 것으로 나타났습니다. 이러한 결과는 현재 패러다임이 팔 간의 상호 운동학적 제약에 대한 깊은 이해가 부족함을 시사하며, 향후 연구가 팔 간 충돌 회피 및 세분화된 시간적 순서 구성에 집중해야 할 필요성을 강조합니다.

다중 턴 대화를 위한 시각적 메모리 주입 공격
Visual Memory Injection Attacks for Multi-Turn Conversations

Feb 17

ByChristian Schlarmann, Matthias Hein

생성형 대규모 시각-언어 모델(LVLM)은 최근 인상적인 성능 향상을 이루었으며, 사용자 기반도 빠르게 성장하고 있습니다. 그러나 특히 장문맥 다중 턴 설정에서 LVLM의 보안성은 크게 연구되지 않은 상태입니다. 본 논문에서는 공격자가 조작된 이미지를 웹/소셜 미디어에 업로드하는 현실적인 시나리오를 고려합니다. 선의의 사용자가 이 이미지를 다운로드하여 LVLM의 입력으로 사용하는 상황입니다. 우리가 제안하는 새로운 은닉형 시각 메모리 주입(VMI) 공격은 일반적인 프롬프트에서는 LVLM이 정상적인 동작을 보이지만, 사용자가 특정 트리거 프롬프트를 제공하면 LVLM이 사용자를 조작하기 위해 사전에 설정된 특정 목표 메시지(예: 적대적 마케팅 또는 정치적 설득)를 출력하도록 설계되었습니다. 단일 턴 공격에 집중한 기존 연구와 비교하여, VMI는 사용자와의 장기간 다중 턴 대화 이후에도 효과적입니다. 우리는 최근의 오픈 가중치 LVLM 여러 종류에 대한 공격 실험을 통해 이를 입증합니다. 이를 통해 다중 턴 대화 설정에서 변조된 이미지를 이용한 대규모 사용자 조작이 가능함이 확인되었으며, LVLM의 이러한 공격에 대한 강건성 향상이 필요함을 보여줍니다. 소스 코드는 https://github.com/chs20/visual-memory-injection 에 공개하였습니다.

OPBench: 오피오이드 위기 대응을 위한 그래프 벤치마크
OPBench: A Graph Benchmark to Combat the Opioid Crisis

Feb 16

ByTianyi Ma, Yiyang Li, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Chuxu Zhang, Yanfang Ye

오피오이드 유행병은 전 세계 커뮤니티를 계속해서 황폐화시키며 의료 시스템에 부담을 주고, 가정을 파괴하며, 시급한 컴퓨팅 솔루션을 요구하고 있습니다. 이 치명적인 오피오이드 위기에 대응하기 위해 복잡한 약물 관련 현상을 모델링하는 유망한 패러다임으로 그래프 학습 방법이 부상했습니다. 그러나 중요한 격차가 남아 있습니다: 실제 오피오이드 위기 시나리오 전반에 걸쳐 이러한 방법들을 체계적으로 평가하기 위한 포괄적인 벤치마크가 부재합니다. 이 격차를 해소하기 위해 우리는 OPBench를 소개합니다. OPBench는 의료 청구 데이터 기반 오피오이드 과다 복용 탐지, 디지털 플랫폼 기반 불법 약물 밀매 탐지, 식이 패턴 기반 약물 오용 예측이라는 세 가지 중요한 응용 분야에 걸친 5개의 데이터셋으로 구성된 최초의 포괄적인 오피오이드 벤치마크입니다. 구체적으로, OPBench는 이종 그래프 및 하이퍼그래프를 포함한 다양한 그래프 구조를 통합하여 약물 관련 데이터 간의 풍부하고 복잡한 관계 정보를 보존합니다. 데이터 부족 문제를 해결하기 위해 우리는 도메인 전문가 및 권위 기관과 협력하여 개인정보 보호 및 윤리 가이드라인을 준수하면서 데이터셋을 정제하고 주석을 추가했습니다. 더 나아가, 그래프 학습 방법 간 공정하고 체계적인 비교를 용이하게 하기 위해 표준화된 프로토콜, 미리 정의된 데이터 분할, 재현 가능한 베이스라인을 갖춘 통합 평가 프레임워크를 구축했습니다. 광범위한 실험을 통해 우리는 기존 그래프 학습 방법의 강점과 한계를 분석함으로써 오피오이드 위기 대응을 위한 향후 연구에 실행 가능한 통찰을 제공합니다. 우리의 소스 코드와 데이터셋은 https://github.com/Tianyi-Billy-Ma/OPBench에서 이용할 수 있습니다.

오픈 보커블러리 시각적 이동-조작을 위한 휴머노이드 엔드 이펙터 제어 학습
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta