HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

48 papers found

공간-TTT: 실시간 시각 기반 공간 지능을 위한 테스트 타임 학습
Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Mar 12

ByFangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan

인간은 시각적 관찰의 연속을 통해 현실 세계의 공간을 인지하고 이해합니다. 따라서 잠재적으로 무한한 비디오 스트림에서 공간 증거를 지속적으로 유지하고 업데이트하는 능력은 공간 지능에 필수적입니다. 핵심 과제는 단순히 더 긴 컨텍스트 창이 아니라 시간에 따라 공간 정보가 어떻게 선택, 조직, 유지되는가에 있습니다. 본 논문에서는 테스트 타임 학습(TTT)을 활용한 스트리밍 시각 기반 공간 지능을 위한 Spatial-TTT를 제안합니다. 이는 매개변수의 일부(패스트 웨이트)를 적응시켜 장기간의 장면 비디오에서 공간 증거를 포착하고 조직합니다. 구체적으로, 효율적인 공간 비디오 처리를 위해 하이브리드 아키텍처를 설계하고 슬라이딩 윈도우 어텐션과 병렬로 대용량 청크 업데이트를 채택합니다. 공간 인식을 더욱 촉진하기 위해 3D 시공간 컨볼루션을 적용한 TTT 레이어에 공간 예측 메커니즘을 도입하여 프레임 간 기하학적 일치성과 시간적 연속성을 포착하도록 유도합니다. 아키텍처 설계를 넘어, 조밀한 3D 공간 설명으로 구성된 데이터셋을 구축하여 모델이 패스트 웨이트를 업데이트하여 전역 3D 공간 신호를 구조화된 방식으로 기억하고 조직하도록 안내합니다. 폭넓은 실험을 통해 Spatial-TTT가 장기적 공간 이해를 개선하고 비디오 공간 벤치마크에서 최첨단 성능을 달성함을 입증합니다. 프로젝트 페이지: https://liuff19.github.io/Spatial-TTT.

전략적 탐색인가 확률적 검색인가? 에이전트와 인간의 문서 컬렉션 추론 방식
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Mar 12

ByŁukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta

멀티모달 에이전트는 복잡한 문서 중심 워크플로우의 자동화를 위한 유망한 방안을 제시합니다. 그러나 중요한 의문이 남아있습니다: 이러한 에이전트가 진정한 전략적 추론을 보여주는가, 아니면 단순히 확률적인 시행착오 탐색에 그치는가? 이를 규명하기 위해 우리는 800개의 이질적인 PDF 문서를 바탕으로 한 2,250개의 인간 작성 질문으로 구성된 MADQA 벤치마크를 소개합니다. 고전 검사 이론에 기반하여, 우리는 다양한 수준의 에이전트 능력 간 변별력을 극대화하도록 설계했습니다. 에이전트 행동을 평가하기 위해 정확도와 노력 간 절충을 측정하는 새로운 평가 프로토콜을 도입합니다. 이 프레임워크를 사용하여 우리는 최고 수준의 에이전트가 원시 정확도에서는 인간 검색자와 필적할 수 있지만, 주로 상이한 질문에서 성공하며 약한 전략적 계획을 보상하기 위해 무차별 대입 탐색에 의존함을 보여줍니다. 에이전트는 오라클 성능 대비 약 20%에 가까운 격차를 좁히지 못하고 비생산적인 루프에 지속적으로 빠집니다. 우리는 데이터셋과 평가 도구를 공개하여 무차별 대입 검색에서 보정된 효율적 추론으로의 전환을 촉진하는 데 기여하고자 합니다.

IndexCache: 크로스 레이어 인덱스 재사용을 통한 희소 어텐션 가속
IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Mar 12

ByYushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li

장문 컨텍스트 에이전트 워크플로우는 대규모 언어 모델의 대표적인 사용 사례로 부상하며, 추론 속도와 서비스 비용 측면에서 어텐션 효율성을 중요하게 만들었습니다. 희소 어텐션은 이 문제를 효과적으로 해결하며, DeepSeek 희소 어텐션(DSA)은 이를 구현한 대표적인 프로덕션급 솔루션입니다: 경량화된 라이트닝 인덱서가 쿼리당 가장 관련성 높은 상위 k개 토큰을 선택하여 핵심 어텐션 연산을 O(L^2)에서 O(Lk)로 줄입니다. 그러나 인덱서 자체는 여전히 O(L^2) 복잡도를 가지며, 연속된 레이어에서 선택된 상위 k개 결과가 매우 유사함에도 불구하고 모든 레이어에서 독립적으로 실행되어야 합니다. 본 논문에서는 이러한 계층 간 중복성을 활용하는 IndexCache를 제안합니다. 이는 레이어를 자체 인덱서를 실행하는 소수의 전체(Full) 레이어와 가장 가까운 전체 레이어의 상위 k 인덱스를 재사용하는 다수의 공유(Shared) 레이어로 분할합니다. 이 구성을 결정하고 최적화하기 위해 두 가지 상호 보완적인 접근법을 제시합니다. 학습 불필요형(Training-free) IndexCache는 캘리브레이션 데이터셋에서 언어 모델링 손실을 직접 최소화하는 탐욕적 탐색 알고리즘을 적용하여 인덱서를 유지할 레이어를 선택하며, 가중치 업데이트가 필요 없습니다. 학습 인지형(Training-aware) IndexCache는 각 유지된 인덱서가 담당하는 모든 레이어의 평균화된 어텐션 분포에 대해 학습하도록 하는 다중 레이어 지식 증류 손실을 도입하여, 단순한 인터리빙 패턴만으로도 전체 인덱서 정확도를 달성할 수 있게 합니다. 30B DSA 모델에 대한 실험 결과는 IndexCache가 인덱서 연산의 75%를 제거하면서도 미미한 성능 저하만 발생시키며, 기준 DSA 대비 최대 1.82배의 프리필 속도 향상과 1.48배의 디코딩 속도 향상을 달성함을 보여줍니다. 이러한 긍정적인 결과는 프로덕션 규모의 GLM-5 모델에 대한 예비 실험(그림 1)에서도 추가로 확인되었습니다.

컴퓨터 사용 에이전트를 위한 비디오 기반 보상 모델링
Video-Based Reward Modeling for Computer-Use Agents

Mar 10

ByLinxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao

컴퓨터 활용 에이전트(CUA)의 성능이 점차 향상되고 있지만, 사용자 지시를 에이전트 실행 경로가 진정으로 충족하는지 평가하는 작업의 확장은 여전히 어렵습니다. 본 연구에서는 실행 비디오(에이전트 내부 추론이나 행동과 무관한 에이전트 경로의 키프레임 시퀀스)를 이용한 보상 모델링을 연구합니다. 비디오 실행 모델링은 방법론에 독립적이지만, 높은 중복성을 보이는 레이아웃과 성공을 결정하는 미세하고 지역화된 단서를 포함한 주요 과제를 제시합니다. 우리는 53,000개의 고품질 비디오-작업-보상 삼중항으로 구성된 Execution Video Reward 53k(ExeVR-53k) 데이터셋을 소개합니다. 더 나아가 단계별 주석이 있는 부정 샘플을 합성하기 위해 적대적 지시 변환을 제안합니다. 길고 고해상도의 실행 비디오로부터 학습을 가능하게 하기 위해, 우리는 동질적인 영역과 지속적 토큰을 제거하면서 결정적인 UI 변화를 보존하는 시공간 토큰 프루닝을 설계합니다. 이러한 구성 요소를 바탕으로, 사용자 지시와 비디오 실행 시퀀스만을 입력으로 작업 성공을 예측하는 Execution Video Reward Model(ExeVRM)을 미세 조정합니다. 우리의 ExeVRM 8B는 Ubuntu, macOS, Windows, Android 전반에서 비디오 실행 평가에서 84.7%의 정확도와 87.7%의 재현율을 달성하며, GPT-5.2 및 Gemini-3 Pro와 같은 강력한 독점 모델을 능가하고 더 정밀한 시간적 귀속을 제공합니다. 이러한 결과는 비디오 실행 보상 모델링이 CUA를 위한 확장 가능하고 모델에 독립적인 평가자 역할을 할 수 있음을 보여줍니다.

ShotVerse: 텍스트 기반 멀티샷 비디오 생성을 위한 시네마틱 카메라 제어 기술 발전
ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Mar 12

BySonglin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao

텍스트 기반 비디오 생성 기술이 영화 제작의 대중화를 이끌었지만, 시네마틱 다중 샷 환경에서의 카메라 제어는 여전히 큰 걸림돌로 남아 있습니다. 암묵적인 텍스트 프롬프트는 정확성이 부족한 반면, 명시적 궤적 조건 설정은 과도한 수동 작업을 요구하며 현재 모델에서 실행 실패를 자주 유발합니다. 이러한 병목 현상을 극복하기 위해 우리는 데이터 중심의 패러다임 전환을 제안합니다. 즉, 정렬된 (캡션, 궤적, 비디오) 삼중항이 자동화된 기획과 정밀한 실행을 연결할 수 있는 고유한 결합 분포를 형성한다는 가정에 기반합니다. 이러한 통찰을 바탕으로 우리는 생성 과정을 두 개의 협력 에이전트로 분리하는 "기획 후 제어" 프레임워크인 ShotVerse를 제안합니다. VLM(비전-언어 모델) 기반 플래너는 공간 사전 정보를 활용하여 텍스트로부터 시네마틱하며 전역적으로 정렬된 궤적을 도출하고, 컨트롤러는 카메라 어댑터를 통해 이러한 궤적을 다중 샷 비디오 콘텐츠로 렌더링합니다. 우리 접근법의 핵심은 데이터 기반 구축에 있습니다. 우리는 분리된 단일 샷 궤적을 통합된 전역 좌표계로 정렬하는 자동화된 다중 샷 카메라 보정 파이프라인을 설계했습니다. 이를 통해 3단계 평가 프로토콜을 갖춘 고품질 시네마틱 데이터셋인 ShotVerse-Bench를 구축하였으며, 이는 우리 프레임워크의 초석이 됩니다. 광범위한 실험을 통해 ShotVerse가 신뢰할 수 없는 텍스트 기반 제어와 노동 집약적 수동 기획 간의 간격을 효과적으로 메우며, 우수한 시네마틱 미학을 달성하고 카메라 정확도와 샷 간 일관성을 모두 갖춘 다중 샷 비디오를 생성함을 입증했습니다.

XSkill: 다중 모드 에이전트의 경험과 기술을 통한 지속적 학습
XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Mar 12

ByGuanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R., Fung

다중모달 에이전트는 이제 다양한 도구를 활용해 복잡한 추론 과제를 해결할 수 있지만, 개방형 환경에서는 여전히 비효율적인 도구 사용과 경직된 조정 문제를 겪고 있습니다. 핵심 과제는 매개변수 업데이트 없이 과거 실행 경로로부터 학습하여 이러한 에이전트가 지속적으로 개선되도록 하는 것입니다. 우리는 이 목표에 필수적인 상호 보완적인 두 가지 재사용 가능한 지식 형태, 즉 도구 선택과 의사 결정을 위한 실행 수준의 간결한 지침을 제공하는 경험(experiences)과 계획 및 도구 사용을 위한 과제 수준의 구조화된 지침을 제공하는 스킬(skills)을 규명했습니다. 이를 위해 우리는 다중모달 에이전트의 경험과 스킬로부터 지속 학습을 위한 이중 흐름 프레임워크인 XSkill을 제안합니다. XSkill은 지식 추출과 검색 모두를 시각적 관측에 기반하여 구축합니다. 축적 단계에서 XSkill은 시각 기반 요약과 실행 경로 간 비판을 통해 다중 경로 실행으로부터 경험과 스킬을 정제 및 통합합니다. 추론 단계에서는 현재 시각적 맥락에 맞게 이 지식을 검색 및 적용하고, 사용 기록을 축적 과정에 피드백하여 지속 학습 루프를 형성합니다. 4가지 백본 모델을 사용하여 다양한 분야의 5개 벤치마크에서 평가한 결과, XSkill은 도구만 사용하는 방식과 학습 기반 비교 방법 모두를 지속적이고 상당히 큰 차이로 능가했습니다. 추가 분석 결과, 두 지식 흐름이 에이전트의 추론 행동에 상호 보완적인 역할을 하며 우수한 제로샷 일반화 능력을 보여주는 것으로 나타났습니다.

드림비디오-옴니: 잠재 정체성 강화 학습을 통한 전방위 모션 제어 기반 다중 대상 비디오 맞춤화
DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Mar 12

ByYujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan

대규모 확산 모델이 비디오 합성에 혁명을 일으켰지만, 다중 객체 정체성과 다중 세분화 동작을 모두 정밀하게 제어하는 것은 여전히 큰 과제로 남아 있습니다. 이러한 격차를 해소하려는 최근의 시도들은 제한된 동작 세분성, 제어 모호성, 정체성 저하로 인해 정체성 보존 및 동작 제어 성능이 최적화되지 못하는 경우가 많습니다. 본 연구에서는 점진적 2단계 학습 패러다임을 통해 조화로운 다중 객체 맞춤화와 전체적 동작 제어를 가능하게 하는 통합 프레임워크인 DreamVideo-Omni를 제안합니다. 첫 번째 단계에서는 객체 외관, 전역 동작, 지역 동적 변화, 카메라 움직임을 포괄하는 종합적인 제어 신호를 통합하여 공동 학습을 수행합니다. 강력하고 정밀한 제어 가능성을 보장하기 위해 이기종 입력을 조정하는 조건 인식 3D 회전 위치 임베딩과 전역 동작 안내를 강화하는 계층적 동작 주입 전략을 도입합니다. 더 나아가 다중 객체 모호성을 해결하기 위해 그룹 및 역할 임베딩을 도입하여 동작 신호를 특정 정체성에 명시적으로 고정함으로써 복잡한 장면을 독립적으로 제어 가능한 인스턴스로 효과적으로 분리합니다. 두 번째 단계에서는 정체성 저하를 완화하기 위해, 사전 학습된 비디오 확산 백본 위에 잠재 정체성 보상 모델을 훈련시키는 잠재 정체성 보상 피드백 학습 패러다임을 설계합니다. 이는 잠재 공간에서 동작 인식 정체성 보상을 제공하여 인간의 선호도에 부합하는 정체성 보존을 우선시합니다. 저희가 구축한 대규모 데이터셋과 다중 객체 및 전체적 동작 제어 평가를 위한 포괄적인 DreamOmni Bench를 바탕으로, DreamVideo-Omni는 정밀한 제어 가능성을 갖춘 고품질 비디오 생성에서 우수한 성능을 입증합니다.

DVD: 생성적 사전 지식을 활용한 결정론적 비디오 깊이 추정
DVD: Deterministic Video Depth Estimation with Generative Priors

Mar 12

ByHongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen

기존 비디오 깊이 추정은 근본적인 딜레마에 직면해 있습니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트 문제를 겪는 반면, 판별 모델은 의미론적 모호성을 해결하기 위해 방대한 레이블 데이터셋을 요구합니다. 이러한 교착 상태를 타개하기 위해 우리는 사전 학습된 비디오 확산 모델을 단일 패스 깊이 회귀 분석기로 결정론적으로 변환하는 최초의 프레임워크인 DVD를 제안합니다. 구체적으로 DVD는 세 가지 핵심 설계를 특징으로 합니다: (i) 확산 타임스텝을 구조적 앵커로 재구성하여 전역적 안정성과 고주파 세부 사항 간의 균형을 유지하는 것, (ii) 회귀 분석으로 인한 과도한 평활화를 완화하고 미분 제약 조건을 적용하여 선명한 경계와 일관된 운동을 복원하는 잠재 공간 정규화(LMR), (iii) 창간 발산을 제한하는 내재적 속성인 전역 아핀 일관성으로, 복잡한 시간 정렬 없이도 원활한 장기간 비디오 추론을 가능하게 합니다. 광범위한 실험을 통해 DVD가 벤치마크 전반에서 최첨단 제로샷 성능을 달성함을 입증했습니다. 더 나아가 DVD는 최고 수준의 기준 모델 대비 163배 적은 작업 특화 데이터를 사용하여 비디오 파운데이션 모델에 내재된 심오한 기하학적 사전 지식을 성공적으로 활용합니다. 특히, 우리는 오픈소스 커뮤니티에 기여하기 위해 SOTA 비디오 깊이 추정을 위한 전체 학습 도구를 포함한 파이프라인을 완전히 공개합니다.

WeEdit: 텍스트 중심 이미지 편집을 위한 데이터셋, 벤치마크 및 글리프 기반 프레임워크
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Mar 12

ByHui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang

지시어 기반 이미지 편집은 비대상 영역을 보존하면서 사용자가 제공한 지시에 따라 기존 이미지의 특정 콘텐츠를 수정하는 것을 목표로 합니다. 기존의 객체 및 스타일 중심 조작을 넘어, 텍스트 중심 이미지 편집은 이미지 내에 내재된 텍스트 요소를 수정, 번역 또는 재배열하는 데 중점을 둡니다. 그러나 기존의 주요 모델들은 복잡한 텍스트 편집을 정확하게 실행하는 데 어려움을 겪으며, 흐릿하거나 허구적인 문자를 생성하는 경우가 많습니다. 이러한 실패의 주요 원인은 텍스트 중심 편집에 특화된 훈련 패러다임의 부족과 폐쇄형 훈련 및 평가 시스템에 필요한 대규모 데이터셋 및 표준화된 벤치마크의 부재로 파악됩니다. 이러한 한계를 해결하기 위해 우리는 확장 가능한 데이터 구축 파이프라인, 두 가지 벤치마크, 그리고 맞춤형 2단계 훈련 전략을 포함하는 체계적인 솔루션인 WeEdit을 제시합니다. 구체적으로, 다양한 편집 작업과 15개 언어를 포괄하는 330K 개의 훈련 데이터 쌍을 생성하는 새로운 HTML 기반 자동 편집 파이프라인과 포괄적 평가를 위한 표준화된 이중 언어 및 다국어 벤치마크를 함께 제안합니다. 알고리즘 측면에서는 명시적 공간 및 콘텐츠 사전 지식을 주입하기 위해 글리프 기반 지도 미세 조정을 적용한 후, 생성 결과가 지시 준수, 텍스트 선명도, 배경 보존과 일치하도록 조정하는 다중 목표 강화 학습 단계를 수행합니다. 광범위한 실험을 통해 WeEdit이 다양한 편집 작업에서 기존 오픈소스 모델들을 명확한 차이로 능가함을 입증합니다.

비판을 신뢰하라: 신뢰할 수 있는 이미지 편집 및 생성을 위한 강건한 보상 모델링과 강화 학습
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Mar 12

ByXiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang

강화 학습(RL)은 이미지 편집 및 텍스트-이미지(T2I) 생성 향상을 위한 유망한 패러다임으로 부상했습니다. 그러나 RL 과정에서 비평가 역할을 하는 기존 보상 모델은 종종 환각(hallucination) 현상을 보이며 노이즈가 많은 점수를 부여함으로써 최적화 과정을 근본적으로 잘못 이끄는 문제가 있습니다. 본 논문에서는 신뢰할 수 있는 이미지 생성 및 편집을 위해 정확하고 안정적인 지침을 제공하는 강력한 보상 모델을 개발하는 포괄적 프레임워크인 FIRM(Faithful Image Reward Modeling)을 소개합니다. 첫째, 고품질 점수 평가 데이터셋 구축을 위해 맞춤형 데이터 큐레이션 파이프라인을 설계합니다. 구체적으로 편집 작업은 실행성(execution)과 일관성(consistency)을 모두 통해 평가하는 반면, 생성 작업은 주로 지시 사항 준수도(instruction following)를 통해 평가합니다. 이러한 파이프라인을 활용하여 FIRM-Edit-370K 및 FIRM-Gen-293K 데이터셋을 수집하고, 해당 기준을 정확히 반영하는 전용 보상 모델(FIRM-Edit-8B 및 FIRM-Gen-8B)을 학습시킵니다. 둘째, 편집 및 생성 비평가를 위해 특별히 설계된 포괄적 벤치마크인 FIRM-Bench를 도입합니다. 평가 결과, 우리 모델이 기존 지표들에 비해 인간의 판단과 더 우수한 일치도를 달성함을 보여줍니다. 나아가, 이러한 비평가를 RL 파이프라인에 원활하게 통합하기 위해 상충되는 목표를 균형 있게 조절하는 새로운 "Base-and-Bonus" 보상 전략을 정식화합니다. 즉, 편집을 위한 일관성 조절 실행(Consistency-Modulated Execution, CME)과 생성을 위한 품질 조절 정합(Quality-Modulated Alignment, QMA)입니다. 이 프레임워크를 통해 구현된 최종 모델인 FIRM-Qwen-Edit과 FIRM-SD3.5는 상당한 성능 돌파를 이루었습니다. 포괄적 실험을 통해 FIRM이 환각 현상을 완화하며, 기존 일반 모델 대비 정확도(fidelity)와 지시 사항 준수 측면에서 새로운 기준을 수립함을 입증합니다. 우리의 모든 데이터셋, 모델 및 코드는 https://firm-reward.github.io에서 공개되었습니다.

한 모델, 다양한 예산: 확산 트랜스포머를 위한 탄력적 잠재 인터페이스
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Mar 12

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

확산 트랜스포머(DiT)는 높은 생성 품질을 달성하지만 FLOPs가 이미지 해상도에 고정되어 원칙적인 지연 시간-품질 간의 트레이드오프를 제한하며, 입력 공간 토큰 전체에 계산을 균일하게 할당하여 중요하지 않은 영역에 자원 할당을 낭비합니다. 본 논문에서는 입력 이미지 크기와 계산을 분리하는 드롭인(drop-in) 방식의 DiT 호환 메커니즘인 Elastic Latent Interface Transformer(ELIT)를 소개합니다. 우리의 접근 방식은 표준 트랜스포머 블록이 연산을 수행할 수 있는 학습 가능한 가변 길이 토큰 시퀀스인 잠재 인터페이스를 삽입합니다. 경량화된 Read 및 Write 교차 주의력(cross-attention) 계층은 공간 토큰과 잠재 변수 간에 정보를 이동시키고 중요한 입력 영역을 우선적으로 처리합니다. 꼬리 잠재 변수(tail latents)를 무작위로 제거하며 학습함으로써, ELIT는 초기 잠재 변수가 전역 구조를 포착하는 동안 후기 잠재 변수는 세부 사항을 정교화하는 정보를 포함하는 중요도 순서 표현을 생성하도록 학습합니다. 추론 시에는 잠재 변수의 수를 계산 제약에 맞게 동적으로 조정할 수 있습니다. ELIT는 의도적으로 최소한의 변경만을 가하며, 두 개의 교차 주의력 계층만 추가하고 정류 흐름(rectified flow) 목적 함수와 DiT 스택은 그대로 유지합니다. 다양한 데이터셋과 아키텍처(DiT, U-ViT, HDiT, MM-DiT)에서 ELIT는 일관된 성능 향상을 제공합니다. ImageNet-1K 512px에서 ELIT는 FID 및 FDD 점수에서 각각 평균 35.3%, 39.6%의 향상을 달성합니다. 프로젝트 페이지: https://snap-research.github.io/elit/

RubiCap: 밀집 이미지 캡션 생성을 위한 루브릭 기반 강화 학습
RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Mar 10

ByTzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu

고밀도 영상 캡셔닝(dense image captioning)은 시각-언어 사전 학습 및 텍스트-이미지 생성에서 크로스 모달 정렬(cross-modal alignment)에 필수적이지만, 전문가 수준의 주석을 대규모로 확보하는 것은 비용이 매우 높습니다. 강력한 시각-언어 모델(VLM)을 통한 합성 캡셔닝은 실용적인 대안이지만, 지도 학습 기반 증류(distillation)는 종종 제한된 출력 다양성과 약한 일반화 성능을 보입니다. 강화 학습(RL)은 이러한 한계를 극복할 수 있으나, 그 성공은 결정론적 검사기(deterministic checker)에 의존하는 검증 가능한 영역에 집중되어 있습니다. 이는 개방형 캡셔닝에서는 사용하기 어려운 조건입니다. 우리는 LLM이 작성한 루브릭(rubric)에서 세분화된 샘플별 보상 신호를 도출하는 새로운 RL 프레임워크인 RubiCap으로 이 문제를 해결합니다. RubiCap은 먼저 다양한 후보 캡션 위원회를 구성한 다음, LLM 루브릭 작성기를 활용하여 현재 정책의 공통적 강점을 추출하고 결점을 진단합니다. 이러한 통찰은 명시적 평가 기준으로 변환되어, LLM 평가관이 전체적 품질 평가를 분해하고 단순한 스칼라 보상 대신 구조화된 다면적 평가를 가능하게 합니다. 다양한 벤치마크에서 RubiCap은 CapArena에서 가장 높은 승률을 기록하며, 지도 학습 증류, 기존 RL 방법, 인간 전문가 주석 및 GPT-4V 보강 출력을 능가했습니다. CaptionQA에서는 우수한 어휘 효율성을 보였습니다: 우리의 7B 모델은 Qwen2.5-VL-32B-Instruct와 동등한 성능을, 3B 모델은 해당 7B 모델을 능가했습니다. 특히, 소형 RubiCap-3B를 캡셔너로 사용하면 사적 모델의 캡션으로 학습된 VLM보다 더 강력한 사전 학습 VLM이 생성됩니다.

GRADE: 이미지 편집에서 분야 기반 추론 성능 평가
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Mar 12

ByMingxin Liu, Ziqian Fan, Zhaokai Wang, Leyao Gu, Zirun Zhu, Yiguo He, Yuchen Yang, Changyao Tian, Xiangyu Zhao, Ning Liao, Shaofeng Zhang, Qibing Ren, Zhihang Zhong, Xuanhe Zhou, Junchi Yan, Xue Yang

통합 멀티모달 모델은 통합적인 이해, 추론 및 생성을 목표로 하지만, 현재 이미지 편집 벤치마크는 자연 이미지와 단순한 상식 추론에 국한되어 구조화된 도메인 특화 제약 조건 하에서의 이러한 능력을 제대로 평가하지 못합니다. 본 연구에서는 학문 분야 기반 지식과 추론 능력을 이미지 편집에서 평가하는 최초의 벤치마크인 GRADE를 소개합니다. GRADE는 자연과학부터 사회과학까지 10개 학문 영역에 걸쳐 신중하게 선별된 520개 샘플로 구성됩니다. 엄격한 평가를 위해 우리는 학문적 추론(Discipline Reasoning), 시각적 일관성(Visual Consistency), 논리적 가독성(Logical Readability)을 종합적으로 평가하는 다차원 평가 프로토콜을 제안합니다. 20개의 최첨단 오픈소스 및 클로즈드소스 모델에 대한 대규모 실험 결과, 암묵적이고 지식 집약적인 편집 환경에서 현재 모델들의 심각한 한계가 드러나 큰 성능 격차를 확인했습니다. 정량적 점수 이상으로, 우리는 모델의 단점을 규명하고 학문 분야 편집의 제약 조건을 파악하기 위해 엄밀한 분석과 애블레이션 실험을 수행했습니다. GRADE는 통합 멀티모달 모델의 미래 발전을 위한 핵심 방향을 제시하며, 학문 기반 이미지 편집 및 추론 연구의 발전을 촉진합니다. 우리의 벤치마크와 평가 코드는 공개되었습니다.

CREATE: 연관 창의성에 대한 LLM 테스트
CREATE: Testing LLMs for Associative Creativity

Mar 10

ByManya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

창의성의 핵심 구성 요소는 연합 추론(associative reasoning)으로, 개념들 사이에 새롭면서도 의미 있는 연결을 도출하는 능력을 말합니다. 우리는 모델의 창의적 연합 추론 능력을 평가하기 위해 설계된 벤치마크인 CREATE를 소개합니다. CREATE는 모델이 자신의 매개변수적 지식 내 개념들을 연결하는 경로 집합을 생성하도록 요구합니다. 경로는 높은 특이성(개념 연결의 독특성과 긴밀도)과 높은 다양성(다른 경로와의 비유사성)을 가져야 하며, 모델은 강력하고 다양한 경로를 더 큰 집합으로 생성할수록 높은 점수를 받습니다. 이 과제는 극도로 큰 탐색 공간을 포함하여 가설 생성과 같은 실제 창의성 과제의 요구 사항을 공유하지만, 객관적인 답안 채점이 가능한 상당한 규모의 벤치마크 수집을 가능하게 합니다. 최첨단 모델 평가 결과, 가장 강력한 모델이 다른 모델들보다 높은 창의적 효용을 달성했으며, 답변의 높은 다양성과 탐색의 복잡성으로 인해 벤치마크 포화를 달성하기 어렵다는 점을 보여줍니다. 더 나아가, 우리의 결과는 사고 모델(thinking model)이 높은 토큰 예산에도 불구하고 우리 과제에서 항상 더 효과적인 것은 아니라는 점을 설명합니다. 최근의 창의적 프롬프팅 접근법은 일부 제한적인 추가 개선 효과만을 보였습니다. CREATE는 모델의 연합 창의성 능력을 향상시키는 새로운 방법을 개발하기 위한 실험 공간을 제공합니다.

EVATok: 효율적인 시각 자가회귀 생성을 위한 적응형 길이 비디오 토큰화
EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Mar 12

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu

자기회귀(AR) 비디오 생성 모델은 픽셀을 이산 토큰 시퀀스로 압축하는 비디오 토크나이저에 의존합니다. 이러한 토큰 시퀀스의 길이는 재구성 품질과 하류 생성 계산 비용 간의 균형을 맞추는 데 중요합니다. 기존 비디오 토크나이저는 서로 다른 비디오의 시간적 블록에 걸쳐 균일한 토큰 할당을 적용하는데, 이로 인해 단순하거나 정적이거나 반복적인 세그먼트에는 토큰을 낭비하는 반면, 역동적이거나 복잡한 세그먼트에는 토큰이 부족하게 할당되는 경우가 많습니다. 이러한 비효율성을 해결하기 위해 우리는 효율적인 비디오 적응형 토크나이저(EVATok) 프레임워크를 소개합니다. 우리의 프레임워크는 최적의 품질-비용 절충을 달성하기 위해 각 비디오에 대한 최적의 토큰 할당을 추정하고, 이러한 최적 할당을 빠르게 예측하기 위한 경량 라우터를 개발하며, 라우터가 예측한 할당을 기반으로 비디오를 인코딩하는 적응형 토크나이저를 학습합니다. 우리는 EVATok이 비디오 재구성 및 하류 AR 생성에서 효율성과 전반적인 품질을 크게 향상시킴을 입증합니다. 비디오 의미론적 인코더를 통합한 고급 학습 방법론으로 강화된 EVATok은 UCF-101에서 우수한 재구성 성능과 최첨단 클래스-비디오 생성 성능을 달성하며, 기존 최신 기술인 LARP 및 우리의 고정 길이 베이스라인 대비 평균 토큰 사용량을 최소 24.4% 절감합니다.

신경 덩굴숲: 사전 훈련된 가중치 주변에 밀집된 다양한 작업 전문가들
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Mar 12

ByYulu Gan, Phillip Isola

사전학습은 일반적으로 추가적인 반복적 적응을 위한 시작점으로 취급되는 학습된 매개변수 벡터를 생성합니다. 본 연구에서는 사전학습의 결과를 매개변수 벡터에 대한 분포로 바라보며, 이 분포의 지지집합이 이미 작업별 전문가를 포함하고 있다고 간주합니다. 우리는 소규모 모델에서는 이러한 전문가 해법이 해당 분포 부피의 무시할 만한 부분만을 차지하여, 그 발견이 경사하강법과 같은 구조화된 최적화 방법에 의존하게 됨을 보여줍니다. 반대로, 대규모이며 잘 사전학습된 모델에서는 작업 전문가의 밀도가 급격히 증가하여, 다양한 작업 성능 향상 전문가들이 사전학습된 가중치 주변의 상당 부분을 차지하게 됩니다. 이러한 관점에 기반하여, 우리는 N개의 매개변수 섭동을 무작위로 샘플링하고 상위 K개를 선택한 후 다수결 투표를 통해 예측을 앙상블하는 간단한 완전 병렬 사후학습 방법을 탐구합니다. 간단함에도 불구하고, 이 접근법은 현대적 대규모 모델에 대해 PPO, GRPO, ES와 같은 표준 사후학습 방법들과 경쟁력을 보입니다.

OmniStream: 연속 스트림에서의 인지, 재구성 및 행동 마스터링
OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Mar 12

ByYibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie

현대 시각 에이전트는 실시간 스트리밍 환경에서 작동하기 위해 일반적이고 인과적이며 물리적으로 구조화된 표현을 필요로 합니다. 그러나 현재의 시각 기초 모델들은 이미지 의미론적 인지, 오프라인 시간적 모델링, 공간 기하학 등으로 좁게 특화되어 분열된 상태를 유지하고 있습니다. 본 논문은 다양한 시각 입력으로부터 효과적으로 인지, 재구성 및 행동할 수 있는 통합 스트리밍 시각 백본인 OmniStream을 소개합니다. 인과적 시공간 주의 메커니즘과 3D 회전 위치 임베딩(3D-RoPE)을 도입함으로써, 우리 모델은 지속적인 KV 캐시를 통해 비디오 스트림의 효율적인 프레임 단위 온라인 처리를 지원합니다. 우리는 29개 데이터셋에 대해 정적 및 시간적 표현 학습, 스트리밍 기하학적 재구성, 그리고 시각-언어 정렬을 결합한 시너지 다중 작업 프레임워크를 사용하여 OmniStream을 사전 학습합니다. 광범위한 평가 결과, 백본을 엄격하게 고정한 상태에서도 OmniStream은 이미지 및 비디오 프로빙, 스트리밍 기하학적 재구성, 복잡한 비디오 및 공간 추론, 그리고 (학습 시 보지 않은) 로봇 매니툴레이션에 이르기까지 다양한 분야의 전문 모델들과 꾸준히 경쟁력 있는 성능을 달성합니다. 벤치마크별 최고 성능 추구보다는, 본 연구는 의미론적, 공간적, 시간적 추론을 아우르는 단일의 다목적 시각 백본을 학습하는 것이 실현 가능함을 입증합니다. 즉, 상호작용 및 구현 에이전트를 위한 범용 시각 이해로 나아가는 더 의미 있는 단계를 보여줍니다.

FP4 양자화된 LLM 학습에서 평균 편향의 저주와 축복
The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Mar 11

ByHengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang

자연어로 훈련된 대규모 언어 모델은 뚜렷한 이방성을 보인다. 소수의 방향이 과도한 에너지를 집중시키는 반면, 나머지 차원들은 넓은 의미론적 꼬리를 형성한다. 저비트 훈련 체제에서는 이러한 기하학적 구조가 수치적으로 불안정해진다. 블록별 양자화 척도가 요소별 최대 크기에 의해 결정되기 때문에, 지배적인 방향이 동적 범위를 확장하여 긴 꼬리 형태의 의미론적 변이를 좁은 수치 구간으로 압축하기 때문이다. 본 연구에서는 이러한 불안정성이 주로 응집된 1순위 평균 편향에 의해 발생함을 보인다. 이 편향은 LLM 표현의 스펙트럼 이방성에서 지배적인 구성 요소를 이룬다. 이러한 평균 구성 요소는 계층과 훈련 단계에 걸쳐 체계적으로 나타나며, 대부분의 극단적 활성화 크기를 설명함으로써 저정밀도 조건에서 동적 범위 팽창의 주요 원인이 된다. 중요한 것은 지배적인 불안정성이 1순위 특성을 가지므로, 단순한 소스 수준의 평균 차감 연산을 통해 제거될 수 있다는 점이다. 이러한 편향 중심 조건화는 SVD 기반 스펙트럼 방법의 안정성 이점 대부분을 복구하면서도 축소 연산과 표준 양자화 커널만을 요구한다. FP4(W4A4G4) 훈련에 대한 실험 결과, 평균 제거가 BF16 대비 손실 격차를 현저히 좁히고 하류 작업 성능을 회복하여 하드웨어 효율적인 저비트 LLM 훈련 경로를 제공함을 확인하였다.

EndoCoT: 확산 모델에서의 내인적 사고 연쇄 추론 확장
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Mar 12

ByXuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

최근 멀티모달 대규모 언어 모델(MLLM)이 주로 텍스트 인코더로 확산 프레임워크에 광범위하게 통합되어 공간 추론과 같은 복잡한 작업을 해결하고 있습니다. 그러나 이러한 패러다임은 두 가지 중요한 한계를 지닙니다: (i) MLLM 텍스트 인코더의 추론 깊이가 불충분합니다. 단일 단계 인코딩은 사고의 연쇄 과정을 활성화하지 못하는데, 이 과정은 MLLM이 복잡한 작업에 대한 정확한 지침을 제공하기 위해 필수적입니다. (ii) 디코딩 과정 동안 지침이 변하지 않습니다. 디코딩 과정에서 불변하는 지침은 올바른 MLLM 인코딩이 있더라도 DiT가 복잡한 지시사항을 실행 가능한 노이즈 제거 단계로 점진적으로 분해하는 것을 방해합니다. 이를 위해 우리는 Endogenous Chain-of-Thought(EndoCoT)를 제안합니다. 이 새로운 프레임워크는 먼저 반복적 사고 지도 모듈을 통해 잠재 사고 상태를 반복적으로 개선하여 MLLM의 추론 잠재력을 활성화한 후, 이러한 상태를 DiT의 노이즈 제거 과정과 연결합니다. 두 번째로, 최종 사고 기반 모듈은 최종 상태를 실제 정답과 정렬함으로써 추론 궤적이 텍스트 supervision에 기반을 둔 상태를 유지하도록 보장합니다. 이 두 가지 구성 요소를 통해 MLLM 텍스트 인코더는 세심하게 추론된 지도를 제공하며, DiT가 이를 점진적으로 실행하고 궁극적으로 복잡한 작업을 단계별 방식으로 해결할 수 있게 합니다. 다양한 벤치마크(예: Maze, TSP, VSP, Sudoku)에 걸친 광범위한 평가에서 평균 정확도 92.1%를 달성하여 가장 강력한 기준선을 8.3% 포인트 앞섰습니다.

Mobile-GS: 모바일 기기를 위한 실시간 가우시안 스플래팅
Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

Mar 12

ByXiaobiao Du, Yida Wang, Kun Zhan, Xin Yu

3D 가우시안 스플래팅(3DGS)은 다양한 응용 분야에서 고품질 렌더링을 위한 강력한 표현 방식으로 부상했습니다. 그러나 높은 계산 요구량과 큰 저장 공간 비용으로 인해 모바일 기기에서의 배포에는 상당한 어려움이 따릅니다. 본 연구에서는 모바일 환경에 맞춰진 실시간 가우시안 스플래팅 방법인 Mobile-GS를 제안하여 에지 기기에서 가우시안 스플래팅의 효율적인 추론을 가능하게 합니다. 구체적으로, 우리는 먼저 시간이 많이 소요되는 가우시안 깊이 정렬 과정에 의존하는 알파 블렌딩이 주요 계산 병목 현상임을 확인했습니다. 이 문제를 해결하기 위해 정렬이 필요 없는 깊이 인식 순서 독립 렌더링 기법을 제안하여 렌더링 속도를 크게 가속합니다. 이 순서 독립 렌더링은 속도는 개선하지만, 렌더링 순서 정보의 부족으로 기하학적 요소가 중첩된 영역에서 투명도 관련 아티팩트가 발생할 수 있습니다. 이 문제를 해결하기 위해 시점 방향, 3D 가우시안 기하학 및 외관 속성에 조건화된 시점 의존 효과를 더 정확하게 모델링할 수 있는 신경망 기반 시점 의존 향상 전략을 제안합니다. 이를 통해 Mobile-GS는 높은 품질과 실시간 렌더링을 모두 달성할 수 있습니다. 나아가 메모리 제약이 있는 모바일 플랫폼에의 배포를 용이하게 하기 위해, 1차 구면 조화 함수 지식 증류, 신경망 벡터 양자화 기법, 그리고 기여도 기반 프루닝 전략을 도입하여 가우시안 기본 요소의 수를 줄이고 신경망의協助을 통해 3D 가우시안 표현을 압축합니다. 폭넓은 실험을 통해 제안된 Mobile-GS가 높은 시각적 품질을 유지하면서 실시간 렌더링과 컴팩트한 모델 크기를 달성하여 모바일 응용에 매우 적합함을 입증합니다.

비디오 추론 모델은 실외 환경에 적용할 준비가 되었는가?
Are Video Reasoning Models Ready to Go Outside?

Mar 11

ByYangfan He, Changgyu Boo, Jaehong Yoon

실제 환경에서 비전-언어 모델은 날씨, 폐색, 카메라 모션과 같은 다양한 방해 요인에 직면합니다. 이러한 조건에서 모델의 이해와 추론 능력은 현저히 저하되며, 이는 깨끗하고 통제된(즉, 방해가 없는) 평가 환경과 실제 강건성 간의 격차를 드러냅니다. 이러한 한계를 해결하기 위해 본 논문은 시공간적 손상 하에서 강건성 인지 일관성 보상을 모델링하여 강건성을 향상시키는 새로운 훈련 프레임워크인 ROVA를 제안합니다. ROVA는 모델의 진화하는 능력에 기반하여 정보성이 높은 샘플을 우선적으로 학습하는 난이도 인지 온라인 훈련 전략을 도입합니다. 구체적으로, 자기 반성적 평가를 통해 샘플 난이도를 지속적으로 재추정하여 강건성 인지 일관성 보상을 통한 적응형 훈련을 가능하게 합니다. 또한 실제적 방해 하에서 정확도와 추론 품질을 평가하기 위해 구현 비디오 데이터셋에 실제 세계의 방해를 주입하는 새로운 벤치마크인 PVRBench을 소개합니다. ROVA와 기준 모델을 PVRBench, UrbanVideo 및 VisBench에서 평가한 결과, 실제적 방해 하에서 오픈소스와 상용 모델의 정확도와 추론 점수가 각각 최대 35%, 28% 하락하는 것으로 나타났습니다. ROVA는 이러한 성능 저하를 효과적으로 완화하여 기준 모델(QWen2.5/3-VL, InternVL2.5, Embodied-R) 대비 상대 정확도를 최소 24% 이상, 추론 점수를 9% 이상 향상시켰습니다. 이러한 향상은 깨끗한 표준 벤치마크로도 전이되어 일관된 성능 개선을 보여주었습니다.

재구성을 통한 이해: LLM 사전 학습을 위한 소프트웨어 개발 과정의 역전
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Mar 11

ByZhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua, Siyuan Fang, Zhaiyu Liu, Jiaheng Liu, Haozhe Wang, Yining Zheng, Ming Ding, Ke Shen, Ge Zhang, Wenhao Huang, Xipeng Qiu

대규모 언어 모델(LLM)은 코드 생성 분야에서 놀라운 성과를 거두었지만, 복잡한 소프트웨어 공학에 필요한 심층적이고 장기적인 추론에는 종종 어려움을 겪습니다. 우리는 이러한 한계가 표준 사전 학습 데이터의 본질에서 기인한다고 봅니다. 정적 소프트웨어 저장소는 복잡한 지적 과정의 최종 상태만을 나타낼 뿐, 중간 단계의 기획, 디버깅, 반복적 개선 과정은 추상화되어 배제되기 때문입니다. 이 격차를 해소하기 위해 우리는 재구성을 통한 이해라는 새로운 패러다임을 제안합니다. 우리는 정적 저장소 뒤에 숨겨진 에이전트 궤적(기획, 추론, 디버깅 단계)을 역공학하는 것이 단순한 원시 코드보다 훨씬 풍부한 지도 신호를 제공할 것이라고 가정합니다. 이를 구현하기 위해 우리는 다중 에이전트 시뮬레이션을 활용하여 이러한 궤적을 합성하는 프레임워크를 도입했습니다. 이 과정은 소스 저장소의 구조적 현실(예: 의존성 그래프 및 파일 계층 구조)에 기반하여 충실도를 보장합니다. 더 나아가 합성 데이터의 논리적 엄밀성을 보장하기 위해, 검색 기반 최적화 기법을 사용하여 사고 연쇄(CoT) 추론을 반복적으로 개선하여 실제 코드의 가능도를 최대화합니다. 실험 결과, 재구성된 궤적에 대한 지속적 사전 학습은 장문맥 이해, 코딩 능력, 에이전트 능력을 포함한 다양한 벤치마크에서 Llama-3-8B의 성능을 크게 향상시키는 것으로 나타났습니다.

자기 성찰을 통한 메타 강화 학습을 활용한 에이전트 탐색
Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Mar 11

ByTeng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi

본 논문은 자기 성찰(self-reflection)을 통한 에이전트 탐색을 위한 인-컨텍스트 메타 강화학습(Meta-RL) 프레임워크인 MR-Search를 소개한다. MR-Search는 희소한 보상이 주어지는 단일 독립 에피소드 내에서 정책을 최적화하는 대신, 과거 에피소드에 조건을 두고 에피소드 간 탐색 전략을 적응시키는 정책을 학습한다. MR-Search는 자기 성찰을 통한 탐색 전략을 학습함으로써 탐색 에이전트가 테스트 시점에 인-컨텍스트 탐색 성능을 향상시킬 수 있도록 한다. 구체적으로, MR-Search는 각 에피소드 이후 명시적인 자기 성찰을 생성하고 이를 후속 시도의 추가 컨텍스트로 활용하여 교차 에피소드 탐색을 수행함으로써 테스트 시간 동안 더 효과적인 탐색을 촉진한다. 또한 본 연구는 턴 수준에서 조밀한 상대적 이점(dense relative advantage)을 추정하는 다중 턴 RL 알고리즘을 도입하여 각 에피소드에 대한 세밀한 크레딧 할당을 가능하게 한다. 다양한 벤치마크에 대한 실험 결과는 MR-Search가 기준 RL 기반 방법들보다 우수함을 보여주며, 강력한 일반화 성능과 8개 벤치마크에서 9.2%에서 19.3%에 이르는 상대적 성능 향상을 입증한다. 코드와 데이터는 https://github.com/tengxiao1/MR-Search에서 확인할 수 있다.

신경 세포 자동자를 통한 언어 모델 학습
Training Language Models via Neural Cellular Automata

Mar 9

ByDan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal

대규모 언어 모델(LLM)에서 사전 학습은 대부분의 표현과 능력이 습득되는 중요한 단계입니다. 그러나 자연어 사전 학습에는 한계가 있습니다: 고품질 텍스트는 유한하며, 인간의 편향을 내포하고, 지식과 추론이 뒤엉켜 있습니다. 이는 근본적인 질문을 제기합니다: 자연어가 지능을 달성하는 유일한 경로인가? 우리는 신경 세포 자동자(NCA)를 활용해 LLM의 사전-사전 학습(합성 데이터 후 자연어 순차 학습)을 위한 비언어적 합성 데이터를 생성하는 방법을 제안합니다. NCA 데이터는 자연어와 유사한 풍부한 시공간적 구조와 통계적 특성을 보이면서도 대규모 생성이 통제 가능하고 저렴합니다. 단 1억 6,400만 NCA 토큰만으로 사전-사전 학습을 수행하면 하류 언어 모델링 성능이 최대 6% 향상되고 수렴 속도가 최대 1.6배 가속화된다는 사실을 발견했습니다. 놀랍게도 이는 Common Crawl의 16억 자연어 토큰으로 더 많은 계산량을 투입해 사전-사전 학습한 경우보다도 우수한 성능을 보였습니다. 이러한 이점은 GSM8K, HumanEval, BigBench-Lite 등 추론 벤치마크로도 이전되었습니다. 전이 효과의 원인을 분석한 결과, 어텐션 계층이 가장 잘 전이되며, 최적의 NCA 복잡도는 도메인에 따라 달라짐을 확인했습니다: 코드는 단순한 동역학에서 이점을 얻는 반면, 수학 및 웹 텍스트는 더 복잡한 동역학을 선호합니다. 이러한 결과는 합성 데이터 분포를 대상 도메인에 맞게 체계적으로 조정할 수 있는 길을 열어줍니다. 더 넓게 보면, 우리의 연구는 완전한 합성 사전 학습을 통해 더 효율적인 모델을 개발하는 길을 제시합니다.

작은 아야: 규모와 다국어 심층성의 간극을 메우다
Tiny Aya: Bridging Scale and Multilingual Depth

Mar 12

ByAlejandro R. Salamanca, Diana Abagyan, Daniel D'souza, Ammar Khairi, David Mora, Saurabh Dash, Viraat Aryabumi, Sara Rajaee, Mehrnaz Mofakhami, Ananya Sahu, Thomas Euyang, Brittawnya Prince, Madeline Smith, Hangyu Lin, Acyr Locatelli, Sara Hooker, Tom Kocmi, Aidan Gomez, Ivan Zhang, Phil Blunsom, Nick Frosst, Joelle Pineau, Beyza Ermis, Ahmet Üstün, Julia Kreutzer, Marzieh Fadaee

Tiny Aya는 소형 다국어 언어 모델이 달성할 수 있는 성능의 기준을 재정의합니다. 70개 언어로 학습되고 지역 인식 사후 훈련을 통해 정제된 이 모델은 단 35억 개의 매개변수만으로도 최고 수준의 번역 품질, 강력한 다국어 이해 능력, 그리고 높은 품질의 대상 언어 생성을 제공합니다. 이번 공개에는 사전 훈련된 기초 모델, 전역적으로 균형 잡힌 지시 튜닝 변형 모델, 그리고 아프리카, 남아시아, 유럽, 아시아-태평양, 서아시아 언어를 대상으로 하는 세 가지 지역 특화 모델이 포함됩니다. 본 보고서는 Tiny Aya의 훈련 전략, 데이터 구성, 포괄적인 평가 체계를 상세히 설명하고, 효율성, 언어 간 균형 잡힌 성능, 실용적인 배포에 중점을 둔 다국어 AI를 위한 대안적인 확장 경로를 제시합니다.

고성능 강화학습 환경의 자동 생성
Automatic Generation of High-Performance RL Environments

Mar 12

BySeth Karten, Rahul Dev Appapogu, Chi Jin

복잡한 강화 학습(RL) 환경을 고성능 구현체로 변환하는 작업은 전통적으로 수개월에 걸친 전문적인 엔지니어링이 필요했습니다. 본 논문은 재사용 가능한 방법론—일반적인 프롬프트 템플릿, 계층적 검증, 반복적인 에이전트 지원 수정—을 제시하며, 이는 약 $10 미만의 컴퓨팅 비용으로 의미론적으로 동등한 고성능 환경을 생성합니다. 우리는 5가지 환경에 걸쳐 세 가지 별개의 워크플로를 입증합니다. 직접 변환(기존 고성능 구현체 없음): EmuRust(게임보이 에뮬레이터용 Rust 병렬화를 통한 PPO 속도 1.5배 향상) 및 최초의 GPU 병렬 포켓몬 배틀 시뮬레이터인 PokeJAX(무작위 행동 기준 초당 5억 스텝, PPO 기준 초당 1,520만 스텝; TypeScript 기준 구현체 대비 22,320배). 기존 고성능 구현체 대비 검증된 변환: MJX와의 처리량 동등성(1.04배) 및 동일 GPU 배치 크기에서 Brax 대비 5배 성능(HalfCheetah JAX); PPO 기준 42배 성능(Puffer Pong). 새로운 환경 생성: 웹에서 추출한 명세로부터 합성된, 최초의 배포 가능한 JAX 기반 포켓몬 TCG 엔진인 TCGJax(무작위 행동 기준 초당 71.7만 스텝, PPO 기준 초당 15.3만 스텝; Python 기준 구현체 대비 6.6배). 2억 개의 매개변수 기준으로 환경 오버헤드는 학습 시간의 4% 미만으로 감소합니다. 계층적 검증(속성, 상호작용, 롤아웃 테스트)은 5가지 환경 모두에 대한 의미론적 동등성을 확인하며; 크로스-백엔드 정책 전이는 5가지 환경 모두에서 시뮬레이터 간 격차가 없음을 확인합니다. 공개 저장소에 존재하지 않는 비공개 기준 구현체로부터 합성된 TCGJax는 에이전트 사전 학습 데이터 오염 문제에 대한 통제 변인 역할을 합니다. 본 논문에는 코딩 에이전트가 원고만으로 변환 작업을 직접 재현할 수 있도록 대표적인 프롬프트, 검증 방법론, 완전한 결과를 포함한 충분한 세부 사항이 포함되어 있습니다.

FireRedASR2S: 산업 등급 올인원 자동 음성 인식 시스템의 최첨단 기술
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Mar 11

ByKaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu

저희는 산업용 최첨단 올인원 자동 음성 인식(ASR) 시스템인 FireRedASR2S를 소개합니다. 본 시스템은 ASR, 음성 활동 탐지(VAD), 구어 언어 식별(LID), 문장 부호 예측(Punc)이라는 4가지 모듈을 통합 파이프라인으로 구성합니다. 모든 모듈은 평가된 벤치마크에서 SOTA 성능을 달성했습니다: FireRedASR2: FireRedASR2-LLM(80억+ 매개변수)과 FireRedASR2-AED(10억+ 매개변수) 두 가지 변종을 가진 ASR 모듈로, 표준 중국어, 중국어 방언 및 억양, 영어, 코드 전환에 대한 음성 및 노래 전사를 지원합니다. FireRedASR 대비 향상된 인식 정확도와 더 넓은 방언 및 억양 커버리지를 제공합니다. FireRedASR2-LLM은 4개의 공개 표준 중국어 벤치마크에서 평균 2.89% CER, 19개의 공개 중국어 방언 및 억양 벤치마크에서 11.55% CER을 달성하여 Doubao-ASR, Qwen3-ASR, Fun-ASR 등을 포함한 경쟁 기준선들을 능가합니다. FireRedVAD: DFSMN(Deep Feedforward Sequential Memory Network) 기반의 초경량 모듈(60만 매개변수)로, 스트리밍 VAD, 비스트리밍 VAD, 다중 레이블 VAD(mVAD)를 지원합니다. FLEURS-VAD-102 벤치마크에서 프레임 수준 F1 97.57%, AUC-ROC 99.60%를 달성하여 Silero-VAD, TEN-VAD, FunASR-VAD, WebRTC-VAD를 능가합니다. FireRedLID: 100개 이상의 언어와 20개 이상의 중국어 방언 및 억양을 지원하는 Encoder-Decoder LID 모듈입니다. FLEURS(82개 언어)에서 발화 수준 정확도 97.18%를 달성하여 Whisper와 SpeechBrain을 능가합니다. FireRedPunc: 중국어와 영어를 위한 BERT 스타일 문장 부호 예측 모듈입니다. 다중 도메인 벤치마크에서 평균 F1 78.90%를 달성하여 FunASR-Punc(62.77%)를 능가합니다. 음성 처리 연구 발전을 위해 모델 가중치와 코드를 https://github.com/FireRedTeam/FireRedASR2S 에 공개합니다.

확산 모델을 위한 기하학적 오토인코더
Geometric Autoencoder for Diffusion Models

Mar 11

ByHangyu Liu, Jianyong Wang, Yutao Sun

잠재 디퓨전 모델은 고해상도 시각 생성 분야에서 새로운 최첨단 기술을 확립했습니다. 비전 파운데이션 모델 사전 지식을 통합하면 생성 효율성이 향상되지만, 기존 잠재 공간 설계는 대부분 경험적 방법에 머물러 있습니다. 이러한 접근법은 의미론적 식별성, 재구성 정확도, 잠재 공간 간소화를 통합하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 이러한 과제를 체계적으로 해결하는 원리 기반 프레임워크인 기하학적 오토인코더(GAE)를 제안합니다. 다양한 정렬 패러다임을 분석함으로써 GAE는 VFM에서 최적화된 저차원 의미론적 감독 목표를 구성하여 오토인코더에 지침을 제공합니다. 더 나아가 우리는 표준 VAE의 제한적인 KL-발산을 대체하는 잠재 정규화를 활용하여 디퓨전 학습에 특화된 더 안정적인 잠재 다양체를 가능하게 합니다. 고강도 노이즈 하에서도 견고한 재구성을 보장하기 위해 GAE는 동적 노이즈 샘플링 메커니즘을 도입했습니다. 실험적으로 GAE는 ImageNet-1K 256x256 벤치마크에서 Classifier-Free Guidance 없이 80 에포크에서 1.82, 800 에포크에서 1.31의 gFID를 달성하며 기존 최신 방법을 크게 능가하는 성능을 보였습니다. 생성 품질을 넘어 GAE는 압축률, 의미론적 깊이, 견고한 재구성 안정성 사이에서 우수한 균형을 확립합니다. 이러한 결과는 우리의 설계 고려 사항을 검증하며 잠재 디퓨전 모델링에 유망한 패러다임을 제시합니다. 코드와 모델은 https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models에서 공개되었습니다.

악센트 벡터: 악센트 데이터 없이 다국어 TTS에서 제어 가능한 악센트 조작
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Mar 8

ByThanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

억양은 다문화를 반영하고 개인의 정체성 표현 방식을 형성하는 사회의 필수적인 요소입니다. 영어 사용자의 대다수는 비원어민(L2)이지만, 현재 텍스트-투-스피치(TTS) 시스템은 억양 데이터의 한계로 주로 미국식 억양 영어를 모델링합니다. 본 연구에서는 억양 학습 데이터 없이도 다국어 TTS에서 억양 조작을 가능하게 하는 제어 가능한 표현인 Accent Vector를 제안합니다. Accent Vector는 다른 언어(즉, 비영어)의 원어민 음성으로 TTS 시스템을 미세 조정하고, 억양 특성(즉, 영어에서)을 포착하는 태스크 벡터를 계산하여 도출됩니다. 벡터의 스케일링과 보간을 통해 억양 강도의 세밀한 제어가 가능하며 혼합 억양 음성을 생성할 수 있습니다. 또한 이 방법은 영어를 넘어 다른 언어들에서도 적용 가능하여 다국어 간 억양 제어를 가능하게 합니다. 객관적 및 인간 평가를 통해 Accent Vector의 세밀하고 구성적인 억양 제어 효과를 입증하였습니다.

DIVE: 일반화 가능한 도구 사용을 위한 행위 기반 작업 합성의 다양성 확장
DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Mar 10

ByAili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao

최근 연구에서는 사후 훈련된 도구 활용 LLM을 위한 에이전트 작업을 합성하고 있지만, 작업 및 도구 세트 변화 하에서의 강건한 일반화는 여전히 해결 과제로 남아 있습니다. 우리는 이러한 취약성이 합성된 작업의 다양성 부족에서 비롯된다고 분석합니다. 다양성 확장은 훈련 시 작업의 실행 가능성과 검증 가능성을 유지해야 하는 반면, 일반화는 다양한 도구 유형, 도구 세트 조합, 이질적인 도구 사용 패턴을 포괄해야 하므로 어려운 과제입니다. 우리는 DIVE를 제안하는데, 이는 증거 기반 방법론으로 합성 순서를 역전시켜 먼저 다양한 실제 도구를 실행하고 결과 트레이스에서 엄격하게 도출된 작업을 역산성함으로써 구성적으로 근거를 제공합니다. DIVE는 두 가지 제어 가능한 축인 도구 풀 커버리지와 작업별 도구 세트 다양성을 통해 구조적 다양성을 확장하며, 증거 수집-작업 도출 루프는 5개 도메인의 373개 도구에 걸쳐 풍부한 다단계 도구 사용 패턴을 추가로 유도합니다. DIVE 데이터(48k SFT + 3.2k RL)로 Qwen3-8B을 훈련한 결과, 9개의 OOD 벤치마크에서 평균 +22점 향상되었으며 가장 강력한 8B 기준 모델을 +68점 차이로 능가했습니다. 특히 제어된 확장 분석에 따르면, 데이터 양이 4분의 1에 불과하더라도 OOD 일반화를 위한 다양성 확장이 양적 확장보다 지속적으로 더 우수한 성능을 보였습니다.

가중 h-변환 샘플링을 통한 코스 가이드 시각적 생성
Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Mar 12

ByYanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen

거친 안내 시각 생성은 저하되거나 낮은 정밀도의 거친 참조로부터 정밀한 시각 샘플을 합성하는 기술로, 다양한 실제 응용 분야에서 필수적입니다. 학습 기반 접근법은 효과적이지만, 짝을 이룬 데이터 수집으로 인해 높은 학습 비용과 제한된 일반화라는 본질적인 한계를 지닙니다. 이에 따라 최근의 학습 없는 연구들은 사전 학습된 확산 모델을 활용하고 샘플링 과정 중에 안내를 통합하는 방법을 제안합니다. 그러나 이러한 학습 없는 방법들은 양방향(정밀-거친) 변환 연산자(예: 바이큐빅 다운샘플링)를 미리 알아야 하거나, 안내와 합성 품질 사이의 균형을 맞추기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해 우리는 확률적 과정(예: 샘플링 과정)을 원하는 조건 아래에 구속할 수 있는 도구인 h-변환을 이용한 새로운 안내 방법을 제안합니다. 구체적으로, 우리는 각 샘플링 시간 단계에서의 전이 확률을 원래 미분 방정식에 드리프트 함수를 추가하여 수정함으로써 생성 과정이 이상적인 정밀 샘플을 향하도록 근사적으로 조종합니다. 피할 수 없는 근사 오차를 해결하기 위해, 오차가 증가함에 따라 해당 항의 가중치를 점차 줄이는 노이즈 수준 인식 스케줄을 도입하여 안내 충실도와 높은 품질의 합성을 모두 보장합니다. 다양한 이미지 및 비디오 생성 작업에 걸친 광범위한 실험을 통해 우리 방법의 효과성과 일반화 능력을 입증합니다.

검증 불가능한 LLM 후속 학습에서 추론 능력 평가: LLM 판단자 모델 활용
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Mar 12

ByYixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen

추론 시간 확장의 이점을 얻을 수 있는 추론 LLM-판단 모델(Reasoning LLMs-as-Judges)은 출력의 정확성/품질을 직접 확인할 수 없는 검증 불가 영역으로 추론 모델의 성공을 확장할 수 있는 유망한 길을 제시합니다. 그러나 추론 판단 모델이 정적 평가 벤치마크에서는 더 나은 성능을 보였지만, 실제 정책 훈련에서의 효과는 체계적으로 검증되지 않았습니다. 따라서 우리는 강화 학습 기반 LLM 정렬에서 비추론 및 추론 판단 모델의 실제 영향을 조사하기 위해 엄격한 연구를 수행합니다. '골드 스탠다드' 판단 모델(gpt-oss-120b)이 더 작은 판단 모델들을 훈련시키기 위한 선호도 주석을 제공하는 우리의 통제된 합성 환경은 비추론 판단 모델과 추론 판단 모델 간의 주요 차이를 보여줍니다: 비추론 판단 모델은 쉽게 보드 해킹(reward hacking)으로 이어지는 반면, 추론 판단 모델은 골드 스탠다드 판단 모델로 평가 시 강력한 성능을 달성하는 정책으로 이어질 수 있습니다. 흥미롭게도, 추론 판단 모델로 훈련된 정책들은 다른 LLM 판단 모델들을 속여 Arena-Hard와 같은 인기 벤치마크에서도 높은 점수를 얻을 수 있는 매우 효과적인 적대적 출력을 생성하는 법을 학습함으로써 이러한 강력한 성능을 달성하는 것으로 나타났습니다. 추가 분석과 결합하여, 본 연구는 검증 불가 LLM 사후 훈련에 (추론) LLM 판단 모델을 적용하는 데 있어 중요한 발견과 개선의 여지를 모두 강조합니다.

PACED: 학생의 역량 한계에서의 지식 증류
PACED: Distillation at the Frontier of Student Competence

Mar 11

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

표준 LLM 증류는 두 가지 측면에서 계산 자원을 낭비합니다: 학생 모델이 이미 숙달한 문제(기울기 근사치가 0에 수렴)와 학생 모델의 역량을 훨씬 넘어서는 문제(기존 능력을 훼손하는 비일관적인 기울기)입니다. 본 연구는 이러한 낭비가 단순히 직관적인 문제를 넘어 구조적으로 필연적임을 보입니다: 증류 과정의 기울기 신호 대 잡음비는 합격률 분포의 양극단에서 이론적으로 소멸함을 증명합니다. 이러한 이론적 관찰을 바탕으로, 우리는 증류 기울기의 경계 소멸 구조에서 도출된 원리 기반 합격률 가중치 w(p) = p^α(1 - p)^β를 통해 증류를 학생 모델의 역량 최전방인 근접 발달 영역에 집중하는 프레임워크인 Paced를 제안합니다. 주요 결과: (1) 이론: Beta 커널 w(p) = p^α(1-p)^β가 증류의 신호 대 잡음비 구조에서 발생하는 주도적인 가중치 함수군임을 증명하며, 이 가중치가 미니맥스 강건성을 가짐을 보입니다(유계 곱셈적 오규격 하에서 최악의 경우 효율성 손실은 O(δ^2)에 불과함). (2) 증류: 더 큰 교사 모델에서 더 작은 학생 모델로의 순방향 KL 증류에서 Paced는 기준 모델 대비 상당한 성능 향상을 달성하면서도 벤치마크 망각 현상을 낮은 수준으로 유지했습니다. (3) 자가 증류: 역방향 KL을 사용한 지시 튜닝 모델에서도 기준선을 능가하는 성능 향상을 보였습니다. (4) 두 단계 시너지: 순방향 KL 이후 역방향 KL을 적용하는 단계별 접근법이 우리 실험 설정에서 가장 강력한 결과를 보여, 증류 과정을 모드 Coverage 이후 Consolidation으로 해석하는 관점을 지지하며 표준 추론 벤치마크에서 상당한 개선을 달성했습니다. 모든 구성은 합격률 추정을 위해 학생 모델의 롤아웃만 필요하며, 아키텍처 변경이 불필요하고 모든 KL 방향과 호환됩니다.

다중모달 LLM-as-a-Judge 향상을 위한 다중 작업 강화 학습
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Mar 12

ByJunjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang

멀티모달 대규모 언어 모델(MLLM)은 다양한 시각 작업에서 인간의 판단과 높은 일치도를 보여주며 MLLM-as-a-Judge(판사 역할 MLLM)로 널리 채택되고 있습니다. 그러나 기존의 대부분의 판사 모델은 단일 작업 시나리오에 최적화되어 있어 신뢰할 수 있는 평가를 위한 핵심 요구사항인 다양한 상황으로의 일반화에 어려움을 겪습니다. 이러한 한계를 해결하기 위해 본 연구에서는 RL의 일반화 능력을 활용해 여러 작업에 걸쳐 판사 모델을 공동으로 최적화하는 프레임워크인 MT-RL-Judge(Multi-Task Reinforcement Learning for MLLM-as-a-Judge)를 제안합니다. 여러 강력한 베이스라인과의 비교 실험 결과, MT-RL-Judge가 판단 일관성과 인간 선호도 상관관계 모두에서 우수한 성능을 보이는 것으로 나타났습니다. 또한 본 접근법은 분포 외 작업에서도 강건한 일반화 능력을 보여 그 효과를 추가로 입증했습니다.

Dr. SHAP-AV: 샤플리 귀인 분석을 통한 오디오-비주얼 음성 인식에서의 상대적 양태 기여도 해석
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Mar 12

ByUmberto Cappellazzo, Stavros Petridis, Maja Pantic

오디오-비주얼 음성 인식(AVSR)은 잡음 환경에서 강인한 인식을 위해 청각 및 시각 정보를 모두 활용합니다. 그러나 모델이 이러한 양상을 어떻게 균형 있게 활용하는지는 여전히 명확하지 않습니다. 본 연구에서는 AVSR에서 양상 기여도를 분석하기 위해 Shapley 값을 활용한 Dr. SHAP-AV 프레임워크를 제시합니다. 두 개의 벤치마크와 다양한 SNR 수준에서 6개 모델을 대상으로 한 실험을 통해 세 가지 분석 방법을 소개합니다: 전체 양상 균형을 분석하는 Global SHAP, 디코딩 과정에서의 기여도 변화를 분석하는 Generative SHAP, 그리고 입력-출력 간 대응 관계를 분석하는 Temporal Alignment SHAP입니다. 우리의 연구 결과는 모델이 잡음 환경에서 시각 정보에 의존하는 방향으로 전환하지만, 심각한 음성 열화 상황에서도 오디오 기여도는 높게 유지된다는 것을 보여줍니다. 양상 간 균형은 생성 과정에서 변화하며, 시간적 정렬은 잡음 환경에서도 유지되고, SNR은 양상 가중치를 결정하는 주요 요인입니다. 이러한 결과는 지속적인 오디오 편향을 드러내며, 특정 상황에 맞는 양상 가중치 조정 메커니즘과 Shapley 기반 귀속 분석을 표준 AVSR 진단 도구로 활용할 필요성을 시사합니다.

SoundWeaver: 텍스트-오디오 확산 모델 서빙을 위한 의미론적 웜 스타팅
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Mar 9

ByAyush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai

텍스트-오디오 확산 모델은 고품질 오디오를 생성하지만 수십 회의 함수 평가를 필요로 하여 다중 초 지연 시간과 제한된 처리량이 발생합니다. 본 연구에서는 의미론적으로 유사한 캐시 오디오를 웜 스타트하여 텍스트-오디오 확산 가속화를 위한 최초의 학습 불필요, 모델 불가지론적 서빙 시스템인 SoundWeaver를 제안합니다. SoundWeaver는 세 가지 구성 요소를 도입합니다: 의미 및 길이 인식 게이팅을 통해 캐시 후보를 검색하고 시간적으로 정렬하는 레퍼런스 선택기, 생략할 함수 평가 비율을 동적으로 결정하는 스킵 게이터, 품질 인식 제거 및 정제를 통해 캐시 효용성을 유지하는 경량 캐시 관리자입니다. 실제 오디오 트레이스에서 SoundWeaver는 약 1,000개 항목의 캐시만으로도 지각 품질을 유지하거나 향상시키면서 1.8~3.0배의 지연 시간 감소를 달성했습니다.

TeamHOI: 임의의 팀 규모에서 협력적 인간-객체 상호작용을 위한 통합 정책 학습
TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Mar 9

ByStefan Lionar, Gim Hee Lee

물리 기반 휴머노이드 제어는 사실적이고 높은 성능의 단일 에이전트 행동 구현에서 눈에 띄는 진전을 이루었지만, 이러한 능력을 협력적 인간-객체 상호작용(HOI)으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 단일 분산 정책이 임의의 수의 협력 에이전트에 걸쳐 협력적 HOI를 처리할 수 있는 TeamHOI 프레임워크를 제시합니다. 각 에이전트는 지역 관측을 사용하여 작동하면서 팀원 토큰을 활용한 Transformer 기반 정책 네트워크를 통해 다른 팀원에게 주의를 기울여, 변동하는 팀 규모에 걸쳐 확장 가능한 조정을 가능하게 합니다. 협력적 HOI 데이터의 부족 문제를 해결하면서 동작의 사실성을 확보하기 위해, 우리는 단일 인간 참조 동작을 사용하지만 훈련 중 객체와 상호작용하는 신체 부위를 마스킹하는 마스킹된 적대적 동작 사전(AMP) 전략을 추가로 도입합니다. 마스킹된 영역은 과제 보상을 통해 다양한 물리적으로 타당한 협력 행동을 생성하도록 유도됩니다. 우리는 TeamHOI를 2개부터 8개까지의 휴머노이드 에이전트와 다양한 객체 기하학이 관련된 도전적인 협력 운반 과제에서 평가합니다. 마지막으로 안정적인 운반을 촉진하기 위해 팀 규모 및 형태에 독립적인 형성 보상을 설계합니다. TeamHOI는 높은 성공률을 달성하고 단일 정책으로 다양한 구성에서 일관된 협력을 보여줍니다.

주의 집중 싱크는 소프트맥스 트랜스포머에서 필수적임: 트리거 조건부 작업을 통한 증거
Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Mar 12

ByYuval Ran-Milo

트랜스포머는 종종 어텐션 싱크(attention sink)를 보여줍니다. 즉, 확률 질량이 고정적이고 내용에 무관한(position) 위치에 집중되는 현상입니다. 우리는 간단한 트리거 조건부 동작을 계산하려면 소프트맥스(self-attention) 모델에서 반드시 싱크가 발생함을 증명합니다. 우리의 결과는 친숙한 직관을 형식화합니다: 확률 심플렉스(probability simplex)에 대한 정규화는 기본 상태(예: 모델이 입력을 무시해야 할 때)를 실현하기 위해 반드시 어텐션이 안정된 기준점(anchor)으로 붕괴되도록 강요해야 합니다. 우리는 이를 구체적인 과제로 예시합니다: 지정된 트리거 토큰이 나타나면 모델은 모든 선행 토큰 표현의 평균을 반환해야 하고, 그렇지 않으면 0을 출력해야 합니다. 이 과제는 실제 어텐션 헤드의 기능을 반영합니다 (Barbero et al., 2025; Guo et al., 2024). 우리는 또한 정규화되지 않은 ReLU 어텐션이 싱크 없이 동일한 과제를 해결할 수 있음을 증명하여, 싱크 행동의 근본적인 원인이 정규화 제약 조건임을 확인합니다. 실험을 통해 우리의 예측을 검증하고 이론적으로 분석된 설정을 넘어서도 적용됨을 입증합니다: 소프트맥스 모델은 강력한 싱크를 발생시키는 반면, ReLU 어텐션은 단일 헤드 및 다중 헤드 변형 모두에서 싱크를 제거합니다.

EmbTracker: 연합 언어 모델을 위한 추적 가능 블랙박스 워터마킹
EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Mar 12

ByHaodong Zhao, Jinming Hu, Yijie Bai, Tian Dong, Wei Du, Zhuosheng Zhang, Yanjiao Chen, Haojin Zhu, Gongshen Liu

연합 언어 모델(FedLM)은 원본 데이터 공유 없이 협업 학습을 가능하게 하지만, 모든 비신뢰 클라이언트가 수신한 기능적 모델 인스턴스를 유출할 수 있어 중요한 취약점을 야기합니다. FedLM용 기존 워터마킹 방식은 화이트박스 접근과 클라이언트 측 협력이 필요하며, 개별 추적성보다는 그룹 수준의 소유권 증명만 제공하는 경우가 많습니다. 본 논문에서는 FedLM에 특화된 서버 측 추적형 블랙박스 워터마킹 프레임워크인 EmbTracker를 제안합니다. EmbTracker는 간단한 API 쿼리를 통해 탐지 가능한 백도어 기반 워터마킹을 삽입하여 블랙박스 검증 가능성을 달성합니다. 클라이언트별 고유 식별 워터마킹을 각 클라이언트에 배포된 모델에 주입함으로써 클라이언트 수준 추적성을 실현합니다. 이를 통해 유출된 모델의 특정 배포자를 식별할 수 있으며, 비협조적 참여자에게도 강건성을 보장합니다. 다양한 언어 및 시각-언어 모델에 대한 폭넓은 실험을 통해 EmbTracker가 100%에 가까운 검증률로 강력한 추적성을 달성하고, 제거 공격(미세 조정, 가지치기, 양자화)에 대한 높은 복원력을 가지며, 주 작업 성능에 미치는 영향이 미미함(대체로 1-2% 이내)을 입증하였습니다.

신경장 열 단층촬영: 비파괴 평가를 위한 미분 가능 물리 프레임워크
Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Mar 11

ByTao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette

우리는 신경망 열층화 단층촬영(NeFTY)을 제안합니다. 이는 과도 표면 온도 측정으로부터 재료 특성을 정량적으로 3차원 복원하는 미분 가능 물리 프레임워크입니다. 기존 열화상 기술이 측면 확산을 무시하는 픽셀 단위 1차원 근사에 의존하고, 연성 제약 물리 정보 신경망(PINN)은 경도가 높은 기울기로 인해 과도 확산 시나리오에서 종종 실패하는 반면, NeFTY는 엄격한 수치 해석기를 통해 최적화된 연속 신경망 장으로 3차원 확산계수 장을 매개변수화합니다. 미분 가능 물리 해석기를 활용함으로써 우리의 접근법은 열역학 법칙을 강성 제약으로 적용하면서도 고해상도 3차원 단층촬영에 필요한 메모리 효율성을 유지합니다. 우리의 '이산화 후 최적화' 패러다임은 역열전도 문제에 내재된 스펙트럼 편향과 불안정성을 효과적으로 완화하여 임의 규모의 내부 결함 복원을 가능하게 합니다. 합성 데이터에 대한 실험 검증 결과, NeFTY가 기준 방법 대비 내부 결함 위치 추정 정확도를 크게 향상시킴을 확인했습니다. 자세한 내용은 https://cab-lab-princeton.github.io/nefty/에서 확인할 수 있습니다.

WaDi: 원스텝 이미지 생성을 위한 가중치 방향 인식 지식 증류
WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Mar 9

ByLei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang

Stable Diffusion(SD)와 같은 확산 모델의 이미지 생성 성능이 인상적이지만, 느린 추론 속도가 실제 적용을 제한합니다. 최근 연구들은 다단계 확산 과정을 단일 단계 생성기로 증류하여 추론 속도를 가속화합니다. 이러한 증류 메커니즘을 더 잘 이해하기 위해, 우리는 단일 단계 학생 모델과 다단계 교사 모델 간의 U-Net/DiT 가중치 변화를 분석합니다. 우리의 분석 결과, 가중치 방향의 변화가 가중치 놈(norm)의 변화를 크게 초과하여, 이가 증류 과정의 핵심 요인임을 확인했습니다. 이러한 통찰에 기반하여, 우리는 단일 단계 확산 증류에 특화된 매개변수 효율적 어댑터인 저순위 가중치 방향 회전(LoRaD)을 제안합니다. LoRaD는 학습 가능한 저순위 회전 행렬을 사용하여 이러한 구조화된 방향 변화를 모델링하도록 설계되었습니다. 우리는 LoRaD를 Variational Score Distillation(VSD)에 통합하여 Weight Direction-aware Distillation(WaDi)이라는 새로운 단일 단계 증류 프레임워크를 개발했습니다. WaDi는 U-Net/DiT의 학습 가능 매개변수 약 10%만 사용하면서 COCO 2014 및 COCO 2017에서 최고 수준의 FID 점수를 달성합니다. 더 나아가, 증류된 단일 단계 모델은 제어 가능 생성, 관계 반전, 고해상도 합성과 같은 다양한 다운스트림 작업에 잘 일반화되는 강력한 다양성과 확장성을 보여줍니다.

SurvHTE-Bench: 생존 분석에서의 이질적 처리 효과 추정을 위한 벤치마크
SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Mar 5

ByShahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss, George H. Chen

우측 중도 절단(right-censoring)된 생존 데이터에서 이질적 처리 효과(HTE)를 추정하는 것은 정밀의학 및 맞춤형 정책 결정과 같은 고위험 적용 분야에서 매우 중요합니다. 그러나 생존 분석 환경은 중도 절단, 관찰되지 않은 반사실적 결과, 그리고 복잡한 식별 가정으로 인해 HTE 추정에 독특한 과제를 제기합니다. Causal Survival Forests부터 생존 메타 학습기(survival meta-learners) 및 결과 대체(outcome imputation) 접근법에 이르기까지 최근 발전이 있었음에도 불구하고, 평가 관행은 여전히 파편화되고 일관성이 부족한 상태입니다. 본 연구는 중도 절단된 결과변수를 대상으로 HTE 추정을 위한 최초의 포괄적인 벤치마크인 SurvHTE-Bench를 소개합니다. 이 벤치마크는 (i) 실제 참값(ground truth)을 알고 있는 모듈식 합성 데이터셋 모음(인과관계 가정과 생존 역학을 체계적으로 변화시킴), (ii) 실제 세계의 공변량과 모의 처리 및 결과를 결합한 반-합성(semi-synthetic) 데이터셋, 그리고 (iii) 쌍둥이 연구(실제 참값을 가짐) 및 HIV 임상 시험에서 얻은 실제 데이터셋을 아우릅니다. 합성, 반-합성, 실제 세계 환경 전반에 걸쳐, 우리는 다양한 조건과 현실적인 가정 위반 하에서 생존 HTE 방법들에 대한 최초의 엄밀한 비교를 제공합니다. SurvHTE-Bench는 인과관계 생존 방법에 대한 공정하고 재현 가능하며 확장 가능한 평가의 기초를 마련합니다. 본 벤치마크의 데이터와 코드는 https://github.com/Shahriarnz14/SurvHTE-Bench 에서 이용할 수 있습니다.

NerVE: LLM 피드포워드 네트워크의 비선형 고유스펙트럼 역학
NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Mar 6

ByNandan Kumar Jha, Brandon Reagen

우리는 대규모 언어 모델(LLM)의 순전파 네트워크(FFN)가 고차원 잠재 공간에서 정보 흐름을 어떻게 조직하고 조절하는지 이해하기 위한 통합 고유스펙트럼 프레임워크인 NerVE를 소개한다. FFN이 매개변수 예산의 대부분을 차지함에도 불구하고, 그 고차원 동역학은 여전히 제대로 이해되지 않고 있다. NerVE는 네 가지 상호 보완적 메트릭(스펙트럼 엔트로피(분산), 참여 비율(유효 차원), 고유값 조기 풍부화(상위 집중도), 옌센-섀넌 발산(분포 변화))을 통한 경량 및 메모리 효율적인 고유스펙트럼 동역학 추적을 통해 이 격차를 해소한다. 우리의 핵심 통찰은 FFN 비선형성이 고유모드 간 분산을 재주입하여 잠재 차원 활용을 근본적으로 통제하며, 최적화기 기하구조가 이러한 분산 재주입 정도를 강력하게 조절한다는 것이다. 우리는 NerVE를 다양한 모델 규모와 다양한 아키텍처 및 최적화기 구성에서 검증하였으며, 각각은 FFN 동역학을 고유하게 형성한다: 정규화 기법이 분산 흐름을 제어하고, FFN 가중치 기하구조가 잠재 공간을 제한하며, 위치 인코딩과 활성화 함수가 정보 흐름을 조절하고, 최적화기 선택이 깊이에 따른 유효 용량을 재분배한다. 이러한 다양한 설정에서 NerVE는 모델의 일반화 능력과 상관관계를 가지며 설계 선택에 예측 가능하게 반응하는 안정적인 스펙트럼 신호를 일관되게 복원하며, 트랜스포머를 넘어 MLP-Mixer 아키텍처로까지 일반화되어 시행착오를 넘어선 아키텍처 및 최적화기 선택에 실행 가능한 통찰을 제공한다.

단순한 레시피의 효과: 시각-언어-행동 모델은 강화 학습을 통한 자연스러운 지속 학습자
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Mar 12

ByJiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin

비전-언어-행동(VLA) 모델을 위한 지속 강화 학습(CRL)은 개방적이고 진화하는 환경에 적응 가능한 자기 발전형 구현 에이전트를 위한 유망한 방향입니다. 그러나 지속 학습에 대한 기존 통념은 단순한 순차 미세 조정(Seq. FT)이 파괴적 망각을 초래하여 복잡한 CRL 전략이 필요하다고 제시해 왔습니다. 본 연구에서는 한 걸음 물러서 세 가지 모델과 다섯 가지 도전적인 평생 RL 벤치마크에 걸쳐 대규모 사전 학습된 VLA의 CRL을 체계적으로 연구합니다. 우리는 기존 신념과 달리, 로우 랭크 적응(LoRA)을 적용한 단순한 Seq. FT가 매우 강력함을 발견했습니다. 이 방법은 높은 가소성을 달성하고, 거의 또는 전혀 망각을 보이지 않으며, 강력한 제로샷 일반화 능력을 유지하며, 종종 더 정교한 CRL 방법들을 능가했습니다. 상세 분석을 통해 이러한 강건성은 대규모 사전 학습 모델, 매개변수 효율적 적응, 온-정책 RL 간의 시너지에서 비롯됨을 보여줍니다. 이러한 구성 요소들이 함께 안정성-가소성 트레이드오프를 재구성하여 지속적 적응을 안정적이고 확장 가능하게 만듭니다. 우리의 결과는 순차 미세 조정을 VLA 기반 지속 RL의 강력한 방법으로 자리매김하며, 대규모 모델 시대의 평생 학습에 대한 새로운 통찰을 제공합니다. 코드는 github.com/UT-Austin-RobIn/continual-vla-rl에서 확인할 수 있습니다.

혼합 식단이 DINO를 잡식성 비전 인코더로 만든다
A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Feb 27

ByRishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra

DINOv2와 같은 사전 학습된 비전 인코더는 단일 모달리티 작업에서 뛰어난 성능을 입증했습니다. 그러나 우리는 이러한 인코더의 특징 표현이 서로 다른 모달리티 간에 제대로 정렬되지 않는다는 점을 관찰했습니다. 예를 들어, 동일한 장면의 RGB 이미지와 그에 해당하는 깊이 맵 간의 특징 임베딩 코사인 유사도는 서로 무관한 두 임의의 이미지 간 유사도와 거의 동일합니다. 이를 해결하기 위해 우리는 모달리티에 구애받지 않는 특징 공간을 학습하는 새로운 프레임워크인 Omnivorous Vision Encoder를 제안합니다. 우리는 이 인코더를 이중 목표로 학습시킵니다: 첫째, 동일한 장면의 서로 다른 모달리티 간 특징 정렬을 최대화하는 것, 둘째, 학습된 표현을 DINOv2와 같이 완전히 고정된 교사 모델의 출력에 정착시키는 지식 증류 목표입니다. 그 결과, 학생 인코더는 입력 모달리티(RGB, 깊이, 분할 맵 등)에 관계없이 주어진 장면에 대해 일관되고 강력한 임베딩을 생성함으로써 "다양한 모달리티를 처리하는(omnivorous)" 특성을 갖추게 됩니다. 이 접근 방식은 원본 파운데이션 모델의 판별 의미를 유지하면서도 강력한 교차 모달리티 이해를 가능하게 합니다.

HyPER-GAN: 실시간 포토리얼리즘 향상을 위한 하이브리드 패치 기반 이미지 간 변환
HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Mar 11

ByStefanos Pasios, Nikos Nikolaidis

생성 모델은 컴퓨터 비전 알고리즘 훈련을 위한 합성 데이터의 사실감을 높이기 위해 널리 사용됩니다. 그러나 이러한 모델들은 종종 시각적 아티팩트를 유발하여 알고리즘의 정확도를 저하시키고, 높은 계산 자원을 요구하여 실시간 훈련이나 평가 시나리오에서의 적용 가능성을 제한합니다. 본 논문에서는 실시간 추론에 최적화된 U-Net 구조의 생성기를 기반으로 한 경량화된 이미지-이미지 변환 방법인 HyPER-GAN(Hybrid Patch Enhanced Realism Generative Adversarial Network)을 제안합니다. 제안 모델은 사실감이 향상된 합성 이미지 쌍으로 훈련되며, 실제 데이터에서 추출한 정합된 패치를 활용하는 하이브리드 훈련 전략을 통해 시각적 사실감과 의미론적 일관성을 개선합니다. 실험 결과, HyPER-GAN은 추론 지연 시간, 시각적 사실감, 의미론적 견고성 측면에서 최첨단 이미지-이미지 변환 방법들을 능가하는 성능을 보여줍니다. 또한, 제안된 하이브리드 훈련 전략이 사실감이 향상된 합성 이미지 쌍만으로 모델을 훈련하는 것에 비해 시각적 품질과 의미론적 일관성을 실제로 향상시킴을 입증합니다. 코드와 사전 훈련된 모델은 https://github.com/stefanos50/HyPER-GAN에서 공개되어 있습니다.

인도네시아 술라웨시 모로왈리 산업단지 니켈 가공 확장에 따른 연안 수질 투명도 악화의 인과 귀속
Causal Attribution of Coastal Water Clarity Degradation to Nickel Processing Expansion at the Indonesia Morowali Industrial Park, Sulawesi

Mar 7

BySandy Hardian Susanto Herho, Alfita Puspa Handayani, Iwan Pramesti Anwar, Faruq Khadami, Karina Aprilia Sujatmiko, Doandy Yonathan Wibisono, Rusmawan Suwarman, Dasapta Erwin Irawan

인도네시아의 니켈 원광 수출 금지는 술라웨시 중부 연안에 위치한 인도네시아 모로왈리 산업단지(IMIP)의 제련 및 습식제련 처리 능력의 급속한 확장을 촉진하여, 현재 세계 최대의 통합 니켈 처리 단지로 성장시켰다. 이러한 산업화가 인접 해양 환경을 악화시켰는지 여부는 아직 정량적으로 평가되지 않았다. 본 연구에서는 베이지안 구조적 시계열(BSTS) 인과 추론을 490nm에서의 확산 감쇠 계수 K_d(490)에 대한 수십 년간의 다중 센서 위성 해색 자료에 적용하여 IMIP 확장과 근해 탁도 변화 간의 인과관계를 검증하였다. 합의된 구조적 단절점, 반다해 대조군을 기준으로 추정된 유의미한 사후 인과 효과, 그리고 비모수적 위약 순위 검정을 종합한 결과, 초기 니켈 페로합금 생산에서 배터리급 니켈 생산을 위한 고압산침출 시설의 초고속 확장으로 전환된 이후 해안 수질 투명도가 악화되었음이 확인되었다. 위성 기반 토지 피복 분석은 이 시점을 독립적으로 입증하며, IMIP 단지 내에서 상당한 시가화 지역 증가와 동시에 산림 피복 감소가 발생했음을 보여준다. 그 결과 발생한 초양대의 천해화는 높은 해양 생물 다양성을 유지하는 빈영양 해역에서 진행되고 있으며, 이는 중간 정도의 광학적 악화만으로도 산호의 광합성을 저해하고 수심에 따른 산호초 서식지를 축소시킬 수 있다. 이러한 연구 결과는 인도네시아의 광물 하류화 정책 논의에서 간과된 해양 환경 비용을 정량화하며, 데이터가 제한적인 열대 지역의 해안 산업 단지에 대한 인과적 영향 평가를 위한 전환 가능한 위성 기반 준실험 방법론을 제시한다.

4DEquine: 단안 비디오 기반 4D 말 복원을 위한 운동과 외관 분리
4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Mar 10

ByJin Lyu, Liang An, Pujin Cheng, Yebin Liu, Xiaoying Tang

단안 비디오로부터 말과 같은 말과 동물의 4D 재구성은 동물 복지에 중요합니다. 기존 주류 4D 동물 재구성 방법들은 전체 비디오에 걸쳐 운동과 외관을 함께 최적화해야 하며, 이는 시간이 많이 소요되고 불완전한 관찰에 민감한 문제점이 있습니다. 본 연구에서는 4D 재구성 문제를 동적 운동 재구성과 정적 외관 재구성이라는 두 하위 문제로 분리하는 4DEquine이라는 새로운 프레임워크를 제안합니다. 운동의 경우, 비디오로부터 부드럽고 픽셀 정렬된 자세 및 형태 시퀀스를 회귀하기 위해 단순하면서도 효과적인 시공간 트랜스포머와 사후 최적화 단계를 도입합니다. 외관의 경우, 단일 이미지만으로도 고품질의 애니메이션 가능한 3D 가우시안 아바타를 재구성하는 새로운 피드포워드 네트워크를 설계합니다. 학습을 지원하기 위해 고품질 표면 운동과 다양한 카메라 궤적을 특징으로 하는 대규모 합성 운동 데이터셋 VarenPoser와, 다중 뷰 확산을 통해 생성된 사실적인 다중 시점 이미지로 구성된 합성 외관 데이터셋 VarenTex를 구축했습니다. 합성 데이터셋으로만 학습했음에도 불구하고, 4DEquine은 실제 APT36K 및 AiM 데이터셋에서 최첨단 성능을 달성하여 기하학적 및 외관 재구성 모두에 있어 4DEquine과 우리의 새로운 데이터셋의 우수성을 입증합니다. 포괄적인 애블레이션 연구를 통해 운동 및 외관 재구성 네트워크의 효과성을 검증했습니다. 프로젝트 페이지: https://luoxue-star.github.io/4DEquine_Project_Page/.