ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

'아하!'를 넘어서: 대규모 추론 모델에서 체계적인 메타 능력 정렬을 향하여
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

May 15, 2025
Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li
1193

대형 추론 모델(LRMs)은 이미 장기적인 사고 연쇄 추론에 대한 잠재적 능력을 보유하고 있다. 선행 연구는 결과 기반 강화 학습(RL)이 자기 수정, 역추적, 검증 현상과 같은 고급 추론 행동을 우연히 유발할 수 있음을 보여주었으며, 이러한 현상은 종종 모델의 "아하 순간"이라고 불린다. 그러나 이러한 발현적 행동의 시기와 일관성은 예측 불가능하고 통제 불가능하여, LRMs의 추론 능력의 확장성과 신뢰성을 제한한다. 이러한 한계를 해결하기 위해, 우리는 프롬프트와 우연한 "아하 순간"에 의존하는 것을 넘어섰다. 대신, 우리는 자동 생성된 자기 검증 가능한 작업을 사용하여 모델을 연역, 귀납, 그리고 귀추라는 세 가지 메타 능력과 명시적으로 정렬시켰다. 우리의 세 단계 파이프라인인 개별 정렬, 매개변수 공간 병합, 그리고 도메인 특화 강화 학습은 지시 튜닝된 기준선 대비 10% 이상의 성능 향상을 이끌어냈다. 더 나아가, 정렬된 체크포인트에서 도메인 특화 RL을 수행하면 수학, 코딩, 과학 벤치마크에서 평균 2%의 추가 성능 상승을 보여주며, 명시적 메타 능력 정렬이 추론을 위한 확장 가능하고 신뢰할 수 있는 기반을 제공함을 입증한다. 코드는 https://github.com/zhiyuanhubj/Meta-Ability-Alignment에서 확인할 수 있다.

언어 모델을 위한 병렬 확장 법칙
Parallel Scaling Law for Language Models

May 15, 2025
Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
813

일반적으로 언어 모델의 규모를 확장하려면 매개변수를 증가시키는 방식(매개변수 스케일링)이나 출력 토큰을 증가시키는 방식(추론 시간 스케일링)을 통해 상당한 공간 또는 시간 비용이 발생한다고 여겨집니다. 우리는 세 번째이자 더 효율적인 추론을 가능하게 하는 스케일링 패러다임을 소개합니다: 바로 훈련 및 추론 시간 동안 모델의 병렬 계산을 증가시키는 것입니다. 우리는 입력에 P개의 다양하고 학습 가능한 변환을 적용하고, 모델의 순전파를 병렬로 실행한 후, P개의 출력을 동적으로 집계합니다. 이 방법, 즉 병렬 스케일링(ParScale)은 기존 매개변수를 재사용하여 병렬 계산을 확장하며, 어떤 모델 구조, 최적화 절차, 데이터 또는 작업에도 적용할 수 있습니다. 우리는 이론적으로 새로운 스케일링 법칙을 제안하고 대규모 사전 훈련을 통해 이를 검증했으며, P개의 병렬 스트림을 가진 모델은 매개변수를 O(log P)만큼 확장한 것과 유사한 성능을 보이면서도 더 우수한 추론 효율성을 보여줍니다. 예를 들어, ParScale은 동일한 성능 향상을 달성하기 위해 매개변수 스케일링에 비해 최대 22배 적은 메모리 증가와 6배 적은 지연 시간 증가를 사용할 수 있습니다. 또한, 소량의 토큰에 대해 사후 훈련을 통해 기존의 사전 훈련된 모델을 병렬 스케일링된 모델로 재활용할 수 있어 훈련 예산을 더욱 절감할 수 있습니다. 우리가 발견한 새로운 스케일링 법칙은 저자원 환경에서 더 강력한 모델의 배포를 촉진할 수 있으며, 머신러닝에서 계산의 역할에 대한 대안적인 관점을 제공합니다.

메타러닝을 활용한 시스템 프롬프트 최적화
System Prompt Optimization with Meta-Learning

May 14, 2025
Yumin Choi, Jinheon Baek, Sung Ju Hwang
703

대규모 언어 모델(LLMs)은 놀라운 성능을 보여주며, 이들의 성능을 극대화하기 위해 입력 프롬프트 최적화가 중요한 역할을 하고 있다. 그러나 LLM 프롬프트는 작업에 무관한 시스템 프롬프트와 작업별 사용자 프롬프트로 구성되어 있음에도 불구하고, 기존의 프롬프트 최적화 연구는 개별 쿼리나 작업에 특화된 사용자 프롬프트에 초점을 맞추어 왔으며, 한 번 최적화되면 다양한 작업과 도메인에 적용 가능한 시스템 프롬프트는 크게 간과되어 왔다. 이에 동기를 부여받아, 우리는 다양한 사용자 프롬프트에 대해 강건하고 새로운 작업에도 전이 가능한 시스템 프롬프트를 설계하는 것을 목표로 하는 이중 수준 시스템 프롬프트 최적화라는 새로운 문제를 제안한다. 이 문제를 해결하기 위해, 우리는 메타러닝 프레임워크를 제안한다. 이 프레임워크는 여러 데이터셋에 걸쳐 다양한 사용자 프롬프트를 대상으로 시스템 프롬프트를 메타러닝하며, 동시에 사용자 프롬프트를 반복적으로 업데이트하여 이들 간의 시너지를 보장한다. 우리는 5개의 서로 다른 도메인에 걸친 14개의 새로운 데이터셋에 대해 실험을 수행하였으며, 우리의 접근법이 다양한 사용자 프롬프트에 효과적으로 일반화되는 시스템 프롬프트를 생성함을 보여준다. 또한, 최적화된 시스템 프롬프트는 새로운 작업에도 빠르게 적응할 수 있으며, 테스트 시 사용자 프롬프트에 대해 더 적은 최적화 단계로도 향상된 성능을 달성할 수 있음을 발견하였다.

OpenThinkIMG: 시각적 도구 강화 학습을 통한 이미지 기반 사고 학습
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
423

인간은 복잡한 문제 해결을 위해 상호작용적 시각 인지를 유연하게 활용할 수 있지만, 대형 시각-언어 모델(LVLM)이 시각 도구를 통해 유사한 적응형 행동을 학습하도록 만드는 것은 여전히 어려운 과제입니다. 주요 장애물 중 하나는 현재 표준화된 인프라의 부재로, 이는 다양한 도구 통합, 풍부한 상호작용 데이터 생성, 그리고 강력한 에이전트의 효과적인 학습을 방해합니다. 이러한 격차를 해결하기 위해, 우리는 도구가 강화된 LVLM을 위한 첫 번째 오픈소스 종단 간 프레임워크인 OpenThinkIMG를 소개합니다. 이 프레임워크는 표준화된 시각 도구 인터페이스, 정책 초기화를 위한 확장 가능한 궤적 생성, 그리고 유연한 학습 환경을 특징으로 합니다. 또한, 정적 데모에 대한 지도 미세 조정(SFT)이 동적 도구 호출을 위한 정책 일반화에 제한적이라는 점을 고려하여, 우리는 외부 시각 도구를 호출하기 위한 적응형 정책을 학습하기 위한 새로운 강화 학습(RL) 프레임워크인 V-ToolRL을 제안합니다. V-ToolRL은 도구 상호작용에서의 피드백을 사용하여 작업 성공을 직접 최적화함으로써 LVLM이 최적의 도구 사용 전략을 자율적으로 발견할 수 있도록 합니다. 우리는 V-ToolRL을 도전적인 차트 추론 작업에서 실증적으로 검증했습니다. Qwen2-VL-2B를 기반으로 구축된 우리의 RL 학습 에이전트는 SFT 초기화된 대응 에이전트보다 28.83점 높은 성능을 보였으며, Taco 및 CogCom과 같은 기존의 지도 도구 학습 기준선을 평균 12.7점 앞섰습니다. 특히, GPT-4.1과 같은 주요 폐쇄형 모델보다도 8.68점 높은 정확도를 기록했습니다. 우리는 OpenThinkIMG가 동적 도구 강화 시각 추론을 발전시키기 위한 기초 프레임워크로 활용되어, 커뮤니티가 진정으로 "이미지로 생각하는" AI 에이전트를 개발하는 데 도움이 되기를 바랍니다.

WorldPM: 인간 선호 모델링의 확장
WorldPM: Scaling Human Preference Modeling

May 15, 2025
Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
332

언어 모델링에서 테스트 손실이 모델 크기와 데이터셋 크기에 따라 멱법칙(power law)으로 스케일링된다는 스케일링 법칙에 영감을 받아, 우리는 선호도 모델링에서도 유사한 법칙이 존재함을 발견했습니다. 우리는 이러한 스케일링 잠재력을 강조하기 위해 World Preference Modeling(WorldPM)을 제안하며, 여기서 World Preference는 인간 선호도의 통합된 표현을 의미합니다. 본 논문에서는 다양한 사용자 커뮤니티를 아우르는 공개 포럼에서 선호도 데이터를 수집하고, 1.5B에서 72B 파라미터에 이르는 모델들을 대상으로 15M 규모의 데이터를 활용해 광범위한 학습을 진행했습니다. 우리는 다양한 평가 지표에서 뚜렷한 패턴을 관찰했습니다: (1) 적대적 지표(기만적 특성을 식별하는 능력)는 학습 데이터와 기본 모델 크기가 증가함에 따라 지속적으로 향상됩니다; (2) 객관적 지표(명확한 답이 있는 객관적 지식)는 더 큰 언어 모델에서 급격한 성능 향상을 보이며, WorldPM의 스케일링 잠재력을 강조합니다; (3) 주관적 지표(제한된 수의 인간 또는 AI의 주관적 선호도)는 스케일링 경향을 보이지 않습니다. 추가 실험을 통해 WorldPM이 선호도 미세 조정을 위한 기반으로서의 효과성을 입증했습니다. 20개의 하위 작업으로 구성된 7개의 벤치마크에서 평가를 진행한 결과, WorldPM은 다양한 크기(7K, 100K, 800K 샘플)의 인간 선호도 데이터셋에서 일반화 성능을 광범위하게 개선하며, 많은 주요 하위 작업에서 5% 이상의 성능 향상을 보였습니다. WorldPM을 내부 RLHF 파이프라인에 통합한 결과, 내부 및 공개 평가 세트 모두에서 상당한 개선이 관찰되었으며, 특히 내부 평가에서는 4%에서 8%의 주목할 만한 성능 향상을 확인했습니다.

CoT 백과사전: 추론 모델의 사고 방식을 분석, 예측 및 제어하기
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

May 15, 2025
Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo
252

긴 사고 연쇄(Long chain-of-thought, CoT)는 현대 대규모 언어 모델의 효과적인 활용에 필수적인 요소이지만, 이러한 능력의 기반이 되는 추론 전략에 대한 이해는 여전히 제한적이다. 일부 선행 연구에서는 미리 정의된 전략 유형을 사용하여 CoT를 분류하려는 시도를 했지만, 이러한 접근 방식은 인간의 직관에 의해 제약을 받으며 모델 행동의 전체 다양성을 포착하지 못한다. 본 연구에서는 CoT 백과사전(CoT Encyclopedia)을 소개한다. 이는 모델 추론을 분석하고 조종하기 위한 하향식 프레임워크로, 모델이 생성한 CoT에서 다양한 추론 기준을 자동으로 추출하고 이를 의미 공간에 임베딩한 후 대표적인 범주로 클러스터링하며, 추론 행동을 해석하기 위한 대조적 루브릭을 도출한다. 인간 평가 결과, 이 프레임워크는 기존 방법보다 더 해석 가능하고 포괄적인 분석을 제공하는 것으로 나타났다. 또한, 이러한 이해를 통해 성능 향상을 이끌어낼 수 있음을 보여준다. 즉, 모델이 어떤 전략을 사용할 가능성이 높은지 예측하고 더 효과적인 대안으로 유도할 수 있다. 마지막으로, 훈련 데이터 형식(예: 자유 형식 vs. 객관식)이 데이터 도메인보다 추론 행동에 훨씬 더 큰 영향을 미친다는 실용적인 통찰을 제공하며, 이는 형식 인지 모델 설계의 중요성을 강조한다.

J1: 강화 학습을 통한 LLM-as-a-Judge 사고 유도
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
222

AI의 발전은 평가의 질에 의해 병목 현상을 겪고 있으며, 강력한 LLM-as-a-Judge 모델이 핵심 해결책으로 입증되었습니다. 개선된 판단 능력은 더 강력한 사고의 연쇄적 추론을 통해 가능해지며, 이러한 모델이 사고하도록 훈련시키기 위한 최적의 방법을 찾아야 할 필요성을 부각시킵니다. 본 연구에서는 이러한 모델을 훈련시키기 위한 강화 학습 접근법인 J1을 소개합니다. 우리의 방법은 검증 가능한 프롬프트와 검증 불가능한 프롬프트를 모두 검증 가능한 보상이 있는 판단 작업으로 변환하여 사고를 유도하고 판단 편향을 완화합니다. 특히, 우리의 접근법은 8B 또는 70B 크기로 훈련되었을 때 DeepSeek-R1에서 증류된 모델을 포함한 기존의 모든 모델을 능가합니다. J1은 o1-mini를 능가하며, 일부 벤치마크에서는 더 작은 모델을 훈련했음에도 불구하고 R1보다 우수한 성능을 보입니다. 우리는 Pairwise-J1 대 Pointwise-J1 모델, 오프라인 대 온라인 훈련 방법, 보상 전략, 시드 프롬프트, 그리고 사고 길이와 내용의 변형을 비교하는 분석과 제거 실험을 제공합니다. 우리의 모델이 평가 기준을 개요화하고, 자체 생성된 참조 답변과 비교하며, 모델 응답의 정확성을 재평가함으로써 더 나은 판단을 내리는 것을 발견했습니다.

EnerVerse-AC: 액션 조건을 통한 구체화된 환경 구상
EnerVerse-AC: Envisioning Embodied Environments with Action Condition

May 14, 2025
Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
222

로봇 모방 학습은 정적 작업 해결에서 동적 상호작용 시나리오 대응으로 발전해 왔지만, 실시간 동적 환경과의 상호작용이 필요하기 때문에 테스트와 평가는 여전히 비용이 많이 들고 어려운 과제로 남아 있습니다. 우리는 EnerVerse-AC(EVAC)를 제안합니다. EVAC는 에이전트의 예측된 행동을 기반으로 미래의 시각적 관측을 생성하는 액션-컨디셔널 월드 모델로, 현실적이고 제어 가능한 로봇 추론을 가능하게 합니다. 기존 아키텍처를 기반으로, EVAC는 동적 다중 뷰 이미지 생성을 위한 다단계 액션-컨디셔닝 메커니즘과 레이 맵 인코딩을 도입하고, 다양한 실패 궤적을 포함한 학습 데이터를 확장하여 일반화 성능을 향상시켰습니다. 데이터 엔진이자 평가자로서, EVAC는 인간이 수집한 궤적을 다양한 데이터셋으로 증강하고, 물리적 로봇이나 복잡한 시뮬레이션 없이도 현실적인 액션-컨디셔널 비디오 관측을 생성하여 정책 테스트를 가능하게 합니다. 이 접근 방식은 로봇 조작 평가에서 높은 충실도를 유지하면서도 비용을 크게 절감합니다. 광범위한 실험을 통해 우리 방법의 효과성을 검증했습니다. 코드, 체크포인트, 데이터셋은 <https://annaj2178.github.io/EnerverseAC.github.io>에서 확인할 수 있습니다.

엔드투엔드 비전 토크나이저 튜닝
End-to-End Vision Tokenizer Tuning

May 15, 2025
Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
213

기존의 비전 토큰화는 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여, 비전 토큰이 이미지 생성 및 시각적 질문 응답과 같은 다양한 작업에서 잘 일반화될 수 있다는 것을 암묵적으로 가정합니다. 저수준 재구성을 위해 최적화된 비전 토크나이저는 다양한 표현과 의미를 요구하는 다운스트림 작업에 대해 무관합니다. 이러한 분리된 패러다임은 중요한 불일치를 초래합니다: 비전 토큰화의 손실은 목표 작업에 대한 표현 병목 현상이 될 수 있습니다. 예를 들어, 주어진 이미지에서 텍스트를 토큰화하는 과정에서 발생하는 오류는 이를 인식하거나 생성할 때 좋지 않은 결과를 초래합니다. 이를 해결하기 위해, 우리는 비전 토큰화와 목표 자기회귀 작업 간의 공동 최적화를 가능하게 하는 ETT(End-to-End Vision Tokenizer Tuning) 접근법을 제안합니다. 기존의 자기회귀 모델이 고정된 비전 토크나이저의 이산 인덱스만 사용하는 것과 달리, ETT는 토크나이저 코드북의 시각적 임베딩을 활용하고, 재구성 및 캡션 목표를 함께 사용하여 비전 토크나이저를 종단 간으로 최적화합니다. ETT는 최소한의 아키텍처 수정만으로 기존의 학습 파이프라인에 원활하게 통합될 수 있습니다. 우리의 ETT는 구현 및 통합이 간단하며, 사용된 대형 언어 모델의 원래 코드북이나 아키텍처를 조정할 필요가 없습니다. 광범위한 실험을 통해, 우리가 제안한 종단 간 비전 토크나이저 튜닝이 고정된 토크나이저 기준선에 비해 멀티모달 이해 및 시각적 생성 작업에서 2-6%의 상당한 성능 향상을 가져오는 동시에 원래의 재구성 능력을 유지한다는 것을 입증했습니다. 우리는 이 매우 간단하면서도 강력한 방법이 이미지 생성 및 이해를 넘어 멀티모달 기반 모델을 강화할 수 있기를 바랍니다.

EWMBench: 체화된 세계 모델의 장면, 운동, 의미론적 품질 평가
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

May 14, 2025
Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
182

최근 창의적 AI의 발전으로 언어 지시에 기반한 고해상도 이미지 및 비디오 합성이 가능해졌다. 이러한 발전을 바탕으로, 텍스트-투-비디오 확산 모델은 물리적으로 타당한 장면을 언어 명령어로부터 생성할 수 있는 체화된 세계 모델(Embodied World Models, EWMs)로 진화하여, 체화된 AI 애플리케이션에서 시각과 행동을 효과적으로 연결하고 있다. 본 연구는 일반적인 지각 지표를 넘어 물리적으로 근거 있고 행동과 일관된 행동을 생성하는 EWMs의 평가라는 중요한 과제를 다룬다. 우리는 시각적 장면 일관성, 동작 정확성, 의미론적 정렬이라는 세 가지 핵심 측면을 기반으로 EWMs를 평가하기 위해 설계된 전용 프레임워크인 체화된 세계 모델 벤치마크(Embodied World Model Benchmark, EWMBench)를 제안한다. 이 접근법은 다양한 장면과 동작 패턴을 포함하는 세심하게 선별된 데이터셋과 포괄적인 다차원 평가 도구를 활용하여 후보 모델을 평가하고 비교한다. 제안된 벤치마크는 기존 비디오 생성 모델이 체화된 작업의 고유한 요구 사항을 충족하는 데 있어 한계를 식별할 뿐만 아니라, 해당 분야의 미래 발전을 이끌기 위한 귀중한 통찰을 제공한다. 데이터셋과 평가 도구는 https://github.com/AgibotTech/EWMBench에서 공개적으로 이용 가능하다.

MLE-Dojo: 기계 학습 엔지니어링에서 LLM 에이전트 역량 강화를 위한 인터랙티브 환경
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
172

우리는 반복적인 머신러닝 엔지니어링(MLE) 워크플로우에서 자율적인 대형 언어 모델(LLM) 에이전트를 체계적으로 강화 학습, 평가 및 개선하기 위한 Gym 스타일 프레임워크인 MLE-Dojo를 소개한다. 정적 데이터셋이나 단일 시도 평가에 주로 의존하는 기존 벤치마크와 달리, MLE-Dojo는 구조화된 피드백 루프를 통해 에이전트가 반복적으로 실험, 디버깅 및 솔루션을 개선할 수 있는 상호작용 환경을 제공한다. 200개 이상의 실제 Kaggle 챌린지를 기반으로 구축된 MLE-Dojo는 데이터 처리, 아키텍처 탐색, 하이퍼파라미터 튜닝, 코드 디버깅과 같은 현실적인 엔지니어링 시나리오를 반영하도록 신중하게 선별된 다양한 오픈엔드 MLE 작업을 다룬다. 완전히 실행 가능한 환경은 지도 미세 조정과 강화 학습을 통한 포괄적인 에이전트 훈련을 지원하며, 반복적인 실험, 현실적인 데이터 샘플링 및 실시간 결과 검증을 용이하게 한다. 8개의 최첨단 LLM에 대한 광범위한 평가 결과, 현재 모델들이 의미 있는 반복적 개선을 달성하지만 장기적인 솔루션을 자율적으로 생성하고 복잡한 오류를 효율적으로 해결하는 데 여전히 상당한 한계를 보인다는 것을 확인했다. 또한, MLE-Dojo의 유연하고 확장 가능한 아키텍처는 다양한 데이터 소스, 도구 및 평가 프로토콜을 원활하게 통합하여 모델 기반 에이전트 튜닝을 가능하게 하고 상호운용성, 확장성 및 재현성을 촉진한다. 우리는 차세대 MLE 에이전트를 위한 커뮤니티 주도 혁신을 촉진하기 위해 프레임워크와 벤치마크를 오픈소스로 공개한다.

Unilogit: 균일 타겟 자기 지식을 활용한 LLM을 위한 강건한 기계 학습 해제 기술
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9, 2025
Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
172

본 논문은 대규모 언어 모델(Large Language Models)에서의 기계적 망각(machine unlearning)을 위한 새로운 자기 증류(self-distillation) 방법인 Unilogit을 소개한다. Unilogit은 GDPR과 같은 데이터 개인정보 보호 규정 준수를 위해 중요한 과제인, 전반적인 모델 유용성을 유지하면서 특정 정보를 선택적으로 망각하는 문제를 해결한다. 기존의 정적 하이퍼파라미터나 초기 모델 출력에 의존하는 방법과 달리, Unilogit은 대상 토큰에 대한 균일한 확률을 달성하기 위해 대상 로짓(logits)을 동적으로 조정하며, 현재 모델의 출력을 활용하여 더 정확한 자기 증류 목표를 설정한다. 이 접근법은 추가적인 하이퍼파라미터가 필요하지 않을 뿐만 아니라, 모델이 이상적인 목표에 근접하는 능력을 향상시킨다. 공개 벤치마크와 내부 전자상거래 데이터셋에서의 광범위한 실험을 통해 Unilogit이 망각과 유지 목표 간의 균형을 맞추는 데 있어 NPO 및 UnDIAL과 같은 최신 방법들을 능가하는 우수한 성능을 보임을 입증하였다. 또한, 다양한 시나리오에서 Unilogit의 견고성을 분석함으로써, 효과적인 기계적 망각을 달성하는 데 있어 이 방법의 실용적 적용 가능성과 효율성을 강조하였다.

이미지 확산 사전 지식을 활용한 텍스트-벡터 생성의 스타일 맞춤화
Style Customization of Text-to-Vector Generation with Image Diffusion Priors

May 15, 2025
Peiying Zhang, Nanxuan Zhao, Jing Liao
153

확장 가능한 벡터 그래픽(SVG)은 해상도 독립성과 잘 조직된 레이어 구조로 인해 디자이너들에게 높은 선호를 받고 있습니다. 기존의 텍스트-투-벡터(T2V) 생성 방법들은 텍스트 프롬프트로부터 SVG를 생성할 수 있지만, 실용적인 응용에서 중요한 요구 사항인 스타일 커스터마이제이션을 종종 간과합니다. 이는 일관된 시각적 외관과 조화로운 미학을 가진 벡터 그래픽 컬렉션을 생산하는 데 필수적입니다. 기존 T2V 방법을 스타일 커스터마이제이션으로 확장하는 것은 몇 가지 도전 과제를 제기합니다. 최적화 기반 T2V 모델은 텍스트-투-이미지(T2I) 모델의 사전 지식을 활용하여 커스터마이제이션을 수행할 수 있지만, 구조적 규칙성을 유지하는 데 어려움을 겪습니다. 반면, 피드-포워드 T2V 모델은 구조적 규칙성을 보장할 수 있지만, 제한된 SVG 학습 데이터로 인해 콘텐츠와 스타일을 분리하는 데 어려움을 겪습니다. 이러한 도전 과제를 해결하기 위해, 우리는 피드-포워드 T2V 모델과 T2I 이미지 사전 지식의 장점을 활용한 새로운 두 단계의 스타일 커스터마이제이션 파이프라인을 제안합니다. 첫 번째 단계에서는 다양한 표현 능력을 유지하면서 SVG의 구조적 규칙성을 보장하기 위해 경로 수준 표현을 가진 T2V 확산 모델을 학습시킵니다. 두 번째 단계에서는 커스터마이즈된 T2I 모델을 증류하여 T2V 확산 모델을 다양한 스타일로 커스터마이즈합니다. 이러한 기술을 통합함으로써, 우리의 파이프라인은 텍스트 프롬프트를 기반으로 효율적인 피드-포워드 방식으로 커스텀 스타일의 고품질이고 다양한 SVG를 생성할 수 있습니다. 우리의 방법의 효과는 광범위한 실험을 통해 검증되었습니다. 프로젝트 페이지는 https://customsvg.github.io에서 확인할 수 있습니다.

어떤 사전 지식과도 결합 가능한 Depth Anything
Depth Anything with Any Prior

May 15, 2025
Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
112

본 연구는 깊이 측정에서 불완전하지만 정확한 미터법 정보와 깊이 예측에서 상대적이지만 완전한 기하학적 구조를 결합하여, 어떤 장면에 대해서도 정확하고 조밀하며 세밀한 미터법 깊이 맵을 생성하는 Prior Depth Anything 프레임워크를 제시합니다. 이를 위해, 우리는 두 가지 상호 보완적인 깊이 소스를 점진적으로 통합하는 coarse-to-fine 파이프라인을 설계했습니다. 먼저, 픽셀 수준의 미터법 정렬과 거리 인식 가중치를 도입하여 깊이 예측을 명시적으로 사용하여 다양한 미터법 사전 정보를 미리 채웁니다. 이는 사전 패턴 간의 도메인 격차를 효과적으로 좁혀 다양한 시나리오에서의 일반화를 향상시킵니다. 둘째, 깊이 사전 정보의 내재된 노이즈를 정제하기 위해 조건부 단안 깊이 추정(Monocular Depth Estimation, MDE) 모델을 개발했습니다. 정규화된 미리 채워진 사전 정보와 예측을 조건으로 하여, 이 모델은 두 가지 상호 보완적인 깊이 소스를 더욱 암묵적으로 통합합니다. 우리의 모델은 7개의 실제 데이터셋에 걸쳐 깊이 완성, 초해상도, 인페인팅 작업에서 인상적인 제로샷 일반화 능력을 보여주며, 이전의 작업별 방법을 능가하거나 동등한 성능을 달성합니다. 더 중요한 것은, 이 모델이 도전적인, 보지 못한 혼합 사전 정보에서도 잘 작동하며, 예측 모델을 전환함으로써 테스트 시간 개선을 가능하게 하여, MDE 모델의 발전과 함께 진화하면서 유연한 정확도-효율성 트레이드오프를 제공합니다.

PointArena: 언어 기반 포인팅을 통한 다중 모달 그라운딩 탐구
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

May 15, 2025
Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna
112

포인팅은 언어를 시각적 맥락에 기반시키기 위한 기본적이고 직관적인 메커니즘으로, 로보틱스, 보조 기술, 그리고 인터랙티브 AI 시스템에 걸쳐 다양한 응용 분야를 가지고 있습니다. 최근의 멀티모달 모델들이 포인팅 기능을 지원하기 시작했지만, 기존 벤치마크들은 일반적으로 참조적 객체 위치 지정 작업에만 초점을 맞추고 있습니다. 우리는 다양한 추론 시나리오에서 멀티모달 포인팅을 평가하기 위한 포괄적인 플랫폼인 PointArena를 소개합니다. PointArena는 세 가지 구성 요소로 이루어져 있습니다: (1) Point-Bench, 다섯 가지 추론 범주에 걸쳐 약 1,000개의 포인팅 작업을 포함한 큐레이션된 데이터셋; (2) Point-Battle, 익명의 쌍별 모델 비교를 용이하게 하는 인터랙티브 웹 기반 아레나로, 이미 4,500개 이상의 익명 투표를 수집함; (3) Point-Act, 사용자가 실질적인 환경에서 멀티모달 모델의 포인팅 능력을 직접 평가할 수 있는 실제 로봇 조작 시스템. 우리는 최신 오픈소스 및 독점 멀티모달 모델에 대한 광범위한 평가를 수행했습니다. 결과는 Molmo-72B가 다른 모델들을 꾸준히 능가하지만, 독점 모델들도 점점 더 비슷한 성능을 보여주고 있음을 나타냅니다. 또한, 포인팅 작업을 특별히 대상으로 한 지도 학습이 모델 성능을 크게 향상시킨다는 것을 발견했습니다. 우리의 다단계 평가 파이프라인 전반에 걸쳐, 정확한 포인팅 능력이 멀티모달 모델이 추상적 추론과 구체적인 실제 행동을 효과적으로 연결하는 데 중요한 역할을 한다는 강한 상관관계를 관찰했습니다. 프로젝트 페이지: https://pointarena.github.io/

AI 에이전트 대 에이전트형 AI: 개념적 분류, 응용 및 과제
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge

May 15, 2025
Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
92

본 연구는 AI 에이전트(AI Agents)와 에이전틱 AI(Agentic AI)를 명확히 구분하고, 이들의 상이한 설계 철학과 역량을 명료화하기 위해 구조화된 개념적 분류체계, 응용 분야 매핑, 그리고 도전 과제 분석을 제공한다. 먼저, 탐색 전략과 기초 정의를 개괄하며, AI 에이전트를 대규모 언어 모델(LLMs)과 대규모 이미지 모델(LIMs)에 의해 구동되는 특정 작업 자동화를 위한 모듈식 시스템으로 특징짓는다. 생성형 AI는 전단계로 위치시키며, AI 에이전트는 도구 통합, 프롬프트 엔지니어링, 그리고 추론 강화를 통해 발전한다. 반면, 에이전틱 AI 시스템은 다중 에이전트 협업, 동적 작업 분해, 지속적 메모리, 그리고 조율된 자율성을 특징으로 하는 패러다임 전환을 나타낸다. 아키텍처 진화, 운영 메커니즘, 상호작용 방식, 그리고 자율성 수준에 대한 순차적 평가를 통해 두 패러다임 간의 비교 분석을 제시한다. 고객 지원, 스케줄링, 데이터 요약과 같은 응용 분야는 연구 자동화, 로봇 조정, 의료 의사결정 지원과 같은 에이전틱 AI 배치와 대조된다. 또한, 환각, 취약성, 창발적 행동, 그리고 조정 실패와 같은 각 패러다임의 독특한 도전 과제를 검토하고, ReAct 루프, RAG, 조율 계층, 그리고 인과 모델링과 같은 표적 해결책을 제안한다. 본 연구는 견고하고 확장 가능하며 설명 가능한 AI 에이전트 및 에이전틱 AI 기반 시스템 개발을 위한 결정적인 로드맵을 제공하는 것을 목표로 한다. >AI 에이전트, 에이전트 주도, 비전-언어 모델, 에이전틱 AI 의사결정 지원 시스템, 에이전틱 AI 응용 분야

대규모 언어 모델과 디퓨전 트랜스포머의 심층 융합을 통한 텍스트-이미지 합성 탐구
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

May 15, 2025
Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
92

본 논문은 새로운 방법론을 제안하기보다는, 최근 텍스트-이미지 합성 분야의 중요한 발전과 관련된, 다소 간과되어 온 설계 공간에 대한 심층적인 탐구를 제공한다. 특히, 대규모 언어 모델(LLMs)과 디퓨전 트랜스포머(DiTs)의 깊은 융합을 통한 다중 모드 생성에 초점을 맞춘다. 기존 연구들은 주로 전체 시스템 성능에 집중했으며, 대체 방법론과의 상세한 비교나 주요 설계 세부사항 및 학습 레시피는 종종 공개되지 않았다. 이러한 공백은 해당 접근법의 실제 잠재력에 대한 불확실성을 야기한다. 이러한 공백을 메우기 위해, 본 연구는 텍스트-이미지 생성에 대한 실증적 연구를 수행하며, 기존의 확립된 베이스라인과의 통제된 비교를 진행하고, 중요한 설계 선택을 분석하며, 대규모 학습을 위한 명확하고 재현 가능한 레시피를 제공한다. 이 연구가 다중 모드 생성 분야의 향후 연구에 의미 있는 데이터 포인트와 실용적인 가이드라인을 제공할 수 있기를 바란다.

휴리스틱 적응과 슈퍼토큰 학습을 통한 언어 모델의 토크나이저 유연성 달성
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

May 14, 2025
Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
92

사전 학습된 언어 모델(LLMs)은 고정된 토큰화 방식으로 인해 비효율성과 성능 한계에 직면하는 경우가 많으며, 특히 다국어 또는 특수 목적 애플리케이션에서 이러한 문제가 두드러진다. 이러한 토큰화 방식의 고정화는 상당한 도전 과제를 제기한다. 이를 극복하기 위한 표준적인 방법들은 과도한 계산 자원을 요구하는 경우가 많다. 휴리스틱 초기화를 통한 토큰화기 교체는 이러한 부담을 줄이기 위해 시도되지만, 기존 방법들은 여전히 광범위한 잔여 미세 조정을 필요로 하며, 의미적 뉘앙스를 완전히 보존하거나 기본적인 압축 비효율성을 충분히 해결하지 못할 수 있다. 본 연구에서는 두 가지 혁신적인 방법을 제안한다: 첫째, 모델에 독립적인 토큰화기 이식 방법인 TokenAdapt와, 둘째, 다중 단어 슈퍼토큰을 위한 새로운 사전 토큰화 학습을 통해 압축 효율을 높이고 단편화를 줄이는 방법이다. TokenAdapt는 두 가지 방법을 결합한 하이브리드 휴리스틱을 통해 새로운 고유 토큰 임베딩을 초기화한다. 첫 번째 방법은 기존 토큰화기를 사용한 서브워드 분해를 기반으로 한 지역적 추정치이며, 두 번째 방법은 원래 어휘 집합에서 상위 k개의 의미적으로 유사한 토큰을 활용한 전역적 추정치이다. 이 방법론은 의미를 보존하면서도 재학습 요구 사항을 크게 최소화하는 것을 목표로 한다. 실증적 연구는 두 가지 기여를 검증한다: 이식 휴리스틱은 고유 토큰을 성공적으로 초기화하며, Transtokenizer 및 ReTok를 포함한 기존의 정교한 방법들을 크게 능가하며, 슈퍼토큰은 상당한 압축 이득을 달성한다. 제로샷 퍼플렉서티 결과는 TokenAdapt 하이브리드 초기화가 ReTok 및 TransTokenizer 기준선에 비해 다양한 기본 모델과 새로 학습된 대상 토큰화기에서 일관되게 더 낮은 퍼플렉서티 비율을 보여준다는 것을 입증한다. TokenAdapt는 일반적으로 ReTok에 비해 전체 퍼플렉서티 비율을 상당히 감소시켰으며, 이러한 종합 점수에서 최소 2배의 개선을 달성했다.

ReSurgSAM2: 신뢰할 수 있는 장기 추적을 통한 수술 영상 내 참조 대상 분할
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
92

수술 장면 분할은 컴퓨터 보조 수술에서 매우 중요하며, 수술의 질과 환자 결과를 향상시키는 데 필수적입니다. 최근, 외과의에게 상호작용적인 경험을 제공하여 대상 물체를 분할할 수 있는 장점을 가진 참조 수술 분할이 주목받고 있습니다. 그러나 기존 방법들은 낮은 효율성과 단기 추적의 한계로 인해 복잡한 실제 수술 시나리오에서의 적용이 어려웠습니다. 본 논문에서는 Segment Anything Model 2를 활용하여 텍스트 참조 대상 탐지를 수행하고, 신뢰할 수 있는 초기 프레임 식별과 다양성 기반 장기 메모리를 통해 추적을 수행하는 2단계 수술 참조 분할 프레임워크인 ReSurgSAM2를 소개합니다. 탐지 단계에서는 정확한 탐지 및 분할 결과를 생성하기 위해 크로스 모달 시공간 맘바를 제안합니다. 이러한 결과를 바탕으로, 신뢰할 수 있는 초기 프레임 선택 전략은 이후 추적을 위한 신뢰할 수 있는 프레임을 식별합니다. 초기 프레임이 선택되면, 본 방법은 추적 단계로 전환되며, 신뢰할 수 있고 다양한 메모리 뱅크를 유지하는 다양성 기반 메모리 메커니즘을 통합하여 일관된 장기 추적을 보장합니다. 광범위한 실험을 통해 ReSurgSAM2가 기존 방법들에 비해 정확도와 효율성에서 상당한 개선을 이루며, 61.2 FPS의 실시간 작동이 가능함을 입증했습니다. 본 코드와 데이터셋은 https://github.com/jinlab-imvr/ReSurgSAM2에서 확인할 수 있습니다.

3D-Fixup: 3D 사전 지식을 활용한 사진 편집 기술의 발전
3D-Fixup: Advancing Photo Editing with 3D Priors

May 15, 2025
Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
72

확산 모델을 통한 이미지 사전 모델링의 상당한 발전에도 불구하고, 3D 인식 이미지 편집은 여전히 도전적인 과제로 남아 있습니다. 이는 부분적으로 대상이 단일 이미지로만 지정되기 때문입니다. 이러한 도전을 해결하기 위해, 우리는 학습된 3D 사전 지식을 기반으로 2D 이미지를 편집하는 새로운 프레임워크인 3D-Fixup을 제안합니다. 이 프레임워크는 객체 이동 및 3D 회전과 같은 어려운 편집 상황을 지원합니다. 이를 달성하기 위해, 우리는 확산 모델의 생성 능력을 활용한 훈련 기반 접근 방식을 사용합니다. 비디오 데이터는 자연스럽게 실제 세계의 물리적 역학을 인코딩하므로, 우리는 훈련 데이터 쌍(즉, 소스 프레임과 타겟 프레임)을 생성하기 위해 비디오 데이터를 활용합니다. 소스 프레임과 타겟 프레임 간의 변환을 추론하기 위해 단일 훈련 모델에만 의존하는 대신, 우리는 2D 정보를 명시적으로 3D 공간으로 투영함으로써 이 어려운 작업을 연결하는 Image-to-3D 모델의 3D 지도를 통합합니다. 우리는 훈련 전반에 걸쳐 고품질의 3D 지도를 보장하기 위해 데이터 생성 파이프라인을 설계했습니다. 결과는 이러한 3D 사전 지식을 통합함으로써 3D-Fixup이 복잡하고 일관성 있는 3D 인식 편집을 효과적으로 지원하며, 고품질의 결과를 달성하고 확산 모델의 현실적인 이미지 조작 응용을 발전시킨다는 것을 보여줍니다. 코드는 https://3dfixup.github.io/에서 제공됩니다.

QuXAI: 하이브리드 양자 머신러닝 모델을 위한 설명 도구
QuXAI: Explainers for Hybrid Quantum Machine Learning Models

May 15, 2025
Saikat Barua, Mostafizur Rahman, Shehenaz Khaled, Md Jafor Sadek, Rafiul Islam, Shahnewaz Siddique
73

하이브리드 양자-클래식 머신러닝(HQML) 모델의 등장은 계산 지능의 새로운 지평을 열었지만, 그 근본적인 복잡성은 종종 블랙박스 행동으로 이어져 응용에서의 투명성과 신뢰성을 훼손합니다. 양자 시스템을 위한 설명 가능한 AI(XAI)는 아직 초기 단계에 있지만, 양자화된 특징 인코딩과 클래식 학습을 결합한 HQML 아키텍처를 위해 설계된 강력한 전역 및 지역 설명 가능성 접근법에서 주요 연구 격차가 뚜렷합니다. 이 연구는 이러한 격차에 초점을 맞추며, 이러한 하이브리드 시스템에서 특징 중요성을 설명하기 위한 Q-MEDLEY 기반의 프레임워크인 QuXAI를 소개합니다. 우리의 모델은 양자 특징 맵을 통합한 HQML 모델의 생성, 양자 변환 단계를 보존하면서 특징 기반 추론을 결합한 Q-MEDLEY의 사용, 그리고 결과적인 속성 시각화를 포함합니다. 우리의 결과는 Q-MEDLEY가 HQML 모델에서 영향력 있는 클래식 측면을 명확히 구분하고 노이즈를 분리하며, 클래식 검증 설정에서 기존 XAI 기술과 경쟁력 있음을 보여줍니다. 어블레이션 연구는 Q-MEDLEY에서 사용된 복합 구조의 장점을 더욱 명확히 드러냅니다. 이 연구의 함의는 매우 중요하며, HQML 모델의 해석 가능성과 신뢰성을 개선하여 양자 강화 AI 기술의 더 안전하고 책임 있는 사용을 촉진할 수 있는 길을 제공합니다.

AdaptCLIP: 범용 시각 이상 탐지를 위한 CLIP 적응
AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
64

범용 시각 이상 탐지(Universal Visual Anomaly Detection)는 추가적인 미세 조정 없이도 새로운 또는 보지 못한 시각 도메인에서 이상을 식별하는 것을 목표로 하며, 이는 개방형 시나리오에서 매우 중요합니다. 최근 연구들은 CLIP과 같은 사전 학습된 시각-언어 모델이 단지 제로샷 또는 소수의 정상 이미지만으로도 강력한 일반화 능력을 보인다는 것을 입증했습니다. 그러나 기존 방법들은 프롬프트 템플릿 설계, 복잡한 토큰 상호작용, 또는 추가적인 미세 조정이 필요하여 유연성이 제한적이었습니다. 본 연구에서는 두 가지 핵심 통찰을 바탕으로 AdaptCLIP이라는 간단하면서도 효과적인 방법을 제안합니다. 첫째, 적응형 시각 및 텍스트 표현은 공동으로가 아니라 번갈아가며 학습되어야 합니다. 둘째, 쿼리와 정상 이미지 프롬프트 간의 비교 학습은 잔차 특징만 의존하는 것이 아니라, 문맥적 및 정렬된 잔차 특징을 모두 포함해야 합니다. AdaptCLIP은 CLIP 모델을 기반 서비스로 취급하며, 입력 또는 출력 단에 단순히 세 개의 어댑터(시각 어댑터, 텍스트 어댑터, 프롬프트-쿼리 어댑터)만 추가합니다. AdaptCLIP은 도메인 간 제로샷/소수샷 일반화를 지원하며, 기본 데이터셋에서 한 번 학습하면 대상 도메인에서 추가 학습 없이도 사용할 수 있습니다. AdaptCLIP은 산업 및 의료 도메인의 12개 이상 탐지 벤치마크에서 최첨단 성능을 달성하며, 기존 경쟁 방법들을 크게 능가합니다. AdaptCLIP의 코드와 모델은 https://github.com/gaobb/AdaptCLIP에서 공개할 예정입니다.

Real2Render2Real: 동역학 시뮬레이션이나 로봇 하드웨어 없이 로봇 데이터 확장하기
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14, 2025
Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
52

로봇 학습의 확장에는 방대하고 다양한 데이터셋이 필요합니다. 그러나 현재의 데이터 수집 패러다임인 인간 원격 조작은 비용이 많이 들고 수동 작업 및 물리적 로봇 접근에 의해 제약을 받습니다. 우리는 물체 역학 시뮬레이션이나 로봇 하드웨어의 원격 조작에 의존하지 않고 로봇 훈련 데이터를 생성하는 새로운 접근법인 Real2Render2Real(R2R2R)을 소개합니다. 입력은 스마트폰으로 촬영된 하나 이상의 물체 스캔과 인간 시연의 단일 비디오입니다. R2R2R은 상세한 3D 물체 기하학과 외관을 재구성하고 6자유도 물체 운동을 추적하여 수천 개의 높은 시각적 충실도를 가진 로봇-불가지론적 시연을 렌더링합니다. R2R2R은 3D 가우시안 스플래팅(3DGS)을 사용하여 강체 및 관절 물체 모두에 대해 유연한 자산 생성 및 궤적 합성을 가능하게 하고, 이러한 표현을 메시로 변환하여 IsaacLab과 같은 확장 가능한 렌더링 엔진과의 호환성을 유지하지만 충돌 모델링은 비활성화합니다. R2R2R에 의해 생성된 로봇 시연 데이터는 로봇의 자체 감각 상태와 이미지 관찰에서 작동하는 모델, 예를 들어 시각-언어-행동 모델(VLA) 및 모방 학습 정책과 직접 통합됩니다. 물리적 실험 결과, 단일 인간 시연에서 생성된 R2R2R 데이터로 훈련된 모델이 150개의 인간 원격 조작 시연으로 훈련된 모델의 성능과 일치할 수 있음을 시사합니다. 프로젝트 페이지: https://real2render2real.com

단 하나의 정상 이미지로 다중 클래스 이상 탐지 학습하기 프롬프트
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14, 2025
Bin-Bin Gao
52

자기 주의력(self-attention) 트랜스포머를 활용한 비지도 재구성 네트워크는 단일 모델로 다중 클래스(통합) 이상 탐지에서 최첨단 성능을 달성했습니다. 그러나 이러한 자기 주의력 재구성 모델은 주로 대상 특징에 작동하기 때문에, 문맥과의 높은 일관성으로 인해 정상 및 이상 특징 모두를 완벽하게 재구성할 수 있어 이상 탐지 실패로 이어질 수 있습니다. 또한, 이러한 모델은 낮은 공간 해상도의 잠재 공간에서 재구성을 수행하기 때문에 부정확한 이상 분할을 생성하는 경우가 많습니다. 재구성 모델이 높은 효율성을 유지하면서 통합 이상 탐지를 위한 일반화를 강화할 수 있도록, 우리는 단 하나의 정상 이미지 프롬프트(OneNIP)만으로 정상 특징을 재구성하고 이상 특징을 복원하는 간단하지만 효과적인 방법을 제안합니다. 기존 연구와 달리, OneNIP는 단 하나의 정상 이미지 프롬프트만으로 이상을 재구성하거나 복원할 수 있어 통합 이상 탐지 성능을 효과적으로 향상시킵니다. 더불어, 실제 정상 이미지와 합성된 이상 이미지를 모두 사용하여 재구성 오차를 회귀하는 지도형 정제기를 제안함으로써 픽셀 수준의 이상 분할을 크게 개선합니다. OneNIP는 MVTec, BTAD, VisA 등 세 가지 산업 이상 탐지 벤치마크에서 기존 방법들을 능가합니다. 코드와 사전 학습된 모델은 https://github.com/gaobb/OneNIP에서 확인할 수 있습니다.

MetaUAS: 원-프롬프트 메타러닝을 통한 범용 이상 분할
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

May 14, 2025
Bin-Bin Gao
42

제로샷 및 퓨샷 시각적 이상 분할은 수동으로 설계된 텍스트 프롬프트를 사용하여 보이지 않는 이상을 감지하는 강력한 시각-언어 모델에 의존합니다. 그러나 시각적 표현은 본질적으로 언어와 독립적입니다. 본 논문에서는 보편적인 시각적 이상 분할을 위해 널리 사용되는 시각-언어 모델 대안으로 순수 시각 기반 모델의 잠재력을 탐구합니다. 우리는 이상 분할을 변화 분할로 통합하는 새로운 패러다임을 제시합니다. 이 패러다임은 대상 이상 데이터셋과 독립적으로 기존 이미지 데이터셋에서 파생된 객체 수준 및 지역적 변화를 특징으로 하는 대규모 합성 이미지 쌍을 활용할 수 있게 합니다. 우리는 이 합성 데이터셋에서 훈련된 후 실제 세계에서 새로운 또는 보이지 않는 시각적 이상을 잘 분할할 수 있는 범용 이상 분선을 위한 원-프롬프트 메타러닝 프레임워크(MetaUAS)를 제안합니다. 프롬프트와 쿼리 이미지 간의 기하학적 변동을 처리하기 위해, 우리는 쌍 이미지 변화 인식과 단일 이미지 의미 분할을 연결하는 소프트 특징 정렬 모듈을 제안합니다. 이는 특수 이상 감지 데이터셋과 사전 훈련된 시각-언어 모델에 의존하지 않고 순수 시각 모델을 사용하여 범용 이상 분할을 달성한 첫 번째 작업입니다. 우리의 방법은 단 하나의 정상 이미지 프롬프트만으로도 모든 이상을 효과적이고 효율적으로 분할하며, 언어의 지도 없이도 훈련 없이 작동합니다. 우리의 MetaUAS는 이전의 제로샷, 퓨샷, 그리고 심지어 풀샷 이상 분할 방법들을 크게 능가합니다. 코드와 사전 훈련된 모델은 https://github.com/gaobb/MetaUAS에서 확인할 수 있습니다.

소수 샷 이상 현상 기반 생성: 이상 분류 및 세분화를 위한 접근법
Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

May 14, 2025
Guan Gui, Bin-Bin Gao, Jun Liu, Chengjie Wang, Yunsheng Wu
42

이상 탐지는 산업 검사에서 이상 샘플이 부족하기 때문에 실용적이면서도 도전적인 과제입니다. 기존의 일부 이상 탐지 방법들은 노이즈나 외부 데이터를 사용하여 이상을 합성함으로써 이 문제를 해결하려고 합니다. 그러나 합성된 이상과 실제 세계의 이상 사이에는 항상 큰 의미론적 차이가 존재하며, 이로 인해 이상 탐지 성능이 약화됩니다. 이 문제를 해결하기 위해, 우리는 소수의 실제 이상만으로도 현실적이고 다양한 이상을 생성할 수 있는 few-shot Anomaly-driven Generation(AnoGen) 방법을 제안합니다. 이를 통해 이상 탐지 모델의 학습에 도움을 줄 수 있습니다. 구체적으로, 우리의 작업은 세 단계로 나뉩니다. 첫 번째 단계에서는 소수의 실제 이상을 기반으로 이상 분포를 학습하고, 이 학습된 지식을 임베딩에 주입합니다. 두 번째 단계에서는 이 임베딩과 주어진 바운딩 박스를 사용하여 확산 모델이 특정 객체(또는 텍스처)에 현실적이고 다양한 이상을 생성하도록 유도합니다. 마지막 단계에서는 생성된 이상을 사용하여 더 강력한 모델을 학습시키기 위한 약한 감독 이상 탐지 방법을 제안합니다. 우리의 방법은 DRAEM과 DesTSeg를 기반 모델로 사용하며, 일반적으로 사용되는 산업 이상 탐지 데이터셋인 MVTec에서 실험을 진행합니다. 실험 결과, 우리가 생성한 이상은 이상 분류 및 세그멘테이션 작업 모두에서 모델 성능을 효과적으로 향상시켰습니다. 예를 들어, DRAEM과 DseTSeg는 세그멘테이션 작업에서 AU-PR 지표가 각각 5.8%와 1.5% 향상되었습니다. 코드와 생성된 이상 데이터는 https://github.com/gaobb/AnoGen에서 확인할 수 있습니다.

X-Sim: 실세계-시뮬레이션-실세계를 통한 교차 구현체 학습
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
42

인간 비디오는 로봇 조작 정책을 훈련시키기 위한 확장 가능한 방법을 제공하지만, 표준 모방 학습 알고리즘에 필요한 동작 레이블이 부족합니다. 기존의 교차 구현체 접근법은 인간의 움직임을 로봇 동작으로 매핑하려고 시도하지만, 구현체 간 차이가 크면 종종 실패합니다. 우리는 객체의 움직임을 밀집하고 전이 가능한 신호로 사용하여 로봇 정책을 학습하는 실재-시뮬레이션-실재 프레임워크인 X-Sim을 제안합니다. X-Sim은 RGBD 인간 비디오에서 사실적인 시뮬레이션을 재구성하고 객체 궤적을 추적하여 객체 중심 보상을 정의하는 것으로 시작합니다. 이러한 보상은 시뮬레이션 내에서 강화 학습(RL) 정책을 훈련시키는 데 사용됩니다. 학습된 정책은 다양한 시점과 조명으로 렌더링된 합성 롤아웃을 사용하여 이미지 조건부 확산 정책으로 정제됩니다. 실재 세계로 전이하기 위해 X-Sim은 배포 중에 실재와 시뮬레이션 관측을 정렬하는 온라인 도메인 적응 기술을 도입합니다. 중요한 점은 X-Sim이 로봇 원격 조작 데이터를 전혀 필요로 하지 않는다는 것입니다. 우리는 2개의 환경에서 5개의 조작 작업에 걸쳐 이를 평가하고 다음과 같은 결과를 보여줍니다: (1) 손 추적 및 시뮬레이션-실재 기준선보다 평균 30%의 작업 진행도를 개선, (2) 데이터 수집 시간을 10분의 1로 줄여도 행동 복제와 동등한 성능, (3) 새로운 카메라 시점과 테스트 시 변경 사항에 일반화. 코드와 비디오는 https://portal-cornell.github.io/X-Sim/에서 확인할 수 있습니다.

May 15
May 16
May 19