ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

바이트 잠재 트랜스포머: 패치가 토큰보다 더 나은 스케일링을 보여줍니다.
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13, 2024
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
1048

우리는 Byte Latent Transformer (BLT)를 소개합니다. 이는 토큰화 기반 LLM의 성능을 처음으로 규모에 맞춰 달성하면서 추론 효율성과 견고성을 크게 향상시킨 새로운 바이트 수준의 LLM 아키텍처입니다. BLT는 바이트를 동적 크기의 패치로 인코딩하며, 이는 주요 계산 단위로 작용합니다. 패치는 다음 바이트의 엔트로피를 기반으로 분할되어, 데이터 복잡성이 증가하는 경우에 더 많은 계산 및 모델 용량을 할당합니다. 우리는 8B 매개변수 및 4T 트레이닝 바이트까지의 바이트 수준 모델에 대한 첫 번째 FLOP 제어 스케일링 연구를 제시합니다. 결과는 고정 어휘 없이 원시 바이트로 훈련된 모델의 스케일링이 가능함을 보여줍니다. 데이터가 예측 가능할 때 장기적인 패치를 동적으로 선택함으로써 훈련 및 추론 효율성이 향상되며, 추론 및 장기 일반화에 대한 질적 향상도 이루어집니다. 전반적으로, 고정된 추론 비용에 대해 BLT는 패치와 모델 크기를 동시에 확장하여 토큰화 기반 모델보다 훨씬 더 나은 스케일링을 보여줍니다.

RetroLLM: 대규모 언어 모델에게 세부 증거를 검색할 수 있는 능력 부여
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16, 2024
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou
374

대형 언어 모델 (LLM)은 놀라운 생성 능력을 보여주지만 종종 환각에 시달립니다. 검색 증강 생성 (RAG)은 외부 지식을 통합함으로써 효과적인 해결책을 제공하지만, 기존 방법은 여전히 몇 가지 제한에 직면합니다: 별도의 검색기의 추가 배포 비용, 검색된 텍스트 청크로부터 중복 입력 토큰, 그리고 검색 및 생성의 공동 최적화의 부재. 이러한 문제를 해결하기 위해 우리는 RetroLLM을 제안합니다. RetroLLM은 검색과 생성을 단일하고 일관된 프로세스로 통합하여 LLM이 제한된 디코딩으로 말뭉치에서 세부적인 증거를 직접 생성할 수 있게 합니다. 또한, 제한된 증거 생성 과정에서 잘못된 가지치기를 완화하기 위해 (1) 계층적 FM-인덱스 제약 조건을 소개합니다. 이 조건은 증거 생성 전에 관련 문서의 하위 집합을 식별하기 위해 말뭉치 제약 단서를 생성하여 관련 없는 디코딩 공간을 줄입니다. 그리고 (2) 미래 시퀀스의 관련성을 고려하여 증거 정확도를 향상시키는 전방향 제한 디코딩 전략을 도입합니다. 다섯 개의 오픈 도메인 QA 데이터셋에 대한 광범위한 실험 결과는 RetroLLM의 도메인 내 및 도메인 외 작업에서 우수한 성능을 보여줍니다. 코드는 https://github.com/sunnynexus/RetroLLM에서 사용할 수 있습니다.

평가 에이전트: 시각 생성 모델을 위한 효율적이고 신속한 평가 프레임워크
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10, 2024
Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
372

최근 시각적 생성 모델의 발전으로 고품질 이미지 및 비디오 생성이 가능해져 다양한 응용이 열렸습니다. 그러나 이러한 모델을 평가하는 것은 종종 수백 개 또는 수천 개의 이미지나 비디오를 샘플링해야 하므로, 특히 확산 기반 모델의 경우 내재적으로 샘플링 속도가 느려 계산 비용이 많이 듭니다. 더구나 기존의 평가 방법은 특정 사용자 요구를 간과하고 명확한 설명 없이 숫자 결과만 제공하는 엄격한 파이프라인에 의존합니다. 반면 사람들은 몇 가지 샘플만 관찰하여 모델의 능력에 대한 인상을 빠르게 형성할 수 있습니다. 이를 모방하기 위해 우리는 Evaluation Agent 프레임워크를 제안합니다. 이는 효율적이고 동적이며 다중 라운드 평가를 위해 소수의 샘플만 사용하는 동시에 상세하고 사용자 맞춤형 분석을 제공하는 인간과 유사한 전략을 채택합니다. 이는 1) 효율성, 2) 다양한 사용자 요구에 맞는 신속한 평가, 3) 단일 숫자 점수 이상의 설명 가능성, 그리고 4) 다양한 모델과 도구에 걸쳐 확장 가능성이라는 네 가지 주요 이점을 제공합니다. 실험 결과, Evaluation Agent는 전통적인 방법의 평가 시간을 10%로 줄이면서 비슷한 결과를 제공합니다. Evaluation Agent 프레임워크는 시각적 생성 모델 및 효율적인 평가에 대한 연구를 진전시키기 위해 완전히 오픈 소스로 제공됩니다.

BrushEdit: 올인원 이미지 인페인팅 및 편집
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13, 2024
Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
363

이미지 편집은 확산 모델의 발전으로 크게 발전해 왔는데, 이는 역전 기반 및 명령 기반 방법을 사용한다. 그러나 현재의 역전 기반 접근법은 구조화된 역전 노이즈의 성질로 인해 큰 수정(예: 객체 추가 또는 제거)에 어려움을 겪고 있어 실질적인 변경을 방해한다. 한편, 명령 기반 방법은 종종 사용자를 블랙박스 작업에 제한하여 편집 영역 및 강도를 명시하는 데 있어 직접적인 상호작용을 제한한다. 이러한 한계를 극복하기 위해 우리는 BrushEdit을 제안한다. 이는 새로운 인페인팅 기반 명령 안내 이미지 편집 패러다임으로, 다중 모달 대형 언어 모델(MLLMs)과 이미지 인페인팅 모델을 활용하여 자율적이고 사용자 친화적이며 대화형의 자유 형식 명령 편집을 가능하게 한다. 구체적으로, 편집 범주 분류, 주요 객체 식별, 마스크 획득 및 편집 영역 인페인팅을 수행하기 위해 MLLMs와 이중 브랜치 이미지 인페인팅 모델을 통합한 시스템을 고안했다. 광범위한 실험 결과 우리의 프레임워크가 MLLMs와 인페인팅 모델을 효과적으로 결합하여 마스크 영역 보존 및 편집 효과 일관성을 포함한 일곱 가지 메트릭에서 우수한 성능을 달성함을 보여준다.

더 작은 언어 모델이 더 나은 지시 진화자들이다.
Smaller Language Models Are Better Instruction Evolvers

Dec 15, 2024
Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su
292

지침 조정은 대형 언어 모델의 완전한 잠재력을 발휘하는 데 널리 사용되어 왔습니다. 특히 복잡하고 다양한 지침은 다양한 하류 작업과 모델을 효과적으로 조정할 수 있기 때문에 중요합니다. 그러나 현재 대규모 지침을 구축하는 방법은 주로 GPT-4와 같은 강력한 모델이나 700억 개 이상의 매개변수를 갖춘 모델을 선호하며, 이는 이러한 대형 언어 모델(LLM)이 본질적으로 향상된 능력을 갖고 있다는 경험적 가정에 따릅니다. 본 연구에서는 이러한 일반적인 가정을 의심하고 지침 진화의 맥락에서 작은 언어 모델(SLM)의 잠재력을 깊이 탐구합니다. 지침 진화의 세 가지 시나리오를 횡단하는 광범위한 실험에서 작은 언어 모델(SLM)이 LLM보다 효과적인 지침을 종합할 수 있다는 것을 밝혀냅니다. 추가적인 분석에서 SLM이 지침 진화 중에 더 복잡하고 다양한 변형을 생성할 수 있는 더 넓은 출력 공간을 갖고 있다는 것을 확인합니다. 또한 기존의 측정 항목이 지침의 영향에 중점을 두지 못하는 것을 관찰합니다. 따라서 우리는 지침 복잡성을 도입하여 지침 데이터의 효과를 더 정확하게 평가하는 IC-IFD(Instruction Complex-Aware IFD)를 제안합니다. 소스 코드는 다음에서 확인할 수 있습니다: https://github.com/HypherX/Evolution-Analysis

ColorFlow: 검색 보강 이미지 시퀀스 색칠
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16, 2024
Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan
264

문자와 물체 식별(ID)을 보존하면서 흑백 이미지 순차 색칠을 자동으로 수행하는 것은 만화 또는 만화 시리즈 색칠과 같은 중요한 시장 수요가 있는 복잡한 작업입니다. 확산 모델과 같은 대규모 생성 모델을 사용한 시각적 색칠의 발전에도 불구하고, 조절 가능성과 식별 일관성과 같은 문제가 지속되어 현재의 해결책이 산업 응용에 부적합합니다. 이를 해결하기 위해 우리는 산업 응용에 맞춘 세 단계 확산 기반 프레임워크인 ColorFlow를 제안합니다. ID별 세부 조정이나 명시적 ID 임베딩 추출이 필요한 기존 방법과 달리, 관련 색상 참조를 사용하여 이미지 순차 색칠에 대한 강력하고 일반화된 검색 증강 색칠 파이프라인을 제안합니다. 우리의 파이프라인은 또한 색상 식별 추출을 위한 하나의 브랜치와 색칠을 위한 다른 브랜치를 갖는 이중 브랜치 설계를 특징으로 하며, 확산 모델의 장점을 활용합니다. 우리는 확산 모델의 자기 주의 메커니즘을 사용하여 강력한 문맥 학습과 색상 식별 일치를 이루었습니다. 우리의 모델을 평가하기 위해 참조 기반 색칠을 위한 포괄적인 벤치마크인 ColorFlow-Bench를 소개했습니다. 결과는 ColorFlow가 다양한 메트릭을 통해 기존 모델을 능가하며, 순차 이미지 색칠의 새로운 표준을 설정하고 예술 산업에 혜택을 줄 수 있는 가능성을 보여줍니다. 우리의 코드와 모델은 프로젝트 페이지 https://zhuang2002.github.io/ColorFlow/에서 공개되어 있습니다.

인과 확산 트랜스포머를 이용한 생성 모델링
Causal Diffusion Transformers for Generative Modeling

Dec 16, 2024
Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
233

우리는 Causal Diffusion을 확산 모델의 자기회귀(AR) 대응물로 소개합니다. 이는 이산 및 연속적인 형태에 모두 적합하며 LLaMA와 GPT와 같은 기존의 다음 토큰 예측 모델과 호환됩니다. 최근 연구들은 확산과 AR 모델을 결합하려고 시도했지만, 우리는 확산 모델에 순차적 요소분해를 도입함으로써 성능을 크게 향상시킬 수 있고 AR 및 확산 생성 모드 사이의 부드러운 전환을 가능하게 합니다. 따라서 우리는 CausalFusion을 제안합니다 - 순차적 토큰 및 확산 잡음 수준을 거침없이 이중 요소분해하는 디코더 전용 트랜스포머로, ImageNet 생성 벤치마크에서 최신 결과를 보여주며 인문학적 추론을 위해 임의의 토큰 수를 생성하는 AR의 이점을 누립니다. 우리는 더 나아가 CausalFusion의 다중 모달 능력을 이미지 생성 및 캡션 모델을 통해 보여주며, CausalFusion의 제로샷 인문학 이미지 조작 능력을 선보입니다. 우리는 이 연구가 이산 및 연속 데이터에 대한 다중 모달 모델 교육에 대한 새로운 시각을 제공할 수 있기를 희망합니다.

SPaR: 대형 언어 모델에서 지시 따르기를 개선하기 위한 트리 탐색 정제와 함께 하는 셀프 플레이
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16, 2024
Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
182

지시 따르기는 언어 모델의 기본적인 능력으로, 모델이 지시의 가장 미묘한 요구사항까지 인식하고 그것을 정확하게 출력에 반영해야 합니다. 이러한 능력은 선호 학습에 적합하며 종종 최적화됩니다. 그러나 기존 방법은 종종 모델에서 선호 쌍을 만들 때 모델로부터 여러 독립적인 응답을 직접 샘플링합니다. 이러한 방식은 지시가 정확히 따르는지와 관련이 없는 콘텐츠 변형을 도입할 수 있으며(예: 동일한 의미에 대한 다른 표현), 모델이 향상된 지시 따르기를 이끄는 주요 차이를 인식하는 데 방해가 될 수 있습니다. 이에 따라, 우리는 SPaR을 소개합니다. SPaR은 셀프 플레이 프레임워크로, 트리 탐색 자기 세발을 통합하여 산란 없는 유효하고 비교 가능한 선호 쌍을 만들어냅니다. LLM은 자신과 대결함으로써, 지시에 대한 이전 응답을 트리 탐색 전략을 사용하여 세밀하게 조정하면서 불필요한 변형을 최소화합니다. 우리의 실험 결과, SPaR에 의해 안내되는 세 번의 반복 훈련을 받은 LLaMA3-8B 모델은 IFEval 벤치마크에서 GPT-4-Turbo를 능가하며 일반적인 능력을 잃지 않습니다. 더 나아가, SPaR은 유망한 확장성과 이전성을 보여주며, GLM-4-9B 및 LLaMA3-70B와 같은 모델을 크게 향상시킵니다. 또한, 트리 탐색에서 추론 스케일링이 모델 성능에 어떤 영향을 미칠지 확인합니다. 우리의 코드와 데이터는 https://github.com/thu-coai/SPaR에서 공개적으로 이용 가능합니다.

원더랜드: 단일 이미지에서 3D 장면 탐색
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16, 2024
Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
162

본 논문은 한 가지 어려운 질문에 대해 다룬다: 어떻게 단일 임의의 이미지로부터 고품질이면서 넓은 범위의 3D 장면을 효율적으로 생성할 수 있을까? 기존 방법들은 다수의 제약 조건을 가지고 있는데, 예를 들어 다중 뷰 데이터가 필요하다거나 장면별 최적화에 시간이 많이 소요된다거나 배경에서 시각적 품질이 낮다거나 보이지 않는 영역에서 왜곡된 재구성이 발생한다는 것이다. 우리는 이러한 제약을 극복하기 위한 새로운 파이프라인을 제안한다. 구체적으로, 비디오 확산 모델의 잠재 변수를 활용하여 피드포워드 방식으로 장면에 대한 3D 가우시안 스플래팅을 예측하는 대규모 재구성 모델을 소개한다. 비디오 확산 모델은 지정된 카메라 경로를 정확히 따라가는 비디오를 생성하기 위해 설계되었으며, 이를 통해 다중 뷰 정보를 포함하면서도 3D 일관성을 유지하는 압축된 비디오 잠재 변수를 생성할 수 있다. 우리는 3D 재구성 모델을 비디오 잠재 공간에서 작동하도록 훈련시키는 점진적 훈련 전략을 통해 고품질, 넓은 범위, 일반적인 3D 장면을 효율적으로 생성할 수 있게 한다. 다양한 데이터셋을 통한 포괄적인 평가 결과, 우리 모델이 특히 도메인 밖 이미지에 대해 기존 방법들을 크게 능가함을 보여준다. 우리는 처음으로 3D 재구성 모델이 확산 모델의 잠재 공간을 기반으로 효율적인 3D 장면 생성을 실현할 수 있다는 것을 입증한다.

가우시안 속성: 물리적 속성을 LMMs와 함께 3D 가우시안에 통합하기
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15, 2024
Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen
132

시각 데이터의 물리적 특성을 추정하는 것은 증강 현실, 물리 시뮬레이션, 로봇 그랩 등의 응용 프로그램을 뒷받침하는 컴퓨터 비전, 그래픽스 및 로봇학에서 중요한 작업입니다. 그러나 물리적 특성 추정의 본질적 모호성으로 인해 이 영역은 여전히 탐구되지 않은 상태입니다. 이러한 도전에 대처하기 위해 우리는 훈련 없이 물질의 물리적 특성을 3D 가우시안에 할당하는 GaussianProperty를 소개합니다. 구체적으로, 우리는 SAM의 분할 능력과 GPT-4V(ision)의 인식 능력을 통합하여 2D 이미지를 위한 전역-지역 물리적 특성 추론 모듈을 구성합니다. 그런 다음, 다각도 2D 이미지에서 물리적 특성을 3D 가우시안에 투영하기 위해 투표 전략을 사용합니다. 물리적 특성이 주석 처리된 3D 가우시안이 물리 기반 동적 시뮬레이션 및 로봇 그랩 응용 프로그램을 가능하게 한다는 것을 증명합니다. 물리 기반 동적 시뮬레이션에서는 현실적인 동적 시뮬레이션을 위해 재료 점 방법(MPM)을 활용합니다. 로봇 그랩에서는 추정된 물리적 특성을 기반으로 물체 그랩에 필요한 안전한 힘 범위를 추정하는 그랩 힘 예측 전략을 개발합니다. 물질 분할, 물리 기반 동적 시뮬레이션 및 로봇 그랩에 대한 포괄적인 실험은 우리가 제안한 방법의 효과를 검증하며 시각 데이터로부터 물리적 특성을 이해하는 데 있어 그 역할의 중요성을 강조합니다. 온라인 데모, 코드, 더 많은 사례 및 주석 처리된 데이터셋은 https://Gaussian-Property.github.io{이 URL}에서 확인할 수 있습니다.

IDArb: 임의의 입력 뷰와 조명에 대한 내재적 분해
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16, 2024
Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
122

이미지로부터 기하학적 및 물질 정보를 캡처하는 것은 컴퓨터 비전 및 그래픽스 분야에서 여전히 기본적인 과제입니다. 기존의 최적화 기반 방법은 종종 밀도가 높은 다중 뷰 입력으로부터 기하학, 물질 특성 및 환경 조명을 재구성하는 데 수십 시간의 계산 시간이 필요하며 여전히 조명과 물질 간의 내재적 모호함에 직면합니다. 반면, 학습 기반 접근 방식은 기존 3D 객체 데이터셋에서 풍부한 물질 사전을 활용하지만 다중 뷰 일관성 유지에 어려움을 겪습니다. 본 논문에서는 임의의 조명 조건 하에서 다중 이미지에 대한 본질적 분해를 수행하기 위해 설계된 확산 기반 모델인 IDArb를 소개합니다. 우리의 방법은 획기적인 교차-뷰, 교차-도메인 주의 모듈과 조명 증강, 뷰 적응형 훈련 전략을 통해 표면 법선 및 물질 특성에 대한 정확하고 다중 뷰 일관된 추정을 달성합니다. 더불어, 우리는 다양한 조명 조건에서 대규모 다중 뷰 본질적 데이터 및 렌더링을 제공하는 새로운 데이터셋인 ARB-Objaverse를 소개하며 견고한 훈련을 지원합니다. 광범위한 실험 결과는 IDArb가 질적으로나 양적으로 최첨단 방법을 능가함을 입증합니다. 더불어, 우리의 접근 방식은 단일 이미지 조명 재구성, 조도 스테레오 및 3D 재구성을 포함한 다양한 하향 작업을 용이하게 하며 현실적인 3D 콘텐츠 작성 분야에서의 폭넓은 응용 가능성을 강조합니다.

VividFace: 고품질 비디오 얼굴 교체를 위한 확산 기반 하이브리드 프레임워크
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15, 2024
Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
122

비디오 얼굴 교체는 다양한 응용 프로그램에서 점점 인기를 얻고 있지만, 기존 방법은 주로 정적 이미지에 초점을 맞추고 있으며 시간적 일관성과 복잡한 시나리오 때문에 비디오 얼굴 교체에 어려움을 겪고 있습니다. 본 논문에서는 비디오 얼굴 교체를 위해 특별히 설계된 최초의 확산 기반 프레임워크를 제안합니다. 저희 방법은 풍부한 정적 이미지 데이터와 시간적 비디오 시퀀스를 활용하는 새로운 이미지-비디오 하이브리드 훈련 프레임워크를 도입하여 비디오 전용 훈련의 내재적 한계를 해결합니다. 이 프레임워크는 VidFaceVAE와 결합된 특별히 설계된 확산 모델을 통해 생성된 비디오의 시간적 일관성을 더 잘 유지할 수 있도록 두 유형의 데이터를 효과적으로 처리합니다. 신원과 자세 특징을 더욱 분리하기 위해 속성-신원 분리 삼쌍체(AIDT) 데이터셋을 구축했으며, 각 삼쌍체는 세 개의 얼굴 이미지를 포함하며 두 이미지는 같은 자세를 공유하고 두 이미지는 같은 신원을 공유합니다. 이 데이터셋은 종합적인 가리기 증강을 통해 강화되어 가리기에 대한 강건성도 향상시킵니다. 또한, 큰 자세 변화를 다루기 위해 3D 재구성 기술을 네트워크의 입력 조건으로 통합합니다. 광범위한 실험 결과, 저희 프레임워크가 기존 방법에 비해 신원 보존, 시간적 일관성 및 시각적 품질에서 우수한 성능을 달성하며, 추론 단계가 적게 필요합니다. 저희 방법은 시간적 깜빡임, 신원 보존, 가리기 및 자세 변화에 대한 강건성과 같은 비디오 얼굴 교체의 주요 도전 과제를 효과적으로 완화합니다.

SepLLM: 하나의 세그먼트를 하나의 구분자로 압축하여 대형 언어 모델 가속화
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16, 2024
Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
115

대형 언어 모델 (LLM)은 자연어 처리 작업 범위에서 우수한 성능을 나타내었습니다. 그러나 그들의 상당한 크기는 계산 요구와 추론 속도에서 특히 이차 복잡성으로 인해 상당한 어려움을 야기합니다. 본 연구에서는 핵심 패턴을 식별했습니다: 특정하게 의미 없어 보이는 특수 토큰 (즉, 구분자)이 의미 있는 토큰에 비해 주목할 만한 비중으로 주의를 끕니다. 이 관찰 결과, 이 구분자 토큰 사이 세그먼트의 정보가 상당한 정보 손실 없이 구분자 토큰 자체로 효과적으로 요약될 수 있다는 것을 시사합니다. 이 통찰력을 바탕으로, 우리는 이러한 세그먼트를 압축하고 중복 토큰을 제거하여 추론을 가속화하는 SepLLM이라는 플러그 앤 플레이 프레임워크를 소개합니다. 또한, 훈련 가속화를 위한 효율적인 커널을 구현합니다. 훈련 없이, 처음부터 훈련하거나 사후 훈련 설정에서의 실험 결과는 SepLLM의 효과를 입증합니다. 특히, Llama-3-8B 백본을 사용할 때, SepLLM은 GSM8K-CoT 벤치마크에서 KV 캐시를 50% 이상 줄이면서 비슷한 성능을 유지합니다. 더 나아가, 스트리밍 설정에서 SepLLM은 일관된 언어 모델링 능력을 유지하면서 최대 4백만 개 이상의 토큰 시퀀스를 효과적으로 처리합니다.

StrandHead: 텍스트를 사용한 머리카락 기하학적 사전을 이용한 Strand-분리된 3D 헤드 아바타
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16, 2024
Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang
112

머리 모양은 독특한 성격을 나타내지만, 기존 아바타 생성 방법은 일반적이거나 얽힌 표현 때문에 현실적인 머리를 모델링하는 데 실패했습니다. 우리는 StrandHead를 제안합니다. 이는 새로운 텍스트에서 3D 머리 아바타 생성 방법으로, 줄무늬 표현을 사용하여 분리된 3D 머리를 생성할 수 있습니다. 3D 데이터를 사용하지 않고도 실제적인 머리 줄기를 2D 생성 확산 모델을 요약함으로써 프롬프트로부터 생성할 수 있다는 것을 보여줍니다. 이를 위해 모양 초기화, 기하학적 기본 요소 및 통계적 머리 모양 특징에 대한 일련의 신뢰할 수 있는 사전 확률을 제안하여 안정적인 최적화 및 텍스트에 맞는 성능을 이끌어냅니다. 광범위한 실험 결과, StrandHead가 생성된 3D 머리와 머리의 현실성 및 다양성을 최고 수준으로 달성한다는 것을 보여줍니다. 생성된 3D 머리는 물리적 시뮬레이션 및 기타 응용 프로그램에 쉽게 구현할 수 있습니다. 코드는 https://xiaokunsun.github.io/StrandHead.github.io에서 사용할 수 있습니다.

대형 언어 모델(LLM)에서의 오픈 소스 장점
The Open Source Advantage in Large Language Models (LLMs)

Dec 16, 2024
Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser
102

대형 언어 모델(LLM)은 자연어 처리(NLP)에서 중요한 전환점을 나타내며 향상된 텍스트 생성, 번역 및 도메인별 추론을 갖추고 있습니다. GPT-4와 같은 폐쇄형 모델은 독점적 데이터셋과 방대한 컴퓨팅 자원을 기반으로 한 현재 최첨단의 성능을 보여주고 있습니다. 그러나 이러한 모델들은 "블랙 박스" 성격과 재현성과 공정한 AI 개발을 방해하는 방식으로 접근성을 제한한다는 비판을 받고 있습니다. 반면, LLaMA와 BLOOM과 같은 오픈 소스 이니셔티브는 커뮤니티 기반 개발과 계산 효율성을 통해 민주화를 우선시하고 있습니다. 이러한 모델들은 언어 다양성과 도메인 특화 응용 프로그램에서 특히 성능 차이를 크게 줄이고, 국제적인 연구원과 개발자들을 위한 접근 가능한 도구를 제공하고 있습니다. 두 패러다임은 Vaswani 등이 개발한 Transformer 프레임워크와 같은 기본적인 구조적 혁신에 의존하고 있습니다. 폐쇄형 모델은 효과적인 확장을 통해 뛰어난 성과를 거두는 반면, 오픈 소스 모델은 소수 언어와 도메인에 적응하는 실제 응용 프로그램에 초점을 맞추고 있습니다. Low-Rank Adaptation (LoRA) 및 instruction-tuning 데이터셋과 같은 기술은 제한된 자원에도 불구하고 오픈 소스 모델이 경쟁력 있는 결과를 달성할 수 있도록 돕고 있습니다. 폐쇄형과 오픈 소스 접근 방식 사이의 긴장은 AI에서 투명성 대 소유권 통제에 대한 보다 광범위한 논쟁을 강조합니다. 윤리적 고려 사항은 이 분리를 더욱 부각시킵니다. 폐쇄형 시스템은 외부 검토를 제한하며, 오픈 소스 모델은 재현성과 협력을 촉진하지만 편향을 완화하기 위한 표준화된 감사 문서 프레임워크가 부족합니다. 두 패러다임의 장점을 활용하는 하이브리드 접근 방식이 LLM 혁신의 미래를 형성할 것으로 보이며, 접근성, 경쟁력 있는 기술 성능 및 윤리적 배치를 보장할 것으로 예상됩니다.

에마-엑스: 뿌리를 내린 사고 체인과 선행 공간 추론을 갖춘 신체적 다중 모달 행동 모델
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16, 2024
Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria
92

전통적인 강화 학습 기반의 로봇 제어 방법은 종종 특정 작업에 한정되어 다양한 환경이나 보이지 않는 객체 및 지시사항에 대해 일반화하지 못하는 경우가 있습니다. 시각 언어 모델(Visual Language Models, VLMs)은 강력한 장면 이해 및 계획 능력을 보여주지만, 특정 로봇 구현에 맞는 실행 가능한 정책을 생성하는 능력이 부족합니다. 이를 해결하기 위해 시각-언어-행동(Visual-Language-Action, VLA) 모델이 등장했지만, 장기적인 공간 추론 및 기반 작업 계획에 대한 도전에 직면하고 있습니다. 본 연구에서는 저희는 Emma-X라는 Grounded Chain of Thought 및 Look-ahead Spatial Reasoning을 갖춘 실체화된 다중 모달 액션 모델을 제안합니다. Emma-X는 BridgeV2를 기반으로 한 계층적 실체화 데이터셋을 활용하며, 이 데이터셋에는 60,000개의 로봇 조작 궤적이 포함되어 있고, 이는 기반 작업 추론 및 공간 안내와 자동 주석이 달려 있습니다. 또한, 그리퍼 상태와 동작 궤적을 기반으로 한 궤적 분할 전략을 소개하여, 하위 작업 추론 생성 시 환각을 완화하는 데 도움이 될 수 있습니다. 실험 결과는 Emma-X가 특히 공간 추론이 필요한 실제 로봇 작업에서 경쟁 기준선보다 우수한 성능을 달성한다는 것을 보여줍니다.

멋진 행렬: 더 효율적이고 효과적인 기반 모델 아키텍처를 위한 결합
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16, 2024
Jingze Shi, Bingheng Wu
82

기초 모델을 보다 효율적이고 효과적으로 만들기 위해, 우리의 아이디어는 순서 변환과 상태 변환을 결합하는 것입니다. 먼저, 우리는 상태 공간 이중성 알고리즘에서 회전 위치 임베딩의 가용성을 증명합니다. 이로써 하이브리드 이차 인과적 셀프 어텐션과 상태 공간 이중성의 혼합 퍼플렉서티를 4% 이상 감소시켜 순서 변환을 통합하는 것을 보장합니다. 둘째, 우리는 동적 마스크 어텐션을 제안합니다. 이는 더 어려운 다중 쿼리 연관 회상 작업에서 100%의 정확도를 유지하며, 이차 인과적 셀프 어텐션과 상태 공간 이중성에 비해 150% 이상 향상되어 순서 변환이 관련 정보를 선택적으로 필터링하도록 보장합니다. 셋째, 우리는 전 영역 전문가 혼합을 설계합니다. 이는 1024명 이상의 전문가를 사용한 전문가 검색의 계산 속도를 전문가 혼합에 비해 8배에서 10배 빠르게 만들어 상태 변환을 빠르게 검색하도록 보장합니다. 마지막으로, 우리는 인기 있는 모델 아키텍처에 대항할 수 있는 경쟁자가 될 수 있는 멋진 행렬로 기초 모델을 형성할 수 있는 이러한 행렬 알고리즘을 요약합니다.

DynamicScaler: 원활하고 확장 가능한 파노라마 장면을 위한 비디오 생성
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15, 2024
Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
72

입체형 AR/VR 애플리케이션 및 공간 지능에 대한 증가하는 수요는 고품질의 장면 수준 및 360도 파노라마 비디오를 생성하는 필요성을 높였습니다. 그러나 대부분의 비디오 확산 모델은 해상도와 종횡비가 제한되어 있어 장면 수준의 동적 콘텐츠 합성에 적용 범위가 제한됩니다. 본 연구에서는 DynamicScaler를 제안하여 이러한 도전에 대응하며 임의 크기의 파노라마 장면 간 일관성을 유지하는 공간적으로 확장 가능하고 파노라마 동적 장면 합성을 가능하게 합니다. 구체적으로, 우리는 Offset Shifting Denoiser를 소개하여 고정 해상도의 확산 모델을 통해 회전하는 창을 통해 실현되는 효율적이고 동기화된 일관된 노이즈 제거를 통해 파노라마 동적 장면의 일관성을 보존합니다. 이는 전체 파노라마 공간 전체에 걸쳐 일관성 있는 경계 전환과 일관성을 보장하며 다양한 해상도와 종횡비를 수용합니다. 또한, 우리는 지역 세부 사항의 충실도와 전역 모션 연속성을 보장하기 위해 Global Motion Guidance 메커니즘을 사용합니다. 광범위한 실험을 통해 우리의 방법이 파노라마 장면 수준 비디오 생성에서 우수한 콘텐츠 및 모션 품질을 달성하며 출력 비디오 해상도에 관계없이 일정한 VRAM 소비를 갖는 교육 불필요, 효율적이고 확장 가능한 솔루션을 제공함을 입증합니다. 프로젝트 페이지는 https://dynamic-scaler.pages.dev/에서 확인할 수 있습니다.

SplineGS: 실시간 동적 3D 가우시안을 위한 견고한 모션 적응 스플라인(Motion-Adaptive Spline)
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13, 2024
Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim
73

야생에서의 단안 동영상으로부터 새로운 시점을 합성하는 것은 장면의 동적인 특성과 다중 시점 단서의 부족으로 인해 어려운 과제입니다. 이를 해결하기 위해 우리는 COLMAP을 사용하지 않는 동적 3D 가우시안 스플래팅(3DGS) 프레임워크인 SplineGS를 제안합니다. 이는 단안 동영상으로부터 고품질 재구성과 빠른 렌더링을 위한 것입니다. 이 프레임워크의 핵심은 Motion-Adaptive Spline(MAS) 방법으로, 소수의 제어점을 사용하여 3차 에르미트 스플라인을 통해 연속적인 동적 3D 가우시안 궤적을 표현합니다. MAS를 위해 우리는 Motion-Adaptive Control points Pruning(MACP) 방법을 소개하여 각 동적 3D 가우시안의 변화하는 동작을 모델링하고, 동적 모델링 무결성을 유지하면서 제어점을 점진적으로 제거합니다. 또한, 카메라 매개변수 추정과 3D 가우시안 속성에 대한 합동 최적화 전략을 제시하여 광도 및 기하학적 일관성을 활용합니다. 이는 Structure-from-Motion 전처리의 필요성을 제거하고 SplineGS의 강건성을 현실 세계 조건에서 향상시킵니다. 실험 결과, SplineGS가 단안 동영상으로부터 동적 장면의 새로운 시점 합성 품질에서 최첨단 방법들을 크게 능가하며 수천 배 빠른 렌더링 속도를 달성함을 보여줍니다.

MOVIS: 실내 장면을 위한 다중 물체 신규 뷰 합성 향상
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16, 2024
Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang
62

사전 훈련된 확산 모델을 재활용하는 것이 NVS에 효과적임이 입증되었습니다. 그러나 이러한 방법은 대부분 단일 객체로 제한되어 있습니다. 이러한 방법을 직접적으로 복합적인 다중 객체 시나리오에 적용하면 잘못된 객체 배치와 새로운 관점에서 일관성 없는 모양과 외관으로 인해 부적합한 결과가 발생합니다. 이러한 모델의 교차 관점 일관성을 향상시키고 체계적으로 평가하는 방법은 아직 충분히 탐구되지 않았습니다. 이 문제를 해결하기 위해 우리는 MOVIS를 제안하여 다중 객체 NVS를 위한 뷰 조건부 확산 모델의 구조 인식을 향상시킵니다. 모델 입력, 보조 작업 및 교육 전략 측면에서 구조 인식 기능을 강화합니다. 먼저, 우리는 손상 복원 U-Net에 깊이와 객체 마스크를 포함한 구조 인식 기능을 주입하여 모델이 객체 인스턴스와 공간적 관계를 이해하는 능력을 향상시킵니다. 둘째, 모델이 새로운 관점 객체 마스크를 동시에 예측하도록 하는 보조 작업을 도입하여 객체를 구분하고 배치하는 모델의 능력을 더욱 향상시킵니다. 마지막으로, 확산 샘플링 프로세스를 철저히 분석하고 교육 중 구조 지침 시간 단계 샘플링 스케줄러를 신중하게 설계하여 전역 객체 배치와 세밀한 세부 정보 회복의 학습을 균형 있게 유지합니다. 합성 이미지의 타당성을 체계적으로 평가하기 위해 우리는 이미지 수준 NVS 지표와 함께 교차 관점 일관성 및 새로운 관점 객체 배치를 평가하는 것을 제안합니다. 도전적인 합성 및 현실적인 데이터셋에서의 방대한 실험 결과는 우리의 방법이 강력한 일반화 능력을 보여주며 일관된 새로운 관점 합성을 생성하며, 미래의 3D 인식 다중 객체 NVS 작업을 이끌어낼 잠재력을 강조합니다.

MaxInfoRL: 정보 이득 최대화를 통해 강화 학습에서 탐사 촉진
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16, 2024
Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza
52

강화 학습 (RL) 알고리즘은 현재 최적의 전략을 활용하는 것과 높은 보상을 가져올 수 있는 새로운 옵션을 탐색하는 것을 균형있게 맞추려고 합니다. 가장 일반적인 RL 알고리즘은 무방향 탐사를 사용하며, 즉 무작위로 행동의 일련의 순서를 선택합니다. 탐사는 호기심이나 모델에피스테믹 불확실성과 같은 내재적 보상을 사용하여도 이루어질 수 있습니다. 그러나 작업 및 내재적 보상을 효과적으로 균형잡는 것은 어려우며 종종 작업에 따라 다릅니다. 본 연구에서는 내재적 및 외재적 탐사를 균형있게 조절하는 MaxInfoRL이라는 프레임워크를 소개합니다. MaxInfoRL은 정보 이득과 같은 내재적 보상을 최대화하여 작업의 기본적인 정보에 대한 정보를 최대화함으로써 탐사를 유도합니다. 볼츠만 탐사와 결합하면 이 방법은 자연스럽게 가치 함수와 상태, 보상 및 행동에 대한 엔트로피의 최대화를 교환합니다. 우리의 방법이 다중 암기 밴딧의 간소화된 설정에서 하위 선형 후회를 달성함을 보여줍니다. 그런 다음 이 일반적인 공식을 연속 상태-행동 공간에 대한 다양한 오프-폴리시 모델 프리 RL 방법에 적용하여, 시각적 제어 작업과 같은 어려운 탐사 문제 및 복잡한 시나리오에서 우수한 성능을 달성하는 새로운 알고리즘을 얻을 수 있습니다.

TidyBot++: 로봇 학습을 위한 오픈 소스 홀로노믹 이동 로봇Manipulator
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11, 2024
Jimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg
52

최근 진보된 모방 학습 기술의 잠재력을 활용하기 위해서는 대량의 인간 안내된 데모를 수집해야 합니다. 본 논문은 저렴하고 견고하며 유연한 이동형 조작기의 오픈 소스 디자인을 제안합니다. 이 조작기는 임의의 팔을 지원할 수 있어 다양한 실제 가정용 이동형 조작 작업을 수행할 수 있습니다. 우리의 디자인은 이동 기반을 완전히 홀로노믹하게 만들기 위해 전동 캐스터를 사용하는데, 이를 통해 이동 기반이 모든 평면 자유도를 독립적으로 동시에 제어할 수 있습니다. 이 기능은 기반을 더 잘 조작할 수 있게 하며 많은 이동형 조작 작업을 간단하게 만들어 비홀로노믹 기반에서 복잡하고 시간이 많이 소요되는 동작을 제거합니다. 우리는 직관적인 휴대전화 원격 조작 인터페이스를 사용하여 로봇에 장착하여 모방 학습을 위한 데이터 수집을 용이하게 합니다. 실험에서 이 인터페이스를 사용하여 데이터를 수집하고, 그 결과로 얻은 학습된 정책이 다양한 일반적인 가정용 이동형 조작 작업을 성공적으로 수행할 수 있음을 보여줍니다.

GeoX: 통합된 형식화된 시각-언어 사전 훈련을 통한 기하 문제 해결
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16, 2024
Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
42

다양한 일반 작업에서 뛰어난 능력을 보이지만, Multi-modal Large Language Models (MLLMs)는 기하 문제 해결 (GPS)에 어려움을 겪습니다. GPS는 다이어그램을 이해하고 기호를 해석하며 복잡한 추론을 요구하기 때문입니다. 이 한계는 MLLMs가 자연 이미지와 텍스트에 대한 사전 훈련을 받았으며 문제 해결 과정에서 자동 검증이 부족하기 때문에 발생합니다. 또한 현재의 기하학 전문가들은 과제별로 설계되어 있어 더 넓은 기하 문제에 대해 효과적이지 못합니다. 이에 우리는 기하 이해와 추론 작업에 중점을 둔 다중 모달 대규모 모델인 GeoX를 제안합니다. 기하 다이어그램-기호와 자연 이미지-텍스트 간의 중요한 차이를 고려하여, 우리는 다이어그램 인코더와 기호 디코더를 개발하기 위해 단모달 사전 훈련을 도입하여 기하 이미지와 말뭉치의 이해를 향상시킵니다. 더 나아가, 우리는 기하-언어 정렬을 소개하여 단모달 기하 전문가 사이의 모달 갭을 줄이는 효과적인 사전 훈련 패러다임을 제안합니다. 우리는 Generator-And-Sampler Transformer (GS-Former)를 제안하여 식별적인 쿼리를 생성하고 불균일하게 분포된 기하 신호에서 비정보적인 표현을 제거합니다. 마지막으로, GeoX는 시각적 지시 튜닝에서 이점을 얻어 기하 이미지와 질문을 입력으로 받아들이고 검증 가능한 해결책을 생성합니다. 실험 결과, GeoX가 GeoQA, UniGeo, Geometry3K, PGPS9k 등의 공개적으로 인정받는 벤치마크에서 일반 전문가 및 기하 전문가를 능가하는 것을 보여줍니다.

휘스퍼-GPT: 하이브리드 표현 오디오 대규모 언어 모델
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16, 2024
Prateek Verma
42

우리는 WHISPER-GPT를 제안합니다: 연속 오디오 표현과 이산 토큰을 동시에 처리할 수 있는 음성 및 음악용 생성형 대형 언어 모델 (LLM)입니다. 최근에는 ENCODEC와 같은 신경 압축 알고리즘에서 파생된 이산 오디오 토큰을 활용하는 생성형 오디오, 음성, 음악 모델이 대대적으로 증가했습니다. 그러나 이 방법의 주요 단점 중 하나는 문맥 길이를 처리하는 것입니다. 다음 토큰 예측을 위해 모든 오디오 콘텐츠를 다양한 주파수로 고려해야 하는 경우, 고품질 생성 구조에서 커져버립니다. 스펙트로그램과 같은 연속 오디오 표현과 이산 음향 토큰을 결합함으로써 우리는 두 가지 방법의 장점을 유지합니다: 특정 시간 지점의 오디오에서 필요한 모든 정보를 단일 토큰으로 보유하면서도 LLM이 미래 토큰을 예측하고 샘플링 및 기타 혜택을 제공할 수 있도록 합니다. 우리의 구조가 음성 및 음악용 토큰 기반 LLM에 비해 다음 토큰 예측의 난해도와 음의 로그 우도 점수를 개선하는 방법을 보여줍니다.

수직 연합 학습에서 데이터 보호를 위해 단순한 변환만으로 충분합니다.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16, 2024
Andrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov
22

수직 연합 학습(VFL)은 개인 정보 보호를 유지하면서 딥러닝 모델의 협력적 학습을 가능하게 하는 것을 목표로 합니다. 그러나 VFL 절차에는 여전히 악의적인 당사자에 의해 공격당할 수 있는 구성 요소가 있습니다. 저희 연구에서는 입력 데이터 침해를 향한 일반적인 위험인 특징 재구성 공격을 고려합니다. 우리는 이론적으로 특징 재구성 공격이 데이터에 대한 사전 분포의 지식 없이는 성공할 수 없다고 주장합니다. 결과적으로 심플한 모델 아키텍처 변환조차도 VFL 중 입력 데이터의 보호에 상당한 영향을 미칠 수 있음을 보여줍니다. 실험 결과로 이러한 발견을 확인하면서 MLP 기반 모델이 최신의 특징 재구성 공격에 저항할 수 있음을 보여줍니다.

개인화된 확산 모델에 의한 모방에 대한 거의 제로 비용의 보호
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16, 2024
Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam
22

확산 모델의 최근 발전은 이미지 생성을 혁신적으로 바꾸었지만, 예술 작품을 복제하거나 딥페이크를 생성하는 등의 남용 위험을 제기합니다. 기존의 이미지 보호 방법은 효과적이지만, 보호 효능, 투명성, 지연 시간을 균형있게 유지하는 데 어려움을 겪어 실용적인 사용을 제한합니다. 저희는 지연 시간을 줄이기 위한 변형 사전 훈련을 소개하고, 입력 이미지에 동적으로 적응하여 성능 저하를 최소화하는 변형 혼합 방법을 제안합니다. 저희의 새로운 훈련 전략은 다중 VAE 특징 공간에서 보호 손실을 계산하며, 추론 시 적응형 대상 보호가 강건성과 투명성을 향상시킵니다. 실험 결과, 향상된 투명성과 추론 시간의 급격한 감소와 함께 비슷한 보호 성능을 보여줍니다. 코드와 데모는 https://webtoon.github.io/impasto에서 확인할 수 있습니다.

Evalica를 사용한 신뢰할 수 있고 재현 가능하며 매우 빠른 리더보드
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15, 2024
Dmitry Ustalov
22

자연어 처리(NLP) 기술의 신속한 발전은 지시 조정 대형 언어 모델(LLM)과 같은 기술로 현대 평가 프로토콜의 발전을 촉구한다. 우리는 신뢰성 있고 재현 가능한 모델 리더보드의 생성을 용이하게 하는 오픈 소스 툴킷인 Evalica를 소개한다. 본 논문은 그 설계를 제시하고, 성능을 평가하며, 웹 인터페이스, 명령줄 인터페이스, 그리고 Python API를 통해 그 사용성을 시연한다.

RLDG: 강화 학습을 통한 로봇 종합 정책 증류
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13, 2024
Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
22

로봇 기반 모델의 최근 발전으로 다양한 작업에 적응할 수 있는 일반화 정책을 개발할 수 있게 되었습니다. 이러한 모델은 유연성을 보여주지만 성능은 주로 훈련 데이터의 품질에 의존합니다. 본 연구에서는 Reinforcement Learning Distilled Generalists (RLDG)라는 방법을 제안합니다. 이 방법은 강화 학습을 활용하여 일반화 정책을 세밀하게 조정하기 위한 고품질 훈련 데이터를 생성합니다. 커넥터 삽입 및 조립과 같은 정밀 조작 작업에 대한 광범위한 실제 세계 실험을 통해, RL 생성 데이터로 훈련된 일반화 정책이 인간의 데모로 훈련된 정책보다 일관되게 우수한 성과를 보이며, 새로운 작업에 대해 더 잘 일반화됨을 입증합니다. 또한 최적화된 행동 분포와 개선된 상태 범위로 인해 성능 향상이 나타난 것을 보여주는 자세한 분석을 제공합니다. 결과는 작업별 강화 학습과 일반화 정책 증류를 결합함으로써, 유연성을 유지하면서 전문화된 컨트롤러의 성능을 달성하는 더 능숙하고 효율적인 로봇 조작 시스템을 개발하는 유망한 접근 방식을 제시합니다. 비디오와 코드는 저희 프로젝트 웹사이트 https://generalist-distillation.github.io에서 확인할 수 있습니다.

Dec 16
Dec 17
Dec 18