AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 진화
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

전통적인 OCR 시스템 (OCR-1.0)은 인공 광학 문자의 지능적 처리에 대한 증가하는 수요로 인해 사람들의 사용 요구를 점점 더 충족시키기 어려워지고 있습니다. 본 논문에서는 모든 인공 광학 신호 (예: 일반 텍스트, 수학/분자식, 표, 차트, 악보, 심지어 기하학적 모양)을 "문자"로 통칭하고 일반 OCR 이론과 GOT라는 우수한 모델을 제안하여 OCR-2.0의 도래를 촉진합니다. 580M 개의 매개변수를 가진 GOT은 고압축 인코더와 장문맥 디코더로 구성된 통합적이고 우아하며 end-to-end 모델입니다. OCR-2.0 모델로 GOT은 다양한 OCR 작업에서 상기 "문자"를 모두 처리할 수 있습니다. 입력 측면에서 모델은 잘려진 이미지와 전체 페이지 스타일의 일반적으로 사용되는 장면 및 문서 형식을 지원합니다. 출력 측면에서 GOT은 간단한 프롬프트를 통해 일반 또는 서식이 있는 결과 (마크다운/tikz/smiles/kern)를 생성할 수 있습니다. 또한 모델은 좌표 또는 색상에 의해 안내되는 영역 수준 인식을 통한 대화식 OCR 기능을 지원합니다. 더불어, 우리는 GOT에 동적 해상도 및 다중 페이지 OCR 기술을 적용하여 실용성을 높였습니다. 실험에서 우리의 모델의 우월성을 증명하기 위해 충분한 결과를 제시합니다.

OLMoE: 오픈 전문가 혼합 언어 모델
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

OLMoE는 희소한 전문가 모델 혼합(MoE)를 활용한 최첨단 언어 모델로, 완전히 공개되어 있습니다. OLMoE-1B-7B는 70억(B) 개의 매개변수를 가지고 있지만 입력 토큰 당 10억(B) 개만 사용합니다. 우리는 이를 5조 개의 토큰으로 사전 훈련하고 OLMoE-1B-7B-Instruct를 만들기 위해 추가적으로 적응시켰습니다. 우리의 모델은 유사한 활성 매개변수를 가진 모든 사용 가능한 모델보다 우수한 성능을 보여주며, Llama2-13B-Chat 및 DeepSeekMoE-16B와 같은 더 큰 모델을 능가합니다. 우리는 MoE 훈련에 대한 다양한 실험을 제시하고, 모델 내의 높은 전문화를 나타내는 라우팅을 분석하며, 모델 가중치, 훈련 데이터, 코드 및 로그의 모든 측면을 오픈 소스로 제공합니다.

Kvasir-VQA: 텍스트-이미지 쌍 GI 트랙 데이터셋
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

우리는 위장 내시경 진단 분야에서 고급 기계 학습 작업을 용이하게 하기 위해 질문-답변 주석이 추가된 HyperKvasir 및 Kvasir-Instrument 데이터셋에서 파생된 확장 데이터셋인 Kvasir-VQA를 소개합니다. 본 데이터셋은 다양한 위장관 상태와 수술 도구를 포함한 6,500개의 주석이 달린 이미지로 구성되어 있으며, 예/아니오, 선택, 위치 및 숫자 세기와 같은 다양한 질문 유형을 지원합니다. 본 데이터셋은 이미지 캡션, 시각적 질의 응답 (VQA), 합성 의료 이미지의 텍스트 기반 생성, 물체 감지 및 분류와 같은 응용 프로그램을 위해 고안되었습니다. 우리의 실험은 이 데이터셋이 의료 이미지 분석과 진단 분야에서 중요한 응용 가능성을 보여주는 세 가지 선정된 작업을 위한 모델 학습의 효과를 입증합니다. 또한 각 작업에 대한 평가 지표를 제시하여 데이터셋의 사용성과 다양성을 강조합니다. 데이터셋과 지원 자료는 https://datasets.simula.no/kvasir-vqa에서 제공됩니다.

긴 레시피: 대규모 언어 모델에서 효율적인 긴 문맥 일반화를 위한 레시피
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

대형 언어 모델(Large language models, LLMs)은 사전 훈련 중 효과적인 컨텍스트 창 크기가 제한되어 긴 문맥 작업을 처리하는 데 상당한 어려움을 겪습니다. 이는 LLMs가 확장된 시퀀스에 대해 일반화하는 능력을 제한하기 때문입니다. 한편, LLMs에서 컨텍스트 창을 확장하는 것은 사후 사전 훈련을 통해 매우 많은 리소스를 필요로 합니다. 이에 대응하기 위해 우리는 **LongRecipe**를 소개합니다. 이는 LLMs의 컨텍스트 창을 확장하기 위한 효율적인 훈련 전략으로, 중요한 토큰 분석, 위치 인덱스 변환 및 훈련 최적화 전략을 포함합니다. LongRecipe는 훈련 효율을 유지하면서 긴 시퀀스 입력을 시뮬레이션하며, 훈련 효율을 유지하고 모델의 장거리 종속성 이해를 크게 향상시킵니다. 세 가지 유형의 LLMs에 대한 실험 결과, LongRecipe는 대상 컨텍스트 창 크기의 30%만 필요로 하면서도 긴 시퀀스를 활용할 수 있으며, 전체 시퀀스 훈련 대비 계산 훈련 리소스를 85% 이상 줄입니다. 더불어, LongRecipe는 일반 작업에서 원래 LLM의 능력을 유지합니다. 궁극적으로, *우리는 오픈 소스 LLMs의 효과적인 컨텍스트 창을 8k에서 128k로 확장하여, 80G 메모리를 갖춘 단일 GPU를 사용하여 단 하루의 전용 훈련으로 GPT-4와 유사한 성능을 달성할 수 있습니다.* 저희의 코드는 [링크](https://github.com/zhiyuanhubj/LongRecipe)에서 공개되어 있습니다.

DepthCrafter: 오픈 월드 비디오를 위한 일관된 장거리 깊이 시퀀스 생성
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

정적 이미지에 대한 단안 심도 추정에서 상당한 발전이 있었지만, 오픈 월드에서 비디오 심도를 추정하는 것은 여전히 어려운 문제입니다. 왜냐하면 오픈 월드 비디오는 콘텐츠, 움직임, 카메라 이동 및 길이가 매우 다양하기 때문입니다. 우리는 DepthCrafter를 제시합니다. 이는 카메라 위치나 광학 흐름과 같은 보조 정보 없이 오픈 월드 비디오를 위한 복잡한 세부 정보를 가진 시간적 일관성 있는 장거리 심도 시퀀스를 생성하는 혁신적인 방법입니다. DepthCrafter는 사전 훈련된 이미지-비디오 확산 모델로부터 비디오-심도 모델을 훈련시켜 오픈 월드 비디오에 대한 일반화 능력을 달성합니다. 이는 우리가 세심하게 설계한 세 단계의 훈련 전략을 통해 컴파일된 쌍을 이룬 비디오-심도 데이터셋으로부터 이루어집니다. 우리의 훈련 방법은 모델이 한 번에 최대 110프레임까지의 가변 길이의 심도 시퀀스를 생성하고 현실적 및 합성 데이터셋으로부터 정확한 심도 세부 정보와 풍부한 콘텐츠 다양성을 확보할 수 있도록 합니다. 또한 우리는 세그먼트별 추정 및 매끄러운 스티칭을 통해 극도로 긴 비디오를 처리하는 추론 전략을 제안합니다. 다양한 데이터셋에 대한 포괄적인 평가 결과, DepthCrafter가 제로샷 설정 하에서 오픈 월드 비디오 심도 추정에서 최첨단 성능을 달성함을 보여줍니다. 더 나아가, DepthCrafter는 심도 기반 시각 효과 및 조건부 비디오 생성을 포함한 다양한 하향 응용 프로그램을 용이하게 합니다.

LinFusion: 1개의 GPU, 1분, 16K 이미지
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

현대 확산 모델은 특히 Transformer 기반 UNet을 사용한 노이즈 제거에 많이 의존하며 복잡한 공간 관계를 관리하기 위해 자기 주의 연산을 적극 활용하여 인상적인 생성 성능을 달성합니다. 그러나 이 기존 패러다임은 공간 토큰 수에 대해 제곱 시간 및 메모리 복잡성을 가지므로 고해상도 시각 콘텐츠를 생성하는 데 상당한 어려움을 겪습니다. 이 한계를 해결하기 위해 본 논문에서는 대안으로 새로운 선형 주의 메커니즘을 목표로 합니다. 구체적으로, 최근 소개된 Mamba, Mamba2 및 Gated Linear Attention과 같은 선형 복잡성 모델에서 출발하여 주의 정규화 및 비인과적 추론이라는 두 가지 주요 기능을 식별하고 고해상도 시각 생성 성능을 향상시킵니다. 이러한 통찰력을 기반으로 인기 있는 선형 토큰 믹서의 넓은 스펙트럼에 대한 저위험 근사치 역할을 하는 일반화된 선형 주의 패러다임을 소개합니다. 훈련 비용을 줄이고 사전 훈련된 모델을 더 잘 활용하기 위해 초기 모델을 초기화하고 사전 훈련된 StableDiffusion (SD)에서 지식을 추출합니다. 우리는 이러한 추출된 모델인 LinFusion이 적은 훈련만으로 원래 SD와 동등하거나 우수한 성능을 달성하며 시간 및 메모리 복잡성을 크게 줄인다는 것을 발견했습니다. SD-v1.5, SD-v2.1 및 SD-XL에 대한 광범위한 실험에서 LinFusion이 16K 해상도와 같은 고해상도 이미지를 생성하는 등의 만족스러운 제로샷 교차 해상도 생성 성능을 제공함을 보여줍니다. 더불어, ControlNet 및 IP-Adapter와 같은 사전 훈련된 SD 구성 요소와 매우 호환되며 적응 노력이 필요하지 않습니다. 코드는 https://github.com/Huage001/LinFusion에서 사용할 수 있습니다.

음악을 연주하는 FLUX
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

본 논문은 텍스트에서 음악을 생성하기 위한 확산 기반 정류된 플로우 트랜스포머의 간단한 확장인 FluxMusic을 탐구합니다. 일반적으로, 고급 Flux 모델 설계와 함께, 우리는 mel-스펙트럼의 잠재 VAE 공간으로 전송합니다. 이는 먼저 이중 텍스트-음악 스트림에 독립적인 어텐션 시퀀스를 적용한 후, 소음이 제거된 패치 예측을 위해 쌓인 단일 음악 스트림을 따릅니다. 우리는 캡션 의미 정보를 충분히 포착하기 위해 여러 사전 훈련된 텍스트 인코더를 사용하며 추론 유연성도 확보합니다. 그 사이에서, 거친 텍스트 정보는 시간 단계 임베딩과 함께 조절 메커니즘에서 활용되며, 세부적인 텍스트 세부사항은 음악 패치 시퀀스와 함께 입력으로 연결됩니다. 철저한 연구를 통해, 최적화된 아키텍처로 정류된 플로우 훈련이 텍스트에서 음악으로의 작업에서 확립된 확산 방법을 현저히 능가함을 입증하며, 다양한 자동 메트릭 및 인간의 선호도 평가에 의해 나타냅니다. 우리의 실험 데이터, 코드 및 모델 가중치는 다음에서 공개적으로 제공됩니다: https://github.com/feizc/FluxMusic.

비디오LLaMB: 재귀 메모리를 활용한 장기 문맥 비디오 이해
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

최근 대규모 비디오-언어 모델의 발전은 실시간 계획 및 상세한 상호작용에 상당한 잠재력을 보여주었습니다. 그러나 그들의 높은 계산 요구와 주석이 달린 데이터셋의 부족으로 인해 학술 연구자들에게 실용성이 제한됩니다. 본 연구에서는 VideoLLaMB를 소개합니다. 이는 전체 비디오 시퀀스를 인코딩하기 위해 다리 레이어 내에서 시간적 메모리 토큰을 활용하는 혁신적인 프레임워크로, 역사적 시각 데이터와 함께 비디오 시퀀스를 효과적으로 인코딩하여 의미 연속성을 유지하고 다양한 작업에서 모델 성능을 향상시킵니다. 이 접근 방식에는 반복 메모리 토큰과 SceneTilling 알고리즘이 포함되어 있으며, 비디오를 독립적인 의미 단위로 분할하여 의미 무결성을 보존합니다. 경험적으로, VideoLLaMB는 기존 비디오-언어 모델을 크게 능가하여, 세 가지 VideoQA 벤치마크에서 경쟁 모델 대비 5.5 포인트 향상을 보여주며, 자아 중심적인 계획에서 2.06 포인트를 달성합니다. MVBench의 포괄적인 결과는 VideoLLaMB-7B가 이전의 동일한 LLM 7B 모델보다 훨씬 우수한 결과를 달성한다는 것을 보여줍니다. 놀랍게도, 비디오 길이가 최대 8배 증가함에도 VideoLLaMB는 PLLaVA와 같이 견고한 성능을 유지합니다. 또한, 저희의 특화된 '비디오 속 바늘 찾기' (NIAVH) 벤치마크에서의 프레임 검색 결과는 긴 비디오 내에서 특정 프레임을 정확하게 식별하는 VideoLLaMB의 능력을 더욱 검증합니다. 또한, SceneTilling 알고리즘은 추가적인 교육이 필요하지 않고 직접 스트리밍 비디오 자막을 생성할 수 있습니다. 효율성 측면에서, 16 프레임으로 훈련된 VideoLLaMB는 선형 GPU 메모리 스케일링을 통해 단일 Nvidia A100 GPU에서 최대 320 프레임을 지원하여 높은 성능과 비용 효율성을 모두 보장하며, 학술 및 실용적 응용 프로그램에서 장형 비디오-언어 모델을 위한 새로운 기반을 마련합니다.

확산 정책 정책 최적화
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

우리는 연속 제어 및 로봇 학습 작업에서 확산 기반 정책(예: 확산 정책)을 세밀하게 조정하는 데 대한 최상의 실천 방법을 포함하는 DPPO(Diffusion Policy Policy Optimization) 알고리즘 프레임워크를 소개합니다. 이는 강화 학습(Reinforcement Learning, RL)의 정책 기울기(Policy Gradient, PG) 방법을 사용합니다. PG 방법은 다른 정책 매개변수화로 RL 정책을 훈련하는 데 널리 사용되지만, 확산 기반 정책에 대해 효율적이지 않을 것으로 추측되었습니다. 놀랍게도, 우리는 DPPO가 일반적인 벤치마크에서 다른 RL 방법 및 다른 정책 매개변수화의 PG 세밀 조정과 비교하여 세밀 조정의 강력한 전반적인 성능과 효율성을 달성한다는 것을 보여줍니다. 실험 조사를 통해, DPPO가 RL 세밀 조정과 확산 매개변수화 간의 독특한 시너지를 활용하여 구조화되고 매니폴드 상의 탐사, 안정적인 훈련 및 강력한 정책 견고성을 이끌어냄을 발견했습니다. 또한 DPPO의 강점을 픽셀 관측을 통한 시뮬레이션된 로봇 작업 및 장기적이고 다단계의 조작 작업에서 로봇 하드웨어에 시뮬레이션으로 훈련된 정책을 제로샷으로 배포함을 통해 다양한 현실적인 환경에서 입증합니다. 코드가 있는 웹사이트: diffusion-ppo.github.io

LLM 디렉터를 활용한 구성적 3D 인식 비디오 생성
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

강력한 생성 모델과 대규모 인터넷 데이터의 활용을 통해 텍스트에서 비디오를 생성하는 데 상당한 진전이 이루어졌습니다. 그러나 생성된 비디오 내에서 특정 캐릭터의 동작과 외관, 시점의 이동과 같은 개별 개념을 정밀하게 제어하는 데 상당한 어려움이 남아 있습니다. 본 연구에서는 각 개념을 3D 표현으로 별도로 생성한 후 Large Language Models (LLM) 및 2D 확산 모델의 사전을 활용하여 이를 구성하는 새로운 패러다임을 제안합니다. 구체적으로, 입력 텍스트 프롬프트를 받아들이는 우리의 방법은 세 단계로 구성됩니다: 1) 우리는 복잡한 쿼리를 여러 하위 프롬프트로 분해하여 비디오 내의 개별 개념을 나타내는 것(예: 장면, 객체, 동작)을 지시하는 데 LLM을 사용합니다. 그런 다음 LLM을 사용하여 해당하는 3D 표현을 얻기 위해 사전 훈련된 전문가 모델을 호출합니다. 2) 이러한 표현을 구성하기 위해 우리는 다중 모달 LLM에게 객체의 궤적의 규모와 좌표에 대한 대략적인 안내를 제공하도록 요청합니다. 3) 생성된 프레임이 자연 이미지 분포에 부합하도록 만들기 위해 우리는 2D 확산 사전을 활용하고 Score Distillation Sampling을 사용하여 구성을 정제합니다. 방대한 실험을 통해 우리의 방법이 다양한 동작과 각 개념에 대한 유연한 제어를 통해 텍스트로부터 고품질 비디오를 생성할 수 있음을 입증했습니다. 프로젝트 페이지: https://aka.ms/c3v.

맥락에 모델 생성을 귀속하는 것
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

언어 모델이 응담을 생성할 때 제공된 정보를 어떻게 사용하는가? 특정 생성된 문장이 실제로 문맥에 기반을 두고 있는지, 잘못 해석된 것인지, 아니면 고안된 것인지를 추론할 수 있는가? 이러한 질문에 대한 답변을 돕기 위해 우리는 문맥 속성 문제를 소개합니다: 모델이 특정 문장을 생성하는 데 영향을 준 문맥의 부분(있는 경우)을 정확히 확인하는 것입니다. 그런 다음, 기존의 어떤 언어 모델 위에 적용할 수 있는 간단하고 확장 가능한 문맥 속성 방법인 ContextCite를 제시합니다. 마지막으로, ContextCite의 유틸리티를 세 가지 응용 프로그램을 통해 시연합니다: (1) 생성된 문장 확인 지원, (2) 문맥을 제거하여 응답 품질 향상, (3) 독성 공격 탐지. ContextCite의 코드는 https://github.com/MadryLab/context-cite에서 제공됩니다.

OD-VAE: 잠재 비디오 확산 모델 향상을 위한 옴니-차원 비디오 압축기
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

변이 오토인코더(Variational Autoencoder, VAE)는 비디오를 잠재 표현으로 압축하는 것으로, 잠재 비디오 확산 모델(Latent Video Diffusion Models, LVDMs)의 중요한 선행 구성 요소입니다. 동일한 재구성 품질을 유지하면, VAE가 비디오를 위한 압축을 더 효율적으로 수행할수록 LVDMs가 더 효율적입니다. 그러나 대부분의 LVDMs는 2D 이미지 VAE를 사용하며, 이는 비디오를 위한 압축이 공간적 차원에만 있고 시간적 차원에서는 종종 무시됩니다. VAE에서 비디오를 위한 시간적 압축을 어떻게 수행하여 보다 간결한 잠재 표현을 얻으면서 정확한 재구성을 보장할지에 대한 연구는 거의 이루어지지 않았습니다. 이러한 공백을 채우기 위해 우리는 OD-VAE(omni-dimension compression VAE)라는 비디오를 시간적으로와 공간적으로 압축할 수 있는 모델을 제안합니다. OD-VAE의 더 효율적인 압축은 비디오 재구성에 큰 도전을 제기하지만, 저희의 세심한 설계로 높은 재구성 정확도를 달성할 수 있습니다. 비디오 재구성 품질과 압축 속도 사이의 더 나은 균형을 얻기 위해 네 가지 OD-VAE 변형이 소개되고 분석됩니다. 또한, OD-VAE를 더 효율적으로 훈련하기 위해 새로운 테일 초기화 방법이 설계되었고, 제한된 GPU 메모리로 임의 길이의 비디오를 처리할 수 있도록 새로운 추론 전략이 제안되었습니다. 비디오 재구성 및 LVDM 기반 비디오 생성에 대한 포괄적인 실험은 우리가 제안한 방법의 효과성과 효율성을 입증합니다.

벡터 양자화를 통한 텍스트-이미지 확산 모델의 정확한 압축
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

텍스트-이미지 확산 모델은 텍스트 프롬프트를 고려할 때 고품질 이미지 생성을 위한 강력한 프레임워크로 등장했습니다. 그들의 성공은 지속적으로 크기가 커지고 이미 수십억 개의 매개변수를 포함하는 생산용 확산 모델의 신속한 발전을 견인했습니다. 결과적으로, 최첨단 텍스트-이미지 모델은 실제로는 접근하기 어려워지고 있으며 특히 자원이 제한된 환경에서는 더 그렇습니다. 사후 훈련 양자화(PTQ)는 사전 훈련된 모델 가중치를 낮은 비트 표현으로 압축하여 이 문제에 대처합니다. 최근의 확산 양자화 기술은 주로 균일 스칼라 양자화에 의존하여, 4비트로 압축된 모델에 대해 양호한 성능을 제공합니다. 본 연구는 대규모 텍스트-이미지 확산 모델에 대해 더 다양한 벡터 양자화(VQ)가 더 높은 압축률을 달성할 수 있음을 보여줍니다. 구체적으로, 우리는 최근의 수십억 개의 매개변수를 포함하는 텍스트-이미지 모델(SDXL 및 SDXL-Turbo)에 대해 벡터 기반 PTQ 방법을 맞춤화하고, VQ를 사용하여 2B+ 매개변수의 확산 모델이 이전 4비트 압축 기술과 유사한 이미지 품질과 텍스트 정렬을 보여주는 것을 보여줍니다.

GenAgent: 자동화된 워크플로우로 협업하는 AI 시스템 구축 생성 - ComfyUI에 대한 사례 연구
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

과거의 많은 AI 연구는 지능과 능력을 극대화하기 위해 통합적인 모델을 개발하는 데 초점을 맞추었으며, 주요 목표는 특정 작업의 성능을 향상시키는 것이었습니다. 이에 반해, 본 논문은 대안적 접근 방식을 탐구합니다: 복잡하고 다양한 작업을 해결하기 위해 모델, 데이터 소스 및 파이프라인을 통합하는 워크플로우를 활용하는 협력적인 AI 시스템입니다. 우리는 LLM 기반의 GenAgent를 소개합니다. 이는 복잡한 워크플로우를 자동으로 생성하여 통합 모델에 비해 더 큰 유연성과 확장성을 제공합니다. GenAgent의 핵심 혁신은 코드로 워크플로우를 표현하고, 협력적 에이전트를 이용하여 단계적으로 워크플로우를 구축하는 데 있습니다. 우리는 GenAgent를 ComfyUI 플랫폼에 구현하고 새로운 벤치마크인 OpenComfy를 제안합니다. 결과는 GenAgent가 실행 수준 및 작업 수준 평가 모두에서 기준선 접근 방식을 능가함을 보여주며, 우수한 효과적이고 안정적인 복잡한 워크플로우를 생성할 수 있는 능력을 보여줍니다.

Follow-Your-Canvas: 다양한 콘텐츠 생성을 통한 고해상도 비디오 아웃페인팅
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

본 논문은 광범위한 콘텐츠 생성을 통한 고해상도 비디오 외부 채움에 대해 탐구합니다. 우리는 비디오를 대규모로 외부 채움하려는 기존 방법들이 직면하는 일반적인 문제점을 지적합니다: 저품질 콘텐츠 생성과 GPU 메모리로 인한 제약. 이러한 도전에 대처하기 위해 우리는 Follow-Your-Canvas라는 확산 기반 방법을 제안합니다. 이 방법은 두 가지 핵심 설계를 기반으로 합니다. 첫째, "single-shot" 외부 채움의 일반적인 방법 대신, 우리는 작업을 공간 창에 분산시키고 이를 매끄럽게 병합합니다. 이를 통해 GPU 메모리에 제약받지 않고 어떤 크기와 해상도의 비디오도 외부 채움할 수 있습니다. 둘째, 각 창의 생성 과정에 소스 비디오와 상대적인 위치 관계를 주입합니다. 이는 각 창 내에서 생성된 공간 레이아웃이 소스 비디오와 조화를 이루도록 합니다. 이 두 설계와 결합함으로써 우리는 공간적 및 시간적 일관성을 유지하면서 풍부한 콘텐츠를 갖춘 고해상도 외부 채움 비디오를 생성할 수 있습니다. Follow-Your-Canvas는 512X512에서 1152X2048(9배)로의 대규모 비디오 외부 채움에서 뛰어난 성과를 보여주며 고품질이고 미적으로 매력적인 결과물을 생성합니다. 다양한 해상도 및 규모 설정에서 최상의 양적 결과를 달성합니다. 코드는 https://github.com/mayuelala/FollowYourCanvas에서 공개되어 있습니다.

밀도 적응형 주의 기반 음성 네트워크: 정신 건강 장애를 위한 특징 이해 향상
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

음성 기반 우울증 감지는 각 개인별로 독특하게 나타나며 데이터 부족으로 자동 감지에 상당한 어려움을 겪습니다. 이러한 도전에 대응하여, 우리는 오디오 특징 추출 및 우울증 감지를 위한 파라미터 효율적이고 설명 가능한 두 가지 모델인 DAAMAudioCNNLSTM과 DAAMAudioTransformer을 소개합니다. DAAMAudioCNNLSTM은 다중 헤드 밀도 적응 주의 메커니즘(DAAM)을 갖춘 새로운 CNN-LSTM 프레임워크로, 정보 전달적인 음성 세그먼트에 동적으로 초점을 맞춥니다. DAAMAudioTransformer은 CNN-LSTM 아키텍처 대신 트랜스포머 인코더를 활용하며, 동일한 DAAM 모듈을 통해 강화된 주의와 해석 가능성을 통합합니다. 이러한 접근 방식은 감지의 견고성과 해석 가능성을 향상시킬 뿐만 아니라, DAIC-WOZ 데이터셋에서 DAAMAudioCNNLSTM의 F1 매크로 점수가 0.702이고 DAAMAudioTransformer의 F1 매크로 점수가 0.72로 최첨단 성능을 달성합니다. 이전 방법과 달리 훈련/검증 중 모음 위치 및 화자 정보와 같은 보조 정보에 의존하지 않습니다. 음성 신호를 활용한 우울증 감지에 대한 이러한 모델의 상당한 설명 가능성과 효율성은 더 신뢰할 수 있고 임상적으로 유용한 진단 도구로의 진전을 약속하며, 음성 및 정신 건강 관리 분야에서 유망한 발전을 나타냅니다. 이 분야에서의 추가 연구를 촉진하기 위해 우리의 코드를 공개적으로 제공합니다.

퓨전할 때를 알라: 법률 분야에서의 비영어 하이브리드 검색 연구
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

하이브리드 검색은 서로 다른 매칭 패러다임의 한계를 극복하는 효과적인 전략으로 등장했으며, 특히 도메인 외 맥락에서 검색 품질의 현저한 향상이 관찰되는 곳에서 특히 유용하다. 그러나 기존 연구는 주로 한정된 검색 방법 세트에 초점을 맞추고, 영어로만 된 도메인-일반 데이터셋에서만 짝을 이루어 평가되었다. 본 연구에서는 프랑스어로 된 법률 분야에서 주요 검색 모델의 다양한 하이브리드 검색의 효과를 연구하며, 영역 외 및 영역 내 시나리오를 평가한다. 우리의 연구 결과는 영역 외 상황에서, 서로 다른 도메인-일반 모델을 퓨징하는 것이 퓨징 방법과 관계없이 독립적인 모델 사용보다 성능을 일관되게 향상시킨다는 것을 보여준다. 놀랍게도, 모델이 영역 내에서 훈련된 경우, 퓨징은 일반적으로 가장 우수한 단일 시스템 사용보다 성능을 저하시키는 것으로 나타나며, 이는 점수를 신중하게 조정된 가중치로 퓨징할 때에만 성능이 향상된다. 이러한 새로운 통찰력을 통해 이전 연구 결과의 적용 범위를 새로운 분야와 언어로 확장하고, 비영어 전문 분야에서의 하이브리드 검색에 대한 보다 심층적인 이해에 기여한다.

MERIT 데이터셋: 해석 가능한 트랜스크립트를 모델링하고 효율적으로 렌더링하기
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

본 논문은 학교 보고서의 맥락에서 다중 모달 (텍스트 + 이미지 + 레이아웃)로 구성된 완전히 레이블이 지정된 MERIT 데이터셋을 소개합니다. 400개 이상의 레이블과 33,000개의 샘플로 구성된 MERIT 데이터셋은 시각적으로 풍부한 문서 이해 (VrDU) 작업에 대한 모델 학습에 유용한 자원입니다. MERIT 데이터셋의 성겨 (학생 성적표)으로 인해, 이 데이터셋은 언어 모델 (LLMs)에서 유발된 편향을 효과적으로 포함할 수 있어, 편향을 평가하는 데 유용한 도구입니다. 본 논문은 데이터셋 생성 파이프라인을 개요하고, 텍스트, 시각적, 레이아웃 및 편향 영역에서의 주요 기능을 강조합니다. 데이터셋의 유용성을 증명하기 위해, 토큰 분류 모델을 사용한 벤치마킹을 제시하며, 데이터셋이 최신 기술 모델에도 상당한 어려움을 제공하며, 이러한 모델이 사전 학습 단계에서 MERIT 데이터셋의 샘플을 포함할 경우 크게 이점을 얻을 수 있음을 보여줍니다.

PrivacyLens: 언어 모델의 개인 정보 보호 규범 인식 평가
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

언어 모델(LMs)은 맞춤형 커뮤니케이션 시나리오(예: 이메일 보내기, 소셜 미디어 게시물 작성)에서 널리 활용되며 일정 수준의 에이전시를 부여받습니다. 이에 따라, LMs가 맥락적 개인 정보 보호 규범에 따라 행동하도록 보장하는 것이 점점 중요해지고 있습니다. 그러나, LMs의 개인 정보 보호 규범 인식 및 LM 매개 커뮤니케이션에서의 신흥 개인 정보 보호 위험을 측정하는 것은 어려운데, 그 이유는 (1) 맥락적이고 꼬리가 긴 개인 정보 보호 관련 사례의 본질과 (2) 현실적인 응용 시나리오를 포착하는 평가 방법의 부재 때문입니다. 이러한 도전에 대처하기 위해, 우리는 PrivacyLens라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 개인 정보 보호에 민감한 시드를 풍부한 단편으로 확장하고, 더 나아가 에이전트 궤적으로 확장하여 LM 에이전트의 행동에서 개인 정보 누출을 다중 수준으로 평가할 수 있도록 설계되었습니다. 우리는 PrivacyLens를 개인 정보 보호 문헌에 근거한 개인 정보 보호 규범과 크라우드소싱된 시드로 구성된 데이터셋으로 구체화합니다. 이 데이터셋을 사용하여, 우리는 LM의 성능이 살펴보는 질문에 대답하는 것과 사용자 지시를 실행할 때의 실제 행동 사이에 불일치가 있음을 밝혀냅니다. GPT-4 및 Llama-3-70B와 같은 최신 LM은 개인 정보 강화 지시를 받았을 때에도 25.68% 및 38.69%의 경우에 민감한 정보를 누설합니다. 또한, 각 시드를 여러 궤적으로 확장하여 LM의 개인 정보 누출 위험을 평가하는 레드팀을 시연합니다. 데이터셋과 코드는 https://github.com/SALT-NLP/PrivacyLens에서 제공됩니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 진화
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang