AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OmniGen: 통합 이미지 생성
OmniGen: Unified Image Generation

Sep 17

ByShitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu

115

본 연구에서는 통합 이미지 생성을 위한 새로운 확산 모델인 OmniGen을 소개합니다. 인기 있는 확산 모델(예: Stable Diffusion)과 달리, OmniGen은 다양한 제어 조건을 처리하기 위해 ControlNet이나 IP-Adapter와 같은 추가 모듈이 더 이상 필요하지 않습니다. OmniGen은 다음과 같은 특징으로 특징 지어집니다: 1) 통합성: OmniGen은 텍스트에서 이미지 생성 능력을 보여주는 것뿐만 아니라 이미지 편집, 주체 주도 생성, 시각 조건부 생성과 같은 하류 작업을 내재적으로 지원합니다. 또한 OmniGen은 가장자리 검출과 인간 자세 인식과 같은 고전적인 컴퓨터 비전 작업을 이미지 생성 작업으로 변환하여 처리할 수 있습니다. 2) 간결성: OmniGen의 아키텍처는 매우 단순화되어 있어 추가 텍스트 인코더가 필요하지 않습니다. 또한 기존의 확산 모델과 비교하여 더 사용자 친화적이며, 복잡한 작업을 추가 전처리 단계(예: 인간 자세 추정) 없이 지시에 따라 수행할 수 있어 이미지 생성의 작업 흐름을 크게 간소화합니다. 3) 지식 전이: 통합 형식에서 학습함으로써 OmniGen은 효과적으로 다른 작업 간에 지식을 전이하고 보이지 않는 작업과 도메인을 관리하며 새로운 능력을 나타냅니다. 또한 모델의 추론 능력과 사고 체인 메커니즘의 잠재적 응용을 탐구합니다. 본 연구는 일반적인 이미지 생성 모델에 대한 첫 번째 시도를 대표하며, 여러 미해결 문제가 남아 있습니다. 우리는 해당 자원을 오픈 소스로 공개하여 이 분야의 발전을 촉진할 것입니다. (https://github.com/VectorSpaceLab/OmniGen)

NVLM: 오픈 프론티어-클래스 다중 모달 LLMs
NVLM: Open Frontier-Class Multimodal LLMs

Sep 17

ByWenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

우리는 NVLM 1.0을 소개합니다. 이는 최첨단 멀티모달 대형 언어 모델(Large Language Models, LLMs) 패밀리로, 시각-언어 작업에서 최첨단 결과를 달성하며 선도적인 프로프리어터리 모델(예: GPT-4o) 및 오픈 액세스 모델(예: Llama 3-V 405B 및 InternVL 2)과 견줄만한 성과를 보여줍니다. NVLM 1.0은 멀티모달 훈련 후 LLM 백본에 비해 텍스트 전용 성능이 향상된 것으로 나타납니다. 모델 설계 측면에서, 우리는 디코더 전용 멀티모달 LLM(e.g., LLaVA)과 교차 어텐션 기반 모델(e.g., Flamingo) 사이의 포괄적인 비교를 수행합니다. 두 접근법의 장단점을 고려하여, 훈련 효율성과 멀티모달 추론 능력을 모두 향상시키는 새로운 아키텍처를 제안합니다. 더불어, 우리는 다이내믹 고해상도 이미지를 위한 1-D 타일 태깅 디자인을 소개하며, 이는 멀티모달 추론 및 OCR 관련 작업의 성능을 크게 향상시킵니다. 훈련 데이터 측면에서, 우리는 멀티모달 사전 훈련 및 지도 학습 데이터셋에 대해 면밀히 선별하고 상세한 정보를 제공합니다. 우리의 연구 결과는 모든 아키텍처에서 사전 훈련 단계에서도 데이터셋 품질과 작업 다양성이 규모보다 중요하다는 것을 나타냅니다. 특히, 우리는 NVLM-1.0 모델에 대한 프로덕션급 멀티모달리티를 개발하여, 이 모델들이 시각-언어 작업에서 뛰어나면서도 LLM 백본에 비해 텍스트 전용 성능을 유지하거나 향상시킬 수 있도록 합니다. 이를 위해, 우리는 고품질 텍스트 전용 데이터셋을 멀티모달 훈련에 통합하고, 상당량의 멀티모달 수학 및 추론 데이터를 추가하여, 각 모달리티 간 수학 및 코딩 능력을 향상시킵니다. 이 분야의 연구를 발전시키기 위해, 우리는 모델 가중치를 공개하고 커뮤니티를 위해 코드를 오픈 소스로 공개할 예정입니다: https://nvlm-project.github.io/.

이미지 조건부 확산 모델의 세밀 조정은 생각보다 쉽습니다.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Sep 17

ByGonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe

최근 연구에서는 대형 확산 모델이 깊이 추정을 이미지 조건부 이미지 생성 작업으로 캐스팅함으로써 매우 정확한 단안 깊이 추정기로 재사용될 수 있다는 것을 보여 주었습니다. 제안된 모델은 최첨단 결과를 달성했지만, 다단계 추론으로 인한 높은 계산 요구로 인해 많은 시나리오에서 사용이 제한되었습니다. 본 논문에서는 지금까지 눈에 띄지 않았던 추론 파이프라인의 결함으로 인해 인식된 비효율성이 발생했음을 보여줍니다. 수정된 모델은 이전에 보고된 최상의 구성과 비교 가능한 성능을 발휘하면서도 200배 이상 빠릅니다. 하류 작업 성능을 최적화하기 위해 우리는 작업 특정 손실을 사용하여 단계별 모델 위에 엔드-투-엔드 미세 조정을 수행하고, 일반적인 제로샷 벤치마크에서 모든 다른 확산 기반 깊이 및 법선 추정 모델을 능가하는 결정론적 모델을 얻습니다. 놀랍게도, 이 미세 조정 프로토콜은 안정적인 확산에서도 직접 작동하며, 현재 최첨단 확산 기반 깊이 및 법선 추정 모델과 유사한 성능을 달성하며, 이전 연구에서 도출된 일부 결론에 의문을 제기합니다.

Phidias: 텍스트, 이미지 및 3D 조건에서 참조 증강 확산을 사용하여 3D 콘텐츠를 생성하는 생성 모델
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Sep 17

ByZhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau

3D 모델링에서 디자이너들은 종종 기존의 3D 모델을 참조하여 새로운 모델을 만듭니다. 이러한 실천은 참조가 추가된 3D 생성을 위해 확산을 사용하는 혁신적인 생성 모델인 Phidias의 개발을 영감으로 삼았습니다. 주어진 이미지를 통해 우리의 방법은 검색된 또는 사용자 제공 3D 참조 모델을 활용하여 생성 프로세스를 안내함으로써 생성 품질, 일반화 능력 및 제어 가능성을 향상시킵니다. 우리의 모델은 세 가지 주요 구성 요소를 통합합니다: 1) 조건 강도를 동적으로 조절하는 메타-컨트롤넷, 2) 입력 이미지와 3D 참조 간의 불일치를 완화하는 동적 참조 라우팅, 그리고 3) 점진적 커리큘럼으로 자기 지도 학습이 가능한 자기 참조 보강 기능. 이러한 설계들이 종합적으로 기존 방법들보다 명확한 향상을 이루어냅니다. Phidias는 텍스트, 이미지 및 3D 조건을 사용한 3D 생성을 위한 통합된 프레임워크를 수립하여 다양한 응용 프로그램을 제공합니다.

프롬트리버: 지시로 훈련된 리트리버는 언어 모델처럼 프롬프트될 수 있습니다.
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

Sep 17

ByOrion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel

지시에 맞게 조정된 언어 모델(LM)은 기본 모델과 비교하여 더 자연스러운 사용자 인터페이스를 제공하여 명령에 응답할 수 있습니다. 본 연구에서는 우리는 Promptriever를 제시합니다. 이는 LM처럼 프롬프트를 받을 수 있는 첫 번째 검색 모델입니다. Promptriever를 훈련시키기 위해 우리는 MS MARCO로부터 약 500k의 인스턴스를 포함하는 새로운 인스턴스 수준의 지시 훈련 세트를 선별하고 공개합니다. Promptriever는 표준 검색 작업에서 강력한 성능을 달성할 뿐만 아니라 지시를 따릅니다. 우리는 다음을 관찰합니다: (1) 상세한 관련성 지시를 따르는 데 큰 이득(평균 순위 재현율에서 +14.3 p-MRR / +3.1 nDCG), (2) 쿼리+지시에서 어휘 선택/구문에 대한 강한 강인성 증가(+12.9 InstructIR에서 Robustness@10), 그리고 (3) 프롬프트를 통해 하이퍼파라미터 검색을 수행하여 검색 성능을 신뢰성 있게 향상시킬 수 있는 능력(+1.4 BEIR에서 평균 증가). Promptriever는 검색 모델이 쿼리별로 프롬프트로 제어될 수 있음을 보여주며, LM 프롬프팅 기술을 정보 검색과 조화시키는 미래 작업을 위한 기반을 마련합니다.

EzAudio: 효율적 확산 Transformer를 활용한 텍스트-음성 생성 향상
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

Sep 17

ByJiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu

잠재 확산 모델은 텍스트-음성 (T2A) 생성 작업에서 유망한 결과를 보여주었지만, 이전 모델들은 생성 품질, 계산 비용, 확산 샘플링 및 데이터 준비와 같은 어려움에 직면해 왔습니다. 본 논문에서는 이러한 도전에 대처하기 위해 transformer 기반 T2A 확산 모델인 EzAudio를 소개합니다. 저희 접근 방식에는 여러 가지 주요 혁신이 포함되어 있습니다: (1) 1차원 파형 변이 오토인코더 (VAE)의 잠재 공간에 T2A 모델을 구축하여 2차원 스펙트로그램 표현을 처리하는 복잡성을 피하고 추가적인 신경 음성 생성기를 사용합니다. (2) 오디오 잠재 표현 및 확산 모델링에 특화된 최적화된 확산 transformer 아키텍처를 설계하여 수렴 속도, 훈련 안정성 및 메모리 사용량을 향상시켜 훈련 과정을 보다 쉽고 효율적으로 만듭니다. (3) 데이터 부족 문제에 대처하기 위해 미쳐지지 않은 데이터를 활용하여 음향 의존성을 학습하고, 오디오-언어 모델에 의해 주석이 달린 오디오 캡션 데이터를 텍스트-음성 정렬 학습에 활용하며, 인간이 레이블을 지정한 데이터를 세밀하게 조정하는 데 활용하는 데이터 효율적인 훈련 전략을 채택합니다. (4) 더 큰 CFG 점수를 사용할 때도 훌륭한 프롬프트 정렬을 달성하면서 큰 CFG 점수를 사용할 때 훌륭한 오디오 품질을 유지하는 CFG 리스케일링 방법을 도입하여 EzAudio를 간소화합니다. 이로써 최적의 CFG 점수를 찾아 균형을 맞추려는 고민을 없앱니다. EzAudio는 객관적 지표와 주관적 평가 모두에서 기존 오픈 소스 모델을 능가하여 현실적인 청취 경험을 제공하면서 간소화된 모델 구조, 낮은 훈련 비용 및 쉽게 따라갈 수 있는 훈련 파이프라인을 유지합니다. 코드, 데이터 및 사전 훈련된 모델은 다음 링크에서 공개되어 있습니다: https://haidog-yaqub.github.io/EzAudio-Page/.

양자화된 명령어 조정 대형 언어 모델의 포괄적 평가: 405B까지의 실험적 분석
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Sep 17

ByJemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon

이전 연구는 퍼플렉서티나 몇 가지 기본적인 지식 작업 및 오래된 데이터셋과 같은 제한된 측정 항목을 사용하여 양자화된 LLMs를 평가해 왔습니다. 게다가, 최근에는 405B까지의 Llama 3.1과 같은 대규모 모델이 철저히 조사되지 않았습니다. 본 논문에서는 7B에서 405B까지 모델에 걸쳐 GPTQ, AWQ, SmoothQuant 및 FP8과 같은 다양한 양자화 방법(GPTQ, AWQ, SmoothQuant, FP8)을 사용하여 지시어에 맞게 조정된 LLM의 성능을 평가합니다. 13개의 벤치마크를 사용하여, 우리는 상식적인 Q&A, 지식 및 언어 이해, 지시어 따르기, 환각 탐지, 수학, 대화와 같은 여섯 가지 작업 유형을 통해 성능을 평가합니다. 우리의 주요 결과는 다음과 같습니다: (1) 더 큰 LLM을 더 작은 FP16 LLM과 유사한 크기로 양자화하는 것이 환각 탐지와 지시어 따르기를 제외한 대부분의 벤치마크에서 일반적으로 더 나은 성능을 발휘합니다; (2) 성능은 다양한 양자화 방법, 모델 크기 및 비트 폭과 함께 상당히 변동하며, 대형 모델에서는 주로 가중치만 사용하는 방법이 더 나은 결과를 도출합니다; (3) 작업의 난이도는 양자화로 인한 정확도 저하에 큰 영향을 미치지 않습니다; 그리고 (4) MT-Bench 평가 방법은 최근 고성능 LLM들 사이에서는 한정된 차별력을 가지고 있습니다.

OSV: 고품질 이미지에서 비디오 생성에는 한 단계만으로 충분합니다.
OSV: One Step is Enough for High-Quality Image to Video Generation

Sep 17

ByXiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang

비디오 확산 모델은 고품질 비디오를 생성하는 데 큰 잠재력을 보여주어, 점점 더 인기 있는 주제가 되고 있습니다. 그러나 그들의 본질적인 반복적인 특성은 상당한 계산 및 시간 비용을 초래합니다. 일관성 증류와 같은 기술을 통해 추론 단계를 줄이는 노력이 있었지만, 이러한 접근 방식은 종종 성능이나 훈련 안정성 중 하나에 부족함이 있습니다. 본 연구에서는 이러한 도전에 대처하기 위해 일관성 증류를 효과적으로 GAN 훈련과 결합하는 두 단계 훈련 프레임워크를 소개합니다. 더불어, 비디오 판별자 디자인을 제안하여 비디오 latents의 디코딩이 필요 없어지고 최종 성능이 향상됩니다. 우리 모델은 단 한 단계만으로 고품질 비디오를 생성할 수 있으며, 추가적인 성능 향상을 위해 다단계 세밀화를 수행할 유연성을 갖추고 있습니다. OpenWebVid-1M 벤치마크에서의 정량적 평가 결과, 우리 모델이 기존 방법들을 크게 능가함을 보여줍니다. 특히, 우리의 1단계 성능(FVD 171.15)은 일관성 증류 기반 방법인 AnimateLCM의 8단계 성능(FVD 184.79)을 능가하며, 고급 Stable Video Diffusion의 25단계 성능(FVD 156.94)에 근접합니다.

에이전트 기반 모델에서의 에이전시 한계에 대한 연구
On the limits of agency in agent-based models

Sep 14

ByAyush Chopra, Shashank Kumar, Nurullah Giray-Kuru, Ramesh Raskar, Arnau Quera-Bofarull

에이전트 기반 모델링(ABM)은 환경 내에서 행동하고 상호작용하는 에이전트 집합을 시뮬레이션하여 복잡한 시스템의 행동을 이해하려는 것을 목표로 합니다. 그들의 실용적 유틸리티는 현실적인 환경 역학과 적응적 에이전트 행동을 포착하면서 백만 규모의 인구를 효율적으로 시뮬레이션하는 것을 필요로 합니다. 대형 언어 모델(LLMs)의 최근 발전은 LLMs를 에이전트로 사용하여 적응적 행동을 포착하는 가능성을 제공합니다. 그러나 대규모 인구에 대한 LLMs의 계산적 불가능성으로 인해 그들의 널리 퍼지는 채택이 방해되었습니다. 본 논문에서는 AgentTorch를 소개합니다. 이는 LLMs를 사용하여 고해상도 에이전트 행동을 포착하면서 수백만 에이전트로 ABMs를 확장하는 프레임워크입니다. 우리는 LLMs를 ABM 에이전트로 사용하는 유틸리티를 벤치마킹하며 시뮬레이션 규모와 개별 에이전시 사이의 교환을 탐구합니다. COVID-19 팬데믹을 사례 연구로 활용하여, 우리는 에이전트토치가 뉴욕시를 대표하는 840만 에이전트를 시뮬레이션하여 고립 및 고용 행동이 건강 및 경제 결과에 미치는 영향을 포착함을 시연합니다. 우리는 질병 파동과 실업률을 예측하는 데 휴리스틱 및 LLM 에이전트를 기반으로 한 다양한 에이전트 아키텍처의 성능을 비교합니다. 더 나아가, 우리는 에이전트토치의 회상적, 가설적 및 전망적 분석 능력을 소개하며 적응적 에이전트 행동이 정책 설계에서 역사적 데이터의 한계를 극복하는 데 어떻게 도움이 되는지 강조합니다. 에이전트토치는 전 세계적으로 정책 결정 및 과학적 발견에 활발히 사용되는 오픈 소스 프로젝트입니다. 해당 프레임워크는 여기에서 이용 가능합니다: github.com/AgentTorch/AgentTorch.

불연속 지형에서의 민첩한 연속 점프
Agile Continuous Jumping in Discontinuous Terrains

Sep 17

ByYuxiang Yang, Guanya Shi, Changyi Lin, Xiangyun Meng, Rosario Scalise, Mateo Guaman Castro, Wenhao Yu, Tingnan Zhang, Ding Zhao, Jie Tan, Byron Boots

우리는 계단이나 발판과 같은 불연속 지형에서 사격 보행 로봇의 민첩하고 연속적이며 지형 적응적인 점프에 초점을 맞춥니다. 단일 단계 점프와 달리 연속적인 점프는 기존 방법에 대한 도전적인 고도 동적 동작을 정확하게 수행해야 하므로 장거리에 걸쳐 정확하게 실행하는 것이 필요합니다. 이 작업을 수행하기 위해 우리는 견고한 지형 인식을 위한 학습된 높이 맵 예측기, 다재다능하고 지형 적응적인 계획을 위한 강화 학습 기반 중심축 수준 모션 정책, 정확한 모션 추적을 위한 저수준 모델 기반 다리 컨트롤러로 구성된 계층적 학습 및 제어 프레임워크를 설계합니다. 또한 하드웨어 특성을 정확하게 모델링하여 시뮬레이션과 실제 간의 차이를 최소화합니다. 우리의 프레임워크를 통해 Unitree Go1 로봇이 인간 크기의 계단과 희소한 발판에서 민첩하고 연속적인 점프를 수행할 수 있게 되었습니다. 특히, 이 로봇은 각 점프마다 두 계단을 넘어가며, 3.5m 길이, 2.8m 높이, 14단 계단을 4.5초 만에 완료합니다. 게다가 동일한 정책은 수평 또는 수직 불연속성을 넘어서는 다양한 파크쿠어 작업에서 베이스라인을 능가합니다. 실험 영상은 https://yxyang.github.io/jumping\_cod/에서 확인할 수 있습니다.

스플랏 필드: 희소한 3D 및 4D 재구성을 위한 신경 가우시안 스플랏
SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction

Sep 17

ByMarko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer

다중 뷰 이미지에서 3D 정적 장면과 4D 동적 이벤트를 디지털화하는 것은 컴퓨터 비전 및 그래픽스 분야에서 오랫동안 어려운 과제였습니다. 최근에는 3D 가우시안 스플래팅(3DGS)이 현실적이고 확장 가능한 재구성 방법으로 등장하여 인기를 얻고 있습니다. 이 방법은 인상적인 재구성 품질, 실시간 렌더링 능력 및 널리 사용되는 시각화 도구와의 호환성으로 주목받고 있습니다. 그러나 이 방법은 고품질 장면 재구성을 위해 상당 수의 입력 뷰가 필요하며, 이는 실제적인 병목 현상을 도입합니다. 이러한 도전 과제는 특히 동적 장면을 촬영할 때 카메라 어레이를 넓게 배치하는 것이 막대한 비용을 초래할 수 있는 경우에 심각합니다. 본 연구에서는 3DGS 기술의 희박 재구성 환경에서 부적절한 성능에 기여하는 요소 중 하나로 스플래트 특징의 공간 자기상관 부족을 확인했습니다. 이 문제를 해결하기 위해 해당 암시적 신경장 필드의 출력으로 모델링하여 스플래트 특징을 효과적으로 규제하는 최적화 전략을 제안합니다. 이를 통해 다양한 시나리오에서 일관된 재구성 품질 향상이 이루어집니다. 우리의 접근 방식은 다양한 설정 및 장면 복잡성에서의 광범위한 테스트를 통해 정적 및 동적 케이스를 효과적으로 처리합니다.

RAG에서 LLM의 신뢰성 측정과 향상을 위한 Grounded 속성 및 거부 학습을 통한 방법.
Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Sep 17

ByMaojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria

LLM은 검색 증강 생성 (RAG) 시스템의 중요한 구성 요소입니다. 많은 연구가 최종 RAG 시스템의 품질을 평가하는 데 초점을 맞추고 있지만, LLM이 RAG 작업에 적합한지 이해하는 연구가 부족합니다. 따라서 우리는 RAG 프레임워크에서 LLM의 신뢰성을 종합적으로 평가하는 Trust-Score라는 새로운 측정 항목을 소개합니다. 우리는 문맥 내 학습과 같은 다양한 프롬프팅 방법이 LLM을 효과적으로 RAG 작업에 적응시키지 못하는 것을 보여줍니다. 따라서 우리는 더 높은 Trust-Score를 위해 LLM을 조정하는 Trust-Align이라는 프레임워크를 제안합니다. 우리의 방법으로 조정된 LLaMA-3-8b는 ASQA (10.7 상승), QAMPARI (29.2 상승) 및 ELI5 (14.9 상승)에서 유사한 크기의 오픈 소스 LLM을 크게 능가합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/declare-lab/trust-align.

기초 모델에서의 인간과 유사한 정서적 인지
Human-like Affective Cognition in Foundation Models

Sep 18

ByKanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman

감정을 이해하는 것은 인간 상호작용과 경험에 근본적입니다. 인간은 상황이나 얼굴 표정으로부터 감정을 쉽게 추론하며, 감정으로부터 상황을 유추하며 다양한 감성 인지를 수행합니다. 현대 AI가 이러한 추론에서 얼마나 능숙한지에 대해 어떻게 평가할 수 있을까요? 우리는 기초 모델에서 감성 인지를 테스트하기 위한 평가 프레임워크를 소개합니다. 심리학 이론을 바탕으로, 우리는 감정 평가, 표현, 결과 사이의 관계를 탐구하는 1,280가지 다양한 시나리오를 생성합니다. 우리는 기초 모델(GPT-4, Claude-3, Gemini-1.5-Pro)과 인간(N = 567)의 능력을 신중히 선택된 조건에서 평가합니다. 결과는 기초 모델이 인간 직관과 일치하거나 인간 간 합의를 초과하는 것으로 나타납니다. 일부 조건에서 모델은 "초인적"이며, 평균 인간보다 모달 인간 판단을 더 잘 예측합니다. 모든 모델은 사고 연쇄 추론에서 혜택을 받습니다. 이는 기초 모델이 감정에 대한 인간과 유사한 이해력과 그들이 믿음과 행동에 미치는 영향을 습득했음을 시사합니다.

PDMX: 상징 음악 처리를 위한 대규모 공개 도메인 MusicXML 데이터셋
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

Sep 17

ByPhillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley

최근 생성적 AI-음악 시스템의 급격한 발전으로 데이터 저작권, 음악가로부터 음악 라이선스 획득, 그리고 오픈 소스 AI와 대형 명성 있는 기업 간의 갈등에 대한 다수의 우려가 제기되었습니다. 이러한 문제들은 특히 상징적 음악 데이터에 대한 대중적으로 이용 가능하고 저작권이 없는 음악 데이터의 부족을 강조하며, 이 문제를 완화하기 위해 우리는 PDMX를 제시합니다. PDMX는 MuseScore의 악보 공유 포럼에서 수집한 25만 개 이상의 퍼블릭 도메인 MusicXML 악보로 구성된 대규모 오픈 소스 데이터셋으로, 우리가 알기로는 가장 큰 저작권이 없는 상징적 음악 데이터셋입니다. PDMX에는 태그와 사용자 상호 작용 메타데이터가 풍부하게 포함되어 있어 데이터셋을 효율적으로 분석하고 고품질의 사용자 생성 악보를 필터링할 수 있습니다. 데이터 수집 과정에서 제공되는 추가 메타데이터를 고려하여, 우리는 다양한 대표적인 PDMX 하위 집합이 하향식 모델에서 다른 행동을 유발하는지, 그리고 사용자 평가 통계가 데이터 품질의 효과적인 측정 도구로 활용될 수 있는지를 평가하는 다중 트랙 음악 생성 실험을 수행합니다. 예시는 https://pnlong.github.io/PDMX.demo/에서 확인할 수 있습니다.

Fourier Kolmogorov-Arnold 네트워크를 사용한 암묵적 신경 표현
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks

Sep 14

ByAli Mehrabian, Parsa Mojarad Adi, Moein Heidari, Ilker Hacihaliloglu

암묵적 신경 표현 (INRs)은 신경망을 사용하여 소수의 매개변수로 복잡한 신호의 연속적이고 해상도에 독립적인 표현을 제공합니다. 그러나 기존의 INR 모델은 각 작업에 특정한 중요한 주파수 구성 요소를 캡처하는 데 종종 실패합니다. 이 문제를 해결하기 위해 본 논문에서는 INRs를 위한 Fourier Kolmogorov Arnold 네트워크 (FKAN)를 제안합니다. 제안된 FKAN은 첫 번째 레이어에서 푸리에 급수로 모델링된 학습 가능한 활성화 함수를 활용하여 효과적으로 제어하고 작업별 주파수 구성 요소를 학습합니다. 또한, 학습 가능한 푸리에 계수를 가진 활성화 함수는 네트워크가 복잡한 패턴과 세부 사항을 캡처하는 능력을 향상시키며, 고해상도 및 고차원 데이터에 유용합니다. 실험 결과는 우리가 제안한 FKAN 모델이 세 가지 최첨단 기준 스키마를 능가하며, 이미지 표현 작업에 대한 최대 신호 대 잡음 비율 (PSNR) 및 구조 유사성 지수 측정 (SSIM) 그리고 3D 점유 체적 표현 작업에 대한 교차 연합 (IoU)을 향상시킨다는 것을 보여줍니다.

암시적 신경 표현을 위한 단일층 학습 가능 활성화 (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)

Sep 17

ByMoein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu

암묵적 신경 표현 (INR)은 신경망을 활용하여 좌표 입력을 해당 속성으로 변환하는데, 최근 여러 시각 관련 도메인에서 중요한 발전을 이끌어내고 있습니다. 그러나 INR의 성능은 다층 퍼셉트론 (MLP) 구조에서 사용되는 비선형 활성화 함수의 선택에 크게 영향을 받습니다. 다양한 비선형성이 조사되었지만, 현재 INR은 고주파 성분, 다양한 신호 유형 및 역문제를 처리하는 능력에 제한이 있습니다. 우리는 이러한 문제들이 INR에서 패러다임 변화를 통해 크게 완화될 수 있다는 것을 확인했습니다. 초기 레이어에서 학습 가능한 활성화를 갖는 아키텍처는 기저 신호의 세부 사항을 잘 나타낼 수 있습니다. 구체적으로, 우리는 SL^{2}A-INR이라는 하이브리드 네트워크를 제안합니다. 이는 단일 레이어 학습 가능 활성화 함수를 갖는 INR로, 기존의 ReLU 기반 MLP의 효과를 높이는 방향으로 작용합니다. 우리의 방법은 이미지 표현, 3D 형상 재구성, 인페인팅, 단일 이미지 초해상도, CT 재구성 및 새로운 시각 합성을 포함한 다양한 작업에서 우수한 성능을 발휘합니다. 포괄적인 실험을 통해, SL^{2}A-INR은 INR의 정확도, 품질 및 수렴 속도에 대한 새로운 기준을 설정합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OmniGen: 통합 이미지 생성
OmniGen: Unified Image Generation

Sep 17

ByShitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu

115

NVLM: 오픈 프론티어-클래스 다중 모달 LLMs
NVLM: Open Frontier-Class Multimodal LLMs

Sep 17

ByWenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

이미지 조건부 확산 모델의 세밀 조정은 생각보다 쉽습니다.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Sep 17

ByGonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe

Phidias: 텍스트, 이미지 및 3D 조건에서 참조 증강 확산을 사용하여 3D 콘텐츠를 생성하는 생성 모델
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Sep 17

ByZhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau

프롬트리버: 지시로 훈련된 리트리버는 언어 모델처럼 프롬프트될 수 있습니다.
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

Sep 17

ByOrion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel

EzAudio: 효율적 확산 Transformer를 활용한 텍스트-음성 생성 향상
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

Sep 17

ByJiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu

양자화된 명령어 조정 대형 언어 모델의 포괄적 평가: 405B까지의 실험적 분석
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Sep 17

ByJemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon

RAG에서 LLM의 신뢰성 측정과 향상을 위한 Grounded 속성 및 거부 학습을 통한 방법.
Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Sep 17

ByMaojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria

기초 모델에서의 인간과 유사한 정서적 인지
Human-like Affective Cognition in Foundation Models

Sep 18

ByKanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman

PDMX: 상징 음악 처리를 위한 대규모 공개 도메인 MusicXML 데이터셋
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

Sep 17

ByPhillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley

Fourier Kolmogorov-Arnold 네트워크를 사용한 암묵적 신경 표현
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks

Sep 14

ByAli Mehrabian, Parsa Mojarad Adi, Moein Heidari, Ilker Hacihaliloglu

암시적 신경 표현을 위한 단일층 학습 가능 활성화 (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)

Sep 17

ByMoein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu