AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Meteor: 대규모 언어 및 비전 모델을 위한 Mamba 기반 근거 탐색
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro•May 24, 2024•566

ConvLLaVA: 대규모 멀티모달 모델을 위한 시각적 인코더로서의 계층적 백본 구조
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng•May 24, 2024•477

그록된 트랜스포머는 암묵적 추론자입니다: 일반화의 경계를 향한 기계적 여정
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Boshi Wang, Xiang Yue, Yu Su, Huan Sun•May 23, 2024•421

Aya 23: 다국어 발전을 위한 오픈 웨이트 릴리스
Aya 23: Open Weight Releases to Further Multilingual Progress

Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker•May 23, 2024•321

스태킹 방식의 트랜스포머: 효율적인 대규모 언어 모델 사전 학습을 위한 모델 성장에 대한 심층 분석
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu•May 24, 2024•301

일정 없는 길
The Road Less Scheduled

Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky•May 24, 2024•287

AutoCoder: AIEV-Instruct를 활용한 코드 대형 언어 모델 강화
AutoCoder: Enhancing Code Large Language Model with AIEV-Instruct

Bin Lei, Yuchen Li, Qiuwu Chen•May 23, 2024•289

CraftsMan: 3D 네이티브 생성 및 인터랙티브 지오메트리 리파이너를 통한 고품질 메시 생성
CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner

Weiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long•May 23, 2024•202

자기 지도 학습을 위한 자동 데이터 큐레이션: 클러스터링 기반 접근법
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski•May 24, 2024•180

iVideoGPT: 상호작용 가능한 VideoGPT는 확장 가능한 세계 모델입니다
iVideoGPT: Interactive VideoGPTs are Scalable World Models

Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long•May 24, 2024•174

노이즈 제거 언어 모델: 음성 인식을 위한 오류 수정 모델의 한계 돌파
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly•May 24, 2024•170

언어 모델 사전 학습을 위한 이변량 스케일링 법칙: 효율적인 데이터 혼합
Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding•May 23, 2024•160

HDR-GS: 가우시안 스플래팅을 통한 1000배 빠른 고효율 고다이내믹 레인지 신규 시점 합성
HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting

Yuanhao Cai, Zihao Xiao, Yixun Liang, Yulun Zhang, Xiaokang Yang, Yaoyao Liu, Alan Yuille•May 24, 2024•80