AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Mixture-of-Experts向けの補助損失フリーな負荷分散戦略
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Lean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai•Aug 28, 2024•123

ドルフィン：エネルギー効率の良いオンデバイス言語モデルのための新しいモダリティとしての長いコンテキスト
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang•Aug 28, 2024•434

イーグル：エンコーダの混合を用いたマルチモーダルLLMの設計空間の探索
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu•Aug 28, 2024•883

分布バックトラッキングは、ワンステップ拡散蒸留の収束速度を向上させるより速い軌道を構築します。
Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation

Shengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun•Aug 28, 2024•162

ナレッジナビゲーター：科学文献における探索的検索のためのLLMガイド付きブラウジングフレームワーク
Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature

Uri Katz, Mosh Levy, Yoav Goldberg•Aug 28, 2024•134

大規模言語モデルにおけるタスク専門知識の向上のためのオープンナレッジの活用
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu•Aug 28, 2024•204

TEDRA: ダイナミックでフォトリアルなアクターのテキストベース編集
TEDRA: Text-based Editing of Dynamic and Photoreal Actors

Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann•Aug 28, 2024•42

次のトークン予測を通じたインコンテキスト模倣学習
In-Context Imitation Learning via Next-Token Prediction

Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg•Aug 28, 2024•103

LLaVA-MoD: MoE知識蒸留によるLLaVAの超小型化
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang•Aug 28, 2024•222

学習によるランキングを用いた効率的なLLMスケジューリング
Efficient LLM Scheduling by Learning to Rank

Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang•Aug 28, 2024•212

3次元ガウス縫合を通じてリアルな例ベースモデリングに向けて
Towards Realistic Example-based Modeling via 3D Gaussian Stitching

Xinyu Gao, Ziyi Yang, Bingchen Gong, Xiaoguang Han, Sipeng Yang, Xiaogang Jin•Aug 28, 2024•83

BaichuanSEED：競争力のある大規模言語モデルベースラインを導入することにより、広範なデータ収集と重複排除の潜在能力を共有する
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline

Guosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen•Aug 27, 2024•554

ReMamba: 効果的な長シーケンスモデリングを備えたマンバ
ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao•Aug 28, 2024•122