ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
October 4th, 2024
拡散モデルにおける高いガイダンススケールの過飽和とアーティファクトの除去
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
•
Oct 3, 2024
•
31
4
対照的な局所言語画像事前学習
Contrastive Localized Language-Image Pre-Training
Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
•
Oct 3, 2024
•
38
3
Open-RAG: オープンソースの大規模言語モデルを用いた強化型検索増強推論
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models
Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez
•
Oct 2, 2024
•
10
3
Loong: 自己回帰言語モデルを用いた分単位の長いビデオの生成
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
•
Oct 3, 2024
•
38
3
VinePPO: 精緻なクレジット割り当てを通じてLLM推論のためのRLポテンシャルを解き放つ
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
•
Oct 2, 2024
•
25
2
CLIP-MoE: CLIPのための専門家の混合物の構築に向けて、多様なマルチプレットのアップサイクリング
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
•
Sep 28, 2024
•
20
2
文脈に即した文書埋め込み
Contextual Document Embeddings
John X. Morris, Alexander M. Rush
•
Oct 3, 2024
•
23
4
大規模言語モデルにおけるゼロショットクロスリンガル転送のためのレイヤー交換
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu
•
Oct 2, 2024
•
5
3
MedVisionLlama: 事前学習された大規模言語モデルレイヤーを活用した医用画像セグメンテーションの強化
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation
Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel
•
Oct 3, 2024
•
9
5
Synthio: 合成データを用いた小規模オーディオ分類データセットの拡張
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
•
Oct 2, 2024
•
6
2
SciPrompt:科学トピックの細かいカテゴリ分類のための知識拡張型プロンプティング
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
•
Oct 2, 2024
•
4
3
L-CiteEval:長い文脈モデルは本当に回答のために文脈を活用しているか?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
•
Oct 3, 2024
•
10
3
LLaVA-Critic:マルチモーダルモデルの評価を学習する
LLaVA-Critic: Learning to Evaluate Multimodal Models
Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
•
Oct 3, 2024
•
36
3
MVGS: 新しい視点合成のためのマルチビュー制御ガウススプラッティング
MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis
Xiaobiao Du, Yida Wang, Xin Yu
•
Oct 2, 2024
•
8
3
合成編集シーケンスで言語モデルをトレーニングすることは、コード合成を改善します。
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus
•
Oct 3, 2024
•
12
3
データからゲームの潜在的なルールを学習する:チェスの物語
Learning the Latent Rules of a Game from Data: A Chess Story
Ben Fauber
•
Oct 3, 2024
•
5
2
指示やトレーニングなしでエンドツーエンドの音声アシスタントを抽出するデータ
Distilling an End-to-End Voice Assistant Without Instruction Training Data
William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
•
Oct 3, 2024
•
23
5
Robin3D:ロバストなインストラクションチューニングを通じた3D大規模言語モデルの改善
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
•
Sep 30, 2024
•
5
2
大規模な画像キャプションデータを再検討し、マルチモーダル基盤モデルの事前学習を行う
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
•
Oct 3, 2024
•
55
2
Depth Pro: 1秒未満での鮮明な単眼メトリック深度
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
•
Oct 2, 2024
•
42
2
大規模言語モデルをマルコフ連鎖として
Large Language Models as Markov Chains
Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko
•
Oct 3, 2024
•
33
3
反射的木探索と自己学習による自律AIエージェントの向上
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
•
Oct 2, 2024
•
9
2
混沌の縁における知能
Intelligence at the Edge of Chaos
Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk
•
Oct 3, 2024
•
6
2
幻覚を緩和するためのビジョン言語表現の解釈と編集
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman
•
Oct 3, 2024
•
9
2
Vinoground: 短いビデオにおける密な時間推論を通じたLMMsの精査
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
Jianrui Zhang, Mu Cai, Yong Jae Lee
•
Oct 3, 2024
•
7
2
合成データを用いたビデオ指示の調整
Video Instruction Tuning With Synthetic Data
Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
•
Oct 3, 2024
•
39
3
SageAttention:プラグアンドプレイ推論のための正確な8ビットアテンションアクセラレーション
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration
Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen
•
Oct 3, 2024
•
50
5