ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
March 28th, 2025
Video-R1: MLLMにおけるビデオ推論の強化
Video-R1: Reinforcing Video Reasoning in MLLMs
Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
•
Mar 27, 2025
•
78
6
大規模言語モデルエージェント:方法論、応用、課題に関する調査
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
Junyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang
•
Mar 27, 2025
•
77
2
UI-R1: 強化学習によるGUIエージェントのアクション予測の強化
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
•
Mar 27, 2025
•
61
9
推論の限界に挑む:大規模言語モデルのためのオリンピアードレベル数学ベンチマーク
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
•
Mar 27, 2025
•
37
4
VBench-2.0:本質的な忠実性のためのビデオ生成ベンチマークスイートの進化
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu
•
Mar 27, 2025
•
33
2
ReaRAG: 知識誘導型推論が反復的検索拡張生成による大規模推論モデルの事実性を向上
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation
Zhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li
•
Mar 27, 2025
•
28
4
LeX-Art: スケーラブルで高品質なデータ合成によるテキスト生成の再考
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
•
Mar 27, 2025
•
26
2
ChatAnyone: 階層型モーションディフュージョンモデルによるスタイライズされたリアルタイムポートレート動画生成
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
•
Mar 27, 2025
•
25
3
エンボディド・リーズナー:視覚探索、推論、行動のシナジーによる エンボディドインタラクティブタスクの実現
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang
•
Mar 27, 2025
•
22
3
Lumina-Image 2.0:統合された効率的な画像生成フレームワーク
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
•
Mar 27, 2025
•
21
2
ResearchBench: インスピレーションに基づくタスク分解による科学的発見における大規模言語モデルのベンチマーキング
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
•
Mar 27, 2025
•
20
2
FinAudio: 金融アプリケーションにおける音声大規模言語モデルのベンチマーク
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
•
Mar 26, 2025
•
19
2
合成映像は映像合成における物理的忠実性を向上させる
Synthetic Video Enhances Physical Fidelity in Video Synthesis
Qi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang
•
Mar 26, 2025
•
16
3
拡散サンプリングにおける最適ステップサイズ
Optimal Stepsize for Diffusion Sampling
Jianning Pei, Han Hu, Shuyang Gu
•
Mar 27, 2025
•
13
2
映像生成における物理的認知の進化を探る:サーベイ
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
•
Mar 27, 2025
•
11
2
統一マルチモーダル離散拡散
Unified Multimodal Discrete Diffusion
Alexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki
•
Mar 26, 2025
•
9
2
Feature4X:多様なガウシアン特徴フィールドによる任意の単眼動画から4DエージェントAIへの架け橋
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
•
Mar 26, 2025
•
8
2
セマンティックライブラリ適応:オープン語彙セマンティックセグメンテーションのためのLoRA検索と融合
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
•
Mar 27, 2025
•
7
2
ZJUKLAB at SemEval-2025 Task 4: モデルマージによるアンラーニング
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
•
Mar 27, 2025
•
7
2
LLPut: バグレポートに基づく入力生成のための大規模言語モデルの調査
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
•
Mar 26, 2025
•
5
2
Tracktention: ポイントトラッキングを活用した高速かつ高精度なビデオ注意機構
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
Zihang Lai, Andrea Vedaldi
•
Mar 25, 2025
•
2
2
LOCATEdit: 局所的なテキストガイド画像編集のためのグラフラプラシアン最適化クロスアテンション
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
Achint Soni, Meet Soni, Sirisha Rambhatla
•
Mar 27, 2025
•
1
2