ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

マルチエージェント討論をテスト時スケーリングとして再考する:条件付き有効性の体系的検討
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun•May 29, 2025•51

PixelThink: 効率的なピクセル連鎖推論に向けて
PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang•May 29, 2025•11

表-R1: 表推論における推論時のスケーリング
Table-R1: Inference-Time Scaling for Table Reasoning

Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao•May 29, 2025•882

Spatial-MLLM:視覚ベースの空間知能におけるMLLM能力の向上
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan•May 29, 2025•663

登攀は頂上よりも深い知恵を刻む:推論学習におけるノイズの多い報酬について
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan•May 28, 2025•642

VF-Eval: AIGC動画に対するフィードバック生成のためのマルチモーダルLLMの評価
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao•May 29, 2025•562

ZeroGUI: 人的コストゼロでのオンラインGUI学習の自動化
ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai•May 29, 2025•452

VideoReasonBench: MLLMは視覚中心の複雑なビデオ推論を実行できるか?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun•May 29, 2025•396

Fast-dLLM:KVキャッシュと並列デコードを可能にした拡散型LLMのトレーニング不要な高速化
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie•May 28, 2025•392

D-AR: 自己回帰モデルによる拡散
D-AR: Diffusion via Autoregressive Models

Ziteng Gao, Mike Zheng Shou•May 29, 2025•342

AnySplat:制約のない視点からのフィードフォワード3Dガウススプラッティング
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai•May 29, 2025•312

cadrille: オンライン強化学習を用いたマルチモーダルCAD再構築
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich•May 28, 2025•283

推論モデルは幻覚を起こしやすいのか?
Are Reasoning Models More Prone to Hallucination?

Zijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua•May 29, 2025•242

LoRAShop: 修正フロートランスフォーマーを用いたトレーニング不要なマルチコンセプト画像生成と編集
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag•May 29, 2025•233

Satori-SWE: サンプル効率の高いソフトウェアエンジニアリングのための進化的テストタイムスケーリング
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

Guangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan•May 29, 2025•232

UniRL:教師あり学習と強化学習による統一マルチモーダルモデルの自己改善
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

Weijia Mao, Zhenheng Yang, Mike Zheng Shou•May 29, 2025•232

ATLAS: テスト時にコンテキストを最適に記憶する学習
ATLAS: Learning to Optimally Memorize the Context at Test Time

Ali Behrouz, Zeman Li, Praneeth Kacham, Majid Daliri, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni•May 29, 2025•222

特徴量の相関を活用した効率的なスパースオートエンコーダの学習
Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

Vadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky•May 28, 2025•212

マルチドメイン選好説明可能性
Multi-Domain Explainability of Preferences

Nitay Calderon, Liat Ein-Dor, Roi Reichart•May 26, 2025•212

SWE-benchが公開されました!
SWE-bench Goes Live!

Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang•May 29, 2025•202

VidText: ビデオテキスト理解のための包括的評価に向けて
VidText: Towards Comprehensive Evaluation for Video Text Understanding

Zhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe•May 28, 2025•202

FAMA: 英語とイタリア語のための初の大規模オープンサイエンス音声基盤モデル
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri•May 28, 2025•202

StressTest: あなたの音声言語モデルはストレスに耐えられるか?
StressTest: Can YOUR Speech LM Handle the Stress?

Iddo Yosha, Gallil Maimon, Yossi Adi•May 28, 2025•172

LLMの安全性推論に向けて:政策埋め込み型CoTデータ作成のためのAIエージェント的熟考
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris•May 27, 2025•172

パッチの並べ替えが視覚モデルを改善する
REOrdering Patches Improves Vision Models

Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta•May 29, 2025•162

DeepTheorem: 自然言語と強化学習による定理証明のためのLLM推論の進化
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

Ziyin Zhang, Jiahao Xu, Zhiwei He, Tian Liang, Qiuzhi Liu, Yansi Li, Linfeng Song, Zhengwen Liang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu•May 29, 2025•152

Muddit: テキストから画像を超えた生成を解き放つ - 統一離散拡散モデルによるアプローチ
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan•May 29, 2025•143

最適報酬ベースラインを用いた方策オン型強化学習
On-Policy RL with Optimal Reward Baseline

Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei•May 29, 2025•142

SafeScientist: LLMエージェントによるリスク認識型科学的発見に向けて
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You•May 29, 2025•122

システム1.5推論:動的ショートカットを用いた言語空間と潜在空間のトラバーサル
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu•May 25, 2025•122

GeoDrive: 正確な動作制御を備えた3D幾何学情報に基づく運転世界モデル
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang•May 28, 2025•113

PatientSim: 医師と患者のリアルな相互作用のためのペルソナ駆動型シミュレータ
PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

Daeun Kyung, Hyunseung Chung, Seongsu Bae, Jiho Kim, Jae Ho Sohn, Taerim Kim, Soo Kyung Kim, Edward Choi•May 23, 2025•112

高速拡散サンプリングのための微分可能ソルバー探索
Differentiable Solver Search for Fast Diffusion Sampling

Shuai Wang, Zexian Li, Qipeng zhang, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang•May 27, 2025•102

ビデオLLMベンチマークの分解:知識、空間知覚、真の時間的理解?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao•May 20, 2025•102

MAGREF:任意参照動画生成のためのマスク付きガイダンス
MAGREF: Masked Guidance for Any-Reference Video Generation

Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma•May 29, 2025•92

KVzip: コンテキスト再構築によるクエリ非依存なKVキャッシュ圧縮
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song•May 29, 2025•92

ToMAP: 心の理論を用いた対戦者認識型LLM説得者のトレーニング
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind

Peixuan Han, Zijia Liu, Jiaxuan You•May 29, 2025•82

Uni-Instruct: 統合拡散ダイバージェンス命令によるワンステップ拡散モデル
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun•May 27, 2025•82

ZeroSep: ゼロトレーニングでオーディオ内の任意の要素を分離
ZeroSep: Separate Anything in Audio with Zero Training

Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu•May 29, 2025•72

Afterburner: 強化学習による自己改善型コード効率最適化の実現
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng•May 29, 2025•72

ATI: 制御可能な動画生成のための任意軌道指示
ATI: Any Trajectory Instruction for Controllable Video Generation

Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma•May 28, 2025•72

Re-ttention: 注意統計の再形成による超疎な視覚生成
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu•May 28, 2025•72

ワンショットエントロピー最小化
One-shot Entropy Minimization

Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai•May 26, 2025•72

モデルがあなたの言語で推論するとき:思考トレース言語の制御は精度の低下を伴う
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza•May 28, 2025•62

CXReasonBench: 胸部X線における構造化された診断推論を評価するためのベンチマーク
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi•May 23, 2025•62

パズルに困惑する:視覚言語モデルがヒントを理解できないとき
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan•May 29, 2025•52

信じるべきか、それとも信じないべきか:あなたの視覚言語モデルの予測を
To Trust Or Not To Trust Your Vision-Language Model's Prediction

Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink•May 29, 2025•52

UniTEX: 3D形状のためのユニバーサル高忠実度生成テクスチャリング
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes

Yixun Liang, Kunming Luo, Xiao Chen, Rui Chen, Hongyu Yan, Weiyu Li, Jiarui Liu, Ping Tan•May 29, 2025•52

CLIPGaussian: ガウススプラッティングに基づく普遍的なマルチモーダルスタイル転送
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek•May 28, 2025•52

簡潔な推論、大きな成果:難易度を考慮したプロンプトによる長い推論トレースの刈り込み
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo•May 26, 2025•52

動物たちのダンス(あなたが見ていないとき)
How Animals Dance (When You're Not Looking)

Xiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz•May 29, 2025•42

ZPressor: スケーラブルなフィードフォワード3DGSのためのボトルネック対応圧縮
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang•May 29, 2025•45

LLMはCLIPを欺けるか?テキスト更新による事前学習マルチモーダル表現の敵対的合成性のベンチマーキング
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim•May 28, 2025•44

SridBench: 画像生成モデルの科学的研究イラスト描画ベンチマーク
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang•May 28, 2025•42

言語: 構造化および逐次的な胸部X線解釈のためのベンチマーク
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi•May 27, 2025•42

ChartLens: チャートにおける細粒度の視覚的帰属
ChartLens: Fine-grained Visual Attribution in Charts

Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha•May 25, 2025•42

大規模言語モデルにおける知識の構造的パターンを探るグラフ視点
A Graph Perspective to Probe Structural Patterns of Knowledge in Large Language Models

Utkarsh Sahu, Zhisheng Qi, Yongjia Lei, Ryan A. Rossi, Franck Dernoncourt, Nesreen K. Ahmed, Mahantesh M Halappanavar, Yao Ma, Yu Wang•May 25, 2025•42

MMSI-Bench: マルチイメージ空間知能のためのベンチマーク
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang•May 29, 2025•32

差分情報:選好最適化における情報理論的視点
Differential Information: An Information-Theoretic Perspective on Preference Optimization

Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo•May 29, 2025•32

視覚的推論のためのグラウンディング強化学習
Grounded Reinforcement Learning for Visual Reasoning

Gabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki•May 29, 2025•32

GSO: SWE-Agentsの評価のための挑戦的なソフトウェア最適化タスク
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica•May 29, 2025•32

多様なドメインにおけるテキストの創造性評価:データセットと大規模言語モデル評価器
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song•May 25, 2025•32

TokBench: 視覚生成前の視覚トークナイザー評価
TokBench: Evaluating Your Visual Tokenizer before Visual Generation

Junfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai•May 23, 2025•32

教師なし単語レベル翻訳品質推定 - アノテータの(非)一致の観点から -
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza•May 29, 2025•22

モデル保存型適応丸め
Model-Preserving Adaptive Rounding

Albert Tseng, Zhaofeng Sun, Christopher De Sa•May 29, 2025•22

動的低信頼度マスキングによる適応型クラスフリーガイダンス
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao•May 26, 2025•22

大規模言語モデルと知識グラフの統合による質問応答: 統合の可能性と展望
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities

Chuangtao Ma, Yongrui Chen, Tianxing Wu, Arijit Khan, Haofen Wang•May 26, 2025•22

信頼性のある生物医学的仮説生成に向けて:大規模言語モデルにおける真実性と幻覚生成の評価
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang•May 20, 2025•12