ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
May 23rd, 2025
NovelSeek: エージェントが科学者になるとき ― 仮説から検証までの閉ループシステムの構築
NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification
NovelSeek Team, Bo Zhang, Shiyang Feng, Xiangchao Yan, Jiakang Yuan, Zhiyin Yu, Xiaohan He, Songtao Huang, Shaowei Hou, Zheng Nie, Zhilong Wang, Jinyao Liu, Runmin Ma, Tianshuo Peng, Peng Ye, Dongzhan Zhou, Shufei Zhang, Xiaosong Wang, Yilan Zhang, Meng Li, Zhongying Tu, Xiangyu Yue, Wangli Ouyang, Bowen Zhou, Lei Bai
•
May 22, 2025
•
85
0
スケーリングする推論、失われる制御:大規模推論モデルにおける指示追従の評価
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng
•
May 20, 2025
•
49
1
Tool-Star: 強化学習によるLLMを中核としたマルチツール推論エージェントの強化
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning
Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen
•
May 22, 2025
•
43
1
Pixel Reasoner: 好奇心駆動型強化学習によるピクセル空間推論の促進
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
•
May 21, 2025
•
37
1
KRIS-Bench: 次世代インテリジェント画像編集モデルのベンチマーキング
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
•
May 22, 2025
•
36
1
QuickVideo: システムアルゴリズム協調設計によるリアルタイム長尺動画理解
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
•
May 22, 2025
•
30
1
GoT-R1:強化学習による視覚生成のためのMLLMの推論能力の解放
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu
•
May 22, 2025
•
23
1
LLaDA-V: ビジュアル命令チューニングを備えた大規模言語拡散モデル
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li
•
May 22, 2025
•
22
2
拡散トランスフォーマーの効率的なスケーリングをμPによって実現
Scaling Diffusion Transformers Efficiently via μP
Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li
•
May 21, 2025
•
21
1
リスク回避型強化学習における板倉斎藤損失関数
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
•
May 22, 2025
•
20
1
日常的な画像編集タスクにおける生成AIの能力の理解
Understanding Generative AI Capabilities in Everyday Image Editing Tasks
Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen
•
May 22, 2025
•
20
1
AceReason-Nemotron:強化学習による数学とコード推論の進展
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning
Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
•
May 22, 2025
•
18
1
ギャップに注意:思考の飛躍を橋渡しして連鎖的思考チューニングを改善する
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
•
May 20, 2025
•
18
1
大規模言語モデルが過剰思考から解放されるためのセルフブレーキチューニング
Let LLMs Break Free from Overthinking via Self-Braking Tuning
Haoran Zhao, Yuchen Yan, Yongliang Shen, Haolei Xu, Wenqi Zhang, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang
•
May 20, 2025
•
18
1
VideoGameQA-Bench: ビデオゲーム品質保証のための視覚言語モデルの評価
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
•
May 21, 2025
•
17
1
Dimple: 並列デコードを備えた離散拡散マルチモーダル大規模言語モデル
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding
Runpeng Yu, Xinyin Ma, Xinchao Wang
•
May 22, 2025
•
14
1
MLLMファインチューニングにおける外部ガイダンスなしのバックドアクリーニング
Backdoor Cleaning without External Guidance in MLLM Fine-tuning
Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
•
May 22, 2025
•
14
1
SophiaVL-R1:思考報酬によるMLLMの推論能力強化
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
•
May 22, 2025
•
12
1
パフォーマンスを損なうデータの修正:堅牢な情報検索のための困難なネガティブサンプルの再ラベル付けに向けたLLMのカスケード
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
•
May 22, 2025
•
12
2
動的トークンカービングによるトレーニング不要な効率的な動画生成
Training-Free Efficient Video Generation via Dynamic Token Carving
Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
•
May 22, 2025
•
12
1
SpatialScore: マルチモーダル空間理解のための統一評価指標に向けて
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
•
May 22, 2025
•
10
1
LaViDa: マルチモーダル理解のための大規模拡散言語モデル
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
•
May 22, 2025
•
10
1
TinyV: 検証における偽陰性の低減がLLMの推論における強化学習を改善する
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning
Zhangchen Xu, Yuetai Li, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
•
May 20, 2025
•
10
1
考えるか、考えないか?視覚言語モデルのための強化学習による選択的推論
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
•
May 22, 2025
•
7
1
WebAgent-R1: エンドツーエンド多ターン強化学習によるウェブエージェントのトレーニング
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
•
May 22, 2025
•
7
1
MLLMにおけるトレーニング不要の推論とリフレクション
Training-Free Reasoning and Reflection in MLLMs
Hongchen Wei, Zhenzhong Chen
•
May 22, 2025
•
7
2
GRIT: MLLMに画像を用いて思考する方法を教える
GRIT: Teaching MLLMs to Think with Images
Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang
•
May 21, 2025
•
7
1
AGENTIF: エージェントシナリオにおける大規模言語モデルの指示追従性能のベンチマーキング
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
•
May 22, 2025
•
6
1
VLM-R^3:マルチモーダル連鎖思考の強化のための領域認識、推論、および精緻化
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
•
May 22, 2025
•
6
1
OViP: オンライン視覚言語選好学習
OViP: Online Vision-Language Preference Learning
Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
•
May 21, 2025
•
6
1
形式的検証ツールを用いたステップレベル推論検証器のトレーニング
Training Step-Level Reasoning Verifiers with Formal Verification Tools
Ryo Kamoi, Yusen Zhang, Nan Zhang, Sarkar Snigdha Sarathi Das, Rui Zhang
•
May 21, 2025
•
6
1
SafeKey: 安全性推論のための「アハ体験」的洞察の増幅
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning
Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang
•
May 22, 2025
•
5
1
強化学習による大規模言語モデル内の小型サブネットワークの微調整
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng
•
May 16, 2025
•
5
1
Think-RM: 生成型報酬モデルにおける長期的推論の実現
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
•
May 22, 2025
•
4
1
アンドロイドは電気羊の夢を見るか:人間らしい画像の含意理解と推論フレームワーク
Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework
Chenhao Zhang, Yazhe Niu
•
May 22, 2025
•
3
2
Multi-SpatialMLLM: マルチモーダル大規模言語モデルを用いたマルチフレーム空間理解
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
•
May 22, 2025
•
3
1
Robo2VLM:大規模実世界ロボット操作データセットからの視覚的質問応答
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
•
May 21, 2025
•
3
1
大規模言語モデルを用いた機械翻訳のパーソナライゼーションの制御
Steering Large Language Models for Machine Translation Personalization
Daniel Scalena, Gabriele Sarti, Arianna Bisazza, Elisabetta Fersini, Malvina Nissim
•
May 22, 2025
•
2
1
LLMはいつ間違いを認めるのか? モデルの信念が撤回に果たす役割の理解
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
Yuqing Yang, Robin Jia
•
May 22, 2025
•
2
1
日付フラグメント:時間的推論におけるトークン化の隠れたボトルネック
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
Gagan Bhatia, Maxime Peyrard, Wei Zhao
•
May 22, 2025
•
2
1
大規模視覚言語モデルは画像内のテキストをどのように認識するのか?OCRヘッドの特異的な役割を解明する
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads
Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee
•
May 21, 2025
•
2
1
RAVENEA: マルチモーダル検索拡張型視覚文化理解のためのベンチマーク
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
•
May 20, 2025
•
2
1
MUG-Eval: 任意言語における多言語生成能力のプロキシ評価フレームワーク
MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language
Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
•
May 20, 2025
•
2
1
RoPECraft: 拡散トランスフォーマーにおける軌道誘導型RoPE最適化を用いたトレーニング不要のモーショントランスファー
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
Ahmet Berke Gokmen, Yigit Ekin, Bahri Batuhan Bilecen, Aysegul Dundar
•
May 19, 2025
•
2
1
SPhyR: 材料分布における空間的・物理的推論ベンチマーク
SPhyR: Spatial-Physical Reasoning Benchmark on Material Distribution
Philipp D. Siedler
•
May 21, 2025
•
1
1
gen2seg: 生成モデルによる汎用的なインスタンスセグメンテーションの実現
gen2seg: Generative Models Enable Generalizable Instance Segmentation
Om Khangaonkar, Hamed Pirsiavash
•
May 21, 2025
•
1
1
SAKURA: 音声およびオーディオ情報に基づく大規模音声言語モデルのマルチホップ推論
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
•
May 19, 2025
•
0
1