ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
June 4th, 2025
リフレクト、リトライ、リワード:強化学習による自己改善型大規模言語モデル
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh
•
May 30, 2025
•
168
4
UniWorld: 高解像度セマンティックエンコーダによる統合的な視覚理解と生成
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
•
Jun 3, 2025
•
55
2
VS-Bench: マルチエージェント環境における戦略的推論と意思決定のための視覚言語モデルの評価
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
•
Jun 3, 2025
•
55
3
SynthRL: 検証可能なデータ合成による視覚的推論のスケーリング
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
•
Jun 2, 2025
•
49
2
CSVQA: STEM推論能力を評価するための中国語マルチモーダルベンチマーク
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
•
May 30, 2025
•
47
4
GUI-Actor: GUIエージェントのための座標フリー視覚的グラウンディング
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
•
Jun 3, 2025
•
37
3
FinMME:金融マルチモーダル推論評価のためのベンチマークデータセット
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
•
May 30, 2025
•
34
3
OmniSpatial: 視覚言語モデルのための包括的空間推論ベンチマークに向けて
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
•
Jun 3, 2025
•
33
2
OThink-R1: 過剰推論を軽減するための本質的速考/熟考モード切替機構
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
•
Jun 3, 2025
•
33
2
視覚的具現化された脳:マルチモーダル大規模言語モデルに空間における視覚、思考、制御を可能にする
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
•
May 30, 2025
•
32
5
Sparse-vDiT: スパースアテンションの力を解き放ち、ビデオ拡散トランスフォーマーを高速化する
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
•
Jun 3, 2025
•
27
2
DINGO: 拡散型大規模言語モデルのための制約付き推論
DINGO: Constrained Inference for Diffusion LLMs
Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
•
May 29, 2025
•
26
2
Robot-R1: ロボティクスにおける強化された身体化推論のための強化学習
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
•
May 29, 2025
•
25
2
MotionSight: マルチモーダルLLMにおける細粒度の動作理解を強化する
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
•
Jun 2, 2025
•
24
2
強化学習によるLLMコーダーとユニットテスターの共進化
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
•
Jun 3, 2025
•
22
2
AnimeShooter: 参照ガイド型動画生成のためのマルチショットアニメーションデータセット
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
•
Jun 3, 2025
•
22
2
ゼロショット被写体駆動生成のためのネガティブガイド付き被写体忠実性最適化
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
•
Jun 4, 2025
•
21
2
LumosFlow: モーションガイドによる長時間動画生成
LumosFlow: Motion-Guided Long Video Generation
Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
•
Jun 3, 2025
•
18
2
ネイティブ解像度の画像合成
Native-Resolution Image Synthesis
Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
•
Jun 3, 2025
•
17
3
RelationAdapter: 拡散トランスフォーマーを用いた視覚的関係の学習と転移
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
•
Jun 3, 2025
•
15
2
DCM: 効率的かつ高品質なビデオ生成のためのデュアルエキスパート一貫性モデル
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
•
Jun 3, 2025
•
14
2
FlowMo: ビデオ生成における一貫性のある動きのための分散ベースのフローガイダンス
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
•
Jun 1, 2025
•
14
2
データシートだけでは不十分:自動化された品質指標と説明責任のためのデータルーブリック
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
•
Jun 2, 2025
•
12
2
PCoreSet:ビジョン言語モデルからの知識蒸留による効果的なアクティブラーニング
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
•
Jun 1, 2025
•
10
3
Ctrl-Crash: リアルな自動車衝突のための制御可能な拡散モデル
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
•
May 30, 2025
•
10
3
プログラム解析フィードバックを用いた高品質なコード生成のための言語モデルの訓練
Training Language Models to Generate Quality Code with Program Analysis Feedback
Feng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang
•
May 28, 2025
•
9
4
自己挑戦型言語モデルエージェント
Self-Challenging Language Model Agents
Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar
•
Jun 2, 2025
•
8
2
一貫性のある動画編集のためのモーション認識概念アラインメント
Motion-Aware Concept Alignment for Consistent Video Editing
Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
•
Jun 1, 2025
•
7
2
ORV: 4次元占有空間中心のロボットビデオ生成
ORV: 4D Occupancy-centric Robot Video Generation
Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
•
Jun 3, 2025
•
6
2
拡散型大規模言語モデルの高速化:適応的並列デコードによるアプローチ
Accelerating Diffusion LLMs via Adaptive Parallel Decoding
Daniel Israel, Guy Van den Broeck, Aditya Grover
•
May 31, 2025
•
6
2
MERIT: 多条件クエリをインターリーブした多言語意味検索
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
•
Jun 3, 2025
•
3
2
FuseLIP: 離散トークンの早期融合によるマルチモーダル埋め込み
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
•
Jun 3, 2025
•
3
2
マルチモーダルDeepResearcher: エージェントフレームワークによるテキストとチャートを織り交ぜたレポートのゼロからの生成
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen
•
Jun 3, 2025
•
3
2
オープンソース推論モデルに欠けていた一つのピース:RLにおける短いCoT LLMのコールドスタートを緩和するためのデータセット
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
•
Jun 3, 2025
•
3
2
角度は嘘をつかない:モデル自身の信号を通じた効率的な強化学習の実現
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals
Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen
•
Jun 2, 2025
•
3
2
Hanfu-Bench:時空を超えた文化的理解と翻案のためのマルチモーダルベンチマーク
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
•
Jun 2, 2025
•
3
2
ReFoCUS: 文脈理解のための強化学習ガイドによるフレーム最適化
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding
Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
•
Jun 2, 2025
•
3
2
SHARE: テキストからSQLへの階層的アクション修正アシスタント - SLMベースのアプローチ
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL
Ge Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng
•
May 31, 2025
•
3
2
どれだけのバックトラッキングが必要か?LLMの推論能力向上におけるSFTとRLの相互作用の探求
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
•
May 30, 2025
•
3
2
ディープ・ビデオ・ディスカバリー:長尺動画理解のためのツール活用型エージェント検索
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
•
May 23, 2025
•
3
2
生成モデルの事前知識を用いた人間中心の制御可能なキーフレーム補間
Controllable Human-centric Keyframe Interpolation with Generative Prior
Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
•
Jun 3, 2025
•
2
2
TL;DR: 長すぎるので、効率的なLLM推論のための圧縮を再重み付けする
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
•
Jun 3, 2025
•
2
2
M^3FinMeeting:多言語・多分野・多タスクの財務会議理解評価データセット
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
•
Jun 3, 2025
•
2
2
QARI-OCR:マルチモーダル大規模言語モデル適応による高忠実度アラビア文字認識
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
•
Jun 2, 2025
•
2
2
Control-R: 制御可能なテスト時スケーリングに向けて
Control-R: Towards controllable test-time scaling
Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
•
May 30, 2025
•
2
2
R^2ec: 推論能力を備えた大規模レコメンダーモデルに向けて
R^2ec: Towards Large Recommender Models with Reasoning
Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
•
May 22, 2025
•
2
2
ByteMorph: 非剛体運動を伴う指示誘導型画像編集のベンチマーキング
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
•
Jun 3, 2025
•
1
2
LRP再考:Transformerの説明可能性における位置情報の属性付けが欠けていた要素
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability
Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf
•
Jun 2, 2025
•
1
3
文脈内学習を超えて:タスク固有の属性ガイドラインによる大規模言語モデルの長文生成の整合化
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines
Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
•
Jun 2, 2025
•
1
2
言う前に知る:LLMの表現は、完了前に連鎖的思考の成功に関する情報を符号化する
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion
Anum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser
•
May 30, 2025
•
1
2