ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
June 2nd, 2025
ProRL: 長期強化学習が大規模言語モデルの推論能力の境界を拡張
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
•
May 30, 2025
•
112
3
AlphaOne: テスト時に遅い思考と速い思考を推論するモデル
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
•
May 30, 2025
•
86
2
時間認識の欠如:なぜビデオ言語モデルは人間が見えるものが見えないのか?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
•
May 30, 2025
•
72
3
データ合成のための大規模言語モデル
Large Language Models for Data Synthesis
Yihong Tang, Menglin Kong, Lijun Sun
•
May 20, 2025
•
47
2
HardTests: LLMコーディング向け高品質テストケースの合成
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
•
May 30, 2025
•
41
2
一度だけ見るな:選択的視覚再訪によるマルチモーダル対話型推論に向けて
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
•
May 24, 2025
•
35
2
ViStoryBench:ストーリー可視化のための包括的ベンチマークスイート
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
•
May 30, 2025
•
30
2
DINO-R1:視覚基盤モデルにおける推論能力の促進
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
•
May 29, 2025
•
23
3
EXP-Bench: AIはAI研究実験を遂行できるか?
EXP-Bench: Can AI Conduct AI Research Experiments?
Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
•
May 30, 2025
•
22
3
Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための包括的なWebベースプラットフォーム
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
•
May 30, 2025
•
21
2
CoDA: 関節物体の全身操作のための協調的拡散ノイズ最適化
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
•
May 27, 2025
•
20
2
MoDoMoDo: マルチモーダルLLM強化学習のためのマルチドメインデータ混合
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
•
May 30, 2025
•
18
3
ビジョン言語モデルはバイアスを持つ
Vision Language Models are Biased
An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
•
May 29, 2025
•
17
2
EmergentTTS-Eval: モデル・アズ・ア・ジャッジを用いた複雑な韻律、表現力、言語的課題に対するTTSモデルの評価
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
•
May 29, 2025
•
17
2
MetaFaith: 大規模言語モデルにおける自然言語の不確実性表現の忠実性
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
•
May 30, 2025
•
16
2
UniGeo: ビデオ拡散モデルを制御し統一的な一貫性のあるジオメトリ推定を実現
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi
•
May 30, 2025
•
15
2
より多くの思考、より少ない視覚?マルチモーダル推論モデルにおける増幅された幻覚の評価
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
•
May 23, 2025
•
14
2
CLaSp: 自己推論デコーディングのためのインコンテキスト層スキップ
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
•
May 30, 2025
•
13
6
EasyText: 多言語テキストレンダリングのための制御可能な拡散トランスフォーマー
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
•
May 30, 2025
•
12
2
大規模言語モデルは局所的に線形な写像である
Large Language Models are Locally Linear Mappings
James R. Golden
•
May 30, 2025
•
11
4
ReasonGen-R1:SFTとRLによる自己回帰型画像生成モデルのための連鎖的思考(CoT)
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
•
May 30, 2025
•
10
2
フォークマージデコーディング:音声視覚大規模言語モデルにおけるマルチモーダル理解の向上
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
•
May 27, 2025
•
10
2
負の信号の活用:LLM推論のための教師データからの強化学習蒸留
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
•
May 30, 2025
•
9
3
DexUMI: 人間の手をユニバーサル操作インターフェースとして活用した器用な操作の実現
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation
Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song
•
May 28, 2025
•
9
2
ChARM: 高度なロールプレイング言語エージェントのためのキャラクターベース・アクション適応型報酬モデリング
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
•
May 29, 2025
•
7
2
大規模言語モデルのためのロールプレイング評価
Role-Playing Evaluation for Large Language Models
Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
•
May 19, 2025
•
7
2
マルチモーダル大規模言語モデルにおけるモダリティ選好の評価と制御
Evaluating and Steering Modality Preferences in Multimodal Large Language Model
Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang
•
May 27, 2025
•
6
2
SiLVR: シンプルな言語ベースのビデオ推論フレームワーク
SiLVR: A Simple Language-based Video Reasoning Framework
Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
•
May 30, 2025
•
5
2
大規模言語モデルを活用した科学的な新規性検出
Harnessing Large Language Models for Scientific Novelty Detection
Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
•
May 30, 2025
•
5
2
un^2CLIP: unCLIPの反転によるCLIPの視覚的詳細捕捉能力の向上
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
•
May 30, 2025
•
5
2
SLMをファインチューニングするか、LLMにプロンプトを与えるか?ローコードワークフロー生成の事例
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows
Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen
•
May 30, 2025
•
5
2
Point-MoE:エキスパートの混合による3Dセマンティックセグメンテーションのクロスドメイン汎化に向けて
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
•
May 29, 2025
•
5
2
スケーラブルな知識集約のための柔軟なマルチLLM統合の実現
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation
Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang
•
May 28, 2025
•
5
2
リカレントニューラルネットワークにおける双線形状態遷移の再考
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks
M. Reza Ebrahimi, Roland Memisevic
•
May 27, 2025
•
4
2
TRIDENT: 三次元多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
•
May 30, 2025
•
3
2
GATE: 一般アラビア語テキスト埋め込み - マトリョーシカ表現学習とハイブリッド損失トレーニングによる強化された意味的テキスト類似性
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
•
May 30, 2025
•
3
2
形式的な不確実性の文法:自動推論タスクにおけるLLMの信頼性判断基準
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
Debargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary
•
May 26, 2025
•
3
2
自動化されたがリスクのあるゲーム:消費者市場におけるエージェント間交渉と取引のモデリング
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets
Shenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei
•
May 29, 2025
•
2
3
OMNIGUARD: マルチモーダルなAI安全性管理のための効率的なアプローチ
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
•
May 29, 2025
•
2
2
LegalSearchLM: 法的要素生成としての判例検索の再考
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation
Chaeeun Kim, Jinu Lee, Wonseok Hwang
•
May 28, 2025
•
2
1
文脈は黄金のパッセージを見つけるための黄金:文脈的ドキュメント埋め込みの評価とトレーニング
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings
Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo
•
May 30, 2025
•
1
2
多言語LLM安全性研究の現状:言語格差の測定からその緩和へ
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It
Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer
•
May 30, 2025
•
1
2