ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
June 5th, 2025
MiMo-VL技術レポート
MiMo-VL Technical Report
Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
•
Jun 4, 2025
•
65
2
AmbiK: キッチン環境における曖昧なタスクのデータセット
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
•
Jun 4, 2025
•
43
2
マルチモーダル推論の進化:最適化されたコールドスタートから段階的強化学習へ
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning
Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
•
Jun 4, 2025
•
41
4
長文脈言語モデルの制御可能な検証
A Controllable Examination for Long-Context Language Models
Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
•
Jun 3, 2025
•
30
2
MMR-V: 語られざるものは何か?映像におけるマルチモーダル深層推論のベンチマーク
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
•
Jun 4, 2025
•
28
2
SuperWriter: 大規模言語モデルを用いたリフレクション駆動型長文生成
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
•
Jun 4, 2025
•
26
2
OpenThoughts: 推論モデルのためのデータレシピ
OpenThoughts: Data Recipes for Reasoning Models
Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
•
Jun 4, 2025
•
25
2
信頼性のあるLLM評価の確立:ショートカットニューロン分析によるアプローチ
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis
Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao
•
Jun 4, 2025
•
24
2
Voyager: 探査可能な3Dシーン生成のための長距離・世界整合性ビデオ拡散モデル
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
•
Jun 4, 2025
•
21
2
VisCoder: 実行可能なPython可視化コード生成のためのLLMファインチューニング
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
Yuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen
•
Jun 4, 2025
•
20
2
IllumiCraft: 制御可能なビデオ生成のための統合ジオメトリと照明拡散
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang
•
Jun 3, 2025
•
20
3
拡散モデルを用いたプログラムとしての画像編集
Image Editing As Programs with Diffusion Models
Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
•
Jun 4, 2025
•
19
2
批判的微調整による事前学習済みLLMの推論能力の解放:単一問題への適用
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
•
Jun 3, 2025
•
16
2
Ψ-Sampler: スコアモデルにおけるSMCベースの推論時報酬アラインメントのための初期粒子サンプリング
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models
Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
•
Jun 2, 2025
•
16
2
LayerFlow: レイヤー認識型ビデオ生成のための統合モデル
LayerFlow: A Unified Model for Layer-aware Video Generation
Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
•
Jun 4, 2025
•
13
2
DenseDPO: ビデオ拡散モデルのための細粒度時間的選好最適化
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
•
Jun 4, 2025
•
13
2
SVGenius: LLMのSVG理解、編集、生成におけるベンチマーキング
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
•
Jun 3, 2025
•
13
2
TimeHC-RL: 時間認識型階層的認知強化学習 - 大規模言語モデルの社会的知性を高めるためのアプローチ -
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
•
May 30, 2025
•
11
2
修正スパースアテンション
Rectified Sparse Attention
Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei
•
Jun 4, 2025
•
9
2
Orak: 多様なビデオゲームにおけるLLMエージェントのトレーニングと評価のための基盤的ベンチマーク
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
•
Jun 4, 2025
•
9
2
表面を超えて:LLM判断における自己選好性の測定
Beyond the Surface: Measuring Self-Preference in LLM Judgments
Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
•
Jun 3, 2025
•
8
2
BenchHub: 包括的かつカスタマイズ可能なLLM評価のための統合ベンチマークスイート
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation
Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
•
May 31, 2025
•
8
2
TalkingMachines: オートリグレッシブ拡散モデルによるリアルタイム音声駆動型FaceTimeスタイル動画生成
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
Chetwin Low, Weimin Wang
•
Jun 3, 2025
•
7
2
DiffDecompose: 拡散トランスフォーマーによるアルファ合成画像の層別分解
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
•
May 24, 2025
•
7
2
POSS: ポジションスペシャリストが推測デコーディングのためのより良いドラフトを生成
POSS: Position Specialist Generates Better Draft for Speculative Decoding
Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
•
Jun 4, 2025
•
6
2
両領域におけるロバスト性:CLIPにはロバストなテキストエンコーダが必要である
Robustness in Both Domains: CLIP Needs a Robust Text Encoder
Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
•
Jun 3, 2025
•
6
2
Critique-GRPO: 自然言語と数値的フィードバックによるLLM推論の進化
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
•
Jun 3, 2025
•
6
2
CapSpeech: スタイルキャプション付きテキスト読み上げにおける下流アプリケーションの実現
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
•
Jun 3, 2025
•
6
3
継続学習の前の適応
Adapt before Continual Learning
Aojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun
•
Jun 4, 2025
•
5
2
Video-Skill-CoT: ドメイン適応型ビデオ推論のためのスキルベース連鎖思考
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
•
Jun 4, 2025
•
5
2
RefEdit: 参照表現に基づく指示型画像編集モデルの改善のためのベンチマークと手法
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
•
Jun 3, 2025
•
4
2
定量的LLM評価
Quantitative LLM Judges
Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
•
Jun 3, 2025
•
4
2
未知の共変量シフト下における知識蒸留の改善:信頼度誘導型データ拡張によるアプローチ
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation
Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
•
Jun 2, 2025
•
4
2
フローに従え:ニューロシンボリックエージェントによる詳細なフローチャート帰属
Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents
Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Vivek Gupta, Dinesh Manocha
•
Jun 2, 2025
•
4
2
DLP: 大規模言語モデルにおける動的層別プルーニング
DLP: Dynamic Layerwise Pruning in Large Language Models
Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
•
May 27, 2025
•
4
2
長時間ビデオと言語理解のための時間スケールビデオトレーニングの解放
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
•
Jun 5, 2025
•
3
1
エージェンシックAIのためのTRiSM:LLMベースのエージェンシック・マルチエージェントシステムにおける 信頼、リスク、セキュリティ管理のレビュー
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems
Shaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis
•
Jun 4, 2025
•
3
2
HTSC-2025: AI駆動臨界温度予測のための常圧高温超伝導体ベンチマークデータセット
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction
Xiao-Qi Han, Ze-Feng Gao, Xin-De Wang, Zhenfeng Ouyang, Peng-Jie Guo, Zhong-Yi Lu
•
Jun 4, 2025
•
3
2
セグメントポリシー最適化:大規模言語モデルにおける強化学習のための効果的なセグメントレベル信用割り当て
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
•
May 29, 2025
•
3
2
Rex-Thinker: チェーン・オブ・思考推論によるグラウンデッドな物体参照
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
•
Jun 4, 2025
•
2
2
アーキテクチャの観点から見た継続学習における安定性と可塑性のトレードオフの再考
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
•
Jun 4, 2025
•
2
2
CRAWLDoc: 書誌文書のロバストなランキングのためのデータセット
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
Fabian Karl, Ansgar Scherp
•
Jun 4, 2025
•
2
2
VLMは分散したトレーニングパッチを集約することが可能である
VLMs Can Aggregate Scattered Training Patches
Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
•
Jun 4, 2025
•
2
2
非対称デュアル3Dガウススプラッティングによる実世界でのロバストなニューラルレンダリング
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
•
Jun 4, 2025
•
2
2
FLAIRを用いた逆問題の解法
Solving Inverse Problems with FLAIR
Julius Erbach, Dominik Narnhofer, Andreas Dombos, Bernt Schiele, Jan Eric Lenssen, Konrad Schindler
•
Jun 3, 2025
•
2
2
FinChain: 検証可能な連鎖的思考による金融推論のためのシンボリックベンチマーク
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
•
Jun 3, 2025
•
2
2
小型言語モデルはエージェンシックAIの未来である
Small Language Models are the Future of Agentic AI
Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
•
Jun 2, 2025
•
2
2
その物体を鳴らす:インタラクティブな物体認識画像から音声生成へ
Sounding that Object: Interactive Object-Aware Image to Audio Generation
Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
•
Jun 4, 2025
•
1
2
アクティブラーニングのハイパーパラメータに関する調査:大規模実験グリッドからの知見
Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid
Julius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner
•
Jun 4, 2025
•
1
2
RiOSWorld:マルチモーダルコンピュータ利用エージェントのリスク評価ベンチマーク
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
•
May 31, 2025
•
1
2