ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
March 25th, 2025
ビデオSimpleQA: 大規模ビデオ言語モデルにおける事実性評価に向けて
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
•
Mar 24, 2025
•
12
1
Aether: 幾何学的認識を統合した世界モデリング
Aether: Geometric-Aware Unified World Modeling
Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
•
Mar 24, 2025
•
28
2
LLM事前学習における重み再スケーリングによる分散制御
Variance Control via Weight Rescaling in LLM Pre-training
Louis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra
•
Mar 21, 2025
•
5
2
位置:次世代ゲームエンジンとしてのインタラクティブ生成型ビデオ
Position: Interactive Generative Video as Next-Generation Game Engine
Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
•
Mar 21, 2025
•
62
3
目を持つ心:言語推論からマルチモーダル推論へ
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
•
Mar 23, 2025
•
3
2
DynamicVis: リモートセンシング画像理解のための効率的で汎用的な視覚基盤モデル
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
•
Mar 20, 2025
•
0
2
FFN融合:大規模言語モデルにおける逐次計算の再考
FFN Fusion: Rethinking Sequential Computation in Large Language Models
Akhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv
•
Mar 24, 2025
•
19
3
AgentRxiv:協調的自律的研究に向けて
AgentRxiv: Towards Collaborative Autonomous Research
Samuel Schmidgall, Michael Moor
•
Mar 23, 2025
•
22
2
等変性画像モデリング
Equivariant Image Modeling
Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
•
Mar 24, 2025
•
15
1
OmnimatteZero: 事前学習済みビデオ拡散モデルを用いたトレーニング不要のリアルタイムOmnimatte
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models
Dvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari
•
Mar 23, 2025
•
25
2
Judge Anything: 任意のモダリティにわたる裁判官としてのMLLM
Judge Anything: MLLM as a Judge Across Any Modality
Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
•
Mar 21, 2025
•
20
2
RDTF:マルチフレームアニメーションステッカー生成のためのリソース効率型デュアルマスク学習フレームワーク
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
•
Mar 22, 2025
•
3
2
ボトルネックサンプリングによるトレーニング不要の拡散加速
Training-free Diffusion Acceleration with Bottleneck Sampling
Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
•
Mar 24, 2025
•
12
4
AMD-Hummingbird:効率的なテキスト・ツー・ビデオモデルに向けて
AMD-Hummingbird: Towards an Efficient Text-to-Video Model
Takashi Isobe, He Cui, Dong Zhou, Mengmeng Ge, Dong Li, Emad Barsoum
•
Mar 24, 2025
•
5
2
Instruct-CLIP:コントラスティブ学習を用いた自動データ精製による指示誘導型画像編集の改善
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
Sherry X. Chen, Misha Sra, Pradeep Sen
•
Mar 24, 2025
•
3
2
多光源ホワイトバランス補正のための画像融合手法の再検討
Revisiting Image Fusion for Multi-Illuminant White-Balance Correction
David Serrano-Lozano, Aditya Arora, Luis Herranz, Konstantinos G. Derpanis, Michael S. Brown, Javier Vazquez-Corral
•
Mar 18, 2025
•
1
2
プロンプトインジェクションを設計で防ぐ
Defeating Prompt Injections by Design
Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
•
Mar 24, 2025
•
20
1
潜在的な思考から学ぶための推論
Reasoning to Learn from Latent Thoughts
Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
•
Mar 24, 2025
•
13
1
最適化された最小3Dガウススプラッティング
Optimized Minimal 3D Gaussian Splatting
Joo Chan Lee, Jong Hwan Ko, Eunbyung Park
•
Mar 21, 2025
•
13
2
Diffusion-4K:潜在拡散モデルによる超高解像度画像合成
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
•
Mar 24, 2025
•
6
2
Feather-SQL: 小型言語モデルのためのデュアルモデル協調パラダイムを備えた軽量NL2SQLフレームワーク
Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models
Wenqi Pei, Hailing Xu, Hengyuan Zhao, Shizheng Hou, Han Chen, Zining Zhang, Pingyi Luo, Bingsheng He
•
Mar 22, 2025
•
13
2
Typed-RAG: 非事実質問応答のための型を考慮した多面的分解
Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering
DongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng
•
Mar 20, 2025
•
6
2
ここですべての基盤をカバーしました:スパースオートエンコーダによる大規模言語モデルの推論機能の解釈
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
•
Mar 24, 2025
•
118
2
言語的プロセス監視がより優れたコーディングエージェントを導出する
Verbal Process Supervision Elicits Better Coding Agents
Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao
•
Mar 24, 2025
•
2
2
QuartDepth: エッジデバイス向けリアルタイム深度推定のためのポストトレーニング量子化
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu
•
Mar 20, 2025
•
0
2
文化的翻訳における迷い:LLMは文化的文脈を越えた数学に苦戦するのか?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
•
Mar 23, 2025
•
6
2
CFG-Zero*: フローマッチングモデルのための改良型クラシファイアフリーガイダンス
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
•
Mar 24, 2025
•
21
2
SimpleRL-Zoo: 野生環境におけるオープンベースモデルのためのゼロ強化学習の調査と制御
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
•
Mar 24, 2025
•
30
1
V-Seek: オープンハードウェアサーバークラスRISC-VプラットフォームにおけるLLM推論の高速化
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms
Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
•
Mar 21, 2025
•
6
2
Video-T1: ビデオ生成のためのテストタイムスケーリング
Video-T1: Test-Time Scaling for Video Generation
Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
•
Mar 24, 2025
•
88
1
LEMMA: LLMの数学的進歩のための誤りからの学習
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs
Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
•
Mar 21, 2025
•
15
2
人間の動作のアンラーニング
Human Motion Unlearning
Edoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso
•
Mar 24, 2025
•
1
2
Vision-R1: 大規模視覚言語モデルにおけるヒューマンフリーなアライメントの進化 - 視覚誘導型強化学習によるアプローチ -
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
•
Mar 23, 2025
•
19
2
AlphaSpace: セマンティックトークン化とシンボリック推論によるロボット行動の実現
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
Alan Dao, Dinh Bach Vu, Bui Quang Huy
•
Mar 24, 2025
•
10
2
超解像における画像評価の再考
Rethinking Image Evaluation in Super-Resolution
Shaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral
•
Mar 17, 2025
•
1
2
MagicComp: 構成ビデオ生成のためのトレーニング不要な二段階リファインメント
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
•
Mar 18, 2025
•
8
2
CODA: 離散トークン化のための連続VAEの再活用
CODA: Repurposing Continuous VAEs for Discrete Tokenization
Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang
•
Mar 22, 2025
•
3
2
言語誘導型3Dシーン生成のためのグローバル-ローカルツリーサーチ
Global-Local Tree Search for Language Guided 3D Scene Generation
Wei Deng, Mengshi Qi, Huadong Ma
•
Mar 24, 2025
•
0
2
MetaSpatial: メタバースにおけるVLMの3D空間推論能力の強化
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
Zhenyu Pan, Han Liu
•
Mar 24, 2025
•
3
2