ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
March 14th, 2025
R1-Onevision: クロスモーダル形式化による汎用マルチモーダル推論の推進
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
•
Mar 13, 2025
•
17
3
ランダム化並列デコードを用いた自己回帰的画像生成
Autoregressive Image Generation with Randomized Parallel Decoding
Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
•
Mar 13, 2025
•
8
2
Open-Sora 2.0:20万ドルで商用レベルのビデオ生成モデルをトレーニング
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
•
Mar 12, 2025
•
18
3
画像変換における視覚-言語モデルの理解能力の限界について
On the Limitations of Vision-Language Models in Understanding Image Transforms
Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
•
Mar 12, 2025
•
10
2
正規化なしのトランスフォーマー
Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
•
Mar 13, 2025
•
161
5
PerCoV2:暗黙的階層型マスク画像モデリングによる超低ビットレート知覚的画像圧縮の改善
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
•
Mar 12, 2025
•
3
2
GroundingSuite:複雑なマルチグラニュラリティなピクセルグラウンディングの測定
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
•
Mar 13, 2025
•
18
2
分類器中心の視点から見た分類器(フリー)ガイダンスの研究
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective
Xiaoming Zhao, Alexander G. Schwing
•
Mar 13, 2025
•
2
2
OpenAIのWhisperモデルにおける量子化:比較分析
Quantization for OpenAI's Whisper Models: A Comparative Analysis
Allison Andreyev
•
Mar 12, 2025
•
6
2
MinorBench: 子供向けコンテンツベースのリスク評価のための手作りベンチマーク
MinorBench: A hand-built benchmark for content-based risks for children
Shaun Khoo, Gabriel Chua, Rachel Shong
•
Mar 13, 2025
•
4
3
TruthPrInt:潜在的な真実誘導型事前介入によるLVLMの物体幻覚の軽減
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
•
Mar 13, 2025
•
4
2
世界モデリングがより優れたプランナーを生み出す:エンボディードタスクプランニングのための二重選好最適化
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu
•
Mar 13, 2025
•
53
7
OmniPaint:分離型挿入-除去インペインティングによるオブジェクト指向編集のマスタリング
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
Yongsheng Yu, Ziyun Zeng, Haitian Zheng, Jiebo Luo
•
Mar 11, 2025
•
29
2
VisualWebInstruct: Web検索によるマルチモーダル指示データのスケールアップ
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
•
Mar 13, 2025
•
23
2
通信効率の高い言語モデルトレーニングは信頼性と堅牢性を備えてスケーリングする: DiLoCoのスケーリング則
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo
Zachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard
•
Mar 12, 2025
•
14
2
長文脈LLMの研究を入力から出力へシフトする
Shifting Long-Context LLMs Research from Input to Output
Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
•
Mar 6, 2025
•
22
2
サイレントブランディング攻撃:テキストから画像への拡散モデルに対するトリガーフリーのデータ汚染攻撃
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
•
Mar 12, 2025
•
36
2
条件付けの呪い:条件付きフローベース生成のための最適輸送の分析と改善
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation
Ho Kei Cheng, Alexander Schwing
•
Mar 13, 2025
•
3
2
SANA-Sprint: 連続時間一貫性蒸留によるワンステップ拡散
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
•
Mar 12, 2025
•
37
4
CoSTAast: マルチターン画像編集のためのコスト感応型ツールパスエージェント
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
•
Mar 13, 2025
•
79
10
DiT-Air: テキストから画像生成における拡散モデルアーキテクチャ設計の効率性の再検討
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
•
Mar 13, 2025
•
17
2
Light-R1: 長文連鎖思考(COT)のためのカリキュラムSFT、DPO、RLのゼロからの学習とその先へ
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
•
Mar 13, 2025
•
28
4
VisualPRM: マルチモーダル推論のための効果的なプロセス報酬モデル
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
•
Mar 13, 2025
•
36
3
CoRe^2: 収集、反映、洗練による高速かつ高品質な生成
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
•
Mar 12, 2025
•
34
4
GoT: マルチモーダル大規模言語モデルの推論能力を解き放ち、視覚的生成と編集を実現する
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
•
Mar 13, 2025
•
50
2
拡散モデルにおける多様性と制御の蒸留
Distilling Diversity and Control in Diffusion Models
Rohit Gandikota, David Bau
•
Mar 13, 2025
•
14
2
CINEMA:MLLMベースのガイダンスによる一貫性のあるマルチサブジェクト動画生成
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance
Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
•
Mar 13, 2025
•
11
2
ビジョントランスフォーマーにおける影響力のあるニューロンパスの発見
Discovering Influential Neuron Path in Vision Transformers
Yifan Wang, Yifei Liu, Yingdong Shi, Changming Li, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren
•
Mar 12, 2025
•
6
2
UniGoal:ユニバーサルゼロショット目標指向ナビゲーションに向けて
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
•
Mar 13, 2025
•
6
2
ピースを組み立てる:IP-Priorsを用いたパーツベースの概念化
Piece it Together: Part-Based Concepting with IP-Priors
Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
•
Mar 13, 2025
•
8
2
ConsisLoRA: LoRAベースのスタイル転送における内容とスタイルの一貫性の向上
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer
Bolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao
•
Mar 13, 2025
•
8
2
長文脈チューニングによる動画生成
Long Context Tuning for Video Generation
Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
•
Mar 13, 2025
•
14
2
PoseLess: VLMを用いた直接画像マッピングによる深度情報不要の視覚-関節制御
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
•
Mar 10, 2025
•
3
2
「沈黙は実際には沈黙ではない」:バグ報告ディスカッションにおける毒性の調査
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion
Mia Mohammad Imran, Jaydeb Sarker
•
Mar 13, 2025
•
4
2
非常に単純でありながら驚くほど効果的な攻撃ベースライン:GPT-4.5/4o/o1の強力なブラックボックスモデルに対して90%以上の成功率を達成
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
•
Mar 13, 2025
•
3
2
4D LangSplat: マルチモーダル大規模言語モデルによる4次元言語ガウススプラッティング
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
•
Mar 13, 2025
•
32
2
Hugging Faceのモデルアトラスのチャート作成とナビゲーション
Charting and Navigating Hugging Face's Model Atlas
Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen
•
Mar 13, 2025
•
79
6
私はあなたにとって`cat.n.01`のように見えますか? タクソノミー画像生成ベンチマーク
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
•
Mar 13, 2025
•
11
2
大規模推論モデルを用いた現代機械翻訳の新たな潮流
New Trends for Modern Machine Translation with Large Reasoning Models
Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang
•
Mar 13, 2025
•
23
2