ChatPaper.ai
メニューを開く
ホーム
今日の論文
arXiv
HuggingFace
料金プラン
アカウント
ワークスペース
🇯🇵
日本語
Loading...
•
•
•
•
•
•
•
•
•
•
AI研究論文デイリー
翻訳付きの日次キュレーションされたAI研究論文
March 24th, 2025
ビデオ拡散モデルのための多様な制御機能の実現
Enabling Versatile Controls for Video Diffusion Models
Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
•
Mar 21, 2025
•
15
2
TaoAvatar: 3Dガウススプラッティングによる拡張現実のためのリアルタイム高精細全身アバター
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
•
Mar 21, 2025
•
26
3
MARS:自動プロンプト最適化のためのソクラテス的ガイダンスを統合したマルチエージェントフレームワーク
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization
Jian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria
•
Mar 21, 2025
•
45
2
少なくて十分な場合:効率的な画像表現のための適応的トークン削減
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation
Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
•
Mar 20, 2025
•
73
2
FFaceNeRF: ニューラルラジアンスフィールドにおけるFew-shot顔編集
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields
Kwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh
•
Mar 21, 2025
•
5
2
単一画像に基づく反復的な被写体駆動型生成と編集
Single Image Iterative Subject-driven Generation and Editing
Yair Shpitzer, Gal Chechik, Idan Schwartz
•
Mar 20, 2025
•
14
2
長文脈言語モデリングに関する包括的調査
A Comprehensive Survey on Long Context Language Modeling
Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang
•
Mar 20, 2025
•
49
2
自己回帰的視覚生成のための連続的トークンと離散的トークンの橋渡し
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu
•
Mar 20, 2025
•
35
4
汎用化されたFew-shot 3D点群セグメンテーションと視覚-言語モデル
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
Zhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie
•
Mar 20, 2025
•
5
2
MathFlow: 視覚的数学問題におけるMLLMの知覚的フローの向上
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
•
Mar 19, 2025
•
14
3
OpenVLThinker: 反復的な自己改善による複雑な視覚-言語推論への初期探求
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement
Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
•
Mar 21, 2025
•
23
2
GAEA: ジオロケーションを考慮した対話モデル
GAEA: A Geolocation Aware Conversational Model
Ron Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah
•
Mar 20, 2025
•
6
2
ETVA: 細粒度な質問生成と回答によるテキストとビデオの整合性評価
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
•
Mar 21, 2025
•
11
2
大規模言語モデルの訓練後修正による多様な創造的ライティング
Modifying Large Language Model Post-Training for Diverse Creative Writing
John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
•
Mar 21, 2025
•
36
2
FastCuRL: 効率的な訓練のための段階的コンテキスト拡張を伴うカリキュラム強化学習 - R1ライクな推論モデル向け
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang
•
Mar 21, 2025
•
10
3
RoboFactory: 構成制約を伴うエンボディエージェント協調の探求
RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints
Yiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai
•
Mar 20, 2025
•
40
2
選好が分かれるとき:少数派を意識した適応型DPOによる拡散モデルの整合
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO
Lingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao
•
Mar 21, 2025
•
6
2
大規模視覚言語モデルは人間のように地図を読むことができるか?
Can Large Vision Language Models Read Maps Like a Human?
Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
•
Mar 18, 2025
•
9
2
MAPS:ビッグセブン性格理論とソクラテス的指導に基づく マルチエージェントフレームワークによるマルチモーダル科学問題解決
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
•
Mar 21, 2025
•
54
2
頭から尾まで:適応的データキャリブレーションによる大規模視覚言語モデルのバランスの取れた表現に向けて
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
Mingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng
•
Mar 17, 2025
•
9
2
PVChat:ワンショット学習によるパーソナライズドビデオチャット
PVChat: Personalized Video Chat with One-Shot Learning
Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
•
Mar 21, 2025
•
7
2
推論モデルにおける暗黙的バイアス様パターン
Implicit Bias-Like Patterns in Reasoning Models
Messi H. J. Lee, Calvin K. Lai
•
Mar 14, 2025
•
7
2