ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
March 14th, 2025
R1-Onevision: Avançando o Raciocínio Multimodal Generalizado por meio da Formalização Intermodal
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
•
Mar 13, 2025
•
17
3
Geração Autoregressiva de Imagens com Decodificação Paralela Randomizada
Autoregressive Image Generation with Randomized Parallel Decoding
Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
•
Mar 13, 2025
•
8
2
Open-Sora 2.0: Treinando um Modelo de Geração de Vídeo de Nível Comercial por $200 mil
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
•
Mar 12, 2025
•
18
3
Sobre as Limitações dos Modelos Visão-Linguagem na Compreensão de Transformações de Imagens
On the Limitations of Vision-Language Models in Understanding Image Transforms
Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
•
Mar 12, 2025
•
10
2
Transformers sem Normalização
Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
•
Mar 13, 2025
•
161
5
PerCoV2: Compressão Perceptual de Imagens com Taxa de Bits Ultrabaixa Aprimorada com Modelagem de Imagem Mascarada Hierárquica Implícita
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
•
Mar 12, 2025
•
3
2
GroundingSuite: Medição de Ancoragem de Pixels Complexa e Multi-Granular
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
•
Mar 13, 2025
•
18
2
Estudando a Orientação de Classificador (Livre) a partir de uma Perspectiva Centrada no Classificador
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective
Xiaoming Zhao, Alexander G. Schwing
•
Mar 13, 2025
•
2
2
Quantização para os Modelos Whisper da OpenAI: Uma Análise Comparativa
Quantization for OpenAI's Whisper Models: A Comparative Analysis
Allison Andreyev
•
Mar 12, 2025
•
6
2
MinorBench: Um benchmark construído manualmente para riscos baseados em conteúdo para crianças
MinorBench: A hand-built benchmark for content-based risks for children
Shaun Khoo, Gabriel Chua, Rachel Shong
•
Mar 13, 2025
•
4
3
TruthPrInt: Mitigando Alucinações de Objetos em LVLM por meio de Pré-Intervenção Guiada por Verdade Latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
•
Mar 13, 2025
•
4
2
Modelagem de Mundo Torna um Planejador Melhor: Otimização de Preferência Dupla para Planejamento de Tarefas Embarcadas
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu
•
Mar 13, 2025
•
53
7
OmniPaint: Dominando a Edição Orientada a Objetos por meio de Inpaint Desacoplado de Inserção-Remoção
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
Yongsheng Yu, Ziyun Zeng, Haitian Zheng, Jiebo Luo
•
Mar 11, 2025
•
29
2
VisualWebInstruct: Escalonando Dados de Instrução Multimodal por meio de Busca na Web
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
•
Mar 13, 2025
•
23
2
Treinamento de Modelos de Linguagem com Comunicação Eficiente Escala de Forma Confiável e Robusta: Leis de Escalonamento para DiLoCo
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo
Zachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard
•
Mar 12, 2025
•
14
2
Mudando o Foco da Pesquisa em LLMs de Contexto Longo da Entrada para a Saída
Shifting Long-Context LLMs Research from Input to Output
Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
•
Mar 6, 2025
•
22
2
Ataque de Marcação Silenciosa: Ataque de Envenenamento de Dados Sem Gatilho em Modelos de Difusão de Texto para Imagem
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
•
Mar 12, 2025
•
36
2
A Maldição das Condições: Analisando e Melhorando o Transporte Ótimo para Geração Condicional Baseada em Fluxo
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation
Ho Kei Cheng, Alexander Schwing
•
Mar 13, 2025
•
3
2
SANA-Sprint: Difusão em Um Passo com Distilação de Consistência em Tempo Contínuo
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
•
Mar 12, 2025
•
37
4
CoSTAast: Agente de Trajetória de Ferramenta Sensível ao Custo para Edição de Imagens em Múltiplas Etapas
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
•
Mar 13, 2025
•
79
10
DiT-Air: Revisitando a Eficiência do Design de Arquitetura de Modelos de Difusão na Geração de Imagens a partir de Texto
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
•
Mar 13, 2025
•
17
2
Light-R1: Currículo de SFT, DPO e RL para Long COT do Zero e Além
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
•
Mar 13, 2025
•
28
4
VisualPRM: Um Modelo Eficaz de Recompensa de Processo para Raciocínio Multimodal
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
•
Mar 13, 2025
•
36
3
CoRe^2: Coletar, Refletir e Refinar para Gerar Melhor e Mais Rápido
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
•
Mar 12, 2025
•
34
4
GoT: Liberando a Capacidade de Raciocínio de Modelos de Linguagem Multimodais de Grande Escala para Geração e Edição Visual
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
•
Mar 13, 2025
•
50
2
Destilando Diversidade e Controle em Modelos de Difusão
Distilling Diversity and Control in Diffusion Models
Rohit Gandikota, David Bau
•
Mar 13, 2025
•
14
2
CINEMA: Geração de Vídeo Coerente com Múltiplos Sujeitos via Orientação Baseada em MLLM
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance
Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
•
Mar 13, 2025
•
11
2
Descobrindo o Caminho de Neurônios Influentes em Transformers de Visão
Discovering Influential Neuron Path in Vision Transformers
Yifan Wang, Yifei Liu, Yingdong Shi, Changming Li, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren
•
Mar 12, 2025
•
6
2
UniGoal: Rumo à Navegação Orientada a Objetivos Universal com Zero-Shot
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
•
Mar 13, 2025
•
6
2
Junte as Peças: Conceituação Baseada em Partes com IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
•
Mar 13, 2025
•
8
2
ConsisLoRA: Aprimorando a Consistência de Conteúdo e Estilo para Transferência de Estilo Baseada em LoRA
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer
Bolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao
•
Mar 13, 2025
•
8
2
Ajuste de Contexto Longo para Geração de Vídeo
Long Context Tuning for Video Generation
Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
•
Mar 13, 2025
•
14
2
PoseLess: Controle Visão-Articulação sem Profundidade via Mapeamento Direto de Imagem com VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
•
Mar 10, 2025
•
3
2
"Silencioso Não É Realmente Silencioso": Uma Investigação sobre Toxicidade em Discussões de Relatórios de Bugs
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion
Mia Mohammad Imran, Jaydeb Sarker
•
Mar 13, 2025
•
4
2
Uma Linha de Base de Ataque Frustrantemente Simples, mas Altamente Eficaz: Taxa de Sucesso Superior a 90% Contra os Modelos de Caixa Preta Fortes do GPT-4.5/4o/o1
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
•
Mar 13, 2025
•
3
2
4D LangSplat: Splatting Gaussiano de Linguagem 4D via Modelos de Linguagem Multimodais de Grande Escala
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
•
Mar 13, 2025
•
32
2
Mapeando e Navegando pelo Atlas de Modelos do Hugging Face
Charting and Navigating Hugging Face's Model Atlas
Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen
•
Mar 13, 2025
•
79
6
Eu pareço um `gato.n.01` para você? Um Benchmark de Geração de Imagens Taxonômicas
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
•
Mar 13, 2025
•
11
2
Novas Tendências para Tradução Automática Moderna com Modelos de Raciocínio em Grande Escala
New Trends for Modern Machine Translation with Large Reasoning Models
Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang
•
Mar 13, 2025
•
23
2