ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
March 25th, 2025
Video SimpleQA: Rumando à Avaliação de Fatualidade em Grandes Modelos de Linguagem para Vídeos
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
•
Mar 24, 2025
•
12
1
Aether: Modelagem Unificada do Mundo com Consciência Geométrica
Aether: Geometric-Aware Unified World Modeling
Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
•
Mar 24, 2025
•
28
2
Controle de Variância via Redimensionamento de Pesos no Pré-treinamento de LLMs
Variance Control via Weight Rescaling in LLM Pre-training
Louis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra
•
Mar 21, 2025
•
5
2
Posição: Vídeo Generativo Interativo como o Motor de Jogos da Próxima Geração
Position: Interactive Generative Video as Next-Generation Game Engine
Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
•
Mar 21, 2025
•
62
3
Mente com Olhos: do Raciocínio Linguístico ao Raciocínio Multimodal
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
•
Mar 23, 2025
•
3
2
DynamicVis: Um Modelo Visual Fundamental Eficiente e Geral para Compreensão de Imagens de Sensoriamento Remoto
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
•
Mar 20, 2025
•
0
2
FFN Fusion: Repensando o Cálculo Sequencial em Modelos de Linguagem de Grande Escala
FFN Fusion: Rethinking Sequential Computation in Large Language Models
Akhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv
•
Mar 24, 2025
•
19
3
AgentRxiv: Rumo à Pesquisa Autônoma Colaborativa
AgentRxiv: Towards Collaborative Autonomous Research
Samuel Schmidgall, Michael Moor
•
Mar 23, 2025
•
22
2
Modelagem de Imagem Equivariante
Equivariant Image Modeling
Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
•
Mar 24, 2025
•
15
1
OmnimatteZero: Omnimatte em Tempo Real sem Treinamento com Modelos de Difusão de Vídeo Pré-treinados
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models
Dvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari
•
Mar 23, 2025
•
25
2
Julgue Qualquer Coisa: MLLM como Juiz em Qualquer Modalidade
Judge Anything: MLLM as a Judge Across Any Modality
Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
•
Mar 21, 2025
•
20
2
RDTF: Estrutura de Treinamento de Dupla Máscara Eficiente em Recursos para Geração de Adesivos Animados com Múltiplos Quadros
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
•
Mar 22, 2025
•
3
2
Aceleração de Difusão sem Treinamento com Amostragem de Gargalo
Training-free Diffusion Acceleration with Bottleneck Sampling
Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
•
Mar 24, 2025
•
12
4
AMD-Hummingbird: Rumo a um Modelo Eficiente de Texto para Vídeo
AMD-Hummingbird: Towards an Efficient Text-to-Video Model
Takashi Isobe, He Cui, Dong Zhou, Mengmeng Ge, Dong Li, Emad Barsoum
•
Mar 24, 2025
•
5
2
Instruct-CLIP: Aprimorando a Edição de Imagens Guiada por Instruções com Refinamento Automático de Dados Usando Aprendizado Contrastivo
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
Sherry X. Chen, Misha Sra, Pradeep Sen
•
Mar 24, 2025
•
3
2
Revisitando a Fusão de Imagens para Correção de Balanço de Brancos Multi-Iluminante
Revisiting Image Fusion for Multi-Illuminant White-Balance Correction
David Serrano-Lozano, Aditya Arora, Luis Herranz, Konstantinos G. Derpanis, Michael S. Brown, Javier Vazquez-Corral
•
Mar 18, 2025
•
1
2
Derrotando Injeções de Prompt por Design
Defeating Prompt Injections by Design
Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
•
Mar 24, 2025
•
20
1
Raciocínio para Aprender a partir de Pensamentos Latentes
Reasoning to Learn from Latent Thoughts
Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
•
Mar 24, 2025
•
13
1
Otimização Mínima de Projeção Gaussiana 3D
Optimized Minimal 3D Gaussian Splatting
Joo Chan Lee, Jong Hwan Ko, Eunbyung Park
•
Mar 21, 2025
•
13
2
Diffusion-4K: Síntese de Imagens em Ultra-Alta Resolução com Modelos de Difusão Latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
•
Mar 24, 2025
•
6
2
Feather-SQL: Um Framework Leve de NL2SQL com Paradigma de Colaboração de Modelos Duplos para Modelos de Linguagem Pequenos
Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models
Wenqi Pei, Hailing Xu, Hengyuan Zhao, Shizheng Hou, Han Chen, Zining Zhang, Pingyi Luo, Bingsheng He
•
Mar 22, 2025
•
13
2
Typed-RAG: Decomposição Multi-Aspecto com Consciência de Tipos para Respostas a Perguntas Não-Factuais
Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering
DongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng
•
Mar 20, 2025
•
6
2
Eu Cobri Todas as Bases Aqui: Interpretando Características de Raciocínio em Modelos de Linguagem de Grande Escala por meio de Autoencoders Esparsos
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
•
Mar 24, 2025
•
118
2
A Supervisão Verbal do Processo Promove Agentes de Codificação Mais Eficientes
Verbal Process Supervision Elicits Better Coding Agents
Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao
•
Mar 24, 2025
•
2
2
QuartDepth: Quantização Pós-Treinamento para Estimativa de Profundidade em Tempo Real na Borda
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu
•
Mar 20, 2025
•
0
2
Perdidos na Tradução Cultural: Os LLMs Têm Dificuldades com Matemática em Contextos Culturais?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
•
Mar 23, 2025
•
6
2
CFG-Zero*: Melhoria na Orientação Livre de Classificadores para Modelos de Correspondência de Fluxo
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
•
Mar 24, 2025
•
21
2
SimpleRL-Zoo: Investigando e Domando o Aprendizado por Reforço Zero para Modelos Base Abertos em Ambientes Reais
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
•
Mar 24, 2025
•
30
1
V-Seek: Acelerando o Raciocínio de LLMs em Plataformas RISC-V de Classe Servidor com Hardware Aberto
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms
Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
•
Mar 21, 2025
•
6
2
Video-T1: Escalonamento em Tempo de Teste para Geração de Vídeo
Video-T1: Test-Time Scaling for Video Generation
Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
•
Mar 24, 2025
•
88
1
LEMMA: Aprendendo com Erros para o Avanço Matemático em Modelos de Linguagem de Grande Escala
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs
Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
•
Mar 21, 2025
•
15
2
Desaprendizado de Movimento Humano
Human Motion Unlearning
Edoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso
•
Mar 24, 2025
•
1
2
Vision-R1: Evolução do Alinhamento Livre de Intervenção Humana em Grandes Modelos de Visão e Linguagem por meio de Aprendizado por Reforço Guiado por Visão
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
•
Mar 23, 2025
•
19
2
AlphaSpace: Habilitando Ações Robóticas por meio de Tokenização Semântica e Raciocínio Simbólico
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
Alan Dao, Dinh Bach Vu, Bui Quang Huy
•
Mar 24, 2025
•
10
2
Repensando a Avaliação de Imagens em Super-Resolução
Rethinking Image Evaluation in Super-Resolution
Shaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral
•
Mar 17, 2025
•
1
2
MagicComp: Refinamento em Duas Fases sem Treinamento para Geração de Vídeos Composicionais
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
•
Mar 18, 2025
•
8
2
CODA: Reaproveitando VAEs Contínuos para Tokenização Discreta
CODA: Repurposing Continuous VAEs for Discrete Tokenization
Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang
•
Mar 22, 2025
•
3
2
Busca em Árvore Global-Local para Geração de Cenas 3D Guiada por Linguagem
Global-Local Tree Search for Language Guided 3D Scene Generation
Wei Deng, Mengshi Qi, Huadong Ma
•
Mar 24, 2025
•
0
2
MetaSpatial: Reforçando o Raciocínio Espacial 3D em VLMs para o Metaverso
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
Zhenyu Pan, Han Liu
•
Mar 24, 2025
•
3
2