ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
October 15th, 2024
Manipulação Humanóide Generalizável com Políticas de Difusão 3D Aprimoradas
Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies
Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu
•
Oct 14, 2024
•
7
2
Inversão e Edição Semântica de Imagens usando Equações Diferenciais Estocásticas Retificadas
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
•
Oct 14, 2024
•
31
3
Rumo à Alinhamento Geral de Seguimento de Instruções para Geração Aprimorada por Recuperação
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
•
Oct 12, 2024
•
49
3
Pré-treinamento de Ação Latente a partir de Vídeos
Latent Action Pretraining from Videos
Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
•
Oct 15, 2024
•
2
2
LOKI: Um Benchmark Abrangente de Detecção de Dados Sintéticos usando Modelos Multimodais Grandes
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models
Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
•
Oct 13, 2024
•
56
4
MEGA-Bench: Dimensionando a Avaliação Multimodal para mais de 500 Tarefas do Mundo Real
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
•
Oct 14, 2024
•
39
3
MMCOMPOSITION: Revisitando a Composicionalidade de Modelos Pré-treinados de Visão e Linguagem
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
•
Oct 13, 2024
•
9
2
VisRAG: Geração Aprimorada por Recuperação Baseada em Visão em Documentos de Multi-modalidade
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
•
Oct 14, 2024
•
27
3
Árvore de Problemas: Melhorando a resolução estruturada de problemas com composicionalidade
Tree of Problems: Improving structured problem solving with compositionality
Armel Zebaze, Benoît Sagot, Rachel Bawden
•
Oct 9, 2024
•
9
2
Repensando a Seleção de Dados em Escala: A Seleção Aleatória é Quase Tudo o que Você Precisa
Rethinking Data Selection at Scale: Random Selection is Almost All You Need
Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
•
Oct 12, 2024
•
17
3
O Renascimento do ReLU: Sobre a Sobrecarga Entrópica em Modelos de Linguagem Grandes sem Normalização
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models
Nandan Kumar Jha, Brandon Reagen
•
Oct 12, 2024
•
4
2
LiveXiv -- Um Benchmark Multi-Modal ao Vivo Baseado no Conteúdo de Artigos do Arxiv
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content
Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
•
Oct 14, 2024
•
28
2
Pensando em LLMs: Seguimento de Instruções Gerais com Geração de Pensamentos
Thinking LLMs: General Instruction Following with Thought Generation
Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
•
Oct 14, 2024
•
20
4
LongMemEval: Avaliação de Referência de Assistentes de Chat na Memória Interativa de Longo Prazo
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
•
Oct 14, 2024
•
12
2
Omni-MATH: Um Padrão Matemático Universal de Nível Olímpico para Modelos de Linguagem de Grande Escala
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models
Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
•
Oct 10, 2024
•
33
3
Cavia: Difusão de Vídeo Multi-visão Controlada por Câmera com Atenção Integrada à Visão
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
•
Oct 14, 2024
•
26
4
DuoAtenção: Inferência Eficiente de LLM de Longo Contexto com Cabeças de Recuperação e Transmissão
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han
•
Oct 14, 2024
•
7
2
Animate-X: Animação de Imagens de Personagens Universal com Representação Aprimorada de Movimento
Animate-X: Universal Character Image Animation with Enhanced Motion Representation
Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang
•
Oct 14, 2024
•
57
5
MMIE: Benchmark de Compreensão Multimodal Maciço e Entrelaçado para Modelos de Visão e Linguagem de Grande Escala
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
•
Oct 14, 2024
•
53
4
O Mesmo, Mas Diferente: Similaridades e Diferenças Estruturais na Modelagem de Linguagem Multilíngue
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling
Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
•
Oct 11, 2024
•
5
2
TVBench: Redesenho da Avaliação de Vídeo-Idioma
TVBench: Redesigning Video-Language Evaluation
Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
•
Oct 10, 2024
•
6
2
TemporalBench: Avaliação de Referência para Compreensão Temporal Detalhada em Modelos de Vídeo Multimodais
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
•
Oct 14, 2024
•
17
2