ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
December 16th, 2024
Apollo: Uma Exploração da Compreensão de Vídeo em Modelos Multimodais Grandes
Apollo: An Exploration of Video Understanding in Large Multimodal Models
Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
•
Dec 13, 2024
•
146
13
GenEx: Gerando um Mundo Explorável
GenEx: Generating an Explorable World
Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
•
Dec 12, 2024
•
97
2
SynerGen-VL: Rumo a uma Compreensão e Geração de Imagens Sinérgicas com Especialistas em Visão e Dobra de Tokens
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding
Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai
•
Dec 12, 2024
•
38
4
Modelos de Ação de Grande Escala: Da Concepção à Implementação
Large Action Models: From Inception to Implementation
Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Dec 13, 2024
•
35
5
BiMediX2: Especialista em Aprendizado de Máquina Linear Multimodal para Diversas Modalidades Médicas
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
•
Dec 10, 2024
•
28
2
FreeScale: Liberando a Resolução dos Modelos de Difusão através da Fusão de Escala sem Ajustes.
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
•
Dec 12, 2024
•
20
2
Modelagem Generativa Eficiente com Tokens Baseados em Quantização Vetorial Residual
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
•
Dec 13, 2024
•
19
2
InstanceCap: Melhorando a Geração de Texto para Vídeo por meio de Legenda Estruturada Consciente da Instância
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
•
Dec 12, 2024
•
19
3
ObjectMate: Um Prior de Recorrência para Inserção de Objetos e Geração Orientada por Sujeito
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
•
Dec 11, 2024
•
11
2
FireFlow: Inversão Rápida do Fluxo Retificado para Edição Semântica de Imagens
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing
Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang
•
Dec 10, 2024
•
11
3
SCBench: Uma Análise Centrada em Cache KV de Métodos de Longo Contexto
SCBench: A KV Cache-Centric Analysis of Long-Context Methods
Yucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
•
Dec 13, 2024
•
10
2
LinGen: Rumo à Geração de Vídeo a partir de Texto de Alta Resolução e Duração de Minutos com Complexidade Computacional Linear
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
•
Dec 13, 2024
•
10
4
FluxSpace: Edição Semântica Desembaraçada em Transformadores de Fluxo Retificado
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
•
Dec 12, 2024
•
10
2
Geração Multimodal de Música com Pontes Explícitas e Ampliação de Recuperação
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation
Baisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu
•
Dec 12, 2024
•
7
4
GReaTer: Gradientes sobre Raciocínio Torna Modelos de Linguagem Menores Mais Fortes Otimizadores de Prompt
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers
Sarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang
•
Dec 12, 2024
•
5
3
SmolTulu: Proporções mais altas de Taxa de Aprendizado para Tamanho do Lote Podem Resultar em Melhor Raciocínio em SLMs
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
Sultan Alrashed
•
Dec 11, 2024
•
4
2
TraceVLA: Visual Trace Prompting Melhora a Consciência Espaço-Temporal para Políticas Robóticas Generalistas
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
•
Dec 13, 2024
•
2
2
Prompt2Perturb (P2P): Ataques adversariais baseados em difusão guiados por texto em imagens de ultrassom de mama.
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images
Yasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu
•
Dec 13, 2024
•
1
2