Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Relatório Técnico do Qwen2.5-Omni
Qwen2.5-Omni Technical Report

Mar 26

ByJin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin

166

Neste relatório, apresentamos o Qwen2.5-Omni, um modelo multimodal de ponta a ponta projetado para perceber diversas modalidades, incluindo texto, imagens, áudio e vídeo, enquanto gera respostas em texto e fala natural de forma contínua. Para permitir o processamento contínuo de entradas multimodais, tanto os codificadores de áudio quanto os visuais utilizam uma abordagem de processamento em blocos. Para sincronizar os timestamps das entradas de vídeo com o áudio, organizamos o áudio e o vídeo sequencialmente de forma intercalada e propomos uma nova abordagem de incorporação de posição, denominada TMRoPE (Time-aligned Multimodal RoPE). Para gerar texto e fala simultaneamente, evitando interferências entre as duas modalidades, propomos a arquitetura Thinker-Talker. Neste framework, o Thinker funciona como um grande modelo de linguagem responsável pela geração de texto, enquanto o Talker é um modelo autoregressivo de dupla via que utiliza diretamente as representações ocultas do Thinker para produzir tokens de áudio como saída. Tanto o Thinker quanto o Talker são projetados para serem treinados e inferidos de forma end-to-end. Para decodificar tokens de áudio de forma contínua, introduzimos um DiT de janela deslizante que restringe o campo receptivo, visando reduzir o atraso inicial do pacote. O Qwen2.5-Omni é comparável ao Qwen2.5-VL de tamanho similar e supera o Qwen2-Audio. Além disso, o Qwen2.5-Omni alcança desempenho de ponta em benchmarks multimodais como o Omni-Bench. Notavelmente, o desempenho do Qwen2.5-Omni na execução de instruções de fala end-to-end é comparável às suas capacidades com entradas de texto, conforme evidenciado por benchmarks como MMLU e GSM8K. Quanto à geração de fala, o Talker contínuo do Qwen2.5-Omni supera a maioria das alternativas existentes, tanto contínuas quanto não contínuas, em robustez e naturalidade.

Wan: Modelos Generativos de Vídeo em Grande Escala, Abertos e Avançados
Wan: Open and Advanced Large-Scale Video Generative Models

Mar 26

ByWanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu

Este relatório apresenta Wan, uma suíte abrangente e aberta de modelos de base para vídeo projetada para expandir os limites da geração de vídeo. Construído sobre o paradigma dominante de transformadores de difusão, Wan alcança avanços significativos em capacidades generativas por meio de uma série de inovações, incluindo nosso novo VAE, estratégias escaláveis de pré-treinamento, curadoria de dados em larga escala e métricas de avaliação automatizadas. Essas contribuições coletivamente aprimoram o desempenho e a versatilidade do modelo. Especificamente, Wan é caracterizado por quatro características principais: Desempenho Líder: O modelo de 14B do Wan, treinado em um vasto conjunto de dados que compreende bilhões de imagens e vídeos, demonstra as leis de escalabilidade da geração de vídeo em relação tanto ao tamanho dos dados quanto ao do modelo. Ele consistentemente supera os modelos de código aberto existentes, bem como as soluções comerciais de ponta em múltiplos benchmarks internos e externos, demonstrando uma superioridade de desempenho clara e significativa. Abrangência: Wan oferece dois modelos capazes, ou seja, 1.3B e 14B parâmetros, para eficiência e eficácia, respectivamente. Ele também cobre múltiplas aplicações downstream, incluindo geração de vídeo a partir de imagens, edição de vídeo guiada por instruções e geração de vídeos pessoais, abrangendo até oito tarefas. Eficiência de Consumo: O modelo de 1.3B demonstra uma eficiência excepcional de recursos, exigindo apenas 8.19 GB de VRAM, tornando-o compatível com uma ampla gama de GPUs de consumo. Abertura: Disponibilizamos o código-fonte de toda a série Wan, incluindo código-fonte e todos os modelos, com o objetivo de fomentar o crescimento da comunidade de geração de vídeo. Essa abertura busca expandir significativamente as possibilidades criativas de produção de vídeo na indústria e fornecer à academia modelos de base de vídeo de alta qualidade. Todo o código e modelos estão disponíveis em https://github.com/Wan-Video/Wan2.1.

Relatório Técnico da Gemma 3
Gemma 3 Technical Report

Mar 25

ByGemma Team, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Rivière, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Etienne Pot, Ivo Penchev, Gaël Liu, Francesco Visin, Kathleen Kenealy, Lucas Beyer, Xiaohai Zhai, Anton Tsitsulin, Robert Busa-Fekete, Alex Feng, Noveen Sachdeva, Benjamin Coleman, Yi Gao, Basil Mustafa, Iain Barr, Emilio Parisotto, David Tian, Matan Eyal, Colin Cherry, Jan-Thorsten Peter, Danila Sinopalnikov, Surya Bhupatiraju, Rishabh Agarwal, Mehran Kazemi, Dan Malkin, Ravin Kumar, David Vilar, Idan Brusilovsky, Jiaming Luo, Andreas Steiner, Abe Friesen, Abhanshu Sharma, Abheesht Sharma, Adi Mayrav Gilady, Adrian Goedeckemeyer, Alaa Saade, Alex Feng, Alexander Kolesnikov, Alexei Bendebury, Alvin Abdagic, Amit Vadi, András György, André Susano Pinto, Anil Das, Ankur Bapna, Antoine Miech, Antoine Yang, Antonia Paterson, Ashish Shenoy, Ayan Chakrabarti, Bilal Piot, Bo Wu, Bobak Shahriari, Bryce Petrini, Charlie Chen, Charline Le Lan, Christopher A. Choquette-Choo, CJ Carey, Cormac Brick, Daniel Deutsch, Danielle Eisenbud, Dee Cattle, Derek Cheng, Dimitris Paparas, Divyashree Shivakumar Sreepathihalli, Doug Reid, Dustin Tran, Dustin Zelle, Eric Noland, Erwin Huizenga, Eugene Kharitonov, Frederick Liu, Gagik Amirkhanyan, Glenn Cameron, Hadi Hashemi, Hanna Klimczak-Plucińska, Harman Singh, Harsh Mehta, Harshal Tushar Lehri, Hussein Hazimeh, Ian Ballantyne, Idan Szpektor, Ivan Nardini, Jean Pouget-Abadie, Jetha Chan, Joe Stanton, John Wieting, Jonathan Lai, Jordi Orbay, Joseph Fernandez, Josh Newlan, Ju-yeong Ji, Jyotinder Singh, Kat Black, Kathy Yu, Kevin Hui, Kiran Vodrahalli, Klaus Greff, Linhai Qiu, Marcella Valentine, Marina Coelho, Marvin Ritter, Matt Hoffman, Matthew Watson, Mayank Chaturvedi, Michael Moynihan, Min Ma, Nabila Babar, Natasha Noy, Nathan Byrd, Nick Roy, Nikola Momchev, Nilay Chauhan, Noveen Sachdeva, Oskar Bunyan, Pankil Botarda, Paul Caron, Paul Kishan Rubenstein, Phil Culliton, Philipp Schmid, Pier Giuseppe Sessa, Pingmei Xu, Piotr Stanczyk, Pouya Tafti, Rakesh Shivanna, Renjie Wu, Renke Pan, Reza Rokni, Rob Willoughby, Rohith Vallu, Ryan Mullins, Sammy Jerome, Sara Smoot, Sertan Girgin, Shariq Iqbal, Shashir Reddy, Shruti Sheth, Siim Põder, Sijal Bhatnagar, Sindhu Raghuram Panyam, Sivan Eiger, Susan Zhang, Tianqi Liu, Trevor Yacovone, Tyler Liechty, Uday Kalra, Utku Evci, Vedant Misra, Vincent Roseberry, Vlad Feinberg, Vlad Kolesnikov, Woohyun Han, Woosuk Kwon, Xi Chen, Yinlam Chow, Yuvein Zhu, Zichuan Wei, Zoltan Egyed, Victor Cotruta, Minh Giang, Phoebe Kirk, Anand Rao, Kat Black, Nabila Babar, Jessica Lo, Erica Moreira, Luiz Gustavo Martins, Omar Sanseviero, Lucas Gonzalez, Zach Gleicher, Tris Warkentin, Vahab Mirrokni, Evan Senter, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, Yossi Matias, D. Sculley, Slav Petrov, Noah Fiedel, Noam Shazeer, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Jean-Baptiste Alayrac, Rohan Anil, Dmitry, Lepikhin, Sebastian Borgeaud, Olivier Bachem, Armand Joulin, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot

Apresentamos o Gemma 3, uma adição multimodal à família Gemma de modelos leves e abertos, que variam em escala de 1 a 27 bilhões de parâmetros. Esta versão introduz capacidades de compreensão visual, uma cobertura mais ampla de idiomas e um contexto mais longo — de pelo menos 128 mil tokens. Também modificamos a arquitetura do modelo para reduzir a memória do KV-cache, que tende a explodir com contextos longos. Isso é alcançado aumentando a proporção de camadas de atenção local em relação às globais e mantendo o alcance da atenção local curto. Os modelos Gemma 3 são treinados com destilação e alcançam desempenho superior ao Gemma 2, tanto nas versões pré-treinadas quanto nas ajustadas por instrução. Em particular, nossa nova receita de pós-treinamento melhora significativamente as habilidades em matemática, conversação, seguimento de instruções e multilingue, tornando o Gemma3-4B-IT competitivo com o Gemma2-27B-IT e o Gemma3-27B-IT comparável ao Gemini-1.5-Pro em benchmarks. Disponibilizamos todos os nossos modelos para a comunidade.

Dita: Escalonando o Transformer de Difusão para Políticas Generalistas de Visão-Linguagem-Ação
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Mar 25

ByZhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen

Embora modelos recentes de visão-linguagem-ação treinados em diversos conjuntos de dados robóticos exibam capacidades promissoras de generalização com dados limitados no domínio, sua dependência de cabeças de ação compactas para prever ações discretizadas ou contínuas restringe a adaptabilidade a espaços de ação heterogêneos. Apresentamos Dita, uma estrutura escalável que aproveita arquiteturas Transformer para desnaturar diretamente sequências de ações contínuas por meio de um processo unificado de difusão multimodal. Diferentemente de métodos anteriores que condicionam a desnaturação em embeddings fundidos por meio de redes rasas, Dita emprega condicionamento em contexto — permitindo um alinhamento refinado entre ações desnaturadas e tokens visuais brutos de observações históricas. Esse projeto modela explicitamente deltas de ação e nuances ambientais. Ao escalar o desnaturador de ação de difusão juntamente com a escalabilidade do Transformer, Dita integra efetivamente conjuntos de dados de múltiplas embodiências em diversas perspectivas de câmera, cenas de observação, tarefas e espaços de ação. Essa sinergia aumenta a robustez contra várias variâncias e facilita a execução bem-sucedida de tarefas de longo horizonte. Avaliações em benchmarks extensivos demonstram desempenho de ponta ou comparável em simulação. Notavelmente, Dita alcança uma adaptação robusta no mundo real a variâncias ambientais e tarefas complexas de longo horizonte por meio de ajuste fino com 10 exemplos, utilizando apenas entradas de câmera em terceira pessoa. A arquitetura estabelece uma linha de base versátil, leve e de código aberto para o aprendizado de políticas robóticas generalistas. Página do Projeto: https://robodita.github.io.

Open Deep Search: Democratizando a Busca com Agentes de Raciocínio de Código Aberto
Open Deep Search: Democratizing Search with Open-source Reasoning Agents

Mar 26

BySalaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath

Apresentamos o Open Deep Search (ODS) para reduzir a crescente lacuna entre as soluções proprietárias de busca com IA, como o Sonar Reasoning Pro da Perplexity e o GPT-4o Search Preview da OpenAI, e suas contrapartes de código aberto. A principal inovação introduzida no ODS é aprimorar as capacidades de raciocínio dos mais recentes LLMs (Modelos de Linguagem de Grande Escala) de código aberto com agentes de raciocínio que podem usar ferramentas de busca na web de forma criteriosa para responder a consultas. Concretamente, o ODS consiste em dois componentes que funcionam com um LLM base escolhido pelo usuário: a Open Search Tool e o Open Reasoning Agent. O Open Reasoning Agent interpreta a tarefa dada e a completa orquestrando uma sequência de ações que inclui a chamada de ferramentas, uma das quais é a Open Search Tool. A Open Search Tool é uma nova ferramenta de busca na web que supera as contrapartes proprietárias. Juntamente com poderosos LLMs de raciocínio de código aberto, como o DeepSeek-R1, o ODS quase iguala e, às vezes, supera os melhores baselines existentes em dois benchmarks: SimpleQA e FRAMES. Por exemplo, no benchmark de avaliação FRAMES, o ODS melhora a precisão do melhor baseline existente, o GPT-4o Search Preview recentemente lançado, em 9,7%. O ODS é uma estrutura geral para aprimorar de forma contínua qualquer LLM — por exemplo, o DeepSeek-R1, que alcança 82,4% no SimpleQA e 30,1% no FRAMES — com capacidades de busca e raciocínio para atingir desempenho de ponta: 88,3% no SimpleQA e 75,3% no FRAMES.

LEGO-Puzzles: Quão Boas São as MLLMs no Raciocínio Espacial Multi-Etapas?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

Mar 25

ByKexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen

O raciocínio espacial em múltiplos passos envolve a compreensão e o raciocínio sobre relações espaciais ao longo de várias etapas sequenciais, o que é crucial para abordar aplicações complexas do mundo real, como manipulação robótica, navegação autônoma e montagem automatizada. Para avaliar o quão bem os atuais Modelos de Linguagem Multimodal de Grande Escala (MLLMs) adquiriram essa capacidade fundamental, introduzimos o LEGO-Puzzles, um benchmark escalável projetado para avaliar tanto o entendimento espacial quanto o raciocínio sequencial em MLLMs por meio de tarefas baseadas em LEGO. O LEGO-Puzzles consiste em 1.100 amostras cuidadosamente curadas de questionamento visual (VQA) abrangendo 11 tarefas distintas, desde o entendimento espacial básico até o raciocínio complexo em múltiplos passos. Com base no LEGO-Puzzles, realizamos uma avaliação abrangente dos MLLMs mais avançados e revelamos limitações significativas em suas capacidades de raciocínio espacial: mesmo os MLLMs mais poderosos conseguem responder apenas cerca de metade dos casos de teste, enquanto participantes humanos alcançam mais de 90% de precisão. Além das tarefas de VQA, avaliamos as habilidades dos MLLMs para gerar imagens de LEGO seguindo ilustrações de montagem. Nossos experimentos mostram que apenas o Gemini-2.0-Flash e o GPT-4o exibem uma capacidade limitada de seguir essas instruções, enquanto outros MLLMs ou replicam a imagem de entrada ou geram saídas completamente irrelevantes. No geral, o LEGO-Puzzles expõe deficiências críticas no entendimento espacial e nas capacidades de raciocínio sequencial dos MLLMs existentes, e destaca a necessidade de avanços adicionais no raciocínio espacial multimodal.

Gemini Robotics: Integrando IA ao Mundo Físico
Gemini Robotics: Bringing AI into the Physical World

Mar 25

ByGemini Robotics Team, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Travis Armstrong, Ashwin Balakrishna, Robert Baruch, Maria Bauza, Michiel Blokzijl, Steven Bohez, Konstantinos Bousmalis, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Oscar Chang, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, David D'Ambrosio, Sudeep Dasari, Todor Davchev, Coline Devin, Norman Di Palo, Tianli Ding, Adil Dostmohamed, Danny Driess, Yilun Du, Debidatta Dwibedi, Michael Elabd, Claudio Fantacci, Cody Fong, Erik Frey, Chuyuan Fu, Marissa Giustina, Keerthana Gopalakrishnan, Laura Graesser, Leonard Hasenclever, Nicolas Heess, Brandon Hernaez, Alexander Herzog, R. Alex Hofer, Jan Humplik, Atil Iscen, Mithun George Jacob, Deepali Jain, Ryan Julian, Dmitry Kalashnikov, M. Emre Karagozler, Stefani Karp, Chase Kew, Jerad Kirkland, Sean Kirmani, Yuheng Kuang, Thomas Lampe, Antoine Laurens, Isabel Leal, Alex X. Lee, Tsang-Wei Edward Lee, Jacky Liang, Yixin Lin, Sharath Maddineni, Anirudha Majumdar, Assaf Hurwitz Michaely, Robert Moreno, Michael Neunert, Francesco Nori, Carolina Parada, Emilio Parisotto, Peter Pastor, Acorn Pooley, Kanishka Rao, Krista Reymann, Dorsa Sadigh, Stefano Saliceti, Pannag Sanketi, Pierre Sermanet, Dhruv Shah, Mohit Sharma, Kathryn Shea, Charles Shu, Vikas Sindhwani, Sumeet Singh, Radu Soricut, Jost Tobias Springenberg, Rachel Sterneck, Razvan Surdulescu, Jie Tan, Jonathan Tompson, Vincent Vanhoucke, Jake Varley, Grace Vesom, Giulia Vezzani, Oriol Vinyals, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Fei Xia, Ted Xiao, Annie Xie, Jinyu Xie, Peng Xu, Sichun Xu, Ying Xu, Zhuo Xu, Yuxiang Yang, Rui Yao, Sergey Yaroshenko, Wenhao Yu, Wentao Yuan, Jingwei Zhang, Tingnan Zhang, Allan Zhou, Yuxiang Zhou

Os recentes avanços em modelos multimodais de grande escala levaram ao surgimento de capacidades generalistas notáveis em domínios digitais, mas sua transposição para agentes físicos, como robôs, continua sendo um desafio significativo. Este relatório apresenta uma nova família de modelos de IA projetados especificamente para robótica e construídos sobre a base do Gemini 2.0. Apresentamos o Gemini Robotics, um modelo generalista avançado de Visão-Linguagem-Ação (VLA) capaz de controlar diretamente robôs. O Gemini Robotics executa movimentos suaves e reativos para lidar com uma ampla gama de tarefas complexas de manipulação, além de ser robusto a variações em tipos e posições de objetos, lidar com ambientes não vistos anteriormente e seguir instruções diversas e de vocabulário aberto. Mostramos que, com ajustes adicionais, o Gemini Robotics pode ser especializado em novas capacidades, incluindo a resolução de tarefas de longo prazo e altamente hábeis, o aprendizado de novas tarefas de curto prazo a partir de apenas 100 demonstrações e a adaptação a novas configurações de robôs completamente inéditas. Isso é possível porque o Gemini Robotics é construído sobre o modelo Gemini Robotics-ER, o segundo modelo que introduzimos neste trabalho. O Gemini Robotics-ER (Raciocínio Incorporado) estende as capacidades de raciocínio multimodal do Gemini para o mundo físico, com um entendimento aprimorado de espaço e tempo. Isso permite capacidades relevantes para robótica, incluindo detecção de objetos, apontamento, previsão de trajetória e de agarramento, além de correspondência multiview e previsão de caixas delimitadoras 3D. Mostramos como essa combinação inovadora pode suportar uma variedade de aplicações robóticas. Também discutimos e abordamos considerações importantes de segurança relacionadas a essa nova classe de modelos de base para robótica. A família Gemini Robotics representa um passo substancial em direção ao desenvolvimento de robôs de propósito geral que realizam o potencial da IA no mundo físico.

Prioris Incondicionais Importam! Melhorando a Geração Condicional de Modelos de Difusão Ajustados
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

Mar 26

ByPrin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung

O Classifier-Free Guidance (CFG) é uma técnica fundamental no treinamento de modelos de difusão condicionais. A prática comum para o treinamento baseado em CFG é usar uma única rede para aprender tanto a previsão de ruído condicional quanto a incondicional, com uma pequena taxa de dropout para a condicionamento. No entanto, observamos que o aprendizado conjunto do ruído incondicional com largura de banda limitada durante o treinamento resulta em priores ruins para o caso incondicional. Mais importante ainda, essas previsões ruins de ruído incondicional tornam-se uma razão séria para a degradação da qualidade da geração condicional. Inspirados pelo fato de que a maioria dos modelos condicionais baseados em CFG são treinados por meio de ajuste fino de um modelo base com melhor geração incondicional, primeiro mostramos que simplesmente substituir o ruído incondicional no CFG por aquele previsto pelo modelo base pode melhorar significativamente a geração condicional. Além disso, mostramos que um modelo de difusão diferente daquele em que o modelo ajustado foi treinado pode ser usado para a substituição do ruído incondicional. Verificamos experimentalmente nossa afirmação com uma variedade de modelos condicionais baseados em CFG para geração de imagens e vídeos, incluindo Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter e InstructPix2Pix.

GenHancer: Modelos Generativos Imperfeitos são Secretamente Poderosos Potencializadores Centrados em Visão
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

Mar 25

ByShijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan

A sinergia entre modelos generativos e discriminativos tem recebido crescente atenção. Enquanto o pré-treinamento discriminativo de Linguagem-Imagem Contrastiva (CLIP) se destaca na semântica de alto nível, ele enfrenta dificuldades em perceber detalhes visuais refinados. Geralmente, para aprimorar as representações, os modelos generativos utilizam as características visuais do CLIP como condições para reconstrução. No entanto, o princípio subjacente permanece pouco explorado. Neste trabalho, descobrimos empiricamente que gerações visualmente perfeitas nem sempre são ideais para o aprimoramento de representações. A essência reside em extrair efetivamente conhecimento refinado dos modelos generativos, mitigando informações irrelevantes. Para explorar fatores críticos, investigamos três aspectos: (1) Mecanismos de condicionamento: Descobrimos que mesmo um pequeno número de tokens locais pode reduzir drasticamente a dificuldade de reconstrução, levando ao colapso do treinamento. Concluímos, portanto, que utilizar apenas tokens visuais globais como condições é a estratégia mais eficaz. (2) Configurações de remoção de ruído: Observamos que o treinamento end-to-end introduz informações supérfluas. Para resolver isso, propomos uma estratégia de treinamento em duas etapas para priorizar o aprendizado de conhecimento visual útil. Além disso, demonstramos que desruidificadores leves podem gerar melhorias notáveis. (3) Paradigmas de geração: Exploramos tanto desruidificadores contínuos quanto discretos com resultados desejáveis, validando a versatilidade do nosso método. Por meio de nossas investigações detalhadas, chegamos finalmente a um método eficaz, denominado GenHancer, que supera consistentemente as abordagens anteriores no benchmark MMVP-VLM, por exemplo, 6,0% no OpenAICLIP. O CLIP aprimorado pode ser ainda integrado a modelos de linguagem multimodal de grande escala para melhor desempenho centrado em visão. Todos os modelos e códigos estão disponíveis publicamente.

BizGen: Avançando na Renderização Visual de Texto em Nível de Artigo para Geração de Infográficos
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Mar 26

ByYuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan

Recentemente, modelos de geração de texto para imagem de última geração, como Flux e Ideogram 2.0, fizeram progressos significativos na renderização visual de texto em nível de frase. Neste artigo, focamos nos cenários mais desafiadores de renderização visual de texto em nível de artigo e abordamos uma nova tarefa de gerar conteúdo empresarial de alta qualidade, incluindo infográficos e slides, com base em prompts descritivos em nível de artigo e layouts ultra-densos fornecidos pelo usuário. Os desafios fundamentais são duplos: contextos significativamente mais longos e a escassez de dados de conteúdo empresarial de alta qualidade. Em contraste com a maioria dos trabalhos anteriores que se concentram em um número limitado de sub-regiões e prompts em nível de frase, garantir a adesão precisa a layouts ultra-densos com dezenas ou até centenas de sub-regiões em conteúdo empresarial é muito mais desafiador. Fazemos duas contribuições técnicas principais: (i) a construção de um conjunto de dados de conteúdo empresarial escalável e de alta qualidade, ou seja, Infographics-650K, equipado com layouts ultra-densos e prompts, implementando um esquema de geração de infográficos aumentado por recuperação em camadas; e (ii) um esquema de atenção cruzada guiado por layout, que injeta dezenas de prompts por região em um conjunto de espaços latentes de regiões recortadas de acordo com os layouts ultra-densos, e refina cada sub-região de forma flexível durante a inferência usando um CFG condicional ao layout. Demonstramos os resultados robustos do nosso sistema em comparação com sistemas SOTA anteriores, como Flux e SD3, em nosso conjunto de prompts BizEval. Além disso, realizamos experimentos de ablação minuciosos para verificar a eficácia de cada componente. Esperamos que nosso Infographics-650K e BizEval construídos possam encorajar a comunidade mais ampla a avançar o progresso na geração de conteúdo empresarial.

LogQuant: Quantização de 2 Bits com Distribuição Logarítmica do Cache KV com Preservação Superior de Precisão
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

Mar 25

ByHan Chen, Zicong Jiang, Zining Zhang, Bingsheng He, Pingyi Luo, Mian Lu, Yuqiang Chen

Apresentamos o LogQuant, uma técnica inovadora de quantização de 2 bits para o Cache KV na inferência de modelos de linguagem de grande escala (LLMs), proporcionando economias significativas de memória enquanto mantém um desempenho superior. Métodos anteriores partem do pressuposto de que os tokens posteriores são mais importantes ou tentam prever tokens importantes com base em padrões de atenção anteriores. Ambas as abordagens, no entanto, podem resultar em gargalos de desempenho ou previsões incorretas frequentes. O LogQuant adota uma abordagem diferente. Ao aplicar um mecanismo de filtragem baseado em logaritmo, ele comprime seletivamente o Cache KV em todo o contexto, alcançando um desempenho melhor com a mesma ou até mesmo uma pegada de memória reduzida em comparação com métodos existentes. Em testes de benchmark, ele aumenta a taxa de transferência em 25% e amplia o tamanho do lote em 60% sem aumentar o consumo de memória. Para tarefas desafiadoras, como Matemática e Conclusão de Código, o LogQuant melhora a precisão em 40% a 200% na mesma taxa de compressão, superando técnicas comparáveis. O LogQuant integra-se facilmente com frameworks de inferência populares, como a biblioteca transformers do Python. A implementação pode ser encontrada em https://github.com/Concyclics/LogQuantKV.

MCTS-RAG: Aprimorando a Geração Aumentada por Recuperação com Busca em Árvore de Monte Carlo
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search

Mar 26

ByYunhai Hu, Yilun Zhao, Chen Zhao, Arman Cohan

Apresentamos o MCTS-RAG, uma abordagem inovadora que aprimora as capacidades de raciocínio de modelos de linguagem pequenos em tarefas intensivas em conhecimento, utilizando geração aumentada por recuperação (RAG) para fornecer contexto relevante e a Busca em Árvore de Monte Carlo (MCTS) para refinar caminhos de raciocínio. O MCTS-RAG integra dinamicamente a recuperação e o raciocínio por meio de um processo iterativo de tomada de decisão. Diferentemente dos métodos RAG padrão, que geralmente recuperam informações de forma independente do raciocínio e, portanto, integram o conhecimento de maneira subótima, ou do raciocínio MCTS convencional, que depende exclusivamente do conhecimento interno do modelo sem fatos externos, o MCTS-RAG combina raciocínio estruturado com recuperação adaptativa. Essa abordagem integrada melhora a tomada de decisões, reduz alucinações e garante maior precisão factual e consistência nas respostas. Os resultados experimentais em diversos conjuntos de dados de raciocínio e intensivos em conhecimento (ou seja, ComplexWebQA, GPQA e FoolMeTwice) mostram que nosso método permite que modelos de linguagem de pequena escala alcancem desempenho comparável a LLMs de ponta, como o GPT-4, ao escalar efetivamente o cálculo no tempo de inferência, estabelecendo um novo padrão para o raciocínio em modelos de pequena escala.

AccVideo: Acelerando Modelos de Difusão de Vídeo com Conjunto de Dados Sintético
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

Mar 25

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

Os modelos de difusão têm alcançado progressos notáveis no campo da geração de vídeos. No entanto, sua natureza iterativa de remoção de ruído exige um grande número de etapas de inferência para gerar um vídeo, o que é lento e computacionalmente caro. Neste artigo, começamos com uma análise detalhada dos desafios presentes nos métodos existentes de destilação de difusão e propomos um novo método eficiente, denominado AccVideo, para reduzir as etapas de inferência e acelerar os modelos de difusão de vídeo com um conjunto de dados sintético. Aproveitamos o modelo de difusão de vídeo pré-treinado para gerar múltiplas trajetórias válidas de remoção de ruído como nosso conjunto de dados sintético, o que elimina o uso de pontos de dados inúteis durante a destilação. Com base no conjunto de dados sintético, projetamos uma orientação de poucas etapas baseada em trajetórias que utiliza pontos de dados-chave das trajetórias de remoção de ruído para aprender o mapeamento de ruído para vídeo, permitindo a geração de vídeos em menos etapas. Além disso, como o conjunto de dados sintético captura a distribuição de dados em cada etapa de difusão, introduzimos uma estratégia de treinamento adversarial para alinhar a distribuição de saída do modelo estudante com a do nosso conjunto de dados sintético, melhorando assim a qualidade do vídeo. Experimentos extensivos demonstram que nosso modelo alcança uma melhoria de 8,5x na velocidade de geração em comparação com o modelo professor, mantendo um desempenho comparável. Em comparação com métodos anteriores de aceleração, nossa abordagem é capaz de gerar vídeos com maior qualidade e resolução, ou seja, 5 segundos, 720x1280, 24fps.

Desbloqueando Raciocínio Eficiente de Longo para Curto em LLMs com Fusão de Modelos
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

Mar 26

ByHan Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan

A transição do raciocínio do Sistema 1 para o Sistema 2 em modelos de linguagem de grande escala (LLMs) marcou avanços significativos no tratamento de tarefas complexas por meio de pensamento deliberativo e iterativo. No entanto, esse progresso frequentemente ocorre à custa da eficiência, já que os modelos tendem a "pensar demais", gerando etapas de raciocínio redundantes sem melhorias proporcionais na qualidade da saída. O raciocínio Longo-para-Curto (L2S) surgiu como uma solução promissora para esse desafio, visando equilibrar a profundidade do raciocínio com a eficiência prática. Embora abordagens existentes, como ajuste fino supervisionado (SFT), aprendizado por reforço (RL) e engenharia de prompts, tenham mostrado potencial, elas são ou computacionalmente caras ou instáveis. A fusão de modelos, por outro lado, oferece uma alternativa econômica e robusta ao integrar as capacidades de pensamento rápido dos modelos do Sistema 1 com o raciocínio metódico dos modelos do Sistema 2. Neste trabalho, apresentamos um estudo empírico abrangente sobre a fusão de modelos para raciocínio L2S, explorando diversas metodologias, incluindo fusão baseada em vetores de tarefas, SVD e ativações informadas. Nossos experimentos revelam que a fusão de modelos pode reduzir o comprimento médio das respostas em até 55%, preservando ou até melhorando o desempenho de base. Também identificamos uma forte correlação entre a escala do modelo e a eficácia da fusão, com avaliações extensas em modelos de 1,5B/7B/14B/32B. Além disso, investigamos a capacidade do modelo fundido de autocriticar e autocorrigir, bem como seu comprimento de resposta adaptativo com base na complexidade da tarefa. Nossos resultados destacam a fusão de modelos como um paradigma altamente eficiente e eficaz para o raciocínio L2S, oferecendo uma solução prática para o problema de "pensar demais" enquanto mantém a robustez do raciocínio do Sistema 2. Este trabalho pode ser encontrado no Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.

ADS-Edit: Um Conjunto de Dados Multimodal para Edição de Conhecimento em Sistemas de Condução Autônoma
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

Mar 26

ByChenxi Wang, Jizhan Fang, Xiang Chen, Bozhong Tian, Ziwen Xu, Huajun Chen, Ningyu Zhang

Os recentes avanços em Modelos Multimodais de Grande Escala (LMMs) têm mostrado potencial em Sistemas de Condução Autônoma (ADS). No entanto, sua aplicação direta em ADS é dificultada por desafios como a má compreensão do conhecimento de tráfego, condições complexas das vias e estados diversos dos veículos. Para abordar esses desafios, propomos o uso de Edição de Conhecimento, que permite modificações direcionadas no comportamento de um modelo sem a necessidade de retreinamento completo. Paralelamente, introduzimos o ADS-Edit, um conjunto de dados de edição de conhecimento multimodal especificamente projetado para ADS, que inclui diversos cenários do mundo real, múltiplos tipos de dados e métricas de avaliação abrangentes. Realizamos experimentos abrangentes e derivamos várias conclusões interessantes. Esperamos que nosso trabalho contribua para o avanço adicional das aplicações de edição de conhecimento no campo da condução autônoma. O código e os dados estão disponíveis em https://github.com/zjunlp/EasyEdit.

Attention IoU: Examinando Vieses no CelebA Usando Mapas de Atenção
Attention IoU: Examining Biases in CelebA using Attention Maps

Mar 25

ByAaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy

Modelos de visão computacional têm demonstrado exibir e ampliar vieses em uma ampla variedade de conjuntos de dados e tarefas. Os métodos existentes para quantificar vieses em modelos de classificação focam principalmente na distribuição do conjunto de dados e no desempenho do modelo em subgrupos, negligenciando o funcionamento interno do modelo. Introduzimos a métrica Attention-IoU (Intersecção sobre União de Atenção) e escores relacionados, que utilizam mapas de atenção para revelar vieses nas representações internas de um modelo e identificar características das imagens que potencialmente causam esses vieses. Primeiro, validamos o Attention-IoU no conjunto de dados sintético Waterbirds, mostrando que a métrica mede com precisão o viés do modelo. Em seguida, analisamos o conjunto de dados CelebA, descobrindo que o Attention-IoU revela correlações além das disparidades de acurácia. Através de uma investigação de atributos individuais usando o atributo protegido "Masculino", examinamos as distintas maneiras pelas quais os vieses são representados no CelebA. Por fim, ao subamostrar o conjunto de treinamento para alterar as correlações de atributos, demonstramos que o Attention-IoU revela variáveis de confusão potenciais que não estão presentes nos rótulos do conjunto de dados.

ViLBench: Um Conjunto de Testes para Modelagem de Recompensas em Processamento Visão-Linguagem
ViLBench: A Suite for Vision-Language Process Reward Modeling

Mar 26

ByHaoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie

Modelos de recompensa supervisionados por processo servem como uma função refinada que fornece feedback detalhado passo a passo para as respostas do modelo, facilitando a seleção eficaz de trajetórias de raciocínio para tarefas complexas. Apesar de suas vantagens, a avaliação de PRMs (Process Reward Models) ainda é pouco explorada, especialmente no domínio multimodal. Para abordar essa lacuna, este artigo primeiro avalia os atuais modelos de linguagem de grande escala para visão (VLLMs) como dois tipos de modelos de recompensa: modelos de recompensa de saída (ORMs) e modelos de recompensa de processo (PRMs) em vários benchmarks de visão e linguagem, o que revela que nem ORM nem PRM superam consistentemente em todas as tarefas, e VLLMs superiores não necessariamente produzem melhor desempenho de recompensa. Para avançar ainda mais a avaliação, introduzimos o ViLBench, um benchmark de visão e linguagem projetado para exigir sinais intensivos de recompensa de processo. Notavelmente, o GPT-4o da OpenAI com Chain-of-Thought (CoT) alcança apenas 27,3% de precisão, indicando o desafio do benchmark para os atuais VLLMs. Por fim, mostramos preliminarmente um caminho promissor para preencher a lacuna entre VLLMs gerais e modelos de recompensa — ao coletar 73,6K dados de recompensa de processo de visão e linguagem usando um algoritmo aprimorado de busca em árvore, nosso modelo de 3B consegue uma melhoria média de 3,3% sobre o CoT padrão e até 2,5% em comparação com sua contraparte não treinada no ViLBench, selecionando as gerações do OpenAI o1. Disponibilizamos as implementações em https://ucsc-vlaa.github.io/ViLBench com nosso código, modelo e dados.

Amostragem de Logits Esparsa: Acelerando a Distilação de Conhecimento em LLMs
Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

Mar 21

ByAnshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee

A destilação de conhecimento pode ser uma técnica econômica para transferir conhecimento em Modelos de Linguagem de Grande Escala, se os logits de saída do professor puderem ser pré-computados e armazenados em cache. No entanto, a aplicação bem-sucedida desse método durante o pré-treinamento permanece amplamente inexplorada. Neste trabalho, demonstramos que abordagens ingênuas para destilação esparsa de conhecimento, como o armazenamento em cache das probabilidades Top-K, embora intuitivas, fornecem estimativas tendenciosas da distribuição de probabilidade do professor para o aluno, resultando em desempenho e calibração subótimos. Propomos um método baseado em amostragem por importância, chamado `Random Sampling Knowledge Distillation`, que fornece estimativas não tendenciosas, preserva o gradiente em expectativa e requer o armazenamento de logits significativamente mais esparsos. Nosso método permite um treinamento mais rápido dos modelos alunos com uma sobrecarga marginal (<10%) em comparação com o treinamento baseado em entropia cruzada, mantendo um desempenho competitivo em relação à destilação completa, em uma variedade de tamanhos de modelo, de 300M a 3B.

Imagem como uma IMU: Estimando o Movimento da Câmera a partir de uma Única Imagem com Desfoque de Movimento
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Mar 21

ByJerred Chen, Ronald Clark

Em muitas aplicações de robótica e realidade virtual/aumentada (VR/AR), movimentos rápidos da câmera causam um alto nível de desfoque de movimento, fazendo com que os métodos existentes de estimativa de pose da câmera falhem. Neste trabalho, propomos uma nova abordagem que utiliza o desfoque de movimento como uma pista rica para estimativa de movimento, em vez de tratá-lo como um artefato indesejado. Nosso método funciona prevendo um campo de fluxo de movimento denso e um mapa de profundidade monocular diretamente a partir de uma única imagem com desfoque de movimento. Em seguida, recuperamos a velocidade instantânea da câmera resolvendo um problema de mínimos quadrados lineares sob a suposição de pequenos movimentos. Em essência, nosso método produz uma medição semelhante a um IMU que captura de forma robusta movimentos rápidos e agressivos da câmera. Para treinar nosso modelo, construímos um grande conjunto de dados com desfoque de movimento sintético realista derivado do ScanNet++v2 e refinamos ainda mais nosso modelo treinando de ponta a ponta em dados reais usando nosso pipeline totalmente diferenciável. Avaliações extensas em benchmarks do mundo real demonstram que nosso método alcança estimativas de velocidade angular e translacional de última geração, superando métodos atuais como MASt3R e COLMAP.

Equilíbrio de Trajetória com Assincronia: Desacoplando Exploração e Aprendizado para Pós-Treinamento Rápido e Escalável de LLMs
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Mar 24

ByBrian R. Bartoldson, Siddarth Venkatraman, James Diffenderfer, Moksh Jain, Tal Ben-Nun, Seanie Lee, Minsu Kim, Johan Obando-Ceron, Yoshua Bengio, Bhavya Kailkhura

O aprendizado por reforço (RL) é um componente crítico do pós-treinamento de modelos de linguagem de grande escala (LLM). No entanto, os algoritmos on-policy existentes usados para pós-treinamento são intrinsecamente incompatíveis com o uso de buffers de replay de experiência, que podem ser preenchidos de forma escalável por atores off-policy distribuídos para melhorar a exploração à medida que o poder de computação aumenta. Propomos obter eficientemente esse benefício dos buffers de replay por meio do Trajectory Balance with Asynchrony (TBA), um sistema de RL para LLM massivamente escalável. Em contraste com as abordagens existentes, o TBA usa uma fração maior de computação na busca, gerando constantemente dados off-policy para um buffer de replay central. Um nó de treinamento amostra simultaneamente dados desse buffer com base na recompensa ou na recência para atualizar a política usando o Trajectory Balance (TB), um objetivo de RL que busca diversidade introduzido para GFlowNets. O TBA oferece três vantagens principais: (1) treinamento e busca desacoplados, acelerando o tempo de treinamento em 4x ou mais; (2) diversidade aprimorada por meio de amostragem off-policy em grande escala; e (3) busca escalável para cenários de recompensa esparsa. Em tarefas de raciocínio matemático, ajuste de preferências e red-teaming automatizado (tarefas de pós-treinamento diversas e representativas), o TBA produz melhorias de velocidade e desempenho em relação a baselines robustas.

Além das Palavras: Avançando na Geração de Imagens de Texto Longo por meio de Modelos Autoregressivos Multimodais
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

Mar 26

ByAlex Jinpeng Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Min Li

Os recentes avanços em modelos autoregressivos e de difusão têm levado a um forte desempenho na geração de imagens com palavras curtas de texto em cenas. No entanto, gerar textos longos e coerentes em imagens, como parágrafos em slides ou documentos, continua sendo um grande desafio para os modelos generativos atuais. Apresentamos o primeiro trabalho especificamente focado na geração de imagens com textos longos, abordando uma lacuna crítica nos sistemas existentes de texto para imagem, que normalmente lidam apenas com frases curtas ou sentenças únicas. Através de uma análise abrangente dos modelos de geração autoregressiva de última geração, identificamos o tokenizador de imagem como um gargalo crítico na qualidade da geração de texto. Para resolver isso, introduzimos um novo tokenizador binário focado em texto, otimizado para capturar características detalhadas de texto em cenas. Utilizando nosso tokenizador, desenvolvemos o \ModelName, um modelo autoregressivo multimodal que se destaca na geração de imagens de texto longo de alta qualidade com fidelidade sem precedentes. Nosso modelo oferece robusta controlabilidade, permitindo a personalização de propriedades de texto, como estilo de fonte, tamanho, cor e alinhamento. Experimentos extensivos demonstram que o \ModelName~supera significativamente o SD3.5 Large~sd3 e o GPT4o~gpt4o com DALL-E 3~dalle3 na geração de textos longos de forma precisa, consistente e flexível. Além de suas conquistas técnicas, o \ModelName~abre oportunidades emocionantes para aplicações inovadoras, como a geração intercalada de documentos e PowerPoints, estabelecendo uma nova fronteira na geração de imagens com textos longos.

Aprendizado Autossupervisionado de Conceitos de Movimento por Otimização de Contrafactuais
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals

Mar 25

ByStefan Stojanov, David Wendt, Seungwoo Kim, Rahul Venkatesh, Kevin Feigelis, Jiajun Wu, Daniel LK Yamins

A estimação de movimento em vídeos é um problema essencial de visão computacional com diversas aplicações subsequentes, incluindo geração controlada de vídeos e robótica. As soluções atuais são principalmente treinadas usando dados sintéticos ou exigem ajustes de heurísticas específicas para cada situação, o que limita inerentemente as capacidades desses modelos em contextos do mundo real. Apesar dos recentes avanços no aprendizado auto-supervisionado em larga escala a partir de vídeos, o aproveitamento de tais representações para estimação de movimento permanece relativamente pouco explorado. Neste trabalho, desenvolvemos o Opt-CWM, uma técnica auto-supervisionada para estimação de fluxo e oclusão a partir de um modelo pré-treinado de previsão de quadros subsequentes. O Opt-CWM funciona aprendendo a otimizar sondagens contrafactuais que extraem informações de movimento de um modelo base de vídeo, evitando a necessidade de heurísticas fixas enquanto treina com entradas de vídeo irrestritas. Alcançamos desempenho de ponta na estimação de movimento em vídeos do mundo real sem a necessidade de dados rotulados.

DINeMo: Aprendendo Modelos de Malha Neural sem Anotações 3D
DINeMo: Learning Neural Mesh Models with no 3D Annotations

Mar 26

ByWeijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille

A estimação de pose 3D/6D em nível de categoria é uma etapa crucial para a compreensão abrangente de cenas 3D, o que permitiria uma ampla gama de aplicações em robótica e IA incorporada. Trabalhos recentes exploraram modelos de malha neural que abordam uma variedade de tarefas 2D e 3D a partir de uma perspectiva de análise por síntese. Apesar da robustez significativamente aprimorada em relação a oclusões parciais e mudanças de domínio, esses métodos dependiam fortemente de anotações 3D para aprendizado contrastivo de partes, o que os confinava a um conjunto restrito de categorias e dificultava a escalabilidade eficiente. Neste trabalho, apresentamos o DINeMo, um novo modelo de malha neural que é treinado sem anotações 3D, aproveitando pseudo-correspondências obtidas de grandes modelos de fundação visual. Adotamos um método bidirecional de geração de pseudo-correspondências, que produz pseudo-correspondências utilizando tanto características de aparência local quanto informações de contexto global. Resultados experimentais em conjuntos de dados de carros demonstram que nosso DINeMo supera significativamente métodos anteriores de estimação de pose 3D com zero-shot e few-shot, reduzindo a lacuna com métodos totalmente supervisionados em 67,3%. Nosso DINeMo também escala de forma eficaz e eficiente ao incorporar mais imagens não rotuladas durante o treinamento, o que demonstra as vantagens sobre métodos de aprendizado supervisionado que dependem de anotações 3D. Nossa página do projeto está disponível em https://analysis-by-synthesis.github.io/DINeMo/.

PathoHR: Predição de Sobrevivência ao Câncer de Mama em Imagens Patológicas de Alta Resolução
PathoHR: Breast Cancer Survival Prediction on High-Resolution Pathological Images

Mar 23

ByYang Luo, Shiru Wang, Jun Liu, Jiaxuan Xiao, Rundong Xue, Zeyu Zhang, Hao Zhang, Yu Lu, Yang Zhao, Yutong Xie

A previsão de sobrevivência ao câncer de mama na patologia computacional apresenta um desafio notável devido à heterogeneidade do tumor. Por exemplo, diferentes regiões do mesmo tumor na imagem patológica podem exibir características morfológicas e moleculares distintas. Isso dificulta a extração de características representativas das imagens de lâmina inteira (WSIs) que realmente refletem o potencial agressivo do tumor e os prováveis resultados de sobrevivência. Neste artigo, apresentamos o PathoHR, um novo pipeline para a previsão precisa da sobrevivência ao câncer de mama que melhora qualquer tamanho de imagens patológicas para permitir uma aprendizagem de características mais eficaz. Nossa abordagem envolve (1) a incorporação de um Vision Transformer (ViT) de alta resolução plug-and-play para aprimorar a representação de patches de WSIs, permitindo uma extração de características mais detalhada e abrangente, (2) a avaliação sistemática de múltiplas métricas de similaridade avançadas para comparar características extraídas de WSIs, otimizando o processo de aprendizagem de representação para capturar melhor as características do tumor, (3) a demonstração de que patches menores de imagem aprimorados seguindo o pipeline proposto podem alcançar precisão de previsão equivalente ou superior em comparação com patches maiores brutos, enquanto reduzem significativamente a sobrecarga computacional. Os resultados experimentais validam que o PathoHR oferece uma maneira potencial de integrar a resolução aprimorada da imagem com a aprendizagem de características otimizada para avançar a patologia computacional, oferecendo uma direção promissora para uma previsão de sobrevivência ao câncer de mama mais precisa e eficiente. O código estará disponível em https://github.com/AIGeeksGroup/PathoHR.

UniHDSA: Uma Abordagem Unificada de Predição de Relações para Análise Hierárquica da Estrutura de Documentos
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis

Mar 20

ByJiawei Wang, Kai Hu, Qiang Huo

A análise da estrutura de documentos, também conhecida como análise de layout de documentos, é crucial para compreender tanto o layout físico quanto a estrutura lógica de documentos, servindo para recuperação de informações, sumarização de documentos, extração de conhecimento, entre outros. A Análise Hierárquica da Estrutura de Documentos (HDSA, na sigla em inglês) tem como objetivo específico restaurar a estrutura hierárquica de documentos criados usando softwares de autoria com esquemas hierárquicos. Pesquisas anteriores seguiram principalmente duas abordagens: uma se concentra em resolver subtarefas específicas da HDSA de forma isolada, como detecção de tabelas ou previsão da ordem de leitura, enquanto a outra adota uma estrutura unificada que utiliza múltiplos ramos ou módulos, cada um projetado para abordar uma tarefa distinta. Neste trabalho, propomos uma abordagem unificada de previsão de relações para HDSA, chamada UniHDSA, que trata várias subtarefas da HDSA como problemas de previsão de relações e consolida os rótulos de previsão de relações em um espaço de rótulos unificado. Isso permite que um único módulo de previsão de relações lide com múltiplas tarefas simultaneamente, seja em uma análise de estrutura em nível de página ou de documento. Para validar a eficácia da UniHDSA, desenvolvemos um sistema multimodal de ponta a ponta baseado em arquiteturas Transformer. Resultados experimentais extensivos demonstram que nossa abordagem alcança desempenho de ponta em um benchmark de análise hierárquica da estrutura de documentos, o Comp-HRDoc, e resultados competitivos em um grande conjunto de dados de análise de layout de documentos, o DocLayNet, ilustrando efetivamente a superioridade de nosso método em todas as subtarefas. O benchmark Comp-HRDoc e as configurações da UniHDSA estão disponíveis publicamente em https://github.com/microsoft/CompHRDoc.

RecTable: Modelagem Rápida de Dados Tabulares com Fluxo Retificado
RecTable: Fast Modeling Tabular Data with Rectified Flow

Mar 26

ByMasane Fuchi, Tomohiro Takagi

Modelos baseados em pontuação ou de difusão geram dados tabulares de alta qualidade, superando modelos baseados em GANs e VAEs. No entanto, esses métodos exigem um tempo de treinamento substancial. Neste artigo, apresentamos o RecTable, que utiliza a modelagem de fluxo retificado, aplicada em áreas como geração de texto para imagem e texto para vídeo. O RecTable possui uma arquitetura simples, composta por alguns blocos de unidades lineares com portas empilhadas. Além disso, nossas estratégias de treinamento também são simples, incorporando uma distribuição de ruído de tipo misto e uma distribuição de passos de tempo logit-normal. Nossos experimentos demonstram que o RecTable alcança desempenho competitivo em comparação com vários modelos de difusão e baseados em pontuação de última geração, enquanto reduz o tempo de treinamento necessário. Nosso código está disponível em https://github.com/fmp453/rectable.

RONA: Geração Pragmaticamente Diversa de Legendas para Imagens com Relações de Coerência
RONA: Pragmatically Diverse Image Captioning with Coherence Relations

Mar 14

ByAashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee

Assistentes de escrita (por exemplo, Grammarly, Microsoft Copilot) tradicionalmente geram legendas de imagens diversas empregando variações sintáticas e semânticas para descrever componentes da imagem. No entanto, legendas escritas por humanos priorizam a transmissão de uma mensagem central juntamente com descrições visuais, utilizando pistas pragmáticas. Para aprimorar a diversidade pragmática, é essencial explorar maneiras alternativas de comunicar essas mensagens em conjunto com o conteúdo visual. Para enfrentar esse desafio, propomos o RONA, uma nova estratégia de prompt para Modelos de Linguagem Multimodais de Grande Escala (MLLM) que utiliza Relações de Coerência como um eixo de variação. Demonstramos que o RONA gera legendas com melhor diversidade geral e alinhamento com a verdade fundamental, em comparação com modelos MLLM de referência em múltiplos domínios. Nosso código está disponível em: https://github.com/aashish2000/RONA

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Relatório Técnico do Qwen2.5-Omni
Qwen2.5-Omni Technical Report

Mar 26

ByJin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin

166

Wan: Modelos Generativos de Vídeo em Grande Escala, Abertos e Avançados
Wan: Open and Advanced Large-Scale Video Generative Models

Mar 26

Relatório Técnico da Gemma 3
Gemma 3 Technical Report

Mar 25

Dita: Escalonando o Transformer de Difusão para Políticas Generalistas de Visão-Linguagem-Ação
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Mar 25

ByZhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen

Open Deep Search: Democratizando a Busca com Agentes de Raciocínio de Código Aberto
Open Deep Search: Democratizing Search with Open-source Reasoning Agents

Mar 26

BySalaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath

LEGO-Puzzles: Quão Boas São as MLLMs no Raciocínio Espacial Multi-Etapas?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

Mar 25

ByKexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen

Gemini Robotics: Integrando IA ao Mundo Físico
Gemini Robotics: Bringing AI into the Physical World

Mar 25

Prioris Incondicionais Importam! Melhorando a Geração Condicional de Modelos de Difusão Ajustados
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

Mar 26

ByPrin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung

GenHancer: Modelos Generativos Imperfeitos são Secretamente Poderosos Potencializadores Centrados em Visão
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

Mar 25

ByShijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan

BizGen: Avançando na Renderização Visual de Texto em Nível de Artigo para Geração de Infográficos
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Mar 26

ByYuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan

LogQuant: Quantização de 2 Bits com Distribuição Logarítmica do Cache KV com Preservação Superior de Precisão
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

Mar 25

ByHan Chen, Zicong Jiang, Zining Zhang, Bingsheng He, Pingyi Luo, Mian Lu, Yuqiang Chen

MCTS-RAG: Aprimorando a Geração Aumentada por Recuperação com Busca em Árvore de Monte Carlo
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search

Mar 26

ByYunhai Hu, Yilun Zhao, Chen Zhao, Arman Cohan

AccVideo: Acelerando Modelos de Difusão de Vídeo com Conjunto de Dados Sintético
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

Mar 25

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

Desbloqueando Raciocínio Eficiente de Longo para Curto em LLMs com Fusão de Modelos
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

Mar 26

ByHan Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan

ADS-Edit: Um Conjunto de Dados Multimodal para Edição de Conhecimento em Sistemas de Condução Autônoma
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

Mar 26

ByChenxi Wang, Jizhan Fang, Xiang Chen, Bozhong Tian, Ziwen Xu, Huajun Chen, Ningyu Zhang

Attention IoU: Examinando Vieses no CelebA Usando Mapas de Atenção
Attention IoU: Examining Biases in CelebA using Attention Maps

Mar 25

ByAaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy

ViLBench: Um Conjunto de Testes para Modelagem de Recompensas em Processamento Visão-Linguagem
ViLBench: A Suite for Vision-Language Process Reward Modeling

Mar 26

ByHaoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie

Amostragem de Logits Esparsa: Acelerando a Distilação de Conhecimento em LLMs
Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

Mar 21

ByAnshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee

Imagem como uma IMU: Estimando o Movimento da Câmera a partir de uma Única Imagem com Desfoque de Movimento
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Mar 21

ByJerred Chen, Ronald Clark

Equilíbrio de Trajetória com Assincronia: Desacoplando Exploração e Aprendizado para Pós-Treinamento Rápido e Escalável de LLMs
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Mar 24

ByBrian R. Bartoldson, Siddarth Venkatraman, James Diffenderfer, Moksh Jain, Tal Ben-Nun, Seanie Lee, Minsu Kim, Johan Obando-Ceron, Yoshua Bengio, Bhavya Kailkhura