Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Seaweed-7B: Treinamento Custo-Eficiente de um Modelo Base para Geração de Vídeos
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

ByTeam Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

130

Este relatório técnico apresenta uma estratégia de custo eficiente para treinar um modelo base de geração de vídeo. Apresentamos um modelo de pesquisa de médio porte com aproximadamente 7 bilhões de parâmetros (7B), chamado Seaweed-7B, treinado do zero utilizando 665.000 horas de GPU H100. Apesar de ter sido treinado com recursos computacionais moderados, o Seaweed-7B demonstra um desempenho altamente competitivo em comparação com modelos contemporâneos de geração de vídeo de tamanho muito maior. As escolhas de design são especialmente cruciais em um cenário com recursos limitados. Este relatório técnico destaca as principais decisões de design que melhoram o desempenho do modelo de difusão de médio porte. Empiricamente, fazemos duas observações: (1) o Seaweed-7B alcança um desempenho comparável ou até superior a modelos maiores treinados com recursos de GPU substancialmente maiores, e (2) nosso modelo, que exibe uma forte capacidade de generalização, pode ser efetivamente adaptado para uma ampla gama de aplicações downstream, seja por meio de ajuste fino leve ou por treinamento contínuo. Consulte a página do projeto em https://seaweed.video/

GigaTok: Escalonando Tokenizadores Visuais para 3 Bilhões de Parâmetros na Geração Autoregressiva de Imagens
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

Na geração de imagens autoregressiva (AR), os tokenizadores visuais comprimem imagens em tokens latentes discretos compactos, permitindo o treinamento eficiente de modelos autoregressivos subsequentes para geração visual por meio da previsão do próximo token. Embora a escalabilidade dos tokenizadores visuais melhore a qualidade da reconstrução de imagens, ela frequentemente degrada a qualidade da geração subsequente — um desafio não adequadamente abordado na literatura existente. Para resolver isso, introduzimos o GigaTok, a primeira abordagem a melhorar simultaneamente a reconstrução de imagens, a geração e o aprendizado de representação ao escalar tokenizadores visuais. Identificamos o aumento da complexidade do espaço latente como o fator-chave por trás do dilema entre reconstrução e geração. Para mitigar isso, propomos a regularização semântica, que alinha as características do tokenizador com características semanticamente consistentes de um codificador visual pré-treinado. Essa restrição evita a complexidade excessiva do espaço latente durante a escalabilidade, resultando em melhorias consistentes tanto na reconstrução quanto na geração autoregressiva subsequente. Com base na regularização semântica, exploramos três práticas-chave para escalar tokenizadores: (1) usar tokenizadores 1D para melhor escalabilidade, (2) priorizar a escalabilidade do decodificador ao expandir tanto o codificador quanto o decodificador, e (3) empregar perda de entropia para estabilizar o treinamento de tokenizadores em escala de bilhões. Ao escalar para 3 bilhões de parâmetros, o GigaTok alcança desempenho de ponta em reconstrução, geração AR subsequente e qualidade de representação AR subsequente.

MineWorld: Um Modelo de Mundo Interativo em Tempo Real e de Código Aberto no Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

A modelagem de mundos é uma tarefa crucial para permitir que agentes inteligentes interajam efetivamente com humanos e operem em ambientes dinâmicos. Neste trabalho, propomos o MineWorld, um modelo de mundo interativo em tempo real no Minecraft, um jogo sandbox de mundo aberto que tem sido utilizado como um ambiente comum para testes de modelagem de mundos. O MineWorld é impulsionado por um Transformer autoregressivo visual-ação, que recebe como entrada cenas do jogo e ações correspondentes, e gera novas cenas subsequentes seguindo as ações. Especificamente, ao transformar cenas visuais do jogo e ações em IDs de tokens discretos com um tokenizador de imagem e um tokenizador de ação, respectivamente, compomos a entrada do modelo com a concatenação dos dois tipos de IDs intercalados. O modelo é então treinado com previsão do próximo token para aprender representações ricas dos estados do jogo, bem como as condições entre estados e ações simultaneamente. Na inferência, desenvolvemos um novo algoritmo de decodificação paralela que prevê os tokens espacialmente redundantes em cada quadro ao mesmo tempo, permitindo que modelos em diferentes escalas gerem de 4 a 7 quadros por segundo e possibilitando interações em tempo real com os jogadores. Na avaliação, propomos novas métricas para avaliar não apenas a qualidade visual, mas também a capacidade de seguir ações ao gerar novas cenas, o que é crucial para um modelo de mundo. Nossa avaliação abrangente mostra a eficácia do MineWorld, superando significativamente os modelos de mundo baseados em difusão de última geração (SoTA) de código aberto. O código e o modelo foram disponibilizados.

VLM-R1: Um Modelo de Grande Escala Visão-Linguagem Estável e Generalizável no Estilo R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

Recentemente, o DeepSeek R1 demonstrou que o aprendizado por reforço (RL) pode melhorar substancialmente as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) por meio de um design simples, porém eficaz. O cerne do R1 reside em sua formulação de recompensa baseada em regras, que aproveita tarefas com respostas determinísticas de verdade fundamental para permitir um cálculo de recompensa preciso e estável. No domínio visual, observamos de forma semelhante que uma ampla gama de tarefas de compreensão visual é intrinsecamente equipada com anotações de verdade fundamental bem definidas. Essa propriedade as torna naturalmente compatíveis com mecanismos de recompensa baseados em regras. Motivados por essa observação, investigamos a extensão do aprendizado por reforço no estilo R1 para Modelos de Visão e Linguagem (VLMs), com o objetivo de aprimorar suas capacidades de raciocínio visual. Para isso, desenvolvemos o VLM-R1, um framework dedicado projetado para aproveitar o RL para melhorar o desempenho dos VLMs em tarefas gerais de visão e linguagem. Usando esse framework, exploramos ainda mais a viabilidade de aplicar o RL ao domínio visual. Os resultados experimentais indicam que o modelo baseado em RL não apenas oferece desempenho competitivo em tarefas de compreensão visual, mas também supera o Ajuste Fino Supervisionado (SFT) em capacidade de generalização. Além disso, realizamos estudos abrangentes de ablação que revelam uma série de insights notáveis, incluindo a presença de "reward hacking" na detecção de objetos, o surgimento do "momento 'aha' da OD", o impacto da qualidade dos dados de treinamento e o comportamento de escalonamento do RL em diferentes tamanhos de modelos. Por meio dessas análises, buscamos aprofundar a compreensão de como o aprendizado por reforço aprimora as capacidades dos modelos de visão e linguagem, e esperamos que nossas descobertas e contribuições de código aberto apoiem o progresso contínuo na comunidade de RL em visão e linguagem. Nosso código e modelo estão disponíveis em https://github.com/om-ai-lab/VLM-R1.

SQL-R1: Treinando Modelos de Raciocínio de Linguagem Natural para SQL por Aprendizado por Reforço
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Apr 11

ByPeixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo

Natural Language to SQL (NL2SQL) permite interações intuitivas com bancos de dados ao transformar consultas em linguagem natural em instruções SQL estruturadas. Apesar dos avanços recentes na melhoria da interação humano-computador em aplicações de banco de dados, desafios significativos persistem, especialmente em relação ao desempenho de inferência em cenários complexos que envolvem junções de múltiplas tabelas e consultas aninhadas. As metodologias atuais utilizam principalmente o ajuste fino supervisionado (SFT) para treinar o modelo NL2SQL, o que pode limitar a adaptabilidade e a interpretabilidade em novos ambientes (por exemplo, finanças e saúde). Para melhorar o desempenho de raciocínio do modelo NL2SQL nas situações complexas mencionadas, introduzimos o SQL-R1, um novo modelo de raciocínio NL2SQL treinado por algoritmos de aprendizado por reforço (RL). Projetamos uma função de recompensa baseada em RL especializada para tarefas NL2SQL e discutimos o impacto do problema de inicialização a frio na eficácia do treinamento intensivo. Além disso, alcançamos precisão competitiva utilizando apenas uma pequena quantidade de dados sintéticos NL2SQL para treinamento aumentado e exploramos ainda mais a engenharia de dados para RL. Nos experimentos existentes, o SQL-R1 alcançou precisão de execução de 88,6% e 66,6% nos benchmarks Spider e BIRD, respectivamente, utilizando apenas o modelo base de 7B.

PixelFlow: Modelos Gerativos no Espaço de Píxeis com Fluxo
PixelFlow: Pixel-Space Generative Models with Flow

Apr 10

ByShoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo

Apresentamos o PixelFlow, uma família de modelos de geração de imagens que opera diretamente no espaço de pixels brutos, em contraste com os modelos predominantes que atuam no espaço latente. Essa abordagem simplifica o processo de geração de imagens ao eliminar a necessidade de um Autoencoder Variacional (VAE) pré-treinado e permitir que todo o modelo seja treinável de ponta a ponta. Por meio de uma modelagem eficiente de fluxo em cascata, o PixelFlow alcança um custo computacional acessível no espaço de pixels. Ele obtém um FID de 1,98 no benchmark de geração de imagens condicionadas por classe do ImageNet com resolução de 256x256. Os resultados qualitativos de texto para imagem demonstram que o PixelFlow se destaca em qualidade de imagem, artisticidade e controle semântico. Esperamos que esse novo paradigma inspire e abra novas oportunidades para modelos de geração visual de próxima geração. O código e os modelos estão disponíveis em https://github.com/ShoufaChen/PixelFlow.

ZipIR: Transformador de Difusão em Pirâmide Latente para Restauração de Imagens de Alta Resolução
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Apr 11

ByYongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo

Os recentes avanços em modelos generativos melhoraram significativamente as capacidades de restauração de imagens, especialmente através de poderosos modelos de difusão que oferecem uma recuperação notável de detalhes semânticos e fidelidade local. No entanto, a implantação desses modelos em resoluções ultra-altas enfrenta uma troca crítica entre qualidade e eficiência devido às demandas computacionais dos mecanismos de atenção de longo alcance. Para resolver isso, apresentamos o ZipIR, uma nova estrutura que aprimora a eficiência, escalabilidade e modelagem de longo alcance para a restauração de imagens de alta resolução. O ZipIR emprega uma representação latente altamente comprimida que reduz a imagem em 32x, diminuindo efetivamente o número de tokens espaciais e permitindo o uso de modelos de alta capacidade, como o Diffusion Transformer (DiT). Para atingir esse objetivo, propomos um design de Latent Pyramid VAE (LP-VAE) que estrutura o espaço latente em sub-bandas para facilitar o treinamento de difusão. Treinado em imagens completas com resolução de até 2K, o ZipIR supera os métodos baseados em difusão existentes, oferecendo velocidade e qualidade incomparáveis na restauração de imagens de alta resolução a partir de entradas severamente degradadas.

Os LLMs de Nível de Doutorado Realmente Compreendem a Adição Elementar? Investigando a Aprendizagem de Regras versus Memorização em Modelos de Linguagem de Grande Escala
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Apr 7

ByYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

Apesar de obterem pontuações elevadas em benchmarks, os Modelos de Linguagem de Grande Escala (LLMs) frequentemente falham em problemas simples, levantando uma questão crítica: os LLMs aprendem princípios matemáticos ou apenas memorizam padrões? Em vez de projetar benchmarks cada vez mais complexos, como trabalhos recentes, investigamos isso usando a adição elementar de dois inteiros (0 a 2^{64}), explorando duas propriedades fundamentais: comutatividade (A+B=B+A) e generalização composicional (por meio de mapeamentos simbólicos isomórficos, por exemplo, 7 → y). Enquanto os LLMs de última geração alcançam 73,8-99,8% de precisão na adição numérica, o desempenho cai para ≤7,5% sob mapeamento simbólico, indicando falha em generalizar regras aprendidas. O escalonamento não monotônico do desempenho com o número de dígitos e violações frequentes de comutatividade (mais de 1.700 casos de A+B ≠ B+A) apoiam ainda mais essa conclusão. Fornecer explicitamente regras de adição degrada o desempenho em 81,2% em média, enquanto a autoexplicação mantém a precisão de base, sugerindo que o processamento aritmético dos LLMs está desalinhado com os princípios definidos por humanos. Nossos achados indicam que os LLMs atuais dependem mais da memorização de padrões do que da aprendizagem genuína de regras, destacando limitações arquitetônicas e a necessidade de novas abordagens para alcançar um verdadeiro raciocínio matemático.

Crônicas Visuais: Utilizando LLMs Multimodais para Analisar Coleções Massivas de Imagens
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Apr 11

ByBoyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

Apresentamos um sistema que utiliza Modelos de Linguagem Multimodais (MLLMs) para analisar um grande banco de dados com dezenas de milhões de imagens capturadas em diferentes momentos, com o objetivo de descobrir padrões em mudanças temporais. Especificamente, buscamos capturar mudanças frequentes que ocorrem simultaneamente ("tendências") em uma cidade ao longo de um determinado período. Diferentemente de análises visuais anteriores, nossa análise responde a consultas abertas (por exemplo, "quais são os tipos frequentes de mudanças na cidade?") sem qualquer assunto-alvo pré-determinado ou rótulos de treinamento. Essas características tornam as ferramentas de análise visual baseadas em aprendizado ou não supervisionadas inadequadas. Identificamos os MLLMs como uma ferramenta inovadora devido às suas capacidades de compreensão semântica aberta. No entanto, nossos conjuntos de dados são quatro ordens de magnitude maiores do que o que um MLLM pode processar como contexto. Portanto, introduzimos um procedimento de baixo para cima que decompõe o problema massivo de análise visual em subproblemas mais tratáveis. Projetamos cuidadosamente soluções baseadas em MLLM para cada subproblema. Durante experimentos e estudos de ablação com nosso sistema, descobrimos que ele supera significativamente as linhas de base e é capaz de descobrir tendências interessantes a partir de imagens capturadas em grandes cidades (por exemplo, "adição de mesas ao ar livre", "viaduto foi pintado de azul", etc.). Veja mais resultados e demonstrações interativas em https://boyangdeng.com/visual-chronicles.

FlexIP: Controle Dinâmico de Preservação e Personalidade para Geração de Imagens Personalizadas
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Apr 10

ByLinyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao

Com o rápido avanço dos modelos generativos 2D, a preservação da identidade do sujeito enquanto se permite edições diversas emergiu como um foco crítico de pesquisa. Os métodos existentes geralmente enfrentam trade-offs inerentes entre a preservação da identidade e a manipulação personalizada. Apresentamos o FlexIP, uma nova estrutura que desacopla esses objetivos por meio de dois componentes dedicados: um Adaptador de Personalização para manipulação estilística e um Adaptador de Preservação para manutenção da identidade. Ao injetar explicitamente ambos os mecanismos de controle no modelo generativo, nossa estrutura permite controle parametrizado flexível durante a inferência por meio da sintonia dinâmica do adaptador de pesos. Resultados experimentais demonstram que nossa abordagem supera as limitações de desempenho dos métodos convencionais, alcançando uma preservação de identidade superior enquanto suporta capacidades de geração personalizada mais diversas (Página do Projeto: https://flexip-tech.github.io/flexip/).

In-2-4D: Interpolação de Duas Imagens de Visão Única para Geração 4D
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Apr 11

BySauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

Propomos um novo problema, In-2-4D, para a interpolação generativa em 4D (ou seja, 3D + movimento) a partir de uma configuração de entrada minimalista: duas imagens de visão única capturando um objeto em dois estados de movimento distintos. Dadas duas imagens que representam os estados inicial e final de um objeto em movimento, nosso objetivo é gerar e reconstruir o movimento em 4D. Utilizamos um modelo de interpolação de vídeo para prever o movimento, mas grandes variações entre quadros podem levar a interpretações ambíguas. Para superar isso, empregamos uma abordagem hierárquica para identificar quadros-chave que estão visualmente próximos aos estados de entrada e exibem movimento significativo, gerando então fragmentos suaves entre eles. Para cada fragmento, construímos a representação 3D do quadro-chave usando o método de *Gaussian Splatting*. Os quadros temporais dentro do fragmento guiam o movimento, permitindo sua transformação em Gaussianas dinâmicas por meio de um campo de deformação. Para melhorar a consistência temporal e refinar o movimento 3D, expandimos a auto-atenção da difusão multi-visão ao longo dos intervalos de tempo e aplicamos regularização de transformação rígida. Por fim, mesclamos os segmentos de movimento 3D gerados independentemente interpolando os campos de deformação de fronteira e otimizando-os para alinhar com o vídeo guia, garantindo transições suaves e sem cintilações. Através de extensos experimentos qualitativos e quantitativos, bem como de um estudo com usuários, demonstramos a eficácia do nosso método e de seus componentes. A página do projeto está disponível em https://in-2-4d.github.io/.

ModernBERT ou DeBERTaV3? Examinando a Influência da Arquitetura e dos Dados no Desempenho de Modelos de Codificadores Transformers
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Apr 11

ByWissam Antoun, Benoît Sagot, Djamé Seddah

Modelos pré-treinados de codificadores baseados em transformadores, como DeBERTaV3 e ModernBERT, introduzem avanços arquitetônicos voltados para melhorar eficiência e desempenho. Embora os autores do ModernBERT relatem um desempenho superior ao DeBERTaV3 em vários benchmarks, a falta de divulgação dos dados de treinamento e a ausência de comparações utilizando um conjunto de dados compartilhado dificultam a determinação de se esses ganhos são devidos a melhorias arquitetônicas ou a diferenças nos dados de treinamento. Neste trabalho, conduzimos um estudo controlado pré-treinando o ModernBERT no mesmo conjunto de dados utilizado pelo CamemBERTaV2, um modelo DeBERTaV3 em francês, isolando o efeito do design do modelo. Nossos resultados mostram que a geração anterior de modelos permanece superior em eficiência de amostragem e desempenho geral nos benchmarks, com a principal vantagem do ModernBERT sendo a velocidade mais rápida de treinamento e inferência. No entanto, o novo modelo proposto ainda oferece melhorias arquitetônicas significativas em comparação com modelos anteriores, como BERT e RoBERTa. Além disso, observamos que dados de pré-treinamento de alta qualidade aceleram a convergência, mas não melhoram significativamente o desempenho final, sugerindo uma possível saturação dos benchmarks. Esses achados destacam a importância de separar os dados de pré-treinamento das inovações arquitetônicas ao avaliar modelos baseados em transformadores.

CoRAG: Geração Aumentada por Recuperação Colaborativa
CoRAG: Collaborative Retrieval-Augmented Generation

Apr 2

ByAashiq Muhamed, Mona Diab, Virginia Smith

Os modelos de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) destacam-se em tarefas que demandam conhecimento intensivo, especialmente sob restrições de aprendizado com poucos exemplos. Apresentamos o CoRAG, uma estrutura que estende o RAG para cenários colaborativos, onde os clientes treinam conjuntamente um modelo compartilhado utilizando um repositório de passagens colaborativo. Para avaliar o CoRAG, introduzimos o CRAB, um benchmark para tarefas colaborativas homogêneas de questionamento em domínio aberto. Nossos experimentos demonstram que o CoRAG supera consistentemente tanto os métodos de aprendizado colaborativo paramétricos quanto os modelos RAG treinados localmente em cenários de baixos recursos. Análises adicionais revelam a importância crítica das passagens relevantes dentro do repositório compartilhado, os benefícios surpreendentes da incorporação de passagens irrelevantes e o potencial impacto negativo de negativos difíceis no desempenho. Isso introduz uma nova consideração no RAG colaborativo: a troca entre aproveitar uma base de conhecimento coletivamente enriquecida e o risco potencial de incorporar passagens prejudiciais de outros clientes. Nossas descobertas reforçam a viabilidade do CoRAG, ao mesmo tempo que destacam desafios cruciais de design e caminhos promissores para pesquisas futuras.

UKBOB: Um Bilhão de Máscaras Rotuladas por Ressonância Magnética para Segmentação Generalizável de Imagens Médicas 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Apr 9

ByEmmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

Na área de imagens médicas, o principal desafio é a coleta de dados em grande escala com anotações, devido a preocupações com privacidade, logística e altos custos de rotulagem. Neste trabalho, apresentamos o UK Biobank Organs and Bones (UKBOB), o maior conjunto de dados rotulados de órgãos do corpo, composto por 51.761 amostras de ressonância magnética 3D (equivalente a 17,9 milhões de imagens 2D) e mais de 1,37 bilhão de máscaras de segmentação 2D de 72 órgãos, todos baseados no conjunto de dados de ressonância magnética do UK Biobank. Utilizamos rotulagem automática, introduzimos um pipeline automatizado de limpeza de rótulos com filtros específicos para órgãos e anotamos manualmente um subconjunto de 300 ressonâncias magnéticas com 11 classes abdominais para validar a qualidade (denominado UKBOB-manual). Essa abordagem permite escalar a coleta de dados enquanto mantém a confiança nos rótulos. Confirmamos ainda a validade dos rótulos demonstrando a generalização zero-shot de modelos treinados no UKBOB filtrado para outros pequenos conjuntos de dados rotulados de domínios semelhantes (por exemplo, ressonância magnética abdominal). Para mitigar ainda mais o efeito de rótulos ruidosos, propomos um novo método chamado Entropy Test-time Adaptation (ETTA) para refinar a saída da segmentação. Utilizamos o UKBOB para treinar um modelo base, Swin-BOB, para segmentação de imagens médicas 3D com base na arquitetura Swin-UNetr, alcançando resultados de ponta em vários benchmarks de imagens médicas 3D, incluindo o desafio de tumores cerebrais em ressonância magnética BRATS (com uma melhoria de 0,4%) e o benchmark de tomografia computadorizada abdominal BTCV (com uma melhoria de 1,3%). Os modelos pré-treinados e o código estão disponíveis em https://emmanuelleb985.github.io/ukbob, e os rótulos filtrados serão disponibilizados junto com o UK Biobank.

Orientamento sem Treinamento na Geração de Texto para Vídeo via Planejamento Multimodal e Inicialização de Ruído Estruturado
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Apr 11

ByJialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

Avanços recentes em modelos de difusão de texto para vídeo (T2V) têm melhorado significativamente a qualidade visual dos vídeos gerados. No entanto, mesmo os modelos T2V mais recentes enfrentam dificuldades em seguir descrições textuais com precisão, especialmente quando o prompt exige controle preciso de layouts espaciais ou trajetórias de objetos. Uma linha recente de pesquisa utiliza orientação de layout para modelos T2V que requerem ajuste fino ou manipulação iterativa do mapa de atenção durante o tempo de inferência. Isso aumenta significativamente a demanda de memória, tornando difícil adotar um modelo T2V grande como base. Para resolver isso, introduzimos o Video-MSG, um método de Orientação sem necessidade de treinamento para geração T2V, baseado em planejamento multimodal e inicialização estruturada de ruído. O Video-MSG consiste em três etapas, onde nas duas primeiras, o Video-MSG cria um Esboço de Vídeo, um plano espaço-temporal detalhado para o vídeo final, especificando fundo, primeiro plano e trajetórias de objetos, na forma de frames de vídeo preliminares. Na última etapa, o Video-MSG orienta um modelo de difusão T2V subsequente com o Esboço de Vídeo por meio de inversão de ruído e remoção de ruído. Notavelmente, o Video-MSG não precisa de ajuste fino ou manipulação de atenção com memória adicional durante o tempo de inferência, facilitando a adoção de modelos T2V grandes. O Video-MSG demonstra sua eficácia em melhorar o alinhamento textual com múltiplas bases T2V (VideoCrafter2 e CogVideoX-5B) em benchmarks populares de geração T2V (T2VCompBench e VBench). Fornecemos estudos abrangentes de ablação sobre a proporção de inversão de ruído, diferentes geradores de fundo, detecção de objetos no fundo e segmentação de objetos em primeiro plano.

BlenderGym: Avaliação de Sistemas de Modelos Fundamentais para Edição Gráfica
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Apr 2

ByYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

A edição de gráficos 3D é crucial em aplicações como produção de filmes e design de jogos, mas continua sendo um processo demorado que exige expertise altamente especializada. Automatizar esse processo é desafiador porque a edição gráfica requer a execução de uma variedade de tarefas, cada uma demandando conjuntos de habilidades distintos. Recentemente, modelos de visão e linguagem (VLMs) surgiram como uma estrutura poderosa para automatizar o processo de edição, mas seu desenvolvimento e avaliação são limitados pela falta de um benchmark abrangente que exija percepção em nível humano e apresente complexidade de edição do mundo real. Neste trabalho, apresentamos o BlenderGym, o primeiro benchmark abrangente de sistema VLM para edição de gráficos 3D. O BlenderGym avalia sistemas VLM por meio de tarefas de reconstrução 3D baseadas em código. Avaliamos sistemas VLM de código fechado e aberto e observamos que até mesmo o sistema VLM mais avançado enfrenta dificuldades em tarefas relativamente fáceis para usuários humanos do Blender. Habilitados pelo BlenderGym, estudamos como técnicas de escalonamento de inferência impactam o desempenho do VLM em tarefas de edição gráfica. Notavelmente, nossas descobertas revelam que o verificador usado para guiar o escalonamento da geração pode ser aprimorado por meio do escalonamento de inferência, complementando insights recentes sobre o escalonamento de inferência da geração de LLMs em tarefas de codificação e matemática. Além disso, mostramos que o poder computacional de inferência não é uniformemente eficaz e pode ser otimizado ao ser estrategicamente distribuído entre geração e verificação.

InteractVLM: Raciocínio de Interação 3D a partir de Modelos Fundamentais 2D
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Apr 7

BySai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

Apresentamos o InteractVLM, um método inovador para estimar pontos de contato 3D em corpos humanos e objetos a partir de imagens únicas capturadas em ambientes reais, permitindo a reconstrução conjunta precisa de humanos e objetos em 3D. Esse desafio é complexo devido a oclusões, ambiguidades de profundidade e a grande variedade de formas de objetos. Métodos existentes dependem de anotações de contato 3D coletadas por meio de sistemas de captura de movimento caros ou rotulagem manual tediosa, limitando a escalabilidade e a generalização. Para superar isso, o InteractVLM aproveita o amplo conhecimento visual de grandes Modelos de Visão e Linguagem (VLMs), ajustados com dados limitados de contato 3D. No entanto, aplicar diretamente esses modelos não é trivial, pois eles raciocinam apenas em 2D, enquanto o contato humano-objeto é inerentemente 3D. Assim, introduzimos um novo módulo Render-Localize-Lift que: (1) incorpora superfícies 3D de corpos e objetos no espaço 2D por meio de renderização multi-visão, (2) treina um novo modelo de localização multi-visão (MV-Loc) para inferir contatos em 2D, e (3) eleva esses contatos para 3D. Além disso, propomos uma nova tarefa chamada Estimação de Contato Humano Semântico, onde as previsões de contato humano são explicitamente condicionadas à semântica do objeto, permitindo uma modelagem de interação mais rica. O InteractVLM supera trabalhos existentes em estimação de contato e também facilita a reconstrução 3D a partir de uma imagem capturada em ambiente real. Código e modelos estão disponíveis em https://interactvlm.is.tue.mpg.de.

SpecReason: Computação Rápida e Precisa em Tempo de Inferência via Raciocínio Especulativo
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Apr 10

ByRui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali

Avanços recentes em computação durante a inferência melhoraram significativamente o desempenho em tarefas complexas ao gerar longas cadeias de pensamento (CoTs, do inglês *Chains of Thought*) usando Modelos de Raciocínio de Grande Escala (LRMs, do inglês *Large Reasoning Models*). No entanto, essa maior precisão vem ao custo de uma alta latência de inferência devido ao comprimento das sequências de raciocínio geradas e à natureza autoregressiva da decodificação. Nossa principal percepção para enfrentar esses custos é que a inferência de LRMs, e o raciocínio que ela incorpora, é altamente tolerante a aproximações: tarefas complexas são tipicamente divididas em etapas mais simples, cada uma das quais traz utilidade com base na percepção semântica que fornece para etapas subsequentes, em vez dos tokens exatos que gera. Assim, introduzimos o SpecReason, um sistema que acelera automaticamente a inferência de LRMs usando um modelo leve para realizar (especulativamente) etapas intermediárias de raciocínio mais simples e reservando o modelo base custoso apenas para avaliar (e potencialmente corrigir) as saídas especuladas. É importante destacar que o foco do SpecReason em explorar a flexibilidade semântica dos tokens de pensamento para preservar a precisão da resposta final é complementar às técnicas de especulação anteriores, mais notavelmente a decodificação especulativa, que exige equivalência em nível de token a cada etapa. Em uma variedade de benchmarks de raciocínio, o SpecReason alcança uma aceleração de 1,5 a 2,5 vezes em relação à inferência padrão de LRMs, enquanto melhora a precisão em 1,0 a 9,9%. Em comparação com a decodificação especulativa sem o SpecReason, sua combinação resulta em uma redução adicional de latência de 19,4 a 44,2%. Disponibilizamos o SpecReason como código aberto em https://github.com/ruipeterpan/specreason.

Autoencoders de Difusão Latente: Rumo a uma Aprendizagem de Representação Não Supervisionada Eficiente e Significativa em Imagens Médicas
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Apr 11

ByGabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman

Este estudo apresenta o Latent Diffusion Autoencoder (LDAE), uma nova estrutura baseada em difusão do tipo codificador-decodificador para aprendizado não supervisionado eficiente e significativo em imagens médicas, com foco na doença de Alzheimer (DA) utilizando ressonância magnética cerebral (RM) do banco de dados ADNI como estudo de caso. Diferente dos autoencoders de difusão convencionais que operam no espaço de imagem, o LDAE aplica o processo de difusão em uma representação latente comprimida, melhorando a eficiência computacional e tornando o aprendizado de representação de imagens médicas 3D viável. Para validar a abordagem proposta, exploramos duas hipóteses principais: (i) o LDAE captura efetivamente representações semânticas significativas em RM cerebral 3D associadas à DA e ao envelhecimento, e (ii) o LDAE alcança geração e reconstrução de imagens de alta qualidade enquanto mantém eficiência computacional. Os resultados experimentais apoiam ambas as hipóteses: (i) avaliações com sondas lineares demonstram desempenho diagnóstico promissor para DA (ROC-AUC: 90%, ACC: 84%) e predição de idade (MAE: 4,1 anos, RMSE: 5,2 anos); (ii) as representações semânticas aprendidas permitem manipulação de atributos, gerando modificações anatomicamente plausíveis; (iii) experimentos de interpolação semântica mostram reconstrução robusta de exames ausentes, com SSIM de 0,969 (MSE: 0,0019) para um intervalo de 6 meses. Mesmo para intervalos maiores (24 meses), o modelo mantém desempenho robusto (SSIM > 0,93, MSE < 0,004), indicando capacidade de capturar tendências de progressão temporal; (iv) comparado a autoencoders de difusão convencionais, o LDAE aumenta significativamente a taxa de inferência (20x mais rápido) enquanto também melhora a qualidade da reconstrução. Esses resultados posicionam o LDAE como uma estrutura promissora para aplicações escaláveis em imagens médicas, com potencial para servir como um modelo base para análise de imagens médicas. O código está disponível em https://github.com/GabrieleLozupone/LDAE.

SAEs Podem Melhorar o Desaprendizado: Autoencoders Esparsos Dinâmicos como Barreiras de Segurança para o Desaprendizado de Precisão em LLMs
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Apr 11

ByAashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

O desaprendizado de máquina é uma abordagem promissora para melhorar a segurança de LLMs (Large Language Models) ao remover conhecimentos indesejados do modelo. No entanto, os métodos predominantes de desaprendizado baseados em gradiente sofrem com problemas como altos custos computacionais, instabilidade de hiperparâmetros, capacidade limitada de desaprendizado sequencial, vulnerabilidade a ataques de reaprendizado, baixa eficiência de dados e falta de interpretabilidade. Embora os Autoencoders Esparsos (Sparse Autoencoders - SAEs) sejam bem adequados para melhorar esses aspectos ao permitir o desaprendizado direcionado baseado em ativações, abordagens anteriores têm desempenho inferior aos métodos baseados em gradiente. Este trabalho demonstra que, ao contrário dessas descobertas anteriores, os SAEs podem melhorar significativamente o desaprendizado quando empregados dinamicamente. Introduzimos os Dynamic DAE Guardrails (DSG), um método novo para desaprendizado de precisão que utiliza seleção de características fundamentada e um classificador dinâmico. Nossos experimentos mostram que o DSG supera substancialmente os principais métodos de desaprendizado, alcançando melhores trade-offs entre esquecimento e utilidade. O DSG aborda as principais desvantagens das abordagens baseadas em gradiente para desaprendizado -- oferecendo maior eficiência e estabilidade computacional, desempenho robusto em desaprendizado sequencial, resistência mais forte a ataques de reaprendizado, melhor eficiência de dados, incluindo configurações zero-shot, e desaprendizado mais interpretável.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Seaweed-7B: Treinamento Custo-Eficiente de um Modelo Base para Geração de Vídeos
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

130

GigaTok: Escalonando Tokenizadores Visuais para 3 Bilhões de Parâmetros na Geração Autoregressiva de Imagens
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

MineWorld: Um Modelo de Mundo Interativo em Tempo Real e de Código Aberto no Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

VLM-R1: Um Modelo de Grande Escala Visão-Linguagem Estável e Generalizável no Estilo R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao