Artigos de pesquisa em IA selecionados diariamente com traduções
A Sora revelou o imenso potencial da arquitetura Diffusion Transformer (DiT) na geração de vídeos de cena única. No entanto, a tarefa mais desafiadora de geração de vídeos com múltiplas cenas, que oferece aplicações mais amplas, permanece relativamente pouco explorada. Para preencher essa lacuna, propomos o Mask^2DiT, uma abordagem inovadora que estabelece um alinhamento refinado e um-para-um entre segmentos de vídeo e suas respectivas anotações textuais. Especificamente, introduzimos uma máscara binária simétrica em cada camada de atenção dentro da arquitetura DiT, garantindo que cada anotação textual se aplique exclusivamente ao seu segmento de vídeo correspondente, enquanto preserva a coerência temporal entre os tokens visuais. Esse mecanismo de atenção permite um alinhamento preciso em nível de segmento entre texto e vídeo, permitindo que a arquitetura DiT lide efetivamente com tarefas de geração de vídeos com um número fixo de cenas. Para capacitar ainda mais a arquitetura DiT com a habilidade de gerar cenas adicionais com base nas existentes, incorporamos uma máscara condicional em nível de segmento, que condiciona cada novo segmento gerado aos segmentos de vídeo anteriores, permitindo assim a extensão auto-regressiva de cenas. Experimentos qualitativos e quantitativos confirmam que o Mask^2DiT se destaca em manter a consistência visual entre os segmentos, ao mesmo tempo que garante o alinhamento semântico entre cada segmento e sua descrição textual correspondente. Nossa página do projeto está disponível em https://tianhao-qi.github.io/Mask2DiTProject.
Neste relatório, apresentamos o Qwen2.5-Omni, um modelo multimodal de ponta a ponta projetado para perceber diversas modalidades, incluindo texto, imagens, áudio e vídeo, enquanto gera respostas em texto e fala natural de forma contínua. Para permitir o processamento contínuo de entradas multimodais, tanto os codificadores de áudio quanto os visuais utilizam uma abordagem de processamento em blocos. Para sincronizar os timestamps das entradas de vídeo com o áudio, organizamos o áudio e o vídeo sequencialmente de forma intercalada e propomos uma nova abordagem de incorporação de posição, denominada TMRoPE (Time-aligned Multimodal RoPE). Para gerar texto e fala simultaneamente, evitando interferências entre as duas modalidades, propomos a arquitetura Thinker-Talker. Neste framework, o Thinker funciona como um grande modelo de linguagem responsável pela geração de texto, enquanto o Talker é um modelo autoregressivo de dupla via que utiliza diretamente as representações ocultas do Thinker para produzir tokens de áudio como saída. Tanto o Thinker quanto o Talker são projetados para serem treinados e inferidos de forma end-to-end. Para decodificar tokens de áudio de forma contínua, introduzimos um DiT de janela deslizante que restringe o campo receptivo, visando reduzir o atraso inicial do pacote. O Qwen2.5-Omni é comparável ao Qwen2.5-VL de tamanho similar e supera o Qwen2-Audio. Além disso, o Qwen2.5-Omni alcança desempenho de ponta em benchmarks multimodais como o Omni-Bench. Notavelmente, o desempenho do Qwen2.5-Omni na execução de instruções de fala end-to-end é comparável às suas capacidades com entradas de texto, conforme evidenciado por benchmarks como MMLU e GSM8K. Quanto à geração de fala, o Talker contínuo do Qwen2.5-Omni supera a maioria das alternativas existentes, tanto contínuas quanto não contínuas, em robustez e naturalidade.
Este relatório apresenta Wan, uma suíte abrangente e aberta de modelos de base para vídeo projetada para expandir os limites da geração de vídeo. Construído sobre o paradigma dominante de transformadores de difusão, Wan alcança avanços significativos em capacidades generativas por meio de uma série de inovações, incluindo nosso novo VAE, estratégias escaláveis de pré-treinamento, curadoria de dados em larga escala e métricas de avaliação automatizadas. Essas contribuições coletivamente aprimoram o desempenho e a versatilidade do modelo. Especificamente, Wan é caracterizado por quatro características principais: Desempenho Líder: O modelo de 14B do Wan, treinado em um vasto conjunto de dados que compreende bilhões de imagens e vídeos, demonstra as leis de escalabilidade da geração de vídeo em relação tanto ao tamanho dos dados quanto ao do modelo. Ele consistentemente supera os modelos de código aberto existentes, bem como as soluções comerciais de ponta em múltiplos benchmarks internos e externos, demonstrando uma superioridade de desempenho clara e significativa. Abrangência: Wan oferece dois modelos capazes, ou seja, 1.3B e 14B parâmetros, para eficiência e eficácia, respectivamente. Ele também cobre múltiplas aplicações downstream, incluindo geração de vídeo a partir de imagens, edição de vídeo guiada por instruções e geração de vídeos pessoais, abrangendo até oito tarefas. Eficiência de Consumo: O modelo de 1.3B demonstra uma eficiência excepcional de recursos, exigindo apenas 8.19 GB de VRAM, tornando-o compatível com uma ampla gama de GPUs de consumo. Abertura: Disponibilizamos o código-fonte de toda a série Wan, incluindo código-fonte e todos os modelos, com o objetivo de fomentar o crescimento da comunidade de geração de vídeo. Essa abertura busca expandir significativamente as possibilidades criativas de produção de vídeo na indústria e fornecer à academia modelos de base de vídeo de alta qualidade. Todo o código e modelos estão disponíveis em https://github.com/Wan-Video/Wan2.1.
Apresentamos o Gemma 3, uma adição multimodal à família Gemma de modelos leves e abertos, que variam em escala de 1 a 27 bilhões de parâmetros. Esta versão introduz capacidades de compreensão visual, uma cobertura mais ampla de idiomas e um contexto mais longo — de pelo menos 128 mil tokens. Também modificamos a arquitetura do modelo para reduzir a memória do KV-cache, que tende a explodir com contextos longos. Isso é alcançado aumentando a proporção de camadas de atenção local em relação às globais e mantendo o alcance da atenção local curto. Os modelos Gemma 3 são treinados com destilação e alcançam desempenho superior ao Gemma 2, tanto nas versões pré-treinadas quanto nas ajustadas por instrução. Em particular, nossa nova receita de pós-treinamento melhora significativamente as habilidades em matemática, conversação, seguimento de instruções e multilingue, tornando o Gemma3-4B-IT competitivo com o Gemma2-27B-IT e o Gemma3-27B-IT comparável ao Gemini-1.5-Pro em benchmarks. Disponibilizamos todos os nossos modelos para a comunidade.
Embora modelos recentes de visão-linguagem-ação treinados em diversos conjuntos de dados robóticos exibam capacidades promissoras de generalização com dados limitados no domínio, sua dependência de cabeças de ação compactas para prever ações discretizadas ou contínuas restringe a adaptabilidade a espaços de ação heterogêneos. Apresentamos Dita, uma estrutura escalável que aproveita arquiteturas Transformer para desnaturar diretamente sequências de ações contínuas por meio de um processo unificado de difusão multimodal. Diferentemente de métodos anteriores que condicionam a desnaturação em embeddings fundidos por meio de redes rasas, Dita emprega condicionamento em contexto — permitindo um alinhamento refinado entre ações desnaturadas e tokens visuais brutos de observações históricas. Esse projeto modela explicitamente deltas de ação e nuances ambientais. Ao escalar o desnaturador de ação de difusão juntamente com a escalabilidade do Transformer, Dita integra efetivamente conjuntos de dados de múltiplas embodiências em diversas perspectivas de câmera, cenas de observação, tarefas e espaços de ação. Essa sinergia aumenta a robustez contra várias variâncias e facilita a execução bem-sucedida de tarefas de longo horizonte. Avaliações em benchmarks extensivos demonstram desempenho de ponta ou comparável em simulação. Notavelmente, Dita alcança uma adaptação robusta no mundo real a variâncias ambientais e tarefas complexas de longo horizonte por meio de ajuste fino com 10 exemplos, utilizando apenas entradas de câmera em terceira pessoa. A arquitetura estabelece uma linha de base versátil, leve e de código aberto para o aprendizado de políticas robóticas generalistas. Página do Projeto: https://robodita.github.io.
Apresentamos o Open Deep Search (ODS) para reduzir a crescente lacuna entre as soluções proprietárias de busca com IA, como o Sonar Reasoning Pro da Perplexity e o GPT-4o Search Preview da OpenAI, e suas contrapartes de código aberto. A principal inovação introduzida no ODS é aprimorar as capacidades de raciocínio dos mais recentes LLMs (Modelos de Linguagem de Grande Escala) de código aberto com agentes de raciocínio que podem usar ferramentas de busca na web de forma criteriosa para responder a consultas. Concretamente, o ODS consiste em dois componentes que funcionam com um LLM base escolhido pelo usuário: a Open Search Tool e o Open Reasoning Agent. O Open Reasoning Agent interpreta a tarefa dada e a completa orquestrando uma sequência de ações que inclui a chamada de ferramentas, uma das quais é a Open Search Tool. A Open Search Tool é uma nova ferramenta de busca na web que supera as contrapartes proprietárias. Juntamente com poderosos LLMs de raciocínio de código aberto, como o DeepSeek-R1, o ODS quase iguala e, às vezes, supera os melhores baselines existentes em dois benchmarks: SimpleQA e FRAMES. Por exemplo, no benchmark de avaliação FRAMES, o ODS melhora a precisão do melhor baseline existente, o GPT-4o Search Preview recentemente lançado, em 9,7%. O ODS é uma estrutura geral para aprimorar de forma contínua qualquer LLM — por exemplo, o DeepSeek-R1, que alcança 82,4% no SimpleQA e 30,1% no FRAMES — com capacidades de busca e raciocínio para atingir desempenho de ponta: 88,3% no SimpleQA e 75,3% no FRAMES.
O raciocínio espacial em múltiplos passos envolve a compreensão e o raciocínio sobre relações espaciais ao longo de várias etapas sequenciais, o que é crucial para abordar aplicações complexas do mundo real, como manipulação robótica, navegação autônoma e montagem automatizada. Para avaliar o quão bem os atuais Modelos de Linguagem Multimodal de Grande Escala (MLLMs) adquiriram essa capacidade fundamental, introduzimos o LEGO-Puzzles, um benchmark escalável projetado para avaliar tanto o entendimento espacial quanto o raciocínio sequencial em MLLMs por meio de tarefas baseadas em LEGO. O LEGO-Puzzles consiste em 1.100 amostras cuidadosamente curadas de questionamento visual (VQA) abrangendo 11 tarefas distintas, desde o entendimento espacial básico até o raciocínio complexo em múltiplos passos. Com base no LEGO-Puzzles, realizamos uma avaliação abrangente dos MLLMs mais avançados e revelamos limitações significativas em suas capacidades de raciocínio espacial: mesmo os MLLMs mais poderosos conseguem responder apenas cerca de metade dos casos de teste, enquanto participantes humanos alcançam mais de 90% de precisão. Além das tarefas de VQA, avaliamos as habilidades dos MLLMs para gerar imagens de LEGO seguindo ilustrações de montagem. Nossos experimentos mostram que apenas o Gemini-2.0-Flash e o GPT-4o exibem uma capacidade limitada de seguir essas instruções, enquanto outros MLLMs ou replicam a imagem de entrada ou geram saídas completamente irrelevantes. No geral, o LEGO-Puzzles expõe deficiências críticas no entendimento espacial e nas capacidades de raciocínio sequencial dos MLLMs existentes, e destaca a necessidade de avanços adicionais no raciocínio espacial multimodal.
Os recentes avanços em modelos multimodais de grande escala levaram ao surgimento de capacidades generalistas notáveis em domínios digitais, mas sua transposição para agentes físicos, como robôs, continua sendo um desafio significativo. Este relatório apresenta uma nova família de modelos de IA projetados especificamente para robótica e construídos sobre a base do Gemini 2.0. Apresentamos o Gemini Robotics, um modelo generalista avançado de Visão-Linguagem-Ação (VLA) capaz de controlar diretamente robôs. O Gemini Robotics executa movimentos suaves e reativos para lidar com uma ampla gama de tarefas complexas de manipulação, além de ser robusto a variações em tipos e posições de objetos, lidar com ambientes não vistos anteriormente e seguir instruções diversas e de vocabulário aberto. Mostramos que, com ajustes adicionais, o Gemini Robotics pode ser especializado em novas capacidades, incluindo a resolução de tarefas de longo prazo e altamente hábeis, o aprendizado de novas tarefas de curto prazo a partir de apenas 100 demonstrações e a adaptação a novas configurações de robôs completamente inéditas. Isso é possível porque o Gemini Robotics é construído sobre o modelo Gemini Robotics-ER, o segundo modelo que introduzimos neste trabalho. O Gemini Robotics-ER (Raciocínio Incorporado) estende as capacidades de raciocínio multimodal do Gemini para o mundo físico, com um entendimento aprimorado de espaço e tempo. Isso permite capacidades relevantes para robótica, incluindo detecção de objetos, apontamento, previsão de trajetória e de agarramento, além de correspondência multiview e previsão de caixas delimitadoras 3D. Mostramos como essa combinação inovadora pode suportar uma variedade de aplicações robóticas. Também discutimos e abordamos considerações importantes de segurança relacionadas a essa nova classe de modelos de base para robótica. A família Gemini Robotics representa um passo substancial em direção ao desenvolvimento de robôs de propósito geral que realizam o potencial da IA no mundo físico.
O Classifier-Free Guidance (CFG) é uma técnica fundamental no treinamento de modelos de difusão condicionais. A prática comum para o treinamento baseado em CFG é usar uma única rede para aprender tanto a previsão de ruído condicional quanto a incondicional, com uma pequena taxa de dropout para a condicionamento. No entanto, observamos que o aprendizado conjunto do ruído incondicional com largura de banda limitada durante o treinamento resulta em priores ruins para o caso incondicional. Mais importante ainda, essas previsões ruins de ruído incondicional tornam-se uma razão séria para a degradação da qualidade da geração condicional. Inspirados pelo fato de que a maioria dos modelos condicionais baseados em CFG são treinados por meio de ajuste fino de um modelo base com melhor geração incondicional, primeiro mostramos que simplesmente substituir o ruído incondicional no CFG por aquele previsto pelo modelo base pode melhorar significativamente a geração condicional. Além disso, mostramos que um modelo de difusão diferente daquele em que o modelo ajustado foi treinado pode ser usado para a substituição do ruído incondicional. Verificamos experimentalmente nossa afirmação com uma variedade de modelos condicionais baseados em CFG para geração de imagens e vídeos, incluindo Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter e InstructPix2Pix.
A sinergia entre modelos generativos e discriminativos tem recebido crescente atenção. Enquanto o pré-treinamento discriminativo de Linguagem-Imagem Contrastiva (CLIP) se destaca na semântica de alto nível, ele enfrenta dificuldades em perceber detalhes visuais refinados. Geralmente, para aprimorar as representações, os modelos generativos utilizam as características visuais do CLIP como condições para reconstrução. No entanto, o princípio subjacente permanece pouco explorado. Neste trabalho, descobrimos empiricamente que gerações visualmente perfeitas nem sempre são ideais para o aprimoramento de representações. A essência reside em extrair efetivamente conhecimento refinado dos modelos generativos, mitigando informações irrelevantes. Para explorar fatores críticos, investigamos três aspectos: (1) Mecanismos de condicionamento: Descobrimos que mesmo um pequeno número de tokens locais pode reduzir drasticamente a dificuldade de reconstrução, levando ao colapso do treinamento. Concluímos, portanto, que utilizar apenas tokens visuais globais como condições é a estratégia mais eficaz. (2) Configurações de remoção de ruído: Observamos que o treinamento end-to-end introduz informações supérfluas. Para resolver isso, propomos uma estratégia de treinamento em duas etapas para priorizar o aprendizado de conhecimento visual útil. Além disso, demonstramos que desruidificadores leves podem gerar melhorias notáveis. (3) Paradigmas de geração: Exploramos tanto desruidificadores contínuos quanto discretos com resultados desejáveis, validando a versatilidade do nosso método. Por meio de nossas investigações detalhadas, chegamos finalmente a um método eficaz, denominado GenHancer, que supera consistentemente as abordagens anteriores no benchmark MMVP-VLM, por exemplo, 6,0% no OpenAICLIP. O CLIP aprimorado pode ser ainda integrado a modelos de linguagem multimodal de grande escala para melhor desempenho centrado em visão. Todos os modelos e códigos estão disponíveis publicamente.
Recentemente, modelos de geração de texto para imagem de última geração, como Flux e Ideogram 2.0, fizeram progressos significativos na renderização visual de texto em nível de frase. Neste artigo, focamos nos cenários mais desafiadores de renderização visual de texto em nível de artigo e abordamos uma nova tarefa de gerar conteúdo empresarial de alta qualidade, incluindo infográficos e slides, com base em prompts descritivos em nível de artigo e layouts ultra-densos fornecidos pelo usuário. Os desafios fundamentais são duplos: contextos significativamente mais longos e a escassez de dados de conteúdo empresarial de alta qualidade. Em contraste com a maioria dos trabalhos anteriores que se concentram em um número limitado de sub-regiões e prompts em nível de frase, garantir a adesão precisa a layouts ultra-densos com dezenas ou até centenas de sub-regiões em conteúdo empresarial é muito mais desafiador. Fazemos duas contribuições técnicas principais: (i) a construção de um conjunto de dados de conteúdo empresarial escalável e de alta qualidade, ou seja, Infographics-650K, equipado com layouts ultra-densos e prompts, implementando um esquema de geração de infográficos aumentado por recuperação em camadas; e (ii) um esquema de atenção cruzada guiado por layout, que injeta dezenas de prompts por região em um conjunto de espaços latentes de regiões recortadas de acordo com os layouts ultra-densos, e refina cada sub-região de forma flexível durante a inferência usando um CFG condicional ao layout. Demonstramos os resultados robustos do nosso sistema em comparação com sistemas SOTA anteriores, como Flux e SD3, em nosso conjunto de prompts BizEval. Além disso, realizamos experimentos de ablação minuciosos para verificar a eficácia de cada componente. Esperamos que nosso Infographics-650K e BizEval construídos possam encorajar a comunidade mais ampla a avançar o progresso na geração de conteúdo empresarial.
Apresentamos o LogQuant, uma técnica inovadora de quantização de 2 bits para o Cache KV na inferência de modelos de linguagem de grande escala (LLMs), proporcionando economias significativas de memória enquanto mantém um desempenho superior. Métodos anteriores partem do pressuposto de que os tokens posteriores são mais importantes ou tentam prever tokens importantes com base em padrões de atenção anteriores. Ambas as abordagens, no entanto, podem resultar em gargalos de desempenho ou previsões incorretas frequentes. O LogQuant adota uma abordagem diferente. Ao aplicar um mecanismo de filtragem baseado em logaritmo, ele comprime seletivamente o Cache KV em todo o contexto, alcançando um desempenho melhor com a mesma ou até mesmo uma pegada de memória reduzida em comparação com métodos existentes. Em testes de benchmark, ele aumenta a taxa de transferência em 25% e amplia o tamanho do lote em 60% sem aumentar o consumo de memória. Para tarefas desafiadoras, como Matemática e Conclusão de Código, o LogQuant melhora a precisão em 40% a 200% na mesma taxa de compressão, superando técnicas comparáveis. O LogQuant integra-se facilmente com frameworks de inferência populares, como a biblioteca transformers do Python. A implementação pode ser encontrada em https://github.com/Concyclics/LogQuantKV.
Apresentamos o MCTS-RAG, uma abordagem inovadora que aprimora as capacidades de raciocínio de modelos de linguagem pequenos em tarefas intensivas em conhecimento, utilizando geração aumentada por recuperação (RAG) para fornecer contexto relevante e a Busca em Árvore de Monte Carlo (MCTS) para refinar caminhos de raciocínio. O MCTS-RAG integra dinamicamente a recuperação e o raciocínio por meio de um processo iterativo de tomada de decisão. Diferentemente dos métodos RAG padrão, que geralmente recuperam informações de forma independente do raciocínio e, portanto, integram o conhecimento de maneira subótima, ou do raciocínio MCTS convencional, que depende exclusivamente do conhecimento interno do modelo sem fatos externos, o MCTS-RAG combina raciocínio estruturado com recuperação adaptativa. Essa abordagem integrada melhora a tomada de decisões, reduz alucinações e garante maior precisão factual e consistência nas respostas. Os resultados experimentais em diversos conjuntos de dados de raciocínio e intensivos em conhecimento (ou seja, ComplexWebQA, GPQA e FoolMeTwice) mostram que nosso método permite que modelos de linguagem de pequena escala alcancem desempenho comparável a LLMs de ponta, como o GPT-4, ao escalar efetivamente o cálculo no tempo de inferência, estabelecendo um novo padrão para o raciocínio em modelos de pequena escala.
Os modelos de difusão têm alcançado progressos notáveis no campo da geração de vídeos. No entanto, sua natureza iterativa de remoção de ruído exige um grande número de etapas de inferência para gerar um vídeo, o que é lento e computacionalmente caro. Neste artigo, começamos com uma análise detalhada dos desafios presentes nos métodos existentes de destilação de difusão e propomos um novo método eficiente, denominado AccVideo, para reduzir as etapas de inferência e acelerar os modelos de difusão de vídeo com um conjunto de dados sintético. Aproveitamos o modelo de difusão de vídeo pré-treinado para gerar múltiplas trajetórias válidas de remoção de ruído como nosso conjunto de dados sintético, o que elimina o uso de pontos de dados inúteis durante a destilação. Com base no conjunto de dados sintético, projetamos uma orientação de poucas etapas baseada em trajetórias que utiliza pontos de dados-chave das trajetórias de remoção de ruído para aprender o mapeamento de ruído para vídeo, permitindo a geração de vídeos em menos etapas. Além disso, como o conjunto de dados sintético captura a distribuição de dados em cada etapa de difusão, introduzimos uma estratégia de treinamento adversarial para alinhar a distribuição de saída do modelo estudante com a do nosso conjunto de dados sintético, melhorando assim a qualidade do vídeo. Experimentos extensivos demonstram que nosso modelo alcança uma melhoria de 8,5x na velocidade de geração em comparação com o modelo professor, mantendo um desempenho comparável. Em comparação com métodos anteriores de aceleração, nossa abordagem é capaz de gerar vídeos com maior qualidade e resolução, ou seja, 5 segundos, 720x1280, 24fps.
A transição do raciocínio do Sistema 1 para o Sistema 2 em modelos de linguagem de grande escala (LLMs) marcou avanços significativos no tratamento de tarefas complexas por meio de pensamento deliberativo e iterativo. No entanto, esse progresso frequentemente ocorre à custa da eficiência, já que os modelos tendem a "pensar demais", gerando etapas de raciocínio redundantes sem melhorias proporcionais na qualidade da saída. O raciocínio Longo-para-Curto (L2S) surgiu como uma solução promissora para esse desafio, visando equilibrar a profundidade do raciocínio com a eficiência prática. Embora abordagens existentes, como ajuste fino supervisionado (SFT), aprendizado por reforço (RL) e engenharia de prompts, tenham mostrado potencial, elas são ou computacionalmente caras ou instáveis. A fusão de modelos, por outro lado, oferece uma alternativa econômica e robusta ao integrar as capacidades de pensamento rápido dos modelos do Sistema 1 com o raciocínio metódico dos modelos do Sistema 2. Neste trabalho, apresentamos um estudo empírico abrangente sobre a fusão de modelos para raciocínio L2S, explorando diversas metodologias, incluindo fusão baseada em vetores de tarefas, SVD e ativações informadas. Nossos experimentos revelam que a fusão de modelos pode reduzir o comprimento médio das respostas em até 55%, preservando ou até melhorando o desempenho de base. Também identificamos uma forte correlação entre a escala do modelo e a eficácia da fusão, com avaliações extensas em modelos de 1,5B/7B/14B/32B. Além disso, investigamos a capacidade do modelo fundido de autocriticar e autocorrigir, bem como seu comprimento de resposta adaptativo com base na complexidade da tarefa. Nossos resultados destacam a fusão de modelos como um paradigma altamente eficiente e eficaz para o raciocínio L2S, oferecendo uma solução prática para o problema de "pensar demais" enquanto mantém a robustez do raciocínio do Sistema 2. Este trabalho pode ser encontrado no Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Os recentes avanços em Modelos Multimodais de Grande Escala (LMMs) têm mostrado potencial em Sistemas de Condução Autônoma (ADS). No entanto, sua aplicação direta em ADS é dificultada por desafios como a má compreensão do conhecimento de tráfego, condições complexas das vias e estados diversos dos veículos. Para abordar esses desafios, propomos o uso de Edição de Conhecimento, que permite modificações direcionadas no comportamento de um modelo sem a necessidade de retreinamento completo. Paralelamente, introduzimos o ADS-Edit, um conjunto de dados de edição de conhecimento multimodal especificamente projetado para ADS, que inclui diversos cenários do mundo real, múltiplos tipos de dados e métricas de avaliação abrangentes. Realizamos experimentos abrangentes e derivamos várias conclusões interessantes. Esperamos que nosso trabalho contribua para o avanço adicional das aplicações de edição de conhecimento no campo da condução autônoma. O código e os dados estão disponíveis em https://github.com/zjunlp/EasyEdit.
Modelos de recompensa supervisionados por processo servem como uma função refinada que fornece feedback detalhado passo a passo para as respostas do modelo, facilitando a seleção eficaz de trajetórias de raciocínio para tarefas complexas. Apesar de suas vantagens, a avaliação de PRMs (Process Reward Models) ainda é pouco explorada, especialmente no domínio multimodal. Para abordar essa lacuna, este artigo primeiro avalia os atuais modelos de linguagem de grande escala para visão (VLLMs) como dois tipos de modelos de recompensa: modelos de recompensa de saída (ORMs) e modelos de recompensa de processo (PRMs) em vários benchmarks de visão e linguagem, o que revela que nem ORM nem PRM superam consistentemente em todas as tarefas, e VLLMs superiores não necessariamente produzem melhor desempenho de recompensa. Para avançar ainda mais a avaliação, introduzimos o ViLBench, um benchmark de visão e linguagem projetado para exigir sinais intensivos de recompensa de processo. Notavelmente, o GPT-4o da OpenAI com Chain-of-Thought (CoT) alcança apenas 27,3% de precisão, indicando o desafio do benchmark para os atuais VLLMs. Por fim, mostramos preliminarmente um caminho promissor para preencher a lacuna entre VLLMs gerais e modelos de recompensa — ao coletar 73,6K dados de recompensa de processo de visão e linguagem usando um algoritmo aprimorado de busca em árvore, nosso modelo de 3B consegue uma melhoria média de 3,3% sobre o CoT padrão e até 2,5% em comparação com sua contraparte não treinada no ViLBench, selecionando as gerações do OpenAI o1. Disponibilizamos as implementações em https://ucsc-vlaa.github.io/ViLBench com nosso código, modelo e dados.
Modelos de visão computacional têm demonstrado exibir e ampliar vieses em uma ampla variedade de conjuntos de dados e tarefas. Os métodos existentes para quantificar vieses em modelos de classificação focam principalmente na distribuição do conjunto de dados e no desempenho do modelo em subgrupos, negligenciando o funcionamento interno do modelo. Introduzimos a métrica Attention-IoU (Intersecção sobre União de Atenção) e escores relacionados, que utilizam mapas de atenção para revelar vieses nas representações internas de um modelo e identificar características das imagens que potencialmente causam esses vieses. Primeiro, validamos o Attention-IoU no conjunto de dados sintético Waterbirds, mostrando que a métrica mede com precisão o viés do modelo. Em seguida, analisamos o conjunto de dados CelebA, descobrindo que o Attention-IoU revela correlações além das disparidades de acurácia. Através de uma investigação de atributos individuais usando o atributo protegido "Masculino", examinamos as distintas maneiras pelas quais os vieses são representados no CelebA. Por fim, ao subamostrar o conjunto de treinamento para alterar as correlações de atributos, demonstramos que o Attention-IoU revela variáveis de confusão potenciais que não estão presentes nos rótulos do conjunto de dados.
Em muitas aplicações de robótica e realidade virtual/aumentada (VR/AR), movimentos rápidos da câmera causam um alto nível de desfoque de movimento, fazendo com que os métodos existentes de estimativa de pose da câmera falhem. Neste trabalho, propomos uma nova abordagem que utiliza o desfoque de movimento como uma pista rica para estimativa de movimento, em vez de tratá-lo como um artefato indesejado. Nosso método funciona prevendo um campo de fluxo de movimento denso e um mapa de profundidade monocular diretamente a partir de uma única imagem com desfoque de movimento. Em seguida, recuperamos a velocidade instantânea da câmera resolvendo um problema de mínimos quadrados lineares sob a suposição de pequenos movimentos. Em essência, nosso método produz uma medição semelhante a um IMU que captura de forma robusta movimentos rápidos e agressivos da câmera. Para treinar nosso modelo, construímos um grande conjunto de dados com desfoque de movimento sintético realista derivado do ScanNet++v2 e refinamos ainda mais nosso modelo treinando de ponta a ponta em dados reais usando nosso pipeline totalmente diferenciável. Avaliações extensas em benchmarks do mundo real demonstram que nosso método alcança estimativas de velocidade angular e translacional de última geração, superando métodos atuais como MASt3R e COLMAP.
A destilação de conhecimento pode ser uma técnica econômica para transferir conhecimento em Modelos de Linguagem de Grande Escala, se os logits de saída do professor puderem ser pré-computados e armazenados em cache. No entanto, a aplicação bem-sucedida desse método durante o pré-treinamento permanece amplamente inexplorada. Neste trabalho, demonstramos que abordagens ingênuas para destilação esparsa de conhecimento, como o armazenamento em cache das probabilidades Top-K, embora intuitivas, fornecem estimativas tendenciosas da distribuição de probabilidade do professor para o aluno, resultando em desempenho e calibração subótimos. Propomos um método baseado em amostragem por importância, chamado `Random Sampling Knowledge Distillation`, que fornece estimativas não tendenciosas, preserva o gradiente em expectativa e requer o armazenamento de logits significativamente mais esparsos. Nosso método permite um treinamento mais rápido dos modelos alunos com uma sobrecarga marginal (<10%) em comparação com o treinamento baseado em entropia cruzada, mantendo um desempenho competitivo em relação à destilação completa, em uma variedade de tamanhos de modelo, de 300M a 3B.
Os recentes avanços em modelos autoregressivos e de difusão têm levado a um forte desempenho na geração de imagens com palavras curtas de texto em cenas. No entanto, gerar textos longos e coerentes em imagens, como parágrafos em slides ou documentos, continua sendo um grande desafio para os modelos generativos atuais. Apresentamos o primeiro trabalho especificamente focado na geração de imagens com textos longos, abordando uma lacuna crítica nos sistemas existentes de texto para imagem, que normalmente lidam apenas com frases curtas ou sentenças únicas. Através de uma análise abrangente dos modelos de geração autoregressiva de última geração, identificamos o tokenizador de imagem como um gargalo crítico na qualidade da geração de texto. Para resolver isso, introduzimos um novo tokenizador binário focado em texto, otimizado para capturar características detalhadas de texto em cenas. Utilizando nosso tokenizador, desenvolvemos o \ModelName, um modelo autoregressivo multimodal que se destaca na geração de imagens de texto longo de alta qualidade com fidelidade sem precedentes. Nosso modelo oferece robusta controlabilidade, permitindo a personalização de propriedades de texto, como estilo de fonte, tamanho, cor e alinhamento. Experimentos extensivos demonstram que o \ModelName~supera significativamente o SD3.5 Large~sd3 e o GPT4o~gpt4o com DALL-E 3~dalle3 na geração de textos longos de forma precisa, consistente e flexível. Além de suas conquistas técnicas, o \ModelName~abre oportunidades emocionantes para aplicações inovadoras, como a geração intercalada de documentos e PowerPoints, estabelecendo uma nova fronteira na geração de imagens com textos longos.
O aprendizado por reforço (RL) é um componente crítico do pós-treinamento de modelos de linguagem de grande escala (LLM). No entanto, os algoritmos on-policy existentes usados para pós-treinamento são intrinsecamente incompatíveis com o uso de buffers de replay de experiência, que podem ser preenchidos de forma escalável por atores off-policy distribuídos para melhorar a exploração à medida que o poder de computação aumenta. Propomos obter eficientemente esse benefício dos buffers de replay por meio do Trajectory Balance with Asynchrony (TBA), um sistema de RL para LLM massivamente escalável. Em contraste com as abordagens existentes, o TBA usa uma fração maior de computação na busca, gerando constantemente dados off-policy para um buffer de replay central. Um nó de treinamento amostra simultaneamente dados desse buffer com base na recompensa ou na recência para atualizar a política usando o Trajectory Balance (TB), um objetivo de RL que busca diversidade introduzido para GFlowNets. O TBA oferece três vantagens principais: (1) treinamento e busca desacoplados, acelerando o tempo de treinamento em 4x ou mais; (2) diversidade aprimorada por meio de amostragem off-policy em grande escala; e (3) busca escalável para cenários de recompensa esparsa. Em tarefas de raciocínio matemático, ajuste de preferências e red-teaming automatizado (tarefas de pós-treinamento diversas e representativas), o TBA produz melhorias de velocidade e desempenho em relação a baselines robustas.
A estimação de pose 3D/6D em nível de categoria é uma etapa crucial para a compreensão abrangente de cenas 3D, o que permitiria uma ampla gama de aplicações em robótica e IA incorporada. Trabalhos recentes exploraram modelos de malha neural que abordam uma variedade de tarefas 2D e 3D a partir de uma perspectiva de análise por síntese. Apesar da robustez significativamente aprimorada em relação a oclusões parciais e mudanças de domínio, esses métodos dependiam fortemente de anotações 3D para aprendizado contrastivo de partes, o que os confinava a um conjunto restrito de categorias e dificultava a escalabilidade eficiente. Neste trabalho, apresentamos o DINeMo, um novo modelo de malha neural que é treinado sem anotações 3D, aproveitando pseudo-correspondências obtidas de grandes modelos de fundação visual. Adotamos um método bidirecional de geração de pseudo-correspondências, que produz pseudo-correspondências utilizando tanto características de aparência local quanto informações de contexto global. Resultados experimentais em conjuntos de dados de carros demonstram que nosso DINeMo supera significativamente métodos anteriores de estimação de pose 3D com zero-shot e few-shot, reduzindo a lacuna com métodos totalmente supervisionados em 67,3%. Nosso DINeMo também escala de forma eficaz e eficiente ao incorporar mais imagens não rotuladas durante o treinamento, o que demonstra as vantagens sobre métodos de aprendizado supervisionado que dependem de anotações 3D. Nossa página do projeto está disponível em https://analysis-by-synthesis.github.io/DINeMo/.
A estimação de movimento em vídeos é um problema essencial de visão computacional com diversas aplicações subsequentes, incluindo geração controlada de vídeos e robótica. As soluções atuais são principalmente treinadas usando dados sintéticos ou exigem ajustes de heurísticas específicas para cada situação, o que limita inerentemente as capacidades desses modelos em contextos do mundo real. Apesar dos recentes avanços no aprendizado auto-supervisionado em larga escala a partir de vídeos, o aproveitamento de tais representações para estimação de movimento permanece relativamente pouco explorado. Neste trabalho, desenvolvemos o Opt-CWM, uma técnica auto-supervisionada para estimação de fluxo e oclusão a partir de um modelo pré-treinado de previsão de quadros subsequentes. O Opt-CWM funciona aprendendo a otimizar sondagens contrafactuais que extraem informações de movimento de um modelo base de vídeo, evitando a necessidade de heurísticas fixas enquanto treina com entradas de vídeo irrestritas. Alcançamos desempenho de ponta na estimação de movimento em vídeos do mundo real sem a necessidade de dados rotulados.
Modelos baseados em pontuação ou de difusão geram dados tabulares de alta qualidade, superando modelos baseados em GANs e VAEs. No entanto, esses métodos exigem um tempo de treinamento substancial. Neste artigo, apresentamos o RecTable, que utiliza a modelagem de fluxo retificado, aplicada em áreas como geração de texto para imagem e texto para vídeo. O RecTable possui uma arquitetura simples, composta por alguns blocos de unidades lineares com portas empilhadas. Além disso, nossas estratégias de treinamento também são simples, incorporando uma distribuição de ruído de tipo misto e uma distribuição de passos de tempo logit-normal. Nossos experimentos demonstram que o RecTable alcança desempenho competitivo em comparação com vários modelos de difusão e baseados em pontuação de última geração, enquanto reduz o tempo de treinamento necessário. Nosso código está disponível em https://github.com/fmp453/rectable.
A análise da estrutura de documentos, também conhecida como análise de layout de documentos, é crucial para compreender tanto o layout físico quanto a estrutura lógica de documentos, servindo para recuperação de informações, sumarização de documentos, extração de conhecimento, entre outros. A Análise Hierárquica da Estrutura de Documentos (HDSA, na sigla em inglês) tem como objetivo específico restaurar a estrutura hierárquica de documentos criados usando softwares de autoria com esquemas hierárquicos. Pesquisas anteriores seguiram principalmente duas abordagens: uma se concentra em resolver subtarefas específicas da HDSA de forma isolada, como detecção de tabelas ou previsão da ordem de leitura, enquanto a outra adota uma estrutura unificada que utiliza múltiplos ramos ou módulos, cada um projetado para abordar uma tarefa distinta. Neste trabalho, propomos uma abordagem unificada de previsão de relações para HDSA, chamada UniHDSA, que trata várias subtarefas da HDSA como problemas de previsão de relações e consolida os rótulos de previsão de relações em um espaço de rótulos unificado. Isso permite que um único módulo de previsão de relações lide com múltiplas tarefas simultaneamente, seja em uma análise de estrutura em nível de página ou de documento. Para validar a eficácia da UniHDSA, desenvolvemos um sistema multimodal de ponta a ponta baseado em arquiteturas Transformer. Resultados experimentais extensivos demonstram que nossa abordagem alcança desempenho de ponta em um benchmark de análise hierárquica da estrutura de documentos, o Comp-HRDoc, e resultados competitivos em um grande conjunto de dados de análise de layout de documentos, o DocLayNet, ilustrando efetivamente a superioridade de nosso método em todas as subtarefas. O benchmark Comp-HRDoc e as configurações da UniHDSA estão disponíveis publicamente em https://github.com/microsoft/CompHRDoc.
A previsão de sobrevivência ao câncer de mama na patologia computacional apresenta um desafio notável devido à heterogeneidade do tumor. Por exemplo, diferentes regiões do mesmo tumor na imagem patológica podem exibir características morfológicas e moleculares distintas. Isso dificulta a extração de características representativas das imagens de lâmina inteira (WSIs) que realmente refletem o potencial agressivo do tumor e os prováveis resultados de sobrevivência. Neste artigo, apresentamos o PathoHR, um novo pipeline para a previsão precisa da sobrevivência ao câncer de mama que melhora qualquer tamanho de imagens patológicas para permitir uma aprendizagem de características mais eficaz. Nossa abordagem envolve (1) a incorporação de um Vision Transformer (ViT) de alta resolução plug-and-play para aprimorar a representação de patches de WSIs, permitindo uma extração de características mais detalhada e abrangente, (2) a avaliação sistemática de múltiplas métricas de similaridade avançadas para comparar características extraídas de WSIs, otimizando o processo de aprendizagem de representação para capturar melhor as características do tumor, (3) a demonstração de que patches menores de imagem aprimorados seguindo o pipeline proposto podem alcançar precisão de previsão equivalente ou superior em comparação com patches maiores brutos, enquanto reduzem significativamente a sobrecarga computacional. Os resultados experimentais validam que o PathoHR oferece uma maneira potencial de integrar a resolução aprimorada da imagem com a aprendizagem de características otimizada para avançar a patologia computacional, oferecendo uma direção promissora para uma previsão de sobrevivência ao câncer de mama mais precisa e eficiente. O código estará disponível em https://github.com/AIGeeksGroup/PathoHR.
Assistentes de escrita (por exemplo, Grammarly, Microsoft Copilot) tradicionalmente geram legendas de imagens diversas empregando variações sintáticas e semânticas para descrever componentes da imagem. No entanto, legendas escritas por humanos priorizam a transmissão de uma mensagem central juntamente com descrições visuais, utilizando pistas pragmáticas. Para aprimorar a diversidade pragmática, é essencial explorar maneiras alternativas de comunicar essas mensagens em conjunto com o conteúdo visual. Para enfrentar esse desafio, propomos o RONA, uma nova estratégia de prompt para Modelos de Linguagem Multimodais de Grande Escala (MLLM) que utiliza Relações de Coerência como um eixo de variação. Demonstramos que o RONA gera legendas com melhor diversidade geral e alinhamento com a verdade fundamental, em comparação com modelos MLLM de referência em múltiplos domínios. Nosso código está disponível em: https://github.com/aashish2000/RONA