Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de difusão de imagens foram adaptados para aprimorar a super resolução de vídeos do mundo real, a fim de lidar com problemas de suavização excessiva em métodos baseados em GAN. No entanto, esses modelos enfrentam dificuldades em manter consistência temporal, pois são treinados em imagens estáticas, o que limita sua capacidade de capturar dinâmicas temporais de forma eficaz. A integração de modelos texto-para-vídeo (T2V) na super resolução de vídeos para melhorar a modelagem temporal é direta. No entanto, dois desafios principais permanecem: artefatos introduzidos por degradações complexas em cenários do mundo real e fidelidade comprometida devido à forte capacidade generativa de modelos T2V poderosos (por exemplo, CogVideoX-5B). Para aprimorar a qualidade espaço-temporal de vídeos restaurados, apresentamos \textit{Nome do Método} (Aumento Espaço-Temporal com Modelos T2V para Super Resolução de Vídeos do Mundo Real), uma abordagem inovadora que aproveita modelos T2V para super resolução de vídeos do mundo real, alcançando detalhes espaciais realistas e consistência temporal robusta. Especificamente, introduzimos um Módulo de Aprimoramento de Informações Locais (LIEM) antes do bloco de atenção global para enriquecer detalhes locais e mitigar artefatos de degradação. Além disso, propomos uma Perda de Frequência Dinâmica (DF) para reforçar a fidelidade, orientando o modelo a focar em diferentes componentes de frequência ao longo das etapas de difusão. Experimentos extensos demonstram que \textit{Nome do Método} supera os métodos de ponta em conjuntos de dados sintéticos e do mundo real.
O notável desempenho do modelo o1 em raciocínio complexo demonstra que a escalabilidade computacional no momento do teste pode desbloquear ainda mais o potencial do modelo, permitindo um pensamento poderoso do Sistema-2. No entanto, ainda falta uma pesquisa abrangente sobre a escalabilidade computacional no momento do teste. Traçamos o conceito de escalabilidade computacional no momento do teste de volta aos modelos do Sistema-1. Nos modelos do Sistema-1, a computação no momento do teste aborda mudanças na distribuição e melhora a robustez e generalização por meio da atualização de parâmetros, modificação de entrada, edição de representação e calibração de saída. Nos modelos do Sistema-2, ela aprimora a capacidade de raciocínio do modelo para resolver problemas complexos por meio de amostragem repetida, autorretificação e busca em árvore. Organizamos esta pesquisa de acordo com a tendência do pensamento do Sistema-1 para o Sistema-2, destacando o papel-chave da computação no momento do teste na transição de modelos do Sistema-1 para modelos fracos do Sistema-2 e, em seguida, para modelos fortes do Sistema-2. Também apontamos algumas possíveis direções futuras.
Os modelos de linguagem grandes de ponta (LLMs) demonstram um desempenho promissor na resolução de problemas matemáticos complexos com um pipeline de dividir e conquistar e a assistência de exemplos de aprendizado em contexto (ICL). No entanto, seu potencial de melhoria é limitado por dois problemas críticos dentro de seus exemplos de ICL: a falta de correspondência de granularidade e o subsequente problema de ruído de efeito negativo. Especificamente, os LLMs são capazes do processo de divisão, mas falham principalmente devido a raciocínio impreciso em algumas etapas de conquista, enquanto os exemplos de ICL recuperados em granularidade de questão às vezes carecem de etapas relevantes para uma etapa específica de raciocínio desafiadora. Além disso, essa desconexão pode prejudicar o raciocínio correto devido à sua irrelevância. Com isso, focamos em melhorar a qualidade de raciocínio dentro de cada etapa e apresentamos o BoostStep. O BoostStep alinha a granularidade entre a recuperação e o raciocínio em granularidade de etapa, e fornece exemplos de ICL altamente relacionados para cada etapa de raciocínio com uma estratégia inovadora de 'primeira tentativa'. O BoostStep fornece exemplos mais relevantes do que a estratégia de granularidade de questão grosseira, aprimorando a qualidade de raciocínio do modelo dentro de cada etapa de forma constante. O BoostStep é um método geral e robusto de aprimoramento de raciocínio que não apenas melhora o desempenho de raciocínio independente, mas também se integra perfeitamente com métodos de Busca em Árvore de Monte Carlo (MCTS) para refinar tanto a geração de candidatos quanto a tomada de decisão. Quantitativamente, melhora o GPT-4o e o Qwen2.5-Math-72B em 3,6\% e 2,0\%, respectivamente, em vários benchmarks matemáticos, e 7,5\% combinado com MCTS.
A interação ativa em tempo real com modelos de linguagem de vídeo introduz um novo paradigma para a interação humano-computador, onde o modelo não apenas compreende a intenção do usuário, mas também responde enquanto processa continuamente o vídeo em tempo real. Ao contrário dos modelos de linguagem de vídeo offline, que analisam o vídeo inteiro antes de responder às perguntas, a interação ativa em tempo real requer três capacidades: 1) Percepção: monitoramento de vídeo em tempo real e captura de interação. 2) Decisão: tomada de decisão proativa em situações apropriadas. 3) Reação: interação contínua com os usuários. No entanto, existem conflitos inerentes entre as capacidades desejadas. A Decisão e a Reação requerem uma escala e granularidade de Percepção contrárias, e a decodificação autoregressiva bloqueia a Percepção e a Decisão em tempo real durante a Reação. Para unificar as capacidades conflitantes dentro de um sistema harmonioso, apresentamos o Dispider, um sistema que separa a Percepção, Decisão e Reação. O Dispider apresenta um módulo de processamento de vídeo em tempo real proativo e leve que rastreia o fluxo de vídeo e identifica momentos ótimos para interação. Uma vez que a interação é acionada, um módulo de interação assíncrona fornece respostas detalhadas, enquanto o módulo de processamento continua monitorando o vídeo ao mesmo tempo. Nosso design desembaraçado e assíncrono garante respostas oportunas, precisas contextualmente e eficientes computacionalmente, tornando o Dispider ideal para interação ativa em tempo real em fluxos de vídeo de longa duração. Experimentos mostram que o Dispider não apenas mantém um desempenho forte em tarefas convencionais de perguntas e respostas de vídeo, mas também supera significativamente modelos online anteriores em respostas de cenários de streaming, validando assim a eficácia de nossa arquitetura. O código e o modelo estão disponíveis em https://github.com/Mark12Ding/Dispider.
À medida que os modelos de linguagem de grande escala (LLMs) evoluem, sua capacidade de fornecer respostas personalizadas e sensíveis ao contexto oferece um potencial transformador para melhorar as experiências do usuário. No entanto, as abordagens de personalização existentes frequentemente se baseiam exclusivamente no histórico do usuário para complementar a solicitação, limitando sua eficácia na geração de saídas personalizadas, especialmente em cenários de inicialização a frio com dados esparsos. Para lidar com essas limitações, propomos a Geração Aprimorada com Recuperação Baseada em Grafo Personalizado (PGraphRAG), um framework que alavanca grafos de conhecimento centrados no usuário para enriquecer a personalização. Ao integrar diretamente o conhecimento estruturado do usuário no processo de recuperação e aprimorar as solicitações com contexto relevante do usuário, o PGraphRAG aprimora a compreensão contextual e a qualidade da saída. Também introduzimos o Benchmark Baseado em Grafo Personalizado para Geração de Texto, projetado para avaliar tarefas de geração de texto personalizado em ambientes do mundo real onde o histórico do usuário é escasso ou indisponível. Resultados experimentais mostram que o PGraphRAG supera significativamente os métodos de personalização de ponta em diversas tarefas, demonstrando as vantagens únicas da recuperação baseada em grafo para personalização.
Os modelos generativos de texto para vídeo deram passos significativos, possibilitando diversas aplicações em entretenimento, publicidade e educação. No entanto, a geração de vídeo RGBA, que inclui canais alfa para transparência, continua sendo um desafio devido a conjuntos de dados limitados e à dificuldade de adaptar modelos existentes. Os canais alfa são cruciais para efeitos visuais (VFX), permitindo que elementos transparentes como fumaça e reflexos se misturem perfeitamente às cenas. Apresentamos o TransPixar, um método para estender modelos de vídeo pré-treinados para geração RGBA, mantendo as capacidades originais RGB. O TransPixar aproveita uma arquitetura de transformador de difusão (DiT), incorporando tokens específicos para alfa e utilizando ajuste fino baseado em LoRA para gerar conjuntamente os canais RGB e alfa com alta consistência. Ao otimizar os mecanismos de atenção, o TransPixar preserva os pontos fortes do modelo RGB original e alcança uma forte alinhamento entre os canais RGB e alfa, apesar dos dados de treinamento limitados. Nossa abordagem gera efetivamente vídeos RGBA diversos e consistentes, avançando as possibilidades para VFX e criação de conteúdo interativo.
O treinamento de baixa precisão é considerado uma estratégia eficaz para reduzir tanto os custos de treinamento quanto os custos de inferência downstream. As leis de escalonamento anteriores para precisão focam principalmente na quantização de inteiros, que prestam menos atenção aos componentes na quantização de ponto flutuante e, portanto, não conseguem se adequar bem às perdas de LLM nesse cenário. Em contraste, embora o treinamento de quantização de ponto flutuante seja mais comumente implementado na produção, a pesquisa sobre isso tem sido relativamente superficial. Neste artigo, exploramos minuciosamente os efeitos das metas de quantização de ponto flutuante, bits de expoente, bits de mantissa e a granularidade de cálculo do fator de escala no desempenho de treinamento de quantização de ponto flutuante de modelos LLM. Ao apresentar uma lei de escalonamento unificada precisa para quantização de ponto flutuante, também fornecemos sugestões valiosas para a comunidade: (1) Os bits de expoente contribuem ligeiramente mais para o desempenho do modelo do que os bits de mantissa. Fornecemos a proporção ótima de bits de expoente-mantissa para diferentes números de bits, disponível para referência futura pelos fabricantes de hardware; (2) Descobrimos a formação do tamanho crítico de dados no treinamento de LLM de baixa precisão. Muitos dados de treinamento que excedem o tamanho crítico de dados trarão inversamente degradação no desempenho do LLM; (3) A precisão ótima de quantização de ponto flutuante é diretamente proporcional ao poder computacional, mas dentro de uma ampla faixa de poder computacional, estimamos que a melhor precisão de custo-desempenho está entre 4-8 bits.
Consideramos a tarefa de geração de Imagem-para-Vídeo (I2V), que envolve a transformação de imagens estáticas em sequências de vídeo realistas com base em uma descrição textual. Embora avanços recentes produzam saídas fotorrealísticas, frequentemente enfrentam dificuldades para criar vídeos com movimento de objetos preciso e consistente, especialmente em cenários com múltiplos objetos. Para lidar com essas limitações, propomos um framework compositivo de duas etapas que decompõe a geração I2V em: (i) Uma etapa de geração de representação intermediária explícita, seguida por (ii) Uma etapa de geração de vídeo condicionada a essa representação. Nossa principal inovação é a introdução de uma trajetória de movimento baseada em máscara como representação intermediária, que captura informações semânticas do objeto e movimento, possibilitando uma representação expressiva, porém compacta, de movimento e semântica. Para incorporar a representação aprendida na segunda etapa, utilizamos objetivos de atenção ao nível do objeto. Especificamente, consideramos um objetivo de atenção cruzada mascarada espacial, por objeto, integrando prompts específicos do objeto em regiões correspondentes do espaço latente e um objetivo de autoatenção espacial-temporal mascarada, garantindo consistência de quadro a quadro para cada objeto. Avaliamos nosso método em benchmarks desafiadores com cenários de múltiplos objetos e alto movimento e demonstramos empiricamente que o método proposto alcança resultados de ponta em coerência temporal, realismo de movimento e fidelidade à descrição textual. Além disso, introduzimos \benchmark, um novo benchmark desafiador para geração de I2V de objeto único e múltiplos objetos e demonstramos a superioridade de nosso método neste benchmark. A página do projeto está disponível em https://guyyariv.github.io/TTM/.
Nós pré-treinamos o METAGENE-1, um modelo autoregressivo transformer com 7 bilhões de parâmetros, que referimos como um modelo de fundação metagenômica, em um novo corpus de diversas sequências de DNA e RNA metagenômicas compreendendo mais de 1,5 trilhão de pares de bases. Este conjunto de dados é proveniente de uma grande coleção de amostras de águas residuais humanas, processadas e sequenciadas usando métodos de sequenciamento metagenômico profundo (próxima geração). Ao contrário dos modelos genômicos que se concentram em genomas individuais ou conjuntos curados de espécies específicas, o objetivo do METAGENE-1 é capturar a distribuição completa de informações genômicas presentes nessas águas residuais, para auxiliar em tarefas relevantes para monitoramento de pandemias e detecção de patógenos. Realizamos a tokenização de codificação de pares de bytes (BPE) em nosso conjunto de dados, adaptada para sequências metagenômicas, e então pré-treinamos nosso modelo. Neste artigo, detalhamos primeiro o conjunto de dados de pré-treinamento, estratégia de tokenização e arquitetura do modelo, destacando as considerações e escolhas de design que possibilitam a modelagem eficaz de dados metagenômicos. Em seguida, apresentamos os resultados do pré-treinamento deste modelo em nosso conjunto de dados metagenômicos, fornecendo detalhes sobre nossas perdas, métricas do sistema e estabilidade do treinamento ao longo do pré-treinamento. Finalmente, demonstramos o desempenho do METAGENE-1, que alcança resultados de ponta em um conjunto de benchmarks genômicos e novas avaliações focadas na detecção de patógenos humanos e incorporação de sequências genômicas, mostrando seu potencial para aplicações de saúde pública em monitoramento de pandemias, biossegurança e detecção precoce de ameaças à saúde emergentes.
A realização automatizada de testes de invasão tornou-se uma abordagem crucial para descobrir vulnerabilidades em grandes modelos de linguagem (LLMs). No entanto, a maioria dos métodos existentes foca em falhas de segurança isoladas, limitando sua capacidade de se adaptar a defesas dinâmicas e descobrir vulnerabilidades complexas de forma eficiente. Para enfrentar esse desafio, propomos o Auto-RT, um framework de aprendizado por reforço que explora e otimiza automaticamente estratégias de ataque complexas para descobrir efetivamente vulnerabilidades de segurança por meio de consultas maliciosas. Especificamente, introduzimos dois mecanismos-chave para reduzir a complexidade da exploração e melhorar a otimização da estratégia: 1) Exploração com Término Antecipado, que acelera a exploração ao focar em estratégias de ataque com alto potencial; e 2) Algoritmo de Rastreamento de Recompensa Progressiva com modelos intermediários de degradação, que refinam dinamicamente a trajetória de busca em direção à exploração bem-sucedida de vulnerabilidades. Experimentos extensivos em diversos LLMs demonstram que, ao melhorar significativamente a eficiência da exploração e otimizar automaticamente as estratégias de ataque, o Auto-RT detecta uma gama mais ampla de vulnerabilidades, alcançando uma velocidade de detecção mais rápida e taxas de sucesso 16,63% mais altas em comparação com os métodos existentes.
O controle de vídeo 4D é essencial na geração de vídeos, pois permite o uso de técnicas sofisticadas de lentes, como filmagem com múltiplas câmeras e zoom de dolly, que atualmente não são suportadas por métodos existentes. Treinar um Transformador de Difusão de Vídeo (DiT) diretamente para controlar conteúdo 4D requer vídeos multi-visão caros. Inspirados pela Síntese de Visualização Dinâmica Monocular (MDVS) que otimiza uma representação 4D e renderiza vídeos de acordo com diferentes elementos 4D, como pose da câmera e edição de movimento do objeto, introduzimos campos gaussianos pseudo 4D na geração de vídeos. Especificamente, propomos um novo framework que constrói um campo gaussiano pseudo 4D com rastreamento denso de pontos 3D e renderiza o campo gaussiano para todos os frames de vídeo. Em seguida, ajustamos finamente um DiT pré-treinado para gerar vídeos seguindo a orientação do vídeo renderizado, chamado de GS-DiT. Para impulsionar o treinamento do GS-DiT, também propomos um método eficiente de Rastreamento de Pontos 3D Densos (D3D-PT) para a construção do campo gaussiano pseudo 4D. Nosso D3D-PT supera o SpatialTracker, o método de rastreamento de pontos 3D esparsos de última geração, em precisão e acelera a velocidade de inferência em duas ordens de magnitude. Durante a etapa de inferência, o GS-DiT pode gerar vídeos com o mesmo conteúdo dinâmico enquanto adere a diferentes parâmetros da câmera, abordando uma limitação significativa dos modelos atuais de geração de vídeos. O GS-DiT demonstra fortes capacidades de generalização e estende a controlabilidade 4D do splatting gaussiano para a geração de vídeos além das poses de câmera. Ele suporta efeitos cinematográficos avançados por meio da manipulação do campo gaussiano e intrínsecos da câmera, tornando-se uma ferramenta poderosa para produção de vídeo criativa. Demonstrativos estão disponíveis em https://wkbian.github.io/Projects/GS-DiT/.
A estimativa de profundidade monocular dentro do paradigma de difusão e denoising demonstra uma impressionante capacidade de generalização, mas sofre com baixa velocidade de inferência. Métodos recentes adotam um paradigma determinístico de um único passo para melhorar a eficiência de inferência mantendo desempenho comparável. No entanto, eles negligenciam a lacuna entre características generativas e discriminativas, resultando em resultados subótimos. Neste trabalho, propomos o DepthMaster, um modelo de difusão de um único passo projetado para adaptar características generativas para a tarefa de estimativa de profundidade discriminativa. Primeiramente, para mitigar o overfitting a detalhes de textura introduzidos por características generativas, propomos um módulo de Alinhamento de Características, que incorpora características semânticas de alta qualidade para aprimorar a capacidade de representação da rede de denoising. Em segundo lugar, para lidar com a falta de detalhes refinados no framework determinístico de um único passo, propomos um módulo de Aprimoramento de Fourier para equilibrar adaptativamente a estrutura de baixa frequência e detalhes de alta frequência. Adotamos uma estratégia de treinamento em duas etapas para aproveitar totalmente o potencial dos dois módulos. Na primeira etapa, focamos em aprender a estrutura global da cena com o módulo de Alinhamento de Características, enquanto na segunda etapa, exploramos o módulo de Aprimoramento de Fourier para melhorar a qualidade visual. Através desses esforços, nosso modelo alcança desempenho de ponta em termos de generalização e preservação de detalhes, superando outros métodos baseados em difusão em vários conjuntos de dados. Nossa página do projeto pode ser encontrada em https://indu1ge.github.io/DepthMaster_page.
Os Modelos de Recompensa a Nível de Processo (PRMs) são cruciais para tarefas de raciocínio e tomada de decisão complexas, onde cada passo intermediário desempenha um papel importante no processo de raciocínio. Uma vez que os modelos de linguagem são propensos a vários tipos de erros durante o processo de raciocínio, os PRMs devem possuir capacidades sutis para detectar vários tipos de erros implícitos em cenários do mundo real. No entanto, os benchmarks atuais focam principalmente na correção dos passos, falhando em avaliar sistematicamente o desempenho dos PRMs. Para preencher essa lacuna, apresentamos o PRMBench, um benchmark a nível de processo especificamente projetado para avaliar as capacidades de detecção de erros refinados dos PRMs. O PRMBench é composto por 6.216 problemas cuidadosamente elaborados e 83.456 rótulos a nível de passo, avaliando modelos em várias dimensões, incluindo simplicidade, solidez e sensibilidade. Em nossos experimentos com 15 modelos, abrangendo tanto PRMs de código aberto quanto grandes modelos de linguagem de código fechado solicitados como modelos críticos, revelamos fraquezas significativas nos PRMs atuais. Essas descobertas destacam os desafios inerentes à avaliação a nível de processo e apontam direções-chave para pesquisas futuras. Esperamos que o PRMBench possa ser uma plataforma robusta para avançar na pesquisa sobre avaliação e desenvolvimento de PRMs.
A avaliação eficaz do uso de ferramentas de múltiplos saltos é fundamental para analisar as capacidades de compreensão, raciocínio e chamada de funções de grandes modelos de linguagem (LLMs). No entanto, o progresso tem sido prejudicado pela falta de conjuntos de dados de avaliação confiáveis. Para abordar essa questão, apresentamos o ToolHop, um conjunto de dados composto por 995 consultas de usuário e 3.912 ferramentas associadas, especificamente projetado para uma avaliação rigorosa do uso de ferramentas de múltiplos saltos. O ToolHop garante consultas diversas, interdependências significativas, ferramentas localmente executáveis, feedback detalhado e respostas verificáveis por meio de uma abordagem de construção de dados orientada por consultas que inclui criação de ferramentas, refinamento de documentos e geração de código. Avaliamos 14 LLMs em cinco famílias de modelos (ou seja, LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), revelando desafios significativos no manuseio de cenários de uso de ferramentas de múltiplos saltos. O modelo líder, GPT-4o, alcança uma precisão de 49,04%, destacando um espaço substancial para melhoria. Uma análise adicional revela variações nas estratégias de uso de ferramentas para diferentes famílias, oferecendo insights acionáveis para orientar o desenvolvimento de abordagens mais eficazes. O código e os dados podem ser encontrados em https://huggingface.co/bytedance-research/ToolHop.
Propomos o Samba ASR, o primeiro modelo de Reconhecimento Automático de Fala (ASR) de última geração que utiliza a inovadora arquitetura Mamba tanto como codificador quanto decodificador, construído sobre os fundamentos de modelos de espaço de estados (SSMs). Ao contrário dos modelos de ASR baseados em transformadores, que dependem de mecanismos de autoatenção para capturar dependências, o Samba ASR modela efetivamente as dependências temporais locais e globais usando dinâmicas eficientes de espaço de estados, alcançando ganhos de desempenho notáveis. Ao abordar as limitações dos transformadores, como a escalabilidade quadrática com o comprimento de entrada e a dificuldade em lidar com dependências de longo alcance, o Samba ASR alcança precisão e eficiência superiores. Resultados experimentais demonstram que o Samba ASR supera os modelos de ASR baseados em transformadores de código aberto existentes em vários benchmarks padrão, estabelecendo-o como o novo estado da arte em ASR. Avaliações extensivas em conjuntos de dados de referência mostram melhorias significativas na Taxa de Erro de Palavras (WER), com desempenho competitivo mesmo em cenários de recursos limitados. Além disso, a eficiência computacional e a otimização de parâmetros da arquitetura Mamba tornam o Samba ASR uma solução escalável e robusta para diversas tarefas de ASR. Nossas contribuições incluem: Uma nova arquitetura Samba ASR demonstrando a superioridade dos SSMs sobre os modelos baseados em transformadores para o processamento de sequências de fala. Uma avaliação abrangente em benchmarks públicos mostrando um desempenho de última geração. Uma análise da eficiência computacional, robustez ao ruído e generalização de sequências. Este trabalho destaca a viabilidade dos SSMs Mamba como uma alternativa livre de transformadores para um ASR eficiente e preciso. Ao aproveitar os avanços na modelagem de espaço de estados, o Samba ASR estabelece um novo padrão de desempenho em ASR e para pesquisas futuras.
Este artigo apresenta um framework poderoso para personalizar criações de vídeo incorporando múltiplas fotos de identidade específica, com difusores de vídeo Transformers, referidos como Ingredientes. Em geral, nosso método consiste em três módulos principais: (i) um extrator facial que captura características faciais versáteis e precisas para cada identificação humana a partir de perspectivas globais e locais; (ii) um projetor de múltiplas escalas que mapeia incorporações faciais no espaço contextual da consulta de imagem em difusores de vídeo; (iii) um roteador de ID que combina dinamicamente e aloca múltiplas incorporações de ID para as regiões espaço-temporais correspondentes. Aproveitando um conjunto de dados texto-vídeo meticulosamente curado e um protocolo de treinamento em múltiplas etapas, Ingredientes demonstra desempenho superior ao transformar fotos personalizadas em conteúdo de vídeo dinâmico e personalizado. Avaliações qualitativas destacam as vantagens do método proposto, posicionando-o como um avanço significativo em direção a ferramentas de controle generativo de vídeo mais eficazes em arquiteturas baseadas em Transformers, em comparação com métodos existentes. Os dados, código e pesos do modelo estão publicamente disponíveis em: https://github.com/feizc/Ingredients.
O design de visuais estruturados, como slides de apresentação, é essencial para as necessidades comunicativas, exigindo habilidades tanto na criação de conteúdo quanto no planejamento visual. Neste trabalho, abordamos o desafio da geração automatizada de slides, onde modelos produzem apresentações de slides a partir de instruções em linguagem natural (NL). Primeiramente, introduzimos o benchmark SlidesBench, o primeiro benchmark para geração de slides com 7k exemplos de treinamento e 585 exemplos de teste derivados de 310 conjuntos de slides em 10 domínios. O SlidesBench suporta avaliações que são (i) baseadas em referência para medir a similaridade com um slide-alvo e (ii) sem referência para medir a qualidade de design dos slides gerados isoladamente. Avaliamos métodos de geração de imagens e programas de ponta a ponta com uma variedade de modelos e descobrimos que os métodos programáticos produzem slides de maior qualidade em formatos interativos para o usuário. Com base no sucesso da geração de programas, criamos o AutoPresent, um modelo baseado em Llama de 8B treinado em 7k pares de instruções combinadas com código para geração de slides, e alcançamos resultados comparáveis ao modelo de código fechado GPT-4o. Exploramos ainda o refinamento iterativo de design, onde o modelo é encarregado de aprimorar sua própria saída, e descobrimos que esse processo melhora a qualidade do slide. Esperamos que nosso trabalho forneça uma base para futuros trabalhos sobre a geração de visuais estruturados.
O rápido desenvolvimento de modelos de linguagem visual (VLMs) exige uma avaliação rigorosa e confiável. No entanto, os benchmarks atuais de perguntas e respostas visuais (VQA) frequentemente dependem de perguntas abertas, tornando a avaliação precisa difícil devido à variabilidade nas respostas em linguagem natural. Para lidar com isso, apresentamos o AutoConverter, um framework agente que converte automaticamente essas perguntas abertas em formato de múltipla escolha, possibilitando uma avaliação objetiva e reduzindo o custoso processo de criação de perguntas. Nossos experimentos demonstram que o AutoConverter pode gerar perguntas de múltipla escolha corretas e desafiadoras, com os VLMs apresentando consistentemente uma precisão similar ou inferior nessas perguntas em comparação com as criadas por humanos. Utilizando o AutoConverter, construímos o VMCBench, um benchmark criado ao transformar 20 conjuntos de dados existentes de VQA em um formato unificado de múltipla escolha, totalizando 9.018 perguntas. Avaliamos de forma abrangente 33 VLMs de ponta no VMCBench, estabelecendo um novo padrão para avaliação escalável, consistente e reproduzível de VLMs.
Neste artigo, propomos o ProTracker, um novo framework para rastreamento denso de longo prazo de pontos arbitrários em vídeos, robusto e preciso. A ideia-chave do nosso método é incorporar integração probabilística para refinar múltiplas previsões tanto do fluxo óptico quanto de características semânticas para um rastreamento robusto de curto e longo prazo. Especificamente, integramos estimativas de fluxo óptico de maneira probabilística, produzindo trajetórias suaves e precisas ao maximizar a verossimilhança de cada previsão. Para relocalizar efetivamente pontos desafiadores que desaparecem e reaparecem devido a oclusões, incorporamos ainda correspondência de características de longo prazo em nossas previsões de fluxo para geração contínua de trajetórias. Experimentos extensos mostram que o ProTracker alcança o desempenho de ponta entre abordagens não supervisionadas e auto-supervisionadas, e até supera métodos supervisionados em diversos benchmarks. Nosso código e modelo estarão publicamente disponíveis após a publicação.