Artigos de pesquisa em IA selecionados diariamente com traduções
Dados de instrução de alta qualidade são essenciais para alinhar modelos de linguagem de grande escala (LLMs). Embora alguns modelos, como o Llama-3-Instruct, tenham pesos abertos, seus dados de alinhamento permanecem privados, o que dificulta a democratização da IA. Os altos custos de mão de obra humana e o escopo limitado e predefinido para a criação de prompts impedem que os métodos existentes de criação de dados de código aberto escalem de forma eficaz, potencialmente limitando a diversidade e a qualidade dos conjuntos de dados de alinhamento públicos. É possível sintetizar dados de instrução de alta qualidade em escala, extraindo-os diretamente de um LLM alinhado? Apresentamos um método de auto-síntese para gerar dados de alinhamento em grande escala, denominado Magpie. Nossa observação principal é que LLMs alinhados, como o Llama-3-Instruct, podem gerar uma consulta do usuário quando inserimos apenas os templates do lado esquerdo até a posição reservada para mensagens do usuário, graças à sua natureza auto-regressiva. Utilizamos esse método para solicitar ao Llama-3-Instruct e gerar 4 milhões de instruções, juntamente com suas respostas correspondentes. Realizamos uma análise abrangente dos dados extraídos e selecionamos 300 mil instâncias de alta qualidade. Para comparar os dados do Magpie com outros conjuntos de dados de instrução públicos, ajustamos o Llama-3-8B-Base com cada conjunto de dados e avaliamos o desempenho dos modelos ajustados. Nossos resultados indicam que, em algumas tarefas, os modelos ajustados com o Magpie têm um desempenho comparável ao Llama-3-8B-Instruct oficial, apesar deste último ter sido aprimorado com 10 milhões de pontos de dados por meio de ajuste fino supervisionado (SFT) e subsequente aprendizado por feedback. Também mostramos que usar o Magpie exclusivamente para SFT pode superar o desempenho de conjuntos de dados públicos anteriores utilizados tanto para SFT quanto para otimização de preferências, como a otimização direta de preferências com UltraFeedback. Essa vantagem é evidente em benchmarks de alinhamento como AlpacaEval, ArenaHard e WildBench.
Propomos um framework de edição de vídeo, NaRCan, que integra um campo de deformação híbrido e um prior de difusão para gerar imagens canônicas naturais de alta qualidade que representam o vídeo de entrada. Nossa abordagem utiliza homografia para modelar o movimento global e emprega perceptrons multicamadas (MLPs) para capturar deformações residuais locais, aprimorando a capacidade do modelo de lidar com dinâmicas complexas de vídeo. Ao introduzir um prior de difusão desde os estágios iniciais do treinamento, nosso modelo garante que as imagens geradas mantenham uma aparência natural de alta qualidade, tornando as imagens canônicas produzidas adequadas para diversas tarefas subsequentes de edição de vídeo, uma capacidade não alcançada pelos métodos baseados em canônicos atuais. Além disso, incorporamos o ajuste fino de adaptação de baixo posto (LoRA) e introduzimos uma técnica de agendamento de atualização de ruído e prior de difusão que acelera o processo de treinamento em 14 vezes. Resultados experimentais extensivos mostram que nosso método supera as abordagens existentes em diversas tarefas de edição de vídeo e produz sequências de vídeo editadas coerentes e de alta qualidade. Veja os resultados em vídeo em nossa página do projeto: https://koi953215.github.io/NaRCan_page/.
Pares imagem-texto obtidos por web crawling são inerentemente ruidosos. Estudos anteriores demonstram que alinhar semanticamente e enriquecer as descrições textuais desses pares pode melhorar significativamente o treinamento de modelos em diversas tarefas de visão e linguagem, particularmente na geração de imagens a partir de texto. No entanto, investigações em larga escala nessa área permanecem predominantemente de código fechado. Nosso artigo visa preencher essa lacuna de esforço comunitário, aproveitando o poderoso e de código aberto LLaMA-3, um LLM de nível GPT-4. Nosso pipeline de recaptioning é simples: primeiro, ajustamos finamente um LLaVA-1.5 baseado em LLaMA-3-8B e, em seguida, o empregamos para recaptar 1,3 bilhão de imagens do conjunto de dados DataComp-1B. Nossos resultados empíricos confirmam que esse conjunto de dados aprimorado, Recap-DataComp-1B, oferece benefícios substanciais no treinamento de modelos avançados de visão e linguagem. Para modelos discriminativos como o CLIP, observamos um desempenho zero-shot aprimorado em tarefas de recuperação cross-modal. Para modelos generativos como os Transformers de Difusão texto-imagem, as imagens geradas exibem uma melhoria significativa no alinhamento com as instruções textuais dos usuários, especialmente ao seguir consultas complexas. Nossa página do projeto está disponível em https://www.haqtu.me/Recap-Datacomp-1B/.
A geração controlada de vídeo a partir de texto baseada em movimento envolve o uso de movimentos para controlar a geração do vídeo. Métodos anteriores geralmente exigem o treinamento de modelos para codificar pistas de movimento ou o ajuste fino de modelos de difusão de vídeo. No entanto, essas abordagens frequentemente resultam em geração de movimento subótima quando aplicadas fora do domínio treinado. Neste trabalho, propomos o MotionClone, uma estrutura livre de treinamento que permite a clonagem de movimento a partir de um vídeo de referência para controlar a geração de vídeo a partir de texto. Empregamos atenção temporal na inversão de vídeo para representar os movimentos no vídeo de referência e introduzimos uma orientação primária de atenção temporal para mitigar a influência de movimentos ruidosos ou muito sutis dentro dos pesos de atenção. Além disso, para auxiliar o modelo de geração na síntese de relações espaciais razoáveis e aprimorar sua capacidade de seguir instruções, propomos um mecanismo de orientação semântica consciente da localização que aproveita a localização aproximada do primeiro plano do vídeo de referência e as características originais de orientação sem classificador para guiar a geração do vídeo. Experimentos extensivos demonstram que o MotionClone exibe proficiência tanto em movimento global da câmera quanto em movimento local de objetos, com superioridade notável em termos de fidelidade de movimento, alinhamento textual e consistência temporal.
Nos últimos anos, houve um rápido desenvolvimento em modelos de geração 3D, abrindo novas possibilidades para aplicações como a simulação de movimentos dinâmicos de objetos 3D e a personalização de seus comportamentos. No entanto, os modelos generativos 3D atuais tendem a se concentrar apenas em características superficiais, como cor e forma, negligenciando as propriedades físicas inerentes que governam o comportamento dos objetos no mundo real. Para simular com precisão a dinâmica alinhada à física, é essencial prever as propriedades físicas dos materiais e incorporá-las ao processo de previsão de comportamento. No entanto, prever os diversos materiais dos objetos do mundo real ainda é desafiador devido à natureza complexa de seus atributos físicos. Neste artigo, propomos o Physics3D, um método inovador para aprender diversas propriedades físicas de objetos 3D por meio de um modelo de difusão de vídeo. Nossa abordagem envolve a criação de um sistema de simulação física altamente generalizável baseado em um modelo de material viscoelástico, o que nos permite simular uma ampla gama de materiais com capacidades de alta fidelidade. Além disso, destilamos os conhecimentos físicos de um modelo de difusão de vídeo que contém uma compreensão mais aprofundada dos materiais realistas dos objetos. Experimentos extensivos demonstram a eficácia do nosso método com materiais tanto elásticos quanto plásticos. O Physics3D mostra grande potencial para reduzir a lacuna entre o mundo físico e o espaço neural virtual, proporcionando uma melhor integração e aplicação de princípios físicos realistas em ambientes virtuais. Página do projeto: https://liuff19.github.io/Physics3D.
Este artigo apresenta o PowerInfer-2, um framework projetado para inferência de alta velocidade de Modelos de Linguagem de Grande Escala (LLMs) em smartphones, especialmente eficaz para modelos cujos tamanhos excedem a capacidade de memória do dispositivo. A principal inovação do PowerInfer-2 é a utilização dos recursos heterogêneos de computação, memória e E/S em smartphones, decompondo cálculos matriciais tradicionais em cálculos de clusters de neurônios de granularidade fina. Especificamente, o PowerInfer-2 apresenta um motor de neurônios polimórfico que adapta estratégias computacionais para várias etapas da inferência de LLMs. Além disso, ele introduz o cache segmentado de neurônios e o pipelining em nível de cluster de neurônios de granularidade fina, que minimizam e ocultam efetivamente a sobrecarga causada por operações de E/S. A implementação e avaliação do PowerInfer-2 demonstram sua capacidade de suportar uma ampla gama de modelos LLMs em dois smartphones, alcançando um aumento de velocidade de até 29,2x em comparação com frameworks state-of-the-art. Notavelmente, o PowerInfer-2 é o primeiro sistema a servir o modelo TurboSparse-Mixtral-47B com uma taxa de geração de 11,68 tokens por segundo em um smartphone. Para modelos que cabem inteiramente na memória, o PowerInfer-2 pode alcançar uma redução de aproximadamente 40% no uso de memória, mantendo velocidades de inferência comparáveis ao llama.cpp e MLC-LLM. Para mais detalhes, incluindo um vídeo de demonstração, visite o site do projeto em www.powerinfer.ai/v2.
Talvez não. Identificamos e analisamos erros no popular benchmark Massive Multitask Language Understanding (MMLU). Embora o MMLU seja amplamente adotado, nossa análise demonstra inúmeros erros na verdade fundamental que obscurecem as verdadeiras capacidades dos LLMs. Por exemplo, descobrimos que 57% das questões analisadas no subconjunto de Virologia contêm erros. Para abordar essa questão, introduzimos um framework abrangente para identificar erros em conjuntos de dados, utilizando uma nova taxonomia de erros. Em seguida, criamos o MMLU-Redux, que é um subconjunto de 3.000 questões reanotadas manualmente em 30 disciplinas do MMLU. Usando o MMLU-Redux, demonstramos discrepâncias significativas em relação às métricas de desempenho dos modelos originalmente relatadas. Nossos resultados defendem fortemente a revisão das questões do MMLU que contêm erros, a fim de aumentar sua utilidade e confiabilidade futuras como benchmark. Portanto, disponibilizamos o MMLU-Redux para anotações adicionais em https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
Neste artigo, apresentamos o VideoLLaMA 2, um conjunto de Modelos de Linguagem de Grande Escala para Vídeo (Video-LLMs) projetados para aprimorar a modelagem espaço-temporal e a compreensão de áudio em tarefas orientadas a vídeo e áudio. Baseando-se em seu predecessor, o VideoLLaMA 2 incorpora um Conector de Convolução Espaço-Temporal (STC) personalizado, que efetivamente captura as dinâmicas espaciais e temporais intrincadas dos dados de vídeo. Além disso, integramos um Ramo de Áudio ao modelo por meio de treinamento conjunto, enriquecendo assim as capacidades de compreensão multimodal do modelo ao incorporar de forma contínua pistas de áudio. Avaliações abrangentes em tarefas de resposta a perguntas de múltipla escolha em vídeo (MC-VQA), resposta a perguntas abertas em vídeo (OE-VQA) e legendagem de vídeo (VC) demonstram que o VideoLLaMA 2 consistentemente alcança resultados competitivos entre os modelos de código aberto e até se aproxima de alguns modelos proprietários em diversos benchmarks. Adicionalmente, o VideoLLaMA 2 exibe melhorias razoáveis em benchmarks de resposta a perguntas apenas com áudio e áudio-vídeo (AQA & OE-AVQA) em relação aos modelos existentes. Esses avanços destacam o desempenho superior do VideoLLaMA 2 na compreensão multimodal, estabelecendo um novo padrão para sistemas inteligentes de análise de vídeo. Todos os modelos são públicos para facilitar pesquisas futuras.
A integração entre linguagem e percepção 3D é crucial para o desenvolvimento de agentes corporificados e robôs que compreendem e interagem com o mundo físico. Embora os grandes modelos de linguagem (LLMs, na sigla em inglês) tenham demonstrado capacidades impressionantes de compreensão e geração de linguagem, sua adaptação a ambientes 3D (3D-LLMs) ainda está em estágios iniciais. Um dos principais desafios é a ausência de conjuntos de dados em larga escala que forneçam um alinhamento denso entre linguagem e cenas 3D. Neste artigo, apresentamos o 3D-GRAND, um conjunto de dados pioneiro em larga escala composto por 40.087 cenas domésticas associadas a 6,2 milhões de instruções linguísticas densamente alinhadas com as cenas. Nossos resultados mostram que o ajuste por instrução com o 3D-GRAND melhora significativamente as capacidades de alinhamento e reduz alucinações em 3D-LLMs. Como parte de nossas contribuições, propomos um benchmark abrangente, o 3D-POPE, para avaliar sistematicamente alucinações em 3D-LLMs, permitindo comparações justas entre modelos futuros. Nossos experimentos destacam um efeito de escala entre o tamanho do conjunto de dados e o desempenho de 3D-LLMs, enfatizando o papel crítico de conjuntos de dados 3D-texto em larga escala para o avanço da pesquisa em IA corporificada. Notavelmente, nossos resultados demonstram sinais iniciais de transferência eficaz de simulação para o mundo real, indicando que modelos treinados com grandes quantidades de dados sintéticos podem ter bom desempenho em varreduras 3D do mundo real. Por meio do 3D-GRAND e do 3D-POPE, nosso objetivo é fornecer à comunidade de IA corporificada recursos e insights essenciais, preparando o terreno para 3D-LLMs mais confiáveis e melhor alinhados. Site do projeto: https://3d-grand.github.io
Modelos de Linguagem Multimodal (MLLMs) demonstram as capacidades emergentes de "modelos de mundo" — interpretando e raciocinando sobre dinâmicas complexas do mundo real. Para avaliar essas habilidades, propomos que os vídeos são o meio ideal, pois encapsulam representações ricas das dinâmicas e causalidades do mundo real. Para isso, introduzimos o MMWorld, um novo benchmark para compreensão multimodal de vídeos em múltiplas disciplinas e facetas. O MMWorld se distingue dos benchmarks anteriores de compreensão de vídeos com duas vantagens únicas: (1) multidisciplinaridade, abrangendo diversas disciplinas que frequentemente exigem expertise de domínio para uma compreensão abrangente; (2) raciocínio multifacetado, incluindo explicação, pensamento contrafactual, previsão futura, etc. O MMWorld consiste em um conjunto de dados anotado por humanos para avaliar MLLMs com perguntas sobre os vídeos inteiros e um conjunto de dados sintético para analisar MLLMs dentro de uma única modalidade de percepção. Juntos, o MMWorld abrange 1.910 vídeos em sete grandes disciplinas e 69 subdisciplinas, completos com 6.627 pares de perguntas e respostas e legendas associadas. A avaliação inclui 2 MLLMs proprietários e 10 de código aberto, que enfrentam dificuldades no MMWorld (por exemplo, o GPT-4V tem o melhor desempenho com apenas 52,3% de precisão), mostrando um grande espaço para melhoria. Estudos de ablação adicionais revelam outras descobertas interessantes, como conjuntos de habilidades diferentes dos modelos em comparação com humanos. Esperamos que o MMWorld possa servir como um passo essencial para a avaliação de modelos de mundo em vídeos.
Explorar a esparsidade de ativação é uma abordagem promissora para acelerar significativamente o processo de inferência de grandes modelos de linguagem (LLMs) sem comprometer o desempenho. No entanto, a esparsidade de ativação é determinada pelas funções de ativação, e as comumente utilizadas, como SwiGLU e GeGLU, exibem esparsidade limitada. Simplesmente substituir essas funções por ReLU não é suficiente para alcançar uma esparsidade adequada. Além disso, dados de treinamento inadequados podem aumentar ainda mais o risco de degradação de desempenho. Para enfrentar esses desafios, propomos uma nova função dReLU, projetada para melhorar a esparsidade de ativação em LLMs, juntamente com uma proporção de mistura de dados de treinamento de alta qualidade para facilitar a esparsificação eficaz. Adicionalmente, aproveitamos padrões de ativação esparsa dentro dos especialistas da Rede Feed-Forward (FFN) em modelos de Mistura de Especialistas (MoE) para aumentar ainda mais a eficiência. Ao aplicar nosso método de esparsificação de neurônios aos modelos Mistral e Mixtral, apenas 2,5 bilhões e 4,3 bilhões de parâmetros são ativados por iteração de inferência, respectivamente, enquanto alcançamos um desempenho de modelo ainda mais poderoso. Os resultados de avaliação demonstram que essa esparsidade alcança uma aceleração de decodificação de 2 a 5 vezes. Notavelmente, em telefones móveis, nosso TurboSparse-Mixtral-47B alcança uma velocidade de inferência de 11 tokens por segundo. Nossos modelos estão disponíveis em https://huggingface.co/PowerInfer.
Recentemente, a aplicação de modelos modernos de geração de texto para imagem baseados em difusão para a criação de fontes artísticas, tradicionalmente domínio de designers profissionais, tem despertado um interesse significativo. Diferentemente da maioria dos estudos existentes que se concentram na geração de tipografia artística, nossa pesquisa visa abordar um desafio novo e mais exigente: a geração de efeitos de texto para fontes multilingues. Essa tarefa essencialmente requer a geração de conteúdo visual coerente e consistente dentro dos limites de uma tela em formato de fonte, em oposição a uma tela retangular tradicional. Para enfrentar essa tarefa, introduzimos um novo modelo de difusão adaptável à forma, capaz de interpretar a forma dada e planejar estrategicamente a distribuição de pixels dentro da tela irregular. Para isso, organizamos um conjunto de dados de alta qualidade de imagens-texto adaptáveis à forma e incorporamos a máscara de segmentação como uma condição visual para orientar o processo de geração de imagens dentro da tela irregular. Essa abordagem permite que o modelo de difusão tradicional baseado em tela retangular produza os conceitos desejados de acordo com as formas geométricas fornecidas. Em segundo lugar, para manter a consistência entre várias letras, também apresentamos um método de transferência de efeitos adaptável à forma e sem necessidade de treinamento, para transferir texturas de uma letra de referência gerada para outras. As principais ideias são a construção de um prior de ruído de efeito de fonte e a propagação das informações de efeito de fonte em um espaço latente concatenado. A eficácia do nosso sistema FontStudio é confirmada por estudos de preferência do usuário, que mostram uma preferência marcante (78% de taxas de vitória em estética) pelo nosso sistema, mesmo quando comparado ao mais recente produto comercial incomparável, Adobe Firefly.
Os Recentes Transformadores de Difusão (DiTs) têm demonstrado capacidades impressionantes na geração de conteúdo de alta qualidade em uma única modalidade, incluindo imagens, vídeos e áudio. No entanto, ainda é pouco explorado se o difusor baseado em transformadores pode desnaturar eficientemente os ruídos gaussianos para a criação de conteúdo multimodal de alta qualidade. Para preencher essa lacuna, introduzimos o AV-DiT, um novo e eficiente transformador de difusão áudio-visual projetado para gerar vídeos realistas de alta qualidade com trilhas visuais e de áudio. Para minimizar a complexidade do modelo e os custos computacionais, o AV-DiT utiliza um backbone DiT compartilhado pré-treinado em dados exclusivamente de imagens, com apenas adaptadores leves e recém-inseridos sendo treináveis. Esse backbone compartilhado facilita a geração tanto de áudio quanto de vídeo. Especificamente, o ramo de vídeo incorpora uma camada de atenção temporal treinável em um bloco DiT pré-treinado e congelado para consistência temporal. Além disso, um pequeno número de parâmetros treináveis adapta o bloco DiT baseado em imagens para a geração de áudio. Um bloco DiT compartilhado adicional, equipado com parâmetros leves, facilita a interação de características entre as modalidades de áudio e visual, garantindo alinhamento. Experimentos extensivos nos conjuntos de dados AIST++ e Landscape demonstram que o AV-DiT alcança desempenho de ponta na geração conjunta áudio-visual com significativamente menos parâmetros ajustáveis. Além disso, nossos resultados destacam que um único backbone gerativo de imagens compartilhado com adaptações específicas por modalidade é suficiente para construir um gerador conjunto de áudio e vídeo. Nosso código-fonte e modelos pré-treinados serão disponibilizados.
A otimização de preferências offline é um método fundamental para aprimorar e controlar a qualidade das saídas de modelos de linguagem de grande escala (LLM, na sigla em inglês). Geralmente, a otimização de preferências é abordada como uma tarefa de aprendizado supervisionado offline, utilizando funções de perda convexas criadas manualmente. Embora esses métodos sejam baseados em insights teóricos, eles são intrinsecamente limitados pela criatividade humana, de modo que o amplo espaço de busca de possíveis funções de perda permanece pouco explorado. Nós abordamos essa questão realizando a descoberta de objetivos impulsionada por LLM para descobrir automaticamente novos algoritmos de otimização de preferências de última geração sem intervenção humana (especializada). Especificamente, iterativamente solicitamos que um LLM proponha e implemente novas funções de perda para otimização de preferências com base em métricas de desempenho previamente avaliadas. Esse processo leva à descoberta de algoritmos de otimização de preferências desconhecidos e de alto desempenho. O melhor desempenho entre esses algoritmos nós chamamos de Otimização de Preferências Descoberta (DiscoPOP, na sigla em inglês), um algoritmo novo que combina de forma adaptativa perdas logísticas e exponenciais. Experimentos demonstram o desempenho de última geração do DiscoPOP e sua transferência bem-sucedida para tarefas não vistas durante o treinamento.
Os modelos de difusão têm demonstrado desempenho notável na síntese de imagens e vídeos. No entanto, escaloná-los para entradas de alta resolução é desafiador e requer a reestruturação do pipeline de difusão em múltiplos componentes independentes, limitando a escalabilidade e complicando aplicações subsequentes. Isso o torna muito eficiente durante o treinamento e permite a otimização de ponta a ponta em vídeos de alta resolução. Melhoramos os PDMs (Patch Diffusion Models) de duas maneiras fundamentais. Primeiro, para garantir a consistência entre os patches, desenvolvemos a fusão de contexto profunda — uma técnica arquitetônica que propaga as informações de contexto de patches de baixa escala para patches de alta escala de maneira hierárquica. Segundo, para acelerar o treinamento e a inferência, propomos a computação adaptativa, que aloca mais capacidade da rede e computação para detalhes grosseiros da imagem. O modelo resultante estabelece um novo estado da arte com pontuação FVD de 66,32 e Inception Score de 87,68 na geração de vídeos condicionados por classe no UCF-101 256^2, superando métodos recentes em mais de 100%. Em seguida, mostramos que ele pode ser rapidamente ajustado a partir de um gerador de baixa resolução 36x64 para síntese de vídeo de alta resolução 64x288x512 a partir de texto. Até onde sabemos, nosso modelo é a primeira arquitetura baseada em difusão treinada em tais altas resoluções inteiramente de ponta a ponta. Página do projeto: https://snap-research.github.io/hpdm.
Ver com clareza e alta resolução é um fundamento dos Modelos Multimodais de Grande Escala (LMMs), o que tem se mostrado vital para a percepção visual e o raciocínio. Trabalhos existentes geralmente empregam um método direto de aumento de resolução, onde a imagem consiste em ramificações globais e locais, sendo a última composta por segmentos de imagem cortados, mas redimensionados para a mesma resolução da primeira. Isso significa que uma resolução mais alta exige mais segmentos locais, resultando em custos computacionais exorbitantes e, ao mesmo tempo, a dominância dos tokens de imagem locais pode diminuir o contexto global. Neste artigo, exploramos esses problemas e propomos uma nova estrutura, bem como uma estratégia de otimização elaborada. Especificamente, extraímos informações contextuais da visão global usando uma mistura de adaptadores, com base na observação de que diferentes adaptadores se destacam em diferentes tarefas. Em relação aos segmentos locais, embeddings de consulta aprendíveis são introduzidos para reduzir os tokens de imagem, e os tokens mais importantes, considerando a pergunta do usuário, serão selecionados por um seletor baseado em similaridade. Nossos resultados empíricos demonstram um padrão de "menos é mais", onde a utilização de menos tokens de imagem locais, porém mais informativos, leva a um desempenho melhorado. Além disso, um desafio significativo reside na estratégia de treinamento, pois o treinamento simultâneo de ponta a ponta do bloco de mineração global e do bloco de compressão local não produz resultados ideais. Assim, defendemos uma abordagem de treinamento alternado, garantindo um aprendizado equilibrado entre os aspectos globais e locais. Por fim, também introduzimos um conjunto de dados desafiador com altos requisitos para detalhes de imagem, aprimorando o treinamento da camada de compressão local. O método proposto, denominado LMM com Tarefas Sofisticadas, Compressão de Imagem Local e Mistura de Especialistas Globais (SliME), alcança desempenho líder em vários benchmarks com apenas 2 milhões de dados de treinamento.
Apresentamos a Restauração de Legendas Visuais (Visual Caption Restoration - VCR), uma nova tarefa de visão e linguagem que desafia os modelos a restaurar com precisão textos parcialmente obscurecidos utilizando dicas em nível de pixel dentro de imagens. Essa tarefa surge da observação de que textos embutidos em imagens são intrinsecamente diferentes de elementos visuais comuns e da linguagem natural, devido à necessidade de alinhar as modalidades de visão, texto e texto embutido em imagens. Embora diversos trabalhos tenham integrado textos embutidos em imagens em tarefas de questionamento visual, as abordagens para essas tarefas geralmente dependem de reconhecimento óptico de caracteres ou modelagem de linguagem mascarada, reduzindo assim a tarefa principalmente ao processamento baseado em texto. No entanto, o processamento baseado em texto torna-se ineficaz na VCR, pois a restauração precisa do texto depende da combinação de informações das imagens fornecidas, do contexto e de pistas sutis das pequenas áreas expostas dos textos mascarados. Desenvolvemos um pipeline para gerar imagens sintéticas para a tarefa VCR utilizando pares de imagem-legenda, com visibilidade ajustável da legenda para controlar a dificuldade da tarefa. Com esse pipeline, construímos um conjunto de dados para VCR chamado VCR-Wiki, utilizando imagens com legendas da Wikipedia, compreendendo 2,11 milhões de entidades em inglês e 346 mil em chinês, em variantes de divisão fácil e difícil. Nossos resultados revelam que os modelos atuais de visão e linguagem estão significativamente atrás do desempenho humano na tarefa VCR, e o simples ajuste fino dos modelos em nosso conjunto de dados não leva a melhorias notáveis. Disponibilizamos o VCR-Wiki e o código de construção dos dados para facilitar pesquisas futuras.
A modelagem de séries temporais multivariadas é um problema bem estabelecido com uma ampla gama de aplicações, desde a área da saúde até os mercados financeiros. Os Modelos de Espaço de Estados (SSMs) tradicionais são abordagens clássicas para a modelagem de séries temporais univariadas devido à sua simplicidade e poder de representação para capturar dependências lineares. No entanto, eles têm um poder de expressão fundamentalmente limitado para capturar dependências não lineares, são lentos na prática e falham em modelar o fluxo de informação entre variáveis. Apesar das tentativas recentes de melhorar o poder de expressão dos SSMs por meio de SSMs estruturados profundos, os métodos existentes são limitados a séries temporais univariadas, falham em modelar padrões complexos (por exemplo, padrões sazonais), falham em modelar dinamicamente as dependências das dimensões de variáveis e tempo, e/ou são independentes da entrada. Apresentamos o Chimera, que utiliza dois cabeçotes de SSM 2-D dependentes da entrada com diferentes processos de discretização para aprender a progressão de longo prazo e padrões sazonais. Para melhorar a eficiência da recorrência 2D complexa, apresentamos um treinamento rápido usando uma nova varredura seletiva paralela bidimensional. Além disso, apresentamos e discutimos o Mamba bidimensional e o Mamba-2 como casos especiais do nosso SSM 2D. Nossa avaliação experimental mostra o desempenho superior do Chimera em benchmarks extensos e diversos, incluindo classificação de séries temporais de ECG e fala, previsão de séries temporais de longo e curto prazo, e detecção de anomalias em séries temporais.
Modelos de linguagem de grande escala (LLMs) avançaram para abranger um extenso conhecimento em diversos domínios. No entanto, controlar o que um modelo de linguagem de grande escala não deve saber é importante para garantir alinhamento e, consequentemente, uso seguro. Entretanto, desaprender conhecimento de um LLM de forma precisa e eficiente continua desafiador devido ao potencial dano colateral causado pela fronteira difusa entre retenção e esquecimento, e aos grandes requisitos computacionais para otimização em modelos de última geração com centenas de bilhões de parâmetros. Neste trabalho, apresentamos os Prompts Embedding-COrrupted (ECO), uma estrutura leve de desaprendizagem para modelos de linguagem de grande escala que aborda tanto os desafios do emaranhado de conhecimento quanto da eficiência do desaprendizado. Em vez de depender do próprio LLM para desaprender, impomos um estado de desaprendizado durante a inferência, utilizando um classificador de prompts para identificar e proteger prompts a serem esquecidos. Aprendemos corrupções adicionadas aos embeddings de prompts via otimização de ordem zero em direção ao objetivo de desaprendizado offline e corrompemos prompts sinalizados pelo classificador durante a inferência. Descobrimos que esses prompts com embeddings corrompidos não apenas levam a saídas desejáveis que satisfazem o objetivo de desaprendizado, mas também se aproximam bastante da saída de um modelo que nunca foi treinado nos dados destinados ao esquecimento. Através de extensos experimentos em desaprendizado, demonstramos a superioridade de nosso método em alcançar um desaprendizado promissor com quase zero efeitos colaterais em domínios gerais e em domínios intimamente relacionados aos desaprendidos. Além disso, destacamos a escalabilidade de nosso método para 100 LLMs, variando de 0,5B a 236B parâmetros, sem custo adicional à medida que o número de parâmetros aumenta.
A patologia, o exame microscópico de tecidos doentes, é crucial para o diagnóstico de diversas condições médicas, especialmente cânceres. Os métodos tradicionais são intensivos em mão de obra e propensos a erros humanos. A patologia digital, que converte lâminas de vidro em imagens digitais de alta resolução para análise por algoritmos computacionais, revoluciona o campo ao aprimorar a precisão, consistência e eficiência diagnóstica por meio da análise automatizada de imagens e do processamento de dados em larga escala. O pré-treinamento de transformadores fundamentais é essencial para o desenvolvimento de modelos robustos e generalizáveis, pois permite o aprendizado a partir de grandes quantidades de dados não anotados. Este artigo apresenta a família Hibou de transformadores de visão fundamentais para patologia, utilizando o framework DINOv2 para pré-treinar duas variantes de modelo, Hibou-B e Hibou-L, em um conjunto de dados proprietário de mais de 1 milhão de imagens de lâminas inteiras (WSIs) que representam diversos tipos de tecidos e técnicas de coloração. Nossos modelos pré-treinados demonstram desempenho superior em benchmarks tanto em nível de fragmento quanto de lâmina, superando os métodos state-of-the-art existentes. Notavelmente, o Hibou-L alcança a maior precisão média em múltiplos conjuntos de dados de benchmark. Para apoiar pesquisas e aplicações futuras na área, disponibilizamos o modelo Hibou-B em código aberto, que pode ser acessado em https://github.com/HistAI/hibou.
A difusão mascarada (ou absorvente) tem sido ativamente explorada como uma alternativa aos modelos autoregressivos para modelagem generativa de dados discretos. No entanto, os trabalhos existentes nessa área têm sido prejudicados por formulações de modelos desnecessariamente complexas e relações pouco claras entre diferentes perspectivas, levando a parametrizações subótimas, objetivos de treinamento inadequados e ajustes ad hoc para contornar esses problemas. Neste trabalho, buscamos fornecer uma estrutura simples e geral que libere todo o potencial dos modelos de difusão mascarada. Mostramos que o objetivo variacional em tempo contínuo dos modelos de difusão mascarada é uma integral ponderada simples de perdas de entropia cruzada. Nossa estrutura também permite o treinamento de modelos generalizados de difusão mascarada com cronogramas de mascaramento dependentes do estado. Quando avaliados por perplexidade, nossos modelos treinados no OpenWebText superam os modelos de difusão de linguagem anteriores em escala GPT-2 e demonstram desempenho superior em 4 de 5 tarefas de modelagem de linguagem zero-shot. Além disso, nossos modelos superam amplamente os modelos anteriores de difusão discreta na modelagem de imagens em nível de pixel, alcançando 2,78 (CIFAR-10) e 3,42 (ImageNet 64x64) bits por dimensão, que são comparáveis ou melhores do que os modelos autoregressivos de tamanhos semelhantes.