Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Segment Anything Model 2 (SAM 2), um modelo fundamental para resolver a segmentação visual solicitável em imagens e vídeos. Construímos um mecanismo de dados, que aprimora o modelo e os dados por meio da interação do usuário, para coletar o maior conjunto de dados de segmentação de vídeo até o momento. Nosso modelo é uma arquitetura de transformer simples com memória de fluxo para processamento de vídeo em tempo real. O SAM 2 treinado em nossos dados oferece um desempenho sólido em uma ampla gama de tarefas. Na segmentação de vídeo, observamos uma melhor precisão, usando 3 vezes menos interações do que abordagens anteriores. Na segmentação de imagem, nosso modelo é mais preciso e 6 vezes mais rápido do que o Segment Anything Model (SAM). Acreditamos que nossos dados, modelo e insights servirão como um marco significativo para a segmentação de vídeo e tarefas de percepção relacionadas. Estamos lançando uma versão de nosso modelo, o conjunto de dados e um demo interativo.
Neste trabalho, apresentamos Gemma 2, uma nova adição à família Gemma de modelos abertos de última geração e leves, variando em escala de 2 bilhões a 27 bilhões de parâmetros. Nesta nova versão, aplicamos várias modificações técnicas conhecidas à arquitetura Transformer, como atenções locais-globais intercaladas (Beltagy et al., 2020a) e atenção de grupo de consulta (Ainslie et al., 2023). Também treinamos os modelos 2B e 9B com destilação de conhecimento (Hinton et al., 2015) em vez de previsão do próximo token. Os modelos resultantes oferecem o melhor desempenho para seu tamanho e até mesmo apresentam alternativas competitivas a modelos que são 2-3 vezes maiores. Disponibilizamos todos os nossos modelos para a comunidade.
Apresentamos o SF3D, um método inovador para reconstrução de malha de objetos texturizados de forma rápida e de alta qualidade a partir de uma única imagem em apenas 0,5 segundos. Ao contrário da maioria das abordagens existentes, o SF3D é explicitamente treinado para geração de malha, incorporando uma técnica rápida de desdobramento UV que permite uma geração de textura rápida em vez de depender de cores de vértices. O método também aprende a prever parâmetros de material e mapas de normais para aprimorar a qualidade visual das malhas 3D reconstruídas. Além disso, o SF3D integra uma etapa de remoção de iluminação para efetivamente eliminar efeitos de iluminação de baixa frequência, garantindo que as malhas reconstruídas possam ser facilmente utilizadas em novas condições de iluminação. Experimentos demonstram o desempenho superior do SF3D em relação às técnicas existentes. Página do projeto: https://stable-fast-3d.github.io
Embora os Modelos de Linguagem de Grande Escala demonstrem um desempenho notável em compreensão de linguagem natural, sua natureza intensiva em recursos os torna menos acessíveis. Em contraste, modelos de linguagem menores como o MiniCPM oferecem uma escalabilidade mais sustentável, mas frequentemente têm um desempenho inferior sem otimizações especializadas. Neste artigo, exploramos o aprimoramento de modelos de linguagem menores por meio da melhoria de seus embeddings de texto. Selecionamos três modelos de linguagem, MiniCPM, Phi-2 e Gemma, para realizar ajustes contrastivos no conjunto de dados NLI. Nossos resultados demonstram que esse método de ajuste melhora a qualidade dos embeddings de texto para os três modelos em várias métricas, com o MiniCPM apresentando as melhorias mais significativas, com um ganho médio de desempenho de 56,33\%. O código de ajuste contrastivo está disponível publicamente em https://github.com/trapoom555/Language-Model-STS-CFT.
O recente sucesso dos grandes modelos de linguagem de visão demonstra um grande potencial em impulsionar o sistema de agente que opera em interfaces de usuário. No entanto, argumentamos que o poder de modelos multimodais como o GPT-4V como um agente geral em múltiplos sistemas operacionais em diferentes aplicações é amplamente subestimado devido à falta de uma técnica robusta de análise de tela capaz de: 1) identificar de forma confiável ícones interativos dentro da interface do usuário e 2) compreender a semântica de vários elementos em uma captura de tela e associar com precisão a ação pretendida à região correspondente na tela. Para preencher essas lacunas, apresentamos o OmniParser, um método abrangente para analisar capturas de tela da interface do usuário em elementos estruturados, o que melhora significativamente a capacidade do GPT-4V de gerar ações que podem ser precisamente fundamentadas nas regiões correspondentes da interface. Primeiramente, curamos um conjunto de dados de detecção de ícones interativos usando páginas da web populares e um conjunto de dados de descrição de ícones. Esses conjuntos de dados foram utilizados para ajustar modelos especializados: um modelo de detecção para analisar regiões interativas na tela e um modelo de legenda para extrair a semântica funcional dos elementos detectados. O OmniParser melhora significativamente o desempenho do GPT-4V no benchmark ScreenSpot. E nos benchmarks Mind2Web e AITW, o OmniParser com entrada apenas de captura de tela supera as linhas de base do GPT-4V que requerem informações adicionais fora da captura de tela.
Os modelos de linguagem multimodais (MLLMs) estão sendo cada vez mais implementados em ambientes do mundo real, exigindo sua capacidade de interpretar espaços 3D e compreender dinâmicas temporais. Apesar de seu potencial, os modelos líderes atuais em nossa comunidade ainda deixam a desejar na compreensão adequada das dimensões espaciais e temporais. Apresentamos a Correspondência Grossa, um método visual simples, sem necessidade de treinamento, eficaz e de uso geral para provocar a compreensão 3D e temporal nos MLLMs multimodais. Nosso método utiliza um modelo de rastreamento leve para encontrar correspondências de objetos entre frames em um vídeo ou entre conjuntos de pontos de vista de imagem. Ele seleciona as instâncias de objetos mais frequentes e as visualiza com marcadores com IDs únicos na imagem. Com essa abordagem simples, alcançamos resultados de ponta em benchmarks de compreensão 3D, incluindo ScanQA (+20,5\%) e um subconjunto do OpenEQA (+9,7\%), e em benchmarks de vídeo de longa duração, como EgoSchema (+6,0\%). Também criamos um pequeno conjunto de dados de diagnóstico para avaliar se os MLLMs podem raciocinar sobre o espaço a partir de um ponto de vista descrito que não seja o ponto de vista da câmera. Novamente, a Correspondência Grossa melhora as habilidades de perspectiva espacial, mas destacamos que os MLLMs têm dificuldade com essa tarefa. Em conjunto, demonstramos que nosso simples método de provocação pode auxiliar significativamente em tarefas subsequentes que exigem raciocínio 3D ou temporal.
Aplicações recentes de grandes modelos de linguagem, como Geração com Recuperação Aumentada e chatbots, têm levado a uma necessidade crescente de processar contextos de entrada mais longos. No entanto, essa exigência é prejudicada por limitações inerentes. Arquiteturalmente, os modelos são limitados por uma janela de contexto definida durante o treinamento. Além disso, o processamento de textos extensos requer uma memória significativa da GPU. Propomos uma abordagem inovadora, Finch, para comprimir o contexto de entrada aproveitando os pesos do modelo pré-treinado da autoatenção. Dado um prompt e um texto longo, o Finch identifica iterativamente os pares de Chave (K) e Valor (V) mais relevantes sobre partes do texto condicionadas ao prompt. Apenas tais pares são armazenados na memória cache KV, que, dentro do espaço limitado pela janela de contexto, contém, em última instância, uma versão comprimida do texto longo. Nossa proposta permite que os modelos consumam entradas extensas mesmo com alta compressão (até 93x), preservando a integridade semântica sem a necessidade de ajustes finos.
Os modelos de difusão abriram caminho para uma ampla gama de estruturas de edição de imagens baseadas em texto. No entanto, essas geralmente se baseiam na natureza multi-etapa do processo de difusão reversa e adaptá-las a métodos de amostragem rápida e destilada tem se mostrado surpreendentemente desafiador. Aqui, focamos em uma linha popular de estruturas de edição baseadas em texto - a abordagem de inversão de ruído DDPM "amigável à edição". Analisamos sua aplicação a métodos de amostragem rápida e categorizamos suas falhas em duas classes: a aparição de artefatos visuais e a falta de força de edição suficiente. Rastreamos os artefatos até estatísticas de ruído incompatíveis entre ruídos invertidos e o cronograma de ruído esperado, e sugerimos um cronograma de ruído deslocado que corrige esse desvio. Para aumentar a força de edição, propomos uma abordagem de pseudo-guiamento que aumenta eficientemente a magnitude das edições sem introduzir novos artefatos. No geral, nosso método permite a edição de imagens baseada em texto com apenas três etapas de difusão, ao mesmo tempo em que fornece novas perspectivas sobre os mecanismos por trás das abordagens populares de edição baseadas em texto.
O MM-Vet, com perguntas de visão e linguagem abertas destinadas a avaliar capacidades integradas, tornou-se um dos benchmarks mais populares para a avaliação de modelos multimodais grandes. O MM-Vet avalia seis capacidades principais de visão e linguagem (VL): reconhecimento, conhecimento, consciência espacial, geração de linguagem, OCR e matemática. No entanto, o formato das perguntas é restrito a pares de imagem e texto únicos, faltando as sequências de imagem e texto entrelaçadas prevalentes em cenários do mundo real. Para lidar com essa limitação, introduzimos o MM-Vet v2, que inclui uma nova capacidade VL chamada "compreensão de sequências de imagem e texto", avaliando a capacidade dos modelos de processar sequências de VL. Além disso, mantemos a alta qualidade das amostras de avaliação enquanto expandimos ainda mais o tamanho do conjunto de avaliação. Ao usar o MM-Vet v2 para avaliar grandes modelos multimodais, descobrimos que o Claude 3.5 Sonnet é o melhor modelo com uma pontuação de 71,8, superando ligeiramente o GPT-4o, que obteve 71,0. Entre os modelos de peso aberto, o InternVL2-Llama3-76B lidera com uma pontuação de 68,4.
Os últimos anos têm testemunhado uma tremenda melhoria na qualidade das abordagens de geração e edição de vídeo. Enquanto várias técnicas se concentram na edição de aparência, poucas abordam o movimento. As abordagens atuais que utilizam texto, trajetórias ou caixas delimitadoras estão limitadas a movimentos simples, então especificamos movimentos com um único vídeo de referência de movimento. Propomos ainda o uso de um modelo de imagem para vídeo pré-treinado em vez de um modelo de texto para vídeo. Esta abordagem nos permite preservar a aparência exata e a posição de um objeto ou cena alvo e ajuda a separar a aparência do movimento. Nosso método, chamado inversão textual de movimento, aproveita nossa observação de que os modelos de imagem para vídeo extraem principalmente a aparência da entrada de imagem (latente), enquanto a incorporação de texto/imagem injetada via atenção cruzada controla predominantemente o movimento. Representamos assim o movimento usando tokens de incorporação de texto/imagem. Ao operar em uma incorporação de texto/imagem inflada contendo vários tokens de incorporação de texto/imagem por quadro, alcançamos uma alta granularidade temporal de movimento. Uma vez otimizada no vídeo de referência de movimento, esta incorporação pode ser aplicada a várias imagens alvo para gerar vídeos com movimentos semanticamente semelhantes. Nossa abordagem não requer alinhamento espacial entre o vídeo de referência de movimento e a imagem alvo, generaliza-se em vários domínios e pode ser aplicada a diversas tarefas, como reencenação de corpo inteiro e rosto, bem como controle do movimento de objetos inanimados e da câmera. Demonstramos empiricamente a eficácia de nosso método na tarefa de transferência de movimento de vídeo semântico, superando significativamente os métodos existentes neste contexto.
A animação facial 3D impulsionada por áudio tem como objetivo mapear áudio de entrada para movimentos faciais realistas. Apesar do progresso significativo, limitações surgem de anotações 3D inconsistentes, restringindo modelos anteriores ao treinamento em anotações específicas e, assim, limitando a escala de treinamento. Neste trabalho, apresentamos o UniTalker, um modelo unificado com uma arquitetura de múltiplas cabeças projetada para aproveitar efetivamente conjuntos de dados com anotações variadas. Para aprimorar a estabilidade do treinamento e garantir consistência entre as saídas de múltiplas cabeças, empregamos três estratégias de treinamento, a saber, PCA, aquecimento do modelo e incorporação de identidade pivô. Para expandir a escala e diversidade do treinamento, montamos o A2F-Bench, composto por cinco conjuntos de dados disponíveis publicamente e três conjuntos de dados recém-curados. Esses conjuntos de dados contêm uma ampla gama de domínios de áudio, cobrindo vozes e músicas multilíngues, escalando assim os dados de treinamento de conjuntos de dados comumente empregados, tipicamente com menos de 1 hora, para 18,5 horas. Com um único modelo UniTalker treinado, alcançamos reduções substanciais no erro de vértice labial de 9,2% para o conjunto de dados BIWI e 13,7% para o Vocaset. Além disso, o UniTalker pré-treinado mostra promessa como modelo base para tarefas de animação facial impulsionadas por áudio. O ajuste fino do UniTalker pré-treinado em conjuntos de dados vistos aprimora ainda mais o desempenho em cada conjunto de dados, com uma redução média de erro de 6,3% no A2F-Bench. Além disso, o ajuste fino do UniTalker em um conjunto de dados não visto com apenas metade dos dados supera modelos anteriores de última geração treinados no conjunto de dados completo. O código e o conjunto de dados estão disponíveis na página do projeto https://github.com/X-niper/UniTalker.
Possibilitar o envolvimento de indivíduos com deficiência visual com mangás representa um desafio significativo devido à sua natureza visual inerente. Com o objetivo de promover a acessibilidade, este artigo visa gerar uma transcrição de diálogo de um capítulo completo de mangá, de forma totalmente automática, com ênfase na garantia de consistência narrativa. Isso envolve identificar (i) o que está sendo dito, ou seja, detectar os textos em cada página e classificá-los como essenciais ou não essenciais, e (ii) quem está dizendo, ou seja, atribuir cada diálogo ao seu falante, garantindo que os mesmos personagens sejam nomeados de forma consistente ao longo do capítulo. Para isso, apresentamos: (i) Magiv2, um modelo capaz de gerar transcrições de mangá de alta qualidade em todo o capítulo, com personagens nomeados e uma precisão significativamente maior na diarização de falantes em comparação com trabalhos anteriores; (ii) uma extensão do conjunto de dados de avaliação PopManga, que agora inclui anotações para caixas de balões de fala, associações de texto às caudas correspondentes, classificações de texto como essencial ou não essencial e a identidade de cada caixa de personagem; e (iii) um novo conjunto de dados de banco de personagens, que compreende mais de 11 mil personagens de 76 séries de mangá, apresentando um total de 11,5 mil imagens de personagens exemplares, bem como uma lista de capítulos em que aparecem. O código, modelo treinado e ambos os conjuntos de dados podem ser encontrados em: https://github.com/ragavsachdeva/magi
Os modelos de difusão condicional têm demonstrado um sucesso notável na geração de conteúdo visual, produzindo amostras de alta qualidade em vários domínios, em grande parte devido à orientação sem classificador (CFG). Tentativas recentes de estender a orientação a modelos incondicionais têm dependido de técnicas heurísticas, resultando em qualidade de geração subótima e efeitos não intencionais. Neste trabalho, propomos Orientação de Energia Suavizada (SEG), uma abordagem inovadora livre de treinamento e condição que aproveita a perspectiva baseada em energia do mecanismo de autoatenção para aprimorar a geração de imagens. Ao definir a energia da autoatenção, introduzimos um método para reduzir a curvatura do panorama de energia da atenção e usar a saída como a previsão incondicional. Na prática, controlamos a curvatura do panorama de energia ajustando o parâmetro do kernel gaussiano, mantendo o parâmetro de escala de orientação fixo. Além disso, apresentamos um método de desfoque de consulta que é equivalente a desfocar todos os pesos de atenção sem incorrer em complexidade quadrática no número de tokens. Em nossos experimentos, SEG alcança uma melhoria de Pareto tanto na qualidade quanto na redução de efeitos colaterais. O código está disponível em https://github.com/SusungHong/SEG-SDXL.
Os rebuses são quebra-cabeças que exigem um raciocínio multi-etapa restrito para identificar uma frase oculta a partir de um conjunto de imagens e letras. Neste trabalho, apresentamos uma grande coleção de rebuses verbalizados para a língua italiana e a utilizamos para avaliar as capacidades de resolução de rebuses de modelos de linguagem de última geração. Enquanto sistemas de propósito geral como LLaMA-3 e GPT-4o apresentam baixo desempenho nessa tarefa, ajustes finos ad hoc parecem melhorar o desempenho dos modelos. No entanto, descobrimos que os ganhos de desempenho provenientes do treinamento são amplamente motivados pela memorização. Nossos resultados sugerem que a resolução de rebuses continua sendo um campo de testes desafiador para avaliar a proficiência linguística e as habilidades de seguir instruções sequenciais de grandes modelos de linguagem.
Detectar amostras fora da distribuição (OOD) é crucial para garantir a segurança dos sistemas de aprendizado de máquina e moldou o campo da detecção de OOD. Enquanto isso, vários outros problemas estão intimamente relacionados à detecção de OOD, incluindo detecção de anomalias (AD), detecção de novidades (ND), reconhecimento de conjunto aberto (OSR) e detecção de outliers (OD). Para unificar esses problemas, um framework generalizado de detecção de OOD foi proposto, categorizando taxonomicamente esses cinco problemas. No entanto, Modelos de Visão de Linguagem (VLMs) como o CLIP mudaram significativamente o paradigma e borraram as fronteiras entre esses campos, confundindo novamente os pesquisadores. Nesta pesquisa, apresentamos primeiro uma detecção generalizada de OOD v2, encapsulando a evolução de AD, ND, OSR, detecção de OOD e OD na era dos VLMs. Nosso framework revela que, com alguma inatividade e integração de campo, os desafios exigentes se tornaram detecção de OOD e AD. Além disso, destacamos também a mudança significativa na definição, configurações de problemas e benchmarks; assim, apresentamos uma revisão abrangente da metodologia para detecção de OOD, incluindo a discussão sobre outras tarefas relacionadas para esclarecer sua relação com a detecção de OOD. Por fim, exploramos os avanços na emergente era dos Grandes Modelos de Visão de Linguagem (LVLM), como o GPT-4V. Concluímos esta pesquisa com desafios em aberto e direções futuras.
Este artigo apresenta uma abordagem inovadora chamada sumarização de fala por sentença (Sen-SSum), que gera resumos de texto a partir de um documento falado de maneira sentença a sentença. Sen-SSum combina o processamento em tempo real do reconhecimento automático de fala (ASR) com a concisão da sumarização de fala. Para explorar essa abordagem, apresentamos dois conjuntos de dados para Sen-SSum: Mega-SSum e CSJ-SSum. Utilizando esses conjuntos de dados, nosso estudo avalia dois tipos de modelos baseados em Transformer: 1) modelos em cascata que combinam ASR e modelos fortes de sumarização de texto, e 2) modelos ponta a ponta (E2E) que convertem diretamente a fala em um resumo de texto. Embora os modelos E2E sejam atraentes para desenvolver modelos eficientes em termos de computação, eles têm um desempenho inferior aos modelos em cascata. Portanto, propomos a destilação de conhecimento para os modelos E2E usando pseudo-resumos gerados pelos modelos em cascata. Nossos experimentos mostram que essa destilação de conhecimento proposta melhora efetivamente o desempenho do modelo E2E em ambos os conjuntos de dados.
Este trabalho apresenta um novo framework para treinar modelos de incorporação aninhados em árabe por meio do Aprendizado de Incorporação Matryoshka, aproveitando modelos multilíngues, específicos para o árabe e baseados em inglês, para destacar o poder dos modelos de incorporação aninhados em várias tarefas downstream de PNL em árabe. Nossa contribuição inovadora inclui a tradução de vários conjuntos de dados de similaridade de frases para o árabe, possibilitando um framework abrangente de avaliação para comparar esses modelos em diferentes dimensões. Treinamos vários modelos de incorporação aninhados no conjunto de dados de triplas de Inferência de Linguagem Natural em árabe e avaliamos seu desempenho usando múltiplas métricas de avaliação, incluindo correlações de Pearson e Spearman para similaridade de cosseno, distância de Manhattan, distância euclidiana e similaridade de produto ponto. Os resultados demonstram o desempenho superior dos modelos de incorporação Matryoshka, especialmente na captura de nuances semânticas únicas da língua árabe. Os resultados mostraram que os modelos de incorporação Matryoshka em árabe têm um desempenho superior na captura de nuances semânticas únicas da língua árabe, superando significativamente os modelos tradicionais em até 20-25\% em várias métricas de similaridade. Esses resultados destacam a eficácia do treinamento específico para a língua e ressaltam o potencial dos modelos Matryoshka em aprimorar tarefas de similaridade textual semântica para PNL em árabe.