Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

SAM 2: Segmentar Qualquer Coisa em Imagens e Vídeos
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

120

Apresentamos o Segment Anything Model 2 (SAM 2), um modelo fundamental para resolver a segmentação visual solicitável em imagens e vídeos. Construímos um mecanismo de dados, que aprimora o modelo e os dados por meio da interação do usuário, para coletar o maior conjunto de dados de segmentação de vídeo até o momento. Nosso modelo é uma arquitetura de transformer simples com memória de fluxo para processamento de vídeo em tempo real. O SAM 2 treinado em nossos dados oferece um desempenho sólido em uma ampla gama de tarefas. Na segmentação de vídeo, observamos uma melhor precisão, usando 3 vezes menos interações do que abordagens anteriores. Na segmentação de imagem, nosso modelo é mais preciso e 6 vezes mais rápido do que o Segment Anything Model (SAM). Acreditamos que nossos dados, modelo e insights servirão como um marco significativo para a segmentação de vídeo e tarefas de percepção relacionadas. Estamos lançando uma versão de nosso modelo, o conjunto de dados e um demo interativo.

Gemma 2: Melhorando Modelos de Linguagem Aberta em um Tamanho Prático
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

Neste trabalho, apresentamos Gemma 2, uma nova adição à família Gemma de modelos abertos de última geração e leves, variando em escala de 2 bilhões a 27 bilhões de parâmetros. Nesta nova versão, aplicamos várias modificações técnicas conhecidas à arquitetura Transformer, como atenções locais-globais intercaladas (Beltagy et al., 2020a) e atenção de grupo de consulta (Ainslie et al., 2023). Também treinamos os modelos 2B e 9B com destilação de conhecimento (Hinton et al., 2015) em vez de previsão do próximo token. Os modelos resultantes oferecem o melhor desempenho para seu tamanho e até mesmo apresentam alternativas competitivas a modelos que são 2-3 vezes maiores. Disponibilizamos todos os nossos modelos para a comunidade.

SF3D: Reconstrução Estável Rápida de Malha 3D com Desdobramento UV e Desembaraço de Iluminação
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Apresentamos o SF3D, um método inovador para reconstrução de malha de objetos texturizados de forma rápida e de alta qualidade a partir de uma única imagem em apenas 0,5 segundos. Ao contrário da maioria das abordagens existentes, o SF3D é explicitamente treinado para geração de malha, incorporando uma técnica rápida de desdobramento UV que permite uma geração de textura rápida em vez de depender de cores de vértices. O método também aprende a prever parâmetros de material e mapas de normais para aprimorar a qualidade visual das malhas 3D reconstruídas. Além disso, o SF3D integra uma etapa de remoção de iluminação para efetivamente eliminar efeitos de iluminação de baixa frequência, garantindo que as malhas reconstruídas possam ser facilmente utilizadas em novas condições de iluminação. Experimentos demonstram o desempenho superior do SF3D em relação às técnicas existentes. Página do projeto: https://stable-fast-3d.github.io

Melhorando os Incorporamentos de Texto para Modelos de Linguagem Menores Usando Ajuste Fino Contrastivo
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

Embora os Modelos de Linguagem de Grande Escala demonstrem um desempenho notável em compreensão de linguagem natural, sua natureza intensiva em recursos os torna menos acessíveis. Em contraste, modelos de linguagem menores como o MiniCPM oferecem uma escalabilidade mais sustentável, mas frequentemente têm um desempenho inferior sem otimizações especializadas. Neste artigo, exploramos o aprimoramento de modelos de linguagem menores por meio da melhoria de seus embeddings de texto. Selecionamos três modelos de linguagem, MiniCPM, Phi-2 e Gemma, para realizar ajustes contrastivos no conjunto de dados NLI. Nossos resultados demonstram que esse método de ajuste melhora a qualidade dos embeddings de texto para os três modelos em várias métricas, com o MiniCPM apresentando as melhorias mais significativas, com um ganho médio de desempenho de 56,33\%. O código de ajuste contrastivo está disponível publicamente em https://github.com/trapoom555/Language-Model-STS-CFT.

OmniParser para Agente de Interface Gráfica do Usuário Baseado em Visão Pura
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

O recente sucesso dos grandes modelos de linguagem de visão demonstra um grande potencial em impulsionar o sistema de agente que opera em interfaces de usuário. No entanto, argumentamos que o poder de modelos multimodais como o GPT-4V como um agente geral em múltiplos sistemas operacionais em diferentes aplicações é amplamente subestimado devido à falta de uma técnica robusta de análise de tela capaz de: 1) identificar de forma confiável ícones interativos dentro da interface do usuário e 2) compreender a semântica de vários elementos em uma captura de tela e associar com precisão a ação pretendida à região correspondente na tela. Para preencher essas lacunas, apresentamos o OmniParser, um método abrangente para analisar capturas de tela da interface do usuário em elementos estruturados, o que melhora significativamente a capacidade do GPT-4V de gerar ações que podem ser precisamente fundamentadas nas regiões correspondentes da interface. Primeiramente, curamos um conjunto de dados de detecção de ícones interativos usando páginas da web populares e um conjunto de dados de descrição de ícones. Esses conjuntos de dados foram utilizados para ajustar modelos especializados: um modelo de detecção para analisar regiões interativas na tela e um modelo de legenda para extrair a semântica funcional dos elementos detectados. O OmniParser melhora significativamente o desempenho do GPT-4V no benchmark ScreenSpot. E nos benchmarks Mind2Web e AITW, o OmniParser com entrada apenas de captura de tela supera as linhas de base do GPT-4V que requerem informações adicionais fora da captura de tela.

Correspondência Grosseira Elicita Compreensão Tridimensional do Espaço-Tempo em Modelo de Linguagem Multimodal
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Os modelos de linguagem multimodais (MLLMs) estão sendo cada vez mais implementados em ambientes do mundo real, exigindo sua capacidade de interpretar espaços 3D e compreender dinâmicas temporais. Apesar de seu potencial, os modelos líderes atuais em nossa comunidade ainda deixam a desejar na compreensão adequada das dimensões espaciais e temporais. Apresentamos a Correspondência Grossa, um método visual simples, sem necessidade de treinamento, eficaz e de uso geral para provocar a compreensão 3D e temporal nos MLLMs multimodais. Nosso método utiliza um modelo de rastreamento leve para encontrar correspondências de objetos entre frames em um vídeo ou entre conjuntos de pontos de vista de imagem. Ele seleciona as instâncias de objetos mais frequentes e as visualiza com marcadores com IDs únicos na imagem. Com essa abordagem simples, alcançamos resultados de ponta em benchmarks de compreensão 3D, incluindo ScanQA (+20,5\%) e um subconjunto do OpenEQA (+9,7\%), e em benchmarks de vídeo de longa duração, como EgoSchema (+6,0\%). Também criamos um pequeno conjunto de dados de diagnóstico para avaliar se os MLLMs podem raciocinar sobre o espaço a partir de um ponto de vista descrito que não seja o ponto de vista da câmera. Novamente, a Correspondência Grossa melhora as habilidades de perspectiva espacial, mas destacamos que os MLLMs têm dificuldade com essa tarefa. Em conjunto, demonstramos que nosso simples método de provocação pode auxiliar significativamente em tarefas subsequentes que exigem raciocínio 3D ou temporal.

Pardal: Compressão de Cache Chave-Valor Guiada por Prompt
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

Aplicações recentes de grandes modelos de linguagem, como Geração com Recuperação Aumentada e chatbots, têm levado a uma necessidade crescente de processar contextos de entrada mais longos. No entanto, essa exigência é prejudicada por limitações inerentes. Arquiteturalmente, os modelos são limitados por uma janela de contexto definida durante o treinamento. Além disso, o processamento de textos extensos requer uma memória significativa da GPU. Propomos uma abordagem inovadora, Finch, para comprimir o contexto de entrada aproveitando os pesos do modelo pré-treinado da autoatenção. Dado um prompt e um texto longo, o Finch identifica iterativamente os pares de Chave (K) e Valor (V) mais relevantes sobre partes do texto condicionadas ao prompt. Apenas tais pares são armazenados na memória cache KV, que, dentro do espaço limitado pela janela de contexto, contém, em última instância, uma versão comprimida do texto longo. Nossa proposta permite que os modelos consumam entradas extensas mesmo com alta compressão (até 93x), preservando a integridade semântica sem a necessidade de ajustes finos.

TurboEdit: Edição de Imagens Baseada em Texto Usando Modelos de Difusão em Poucas Etapas
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

Os modelos de difusão abriram caminho para uma ampla gama de estruturas de edição de imagens baseadas em texto. No entanto, essas geralmente se baseiam na natureza multi-etapa do processo de difusão reversa e adaptá-las a métodos de amostragem rápida e destilada tem se mostrado surpreendentemente desafiador. Aqui, focamos em uma linha popular de estruturas de edição baseadas em texto - a abordagem de inversão de ruído DDPM "amigável à edição". Analisamos sua aplicação a métodos de amostragem rápida e categorizamos suas falhas em duas classes: a aparição de artefatos visuais e a falta de força de edição suficiente. Rastreamos os artefatos até estatísticas de ruído incompatíveis entre ruídos invertidos e o cronograma de ruído esperado, e sugerimos um cronograma de ruído deslocado que corrige esse desvio. Para aumentar a força de edição, propomos uma abordagem de pseudo-guiamento que aumenta eficientemente a magnitude das edições sem introduzir novos artefatos. No geral, nosso método permite a edição de imagens baseada em texto com apenas três etapas de difusão, ao mesmo tempo em que fornece novas perspectivas sobre os mecanismos por trás das abordagens populares de edição baseadas em texto.

MM-Vet v2: Um Desafiador Benchmark para Avaliar Modelos Multimodais Grandes para Capacidades Integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

O MM-Vet, com perguntas de visão e linguagem abertas destinadas a avaliar capacidades integradas, tornou-se um dos benchmarks mais populares para a avaliação de modelos multimodais grandes. O MM-Vet avalia seis capacidades principais de visão e linguagem (VL): reconhecimento, conhecimento, consciência espacial, geração de linguagem, OCR e matemática. No entanto, o formato das perguntas é restrito a pares de imagem e texto únicos, faltando as sequências de imagem e texto entrelaçadas prevalentes em cenários do mundo real. Para lidar com essa limitação, introduzimos o MM-Vet v2, que inclui uma nova capacidade VL chamada "compreensão de sequências de imagem e texto", avaliando a capacidade dos modelos de processar sequências de VL. Além disso, mantemos a alta qualidade das amostras de avaliação enquanto expandimos ainda mais o tamanho do conjunto de avaliação. Ao usar o MM-Vet v2 para avaliar grandes modelos multimodais, descobrimos que o Claude 3.5 Sonnet é o melhor modelo com uma pontuação de 71,8, superando ligeiramente o GPT-4o, que obteve 71,0. Entre os modelos de peso aberto, o InternVL2-Llama3-76B lidera com uma pontuação de 68,4.

Recriar Qualquer Coisa: Transferência de Movimento de Vídeo Semântico Usando Inversão de Movimento-Texto
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

Os últimos anos têm testemunhado uma tremenda melhoria na qualidade das abordagens de geração e edição de vídeo. Enquanto várias técnicas se concentram na edição de aparência, poucas abordam o movimento. As abordagens atuais que utilizam texto, trajetórias ou caixas delimitadoras estão limitadas a movimentos simples, então especificamos movimentos com um único vídeo de referência de movimento. Propomos ainda o uso de um modelo de imagem para vídeo pré-treinado em vez de um modelo de texto para vídeo. Esta abordagem nos permite preservar a aparência exata e a posição de um objeto ou cena alvo e ajuda a separar a aparência do movimento. Nosso método, chamado inversão textual de movimento, aproveita nossa observação de que os modelos de imagem para vídeo extraem principalmente a aparência da entrada de imagem (latente), enquanto a incorporação de texto/imagem injetada via atenção cruzada controla predominantemente o movimento. Representamos assim o movimento usando tokens de incorporação de texto/imagem. Ao operar em uma incorporação de texto/imagem inflada contendo vários tokens de incorporação de texto/imagem por quadro, alcançamos uma alta granularidade temporal de movimento. Uma vez otimizada no vídeo de referência de movimento, esta incorporação pode ser aplicada a várias imagens alvo para gerar vídeos com movimentos semanticamente semelhantes. Nossa abordagem não requer alinhamento espacial entre o vídeo de referência de movimento e a imagem alvo, generaliza-se em vários domínios e pode ser aplicada a diversas tarefas, como reencenação de corpo inteiro e rosto, bem como controle do movimento de objetos inanimados e da câmera. Demonstramos empiricamente a eficácia de nosso método na tarefa de transferência de movimento de vídeo semântico, superando significativamente os métodos existentes neste contexto.

UniTalker: Ampliando a Animação Facial 3D Dirigida por Áudio por Meio de um Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

A animação facial 3D impulsionada por áudio tem como objetivo mapear áudio de entrada para movimentos faciais realistas. Apesar do progresso significativo, limitações surgem de anotações 3D inconsistentes, restringindo modelos anteriores ao treinamento em anotações específicas e, assim, limitando a escala de treinamento. Neste trabalho, apresentamos o UniTalker, um modelo unificado com uma arquitetura de múltiplas cabeças projetada para aproveitar efetivamente conjuntos de dados com anotações variadas. Para aprimorar a estabilidade do treinamento e garantir consistência entre as saídas de múltiplas cabeças, empregamos três estratégias de treinamento, a saber, PCA, aquecimento do modelo e incorporação de identidade pivô. Para expandir a escala e diversidade do treinamento, montamos o A2F-Bench, composto por cinco conjuntos de dados disponíveis publicamente e três conjuntos de dados recém-curados. Esses conjuntos de dados contêm uma ampla gama de domínios de áudio, cobrindo vozes e músicas multilíngues, escalando assim os dados de treinamento de conjuntos de dados comumente empregados, tipicamente com menos de 1 hora, para 18,5 horas. Com um único modelo UniTalker treinado, alcançamos reduções substanciais no erro de vértice labial de 9,2% para o conjunto de dados BIWI e 13,7% para o Vocaset. Além disso, o UniTalker pré-treinado mostra promessa como modelo base para tarefas de animação facial impulsionadas por áudio. O ajuste fino do UniTalker pré-treinado em conjuntos de dados vistos aprimora ainda mais o desempenho em cada conjunto de dados, com uma redução média de erro de 6,3% no A2F-Bench. Além disso, o ajuste fino do UniTalker em um conjunto de dados não visto com apenas metade dos dados supera modelos anteriores de última geração treinados no conjunto de dados completo. O código e o conjunto de dados estão disponíveis na página do projeto https://github.com/X-niper/UniTalker.

Contos nas Caudas: Transcrições de Mangá em Toda a História com Nomes de Personagens
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Possibilitar o envolvimento de indivíduos com deficiência visual com mangás representa um desafio significativo devido à sua natureza visual inerente. Com o objetivo de promover a acessibilidade, este artigo visa gerar uma transcrição de diálogo de um capítulo completo de mangá, de forma totalmente automática, com ênfase na garantia de consistência narrativa. Isso envolve identificar (i) o que está sendo dito, ou seja, detectar os textos em cada página e classificá-los como essenciais ou não essenciais, e (ii) quem está dizendo, ou seja, atribuir cada diálogo ao seu falante, garantindo que os mesmos personagens sejam nomeados de forma consistente ao longo do capítulo. Para isso, apresentamos: (i) Magiv2, um modelo capaz de gerar transcrições de mangá de alta qualidade em todo o capítulo, com personagens nomeados e uma precisão significativamente maior na diarização de falantes em comparação com trabalhos anteriores; (ii) uma extensão do conjunto de dados de avaliação PopManga, que agora inclui anotações para caixas de balões de fala, associações de texto às caudas correspondentes, classificações de texto como essencial ou não essencial e a identidade de cada caixa de personagem; e (iii) um novo conjunto de dados de banco de personagens, que compreende mais de 11 mil personagens de 76 séries de mangá, apresentando um total de 11,5 mil imagens de personagens exemplares, bem como uma lista de capítulos em que aparecem. O código, modelo treinado e ambos os conjuntos de dados podem ser encontrados em: https://github.com/ragavsachdeva/magi

Aprimorando a Compreensão da Similaridade Semântica em PNL Árabe com Aprendizado de Incorporação Aninhada
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Este trabalho apresenta um novo framework para treinar modelos de incorporação aninhados em árabe por meio do Aprendizado de Incorporação Matryoshka, aproveitando modelos multilíngues, específicos para o árabe e baseados em inglês, para destacar o poder dos modelos de incorporação aninhados em várias tarefas downstream de PNL em árabe. Nossa contribuição inovadora inclui a tradução de vários conjuntos de dados de similaridade de frases para o árabe, possibilitando um framework abrangente de avaliação para comparar esses modelos em diferentes dimensões. Treinamos vários modelos de incorporação aninhados no conjunto de dados de triplas de Inferência de Linguagem Natural em árabe e avaliamos seu desempenho usando múltiplas métricas de avaliação, incluindo correlações de Pearson e Spearman para similaridade de cosseno, distância de Manhattan, distância euclidiana e similaridade de produto ponto. Os resultados demonstram o desempenho superior dos modelos de incorporação Matryoshka, especialmente na captura de nuances semânticas únicas da língua árabe. Os resultados mostraram que os modelos de incorporação Matryoshka em árabe têm um desempenho superior na captura de nuances semânticas únicas da língua árabe, superando significativamente os modelos tradicionais em até 20-25\% em várias métricas de similaridade. Esses resultados destacam a eficácia do treinamento específico para a língua e ressaltam o potencial dos modelos Matryoshka em aprimorar tarefas de similaridade textual semântica para PNL em árabe.

Orientação de Energia Suavizada: Orientando Modelos de Difusão com Curvatura de Energia Reduzida da Atenção
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Os modelos de difusão condicional têm demonstrado um sucesso notável na geração de conteúdo visual, produzindo amostras de alta qualidade em vários domínios, em grande parte devido à orientação sem classificador (CFG). Tentativas recentes de estender a orientação a modelos incondicionais têm dependido de técnicas heurísticas, resultando em qualidade de geração subótima e efeitos não intencionais. Neste trabalho, propomos Orientação de Energia Suavizada (SEG), uma abordagem inovadora livre de treinamento e condição que aproveita a perspectiva baseada em energia do mecanismo de autoatenção para aprimorar a geração de imagens. Ao definir a energia da autoatenção, introduzimos um método para reduzir a curvatura do panorama de energia da atenção e usar a saída como a previsão incondicional. Na prática, controlamos a curvatura do panorama de energia ajustando o parâmetro do kernel gaussiano, mantendo o parâmetro de escala de orientação fixo. Além disso, apresentamos um método de desfoque de consulta que é equivalente a desfocar todos os pesos de atenção sem incorrer em complexidade quadrática no número de tokens. Em nossos experimentos, SEG alcança uma melhoria de Pareto tanto na qualidade quanto na redução de efeitos colaterais. O código está disponível em https://github.com/SusungHong/SEG-SDXL.

Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Os rebuses são quebra-cabeças que exigem um raciocínio multi-etapa restrito para identificar uma frase oculta a partir de um conjunto de imagens e letras. Neste trabalho, apresentamos uma grande coleção de rebuses verbalizados para a língua italiana e a utilizamos para avaliar as capacidades de resolução de rebuses de modelos de linguagem de última geração. Enquanto sistemas de propósito geral como LLaMA-3 e GPT-4o apresentam baixo desempenho nessa tarefa, ajustes finos ad hoc parecem melhorar o desempenho dos modelos. No entanto, descobrimos que os ganhos de desempenho provenientes do treinamento são amplamente motivados pela memorização. Nossos resultados sugerem que a resolução de rebuses continua sendo um campo de testes desafiador para avaliar a proficiência linguística e as habilidades de seguir instruções sequenciais de grandes modelos de linguagem.

Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Detectar amostras fora da distribuição (OOD) é crucial para garantir a segurança dos sistemas de aprendizado de máquina e moldou o campo da detecção de OOD. Enquanto isso, vários outros problemas estão intimamente relacionados à detecção de OOD, incluindo detecção de anomalias (AD), detecção de novidades (ND), reconhecimento de conjunto aberto (OSR) e detecção de outliers (OD). Para unificar esses problemas, um framework generalizado de detecção de OOD foi proposto, categorizando taxonomicamente esses cinco problemas. No entanto, Modelos de Visão de Linguagem (VLMs) como o CLIP mudaram significativamente o paradigma e borraram as fronteiras entre esses campos, confundindo novamente os pesquisadores. Nesta pesquisa, apresentamos primeiro uma detecção generalizada de OOD v2, encapsulando a evolução de AD, ND, OSR, detecção de OOD e OD na era dos VLMs. Nosso framework revela que, com alguma inatividade e integração de campo, os desafios exigentes se tornaram detecção de OOD e AD. Além disso, destacamos também a mudança significativa na definição, configurações de problemas e benchmarks; assim, apresentamos uma revisão abrangente da metodologia para detecção de OOD, incluindo a discussão sobre outras tarefas relacionadas para esclarecer sua relação com a detecção de OOD. Por fim, exploramos os avanços na emergente era dos Grandes Modelos de Visão de Linguagem (LVLM), como o GPT-4V. Concluímos esta pesquisa com desafios em aberto e direções futuras.

Sumarização de Sentenças: Tarefa, Conjuntos de Dados e Modelagem de Ponta a Ponta com Destilação de Conhecimento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Este artigo apresenta uma abordagem inovadora chamada sumarização de fala por sentença (Sen-SSum), que gera resumos de texto a partir de um documento falado de maneira sentença a sentença. Sen-SSum combina o processamento em tempo real do reconhecimento automático de fala (ASR) com a concisão da sumarização de fala. Para explorar essa abordagem, apresentamos dois conjuntos de dados para Sen-SSum: Mega-SSum e CSJ-SSum. Utilizando esses conjuntos de dados, nosso estudo avalia dois tipos de modelos baseados em Transformer: 1) modelos em cascata que combinam ASR e modelos fortes de sumarização de texto, e 2) modelos ponta a ponta (E2E) que convertem diretamente a fala em um resumo de texto. Embora os modelos E2E sejam atraentes para desenvolver modelos eficientes em termos de computação, eles têm um desempenho inferior aos modelos em cascata. Portanto, propomos a destilação de conhecimento para os modelos E2E usando pseudo-resumos gerados pelos modelos em cascata. Nossos experimentos mostram que essa destilação de conhecimento proposta melhora efetivamente o desempenho do modelo E2E em ambos os conjuntos de dados.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

SAM 2: Segmentar Qualquer Coisa em Imagens e Vídeos
SAM 2: Segment Anything in Images and Videos

Aug 1

120

Gemma 2: Melhorando Modelos de Linguagem Aberta em um Tamanho Prático
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

SF3D: Reconstrução Estável Rápida de Malha 3D com Desdobramento UV e Desembaraço de Iluminação
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Melhorando os Incorporamentos de Texto para Modelos de Linguagem Menores Usando Ajuste Fino Contrastivo
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

OmniParser para Agente de Interface Gráfica do Usuário Baseado em Visão Pura
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Correspondência Grosseira Elicita Compreensão Tridimensional do Espaço-Tempo em Modelo de Linguagem Multimodal
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Pardal: Compressão de Cache Chave-Valor Guiada por Prompt
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

TurboEdit: Edição de Imagens Baseada em Texto Usando Modelos de Difusão em Poucas Etapas
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

MM-Vet v2: Um Desafiador Benchmark para Avaliar Modelos Multimodais Grandes para Capacidades Integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

Recriar Qualquer Coisa: Transferência de Movimento de Vídeo Semântico Usando Inversão de Movimento-Texto
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

UniTalker: Ampliando a Animação Facial 3D Dirigida por Áudio por Meio de um Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

Contos nas Caudas: Transcrições de Mangá em Toda a História com Nomes de Personagens
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Aprimorando a Compreensão da Similaridade Semântica em PNL Árabe com Aprendizado de Incorporação Aninhada
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Orientação de Energia Suavizada: Orientando Modelos de Difusão com Curvatura de Energia Reduzida da Atenção
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Sumarização de Sentenças: Tarefa, Conjuntos de Dados e Modelagem de Ponta a Ponta com Destilação de Conhecimento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix