Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, apresentamos o Medical SAM 2 (MedSAM-2), um modelo avançado de segmentação que utiliza o framework SAM 2 para lidar com tarefas de segmentação de imagens médicas 2D e 3D. Ao adotar a filosofia de considerar imagens médicas como vídeos, o MedSAM-2 não se aplica apenas a imagens médicas 3D, mas também desbloqueia a nova capacidade de Segmentação com Uma Sugestão. Isso permite que os usuários forneçam uma sugestão para apenas uma imagem específica visando um objeto, após o qual o modelo pode segmentar autonomamente o mesmo tipo de objeto em todas as imagens subsequentes, independentemente das relações temporais entre as imagens. Avaliamos o MedSAM-2 em várias modalidades de imagens médicas, incluindo órgãos abdominais, discos ópticos, tumores cerebrais, nódulos da tireoide e lesões de pele, comparando-o com modelos de ponta em configurações de segmentação tradicionais e interativas. Nossos resultados mostram que o MedSAM-2 não apenas supera os modelos existentes em desempenho, mas também apresenta uma generalização superior em uma variedade de tarefas de segmentação de imagens médicas. Nosso código será disponibilizado em: https://github.com/MedicineToken/Medical-SAM2
O pré-treinamento auto-supervisionado em larga escala abriu caminho para um modelo base lidar com diversas tarefas de visão diferentes. A maioria das metodologias de pré-treinamento treina um único modelo de determinado tamanho de cada vez. No entanto, várias restrições de computação ou armazenamento em cenários do mundo real exigem esforços substanciais para desenvolver uma série de modelos com diferentes tamanhos para implantação. Assim, neste estudo, propomos um novo framework de treinamento auto-supervisionado de três ramos, denominado POA (Pré-treinamento Uma Vez para Todos), para lidar com o problema mencionado anteriormente. Nossa abordagem introduz um ramo estudante elástico inovador em um paradigma moderno de auto-dissipação. Em cada etapa de pré-treinamento, amostramos aleatoriamente uma sub-rede do estudante original para formar o estudante elástico e treinamos todos os ramos de forma auto-dissipativa. Uma vez pré-treinado, o POA permite a extração de modelos pré-treinados de diversos tamanhos para tarefas posteriores. Notavelmente, o estudante elástico facilita o pré-treinamento simultâneo de múltiplos modelos com diferentes tamanhos, que também atua como um conjunto adicional de modelos de vários tamanhos para aprimorar o aprendizado de representação. Experimentos extensivos, incluindo vizinhos mais próximos, avaliação de sondagem linear e avaliações em diversas tarefas posteriores, demonstram a eficácia e as vantagens de nosso POA. Ele alcança desempenho de ponta usando espinha dorsal ViT, Transformer Swin e ResNet, produzindo cerca de cem modelos com diferentes tamanhos por meio de uma única sessão de pré-treinamento. O código está disponível em: https://github.com/Qichuzyy/POA.
A Ligação de Entidades (EL) e a Extração de Relações (RE) são tarefas fundamentais no Processamento de Linguagem Natural, servindo como componentes críticos em uma ampla gama de aplicações. Neste artigo, propomos ReLiK, uma arquitetura Retriever-Reader para EL e RE, onde, dado um texto de entrada, o módulo Retriever realiza a identificação de entidades ou relações candidatas que poderiam potencialmente aparecer no texto. Posteriormente, o módulo Reader é encarregado de discernir as entidades ou relações pertinentes recuperadas e estabelecer seu alinhamento com os trechos textuais correspondentes. Notavelmente, apresentamos uma representação de entrada inovadora que incorpora as entidades ou relações candidatas juntamente com o texto, possibilitando a ligação de entidades ou extração de relações em uma única passagem direta e aproveitando plenamente as capacidades de contextualização de modelos de linguagem pré-treinados, em contraste com métodos anteriores baseados em Retriever-Reader, que exigem uma passagem direta para cada candidato. Nossa formulação de EL e RE alcança desempenho de ponta tanto em benchmarks de domínio quanto fora de domínio, utilizando treinamento com orçamento acadêmico e com até 40 vezes mais velocidade de inferência em comparação com concorrentes. Por fim, demonstramos como nossa arquitetura pode ser usada de forma transparente para Extração de Informação (cIE), ou seja, EL + RE, estabelecendo um novo estado da arte ao empregar um Reader compartilhado que extrai simultaneamente entidades e relações.
Dado um modelo 3D, temos como objetivo sintetizar texturas 3D que correspondam a descrições textuais arbitrárias. Métodos atuais para gerar e montar texturas a partir de vistas amostradas frequentemente resultam em costuras proeminentes ou suavização excessiva. Para lidar com essas questões, apresentamos o TexGen, um novo framework de amostragem e reamostragem multi-view para geração de texturas, aproveitando um modelo de difusão texto-imagem pré-treinado. Para uma amostragem consistente de vistas, primeiramente mantemos um mapa de textura no espaço RGB que é parametrizado pela etapa de denoising e atualizado após cada etapa de amostragem do modelo de difusão para reduzir progressivamente a discrepância de vistas. Uma estratégia de amostragem multi-view guiada por atenção é explorada para difundir as informações de aparência entre as vistas. Para preservar detalhes da textura, desenvolvemos uma técnica de reamostragem de ruído que auxilia na estimativa de ruído, gerando entradas para etapas de denoising subsequentes, conforme orientado pela instrução de texto e mapa de textura atual. Através de uma quantidade extensiva de avaliações qualitativas e quantitativas, demonstramos que nosso método proposto produz uma qualidade de textura significativamente melhor para diversos objetos 3D com um alto grau de consistência de vistas e ricos detalhes de aparência, superando os métodos atuais de ponta. Além disso, nossa técnica proposta de geração de textura também pode ser aplicada à edição de texturas enquanto preserva a identidade original. Mais resultados experimentais estão disponíveis em https://dong-huo.github.io/TexGen/
Modelos multimodais que processam conjuntamente áudio e linguagem têm grande potencial em compreensão de áudio e estão sendo cada vez mais adotados no domínio da música. Ao permitir que os usuários façam consultas por texto e obtenham informações sobre um determinado áudio, esses modelos têm o potencial de viabilizar uma variedade de tarefas de compreensão musical por meio de interfaces baseadas em linguagem. No entanto, sua avaliação apresenta desafios consideráveis e ainda não está claro como avaliar efetivamente sua capacidade de interpretar corretamente entradas relacionadas à música com os métodos atuais. Motivados por isso, apresentamos o MuChoMusic, um benchmark para avaliar a compreensão musical em modelos de linguagem multimodais focados em áudio. O MuChoMusic é composto por 1.187 perguntas de múltipla escolha, todas validadas por anotadores humanos, sobre 644 faixas musicais provenientes de dois conjuntos de dados musicais disponíveis publicamente, abrangendo uma ampla variedade de gêneros. As perguntas no benchmark são elaboradas para avaliar conhecimentos e habilidades de raciocínio em várias dimensões que abrangem conceitos musicais fundamentais e sua relação com contextos culturais e funcionais. Através da análise holística proporcionada pelo benchmark, avaliamos cinco modelos de código aberto e identificamos várias armadilhas, incluindo uma dependência excessiva na modalidade de linguagem, apontando para a necessidade de uma melhor integração multimodal. Os dados e o código são de código aberto.
A capacidade dos grandes modelos de linguagem generativos (LLMs) de realizar aprendizado em contexto deu origem a um grande corpo de pesquisa sobre a melhor forma de orientar os modelos para várias tarefas de processamento de linguagem natural. Neste artigo, focamos na tradução automática (MT), uma tarefa que tem se beneficiado de exemplos de tradução em contexto. No entanto, não foram publicados estudos sistemáticos sobre a melhor forma de selecionar exemplos, e resultados mistos foram relatados sobre a utilidade da seleção baseada em similaridade em relação à seleção aleatória. Apresentamos um estudo que abrange vários LLMs e múltiplas estratégias de recuperação de exemplos em contexto, comparando incrustações de sentenças multilíngues. Cobrimos várias direções de idioma, representando diferentes níveis de recursos linguísticos (inglês para francês, alemão, suaíli e wolof). Contrariamente aos resultados previamente publicados, descobrimos que a similaridade de incrustação de sentenças pode melhorar a tradução automática, especialmente para direções de idioma de baixo recurso, e discutimos o equilíbrio entre diversidade e qualidade do pool de seleção. Também destacamos possíveis problemas na avaliação da tradução automática baseada em LLMs e sugerimos um protocolo de avaliação mais apropriado, adaptando a métrica COMET para a avaliação de LLMs. O código e os resultados estão disponíveis gratuitamente em https://github.com/ArmelRandy/ICL-MT.
Apresentamos o RelBench, um benchmark público para resolver tarefas preditivas em bancos de dados relacionais com redes neurais gráficas. O RelBench fornece bancos de dados e tarefas abrangendo diversos domínios e escalas, e tem como objetivo ser uma infraestrutura fundamental para pesquisas futuras. Utilizamos o RelBench para realizar o primeiro estudo abrangente de Aprendizado Profundo Relacional (RDL) (Fey et al., 2024), que combina modelos preditivos de redes neurais gráficas com modelos tabulares (profundos) que extraem representações iniciais em nível de entidade a partir de tabelas brutas. Os modelos RDL aprendidos de ponta a ponta exploram totalmente o sinal preditivo codificado em links primários e estrangeiros, marcando uma mudança significativa longe do paradigma dominante de engenharia manual de características combinada com modelos tabulares. Para avaliar minuciosamente o RDL em comparação com esse padrão-ouro anterior, realizamos um estudo de usuário detalhado no qual um cientista de dados experiente desenvolve manualmente características para cada tarefa. Neste estudo, o RDL aprende modelos melhores enquanto reduz o trabalho humano necessário em mais de uma ordem de magnitude. Isso demonstra o poder do aprendizado profundo para resolver tarefas preditivas em bancos de dados relacionais, abrindo muitas novas oportunidades de pesquisa possibilitadas pelo RelBench.
Quais características latentes são codificadas nas representações do modelo de linguagem (LM)? Trabalhos recentes sobre treinamento de autoencoders esparsos (SAEs) para desembaraçar características interpretáveis nas representações do LM têm mostrado promessa significativa. No entanto, avaliar a qualidade desses SAEs é difícil porque nos falta uma coleção de referência de características interpretáveis que esperamos que bons SAEs recuperem. Propomos, portanto, medir o progresso na aprendizagem de dicionário interpretável trabalhando no contexto de LMs treinados em transcrições de xadrez e Othello. Esses contextos possuem coleções naturais de características interpretáveis -- por exemplo, "há um cavalo em F3" -- que aproveitamos em métricas supervisionadas para qualidade de SAE. Para orientar o progresso na aprendizagem de dicionário interpretável, introduzimos uma nova técnica de treinamento de SAE, p-annealing, que melhora o desempenho em métricas não supervisionadas anteriores, bem como em nossas novas métricas.