Artigos de pesquisa em IA selecionados diariamente com traduções
Os Transformers revolucionaram a aprendizagem de máquina, no entanto, seu funcionamento interno permanece opaco para muitos. Apresentamos o Transformer Explainer, uma ferramenta de visualização interativa projetada para não especialistas aprenderem sobre os Transformers por meio do modelo GPT-2. Nossa ferramenta ajuda os usuários a compreender conceitos complexos dos Transformers integrando uma visão geral do modelo e permitindo transições suaves entre os níveis de abstração das operações matemáticas e estruturas do modelo. Ela executa uma instância ao vivo do GPT-2 localmente no navegador do usuário, capacitando os usuários a experimentar com suas próprias entradas e observar em tempo real como os componentes internos e parâmetros do Transformer trabalham juntos para prever os próximos tokens. Nossa ferramenta não requer instalação ou hardware especial, ampliando o acesso educacional do público às técnicas modernas de IA generativa. Nossa ferramenta de código aberto está disponível em https://poloclub.github.io/transformer-explainer/. Uma demonstração em vídeo está disponível em https://youtu.be/ECR4oAwocjs.
Os Modelos de Grande Escala de Visão e Linguagem (LVLMs) são capazes de lidar com diversos tipos de dados, como imagens, texto e sinais fisiológicos, e podem ser aplicados em diversos campos. No campo médico, os LVLMs têm um alto potencial para oferecer assistência substancial para diagnóstico e tratamento. Antes disso, é crucial desenvolver referências para avaliar a eficácia dos LVLMs em várias aplicações médicas. As referências atuais frequentemente são construídas com base em literatura acadêmica específica, focando principalmente em um único domínio e carecendo de diferentes granularidades perceptuais. Assim, elas enfrentam desafios específicos, incluindo relevância clínica limitada, avaliações incompletas e orientação insuficiente para LVLMs interativos. Para lidar com essas limitações, desenvolvemos o GMAI-MMBench, a referência de IA médica geral mais abrangente até o momento, com uma estrutura de dados bem categorizada e múltiplas granularidades perceptuais. Ela é construída a partir de 285 conjuntos de dados em 39 modalidades de imagens médicas, 18 tarefas relacionadas à clínica, 18 departamentos e 4 granularidades perceptuais em um formato de Pergunta e Resposta Visual (VQA). Além disso, implementamos uma estrutura de árvore lexical que permite aos usuários personalizar tarefas de avaliação, atendendo a diversas necessidades de avaliação e apoiando substancialmente a pesquisa e aplicações de IA médica. Avaliamos 50 LVLMs, e os resultados mostram que mesmo o avançado GPT-4o alcança apenas uma precisão de 52%, indicando um espaço significativo para melhoria. Além disso, identificamos cinco insuficiências-chave nos atuais LVLMs de ponta que precisam ser abordadas para avançar o desenvolvimento de melhores aplicações médicas. Acreditamos que o GMAI-MMBench estimulará a comunidade a construir a próxima geração de LVLMs em direção ao GMAI. Página do Projeto: https://uni-medical.github.io/GMAI-MMBench.github.io/
A Geração de Conteúdo 3D está no cerne de muitas aplicações de computação gráfica, incluindo videogames, produção cinematográfica, realidade virtual e aumentada, etc. Este artigo propõe uma abordagem inovadora baseada em aprendizado profundo para gerar automaticamente cenas de jogo 3D interativas e jogáveis, tudo a partir de sugestões casuais do usuário, como um esboço feito à mão. A entrada baseada em esboços oferece uma forma natural e conveniente de transmitir a intenção de design do usuário no processo de criação de conteúdo. Para contornar o desafio de falta de dados no aprendizado (ou seja, a falta de grandes conjuntos de dados de treinamento de cenas 3D), nosso método aproveita um modelo de difusão de denoising 2D pré-treinado para gerar uma imagem 2D da cena como orientação conceitual. Nesse processo, adotamos o modo de projeção isométrica para eliminar poses de câmera desconhecidas ao obter o layout da cena. A partir da imagem isométrica gerada, utilizamos um método de compreensão de imagem pré-treinado para segmentar a imagem em partes significativas, como objetos fora do chão, árvores e edifícios, e extrair o layout da cena 2D. Esses segmentos e layouts são posteriormente inseridos em um mecanismo de geração de conteúdo procedural (PCG), como um mecanismo de jogo 3D como Unity ou Unreal, para criar a cena 3D. A cena 3D resultante pode ser integrada perfeitamente em um ambiente de desenvolvimento de jogos e está pronta para ser jogada. Testes extensivos demonstram que nosso método pode gerar eficientemente cenas de jogo 3D interativas e de alta qualidade com layouts que seguem de perto a intenção do usuário.
A ampla acessibilidade de grandes modelos de linguagem (LLMs) ao público em geral ampliou significativamente a disseminação de textos gerados por máquina (MGTs). Avanços na manipulação de prompts têm exacerbado a dificuldade em discernir a origem de um texto (escrito por humanos versus gerado por máquina). Isso levanta preocupações sobre o potencial uso indevido de MGTs, especialmente dentro de domínios educacionais e acadêmicos. Neste artigo, apresentamos o LLM-DetectAIve - um sistema projetado para detecção detalhada de MGTs. Ele é capaz de classificar textos em quatro categorias: escritos por humanos, gerados por máquina, escritos por máquina humanizados e escritos por humanos e polidos por máquina. Ao contrário dos detectores de MGT anteriores que realizam classificação binária, a introdução de duas categorias adicionais no LLM-DetectAIve oferece insights sobre os diferentes graus de intervenção do LLM durante a criação do texto. Isso pode ser útil em alguns domínios, como a educação, onde qualquer intervenção do LLM é geralmente proibida. Experimentos mostram que o LLM-DetectAIve pode identificar efetivamente a autoria de conteúdo textual, comprovando sua utilidade em aprimorar a integridade na educação, academia e outros domínios. O LLM-DetectAIve está publicamente acessível em https://huggingface.co/spaces/raj-tomar001/MGT-New. O vídeo descrevendo nosso sistema está disponível em https://youtu.be/E8eT_bE7k8c.
O desenvolvimento de modelos de linguagem monolíngues para línguas de baixo e médio recurso continua a ser dificultado pela dificuldade em obter dados de treinamento de alta qualidade. Neste estudo, apresentamos uma nova estratégia de transferência de vocabulário cruzado, trans-tokenização, projetada para enfrentar esse desafio e permitir uma adaptação de linguagem mais eficiente. Nossa abordagem concentra-se em adaptar um LLM monolíngue de alto recurso para uma linguagem de destino não vista, inicializando os embeddings de token da linguagem de destino usando uma média ponderada de embeddings de token semanticamente similares da linguagem de origem. Para isso, aproveitamos um recurso de tradução que abrange tanto a linguagem de origem quanto a de destino. Validamos nosso método com os Tweeties, uma série de LLMs trans-tokenizados, e demonstramos seu desempenho competitivo em várias tarefas secundárias em um conjunto pequeno, mas diversificado, de idiomas. Além disso, introduzimos os LLMs Hydra, modelos com múltiplas cabeças de modelagem de linguagem intercambiáveis e tabelas de embeddings, que ampliam ainda mais as capacidades de nossa estratégia de trans-tokenização. Ao projetar um LLM Hydra com base no modelo multilíngue TowerInstruct, desenvolvemos um modelo de tradução automática de última geração para o tártaro, de forma zero-shot, contornando completamente a necessidade de dados paralelos de alta qualidade. Essa descoberta é particularmente significativa para línguas de baixo recurso como o tártaro, onde é difícil encontrar dados paralelos de alta qualidade. Ao reduzir os requisitos de dados e tempo para treinar modelos de alta qualidade, nossa estratégia de trans-tokenização permite o desenvolvimento de LLMs para uma gama mais ampla de idiomas, especialmente aqueles com recursos limitados. Esperamos que nosso trabalho inspire mais pesquisas e colaborações no campo da transferência de vocabulário cruzado e contribua para o fortalecimento de idiomas em escala global.
Propomos um novo método, tradução de instruções de ida e volta, para construir dados sintéticos de alta qualidade fundamentados no conhecimento do mundo para alinhar grandes modelos de linguagem (LLMs). Dados documentos de um corpus da web, geramos e curamos instruções sintéticas usando a abordagem de retrotradução proposta por Li et al. (2023a), e reescrevemos as respostas para melhorar ainda mais sua qualidade com base nos documentos iniciais. O ajuste fino com os pares resultantes (instrução retrotraduzida, resposta reescrita) resulta em taxas de sucesso mais altas no AlpacaEval do que o uso de outros conjuntos de dados de instruções comuns, como Humpback, ShareGPT, Open Orca, Alpaca-GPT4 e Self-instruct. Também demonstramos que reescrever as respostas com um LLM supera a destilação direta, e as duas distribuições de texto geradas exibem uma distinção significativa no espaço de incorporação. Uma análise adicional mostra que nossas instruções retrotraduzidas são de maior qualidade do que outras fontes de instruções sintéticas, enquanto nossas respostas são mais diversas e complexas do que aquelas obtidas da destilação. No geral, descobrimos que a tradução de instruções de ida e volta combina o melhor dos dois mundos - aproveitando a diversidade e quantidade de informações encontradas na web, enquanto garante a qualidade das respostas, o que é necessário para um alinhamento eficaz.
Os Modelos de Linguagem Multimodais de Grande Desempenho (MLLMs) dependem fortemente da qualidade dos dados. Este estudo apresenta um novo conjunto de dados chamado Img-Diff, projetado para aprimorar o reconhecimento de imagens detalhadas em MLLMs, aproveitando insights da aprendizagem constrastiva e da legenda de diferenças de imagem. Ao analisar as diferenças de objetos entre imagens semelhantes, desafiamos os modelos a identificar tanto componentes correspondentes quanto distintos. Utilizamos o modelo Stable-Diffusion-XL e técnicas avançadas de edição de imagem para criar pares de imagens semelhantes que destacam substituições de objetos. Nossa metodologia inclui um Gerador de Área de Diferença para identificação de diferenças de objetos, seguido por um Gerador de Legendas de Diferença para descrições detalhadas das diferenças. O resultado é um conjunto de dados relativamente pequeno, porém de alta qualidade, de amostras de "substituição de objetos". Utilizamos o conjunto de dados proposto para ajustar finamente os MLLMs de última geração, como o MGM-7B, resultando em melhorias abrangentes nos escores de desempenho em relação aos modelos de última geração treinados com conjuntos de dados em maior escala, em inúmeras tarefas de diferença de imagem e Resposta a Perguntas Visuais. Por exemplo, nossos modelos treinados superam significativamente os modelos de última geração GPT-4V e Gemini no benchmark MMVP. Além disso, investigamos métodos alternativos para gerar dados de diferença de imagem por meio da "remoção de objetos" e realizamos uma avaliação minuciosa para confirmar a diversidade, qualidade e robustez do conjunto de dados, apresentando diversas percepções sobre a síntese de tal conjunto de dados constrastivo. Para incentivar pesquisas adicionais e avançar no campo da síntese de dados multimodais e aprimoramento das capacidades fundamentais dos MLLMs para compreensão de imagens, disponibilizamos nossos códigos e conjunto de dados em https://github.com/modelscope/data-juicer/tree/ImgDiff.
A detecção de cabeças humanas, estimativa de pontos-chave e ajuste de modelo de cabeça 3D são tarefas importantes com muitas aplicações. No entanto, conjuntos de dados tradicionais do mundo real frequentemente sofrem de viés, questões de privacidade e ética, e são registrados em ambientes laboratoriais, o que torna difícil a generalização dos modelos treinados. Aqui, apresentamos o VGGHeads - um conjunto de dados sintéticos em grande escala gerado com modelos de difusão para detecção de cabeças humanas e estimativa de malha 3D. Nosso conjunto de dados é composto por mais de 1 milhão de imagens em alta resolução, cada uma anotada com malhas de cabeça 3D detalhadas, pontos de referência faciais e caixas delimitadoras. Utilizando este conjunto de dados, introduzimos uma nova arquitetura de modelo capaz de detectar cabeças e reconstruir malhas de cabeça simultaneamente a partir de uma única imagem em um único passo. Através de extensas avaliações experimentais, demonstramos que os modelos treinados em nossos dados sintéticos alcançam um desempenho sólido em imagens reais. Além disso, a versatilidade de nosso conjunto de dados o torna aplicável em uma ampla gama de tarefas, oferecendo uma representação geral e abrangente de cabeças humanas. Adicionalmente, fornecemos informações detalhadas sobre o pipeline de geração de dados sintéticos, possibilitando seu reuso para outras tarefas e domínios.
Apresentamos o Puppet-Master, um modelo generativo de vídeo interativo que pode servir como um movimento prévio para a dinâmica em nível de partes. No momento do teste, dado uma única imagem e um conjunto esparsa de trajetórias de movimento (ou seja, arrastos), o Puppet-Master pode sintetizar um vídeo que representa um movimento realista em nível de partes fiel às interações de arrasto fornecidas. Isso é alcançado por meio do ajuste fino de um modelo de difusão de vídeo pré-treinado em larga escala, para o qual propomos uma nova arquitetura de condicionamento para injetar o controle de arrasto de forma eficaz. Mais importante ainda, introduzimos o mecanismo de atenção de todos para o primeiro, uma substituição imediata para os módulos de atenção espacial amplamente adotados, que melhora significativamente a qualidade da geração ao abordar as questões de aparência e de fundo nos modelos existentes. Ao contrário de outros geradores de vídeo condicionados ao movimento que são treinados em vídeos do mundo real e movem principalmente um objeto inteiro, o Puppet-Master é aprendido a partir do Objaverse-Animation-HQ, um novo conjunto de dados de clipes de movimento em nível de partes selecionados. Propomos uma estratégia para filtrar automaticamente animações subótimas e aumentar as renderizações sintéticas com trajetórias de movimento significativas. O Puppet-Master generaliza bem para imagens reais em várias categorias e supera os métodos existentes de forma zero-shot em um benchmark do mundo real. Consulte nossa página do projeto para mais resultados: vgg-puppetmaster.github.io.
A ancoragem da linguagem natural em ambientes físicos 3D é essencial para o avanço da inteligência artificial incorporada. Conjuntos de dados e modelos atuais para ancoragem visual 3D focam predominantemente na identificação e localização de objetos a partir de descrições estáticas centradas em objetos. Essas abordagens não abordam adequadamente a natureza dinâmica e sequencial da ancoragem orientada por tarefas necessária para aplicações práticas. Neste trabalho, propomos uma nova tarefa: Ancoragem Sequencial Orientada por Tarefas em cenas 3D, na qual um agente deve seguir instruções detalhadas passo a passo para completar atividades diárias localizando uma sequência de objetos-alvo em cenas internas. Para facilitar essa tarefa, introduzimos o SG3D, um conjunto de dados em grande escala contendo 22.346 tarefas com 112.236 passos em 4.895 cenas 3D do mundo real. O conjunto de dados é construído usando uma combinação de varreduras RGB-D de vários conjuntos de dados de cenas 3D e um pipeline automatizado de geração de tarefas, seguido por verificação humana para garantia de qualidade. Adaptamos três modelos de ancoragem visual 3D de ponta para a tarefa de ancoragem sequencial e avaliamos seu desempenho no SG3D. Nossos resultados revelam que, embora esses modelos tenham bom desempenho em benchmarks tradicionais, enfrentam desafios significativos com a ancoragem sequencial orientada por tarefas, destacando a necessidade de mais pesquisas nessa área.
A representação molecular é um elemento fundamental em nossa compreensão do mundo físico. Sua importância varia desde os fundamentos das reações químicas até o design de novas terapias e materiais. Modelos anteriores de aprendizado de máquina molecular têm utilizado cadeias, impressões digitais, características globais e grafos moleculares simples que são representações intrinsecamente esparsas em informação. No entanto, à medida que a complexidade das tarefas de previsão aumenta, a representação molecular precisa codificar informações de alta fidelidade. Este trabalho apresenta uma abordagem inovadora para infundir informações ricas em química quântica em grafos moleculares por meio de efeitos estereoeletrônicos. Mostramos que a adição explícita de interações estereoeletrônicas melhora significativamente o desempenho de modelos de aprendizado de máquina molecular. Além disso, representações infundidas com estereoeletrônica podem ser aprendidas e implementadas com um fluxo de trabalho de rede neural de grafos duplos personalizado, permitindo sua aplicação a qualquer tarefa de aprendizado de máquina molecular subsequente. Por fim, demonstramos que as representações aprendidas permitem uma avaliação estereoeletrônica fácil de sistemas anteriormente intratáveis, como proteínas inteiras, abrindo novos caminhos para o design molecular.
Prever o comportamento de programas sem execução é uma tarefa essencial e desafiadora na engenharia de software. Modelos tradicionais frequentemente têm dificuldade em capturar dependências dinâmicas e interações dentro do código. Este artigo apresenta um novo framework baseado em aprendizado de máquina chamado CodeFlowrepresents, que prevê a cobertura de código e detecta erros em tempo de execução por meio do Aprendizado de Dependências Dinâmicas. Utilizando grafos de fluxo de controle (CFGs), o CodeFlowrepresents representa todos os caminhos de execução possíveis e as relações entre diferentes declarações, oferecendo uma compreensão abrangente do comportamento do programa. Ele constrói CFGs para representar os caminhos de execução e aprende representações vetoriais para os nós do CFG, capturando dependências estáticas de fluxo de controle. Além disso, ele aprende dependências dinâmicas por meio de rastreamentos de execução, que refletem os impactos entre declarações durante a execução. Essa abordagem possibilita a previsão precisa da cobertura de código e a identificação de erros em tempo de execução. Avaliações empíricas mostram melhorias significativas na precisão da previsão de cobertura de código e na localização eficaz de erros em tempo de execução, superando os modelos atuais.
Ao utilizar modelos de linguagem (LMs) para resolver problemas complexos, os humanos podem ter dificuldade em compreender as soluções geradas pelo LM e corrigir aquelas com falhas. Para auxiliar os humanos na correção, propomos decompor automaticamente soluções complexas em múltiplas partes mais simples que correspondam a subtarefas específicas. Introduzimos um novo objetivo para aprender a decomposição de tarefas, denominado valor assistencial (AssistV), que mede a viabilidade e rapidez para os humanos corrigirem a solução decomposta. Coletamos um conjunto de dados de experiências de correção humana em diferentes soluções decompostas. Utilizando os dados coletados como exemplos em contexto, aprendemos a criticar, refinar e classificar as soluções decompostas para melhorar o AssistV. Validamos nosso método em problemas de programação competitiva: em 177 horas de estudo humano, nosso método permite que não especialistas resolvam 33,3\% mais problemas, os acelera em 3,3 vezes e os capacita a igualar especialistas não assistidos.