Artigos de pesquisa em IA selecionados diariamente com traduções
Um dos grandes desafios da inteligência artificial geral é desenvolver agentes capazes de conduzir pesquisas científicas e descobrir novos conhecimentos. Embora modelos de ponta já tenham sido utilizados como auxílios para cientistas humanos, por exemplo, para brainstorming de ideias, escrita de código ou tarefas de previsão, eles ainda realizam apenas uma pequena parte do processo científico. Este artigo apresenta o primeiro framework abrangente para descoberta científica totalmente automática, permitindo que modelos de linguagem de grande porte de fronteira realizem pesquisas de forma independente e comuniquem suas descobertas. Introduzimos O Cientista de IA, que gera ideias de pesquisa inovadoras, escreve código, executa experimentos, visualiza resultados, descreve suas descobertas escrevendo um artigo científico completo e, em seguida, executa um processo de revisão simulado para avaliação. Em princípio, esse processo pode ser repetido para desenvolver ideias de forma iterativa de maneira aberta, agindo como a comunidade científica humana. Demonstramos sua versatilidade aplicando-o a três subcampos distintos de aprendizado de máquina: modelagem de difusão, modelagem de linguagem baseada em transformadores e dinâmica de aprendizado. Cada ideia é implementada e desenvolvida em um artigo completo a um custo inferior a $15 por artigo. Para avaliar os artigos gerados, projetamos e validamos um revisor automatizado, que demonstramos alcançar desempenho próximo ao humano na avaliação das pontuações dos artigos. O Cientista de IA pode produzir artigos que excedem o limiar de aceitação em uma conferência de aprendizado de máquina de ponta, conforme julgado por nosso revisor automatizado. Esta abordagem marca o início de uma nova era na descoberta científica em aprendizado de máquina: trazendo os benefícios transformadores de agentes de IA para todo o processo de pesquisa da própria IA, e nos aproximando de um mundo onde a criatividade e inovação infinitamente acessíveis podem ser liberadas para os problemas mais desafiadores do mundo. Nosso código está disponível em código aberto em https://github.com/SakanaAI/AI-Scientist
Este artigo apresenta o rStar, uma abordagem de raciocínio mútuo de autojogo que melhora significativamente as capacidades de raciocínio de pequenos modelos de linguagem (SLMs) sem ajuste fino ou modelos superiores. O rStar desacopla o raciocínio em um processo de geração-discriminação mútua de autojogo. Primeiramente, um SLM alvo aumenta a Busca em Árvore de Monte Carlo (MCTS) com um conjunto rico de ações de raciocínio semelhantes às humanas para construir trajetórias de raciocínio de maior qualidade. Em seguida, outro SLM, com capacidades semelhantes ao SLM alvo, atua como um discriminador para verificar cada trajetória gerada pelo SLM alvo. As trajetórias de raciocínio mutuamente acordadas são consideradas mutuamente consistentes, sendo assim mais propensas a estarem corretas. Experimentos extensivos em cinco SLMs demonstram que o rStar pode resolver efetivamente diversos problemas de raciocínio, incluindo GSM8K, GSM-Hard, MATH, SVAMP e StrategyQA. Notavelmente, o rStar aumenta a precisão do GSM8K de 12,51% para 63,91% para LLaMA2-7B, de 36,46% para 81,88% para Mistral-7B, e de 74,53% para 91,13% para LLaMA3-8B-Instruct. O código estará disponível em https://github.com/zhentingqi/rStar.
Os modelos de difusão têm demonstrado habilidades notáveis e robustas tanto na geração de imagens quanto de vídeos. Para obter um controle maior sobre os resultados gerados, os pesquisadores introduzem arquiteturas adicionais, como ControlNet, Adapters e ReferenceNet, para integrar controles condicionais. No entanto, os métodos atuais de geração controlável frequentemente exigem recursos computacionais substanciais adicionais, especialmente para a geração de vídeos, e enfrentam desafios no treinamento ou apresentam controle fraco. Neste artigo, propomos o ControlNeXt: um método poderoso e eficiente para geração controlável de imagens e vídeos. Primeiramente, projetamos uma arquitetura mais simples e eficiente, substituindo ramos adicionais pesados com custo adicional mínimo em comparação com o modelo base. Essa estrutura concisa também permite que nosso método se integre perfeitamente com outros pesos LoRA, possibilitando a alteração de estilo sem a necessidade de treinamento adicional. Em relação ao treinamento, reduzimos até 90% dos parâmetros aprendíveis em comparação com as alternativas. Além disso, propomos outro método chamado Normalização Cruzada (CN) como substituto para a 'Zero-Convolution' para alcançar uma convergência de treinamento rápida e estável. Realizamos diversos experimentos com diferentes modelos base em imagens e vídeos, demonstrando a robustez de nosso método.
O Med42-v2 introduz um conjunto de modelos de linguagem clínica de grande porte (LLMs) projetados para lidar com as limitações de modelos genéricos em ambientes de saúde. Esses modelos são construídos com base na arquitetura Llama3 e são ajustados usando dados clínicos especializados. Eles passaram por um alinhamento de preferência em múltiplas etapas para responder efetivamente a solicitações naturais. Enquanto os modelos genéricos frequentemente são alinhados com preferências para evitar responder a consultas clínicas como precaução, o Med42-v2 é especificamente treinado para superar essa limitação, permitindo seu uso em ambientes clínicos. Os modelos Med42-v2 demonstram desempenho superior em comparação com os modelos Llama3 originais em configurações de parâmetros de 8B e 70B e o GPT-4 em vários benchmarks médicos. Esses LLMs são desenvolvidos para compreender consultas clínicas, realizar tarefas de raciocínio e fornecer assistência valiosa em ambientes clínicos. Os modelos agora estão disponíveis publicamente em https://huggingface.co/m42-health.
Apresentamos o CogVideoX, um modelo de transformer de difusão em larga escala projetado para gerar vídeos com base em instruções de texto. Para modelar eficientemente dados de vídeo, propomos utilizar um Codificador Variacional 3D (VAE) para comprimir vídeos ao longo das dimensões espaciais e temporais. Para melhorar o alinhamento texto-vídeo, propomos um transformer especializado com o LayerNorm adaptativo de especialistas para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é capaz de produzir vídeos coerentes de longa duração, caracterizados por movimentos significativos. Além disso, desenvolvemos um pipeline eficaz de processamento de dados texto-vídeo que inclui várias estratégias de pré-processamento de dados e um método de legenda de vídeo. Isso ajuda significativamente a melhorar o desempenho do CogVideoX, aprimorando tanto a qualidade da geração quanto o alinhamento semântico. Os resultados mostram que o CogVideoX demonstra um desempenho de ponta em múltiplas métricas de máquina e avaliações humanas. Os pesos do modelo tanto do VAE Causal 3D quanto do CogVideoX estão disponíveis publicamente em https://github.com/THUDM/CogVideo.
Apresentamos o FruitNeRF, um novo e unificado framework de contagem de frutas que aproveita métodos de síntese de visualização de ponta para contar qualquer tipo de fruta diretamente em 3D. Nosso framework recebe um conjunto não ordenado de imagens posicionadas capturadas por uma câmera monocular e segmenta as frutas em cada imagem. Para tornar nosso sistema independente do tipo de fruta, empregamos um modelo base que gera máscaras de segmentação binária para qualquer fruta. Utilizando ambas as modalidades, RGB e semântica, treinamos um campo de radiância neural semântico. Através da amostragem uniforme de volume do Campo de Frutas implícito, obtemos nuvens de pontos contendo apenas frutas. Aplicando um agrupamento em cascata na nuvem de pontos extraída, nosso método alcança uma contagem precisa de frutas. O uso de campos de radiância neural oferece vantagens significativas sobre métodos convencionais, como rastreamento de objetos ou fluxo óptico, uma vez que a contagem é realizada em 3D. Nosso método evita a contagem dupla de frutas e a contagem de frutas irrelevantes. Avaliamos nossa metodologia utilizando conjuntos de dados tanto do mundo real quanto sintéticos. O conjunto de dados do mundo real consiste em três macieiras com contagens manuais verdadeiras, um conjunto de dados de referência de maçã com uma linha e a localização verdadeira das frutas, enquanto o conjunto de dados sintético compreende vários tipos de frutas, incluindo maçã, ameixa, limão, pera, pêssego e manga. Além disso, avaliamos o desempenho da contagem de frutas usando o modelo base em comparação com um U-Net.
Grandes Modelos Multimodais (LMMs) inauguraram uma nova era na inteligência artificial, combinando capacidades em linguagem e visão para formar Agentes de Fundação Visual altamente capazes. Estes agentes são postulados para se destacarem em uma miríade de tarefas, potencialmente se aproximando da inteligência artificial geral. No entanto, os benchmarks existentes falham em desafiar ou demonstrar suficientemente o potencial total dos LMMs em ambientes complexos do mundo real. Para abordar essa lacuna, apresentamos o VisualAgentBench (VAB), um benchmark abrangente e pioneiro especificamente projetado para treinar e avaliar LMMs como agentes de fundação visual em cenários diversos, incluindo Embodied, Interface Gráfica do Usuário e Design Visual, com tarefas formuladas para sondar a profundidade da compreensão e capacidades de interação dos LMMs. Através de testes rigorosos em nove APIs proprietárias de LMM e oito modelos abertos, demonstramos as consideráveis, porém ainda em desenvolvimento, capacidades dos agentes desses modelos. Além disso, o VAB constrói um conjunto de treinamento de trajetória elaborado por meio de métodos híbridos, incluindo Solucionadores Baseados em Programa, Inicialização de Agentes LMM e Demonstração Humana, promovendo melhorias substanciais de desempenho nos LMMs por meio de clonagem de comportamento. Nosso trabalho não apenas visa avaliar os modelos existentes, mas também fornece uma base sólida para o desenvolvimento futuro de agentes de fundação visual. Código, dados de treinamento e teste, e parte dos LMMs abertos ajustados estão disponíveis em https://github.com/THUDM/VisualAgentBench.
Neste artigo, apresentamos uma abordagem inovadora para a criação de avatares tridimensionais de cabeça capaz de generalizar a partir de dados in-the-wild de poucas amostras com alta fidelidade e robustez animável. Dada a natureza subdeterminada desse problema, incorporar conhecimento prévio é essencial. Portanto, propomos um framework composto por fases de aprendizado prévio e criação de avatar. A fase de aprendizado prévio aproveita conhecimentos prévios de cabeça 3D derivados de um grande conjunto de dados dinâmicos multi-visão, e a fase de criação de avatar aplica esses conhecimentos prévios para personalização de poucas amostras. Nossa abordagem captura efetivamente esses conhecimentos prévios ao utilizar uma rede auto-decodificadora baseada em Splatting Gaussiano com modelagem dinâmica baseada em partes. Nosso método emprega codificação compartilhada de identidade com códigos latentes personalizados para identidades individuais para aprender os atributos de primitivas Gaussianas. Durante a fase de criação de avatar, alcançamos uma rápida personalização de avatares de cabeça por meio de estratégias de inversão e ajuste fino. Experimentos extensivos demonstram que nosso modelo explora efetivamente conhecimentos prévios de cabeça e os generaliza com sucesso para personalização de poucas amostras, alcançando qualidade de renderização fotorrealística, consistência multi-visão e animação estável.
Este artigo apresenta o UniPortrait, um inovador framework de personalização de imagens humanas que unifica a personalização de identificação única e múltipla com alta fidelidade facial, ampla capacidade de edição facial, descrição de entrada em formato livre e geração de layout diversificada. O UniPortrait é composto por apenas dois módulos plug-and-play: um módulo de incorporação de identificação e um módulo de roteamento de identificação. O módulo de incorporação de identificação extrai características faciais editáveis versáteis com uma estratégia de desacoplamento para cada identificação e as incorpora no espaço de contexto de modelos de difusão. O módulo de roteamento de identificação combina e distribui essas incorporações de forma adaptativa para suas respectivas regiões dentro da imagem sintetizada, alcançando a personalização de identificações única e múltipla. Com um esquema de treinamento em duas etapas cuidadosamente projetado, o UniPortrait alcança um desempenho superior tanto na personalização de identificação única quanto múltipla. Experimentos quantitativos e qualitativos demonstram as vantagens do nosso método em relação às abordagens existentes, bem como sua boa escalabilidade, por exemplo, a compatibilidade universal com ferramentas de controle generativo existentes. A página do projeto está em https://aigcdesigngroup.github.io/UniPortrait-Page/.
Nos últimos anos, a arquitetura transformer tornou-se o padrão de facto para algoritmos de aprendizado de máquina aplicados ao processamento de linguagem natural e visão computacional. Apesar de evidências notáveis da implementação bem-sucedida dessa arquitetura no contexto do aprendizado de robôs, afirmamos que os transformers convencionais não exploram totalmente a estrutura do problema de aprendizado do robô. Portanto, propomos o Body Transformer (BoT), uma arquitetura que aproveita a incorporação do robô fornecendo um viés indutivo que orienta o processo de aprendizado. Representamos o corpo do robô como um grafo de sensores e atuadores, e dependemos da atenção mascarada para agrupar informações ao longo da arquitetura. A arquitetura resultante supera o transformer convencional, bem como o perceptron multicamadas clássico, em termos de conclusão de tarefas, propriedades de dimensionamento e eficiência computacional ao representar políticas de aprendizado por imitação ou reforço. Material adicional, incluindo o código aberto, está disponível em https://sferrazza.cc/bot_site.
Apesar de seus sucessos recentes, os modelos de linguagem grandes baseados em Transformadores apresentam modos de falha surpreendentes. Um exemplo bem conhecido desses modos de falha é a incapacidade de generalizar o comprimento: resolver instâncias de problemas no momento da inferência que são mais longas do que aquelas vistas durante o treinamento. Neste trabalho, exploramos mais a fundo a causa raiz dessa falha, realizando uma análise detalhada dos comportamentos do modelo na simples tarefa de paridade. Nossa análise sugere que as falhas de generalização de comprimento estão intimamente relacionadas com a incapacidade de um modelo de realizar acessos de memória aleatórios dentro de sua janela de contexto. Apresentamos evidências que apoiam essa hipótese, demonstrando a eficácia de metodologias que contornam a necessidade de indexação ou que permitem acesso aleatório a tokens indiretamente, por meio de endereçamento baseado em conteúdo. Mostramos também onde e como a falha em realizar acesso aleatório à memória se manifesta por meio de visualizações de mapas de atenção.