Artigos de pesquisa em IA selecionados diariamente com traduções
O recente aumento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) remodelou fundamentalmente o cenário da pesquisa e indústria de IA, lançando luz sobre um caminho promissor em direção ao próximo marco da IA. No entanto, desafios significativos ainda impedem que os MLLMs sejam práticos em aplicações do mundo real. O desafio mais notável surge do alto custo de executar um MLLM com um grande número de parâmetros e extensa computação. Como resultado, a maioria dos MLLMs precisa ser implantada em servidores em nuvem de alto desempenho, o que limita grandemente seus escopos de aplicação, como em cenários móveis, offline, sensíveis à energia e de proteção de privacidade. Neste trabalho, apresentamos o MiniCPM-V, uma série de MLLMs eficientes implantáveis em dispositivos de ponta. Ao integrar as técnicas mais recentes de MLLM em arquitetura, pré-treinamento e alinhamento, o mais recente MiniCPM-Llama3-V 2.5 possui várias características notáveis: (1) Alto desempenho, superando o GPT-4V-1106, Gemini Pro e Claude 3 no OpenCompass, uma avaliação abrangente em 11 benchmarks populares, (2) forte capacidade de OCR e percepção de imagem de alta resolução de 1,8M pixels em qualquer proporção, (3) comportamento confiável com baixas taxas de alucinação, (4) suporte multilíngue para mais de 30 idiomas e (5) implantação eficiente em telefones celulares. Mais importante ainda, o MiniCPM-V pode ser visto como um exemplo representativo de uma tendência promissora: os tamanhos de modelo para alcançar desempenho de nível utilizável (por exemplo, GPT-4V) estão diminuindo rapidamente, juntamente com o rápido crescimento da capacidade de computação de ponta. Isso demonstra conjuntamente que MLLMs de nível GPT-4V implantados em dispositivos de ponta estão se tornando cada vez mais possíveis, desbloqueando um espectro mais amplo de aplicações de IA do mundo real em um futuro próximo.
O diálogo serve como a forma mais natural de interação humano-computador (HCI). Avanços recentes em modelos de linguagem de fala (SLM) têm aprimorado significativamente a IA conversacional baseada em fala. No entanto, esses modelos são limitados a conversas baseadas em turnos, sem a capacidade de interagir com humanos em cenários de fala em tempo real, por exemplo, sendo interrompidos quando o conteúdo gerado não é satisfatório. Para lidar com essas limitações, exploramos a modelagem de duplex completo (FDM) em modelos de linguagem de fala interativos (iSLM), focando em aprimorar a interação em tempo real e, mais explicitamente, explorando a habilidade quintessencial de interrupção. Apresentamos um design de modelo inovador, chamado modelo de linguagem de escuta-enquanto-fala (LSLM), um sistema de ponta a ponta equipado com canais de escuta e fala. Nosso LSLM utiliza um decodificador baseado em token apenas para TTS para geração de fala e um codificador de aprendizado auto-supervisionado em streaming (SSL) para entrada de áudio em tempo real. O LSLM funde ambos os canais para geração autoregressiva e detecta a tomada de turnos em tempo real. Três estratégias de fusão - fusão precoce, fusão intermediária e fusão tardia - são exploradas, com a fusão intermediária alcançando um equilíbrio ideal entre geração de fala e interação em tempo real. Duas configurações experimentais, FDM baseado em comando e FDM baseado em voz, demonstram a robustez do LSLM ao ruído e a sensibilidade a instruções diversas. Nossos resultados destacam a capacidade do LSLM de alcançar comunicação duplex com impacto mínimo em sistemas existentes. Este estudo tem como objetivo avançar o desenvolvimento de sistemas de diálogo de fala interativos, aprimorando sua aplicabilidade em contextos do mundo real.
Implementar sistemas de Geração com Recuperação Aprimorada (RAG) é inerentemente complexo, exigindo profundo entendimento de dados, casos de uso e decisões de design intricadas. Além disso, avaliar esses sistemas apresenta desafios significativos, exigindo a avaliação tanto da precisão da recuperação quanto da qualidade generativa por meio de uma abordagem multifacetada. Apresentamos o RAG Foundry, um framework de código aberto para aprimorar grandes modelos de linguagem para casos de uso de RAG. O RAG Foundry integra a criação de dados, treinamento, inferência e avaliação em um único fluxo de trabalho, facilitando a criação de conjuntos de dados aumentados por dados para treinar e avaliar grandes modelos de linguagem em ambientes de RAG. Essa integração permite prototipagem rápida e experimentação com várias técnicas de RAG, permitindo que os usuários gerem facilmente conjuntos de dados e treinem modelos RAG usando fontes de conhecimento internas ou especializadas. Demonstramos a eficácia do framework ao aprimorar e ajustar os modelos Llama-3 e Phi-3 com diversas configurações de RAG, mostrando melhorias consistentes em três conjuntos de dados intensivos em conhecimento. O código é disponibilizado como código aberto em https://github.com/IntelLabs/RAGFoundry.
Apresentamos o Lumina-mGPT, uma família de modelos autoregressivos multimodais capazes de realizar diversas tarefas de visão e linguagem, destacando-se especialmente na geração de imagens fotorrealistas flexíveis a partir de descrições de texto. Ao contrário das abordagens existentes de geração de imagens autoregressivas, o Lumina-mGPT utiliza um transformador pré-treinado apenas no decodificador como um framework unificado para modelar sequências de tokens multimodais. Nossa principal percepção é que um simples transformador apenas no decodificador com Generative PreTraining multimodal (mGPT), utilizando o objetivo de previsão do próximo token em sequências maciças de texto-imagem entrelaçadas, pode aprender capacidades multimodais amplas e gerais, iluminando assim a geração fotorrealista de texto para imagem. Com base nesses modelos pré-treinados, propomos o Ajuste Fino Supervisionado Progressivo Flexível (FP-SFT) em pares de alta qualidade de imagem-texto para desbloquear totalmente seu potencial para síntese de imagem de alta estética em qualquer resolução, mantendo suas capacidades multimodais gerais. Além disso, introduzimos o Ajuste Fino Supervisionado Omnipotente (Omni-SFT), transformando o Lumina-mGPT em um modelo fundamental que alcança de forma contínua a unificação de tarefas onipotentes. O modelo resultante demonstra capacidades multimodais versáteis, incluindo tarefas de geração visual como geração flexível de texto para imagem e geração controlável, tarefas de reconhecimento visual como segmentação e estimativa de profundidade, e tarefas de visão e linguagem como perguntas e respostas visuais multiturno. Além disso, analisamos as diferenças e semelhanças entre métodos baseados em difusão e autoregressivos em uma comparação direta.
Apresentamos o MeshAnything V2, um transformador autoregressivo que gera Malhas Criadas por Artistas (AM) alinhadas a formas fornecidas. Pode ser integrado a várias linhas de produção de ativos 3D para alcançar geração de AM de alta qualidade e altamente controlável. O MeshAnything V2 supera os métodos anteriores tanto em eficiência quanto em desempenho usando modelos do mesmo tamanho. Essas melhorias são devidas ao nosso método de tokenização de malha recém-proposto: Tokenização de Malha Adjacente (AMT). Diferente de métodos anteriores que representam cada face com três vértices, o AMT usa um único vértice sempre que possível. Comparado aos métodos anteriores, o AMT requer cerca da metade do comprimento da sequência de tokens para representar a mesma malha em média. Além disso, as sequências de tokens do AMT são mais compactas e bem estruturadas, beneficiando fundamentalmente a geração de AM. Nossos experimentos extensivos mostram que o AMT melhora significativamente a eficiência e o desempenho da geração de AM. Página do Projeto: https://buaacyw.github.io/meshanything-v2/
A avaliação baseada em modelo está no cerne do desenvolvimento bem-sucedido de modelos - como um modelo de recompensa para treinamento e como substituto da avaliação humana. Para treinar tais avaliadores, a abordagem padrão é coletar uma grande quantidade de julgamentos de preferência humana sobre respostas do modelo, o que é custoso e os dados se tornam obsoletos à medida que os modelos melhoram. Neste trabalho, apresentamos uma abordagem que visa melhorar os avaliadores sem anotações humanas, utilizando apenas dados de treinamento sintéticos. Partindo de instruções não rotuladas, nosso esquema iterativo de auto aprimoramento gera saídas de modelo contrastantes e treina um LLM-como-Juíz para produzir traços de raciocínio e julgamentos finais, repetindo este treinamento a cada nova iteração usando as previsões aprimoradas. Sem nenhum dado de preferência rotulado, nosso Avaliador Autodidata pode melhorar um forte LLM (Llama3-70B-Instruct) de 75,4 para 88,3 (88,7 com voto majoritário) no RewardBench. Isso supera juízes LLM comumente usados, como o GPT-4, e corresponde ao desempenho dos modelos de recompensa de melhor desempenho treinados com exemplos rotulados.
A afinação de instruções desempenha um papel crítico no alinhamento de grandes modelos de linguagem (LLMs) com a preferência humana. Apesar da vasta quantidade de conjuntos de dados de instruções abertas, treinar ingenuamente um LLM em todas as instruções existentes pode não ser ótimo e prático. Para identificar os pontos de dados mais benéficos, métodos de avaliação e seleção de dados foram propostos nos campos de processamento de linguagem natural (NLP) e aprendizado profundo. No entanto, no contexto da afinação de instruções, ainda existe uma lacuna de conhecimento sobre que tipo de métricas de avaliação de dados podem ser empregadas e como podem ser integradas ao mecanismo de seleção. Para preencher essa lacuna, apresentamos uma revisão abrangente da literatura existente sobre avaliação e seleção de dados, especialmente para a afinação de instruções de LLMs. Categorizamos sistematicamente todos os métodos aplicáveis em baseados em qualidade, baseados em diversidade e baseados em importância, onde uma taxonomia unificada e refinada é estruturada. Para cada categoria, métodos representativos são detalhados para descrever o panorama da pesquisa relevante. Além disso, é realizada uma comparação entre os métodos mais recentes com base em seus resultados oficialmente relatados para fornecer discussões aprofundadas sobre suas limitações. Por fim, resumimos os desafios em aberto e propomos as promissoras direções para estudos futuros. Todo o conteúdo relacionado está disponível em https://github.com/yuleiqin/fantastic-data-engineering.
A qualidade dos pares vídeo-texto determina fundamentalmente o limite superior dos modelos de texto-para-vídeo. Atualmente, os conjuntos de dados usados para treinar esses modelos apresentam deficiências significativas, incluindo baixa consistência temporal, legendas de baixa qualidade, qualidade de vídeo inferior e distribuição desequilibrada de dados. O processo predominante de curadoria de vídeos, que depende de modelos de imagem para marcação e curadoria baseada em regras manuais, resulta em uma carga computacional alta e deixa para trás dados não limpos. Como resultado, há uma falta de conjuntos de dados de treinamento apropriados para modelos de texto-para-vídeo. Para resolver esse problema, apresentamos o VidGen-1M, um conjunto de dados de treinamento superior para modelos de texto-para-vídeo. Produzido por meio de uma estratégia de curadoria de grosso a fino, este conjunto de dados garante vídeos de alta qualidade e legendas detalhadas com excelente consistência temporal. Quando utilizado para treinar o modelo de geração de vídeo, este conjunto de dados resultou em resultados experimentais que superam os obtidos com outros modelos.
Neste artigo, propomos o ProCreate, um método simples e fácil de implementar para melhorar a diversidade e criatividade de amostras de modelos gerativos de imagens baseados em difusão e para evitar a reprodução de dados de treinamento. O ProCreate opera em um conjunto de imagens de referência e impulsiona ativamente a incorporação da imagem gerada para longe das incorporações de referência durante o processo de geração. Propomos o FSCG-8 (Geração Criativa de Poucas Amostras 8), um conjunto de dados de geração criativa de poucas amostras em oito categorias diferentes -- abrangendo diferentes conceitos, estilos e configurações -- no qual o ProCreate alcança a maior diversidade e fidelidade de amostras. Além disso, demonstramos que o ProCreate é eficaz na prevenção da replicação de dados de treinamento em uma avaliação em grande escala usando prompts de texto de treinamento. O código e o FSCG-8 estão disponíveis em https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. A página do projeto está disponível em https://procreate-diffusion.github.io.
O avanço do processamento de linguagem natural (PLN) na biologia depende da capacidade dos modelos de interpretar a intrincada literatura biomédica. Modelos tradicionais frequentemente enfrentam dificuldades com a linguagem complexa e específica desse campo. Neste artigo, apresentamos o BioMamba, um modelo pré-treinado especificamente projetado para mineração de texto biomédico. O BioMamba se baseia na arquitetura Mamba e é pré-treinado em um extenso corpus de literatura biomédica. Nossos estudos empíricos demonstram que o BioMamba supera significativamente modelos como o BioBERT e o Mamba de domínio geral em várias tarefas biomédicas. Por exemplo, o BioMamba alcança uma redução de 100 vezes na perplexidade e uma redução de 4 vezes na perda de entropia cruzada no conjunto de teste BioASQ. Fornecemos uma visão geral da arquitetura do modelo, do processo de pré-treinamento e das técnicas de ajuste fino. Além disso, disponibilizamos o código e o modelo treinado para facilitar pesquisas futuras.
Algoritmos de aprendizado multiagente têm sido bem-sucedidos na geração de planejamento super-humano em uma ampla variedade de jogos, mas tiveram pouco impacto no design de planejadores multiagente implantados. Um gargalo-chave na aplicação dessas técnicas ao planejamento multiagente é que elas requerem bilhões de passos de experiência. Para possibilitar o estudo do planejamento multiagente nessa escala, apresentamos o GPUDrive, um simulador multiagente acelerado por GPU construído sobre o Motor de Jogo Madrona que pode gerar mais de um milhão de passos de experiência por segundo. As funções de observação, recompensa e dinâmica são escritas diretamente em C++, permitindo aos usuários definir comportamentos complexos e heterogêneos de agentes que são convertidos para CUDA de alto desempenho. Mostramos que ao utilizar o GPUDrive somos capazes de treinar efetivamente agentes de aprendizado por reforço em muitas cenas no conjunto de dados de Movimento Waymo, produzindo agentes altamente eficazes na alcançar metas em minutos para cenas individuais e agentes geralmente capazes em algumas horas. Disponibilizamos esses agentes treinados como parte da base de código em https://github.com/Emerge-Lab/gpudrive.
Métodos de raciocínio visual composicional, que traduzem uma consulta complexa em uma composição estruturada de tarefas visuais viáveis, têm demonstrado um forte potencial em tarefas multi-modais complicadas. Potencializados pelos avanços recentes em grandes modelos de linguagem (LLMs), esse desafio multi-modal foi levado a um novo patamar ao tratar os LLMs como planejadores de poucas/zero iterações, ou seja, programação visão-linguagem (VL). Tais métodos, apesar de seus inúmeros méritos, enfrentam desafios devido a erros de planejamento do LLM ou imprecisão dos módulos de execução visual, ficando atrás dos modelos não composicionais. Neste trabalho, desenvolvemos um método "plug-and-play", ExoViP, para corrigir erros tanto nas etapas de planejamento quanto de execução por meio de verificação introspectiva. Empregamos módulos de verificação como "exoesqueletos" para aprimorar os esquemas atuais de programação VL. Especificamente, nosso módulo de verificação proposto utiliza uma mistura de três sub-verificadores para validar previsões após cada etapa de raciocínio, calibrando subsequentemente as previsões do módulo visual e refinando o rastro de raciocínio planejado pelos LLMs. Resultados experimentais em dois métodos representativos de programação VL demonstram melhorias consistentes em cinco tarefas de raciocínio composicional em benchmarks padrão. Diante disso, acreditamos que o ExoViP pode promover um melhor desempenho e generalização em desafios multi-modais de domínio aberto.
O recente aumento dos modelos de linguagem grandes (LLMs) de código aberto permite aos desenvolvedores criar soluções baseadas em IA mantendo o controle sobre aspectos como privacidade e conformidade, fornecendo assim governança e propriedade do processo de implantação do modelo. Para utilizar esses LLMs, são necessários motores de inferência. Esses motores carregam os pesos do modelo nos recursos disponíveis, como GPUs, e processam consultas para gerar respostas. A velocidade da inferência, ou desempenho, do LLM é crucial para aplicações em tempo real, pois calcula milhões ou bilhões de operações de ponto flutuante por inferência. Recentemente, motores de inferência avançados, como o vLLM, surgiram, incorporando mecanismos inovadores, como gerenciamento eficiente de memória, para alcançar um desempenho de ponta. Neste artigo, analisamos o desempenho, especialmente o throughput (tokens gerados por unidade de tempo), de 20 LLMs usando duas bibliotecas de inferência: vLLM e pipelines da HuggingFace. Investigamos como vários hiperparâmetros, que os desenvolvedores devem configurar, influenciam o desempenho da inferência. Nossos resultados revelam que as paisagens de throughput são irregulares, com picos distintos, destacando a importância da otimização de hiperparâmetros para alcançar o desempenho máximo. Também mostramos que a aplicação de otimização de hiperparâmetros ao atualizar ou rebaixar o modelo de GPU usado para inferência pode melhorar o throughput dos pipelines da HuggingFace em uma média de 9,16% e 13,7%, respectivamente.
Assistentes avançados de IA combinam LLMs de ponta e acesso a ferramentas para realizar autonomamente tarefas complexas em nome dos usuários. Embora a utilidade desses assistentes possa aumentar drasticamente com o acesso às informações do usuário, incluindo e-mails e documentos, isso levanta preocupações com a privacidade, pois os assistentes podem compartilhar informações inadequadas com terceiros sem supervisão do usuário. Para orientar os assistentes na partilha de informações a se comportarem de acordo com as expectativas de privacidade, propomos operacionalizar a integridade contextual (CI), um framework que equipara privacidade ao fluxo apropriado de informações em um determinado contexto. Em particular, projetamos e avaliamos uma série de estratégias para orientar as ações de compartilhamento de informações dos assistentes a serem compatíveis com a CI. Nossa avaliação é baseada em um novo benchmark de preenchimento de formulários composto por dados sintéticos e anotações humanas, e revela que orientar os LLMs de ponta a realizar raciocínio baseado na CI produz resultados sólidos.