Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que o tamanho dos modelos pré-treinados de reconhecimento de fala aumenta, a execução desses modelos grandes em ambientes de baixa latência ou com recursos limitados torna-se um desafio. Neste trabalho, utilizamos pseudo-rotulação para montar um conjunto de dados em grande escala de código aberto, que usamos para destilar o modelo Whisper em uma variante menor, chamada Distil-Whisper. Usando uma heurística simples de taxa de erro de palavras (WER, na sigla em inglês), selecionamos apenas as pseudo-rotulações de mais alta qualidade para o treinamento. O modelo destilado é 5,8 vezes mais rápido, com 51% menos parâmetros, enquanto mantém um desempenho dentro de 1% de WER em dados de teste fora da distribuição em um cenário de transferência zero-shot. O Distil-Whisper mantém a robustez do modelo Whisper em condições acústicas difíceis, ao mesmo tempo em que é menos propenso a erros de alucinação em áudios de longa duração. O Distil-Whisper foi projetado para ser emparelhado com o Whisper para decodificação especulativa, proporcionando um aumento de velocidade de 2 vezes, enquanto garante matematicamente as mesmas saídas que o modelo original. Para facilitar pesquisas adicionais nesse domínio, disponibilizamos publicamente nosso código de treinamento, código de inferência e modelos.
O LLaVA-Interactive é um protótipo de pesquisa para interação multimodal entre humanos e IA. O sistema pode realizar diálogos com múltiplas interações com usuários humanos, recebendo entradas multimodais e gerando respostas multimodais. De forma crucial, o LLaVA-Interactive vai além do prompt de linguagem, permitindo o uso de prompt visual para alinhar as intenções humanas durante a interação. O desenvolvimento do LLaVA-Interactive é extremamente eficiente em termos de custo, pois o sistema combina três habilidades multimodais de modelos de IA pré-construídos sem a necessidade de treinamento adicional: o chat visual do LLaVA, a segmentação de imagens do SEEM, bem como a geração e edição de imagens do GLIGEN. Um conjunto diversificado de cenários de aplicação é apresentado para demonstrar o potencial do LLaVA-Interactive e inspirar pesquisas futuras em sistemas interativos multimodais.
Demonstramos como a geração condicional a partir de modelos de difusão pode ser utilizada para abordar uma variedade de tarefas realistas na produção de música em áudio estéreo de 44,1kHz com orientação no tempo de amostragem. Os cenários que consideramos incluem a continuação, inpainting e regeneração de áudio musical, a criação de transições suaves entre duas faixas musicais diferentes e a transferência de características estilísticas desejadas para clipes de áudio existentes. Isso é alcançado aplicando orientação no tempo de amostragem em um framework simples que suporta tanto perdas de reconstrução quanto de classificação, ou qualquer combinação das duas. Essa abordagem garante que o áudio gerado possa corresponder ao seu contexto circundante ou se conformar a uma distribuição de classe ou representação latente especificada em relação a qualquer classificador ou modelo de embedding pré-treinado adequado.
Demonstramos o texto como uma interface multimodal robusta. Em vez de depender de embeddings profundos para conectar imagem e linguagem como representação da interface, nossa abordagem representa uma imagem como texto, aproveitando a interpretabilidade e flexibilidade inerentes à linguagem natural. Empregamos um autoencoder que utiliza um modelo de difusão texto-para-imagem pré-treinado para decodificação. O codificador é treinado para transformar uma imagem de entrada em texto, que é então alimentado no decodificador de difusão texto-para-imagem fixo para reconstruir a entrada original — um processo que denominamos De-Difusão. Experimentos validam tanto a precisão quanto a abrangência do texto de De-Difusão na representação de imagens, de modo que ele pode ser facilmente processado por ferramentas texto-para-imagem prontas para uso e LLMs para diversas tarefas multimodais. Por exemplo, um único modelo de De-Difusão pode generalizar para fornecer prompts transferíveis para diferentes ferramentas texto-para-imagem e também alcança um novo estado da arte em tarefas abertas de visão e linguagem simplesmente ao fornecer exemplos few-shot para grandes modelos de linguagem.
A recente onda de IA generativa despertou uma atenção global sem precedentes, com tanto entusiasmo quanto preocupação em relação a níveis potencialmente sobre-humanos de inteligência artificial: os modelos agora levam apenas segundos para produzir resultados que desafiam ou superam as capacidades até mesmo de humanos especialistas. Ao mesmo tempo, os modelos ainda cometem erros básicos de compreensão que não seriam esperados nem em humanos não especialistas. Isso nos apresenta um aparente paradoxo: como reconciliar capacidades aparentemente sobre-humanas com a persistência de erros que poucos humanos cometeriam? Neste trabalho, propomos que essa tensão reflete uma divergência na configuração da inteligência nos modelos generativos atuais em relação à inteligência humana. Especificamente, propomos e testamos a hipótese do Paradoxo da IA Generativa: modelos generativos, tendo sido treinados diretamente para reproduzir resultados semelhantes aos de especialistas, adquirem capacidades generativas que não dependem — e, portanto, podem superar — sua capacidade de compreender esses mesmos tipos de resultados. Isso contrasta com os humanos, para os quais a compreensão básica quase sempre precede a capacidade de gerar resultados de nível especialista. Testamos essa hipótese por meio de experimentos controlados que analisam geração versus compreensão em modelos generativos, tanto em modalidades de linguagem quanto de imagem. Nossos resultados mostram que, embora os modelos possam superar os humanos em geração, eles consistentemente ficam aquém das capacidades humanas em medidas de compreensão, além de apresentarem uma correlação mais fraca entre desempenho de geração e compreensão, e maior fragilidade a entradas adversárias. Nossas descobertas apoiam a hipótese de que a capacidade generativa dos modelos pode não depender da capacidade de compreensão, e alertam para a necessidade de cautela ao interpretar a inteligência artificial por analogia à inteligência humana.
Modelos de linguagem de grande escala têm demonstrado bom desempenho na geração de código para atender às necessidades humanas. No entanto, as necessidades humanas expressas em linguagem natural podem ser vagas, incompletas e ambíguas, levando os modelos de linguagem de grande escala a interpretar mal as necessidades humanas e cometer erros. Pior ainda, é difícil para um usuário humano refinar a necessidade. Para ajudar os usuários humanos a refinar suas necessidades e melhorar o desempenho dos modelos de linguagem de grande escala na geração de código, propomos o ChatCoder: um método para refinar as necessidades por meio de conversas com modelos de linguagem de grande escala. Projetamos um esquema de conversa no qual os modelos de linguagem de grande escala guiarão os usuários humanos a refinar a expressão de suas necessidades para que sejam mais precisas, inequívocas e completas do que antes. Experimentos mostram que o ChatCoder melhorou significativamente o desempenho dos modelos de linguagem de grande escala existentes. Além disso, o ChatCoder apresenta vantagens em relação a métodos baseados em refinamento e modelos de linguagem de grande escala ajustados via resposta humana.
Modelos de linguagem baseados em pixels processam textos renderizados como imagens, o que permite que eles lidem com qualquer script, tornando-os uma abordagem promissora para modelagem de linguagem de vocabulário aberto. No entanto, abordagens recentes utilizam renderizadores de texto que produzem um grande conjunto de patches de entrada quase equivalentes, o que pode se mostrar subótimo para tarefas subsequentes, devido à redundância nas representações de entrada. Neste artigo, investigamos quatro abordagens para renderizar texto no modelo PIXEL (Rust et al., 2023) e descobrimos que a renderização simples de bigramas de caracteres traz um desempenho aprimorado em tarefas de nível de sentença sem comprometer o desempenho em tarefas de nível de token ou multilingues. Essa nova estratégia de renderização também possibilita treinar um modelo mais compacto com apenas 22 milhões de parâmetros que tem um desempenho equivalente ao modelo original com 86 milhões de parâmetros. Nossas análises mostram que a renderização de bigramas de caracteres leva a um modelo consistentemente melhor, mas com um espaço de incorporação de patches anisotrópico, impulsionado por um viés de frequência de patches, destacando as conexões entre modelos de linguagem baseados em patches de imagem e em tokenização.
Modelos Visão-Linguagem (VLMs) são treinados com grandes quantidades de dados capturados por humanos, emulando nossa compreensão do mundo. No entanto, conhecidas como ilusões visuais, a percepção humana da realidade nem sempre é fiel ao mundo físico. Isso levanta uma questão fundamental: os VLMs têm o mesmo tipo de ilusões que os humanos, ou aprendem a representar a realidade de forma fiel? Para investigar essa questão, construímos um conjunto de dados contendo cinco tipos de ilusões visuais e formulamos quatro tarefas para examinar ilusões visuais em VLMs de última geração. Nossos resultados mostraram que, embora o alinhamento geral seja baixo, modelos maiores estão mais próximos da percepção humana e são mais suscetíveis a ilusões visuais. Nosso conjunto de dados e descobertas iniciais promoverão uma melhor compreensão das ilusões visuais em humanos e máquinas e fornecerão uma base para futuros modelos computacionais que possam alinhar melhor humanos e máquinas na percepção e comunicação sobre o mundo visual compartilhado. O código e os dados estão disponíveis em https://github.com/vl-illusion/dataset.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho impressionante em diversas tarefas subsequentes. Ao treinar esses modelos, há uma tendência crescente de processar mais tokens em escalas de treinamento maiores, mas com tamanhos de modelo relativamente menores. O Otimizador de Redundância Zero (ZeRO), embora eficaz em ambientes de treinamento convencionais, enfrenta desafios de escalabilidade quando confrontado com esse paradigma emergente. Para isso, propomos um novo framework de treinamento de LLMs chamado AMSP, que realiza uma partição granular dos estados do modelo, abrangendo parâmetros (P), gradientes (G) e estados do otimizador (OS). Especificamente, o AMSP (1) constrói um espaço de partição unificado, permitindo estratégias de partição independentes para P, G e OS; (2) incorpora um particionador consciente da escala para buscar automaticamente estratégias de partição ótimas; (3) projeta um otimizador de comunicação dedicado para garantir o gerenciamento eficiente das discrepâncias de posicionamento de dados decorrentes de diferentes estratégias de partição. Nossas avaliações mostram que o AMSP alcança até 90,3% de eficiência de escalabilidade em 1024 GPUs.