HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

Distil-Whisper: Distilação de Conhecimento Robusta por meio de Rotulagem Pseudo em Grande Escala
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

Nov 1

BySanchit Gandhi, Patrick von Platen, Alexander M. Rush

À medida que o tamanho dos modelos pré-treinados de reconhecimento de fala aumenta, a execução desses modelos grandes em ambientes de baixa latência ou com recursos limitados torna-se um desafio. Neste trabalho, utilizamos pseudo-rotulação para montar um conjunto de dados em grande escala de código aberto, que usamos para destilar o modelo Whisper em uma variante menor, chamada Distil-Whisper. Usando uma heurística simples de taxa de erro de palavras (WER, na sigla em inglês), selecionamos apenas as pseudo-rotulações de mais alta qualidade para o treinamento. O modelo destilado é 5,8 vezes mais rápido, com 51% menos parâmetros, enquanto mantém um desempenho dentro de 1% de WER em dados de teste fora da distribuição em um cenário de transferência zero-shot. O Distil-Whisper mantém a robustez do modelo Whisper em condições acústicas difíceis, ao mesmo tempo em que é menos propenso a erros de alucinação em áudios de longa duração. O Distil-Whisper foi projetado para ser emparelhado com o Whisper para decodificação especulativa, proporcionando um aumento de velocidade de 2 vezes, enquanto garante matematicamente as mesmas saídas que o modelo original. Para facilitar pesquisas adicionais nesse domínio, disponibilizamos publicamente nosso código de treinamento, código de inferência e modelos.

LLaVA-Interativo: Uma Demonstração Tudo-em-Um para Chat com Imagens, Segmentação, Geração e Edição
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Nov 1

ByWei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li

O LLaVA-Interactive é um protótipo de pesquisa para interação multimodal entre humanos e IA. O sistema pode realizar diálogos com múltiplas interações com usuários humanos, recebendo entradas multimodais e gerando respostas multimodais. De forma crucial, o LLaVA-Interactive vai além do prompt de linguagem, permitindo o uso de prompt visual para alinhar as intenções humanas durante a interação. O desenvolvimento do LLaVA-Interactive é extremamente eficiente em termos de custo, pois o sistema combina três habilidades multimodais de modelos de IA pré-construídos sem a necessidade de treinamento adicional: o chat visual do LLaVA, a segmentação de imagens do SEEM, bem como a geração e edição de imagens do GLIGEN. Um conjunto diversificado de cenários de aplicação é apresentado para demonstrar o potencial do LLaVA-Interactive e inspirar pesquisas futuras em sistemas interativos multimodais.

Produção Musical Controlável com Modelos de Difusão e Gradientes de Orientação
Controllable Music Production with Diffusion Models and Guidance Gradients

Nov 1

ByMark Levy, Bruno Di Giorgi, Floris Weers, Angelos Katharopoulos, Tom Nickson

Demonstramos como a geração condicional a partir de modelos de difusão pode ser utilizada para abordar uma variedade de tarefas realistas na produção de música em áudio estéreo de 44,1kHz com orientação no tempo de amostragem. Os cenários que consideramos incluem a continuação, inpainting e regeneração de áudio musical, a criação de transições suaves entre duas faixas musicais diferentes e a transferência de características estilísticas desejadas para clipes de áudio existentes. Isso é alcançado aplicando orientação no tempo de amostragem em um framework simples que suporta tanto perdas de reconstrução quanto de classificação, ou qualquer combinação das duas. Essa abordagem garante que o áudio gerado possa corresponder ao seu contexto circundante ou se conformar a uma distribuição de classe ou representação latente especificada em relação a qualquer classificador ou modelo de embedding pré-treinado adequado.

A De-Difusão Torna o Texto uma Interface Intermodal Forte
De-Diffusion Makes Text a Strong Cross-Modal Interface

Nov 1

ByChen Wei, Chenxi Liu, Siyuan Qiao, Zhishuai Zhang, Alan Yuille, Jiahui Yu

Demonstramos o texto como uma interface multimodal robusta. Em vez de depender de embeddings profundos para conectar imagem e linguagem como representação da interface, nossa abordagem representa uma imagem como texto, aproveitando a interpretabilidade e flexibilidade inerentes à linguagem natural. Empregamos um autoencoder que utiliza um modelo de difusão texto-para-imagem pré-treinado para decodificação. O codificador é treinado para transformar uma imagem de entrada em texto, que é então alimentado no decodificador de difusão texto-para-imagem fixo para reconstruir a entrada original — um processo que denominamos De-Difusão. Experimentos validam tanto a precisão quanto a abrangência do texto de De-Difusão na representação de imagens, de modo que ele pode ser facilmente processado por ferramentas texto-para-imagem prontas para uso e LLMs para diversas tarefas multimodais. Por exemplo, um único modelo de De-Difusão pode generalizar para fornecer prompts transferíveis para diferentes ferramentas texto-para-imagem e também alcança um novo estado da arte em tarefas abertas de visão e linguagem simplesmente ao fornecer exemplos few-shot para grandes modelos de linguagem.

O Paradoxo da IA Generativa: "O Que Ela Pode Criar, Talvez Não Compreenda"
The Generative AI Paradox: "What It Can Create, It May Not Understand"

Oct 31

ByPeter West, Ximing Lu, Nouha Dziri, Faeze Brahman, Linjie Li, Jena D. Hwang, Liwei Jiang, Jillian Fisher, Abhilasha Ravichander, Khyathi Chandu, Benjamin Newman, Pang Wei Koh, Allyson Ettinger, Yejin Choi

A recente onda de IA generativa despertou uma atenção global sem precedentes, com tanto entusiasmo quanto preocupação em relação a níveis potencialmente sobre-humanos de inteligência artificial: os modelos agora levam apenas segundos para produzir resultados que desafiam ou superam as capacidades até mesmo de humanos especialistas. Ao mesmo tempo, os modelos ainda cometem erros básicos de compreensão que não seriam esperados nem em humanos não especialistas. Isso nos apresenta um aparente paradoxo: como reconciliar capacidades aparentemente sobre-humanas com a persistência de erros que poucos humanos cometeriam? Neste trabalho, propomos que essa tensão reflete uma divergência na configuração da inteligência nos modelos generativos atuais em relação à inteligência humana. Especificamente, propomos e testamos a hipótese do Paradoxo da IA Generativa: modelos generativos, tendo sido treinados diretamente para reproduzir resultados semelhantes aos de especialistas, adquirem capacidades generativas que não dependem — e, portanto, podem superar — sua capacidade de compreender esses mesmos tipos de resultados. Isso contrasta com os humanos, para os quais a compreensão básica quase sempre precede a capacidade de gerar resultados de nível especialista. Testamos essa hipótese por meio de experimentos controlados que analisam geração versus compreensão em modelos generativos, tanto em modalidades de linguagem quanto de imagem. Nossos resultados mostram que, embora os modelos possam superar os humanos em geração, eles consistentemente ficam aquém das capacidades humanas em medidas de compreensão, além de apresentarem uma correlação mais fraca entre desempenho de geração e compreensão, e maior fragilidade a entradas adversárias. Nossas descobertas apoiam a hipótese de que a capacidade generativa dos modelos pode não depender da capacidade de compreensão, e alertam para a necessidade de cautela ao interpretar a inteligência artificial por analogia à inteligência humana.

ChatCoder: Refinamento de Requisitos Baseado em Chat Melhora a Geração de Código por LLMs
ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation

Nov 1

ByZejun Wang, Jia Li, Ge Li, Zhi Jin

Modelos de linguagem de grande escala têm demonstrado bom desempenho na geração de código para atender às necessidades humanas. No entanto, as necessidades humanas expressas em linguagem natural podem ser vagas, incompletas e ambíguas, levando os modelos de linguagem de grande escala a interpretar mal as necessidades humanas e cometer erros. Pior ainda, é difícil para um usuário humano refinar a necessidade. Para ajudar os usuários humanos a refinar suas necessidades e melhorar o desempenho dos modelos de linguagem de grande escala na geração de código, propomos o ChatCoder: um método para refinar as necessidades por meio de conversas com modelos de linguagem de grande escala. Projetamos um esquema de conversa no qual os modelos de linguagem de grande escala guiarão os usuários humanos a refinar a expressão de suas necessidades para que sejam mais precisas, inequívocas e completas do que antes. Experimentos mostram que o ChatCoder melhorou significativamente o desempenho dos modelos de linguagem de grande escala existentes. Além disso, o ChatCoder apresenta vantagens em relação a métodos baseados em refinamento e modelos de linguagem de grande escala ajustados via resposta humana.

Estratégias de Renderização de Texto para Modelos de Linguagem em Pixels
Text Rendering Strategies for Pixel Language Models

Nov 1

ByJonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott

Modelos de linguagem baseados em pixels processam textos renderizados como imagens, o que permite que eles lidem com qualquer script, tornando-os uma abordagem promissora para modelagem de linguagem de vocabulário aberto. No entanto, abordagens recentes utilizam renderizadores de texto que produzem um grande conjunto de patches de entrada quase equivalentes, o que pode se mostrar subótimo para tarefas subsequentes, devido à redundância nas representações de entrada. Neste artigo, investigamos quatro abordagens para renderizar texto no modelo PIXEL (Rust et al., 2023) e descobrimos que a renderização simples de bigramas de caracteres traz um desempenho aprimorado em tarefas de nível de sentença sem comprometer o desempenho em tarefas de nível de token ou multilingues. Essa nova estratégia de renderização também possibilita treinar um modelo mais compacto com apenas 22 milhões de parâmetros que tem um desempenho equivalente ao modelo original com 86 milhões de parâmetros. Nossas análises mostram que a renderização de bigramas de caracteres leva a um modelo consistentemente melhor, mas com um espaço de incorporação de patches anisotrópico, impulsionado por um viés de frequência de patches, destacando as conexões entre modelos de linguagem baseados em patches de imagem e em tokenização.

Fundamentando Ilusões Visuais na Linguagem: Modelos Visão-Linguagem Percebem Ilusões como Humanos?
Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?

Oct 31

ByYichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai

Modelos Visão-Linguagem (VLMs) são treinados com grandes quantidades de dados capturados por humanos, emulando nossa compreensão do mundo. No entanto, conhecidas como ilusões visuais, a percepção humana da realidade nem sempre é fiel ao mundo físico. Isso levanta uma questão fundamental: os VLMs têm o mesmo tipo de ilusões que os humanos, ou aprendem a representar a realidade de forma fiel? Para investigar essa questão, construímos um conjunto de dados contendo cinco tipos de ilusões visuais e formulamos quatro tarefas para examinar ilusões visuais em VLMs de última geração. Nossos resultados mostraram que, embora o alinhamento geral seja baixo, modelos maiores estão mais próximos da percepção humana e são mais suscetíveis a ilusões visuais. Nosso conjunto de dados e descobertas iniciais promoverão uma melhor compreensão das ilusões visuais em humanos e máquinas e fornecerão uma base para futuros modelos computacionais que possam alinhar melhor humanos e máquinas na percepção e comunicação sobre o mundo visual compartilhado. O código e os dados estão disponíveis em https://github.com/vl-illusion/dataset.

AMSP: Superdimensionamento do Treinamento de LLMs por meio de Particionamento Avançado de Estados do Modelo
AMSP: Super-Scaling LLM Training via Advanced Model States Partitioning

Nov 1

ByQiaoling Chen, Qinghao Hu, Zhisheng Ye, Guoteng Wang, Peng Sun, Yonggang Wen, Tianwei Zhang

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho impressionante em diversas tarefas subsequentes. Ao treinar esses modelos, há uma tendência crescente de processar mais tokens em escalas de treinamento maiores, mas com tamanhos de modelo relativamente menores. O Otimizador de Redundância Zero (ZeRO), embora eficaz em ambientes de treinamento convencionais, enfrenta desafios de escalabilidade quando confrontado com esse paradigma emergente. Para isso, propomos um novo framework de treinamento de LLMs chamado AMSP, que realiza uma partição granular dos estados do modelo, abrangendo parâmetros (P), gradientes (G) e estados do otimizador (OS). Especificamente, o AMSP (1) constrói um espaço de partição unificado, permitindo estratégias de partição independentes para P, G e OS; (2) incorpora um particionador consciente da escala para buscar automaticamente estratégias de partição ótimas; (3) projeta um otimizador de comunicação dedicado para garantir o gerenciamento eficiente das discrepâncias de posicionamento de dados decorrentes de diferentes estratégias de partição. Nossas avaliações mostram que o AMSP alcança até 90,3% de eficiência de escalabilidade em 1024 GPUs.

O Paradoxo da IA Generativa: "O Que Ela Pode Criar, Talvez Não Compreenda"
The Generative AI Paradox: "What It Can Create, It May Not Understand"

Oct 31