HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

RedPajama: um Conjunto de Dados Aberto para Treinar Modelos de Linguagem Grandes
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

Os grandes modelos de linguagem estão se tornando cada vez mais uma tecnologia fundamental em inteligência artificial, nas ciências e na sociedade como um todo, no entanto, as estratégias ideais para a composição e filtragem de conjuntos de dados ainda são amplamente desconhecidas. Muitos dos modelos de melhor desempenho carecem de transparência em seus processos de curadoria de dados e desenvolvimento de modelos, representando um obstáculo para o desenvolvimento de modelos de linguagem totalmente abertos. Neste artigo, identificamos três desafios principais relacionados a dados que devem ser abordados para avançar nos modelos de linguagem de código aberto. Estes incluem (1) transparência no desenvolvimento do modelo, incluindo o processo de curadoria de dados, (2) acesso a grandes quantidades de dados de alta qualidade e (3) disponibilidade de artefatos e metadados para curadoria e análise de conjuntos de dados. Para enfrentar esses desafios, lançamos o RedPajama-V1, uma reprodução aberta do conjunto de dados de treinamento LLaMA. Além disso, lançamos o RedPajama-V2, um conjunto de dados maciço exclusivamente da web, composto por dados de texto brutos e não filtrados, juntamente com sinais de qualidade e metadados. Juntos, os conjuntos de dados RedPajama abrangem mais de 100 trilhões de tokens em vários domínios e, com seus sinais de qualidade, facilitam a filtragem de dados, com o objetivo de inspirar o desenvolvimento de inúmeros novos conjuntos de dados. Até o momento, esses conjuntos de dados já foram utilizados no treinamento de modelos de linguagem robustos usados em produção, como Snowflake Arctic, XGen da Salesforce e OLMo da AI2. Para fornecer insights sobre a qualidade do RedPajama, apresentamos uma série de análises e estudos de ablação com modelos de linguagem somente decodificadores com até 1,6 bilhão de parâmetros. Nossas descobertas demonstram como os sinais de qualidade para dados da web podem ser efetivamente aproveitados para curar subconjuntos de alta qualidade do conjunto de dados, destacando o potencial do RedPajama para avançar no desenvolvimento de modelos de linguagem transparentes e de alto desempenho em escala.

FlipSketch: Transformando Desenhos Estáticos em Animações de Esboços Guiadas por Texto
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

Animações em esboço oferecem um meio poderoso para contar histórias visuais, desde simples rabiscos de flip-book até produções de estúdio profissionais. Enquanto a animação tradicional requer equipes de artistas habilidosos para desenhar quadros-chave e quadros intermediários, as tentativas de automação existentes ainda exigem um esforço artístico significativo por meio de caminhos de movimento precisos ou especificação de quadros-chave. Apresentamos o FlipSketch, um sistema que traz de volta a magia da animação de flip-book -- basta desenhar sua ideia e descrever como deseja que ela se mova! Nossa abordagem aproveita precursores de movimento de modelos de difusão de texto para vídeo, adaptando-os para gerar animações em esboço por meio de três inovações-chave: (i) ajuste fino para geração de quadros no estilo de esboço, (ii) um mecanismo de quadro de referência que preserva a integridade visual do esboço de entrada por meio de refinamento de ruído, e (iii) uma composição de dupla atenção que permite um movimento fluido sem perder consistência visual. Ao contrário das animações vetoriais restritas, nossos quadros rasterizados suportam transformações de esboço dinâmicas, capturando a liberdade expressiva da animação tradicional. O resultado é um sistema intuitivo que torna a animação em esboço tão simples quanto rabiscar e descrever, mantendo a essência artística da animação feita à mão.

SymDPO: Impulsionando a Aprendizagem em Contexto de Modelos Multimodais Grandes com Otimização Direta de Preferência de Demonstração de Símbolos
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

À medida que os modelos de linguagem continuam a escalar, os Grandes Modelos de Linguagem (LLMs) têm demonstrado capacidades emergentes em Aprendizado em Contexto (ICL), permitindo-lhes resolver tarefas de linguagem ao prefixar algumas demonstrações em contexto (ICDs) como contexto. Inspirados por esses avanços, os pesquisadores estenderam essas técnicas para desenvolver Grandes Modelos Multimodais (LMMs) com capacidades de ICL. No entanto, os LMMs existentes enfrentam um problema crítico: frequentemente falham em aproveitar efetivamente o contexto visual em demonstrações multimodais e, em vez disso, simplesmente seguem padrões textuais. Isso indica que os LMMs não alcançam uma alinhamento eficaz entre as demonstrações multimodais e as saídas do modelo. Para resolver esse problema, propomos a Otimização de Preferência Direta de Demonstração de Símbolos (SymDPO). Especificamente, o SymDPO tem como objetivo quebrar o paradigma tradicional de construir demonstrações multimodais usando símbolos aleatórios para substituir respostas de texto dentro das instâncias. Isso força o modelo a entender cuidadosamente as imagens da demonstração e estabelecer uma relação entre as imagens e os símbolos para responder corretamente às perguntas. Validamos a eficácia deste método em múltiplos benchmarks, demonstrando que com o SymDPO, os LMMs podem entender de forma mais eficaz o contexto multimodal dentro dos exemplos e utilizar esse conhecimento para responder melhor às perguntas.

Decodificação Especulativa Contínua para Geração de Imagens Autoregressivas
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

Modelos de geração de imagens autoregressivos de valores contínuos (AR) têm demonstrado notável superioridade sobre seus equivalentes de tokens discretos, exibindo considerável qualidade de reconstrução e maior fidelidade na geração. No entanto, as demandas computacionais do framework autoregressivo resultam em significativa sobrecarga de inferência. Enquanto a decodificação especulativa tem se mostrado eficaz na aceleração de Modelos de Linguagem Grandes (LLMs), sua adaptação para modelos visuais autoregressivos de valores contínuos permanece inexplorada. Este trabalho generaliza o algoritmo de decodificação especulativa de tokens discretos para o espaço contínuo. Ao analisar as propriedades intrínsecas da distribuição de saída, estabelecemos um critério de aceitação adaptado para as distribuições de difusão prevalentes nesses modelos. Para superar a inconsistência que ocorreu nas distribuições de saída da decodificação especulativa, introduzimos métodos de alinhamento de trajetória de denoização e pré-preenchimento de tokens. Além disso, identificamos a distribuição difícil de amostrar na fase de rejeição. Para mitigar esse problema, propomos um meticuloso método de amostragem de aceitação-rejeição com um limite superior apropriado, contornando assim integrações complexas. Resultados experimentais mostram que nossa decodificação especulativa contínua alcança uma notável aceleração de 2,33 vezes em modelos prontos para uso, mantendo a distribuição de saída. Os códigos estarão disponíveis em https://github.com/MarkXCloud/CSpD

ITACLIP: Aumentando a Segmentação Semântica sem Treinamento com Aprimoramentos de Imagem, Texto e Arquitetura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

Os avanços recentes em Modelos de Linguagem Visual (VLMs) fundamentais têm remodelado o paradigma de avaliação em tarefas de visão computacional. Esses modelos fundamentais, especialmente o CLIP, têm acelerado a pesquisa em tarefas de visão computacional de vocabulário aberto, incluindo a Segmentação Semântica de Vocabulário Aberto (OVSS). Embora os resultados iniciais sejam promissores, as capacidades de previsão densa dos VLMs ainda requerem melhorias adicionais. Neste estudo, aprimoramos o desempenho de segmentação semântica do CLIP introduzindo novos módulos e modificações: 1) mudanças arquiteturais na última camada do ViT e a incorporação de mapas de atenção das camadas intermediárias com a última camada, 2) Engenharia de Imagem: aplicando aumentos de dados para enriquecer as representações de imagem de entrada, e 3) utilizando Modelos de Linguagem Grandes (LLMs) para gerar definições e sinônimos para cada nome de classe para alavancar as capacidades de vocabulário aberto do CLIP. Nosso método de treinamento livre, ITACLIP, supera as abordagens atuais de ponta em benchmarks de segmentação como COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Nosso código está disponível em https://github.com/m-arda-aydn/ITACLIP.

Construindo Confiança: Fundamentos de Segurança, Segurança e Transparência em IA
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

Este artigo explora o ecossistema em rápida evolução de modelos de IA disponíveis publicamente e suas potenciais implicações na segurança e no cenário de segurança. À medida que os modelos de IA se tornam cada vez mais prevalentes, compreender seus riscos e vulnerabilidades potenciais é crucial. Revisamos os cenários atuais de segurança e segurança, destacando desafios como problemas de rastreamento, remediação e a aparente ausência de processos de ciclo de vida e propriedade de modelos de IA. Estratégias abrangentes para aprimorar a segurança e a segurança tanto para os desenvolvedores de modelos quanto para os usuários finais são propostas. Este artigo tem como objetivo fornecer algumas das peças fundamentais para uma segurança, segurança e transparência mais padronizadas no desenvolvimento e operação de modelos de IA e nos ecossistemas abertos e comunidades maiores que se formam ao seu redor.

Rotação de Caneta Dinâmica em Mão Robótica Flexível
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

A manipulação dinâmica na mão continua sendo uma tarefa desafiadora para sistemas robóticos flexíveis que demonstraram vantagens em interações seguras e complacentes, mas enfrentam dificuldades em tarefas dinâmicas de alta velocidade. Neste trabalho, apresentamos o SWIFT, um sistema para aprendizado de tarefas dinâmicas usando uma mão robótica flexível e complacente. Ao contrário de trabalhos anteriores que dependem de simulação, ações quase estáticas e modelos precisos de objetos, o sistema proposto aprende a girar uma caneta por tentativa e erro usando apenas dados do mundo real, sem exigir conhecimento prévio explícito dos atributos físicos da caneta. Com tentativas autoetiquetadas amostradas do mundo real, o sistema descobre o conjunto de parâmetros primitivos de agarre e rotação de caneta que permite a uma mão flexível girar uma caneta de forma robusta e confiável. Após 130 ações amostradas por objeto, o SWIFT atinge uma taxa de sucesso de 100% em três canetas com pesos e distribuições de peso diferentes, demonstrando a generalização e robustez do sistema a mudanças nas propriedades do objeto. Os resultados destacam o potencial dos efetuadores finais robóticos flexíveis para realizar tarefas dinâmicas, incluindo manipulação rápida na mão. Também demonstramos que o SWIFT generaliza para girar itens com diferentes formas e pesos, como um pincel e uma chave de fenda, que giramos com taxas de sucesso de 10/10 e 5/10, respectivamente. Vídeos, dados e código estão disponíveis em https://soft-spin.github.io.

GAIVOTA: Avaliação de Qualidade de Imagem sem Referência para Regiões de Interesse via Ajuste de Instruções de Visão e Linguagem
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

Os métodos existentes de Avaliação de Qualidade de Imagem (IQA) alcançam um sucesso notável na análise da qualidade da imagem como um todo, mas poucos trabalhos exploram a análise de qualidade para Regiões de Interesse (ROIs). A análise de qualidade das ROIs pode fornecer orientação detalhada para a melhoria da qualidade da imagem e é crucial para cenários que se concentram na qualidade ao nível da região. Este artigo propõe uma rede inovadora, SEAGULL, que pode Ver e Avaliar a qualidade das ROIs com Orientação de um grande modelo de visão e linguagem. SEAGULL incorpora um modelo de visão e linguagem (VLM), máscaras geradas pelo Modelo Segment Anything (SAM) para especificar ROIs, e um Extrator de Recursos baseado em Máscara (MFE) meticulosamente projetado para extrair tokens globais e locais para ROIs especificadas, permitindo uma avaliação precisa e detalhada da qualidade das ROIs. Além disso, este artigo constrói dois conjuntos de dados de IQA baseados em ROI, SEAGULL-100w e SEAGULL-3k, para treinar e avaliar a IQA baseada em ROI. SEAGULL-100w é composto por cerca de 100 mil imagens de distorção sintéticas com 33 milhões de ROIs para pré-treinamento a fim de melhorar a capacidade do modelo de perceção de qualidade regional, e SEAGULL-3k contém cerca de 3 mil ROIs de distorção autênticas para aprimorar a capacidade do modelo de perceber distorções do mundo real. Após o pré-treinamento em SEAGULL-100w e o ajuste fino em SEAGULL-3k, SEAGULL demonstra um desempenho notável na avaliação da qualidade detalhada das ROIs. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/chencn2020/Seagull.

Avaliando o Desempenho do Tokenizador de Modelos de Linguagem Grandes em Diversos Idiomas Oficiais da Índia
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

Os Modelos de Linguagem de Grande Escala (LLMs) baseados em arquiteturas de transformadores revolucionaram uma variedade de domínios, com a tokenização desempenhando um papel fundamental em suas etapas de pré-processamento e ajuste fino. Em modelos multilíngues, especialmente aqueles adaptados para línguas indígenas, a tokenização eficaz é crucial para otimizar o desempenho. Este artigo apresenta uma avaliação abrangente dos tokenizadores usados por 12 LLMs em todas as 22 línguas oficiais da Índia, com foco na comparação da eficiência de seus processos de tokenização. Empregamos o Comprimento Normalizado da Sequência (NSL) como uma métrica chave em nossa análise. Nossas descobertas revelam que o tokenizador SUTRA supera todos os outros modelos, incluindo vários modelos específicos para línguas indígenas, destacando-se em 14 idiomas. Insights notáveis incluem o manuseio superior de línguas indígenas pelo tokenizador SUTRA, o avanço do GPT-4o sobre seu antecessor GPT-4 no processamento de línguas indianas e o desempenho limitado do Projeto Indus em certos idiomas. Este estudo destaca a importância crítica do desenvolvimento de estratégias de tokenização direcionadas para modelos multilíngues e indígenas, lançando as bases para futuras melhorias no design de tokenizadores para aprimorar a cobertura linguística e a eficiência do modelo.

RedPajama: um Conjunto de Dados Aberto para Treinar Modelos de Linguagem Grandes
RedPajama: an Open Dataset for Training Large Language Models

Nov 19