HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

O que importa ao construir modelos visão-linguagem?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

O crescente interesse em modelos de visão e linguagem (VLMs) tem sido impulsionado por avanços em grandes modelos de linguagem e transformadores de visão. Apesar da abundância de literatura sobre o tema, observamos que decisões críticas relacionadas ao design de VLMs frequentemente não são justificadas. Argumentamos que essas decisões não fundamentadas dificultam o progresso na área, tornando desafiador identificar quais escolhas melhoram o desempenho dos modelos. Para abordar essa questão, conduzimos extensos experimentos em torno de modelos pré-treinados, escolha de arquitetura, dados e métodos de treinamento. Nossa consolidação de descobertas inclui o desenvolvimento do Idefics2, um modelo VLM fundamental eficiente com 8 bilhões de parâmetros. O Idefics2 alcança desempenho de ponta em sua categoria de tamanho em diversos benchmarks multimodais, muitas vezes equiparando-se a modelos quatro vezes maiores. Disponibilizamos o modelo (base, instruído e de chat) juntamente com os conjuntos de dados criados para seu treinamento.

Fluxo de Trabalho RLHF: Da Modelagem de Recompensa ao RLHF Online
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

Apresentamos o fluxo de trabalho do Aprendizado por Reforço Iterativo Online com Feedback Humano (RLHF) neste relatório técnico, que é amplamente relatado como superando sua contraparte offline por uma grande margem na literatura recente sobre modelos de linguagem de grande escala (LLM). No entanto, os projetos de RLHF de código aberto existentes ainda estão amplamente confinados ao cenário de aprendizado offline. Neste relatório técnico, nosso objetivo é preencher essa lacuna e fornecer uma receita detalhada que seja fácil de reproduzir para o RLHF iterativo online. Em particular, como o feedback humano online geralmente é inviável para comunidades de código aberto com recursos limitados, começamos construindo modelos de preferência usando um conjunto diversificado de conjuntos de dados de código aberto e usamos o modelo de preferência proxy construído para aproximar o feedback humano. Em seguida, discutimos as percepções teóricas e os princípios algorítmicos por trás do RLHF iterativo online, seguidos por uma implementação prática detalhada. Nosso LLM treinado, SFR-Iterative-DPO-LLaMA-3-8B-R, alcança desempenho impressionante em benchmarks de chatbots LLM, incluindo AlpacaEval-2, Arena-Hard e MT-Bench, bem como em outros benchmarks acadêmicos como HumanEval e TruthfulQA. Demonstramos que o ajuste fino supervisionado (SFT) e o RLHF iterativo podem obter desempenho de última geração com conjuntos de dados totalmente de código aberto. Além disso, disponibilizamos publicamente nossos modelos, conjuntos de dados curados e guias de código passo a passo abrangentes. Consulte https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF para obter informações mais detalhadas.

SUTRA: Arquitetura Escalável de Modelo de Linguagem Multilíngue
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

Neste artigo, apresentamos o SUTRA, uma arquitetura de Modelo de Linguagem de Grande Escala (LLM) multilíngue capaz de compreender, raciocinar e gerar texto em mais de 50 idiomas. O design do SUTRA desacopla de forma única o entendimento conceitual central do processamento específico de cada idioma, o que facilita o alinhamento e aprendizado multilíngue escalável e eficiente. Empregando uma estrutura de Mistura de Especialistas tanto no processamento de idiomas quanto de conceitos, o SUTRA demonstra eficiência computacional e capacidade de resposta. Por meio de avaliações extensivas, o SUTRA supera modelos existentes como GPT-3.5 e Llama2 em 20-30% nos principais benchmarks de Compreensão de Linguagem Multitarefa em Massa (MMLU) para tarefas multilíngues. Os modelos SUTRA também são LLMs online que podem utilizar conhecimento da internet para fornecer respostas sem alucinações, factuais e atualizadas, mantendo suas capacidades multilíngues. Além disso, exploramos as implicações mais amplas de sua arquitetura para o futuro da IA multilíngue, destacando seu potencial para democratizar o acesso à tecnologia de IA globalmente e para melhorar a equidade e utilidade da IA em regiões com idiomas predominantemente não ingleses. Nossos achados sugerem que o SUTRA não apenas preenche lacunas cruciais nas capacidades dos modelos multilíngues, mas também estabelece um novo padrão para eficiência operacional e escalabilidade em aplicações de IA.

SambaNova SN40L: Superando a Barreira de Memória em IA com Fluxo de Dados e Composição de Especialistas
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

Modelos monolíticos de linguagem de grande escala (LLMs, na sigla em inglês), como o GPT-4, abriram caminho para aplicações modernas de IA generativa. No entanto, treinar, servir e manter LLMs monolíticos em escala continua sendo proibitivamente caro e desafiador. O aumento desproporcional na relação computação-memória dos aceleradores de IA modernos criou uma "parede de memória", exigindo novos métodos para implantação de IA. A Composição de Especialistas (CoE, na sigla em inglês) é uma abordagem modular alternativa que reduz o custo e a complexidade do treinamento e da execução. No entanto, essa abordagem apresenta dois desafios principais ao usar hardware convencional: (1) sem operações fundidas, modelos menores têm menor intensidade operacional, o que torna mais difícil alcançar alta utilização; e (2) hospedar um grande número de modelos pode ser proibitivamente caro ou lento ao alternar dinamicamente entre eles. Neste artigo, descrevemos como a combinação de CoE, fluxo de dados em streaming e um sistema de memória de três camadas escala a parede de memória da IA. Apresentamos o Samba-CoE, um sistema CoE com 150 especialistas e um trilhão de parâmetros totais. Implantamos o Samba-CoE na Unidade de Fluxo de Dados Reconfigurável (RDU, na sigla em inglês) SN40L da SambaNova – uma arquitetura comercial de acelerador de fluxo de dados co-projetada para aplicações empresariais de inferência e treinamento. O chip introduz um novo sistema de memória de três camadas com SRAM distribuída no chip, HBM no pacote e DRAM DDR fora do pacote. Uma rede dedicada entre RDUs permite escalar vertical e horizontalmente em múltiplos sockets. Demonstramos acelerações que variam de 2x a 13x em vários benchmarks executados em oito sockets RDU em comparação com uma linha de base não fundida. Mostramos que, para implantações de inferência CoE, o Nó RDU de 8 sockets reduz a pegada de máquina em até 19x, acelera o tempo de troca de modelo em 15x a 31x e alcança uma aceleração geral de 3,7x em relação a um DGX H100 e 6,6x em relação a um DGX A100.

MS MARCO Web Search: Um Grande Conjunto de Dados Web Rico em Informações com Milhões de Rótulos de Cliques Reais
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

Os recentes avanços em modelos de grande escala destacaram a importância crítica da escala de dados, rótulos e modalidades. Neste artigo, apresentamos o MS MARCO Web Search, o primeiro conjunto de dados em larga escala rico em informações da web, contendo milhões de rótulos reais de consultas e documentos clicados. Esse conjunto de dados imita de perto a distribuição de documentos e consultas do mundo real, fornece informações ricas para diversos tipos de tarefas subsequentes e incentiva pesquisas em várias áreas, como modelos de indexadores neurais genéricos de ponta a ponta, modelos de embedding genéricos e sistemas de acesso à informação de próxima geração com modelos de linguagem de grande escala. O MS MARCO Web Search oferece um benchmark de recuperação com três tarefas de desafio de recuperação na web que exigem inovações tanto no aprendizado de máquina quanto nos domínios de pesquisa de sistemas de recuperação de informação. Como o primeiro conjunto de dados que atende aos requisitos de grande escala, real e rico em dados, o MS MARCO Web Search abre caminho para futuros avanços na pesquisa em IA e sistemas. O conjunto de dados MS MARCO Web Search está disponível em: https://github.com/microsoft/MS-MARCO-Web-Search.

Plot2Code: Um Benchmark Abrangente para Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Geração de Código a partir de Gráficos Científicos
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído atenção significativa devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades em transformar figuras visuais em código executável não foram avaliadas de forma abrangente. Para abordar isso, introduzimos o Plot2Code, um benchmark abrangente de codificação visual projetado para uma avaliação justa e aprofundada dos MLLMs. Coletamos cuidadosamente 132 gráficos matplotlib de alta qualidade, selecionados manualmente, abrangendo seis tipos de gráficos, provenientes de galerias matplotlib publicamente disponíveis. Para cada gráfico, oferecemos cuidadosamente seu código-fonte e uma instrução descritiva resumida pelo GPT-4. Essa abordagem permite que o Plot2Code avalie extensivamente as capacidades de código dos MLLMs em várias modalidades de entrada. Além disso, propomos três métricas de avaliação automática, incluindo taxa de aprovação do código, razão de correspondência de texto e avaliação geral do GPT-4V, para uma avaliação refinada do código gerado e das imagens renderizadas. Em vez de simplesmente julgar como aprovado ou reprovado, empregamos o GPT-4V para fazer uma avaliação geral entre as imagens geradas e as de referência, o que demonstrou ser consistente com a avaliação humana. Os resultados da avaliação, que incluem análises de 14 MLLMs, como o GPT-4V proprietário, o Gemini-Pro e o Mini-Gemini de código aberto, destacam os desafios substanciais apresentados pelo Plot2Code. Com o Plot2Code, revelamos que a maioria dos MLLMs existentes enfrenta dificuldades com a codificação visual para gráficos densos em texto, dependendo fortemente de instruções textuais. Esperamos que os resultados da avaliação do Plot2Code sobre codificação visual orientem o desenvolvimento futuro dos MLLMs. Todos os dados envolvidos com o Plot2Code estão disponíveis em https://huggingface.co/datasets/TencentARC/Plot2Code.

Piccolo2: Incorporação Geral de Texto com Treinamento de Perda Híbrida Multi-tarefa
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

Neste relatório, apresentamos o Piccolo2, um modelo de embedding que supera outros modelos na avaliação abrangente de 6 tarefas no benchmark CMTEB, estabelecendo um novo estado da arte. O Piccolo2 utiliza principalmente uma abordagem eficiente de treinamento com perda híbrida multitarefa, aproveitando efetivamente dados textuais e rótulos de diversas tarefas downstream. Além disso, o Piccolo2 amplia a dimensão do embedding e emprega treinamento MRL para suportar dimensões vetoriais mais flexíveis. As informações mais recentes sobre os modelos Piccolo podem ser acessadas em: https://huggingface.co/sensenova/

LogoMotion: Geração de Código Visualmente Fundamentada para Animação com Consciência de Conteúdo
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

Logos animados são uma maneira envolvente e onipresente de indivíduos e marcas se representarem online. Criar esses logos manualmente pode exigir habilidades artísticas significativas e muito esforço. Para ajudar designers iniciantes a animar logos, as ferramentas de design atualmente oferecem modelos e predefinições de animação. No entanto, essas soluções podem ser limitadas em sua gama expressiva. Modelos de linguagem de grande escala têm o potencial de ajudar designers iniciantes a criar logos animados, gerando código de animação personalizado para seu conteúdo. Neste artigo, apresentamos o LogoMotion, um sistema baseado em LLM que recebe um documento em camadas e gera logos animados por meio de síntese de programas visualmente fundamentada. Introduzimos técnicas para criar uma representação HTML de uma tela, identificar elementos primários e secundários, sintetizar código de animação e depurar visualmente erros de animação. Quando comparado com uma ferramenta padrão da indústria, descobrimos que o LogoMotion produz animações mais conscientes do conteúdo e com qualidade equivalente. Concluímos com uma discussão sobre as implicações da animação gerada por LLM para o design de movimento.

Modelos de Linguagem de Grande Escala como Geradores de Domínios de Planejamento
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

O desenvolvimento de modelos de domínio é um dos poucos processos que ainda exigem trabalho manual no planejamento de IA. Portanto, para tornar o planejamento mais acessível, é desejável automatizar a geração de modelos de domínio. Com esse objetivo, investigamos se modelos de linguagem de grande escala (LLMs) podem ser usados para gerar modelos de domínio de planejamento a partir de descrições textuais simples. Especificamente, introduzimos um framework para avaliação automatizada de domínios gerados por LLMs, comparando os conjuntos de planos para instâncias de domínio. Por fim, realizamos uma análise empírica de 7 modelos de linguagem de grande escala, incluindo modelos de codificação e de chat, em 9 domínios de planejamento diferentes e sob três classes de descrições de domínio em linguagem natural. Nossos resultados indicam que os LLMs, particularmente aqueles com alto número de parâmetros, exibem um nível moderado de proficiência na geração de domínios de planejamento corretos a partir de descrições em linguagem natural. Nosso código está disponível em https://github.com/IBM/NL2PDDL.

SambaNova SN40L: Superando a Barreira de Memória em IA com Fluxo de Dados e Composição de Especialistas
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13