Artigos de pesquisa em IA selecionados diariamente com traduções
O crescente interesse em modelos de visão e linguagem (VLMs) tem sido impulsionado por avanços em grandes modelos de linguagem e transformadores de visão. Apesar da abundância de literatura sobre o tema, observamos que decisões críticas relacionadas ao design de VLMs frequentemente não são justificadas. Argumentamos que essas decisões não fundamentadas dificultam o progresso na área, tornando desafiador identificar quais escolhas melhoram o desempenho dos modelos. Para abordar essa questão, conduzimos extensos experimentos em torno de modelos pré-treinados, escolha de arquitetura, dados e métodos de treinamento. Nossa consolidação de descobertas inclui o desenvolvimento do Idefics2, um modelo VLM fundamental eficiente com 8 bilhões de parâmetros. O Idefics2 alcança desempenho de ponta em sua categoria de tamanho em diversos benchmarks multimodais, muitas vezes equiparando-se a modelos quatro vezes maiores. Disponibilizamos o modelo (base, instruído e de chat) juntamente com os conjuntos de dados criados para seu treinamento.
Apresentamos o fluxo de trabalho do Aprendizado por Reforço Iterativo Online com Feedback Humano (RLHF) neste relatório técnico, que é amplamente relatado como superando sua contraparte offline por uma grande margem na literatura recente sobre modelos de linguagem de grande escala (LLM). No entanto, os projetos de RLHF de código aberto existentes ainda estão amplamente confinados ao cenário de aprendizado offline. Neste relatório técnico, nosso objetivo é preencher essa lacuna e fornecer uma receita detalhada que seja fácil de reproduzir para o RLHF iterativo online. Em particular, como o feedback humano online geralmente é inviável para comunidades de código aberto com recursos limitados, começamos construindo modelos de preferência usando um conjunto diversificado de conjuntos de dados de código aberto e usamos o modelo de preferência proxy construído para aproximar o feedback humano. Em seguida, discutimos as percepções teóricas e os princípios algorítmicos por trás do RLHF iterativo online, seguidos por uma implementação prática detalhada. Nosso LLM treinado, SFR-Iterative-DPO-LLaMA-3-8B-R, alcança desempenho impressionante em benchmarks de chatbots LLM, incluindo AlpacaEval-2, Arena-Hard e MT-Bench, bem como em outros benchmarks acadêmicos como HumanEval e TruthfulQA. Demonstramos que o ajuste fino supervisionado (SFT) e o RLHF iterativo podem obter desempenho de última geração com conjuntos de dados totalmente de código aberto. Além disso, disponibilizamos publicamente nossos modelos, conjuntos de dados curados e guias de código passo a passo abrangentes. Consulte https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF para obter informações mais detalhadas.
Neste artigo, apresentamos o SUTRA, uma arquitetura de Modelo de Linguagem de Grande Escala (LLM) multilíngue capaz de compreender, raciocinar e gerar texto em mais de 50 idiomas. O design do SUTRA desacopla de forma única o entendimento conceitual central do processamento específico de cada idioma, o que facilita o alinhamento e aprendizado multilíngue escalável e eficiente. Empregando uma estrutura de Mistura de Especialistas tanto no processamento de idiomas quanto de conceitos, o SUTRA demonstra eficiência computacional e capacidade de resposta. Por meio de avaliações extensivas, o SUTRA supera modelos existentes como GPT-3.5 e Llama2 em 20-30% nos principais benchmarks de Compreensão de Linguagem Multitarefa em Massa (MMLU) para tarefas multilíngues. Os modelos SUTRA também são LLMs online que podem utilizar conhecimento da internet para fornecer respostas sem alucinações, factuais e atualizadas, mantendo suas capacidades multilíngues. Além disso, exploramos as implicações mais amplas de sua arquitetura para o futuro da IA multilíngue, destacando seu potencial para democratizar o acesso à tecnologia de IA globalmente e para melhorar a equidade e utilidade da IA em regiões com idiomas predominantemente não ingleses. Nossos achados sugerem que o SUTRA não apenas preenche lacunas cruciais nas capacidades dos modelos multilíngues, mas também estabelece um novo padrão para eficiência operacional e escalabilidade em aplicações de IA.
Modelos monolíticos de linguagem de grande escala (LLMs, na sigla em inglês), como o GPT-4, abriram caminho para aplicações modernas de IA generativa. No entanto, treinar, servir e manter LLMs monolíticos em escala continua sendo proibitivamente caro e desafiador. O aumento desproporcional na relação computação-memória dos aceleradores de IA modernos criou uma "parede de memória", exigindo novos métodos para implantação de IA. A Composição de Especialistas (CoE, na sigla em inglês) é uma abordagem modular alternativa que reduz o custo e a complexidade do treinamento e da execução. No entanto, essa abordagem apresenta dois desafios principais ao usar hardware convencional: (1) sem operações fundidas, modelos menores têm menor intensidade operacional, o que torna mais difícil alcançar alta utilização; e (2) hospedar um grande número de modelos pode ser proibitivamente caro ou lento ao alternar dinamicamente entre eles. Neste artigo, descrevemos como a combinação de CoE, fluxo de dados em streaming e um sistema de memória de três camadas escala a parede de memória da IA. Apresentamos o Samba-CoE, um sistema CoE com 150 especialistas e um trilhão de parâmetros totais. Implantamos o Samba-CoE na Unidade de Fluxo de Dados Reconfigurável (RDU, na sigla em inglês) SN40L da SambaNova – uma arquitetura comercial de acelerador de fluxo de dados co-projetada para aplicações empresariais de inferência e treinamento. O chip introduz um novo sistema de memória de três camadas com SRAM distribuída no chip, HBM no pacote e DRAM DDR fora do pacote. Uma rede dedicada entre RDUs permite escalar vertical e horizontalmente em múltiplos sockets. Demonstramos acelerações que variam de 2x a 13x em vários benchmarks executados em oito sockets RDU em comparação com uma linha de base não fundida. Mostramos que, para implantações de inferência CoE, o Nó RDU de 8 sockets reduz a pegada de máquina em até 19x, acelera o tempo de troca de modelo em 15x a 31x e alcança uma aceleração geral de 3,7x em relação a um DGX H100 e 6,6x em relação a um DGX A100.
Os recentes avanços em modelos de grande escala destacaram a importância crítica da escala de dados, rótulos e modalidades. Neste artigo, apresentamos o MS MARCO Web Search, o primeiro conjunto de dados em larga escala rico em informações da web, contendo milhões de rótulos reais de consultas e documentos clicados. Esse conjunto de dados imita de perto a distribuição de documentos e consultas do mundo real, fornece informações ricas para diversos tipos de tarefas subsequentes e incentiva pesquisas em várias áreas, como modelos de indexadores neurais genéricos de ponta a ponta, modelos de embedding genéricos e sistemas de acesso à informação de próxima geração com modelos de linguagem de grande escala. O MS MARCO Web Search oferece um benchmark de recuperação com três tarefas de desafio de recuperação na web que exigem inovações tanto no aprendizado de máquina quanto nos domínios de pesquisa de sistemas de recuperação de informação. Como o primeiro conjunto de dados que atende aos requisitos de grande escala, real e rico em dados, o MS MARCO Web Search abre caminho para futuros avanços na pesquisa em IA e sistemas. O conjunto de dados MS MARCO Web Search está disponível em: https://github.com/microsoft/MS-MARCO-Web-Search.
O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído atenção significativa devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades em transformar figuras visuais em código executável não foram avaliadas de forma abrangente. Para abordar isso, introduzimos o Plot2Code, um benchmark abrangente de codificação visual projetado para uma avaliação justa e aprofundada dos MLLMs. Coletamos cuidadosamente 132 gráficos matplotlib de alta qualidade, selecionados manualmente, abrangendo seis tipos de gráficos, provenientes de galerias matplotlib publicamente disponíveis. Para cada gráfico, oferecemos cuidadosamente seu código-fonte e uma instrução descritiva resumida pelo GPT-4. Essa abordagem permite que o Plot2Code avalie extensivamente as capacidades de código dos MLLMs em várias modalidades de entrada. Além disso, propomos três métricas de avaliação automática, incluindo taxa de aprovação do código, razão de correspondência de texto e avaliação geral do GPT-4V, para uma avaliação refinada do código gerado e das imagens renderizadas. Em vez de simplesmente julgar como aprovado ou reprovado, empregamos o GPT-4V para fazer uma avaliação geral entre as imagens geradas e as de referência, o que demonstrou ser consistente com a avaliação humana. Os resultados da avaliação, que incluem análises de 14 MLLMs, como o GPT-4V proprietário, o Gemini-Pro e o Mini-Gemini de código aberto, destacam os desafios substanciais apresentados pelo Plot2Code. Com o Plot2Code, revelamos que a maioria dos MLLMs existentes enfrenta dificuldades com a codificação visual para gráficos densos em texto, dependendo fortemente de instruções textuais. Esperamos que os resultados da avaliação do Plot2Code sobre codificação visual orientem o desenvolvimento futuro dos MLLMs. Todos os dados envolvidos com o Plot2Code estão disponíveis em https://huggingface.co/datasets/TencentARC/Plot2Code.
Neste relatório, apresentamos o Piccolo2, um modelo de embedding que supera outros modelos na avaliação abrangente de 6 tarefas no benchmark CMTEB, estabelecendo um novo estado da arte. O Piccolo2 utiliza principalmente uma abordagem eficiente de treinamento com perda híbrida multitarefa, aproveitando efetivamente dados textuais e rótulos de diversas tarefas downstream. Além disso, o Piccolo2 amplia a dimensão do embedding e emprega treinamento MRL para suportar dimensões vetoriais mais flexíveis. As informações mais recentes sobre os modelos Piccolo podem ser acessadas em: https://huggingface.co/sensenova/
Logos animados são uma maneira envolvente e onipresente de indivíduos e marcas se representarem online. Criar esses logos manualmente pode exigir habilidades artísticas significativas e muito esforço. Para ajudar designers iniciantes a animar logos, as ferramentas de design atualmente oferecem modelos e predefinições de animação. No entanto, essas soluções podem ser limitadas em sua gama expressiva. Modelos de linguagem de grande escala têm o potencial de ajudar designers iniciantes a criar logos animados, gerando código de animação personalizado para seu conteúdo. Neste artigo, apresentamos o LogoMotion, um sistema baseado em LLM que recebe um documento em camadas e gera logos animados por meio de síntese de programas visualmente fundamentada. Introduzimos técnicas para criar uma representação HTML de uma tela, identificar elementos primários e secundários, sintetizar código de animação e depurar visualmente erros de animação. Quando comparado com uma ferramenta padrão da indústria, descobrimos que o LogoMotion produz animações mais conscientes do conteúdo e com qualidade equivalente. Concluímos com uma discussão sobre as implicações da animação gerada por LLM para o design de movimento.
O desenvolvimento de modelos de domínio é um dos poucos processos que ainda exigem trabalho manual no planejamento de IA. Portanto, para tornar o planejamento mais acessível, é desejável automatizar a geração de modelos de domínio. Com esse objetivo, investigamos se modelos de linguagem de grande escala (LLMs) podem ser usados para gerar modelos de domínio de planejamento a partir de descrições textuais simples. Especificamente, introduzimos um framework para avaliação automatizada de domínios gerados por LLMs, comparando os conjuntos de planos para instâncias de domínio. Por fim, realizamos uma análise empírica de 7 modelos de linguagem de grande escala, incluindo modelos de codificação e de chat, em 9 domínios de planejamento diferentes e sob três classes de descrições de domínio em linguagem natural. Nossos resultados indicam que os LLMs, particularmente aqueles com alto número de parâmetros, exibem um nível moderado de proficiência na geração de domínios de planejamento corretos a partir de descrições em linguagem natural. Nosso código está disponível em https://github.com/IBM/NL2PDDL.