Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem têm demonstrado eficácia em uma variedade de aplicações de software, particularmente em tarefas relacionadas ao fluxo de trabalho automático. Esses modelos possuem a capacidade crucial de chamar funções, o que é essencial na criação de agentes de IA. Apesar do alto desempenho dos modelos de linguagem em grande escala em ambientes de nuvem, eles frequentemente estão associados a preocupações com privacidade e custo. Os modelos atuais para chamada de funções em dispositivos enfrentam problemas de latência e precisão. Nossa pesquisa apresenta um novo método que capacita um modelo em dispositivo com 2 bilhões de parâmetros a superar o desempenho do GPT-4 tanto em precisão quanto em latência, e reduzir o comprimento do contexto em 95\%. Quando comparado ao Llama-7B com um mecanismo de chamada de funções baseado em RAG, nosso método melhora a latência em 35 vezes. Esse método reduz a latência a níveis considerados adequados para implantação em uma variedade de dispositivos de borda em ambientes de produção, alinhando-se com os requisitos de desempenho para aplicações do mundo real.
Apresentamos o Eurus, um conjunto de modelos de linguagem de grande escala (LLMs) otimizados para raciocínio. Ajustados a partir do Mistral-7B e do CodeLlama-70B, os modelos Eurus alcançam resultados de ponta entre os modelos de código aberto em um conjunto diversificado de benchmarks que abrangem matemática, geração de código e problemas de raciocínio lógico. Notavelmente, o Eurus-70B supera o GPT-3.5 Turbo em raciocínio por meio de uma avaliação abrangente em 12 testes que cobrem cinco tarefas, e atinge uma precisão de 33,3% no pass@1 no LeetCode e 32,6% no TheoremQA, dois benchmarks desafiadores, superando substancialmente os modelos de código aberto existentes com margens superiores a 13,3%. O forte desempenho do Eurus pode ser atribuído principalmente ao UltraInteract, nosso novo conjunto de dados de alinhamento em larga escala e alta qualidade, especificamente projetado para tarefas complexas de raciocínio. O UltraInteract pode ser usado tanto no ajuste fino supervisionado quanto no aprendizado de preferências. Para cada instrução, ele inclui uma árvore de preferências composta por (1) cadeias de raciocínio com diversas estratégias de planejamento em um formato unificado, (2) trajetórias de interação multiturno com o ambiente e a crítica, e (3) dados pareados para facilitar o aprendizado de preferências. O UltraInteract nos permite realizar uma exploração aprofundada do aprendizado de preferências para tarefas de raciocínio. Nossa investigação revela que alguns algoritmos bem estabelecidos de aprendizado de preferências podem ser menos adequados para tarefas de raciocínio em comparação com sua eficácia em conversas gerais. Inspirados por isso, derivamos um novo objetivo de modelagem de recompensa que, junto com o UltraInteract, resulta em um modelo de recompensa robusto.
Modelos de Linguagem de Grande Escala (LLMs) têm feito avanços significativos no processamento de sequências longas que excedem 32K tokens. No entanto, a avaliação de seu desempenho tem sido amplamente limitada a métricas como perplexidade e tarefas sintéticas, que podem não capturar plenamente suas habilidades em cenários do mundo real mais complexos. Este estudo introduz um benchmark especializado (LIConBench) focado no aprendizado contextual longo no domínio da classificação de rótulos extremos. Selecionamos meticulosamente seis conjuntos de dados com uma gama de rótulos variando de 28 a 174 classes, cobrindo diferentes comprimentos de entrada (demonstrações few-shot) de 2K a 50K. Nosso benchmark exige que os LLMs compreendam toda a entrada para reconhecer os espaços massivos de rótulos e fazer previsões corretas. Avaliamos 13 LLMs de contexto longo em nossos benchmarks. Descobrimos que os LLMs de contexto longo têm um desempenho relativamente bom sob o comprimento de token de 20K, e o desempenho se beneficia da utilização da janela de contexto longo. No entanto, após a janela de contexto exceder 20K, a maioria dos LLMs, exceto o GPT-4, cai drasticamente. Isso sugere uma lacuna notável nas capacidades atuais dos LLMs para processar e compreender sequências longas e ricas em contexto. Uma análise mais aprofundada revelou uma tendência entre os modelos de favorecer previsões para rótulos apresentados no final da sequência. Sua capacidade de raciocinar sobre múltiplas partes da sequência longa ainda precisa ser melhorada. Nosso estudo revela que a compreensão e o raciocínio de contexto longo ainda são tarefas desafiadoras para os LLMs existentes. Acreditamos que o LIConBench pode servir como uma avaliação mais realista para os futuros LLMs de contexto longo.
Treinamos uma suíte de modelos fundamentais multimodais (MMFM) utilizando o popular framework LLaVA com a família de grandes modelos de linguagem (LLMs) Gemma, recentemente lançada. De particular interesse é o modelo Gemma de 2B parâmetros, que oferece oportunidades para construir MMFMs pequenos, porém capazes. Alinhados com descobertas de outros trabalhos nessa área, testamos o efeito de remover três características de design: o pré-treinamento do conector, a utilização de um backbone de imagem mais poderoso e o aumento do tamanho do backbone de linguagem. Os modelos resultantes, que chamamos de LLaVA-Gemma, apresentam desempenho moderado em uma variedade de avaliações, mas não conseguem superar os modelos SOTA de tamanho comparável atuais. Uma análise mais detalhada do desempenho mostra efeitos mistos: pular o pré-treinamento tende a reduzir o desempenho, modelos de visão maiores às vezes melhoram o desempenho, e aumentar o tamanho do modelo de linguagem tem efeitos inconsistentes. Disponibilizamos publicamente as receitas de treinamento, código e pesos dos nossos modelos LLaVA-Gemma.
Apresentamos o HyperCLOVA X, uma família de modelos de linguagem de grande escala (LLMs) adaptados à língua e cultura coreanas, com capacidades competitivas em inglês, matemática e programação. O HyperCLOVA X foi treinado com uma mistura equilibrada de dados em coreano, inglês e código, seguido por ajuste fino com instruções baseadas em conjuntos de dados anotados por humanos de alta qualidade, respeitando diretrizes rigorosas de segurança que refletem nosso compromisso com a IA responsável. O modelo foi avaliado em diversos benchmarks, incluindo raciocínio abrangente, conhecimento, senso comum, factualidade, programação, matemática, conversação, seguimento de instruções e inocuidade, tanto em coreano quanto em inglês. O HyperCLOVA X exibe fortes capacidades de raciocínio em coreano, apoiadas por um profundo entendimento da língua e das nuances culturais. Uma análise adicional da natureza bilíngue inerente e sua extensão para o multilinguismo destaca a proficiência cruzada do modelo e sua forte capacidade de generalização para idiomas não direcionados, incluindo tradução automática entre vários pares de idiomas e tarefas de inferência cruzada. Acreditamos que o HyperCLOVA X pode fornecer orientações úteis para regiões ou países no desenvolvimento de seus próprios LLMs soberanos.
A controlabilidade desempenha um papel crucial na geração de vídeos, pois permite que os usuários criem o conteúdo desejado. No entanto, os modelos existentes em grande parte negligenciaram o controle preciso da pose da câmera, que serve como uma linguagem cinematográfica para expressar nuances narrativas mais profundas. Para mitigar esse problema, introduzimos o CameraCtrl, que possibilita o controle preciso da pose da câmera em modelos de texto para vídeo (T2V). Após parametrizar com precisão a trajetória da câmera, um módulo de câmera plug-and-play é então treinado em um modelo T2V, deixando os outros inalterados. Além disso, um estudo abrangente sobre o efeito de vários conjuntos de dados também foi conduzido, sugerindo que vídeos com distribuição diversificada de câmeras e aparências semelhantes realmente melhoram a controlabilidade e a generalização. Os resultados experimentais demonstram a eficácia do CameraCtrl na obtenção de um controle de câmera preciso e adaptável ao domínio, representando um avanço na busca por narrativas de vídeo dinâmicas e personalizadas a partir de entradas textuais e de pose da câmera. O site do nosso projeto está em: https://hehao13.github.io/projects-CameraCtrl/.
Estudamos as propriedades de escalonamento dos modelos de difusão latente (LDMs) com ênfase em sua eficiência de amostragem. Embora melhorias na arquitetura da rede e algoritmos de inferência tenham demonstrado aumentar efetivamente a eficiência de amostragem dos modelos de difusão, o papel do tamanho do modelo -- um determinante crítico da eficiência de amostragem -- não foi examinado de forma abrangente. Por meio de análises empíricas de modelos de difusão texto-imagem estabelecidos, conduzimos uma investigação detalhada sobre como o tamanho do modelo influencia a eficiência de amostragem em diferentes etapas de amostragem. Nossas descobertas revelam uma tendência surpreendente: ao operar com um orçamento de inferência fixo, modelos menores frequentemente superam seus equivalentes maiores na geração de resultados de alta qualidade. Além disso, estendemos nosso estudo para demonstrar a generalizabilidade desses achados, aplicando diversos amostradores de difusão, explorando diversas tarefas subsequentes, avaliando modelos pós-destilados, bem como comparando o desempenho em relação ao custo computacional de treinamento. Essas descobertas abrem novos caminhos para o desenvolvimento de estratégias de escalonamento de LDMs que podem ser empregadas para aprimorar capacidades generativas dentro de orçamentos limitados de inferência.
Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) têm despertado amplo interesse devido à sua capacidade de processar a linguagem humana e realizar tarefas para as quais não foram explicitamente treinados. Isso é relevante para as ciências químicas, que enfrentam o problema de conjuntos de dados pequenos e diversos, frequentemente na forma de texto. Os LLMs têm mostrado potencial para abordar essas questões e estão sendo cada vez mais utilizados para prever propriedades químicas, otimizar reações e até mesmo projetar e conduzir experimentos de forma autônoma. No entanto, ainda temos um entendimento sistemático muito limitado das capacidades de raciocínio químico dos LLMs, o que seria necessário para melhorar os modelos e mitigar possíveis danos. Aqui, apresentamos o "ChemBench", um framework automatizado projetado para avaliar rigorosamente o conhecimento químico e as habilidades de raciocínio dos LLMs de última geração em comparação com a expertise de químicos humanos. Curamos mais de 7.000 pares de perguntas e respostas para uma ampla gama de subáreas das ciências químicas, avaliamos os principais LLMs de código aberto e proprietários, e descobrimos que os melhores modelos superaram, em média, os melhores químicos humanos em nosso estudo. No entanto, os modelos têm dificuldade com algumas tarefas de raciocínio químico que são fáceis para especialistas humanos e fornecem previsões excessivamente confiantes e enganosas, como sobre os perfis de segurança de produtos químicos. Essas descobertas destacam a realidade dupla de que, embora os LLMs demonstrem proficiência notável em tarefas químicas, mais pesquisas são críticas para aprimorar sua segurança e utilidade nas ciências químicas. Nossos resultados também indicam a necessidade de adaptações nos currículos de química e ressaltam a importância de continuar a desenvolver frameworks de avaliação para melhorar a segurança e a utilidade dos LLMs.
O pré-treinamento dos modelos de linguagem de última geração agora requer trilhões de palavras de texto, uma quantidade ordens de magnitude maior do que a disponível para a vasta maioria dos idiomas. Embora a inclusão de texto em mais de um idioma seja uma maneira óbvia de adquirir mais dados para pré-treinamento, o multilinguismo é frequentemente visto como uma maldição, e a maioria dos esforços de treinamento de modelos continua focada quase exclusivamente em idiomas individuais de grande porte. Acreditamos que o multilinguismo pode ser uma bênção e que deve ser possível melhorar substancialmente as capacidades dos modelos monolíngues para idiomas menores por meio do treinamento multilíngue. Neste estudo, apresentamos o Poro 34B, um modelo de 34 bilhões de parâmetros treinado com 1 trilhão de tokens de finlandês, inglês e linguagens de programação, e demonstramos que uma abordagem de treinamento multilíngue pode produzir um modelo que não apenas avança substancialmente sobre as capacidades dos modelos existentes para o finlandês, mas também se destaca em tradução e é competitivo em sua classe na geração de inglês e linguagens de programação. Disponibilizamos os parâmetros do modelo, scripts e dados sob licenças abertas em https://huggingface.co/LumiOpen/Poro-34B.
Propomos o Congelamento 3D, um novo problema de alinhamento 3D para imagens 2D que capturam objetos semanticamente semelhantes. Dada uma coleção de imagens da Internet sem rótulos, nosso objetivo é associar as partes semânticas compartilhadas das entradas e agregar o conhecimento das imagens 2D em um espaço canônico 3D compartilhado. Introduzimos um framework geral que aborda a tarefa sem assumir modelos de forma, poses ou qualquer parâmetro de câmera. Em seu núcleo está uma representação canônica 3D que encapsula informações geométricas e semânticas. O framework otimiza a representação canônica juntamente com a pose para cada imagem de entrada e um mapa de coordenadas por imagem que transforma as coordenadas de pixels 2D para o quadro canônico 3D para contabilizar o casamento de formas. O procedimento de otimização funde conhecimento prévio de um modelo generativo de imagens pré-treinado e informações semânticas das imagens de entrada. O primeiro fornece uma forte orientação de conhecimento para essa tarefa sub-restrita, enquanto o último fornece as informações necessárias para mitigar o viés dos dados de treinamento do modelo pré-treinado. Nosso framework pode ser usado para várias tarefas, como correspondência de correspondências, estimativa de pose e edição de imagens, alcançando resultados robustos em conjuntos de dados de imagens do mundo real sob condições desafiadoras de iluminação e em coleções de imagens online capturadas em cenários reais.
Apresentamos o LLM-ABR, o primeiro sistema que utiliza as capacidades generativas de modelos de linguagem de grande escala (LLMs) para projetar de forma autônoma algoritmos de taxa de bits adaptativa (ABR) personalizados para diversas características de rede. Operando dentro de um framework de aprendizado por reforço, o LLM-ABR capacita os LLMs a projetar componentes-chave, como estados e arquiteturas de redes neurais. Avaliamos o LLM-ABR em diversas configurações de rede, incluindo banda larga, satélite, 4G e 5G. O LLM-ABR consistentemente supera os algoritmos ABR padrão.