Artigos de pesquisa em IA selecionados diariamente com traduções
A pesquisa sobre a escalabilidade de grandes modelos de linguagem (LLMs) tem se concentrado principalmente nos parâmetros do modelo e no tamanho dos dados de treinamento, negligenciando o papel do tamanho do vocabulário. Intuitivamente, vocabulários maiores permitem uma tokenização mais eficiente, representando frases com menos tokens, mas também aumentam o risco de representações insuficientes para tokens raros. Investigamos como o tamanho do vocabulário impacta as leis de escalabilidade do LLM, treinando modelos com parâmetros variando de 33M a 3B em até 500B de caracteres com várias configurações de vocabulário. Propomos três abordagens complementares para prever o tamanho de vocabulário computacionalmente ideal: análise IsoFLOPs, estimativa de derivadas e ajuste paramétrico da função de perda. Nossas abordagens convergem para o mesmo resultado de que o tamanho de vocabulário ideal depende do orçamento computacional disponível e que modelos maiores merecem vocabulários maiores. No entanto, a maioria dos LLMs utiliza tamanhos de vocabulário muito pequenos. Por exemplo, prevemos que o tamanho de vocabulário ideal do Llama2-70B deveria ter sido de pelo menos 216K, 7 vezes maior do que seu vocabulário de 32K. Validamos nossas previsões empiricamente treinando modelos com 3B de parâmetros em diferentes orçamentos de FLOPs. A adoção do nosso tamanho de vocabulário ideal previsto melhora consistentemente o desempenho subsequente em relação aos tamanhos de vocabulário comumente utilizados. Ao aumentar o tamanho do vocabulário de 32K convencionais para 43K, melhoramos o desempenho no ARC-Challenge de 29.1 para 32.0 com os mesmos 2.3e21 FLOPs. Nosso trabalho enfatiza a necessidade de considerar em conjunto os parâmetros do modelo e o tamanho do vocabulário para uma escalabilidade eficiente.
As leis de escala em relação à quantidade de dados de treinamento e ao número de parâmetros nos permitem prever as compensações de custo-benefício da pré-treinamento de modelos de linguagem (LMs) em diferentes configurações. Neste artigo, consideramos outra dimensão de escala: a quantidade de dados disponíveis no momento da inferência. Especificamente, descobrimos que aumentar o tamanho do repositório de dados usado por um LM baseado em recuperação melhora de forma monótona a modelagem de linguagem e várias tarefas subsequentes sem saturação óbvia, de modo que um modelo menor, complementado com um grande repositório de dados, supera um modelo apenas LM maior em tarefas intensivas em conhecimento. Traçando curvas de escala computacionalmente ótimas com tamanhos variados de repositório de dados, modelo e dados de pré-treinamento, mostramos que o uso de repositórios de dados maiores pode melhorar significativamente o desempenho do modelo para o mesmo orçamento de computação de treinamento. Realizamos nosso estudo construindo um repositório de dados de 1,4 trilhão de tokens chamado MassiveDS, que é o maior e mais diversificado repositório de dados de código aberto para LMs baseados em recuperação até o momento, e projetando um pipeline eficiente para estudar a escala do repositório de dados de forma computacionalmente acessível. Por fim, analisamos o efeito da melhoria do recuperador, da filtragem de qualidade do repositório de dados e de outras escolhas de design em nossas tendências de escala observadas. No geral, nossos resultados mostram que o tamanho do repositório de dados deve ser considerado como parte integrante das compensações de eficiência e desempenho do LM. Para facilitar pesquisas futuras, disponibilizamos nosso repositório de dados e código-fonte em https://github.com/RulinShao/retrieval-scaling.
A reconstrução dinâmica monocular é um problema desafiador e de longa data na visão computacional, devido à natureza altamente mal posta da tarefa. As abordagens existentes são limitadas, pois dependem de modelos, são eficazes apenas em cenas quase estáticas, ou falham em modelar explicitamente o movimento 3D. Neste trabalho, introduzimos um método capaz de reconstruir cenas dinâmicas genéricas, apresentando movimento 3D explícito ao longo de sequências completas, a partir de vídeos monoculares capturados casualmente. Abordamos a natureza subdeterminada do problema com duas percepções-chave: Primeiramente, exploramos a estrutura de baixa dimensão do movimento 3D representando o movimento da cena com um conjunto compacto de bases de movimento SE3. O movimento de cada ponto é expresso como uma combinação linear dessas bases, facilitando a decomposição suave da cena em múltiplos grupos de movimento rígido. Em segundo lugar, utilizamos um conjunto abrangente de premissas orientadas por dados, incluindo mapas de profundidade monoculares e rastreamentos 2D de longo alcance, e desenvolvemos um método para consolidar efetivamente esses sinais de supervisão ruidosos, resultando em uma representação globalmente consistente da cena dinâmica. Experimentos demonstram que nosso método alcança desempenho de ponta tanto para estimativa de movimento 3D/2D de longo alcance quanto para síntese de novas visualizações em cenas dinâmicas. Página do Projeto: https://shape-of-motion.github.io/
Este artigo apresenta modelos de código Granite de longo contexto que suportam efetivamente janelas de contexto de até 128 mil tokens. Nossa solução para aumentar o comprimento do contexto dos modelos de código Granite 3B/8B de 2K/4K para 128K consiste em um pré-treinamento contínuo leve, aumentando gradualmente a frequência de sua base RoPE com empacotamento de arquivos em nível de repositório e dados de longo contexto com amostragem de comprimento. Além disso, também disponibilizamos modelos ajustados para instruções com suporte a longo contexto, derivados ao refinar ainda mais os modelos de base de longo contexto em uma mistura de pares de instrução-resposta de contexto curto e longo licenciados de forma permissiva. Ao comparar com os modelos de código Granite de curto contexto originais, nossos modelos de longo contexto alcançam melhorias significativas em tarefas de longo contexto sem degradação perceptível de desempenho em benchmarks regulares de conclusão de código (por exemplo, HumanEval). Disponibilizamos todos os nossos modelos de código Granite de longo contexto sob a licença Apache 2.0 para uso tanto em pesquisa quanto comercial.
Apresentamos um método para gerar Cenários Urbanos - sequências longas de visualizações através de uma cena sintetizada em tempo real em escala de cidade. Nossa geração é condicionada por entrada de linguagem (por exemplo, nome da cidade, clima), bem como um mapa/layout subjacente que hospeda a trajetória desejada. Comparado a modelos recentes para geração de vídeo ou síntese de visualizações 3D, nosso método pode se estender a trajetórias de câmera de alcance muito maior, abrangendo vários quarteirões da cidade, mantendo a qualidade visual e consistência. Para alcançar esse objetivo, baseamo-nos em trabalhos recentes sobre difusão de vídeo, utilizados em um framework autorregressivo que pode facilmente se estender a sequências longas. Em particular, introduzimos um novo método de imputação temporal que impede que nossa abordagem autorregressiva se afaste da distribuição de imagens realistas de cidade. Treinamos nosso sistema Streetscapes em uma fonte convincente de dados - imagens postadas do Google Street View, juntamente com dados de mapas contextuais - o que permite aos usuários gerar visualizações urbanas condicionadas a qualquer layout de cidade desejado, com poses de câmera controláveis. Para mais resultados, consulte nossa página do projeto em https://boyangdeng.com/streetscapes.
A Otimização Direta de Preferência (ODP) tornou-se um método de treinamento amplamente utilizado para o ajuste fino da instrução de grandes modelos de linguagem (GMLs). Neste trabalho, exploramos um aspecto pouco investigado da ODP - sua dependência do modelo ou política de referência. Tais políticas de referência, normalmente instanciadas como o modelo a ser ajustado finamente, são importantes, pois podem impor um limite superior na eficácia da ODP. Portanto, abordamos três questões de pesquisa relacionadas neste trabalho. Primeiramente, exploramos a força ótima da restrição de divergência de Kullback-Leibler na ODP, que penaliza desvios da política de referência, e constatamos que a ODP é sensível a essa força. Em seguida, examinamos a necessidade de políticas de referência para o ajuste fino da instrução, fornecendo comparações teóricas e empíricas entre a ODP e objetivos de aprendizado relacionados, demonstrando a superioridade da ODP. Além disso, investigamos se a ODP se beneficia de políticas de referência mais fortes, constatando que uma política de referência mais forte pode levar a um desempenho aprimorado, mas somente quando é semelhante ao modelo sendo ajustado finamente. Nossas descobertas destacam o papel confuso das políticas de referência na ODP e oferecem insights para as melhores práticas, ao mesmo tempo em que identificam questões de pesquisa em aberto para estudos futuros.
Apesar das capacidades superiores dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em diversas tarefas, eles ainda enfrentam desafios significativos de confiabilidade. No entanto, a literatura atual sobre a avaliação de MLLMs confiáveis ainda é limitada, carecendo de uma avaliação holística para oferecer insights abrangentes sobre futuras melhorias. Neste trabalho, estabelecemos o MultiTrust, o primeiro benchmark abrangente e unificado sobre a confiabilidade de MLLMs em cinco aspectos principais: veracidade, segurança, robustez, imparcialidade e privacidade. Nosso benchmark emprega uma estratégia de avaliação rigorosa que aborda tanto os riscos multimodais quanto os impactos cruzados modais, abrangendo 32 tarefas diversas com conjuntos de dados auto-curados. Experimentos extensivos com 21 MLLMs modernos revelam algumas questões e riscos de confiabilidade previamente inexplorados, destacando as complexidades introduzidas pela multimodalidade e enfatizando a necessidade de metodologias avançadas para aprimorar sua confiabilidade. Por exemplo, modelos proprietários típicos ainda enfrentam dificuldades na percepção de imagens visualmente confusas e são vulneráveis a ataques multimodais e de jailbreaking adversários; MLLMs são mais propensos a revelar privacidade em texto e expor viés ideológico e cultural mesmo quando pareados com imagens irrelevantes na inferência, indicando que a multimodalidade amplifica os riscos internos dos LLMs base. Além disso, disponibilizamos uma caixa de ferramentas escalável para pesquisa padronizada de confiabilidade, com o objetivo de facilitar futuros avanços nesse campo importante. O código e os recursos estão disponíveis publicamente em: https://multi-trust.github.io/.
No campo da criatividade digital, nosso potencial para criar mundos 3D intricados a partir da imaginação é frequentemente prejudicado pelas limitações das ferramentas digitais existentes, que exigem expertise e esforços extensos. Para reduzir essa disparidade, apresentamos o CLAY, um gerador de geometria e materiais 3D projetado para transformar sem esforço a imaginação humana em estruturas digitais 3D intricadas. O CLAY suporta entradas de texto ou imagem clássicas, bem como controles 3D conscientes de diversas primitivas (imagens de múltiplas vistas, voxels, caixas delimitadoras, nuvens de pontos, representações implícitas, etc). Em seu núcleo, há um modelo generativo em larga escala composto por um Variational Autoencoder (VAE) de múltiplas resoluções e um Transformer de Difusão latente (DiT) minimalista, para extrair priors 3D ricos diretamente de uma ampla gama de geometrias 3D. Especificamente, ele adota campos neurais para representar superfícies contínuas e completas e utiliza um módulo generativo de geometria com blocos puramente transformadores no espaço latente. Apresentamos um esquema de treinamento progressivo para treinar o CLAY em um conjunto de dados de modelos 3D ultra grande obtido por meio de um pipeline de processamento cuidadosamente projetado, resultando em um gerador de geometria nativa 3D com 1,5 bilhão de parâmetros. Para geração de aparência, o CLAY se propõe a produzir texturas de renderização baseadas em física (PBR) empregando um modelo de difusão de material de múltiplas vistas que pode gerar texturas de resolução 2K com modalidades difusa, de aspereza e metálica. Demonstramos o uso do CLAY para uma variedade de criações de ativos 3D controláveis, desde designs conceituais esboçados até ativos prontos para produção com detalhes intricados. Mesmo usuários iniciantes podem facilmente usar o CLAY para dar vida às suas vívidas imaginações 3D, liberando a criatividade ilimitada.
Os benchmarks de recuperação existentes consistem principalmente em consultas de busca de informações (por exemplo, perguntas agregadas de mecanismos de busca) em que a recuperação baseada em palavras-chave ou semântica geralmente é suficiente. No entanto, muitas consultas complexas do mundo real exigem um raciocínio aprofundado para identificar documentos relevantes que vão além da correspondência de forma superficial. Por exemplo, encontrar documentação para uma pergunta de codificação requer entender a lógica e a sintaxe das funções envolvidas. Para melhorar os benchmarks de recuperação em tais consultas desafiadoras, apresentamos o BRIGHT, o primeiro benchmark de recuperação de texto que requer um raciocínio intensivo para recuperar documentos relevantes. O BRIGHT é construído a partir de 1.398 consultas do mundo real coletadas de diversos domínios (como economia, psicologia, robótica, engenharia de software, ciências da terra, etc.), provenientes de dados humanos naturalmente ocorrentes ou cuidadosamente selecionados. Avaliações extensas revelam que até mesmo os modelos de recuperação de última geração têm desempenho ruim no BRIGHT. O modelo líder no quadro de líderes do MTEB [38], que alcança uma pontuação de 59,0 nDCG@10, produz uma pontuação de nDCG@10 de 18,0 no BRIGHT. Demonstramos ainda que a inclusão de raciocínio Chain-of-Thought gerado por grandes modelos de linguagem (LLMs) melhora o desempenho em até 12,2 pontos. Além disso, o BRIGHT é robusto contra vazamentos de dados durante o pré-treinamento dos modelos avaliados, como validamos mostrando desempenho semelhante mesmo quando documentos do benchmark são incluídos nos dados de treinamento. Acreditamos que o BRIGHT abre caminho para pesquisas futuras em sistemas de recuperação em cenários mais realistas e desafiadores. Nosso código e dados estão disponíveis em https://brightbenchmark.github.io.
Grandes modelos de linguagem (LLMs) podem sugerir elementos ausentes de itens listados em um prompt, que podem ser usados para completar listas ou recomendações com base no histórico dos usuários. No entanto, seu desempenho degrada quando apresentados com muitos itens, pois começam a sugerir itens já incluídos na lista de entrada. Isso ocorre em torno de 100 itens para os LLMs emblemáticos de meados de 2024. Avaliamos esse fenômeno tanto em problemas sintéticos (por exemplo, encontrar números ausentes em um intervalo de inteiros embaralhados) quanto em cenários realistas de recomendação de filmes. Referimo-nos a esse problema como overflow de atenção, pois evitar a repetição requer atenção a todos os itens simultaneamente. Embora loops iterativos possam mitigar esse problema, seus custos aumentam com a taxa de repetição, afetando a capacidade dos modelos de linguagem de derivar novidade de entradas extensas.
A crescente complexidade e altos custos associados ao design de processadores modernos levaram a um aumento na demanda por automação de design de processadores. Modelos de linguagem grandes (LLMs) ajustados para instruções têm demonstrado um desempenho notável na geração automática de código para linguagens de programação de propósito geral como Python. No entanto, esses métodos falham em linguagens de descrição de hardware (HDLs) como Verilog devido à escassez de dados de ajuste de instruções de alta qualidade, visto que até mesmo LLMs avançados como o GPT-3.5 apresentam desempenho limitado na geração de Verilog. Em relação a esse problema, observamos que (1) o código Verilog coletado do mundo real tem uma qualidade superior àqueles gerados por LLMs. (2) LLMs como o GPT-3.5 se destacam em resumir o código Verilog em vez de gerá-lo. Com base nessas observações, este artigo apresenta o CodeV, uma série de LLMs de geração de Verilog ajustados para instruções de código aberto. Em vez de gerar descrições primeiro e depois obter o código correspondente de LLMs avançados, nós fornecemos ao LLM o código Verilog e permitimos que ele gere a descrição em linguagem natural correspondente por meio de sumarização em vários níveis. Resultados experimentais mostram que o CodeV supera relativamente o estado da arte anterior de código aberto em 14,4% (BetterV no VerilogEval) e 11,3% (RTLCoder no RTLLM) respectivamente, e também supera relativamente o estado da arte comercial anterior GPT-4 em 22,1% no VerilogEval.
No campo do modelamento de linguagem, modelos aumentados com componentes de recuperação surgiram como uma solução promissora para lidar com vários desafios enfrentados no campo do processamento de linguagem natural (PLN), incluindo fundamentação de conhecimento, interpretabilidade e escalabilidade. Apesar do foco principal em PLN, afirmamos que o paradigma de aprimoramento por recuperação pode ser estendido para um espectro mais amplo de aprendizado de máquina (AM), como visão computacional, previsão de séries temporais e biologia computacional. Portanto, este trabalho introduz um framework formal desse paradigma, Aprendizado de Máquina Aprimorado por Recuperação (AMAR), sintetizando a literatura em vários domínios em AM com notações consistentes que estão ausentes na literatura atual. Além disso, descobrimos que, embora vários estudos empreguem componentes de recuperação para aprimorar seus modelos, há uma falta de integração com a pesquisa fundamental em Recuperação de Informação (RI). Nós preenchemos essa lacuna entre a pesquisa seminal em RI e os estudos contemporâneos de AMAR investigando cada componente que compõe o framework do AMAR. Em última análise, o objetivo deste trabalho é capacitar pesquisadores em várias disciplinas com um framework abrangente e formalmente estruturado de modelos aprimorados por recuperação, promovendo assim pesquisas interdisciplinares futuras.
Os avanços recentes em Modelos de Linguagem (LMs) têm catalisado a criação de múltiplos benchmarks, projetados para avaliar as capacidades gerais desses modelos. Uma tarefa crucial, no entanto, é avaliar a validade dos benchmarks em si. Isso é mais comumente feito por meio do Teste de Concordância de Benchmark (BAT), onde novos benchmarks são validados em relação aos estabelecidos usando alguma métrica de concordância (por exemplo, correlação de classificação). Apesar do papel crucial do BAT para construtores e usuários de benchmarks, não existem procedimentos padronizados para esse tipo de teste de concordância. Essa deficiência pode levar a conclusões inválidas, fomentando desconfiança nos benchmarks e prejudicando a capacidade de escolher adequadamente o benchmark a ser utilizado. Ao analisar mais de 40 benchmarks proeminentes, demonstramos como algumas escolhas metodológicas negligenciadas podem influenciar significativamente os resultados do BAT, potencialmente minando a validade das conclusões. Para lidar com essas inconsistências, propomos um conjunto de melhores práticas para o BAT e demonstramos como a utilização dessas metodologias melhora consideravelmente a robustez e validade do BAT. Para promover a adoção e facilitar futuras pesquisas, introduzimos o BenchBench, um pacote em Python para BAT, e lançamos o BenchBench-leaderboard, um meta-benchmark projetado para avaliar benchmarks usando seus pares. Nossas descobertas destacam a necessidade de um BAT padronizado, garantindo a robustez e validade das avaliações de benchmarks no cenário em evolução da pesquisa de modelos de linguagem. Pacote BenchBench: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench
Este estudo tem como objetivo explorar a implementação de técnicas de Processamento de Linguagem Natural (PLN) e de aprendizado de máquina (AM) para automatizar a codificação de cartas médicas com explicabilidade visual e configurações locais de computador leves. Atualmente, em ambientes clínicos, a codificação é um processo manual que envolve atribuir códigos a cada condição, procedimento e medicamento nos documentos de um paciente (por exemplo, 56265001 doença cardíaca usando o código SNOMED CT). Existem pesquisas preliminares sobre a codificação automática nesse campo usando modelos de AM de última geração; no entanto, devido à complexidade e tamanho dos modelos, a implementação no mundo real não é alcançada. Para facilitar ainda mais a possibilidade da prática de codificação automática, exploramos algumas soluções em um ambiente de computador local; além disso, investigamos a função da explicabilidade para a transparência dos modelos de IA. Utilizamos o banco de dados publicamente disponível MIMIC-III e os modelos de rede HAN/HLAN para fins de previsão de códigos ICD. Também experimentamos o mapeamento entre as bases de conhecimento ICD e SNOMED CT. Em nossos experimentos, os modelos forneceram informações úteis para 97,98% dos códigos. O resultado desta investigação pode lançar alguma luz sobre a implementação da codificação clínica automática na prática, como em ambientes hospitalares, nos computadores locais utilizados pelos clínicos, página do projeto https://github.com/Glenj01/Medical-Coding.
Os Modelos de Linguagem de Grande Escala (LLMs) têm o potencial de automatizar parcialmente algumas análises de mineração de processos (PM). Embora os modelos comerciais já sejam adequados para muitas tarefas analíticas, o nível competitivo dos LLMs de código aberto em tarefas de PM é desconhecido. Neste artigo, propomos o PM-LLM-Benchmark, o primeiro benchmark abrangente para PM com foco no conhecimento de domínio (específico de mineração de processos e específico de processos) e em diferentes estratégias de implementação. Também nos concentramos nos desafios em criar um benchmark desse tipo, relacionados à disponibilidade pública dos dados e aos vieses de avaliação pelos LLMs. Em geral, observamos que a maioria dos LLMs considerados pode realizar algumas tarefas de mineração de processos em um nível satisfatório, mas os modelos pequenos que seriam executados em dispositivos de borda ainda são inadequados. Concluímos também que, embora o benchmark proposto seja útil para identificar LLMs adequados para tarefas de mineração de processos, são necessárias mais pesquisas para superar os vieses de avaliação e realizar uma classificação mais abrangente dos LLMs competitivos.