Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de linguagem com capacidades de visão (VLMs), como GPT-4o e Gemini 1.5 Pro, estão impulsionando inúmeras aplicações de imagem-texto e obtendo altas pontuações em muitos benchmarks de compreensão de visão. No entanto, observamos que os VLMs falham em 7 tarefas visuais absurdamente fáceis para os humanos, como identificar (a) se dois círculos se sobrepõem; (b) se duas linhas se intersectam; (c) qual letra está sendo circulada em uma palavra; e (d) contar o número de círculos em um logotipo semelhante ao das Olimpíadas. O desempenho surpreendentemente fraco de quatro VLMs de última geração sugere que sua visão é, na melhor das hipóteses, como a de uma pessoa com miopia que vê detalhes finos como borrados, e na pior das hipóteses, como a de uma pessoa inteligente que está cega fazendo suposições educadas. O código está disponível em: https://vlmsareblind.github.io/
Dados sintéticos estão se tornando cada vez mais importantes para acelerar o desenvolvimento de modelos de linguagem, tanto grandes quanto pequenos. Apesar de vários casos de uso bem-sucedidos, os pesquisadores também levantaram preocupações em torno do colapso do modelo e das desvantagens de imitar outros modelos. Essa discrepância pode ser atribuída ao fato de que os dados sintéticos variam em qualidade e diversidade. O uso eficaz de dados sintéticos geralmente requer um esforço humano significativo na curadoria dos dados. Nós nos concentramos em usar dados sintéticos para pós-treinamento, especificamente criando dados por meio de modelos poderosos para ensinar uma nova habilidade ou comportamento a outro modelo, nos referimos a esse cenário como Ensino Generativo. Apresentamos o AgentInstruct, um framework agente extensível para criar automaticamente grandes quantidades de dados sintéticos diversos e de alta qualidade. O AgentInstruct pode criar tanto os estímulos quanto as respostas, usando apenas fontes de dados brutos como documentos de texto e arquivos de código como sementes. Demonstramos a utilidade do AgentInstruct criando um conjunto de dados de pós-treinamento de 25 milhões de pares para ensinar modelos de linguagem diferentes habilidades, como edição de texto, escrita criativa, uso de ferramentas, codificação, compreensão de leitura, etc. O conjunto de dados pode ser usado para ajuste de instrução de qualquer modelo base. Pós-treinamos o Mistral-7b com os dados. Ao comparar o modelo resultante Orca-3 com o Mistral-7b-Instruct (que usa o mesmo modelo base), observamos melhorias significativas em muitos benchmarks. Por exemplo, 40% de melhoria no AGIEval, 19% de melhoria no MMLU, 54% de melhoria no GSM8K, 38% de melhoria no BBH e 45% de melhoria no AlpacaEval. Além disso, ele supera consistentemente outros modelos como LLAMA-8B-instruct e GPT-3.5-turbo.
O rápido avanço dos grandes modelos de linguagem (LLMs) abriu caminho para o desenvolvimento de agentes autônomos altamente capazes. No entanto, os frameworks multiagentes existentes frequentemente enfrentam dificuldades na integração de diversos agentes de terceiros capazes devido à dependência de agentes definidos dentro de seus próprios ecossistemas. Eles também enfrentam desafios na simulação de ambientes distribuídos, uma vez que a maioria dos frameworks está limitada a configurações de um único dispositivo. Além disso, esses frameworks frequentemente dependem de pipelines de comunicação codificados rigidamente, limitando sua adaptabilidade aos requisitos dinâmicos das tarefas. Inspirados no conceito da Internet, propomos a Internet de Agentes (IoA), um novo framework que aborda essas limitações ao fornecer uma plataforma flexível e escalável para colaboração multiagente baseada em LLM. A IoA introduz um protocolo de integração de agentes, um design de arquitetura semelhante a mensagens instantâneas e mecanismos dinâmicos para formação de equipes de agentes e controle do fluxo de conversas. Através de experimentos extensivos em tarefas de assistente geral, tarefas de IA incorporada e benchmarks de geração aumentada por recuperação, demonstramos que a IoA consistentemente supera as bases de referência de última geração, mostrando sua capacidade de facilitar a colaboração eficaz entre agentes heterogêneos. A IoA representa um passo em direção à conexão de agentes diversos em um ambiente semelhante à Internet, onde os agentes podem colaborar de forma contínua para alcançar maior inteligência e capacidades. Nosso código-fonte foi disponibilizado em https://github.com/OpenBMB/IoA.
O desempenho dos Modelos de Linguagem de Visão Ampliada (LVLMs) depende do tamanho e qualidade de seus conjuntos de dados de treinamento. Os conjuntos de dados de ajuste de instruções de vídeo existentes carecem de diversidade, pois são derivados ao solicitar que grandes modelos de linguagem gerem pares de perguntas e respostas a partir de legendas de vídeo, sendo, portanto, em sua maioria descritivos. Enquanto isso, muitos conjuntos de dados de vídeo rotulados com rótulos e supervisão diversos existem - no entanto, constatamos que sua integração aos LVLMs é complexa. Aqui, apresentamos o Video Self-Training with augmented Reasoning (Video-STaR), a primeira abordagem de auto-treinamento de vídeo. O Video-STaR permite a utilização de qualquer conjunto de dados de vídeo rotulado para ajuste de instruções de vídeo. No Video-STaR, um LVLM alterna entre geração de instruções e ajuste fino, o que demonstramos (I) melhora a compreensão geral de vídeo e (II) adapta os LVLMs a novas tarefas com supervisão existente. Durante a geração, um LVLM é solicitado a propor uma resposta. As respostas são então filtradas apenas para aquelas que contêm os rótulos originais do vídeo, e o LVLM é então re-treinado no conjunto de dados gerado. Ao treinar apenas nas respostas geradas que contêm os rótulos corretos do vídeo, o Video-STaR utiliza esses rótulos de vídeo existentes como supervisão fraca para o ajuste de instruções de vídeo. Nossos resultados demonstram que os LVLMs aprimorados pelo Video-STaR apresentam desempenho melhorado em (I) QA de vídeo geral, onde o desempenho do TempCompass melhorou em 10%, e (II) em tarefas subsequentes, onde o Video-STaR melhorou a precisão do Kinetics700-QA em 20% e a avaliação de qualidade de ação no FineDiving em 15%.
Apresentamos o RodinHD, que pode gerar avatares 3D de alta fidelidade a partir de uma imagem de retrato. Métodos existentes falham em capturar detalhes intricados como penteados, os quais abordamos neste artigo. Primeiramente, identificamos um problema negligenciado de esquecimento catastrófico que surge ao ajustar triplanos sequencialmente em muitos avatares, causado pelo esquema de compartilhamento do decodificador MLP. Para superar essa questão, propomos uma nova estratégia de agendamento de dados e um termo de regularização de consolidação de pesos, que melhora a capacidade do decodificador de renderizar detalhes mais nítidos. Adicionalmente, otimizamos o efeito orientador da imagem de retrato calculando uma representação hierárquica mais refinada que captura pistas de textura 2D ricas, e as injetamos no modelo de difusão 3D em múltiplas camadas via atenção cruzada. Quando treinado em 46 mil avatares com um agendamento de ruído otimizado para triplanos, o modelo resultante pode gerar avatares 3D com detalhes significativamente melhores do que métodos anteriores e pode generalizar para entradas de retrato em ambientes naturais.
O treinamento de grandes modelos de linguagem (LLMs) em idiomas de baixos recursos, como o hebraico, apresenta desafios únicos. Neste artigo, apresentamos o DictaLM2.0 e o DictaLM2.0-Instruct, dois LLMs derivados do modelo Mistral, treinados em um corpus substancial de aproximadamente 200 bilhões de tokens em hebraico e inglês. Adaptar um modelo pré-treinado para um novo idioma envolve técnicas especializadas que diferem significativamente do treinamento de um modelo do zero ou do treinamento adicional de modelos existentes em idiomas bem providos, como o inglês. Detalhamos essas metodologias de treinamento inovadoras, que facilitam a aprendizagem eficaz e a adaptação às propriedades linguísticas do hebraico. Além disso, refinamos o DictaLM2.0-Instruct em um conjunto abrangente de dados de instruções para aprimorar seu desempenho em instruções específicas de tarefas. Para avaliar rigorosamente nossos modelos, introduzimos uma nova suíte de referência para avaliação de LLMs em hebraico, abrangendo uma variedade de tarefas, incluindo Resposta a Perguntas, Análise de Sentimentos, Desafio de Esquema de Winograd, Tradução e Sumarização. Nosso trabalho não apenas aborda as complexidades do treinamento de LLMs em idiomas de baixos recursos, mas também propõe um framework que pode ser aproveitado para adaptar outros LLMs a vários idiomas não ingleses, contribuindo para o campo mais amplo de PNL multilíngue.
A intensidade de movimento elevada e os vídeos longos e consistentes de Sora tiveram um impacto significativo no campo da geração de vídeos, atraindo uma atenção sem precedentes. No entanto, os conjuntos de dados publicamente disponíveis existentes são inadequados para gerar vídeos semelhantes aos de Sora, pois contêm principalmente vídeos curtos com baixa intensidade de movimento e legendas breves. Para lidar com essas questões, propomos o MiraData, um conjunto de dados de vídeo de alta qualidade que supera os anteriores em duração de vídeo, detalhes de legenda, intensidade de movimento e qualidade visual. Nós curamos o MiraData a partir de fontes diversas, selecionadas manualmente, e processamos meticulosamente os dados para obter clipes semanticamente consistentes. O GPT-4V é utilizado para anotar legendas estruturadas, fornecendo descrições detalhadas a partir de quatro perspectivas diferentes, juntamente com uma legenda densa resumida. Para avaliar melhor a consistência temporal e a intensidade de movimento na geração de vídeos, introduzimos o MiraBench, que aprimora os benchmarks existentes adicionando métricas de consistência 3D e intensidade de movimento baseada em rastreamento. O MiraBench inclui 150 solicitações de avaliação e 17 métricas que abrangem consistência temporal, intensidade de movimento, consistência 3D, qualidade visual, alinhamento texto-vídeo e similaridade de distribuição. Para demonstrar a utilidade e eficácia do MiraData, conduzimos experimentos usando nosso modelo de geração de vídeo baseado em DiT, o MiraDiT. Os resultados experimentais no MiraBench demonstram a superioridade do MiraData, especialmente em intensidade de movimento.
Apresentamos o BM25S, uma implementação eficiente baseada em Python do BM25 que depende apenas do Numpy e Scipy. O BM25S alcança até 500 vezes mais velocidade em comparação com o framework baseado em Python mais popular, calculando ansiosamente as pontuações do BM25 durante a indexação e armazenando-as em matrizes esparsas. Ele também alcança melhorias consideráveis em comparação com implementações Java altamente otimizadas, que são utilizadas por produtos comerciais populares. Por fim, o BM25S reproduz a implementação exata de cinco variantes do BM25 baseadas em Kamphuis et al. (2020), estendendo a pontuação ansiosa para variantes não esparsas usando um método inovador de deslocamento de pontuação. O código pode ser encontrado em https://github.com/xhluca/bm25s.
Quando solicitados a resumir artigos ou responder perguntas com base em um trecho, os grandes modelos de linguagem (LLMs) podem criar detalhes e fornecer respostas não fundamentadas que são imprecisas em relação ao contexto de entrada. Este artigo descreve uma abordagem simples para detectar tais alucinações contextuais. Nossa hipótese é que as alucinações contextuais estão relacionadas com a medida em que um LLM presta atenção às informações no contexto fornecido versus suas próprias gerações. Com base nessa intuição, propomos um modelo simples de detecção de alucinações, cujas características de entrada são dadas pela razão dos pesos de atenção no contexto versus nos tokens recém-gerados (para cada cabeça de atenção). Descobrimos que um classificador linear baseado nessas características de razão de retrospectiva é tão eficaz quanto um detector mais complexo que utiliza todos os estados ocultos de um LLM ou um modelo de inferência baseado em texto. O detector baseado na razão de retrospectiva - Lookback Lens - é capaz de transferir-se entre tarefas e até mesmo modelos, permitindo que um detector treinado em um modelo de 7B seja aplicado (sem re-treinamento) a um modelo maior de 13B. Além disso, aplicamos este detector para mitigar alucinações contextuais e descobrimos que uma abordagem simples de decodificação guiada por classificador é capaz de reduzir a quantidade de alucinação, por exemplo, em 9,6% na tarefa de sumarização XSum.
A comprovação de teoremas matemáticos usando linguagens formais verificáveis por computador, como o Lean, impacta significativamente o raciocínio matemático. Uma abordagem para a comprovação formal de teoremas envolve a geração de provas completas usando Modelos de Linguagem Grande (LLMs) baseados em Linguagem Natural (NL). Métodos semelhantes têm mostrado resultados promissores na geração de código. No entanto, a maioria dos LLMs modernos apresenta desempenho subótimo devido à escassez de dados alinhados de comprovação de teoremas em NL e Linguagem Formal (FL). Essa escassez resulta em uma falta de metodologias para treinar LLMs e técnicas para utilizar plenamente suas capacidades na composição de provas formais. Para enfrentar os desafios, este artigo propõe o **TheoremLlama**, um framework de ponta a ponta para treinar um LLM de propósito geral para se tornar um especialista em Lean4. Esse framework engloba métodos de geração de conjuntos de dados alinhados NL-FL, abordagens de treinamento para o provador formal de teoremas LLM e técnicas para escrever provas Lean4 com LLM. Utilizando o método de geração de conjuntos de dados, fornecemos *Teoremas Iniciais Bootstrap* (OBT), um conjunto de dados alinhado NL-FL e bootstrap. Uma inovação chave nesse framework é o método de bootstrap NL-FL, onde provas em NL são integradas ao código Lean4 para conjuntos de dados de treinamento, aproveitando a capacidade de raciocínio em NL dos LLMs para raciocínio formal. O framework **TheoremLlama** alcança acurácias cumulativas de 36,48% e 33,61% nos conjuntos de dados MiniF2F-Valid e Test, respectivamente, superando a linha de base GPT-4 de 22,95% e 25,41%. Também disponibilizamos nossos pontos de verificação de modelo e conjunto de dados gerado como código aberto, e em breve tornaremos todo o código publicamente disponível.
Modelos pré-treinados produzem representações genéricas fortes que podem ser adaptadas por meio de ajustes finos. A diferença de peso aprendida em relação ao modelo pré-treinado, conhecida como vetor de tarefa, caracteriza a direção e o passo do ajuste fino. A importância dos vetores de tarefa é tal que operações aritméticas simples neles podem ser usadas para combinar representações diversas de diferentes domínios. Este artigo se baseia nessas propriedades dos vetores de tarefa e tem como objetivo responder (1) se os componentes dos vetores de tarefa, em particular os blocos de parâmetros, exibem características semelhantes, e (2) como tais blocos podem ser usados para aprimorar a composição e transferência de conhecimento. Para isso, apresentamos aTLAS, um algoritmo que combina linearmente blocos de parâmetros com diferentes coeficientes aprendidos, resultando em escalonamento anisotrópico no nível do vetor de tarefa. Mostramos que tais combinações lineares exploram explicitamente a baixa dimensionalidade intrínseca dos modelos pré-treinados, com apenas alguns coeficientes sendo os parâmetros aprendíveis. Além disso, a composição de blocos de parâmetros alavanca as representações já aprendidas, reduzindo assim a dependência de grandes quantidades de dados. Demonstramos a eficácia de nosso método em aritmética de tarefas, reconhecimento de poucas amostras e adaptação em tempo de teste, com objetivos supervisionados ou não supervisionados. Em particular, mostramos que (1) o escalonamento anisotrópico aprendido permite que os vetores de tarefa sejam mais desembaraçados, causando menos interferência na composição; (2) a composição de vetores de tarefa se destaca com dados escassos ou sem rótulos e é menos suscetível a mudanças de domínio, levando assim a uma melhor generalização; (3) misturar os blocos de parâmetros mais informativos entre diferentes vetores de tarefa antes do treinamento pode reduzir a pegada de memória e melhorar a flexibilidade da transferência de conhecimento. Além disso, mostramos o potencial do aTLAS como um método PEFT, especialmente com menos dados, e demonstramos sua escalabilidade.
Os humanos descrevem cenas complexas com composicionalidade, utilizando descrições de texto simples enriquecidas com links e relacionamentos. Enquanto a pesquisa em visão e linguagem tem como objetivo desenvolver modelos com capacidades de compreensão composicional, isso ainda não é refletido nos conjuntos de dados existentes, que, em sua maioria, ainda usam texto simples para descrever imagens. Neste trabalho, propomos uma nova estratégia de anotação, a legenda baseada em grafo (GBC), que descreve uma imagem usando uma estrutura de grafo rotulada, com nós de vários tipos. Os nós em GBC são criados usando, em uma primeira etapa, ferramentas de detecção de objetos e legendas densas aninhadas recursivamente para descobrir e descrever nós de entidades, posteriormente vinculados em uma segunda etapa destacando, por meio de novos tipos de nós, composições e relações entre entidades. Uma vez que todos os nós do GBC contêm descrições de texto simples, o GBC mantém a flexibilidade encontrada na linguagem natural, mas também pode codificar informações hierárquicas em suas arestas. Demonstramos que o GBC pode ser produzido automaticamente, utilizando modelos LLM multimodais prontos para uso e modelos de detecção de vocabulário aberto, construindo um novo conjunto de dados, GBC10M, reunindo anotações do GBC para cerca de 10 milhões de imagens do conjunto de dados CC12M. Utilizamos o GBC10M para mostrar a riqueza de legendas de nós descobertas pelo GBC, conforme medido com o treinamento CLIP. Mostramos que o uso das anotações dos nós do GBC - especialmente aqueles armazenados nos nós de composição e relação - resulta em um impulso significativo no desempenho de modelos subsequentes quando comparado a outros formatos de conjunto de dados. Para explorar ainda mais as oportunidades fornecidas pelo GBC, também propomos um novo mecanismo de atenção que pode aproveitar todo o grafo do GBC, com resultados experimentais encorajadores que mostram os benefícios adicionais da incorporação da estrutura do grafo. Nossos conjuntos de dados estão disponíveis em https://huggingface.co/graph-based-captions.
Os modelos existentes de difusão de texto para vídeo dependem exclusivamente de codificadores de texto para seu pré-treinamento. Essa limitação decorre da ausência de conjuntos de dados de vídeo multimodais em grande escala, resultando em uma falta de fundamentação visual e restringindo sua versatilidade e aplicação na integração multimodal. Para lidar com isso, construímos um conjunto de dados multimodal de prompt em grande escala, empregando métodos de recuperação para associar exemplos no contexto com os prompts de texto fornecidos e, em seguida, utilizamos uma estratégia de treinamento em duas etapas para permitir diversas tarefas de geração de vídeo dentro do mesmo modelo. Na primeira etapa, propomos um framework de geração de vídeo condicional multimodal para pré-treinamento nesses conjuntos de dados aumentados, estabelecendo um modelo fundamental para geração de vídeo fundamentada. Em seguida, ajustamos o modelo da primeira etapa em três tarefas de geração de vídeo, incorporando instruções multimodais. Esse processo aprimora ainda mais a capacidade do modelo de lidar com entradas e tarefas diversas, garantindo a integração perfeita de informações multimodais. Após esse processo de treinamento em duas etapas, o VIMI demonstra capacidades de compreensão multimodal, produzindo vídeos contextualmente ricos e personalizados fundamentados nas entradas fornecidas, como mostrado na Figura 1. Em comparação com métodos anteriores de geração de vídeo fundamentada visualmente, o VIMI pode sintetizar vídeos consistentes e temporalmente coerentes com grande movimento, mantendo o controle semântico. Por fim, o VIMI também alcança resultados de geração de texto para vídeo de ponta no benchmark UCF101.
Grandes modelos de linguagem (LLMs) frequentemente apresentam comportamentos indesejáveis, como alucinações e repetições de sequências. Propomos considerar esses comportamentos como fallbacks que os modelos exibem sob incerteza, e investigar a conexão entre eles. Categorizamos os comportamentos de fallback - repetições de sequências, texto degenerado e alucinações - e os analisamos extensivamente em modelos da mesma família que diferem pela quantidade de tokens de pré-treinamento, contagem de parâmetros, ou pela inclusão de treinamento de seguir instruções. Nossos experimentos revelam uma ordenação clara e consistente dos comportamentos de fallback, em todos esses aspectos: quanto mais avançado um LLM é (ou seja, treinado em mais tokens, tem mais parâmetros, ou é ajustado para instruções), seu comportamento de fallback muda de repetições de sequências, para texto degenerado, e então para alucinações. Além disso, a mesma ordenação é observada ao longo de uma única geração, mesmo para os modelos de melhor desempenho; à medida que a incerteza aumenta, os modelos mudam de gerar alucinações para produzir texto degenerado e depois repetições de sequências. Por fim, demonstramos que enquanto técnicas comuns de decodificação, como amostragem aleatória, podem aliviar alguns comportamentos indesejados como repetições de sequências, elas aumentam alucinações mais difíceis de detectar.
Os modelos de linguagem de grande escala (LLMs) tornaram-se recentemente a principal fonte de respostas para perguntas de usuários online. Apesar de sua capacidade de oferecer respostas eloquentes, sua precisão e confiabilidade podem representar um desafio significativo. Isso é especialmente verdadeiro para domínios sensíveis, como a biomedicina, onde há uma maior necessidade de respostas factualmente corretas. Este artigo apresenta um sistema de geração aumentada por recuperação biomédica (RAG) projetado para aprimorar a confiabilidade das respostas geradas. O sistema é baseado em um LLM ajustado para a referência de perguntas e respostas, onde resumos relevantes recuperados do PubMed são passados para o contexto do LLM como entrada por meio de um prompt. Sua saída é uma resposta baseada em resumos do PubMed, onde cada afirmação é referenciada adequadamente, permitindo que os usuários verifiquem a resposta. Nosso sistema de recuperação alcança uma melhoria absoluta de 23% em comparação com o mecanismo de busca do PubMed. Com base na avaliação manual em uma pequena amostra, nosso componente LLM ajustado alcança resultados comparáveis ao GPT-4 Turbo na referência de resumos relevantes. Disponibilizamos publicamente o conjunto de dados usado para ajustar os modelos e os modelos ajustados com base em Mistral-7B-instruct-v0.1 e v0.2.
Avanços recentes em modelagem de linguagem têm mostrado resultados promissores quando aplicados a dados de séries temporais. Em particular, o ajuste fino de grandes modelos de linguagem pré-treinados (LLMs, na sigla em inglês) para tarefas de classificação de séries temporais alcançou desempenho de estado da arte em benchmarks padrão. No entanto, esses modelos baseados em LLM apresentam uma desvantagem significativa devido ao grande tamanho do modelo, com o número de parâmetros treináveis na casa dos milhões. Neste artigo, propomos uma abordagem alternativa para aproveitar o sucesso da modelagem de linguagem no domínio de séries temporais. Em vez de ajustar finamente os LLMs, utilizamos um modelo de incorporação de linguagem para incorporar séries temporais e em seguida emparelhamos as incorporações com uma simples cabeça de classificação composta por redes neurais convolucionais (CNN) e perceptrons de múltiplas camadas (MLP). Realizamos experimentos extensivos em conjuntos de dados de benchmark de classificação de séries temporais bem estabelecidos. Demonstramos que o LETS-C não apenas supera o estado da arte atual em precisão de classificação, mas também oferece uma solução leve, utilizando em média apenas 14,5% dos parâmetros treináveis em comparação com o modelo de estado da arte. Nossas descobertas sugerem que aproveitar codificadores de linguagem para incorporar dados de séries temporais, combinados com uma cabeça de classificação simples, porém eficaz, oferece uma direção promissora para alcançar classificação de séries temporais de alto desempenho, mantendo uma arquitetura de modelo leve.