Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Qwen2.5-VL, o mais recente modelo carro-chefe da série de visão e linguagem Qwen, que demonstra avanços significativos tanto em capacidades fundamentais quanto em funcionalidades inovadoras. O Qwen2.5-VL dá um grande salto na compreensão e interação com o mundo por meio de reconhecimento visual aprimorado, localização precisa de objetos, análise robusta de documentos e compreensão de vídeos longos. Um destaque do Qwen2.5-VL é sua capacidade de localizar objetos com precisão usando caixas delimitadoras ou pontos. Ele oferece extração robusta de dados estruturados de faturas, formulários e tabelas, além de análise detalhada de gráficos, diagramas e layouts. Para lidar com entradas complexas, o Qwen2.5-VL introduz processamento de resolução dinâmica e codificação de tempo absoluto, permitindo que ele processe imagens de tamanhos variados e vídeos de longa duração (até horas) com localização de eventos em nível de segundo. Isso permite que o modelo perceba nativamente escalas espaciais e dinâmicas temporais sem depender de técnicas tradicionais de normalização. Ao treinar um Vision Transformer (ViT) de resolução dinâmica nativa desde o início e incorporar Window Attention, reduzimos a sobrecarga computacional enquanto mantemos a resolução nativa. Como resultado, o Qwen2.5-VL se destaca não apenas na compreensão de imagens estáticas e documentos, mas também como um agente visual interativo capaz de raciocinar, usar ferramentas e executar tarefas em cenários do mundo real, como operar computadores e dispositivos móveis. O Qwen2.5-VL está disponível em três tamanhos, atendendo a diversos casos de uso, desde IA de borda até computação de alto desempenho. O modelo carro-chefe Qwen2.5-VL-72B equipara-se a modelos de ponta como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente na compreensão de documentos e diagramas. Além disso, o Qwen2.5-VL mantém um desempenho linguístico robusto, preservando as competências centrais de linguagem do Qwen2.5 LLM.
Modelos de Fundação Generativos (GenFMs) surgiram como ferramentas transformadoras. No entanto, sua adoção generalizada levanta preocupações críticas em relação à confiabilidade em diversas dimensões. Este artigo apresenta um framework abrangente para abordar esses desafios por meio de três contribuições principais. Primeiro, revisamos sistematicamente as leis e políticas globais de governança de IA de governos e órgãos reguladores, bem como práticas e padrões da indústria. Com base nessa análise, propomos um conjunto de princípios orientadores para GenFMs, desenvolvidos por meio de extensa colaboração multidisciplinar que integra perspectivas técnicas, éticas, legais e sociais. Segundo, introduzimos o TrustGen, a primeira plataforma de benchmarking dinâmica projetada para avaliar a confiabilidade em múltiplas dimensões e tipos de modelos, incluindo modelos de texto-para-imagem, linguagem de grande escala e visão-linguagem. O TrustGen aproveita componentes modulares—curadoria de metadados, geração de casos de teste e variação contextual—para permitir avaliações adaptativas e iterativas, superando as limitações dos métodos de avaliação estáticos. Usando o TrustGen, revelamos progressos significativos em confiabilidade enquanto identificamos desafios persistentes. Por fim, fornecemos uma discussão aprofundada sobre os desafios e direções futuras para GenFMs confiáveis, que revela a natureza complexa e evolutiva da confiabilidade, destacando as nuances de equilíbrio entre utilidade e confiabilidade, e considerações para várias aplicações subsequentes, identificando desafios persistentes e fornecendo um roteiro estratégico para pesquisas futuras. Este trabalho estabelece um framework holístico para avançar a confiabilidade em GenAI, pavimentando o caminho para uma integração mais segura e responsável de GenFMs em aplicações críticas. Para facilitar o avanço na comunidade, disponibilizamos o kit de ferramentas para avaliação dinâmica.
A geração de texto para música, a tarefa de criar vocais e acompanhamento a partir de entradas textuais, apresenta desafios significativos devido à complexidade do domínio e à escassez de dados. As abordagens existentes frequentemente empregam procedimentos de geração em múltiplos estágios, resultando em pipelines de treinamento e inferência complicados. Neste artigo, propomos o SongGen, um transformer auto-regressivo de estágio único e totalmente de código aberto, projetado para geração controlada de músicas. O modelo proposto facilita o controle refinado sobre diversos atributos musicais, incluindo letras e descrições textuais de instrumentação, gênero, humor e timbre, além de oferecer um clipe de referência opcional de três segundos para clonagem de voz. Dentro de um framework auto-regressivo unificado, o SongGen suporta dois modos de saída: modo misto, que gera uma mistura de vocais e acompanhamento diretamente, e modo de faixa dupla, que os sintetiza separadamente para maior flexibilidade em aplicações posteriores. Exploramos diversas estratégias de padrão de tokens para cada modo, resultando em melhorias notáveis e insights valiosos. Além disso, projetamos um pipeline automatizado de pré-processamento de dados com controle de qualidade eficaz. Para promover o engajamento da comunidade e pesquisas futuras, disponibilizaremos os pesos do modelo, código de treinamento, dados anotados e pipeline de pré-processamento. As amostras geradas são exibidas em nossa página do projeto em https://liuzh-19.github.io/SongGen/, e o código estará disponível em https://github.com/LiuZH-19/SongGen.
Os algoritmos existentes de direção autônoma (AD) de ponta a ponta geralmente seguem o paradigma de Aprendizado por Imitação (IL), que enfrenta desafios como confusão causal e a lacuna de circuito aberto. Neste trabalho, estabelecemos um paradigma de treinamento de Aprendizado por Reforço (RL) em circuito fechado baseado em 3DGS. Ao aproveitar técnicas de 3DGS, construímos uma réplica digital fotorrealista do mundo físico real, permitindo que a política de AD explore extensivamente o espaço de estados e aprenda a lidar com cenários fora da distribuição por meio de tentativa e erro em larga escala. Para aumentar a segurança, projetamos recompensas especializadas que orientam a política a responder efetivamente a eventos críticos de segurança e a compreender relações causais do mundo real. Para um melhor alinhamento com o comportamento humano de direção, o IL é incorporado ao treinamento de RL como um termo de regularização. Introduzimos um benchmark de avaliação em circuito fechado composto por diversos ambientes 3DGS previamente desconhecidos. Em comparação com métodos baseados em IL, o RAD alcança um desempenho superior na maioria das métricas de circuito fechado, especialmente com uma taxa de colisão 3 vezes menor. Resultados abundantes em circuito fechado são apresentados em https://hgao-cv.github.io/RAD.
Os embeddings de texto são tipicamente avaliados em um conjunto limitado de tarefas, que são restritas por idioma, domínio e diversidade de tarefas. Para abordar essas limitações e fornecer uma avaliação mais abrangente, apresentamos o Massive Multilingual Text Embedding Benchmark (MMTEB) - uma expansão em grande escala e impulsionada pela comunidade do MTEB, cobrindo mais de 500 tarefas de avaliação controladas por qualidade em mais de 250 idiomas. O MMTEB inclui um conjunto diversificado de tarefas desafiadoras e inovadoras, como seguir instruções, recuperação de documentos longos e recuperação de código, representando a maior coleção multilíngue de tarefas de avaliação para modelos de embeddings até o momento. Usando essa coleção, desenvolvemos vários benchmarks altamente multilíngues, que utilizamos para avaliar um conjunto representativo de modelos. Descobrimos que, embora modelos de linguagem de grande escala (LLMs) com bilhões de parâmetros possam alcançar desempenho de ponta em determinados subconjuntos de idiomas e categorias de tarefas, o modelo publicamente disponível com melhor desempenho é o multilingual-e5-large-instruct, com apenas 560 milhões de parâmetros. Para facilitar a acessibilidade e reduzir o custo computacional, introduzimos um novo método de subamostragem baseado na correlação intertarefas, garantindo uma seleção diversificada enquanto preserva as classificações relativas dos modelos. Além disso, otimizamos tarefas como recuperação ao amostrar negativos difíceis, criando divisões menores, mas eficazes. Essas otimizações nos permitem introduzir benchmarks que reduzem drasticamente as demandas computacionais. Por exemplo, nosso novo benchmark de inglês zero-shot mantém uma ordem de classificação semelhante à versão em escala completa, mas com uma fração do custo computacional.
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas de raciocínio complexo, e a destilação de suas capacidades de raciocínio em modelos menores tem mostrado resultados promissores. No entanto, descobrimos um fenômeno interessante, que denominamos Lacuna de Aprendizagem em Modelos Pequenos: modelos pequenos (≤3B parâmetros) não se beneficiam consistentemente de longas cadeias de raciocínio (CoT) ou da destilação de modelos maiores. Em vez disso, eles apresentam melhor desempenho quando ajustados em cadeias de raciocínio mais curtas e simples, que se alinham melhor com sua capacidade intrínseca de aprendizado. Para abordar isso, propomos a Destilação Mista, uma estratégia simples, porém eficaz, que equilibra a complexidade do raciocínio ao combinar exemplos de CoT longos e curtos ou raciocínios de modelos maiores e menores. Nossos experimentos demonstram que a Destilação Mista melhora significativamente o desempenho de raciocínio de modelos pequenos em comparação com o treinamento usando apenas um tipo de dado. Essas descobertas destacam as limitações da destilação direta de modelos fortes e enfatizam a importância de adaptar a complexidade do raciocínio para uma transferência eficaz de capacidade de raciocínio.
Métodos de modelagem de sequências lineares, como atenção linear, modelagem de espaço de estados e RNNs lineares, oferecem melhorias significativas de eficiência ao reduzir a complexidade do treinamento e da inferência. No entanto, esses métodos geralmente comprimem toda a sequência de entrada em um único estado de memória de tamanho fixo, o que leva a um desempenho subótimo em tarefas subsequentes intensivas em recuperação de memória. Inspirados pela neurociência, particularmente pela capacidade do cérebro de manter memória de longo prazo robusta enquanto mitiga a "interferência de memória", introduzimos uma nova arquitetura chamada Mixture-of-Memories (MoM). O MoM utiliza múltiplos estados de memória independentes, com uma rede roteadora direcionando os tokens de entrada para estados de memória específicos. Essa abordagem aumenta consideravelmente a capacidade geral de memória enquanto minimiza a interferência de memória. Como resultado, o MoM se sai excepcionalmente bem em tarefas intensivas em recuperação, superando as técnicas existentes de modelagem de sequências lineares. Apesar de incorporar múltiplos estados de memória, o cálculo de cada estado de memória permanece linear em complexidade, permitindo que o MoM mantenha a vantagem de complexidade linear durante o treinamento, enquanto mantém complexidade constante durante a inferência. Nossos resultados experimentais mostram que o MoM supera significativamente os modelos de sequências lineares atuais em tarefas de linguagem subsequentes, particularmente em tarefas intensivas em recuperação, e até alcança desempenho comparável aos modelos Transformer. O código foi liberado em https://github.com/OpenSparseLLMs/MoM e também faz parte de https://github.com/OpenSparseLLMs/Linear-MoE.
O rastreamento da web é uma das principais fontes de dados para o pré-treinamento de modelos de linguagem de grande escala (LLMs), mas a maioria das páginas da web rastreadas é descartada durante o pré-treinamento devido à baixa qualidade dos dados. Este artigo apresenta o Crawl4LLM, um método eficiente de rastreamento da web que explora o grafo da web com base na preferência do pré-treinamento de LLMs. Especificamente, ele utiliza a influência de uma página da web no pré-treinamento de LLMs como a pontuação de prioridade do agendador do rastreador, substituindo a prioridade padrão baseada na conectividade do grafo. Nossos experimentos em um grafo da web contendo 900 milhões de páginas do índice de um mecanismo de busca comercial demonstram a eficiência do Crawl4LLM na obtenção de dados de pré-treinamento de alta qualidade. Com apenas 21% dos URLs rastreados, os LLMs pré-treinados com dados do Crawl4LLM alcançam o mesmo desempenho em tarefas subsequentes que os rastreamentos anteriores, reduzindo significativamente o desperdício de rastreamento e aliviando a carga nos sites. Nosso código está disponível publicamente em https://github.com/cxcscmu/Crawl4LLM.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis por meio de pré-treinamento e alinhamento. No entanto, LLMs superiores em contextos curtos podem ter desempenho inferior em cenários de contexto longo devido a um alinhamento insuficiente para contextos extensos. Esse processo de alinhamento permanece desafiador devido à impraticabilidade de anotação humana para contextos prolongados e à dificuldade em equilibrar o desempenho em contextos curtos e longos. Para abordar esses desafios, introduzimos o LongPO, que permite que LLMs de contexto curto evoluam autonomamente para se destacarem em tarefas de contexto longo, transferindo internamente as capacidades de contexto curto. O LongPO utiliza LLMs para aprender a partir de dados de preferência gerados internamente, que consistem em respostas pareadas geradas para as mesmas instruções com entradas de contexto longo e suas versões comprimidas de contexto curto, respectivamente. Essa preferência revela capacidades e potenciais dos LLMs cultivados durante o alinhamento de contexto curto que podem ser reduzidos em cenários de contexto longo subalinhados. Além disso, o LongPO incorpora uma restrição KL de curto para longo para mitigar o declínio no desempenho de contexto curto durante o alinhamento de contexto longo. Quando aplicado ao Mistral-7B-Instruct-v0.2, de comprimentos de contexto de 128K para 512K, o LongPO mantém totalmente o desempenho de contexto curto e supera amplamente o SFT ingênuo e o DPO tanto em tarefas de contexto longo quanto curto. Especificamente, modelos treinados com \ourMethod podem alcançar resultados em benchmarks de contexto longo comparáveis, ou até superiores, aos de LLMs superiores (por exemplo, GPT-4-128K) que envolvem extensa anotação de contexto longo e escalas de parâmetros maiores.
Aplicações de modelos de linguagem de grande escala (LLMs) estão evoluindo além de simples chatbots para se tornarem programas agentes dinâmicos e de propósito geral, que escalam chamadas de LLMs e tokens de saída para ajudar agentes de IA a raciocinar, explorar e resolver tarefas complexas. No entanto, os sistemas existentes de atendimento de LLMs ignoram as dependências entre programas e chamadas, perdendo oportunidades significativas de otimização. Nossa análise revela que os programas submetidos a motores de atendimento de LLMs enfrentam longos tempos de espera cumulativos, principalmente devido ao bloqueio na cabeça da fila, tanto em nível de solicitação individual de LLM quanto de programa. Para resolver isso, introduzimos o Autellix, um sistema de atendimento de LLMs que trata programas como cidadãos de primeira classe para minimizar suas latências de ponta a ponta. O Autellix intercepta chamadas de LLMs enviadas por programas, enriquecendo os agendadores com contexto em nível de programa. Propomos dois algoritmos de agendamento — para programas de thread única e distribuídos — que preemptam e priorizam chamadas de LLMs com base nas chamadas previamente concluídas de seus programas. Nossa avaliação demonstra que, em diversos LLMs e cargas de trabalho agentes, o Autellix melhora a taxa de transferência de programas em 4 a 15 vezes na mesma latência em comparação com sistemas state-of-the-art, como o vLLM.
O Ajuste Fino Supervisionado (SFT, do inglês *Supervised Fine-Tuning*) tem sido um método eficaz e amplamente utilizado para aprimorar o raciocínio de cadeia longa de pensamento (CoT, do inglês *Chain-of-Thought*) em modelos de linguagem grandes (LLMs) relativamente pequenos, ajustando-os com respostas de CoT longas provenientes de LLMs maiores. Para melhorar continuamente as habilidades de raciocínio, podemos coletar novos dados de SFT de alta qualidade com raciocínios CoT longos ou treinar repetidamente com conjuntos de dados SFT existentes. No entanto, a aquisição de novos dados SFT com CoT longos é custosa e limitada, enquanto o treinamento repetido frequentemente resulta em um platô ou declínio no desempenho. Para impulsionar ainda mais o desempenho com os dados SFT, propomos o *Thinking Preference Optimization* (ThinkPO), um método pós-SFT simples, porém eficaz, que aprimora o raciocínio CoT longo sem exigir novas respostas de CoT longas. Em vez disso, o ThinkPO utiliza respostas de raciocínio CoT curtas, que estão prontamente disponíveis ou são facilmente obtidas, como respostas rejeitadas, e respostas de CoT longas como respostas escolhidas para a mesma pergunta. Em seguida, aplica a otimização direta de preferência para incentivar o modelo a favorecer saídas de raciocínio mais longas. Experimentos mostram que o ThinkPO melhora ainda mais o desempenho de raciocínio dos modelos ajustados com SFT, por exemplo, aumentando a precisão de raciocínio matemático em 8,6% e o comprimento da saída em 25,9%. Notavelmente, o ThinkPO é capaz de impulsionar continuamente o desempenho do modelo SFT destilado publicamente, por exemplo, aumentando o desempenho do modelo oficial DeepSeek-R1-Distill-Qwen-7B no MATH500 de 87,4% para 91,2%.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades impressionantes em domínios gerais, mas frequentemente enfrentam dificuldades em tarefas que exigem conhecimento especializado. As técnicas convencionais de Geração Aumentada por Recuperação (RAG) geralmente recuperam informações externas de bases de conhecimento estáticas, que podem estar desatualizadas ou incompletas, perdendo detalhes clínicos refinados essenciais para respostas precisas a perguntas médicas. Neste trabalho, propomos o SearchRAG, uma estrutura inovadora que supera essas limitações ao aproveitar motores de busca em tempo real. Nosso método emprega geração sintética de consultas para converter questões médicas complexas em consultas amigáveis a motores de busca e utiliza seleção de conhecimento baseada em incerteza para filtrar e incorporar o conhecimento médico mais relevante e informativo na entrada do LLM. Resultados experimentais demonstram que nosso método melhora significativamente a precisão das respostas em tarefas de questionamento médico, especialmente para perguntas complexas que exigem conhecimento detalhado e atualizado.
Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente o processamento de linguagem natural com capacidades excepcionais de generalização de tarefas. A Adaptação de Baixa Classificação (LoRA) oferece uma solução de ajuste fino econômica, congelando os parâmetros originais do modelo e treinando apenas matrizes adaptadoras leves e de baixa classificação. No entanto, a pegada de memória do LoRA é amplamente dominada pelos parâmetros originais do modelo. Para mitigar isso, propomos o LoRAM, um esquema de treinamento LoRA eficiente em memória, baseado na intuição de que muitos neurônios em LLMs superparametrizados têm baixa utilidade de treinamento, mas são essenciais para inferência. O LoRAM apresenta uma abordagem única: ele treina em um modelo podado (pequeno) para obter matrizes de baixa classificação podadas, que são então recuperadas e utilizadas com o modelo original (grande) para inferência. Além disso, um pré-treinamento contínuo de custo mínimo, realizado antecipadamente pelos publicadores do modelo, alinha a discrepância de conhecimento entre os modelos podados e originais. Nossos extensos experimentos demonstram a eficácia do LoRAM em várias estratégias de poda e tarefas subsequentes. Para um modelo com 70 bilhões de parâmetros, o LoRAM permite o treinamento em uma GPU com apenas 20G de HBM, substituindo uma GPU A100-80G para treinamento LoRA e 15 GPUs para ajuste fino completo. Especificamente, o QLoRAM, implementado por poda estruturada combinada com quantização de 4 bits, para o LLaMA-3.1-70B (LLaMA-2-70B), reduz o custo de armazenamento de parâmetros que domina o uso de memória no treinamento de matrizes de baixa classificação em 15,81 vezes (16,95 vezes), enquanto alcança ganhos de desempenho dominantes sobre o LLaMA-3.1-70B (LLaMA-2-70B) original e o LLaMA-3.1-8B (LLaMA-2-13B) treinado com LoRA.
Os nomes estão profundamente ligados à identidade humana. Eles podem servir como marcadores de individualidade, herança cultural e história pessoal. No entanto, usar nomes como um indicador central de identidade pode levar a uma simplificação excessiva de identidades complexas. Ao interagir com LLMs (Modelos de Linguagem de Grande Escala), os nomes dos usuários são um ponto importante de informação para personalização. Os nomes podem entrar nas conversas com chatbots por meio de entrada direta do usuário (solicitada pelos chatbots), como parte de contextos de tarefas, como revisões de currículos, ou como recursos de memória integrados que armazenam informações do usuário para personalização. Estudamos os vieses associados a nomes medindo as presunções culturais nas respostas geradas por LLMs quando apresentados a consultas comuns que buscam sugestões, o que pode envolver fazer suposições sobre o usuário. Nossas análises demonstram fortes suposições sobre identidade cultural associadas a nomes presentes nas gerações de LLMs em várias culturas. Nosso trabalho tem implicações para o design de sistemas de personalização mais sutis que evitem reforçar estereótipos, mantendo uma customização significativa.
O alinhamento de segurança de grandes modelos de linguagem (LLMs) permanece vulnerável, pois seu comportamento inicial pode ser facilmente comprometido por ataques relativamente simples. Como preencher um modelo fixo entre a instrução de entrada e a saída inicial do modelo é uma prática comum para os LLMs existentes, nossa hipótese é que esse modelo é um fator-chave por trás de suas vulnerabilidades: a tomada de decisões relacionadas à segurança dos LLMs depende excessivamente das informações agregadas da região do modelo, o que influencia significativamente o comportamento de segurança desses modelos. Referimo-nos a esse problema como alinhamento de segurança ancorado no modelo. Neste artigo, realizamos experimentos extensivos e verificamos que o alinhamento de segurança ancorado no modelo é generalizado em vários LLMs alinhados. Nossas análises mecanicistas demonstram como isso leva à suscetibilidade dos modelos ao encontrarem ataques de jailbreak durante a inferência. Além disso, mostramos que desvincular os mecanismos de segurança da região do modelo é promissor para mitigar vulnerabilidades a ataques de jailbreak. Incentivamos pesquisas futuras a desenvolver técnicas de alinhamento de segurança mais robustas que reduzam a dependência da região do modelo.
As abordagens atuais para treinar Modelos de Recompensa de Processo (PRMs) frequentemente envolvem a divisão de respostas em múltiplos passos de raciocínio usando técnicas baseadas em regras, como o uso de tokens de espaço reservado predefinidos ou a definição do comprimento do passo de raciocínio em um tamanho fixo. Essas abordagens ignoram o fato de que palavras específicas geralmente não marcam verdadeiros pontos de decisão em um texto. Para resolver isso, propomos o AdaptiveStep, um método que divide os passos de raciocínio com base na confiança do modelo em prever a próxima palavra. Esse método de divisão fornece mais informações de tomada de decisão em cada etapa, melhorando tarefas subsequentes, como o aprendizado de modelos de recompensa. Além disso, nosso método não requer anotação manual. Demonstramos sua eficácia por meio de experimentos com PRMs treinados com AdaptiveStep em tarefas de raciocínio matemático e geração de código. Os resultados experimentais indicam que o PRM resultante alcança desempenho Best-of-N de ponta, superando a estratégia de busca gulosa com decodificação guiada por valor em nível de token, ao mesmo tempo em que reduz os custos de construção em mais de 30% em comparação com PRMs de código aberto existentes. Além disso, fornecemos uma análise detalhada e um estudo de caso sobre o desempenho, transferibilidade e capacidades de generalização do PRM.
A geração de moléculas 3D é crucial para a descoberta de fármacos e o design de materiais. Embora esforços anteriores se concentrem em modelos de difusão 3D devido aos seus benefícios na modelagem de conformações 3D contínuas, eles negligenciam as vantagens dos modelos de linguagem (LMs) baseados em SELFIES 1D, que podem gerar moléculas 100% válidas e aproveitar conjuntos de dados de moléculas 1D em escala bilionária. Para combinar essas vantagens na geração de moléculas 3D, propomos um modelo de base -- NExT-Mol: Difusão 3D Encontra Modelagem de Linguagem 1D para Geração de Moléculas 3D. O NExT-Mol utiliza um LM de molécula extensivamente pré-treinado para a geração de moléculas 1D e, subsequentemente, prevê as conformações 3D da molécula gerada com um modelo de difusão 3D. Melhoramos o desempenho do NExT-Mol ao escalar o tamanho do modelo do LM, refinar a arquitetura neural de difusão e aplicar aprendizado de transferência de 1D para 3D. Notavelmente, nosso LM de molécula 1D supera significativamente as linhas de base em similaridade distribucional enquanto garante validade, e nosso modelo de difusão 3D alcança desempenhos líderes na previsão de conformações. Dadas essas melhorias na modelagem 1D e 3D, o NExT-Mol alcança uma melhoria relativa de 26% no FCD 3D para geração de novo 3D no GEOM-DRUGS e um ganho relativo médio de 13% para geração condicional 3D no QM9-2014. Nossos códigos e checkpoints pré-treinados estão disponíveis em https://github.com/acharkq/NExT-Mol.
Modelos de Linguagem de Grande Porte (LLMs) e Modelos de Linguagem Multimodal de Grande Porte (MLLMs) têm alcançado avanços significativos em capacidades de raciocínio. No entanto, eles ainda enfrentam desafios como altas demandas computacionais e preocupações com privacidade. Este artigo foca no desenvolvimento de Modelos de Linguagem Pequenos (SLMs) e Modelos de Linguagem Multimodal Pequenos (MSLMs) eficientes que mantêm habilidades de raciocínio competitivas. Introduzimos um pipeline de treinamento inovador que aprimora as capacidades de raciocínio e facilita a implantação em dispositivos de borda, alcançando desempenho de ponta enquanto minimiza os custos de desenvolvimento. O \InfR~ visa avançar os sistemas de IA ao melhorar o raciocínio, reduzir as barreiras de adoção e abordar preocupações com privacidade por meio de tamanhos de modelo menores. Recursos estão disponíveis em https://github.com/Reallm-Labs/InfiR.
O aprendizado de máquina, a base da inteligência artificial moderna, tem impulsionado inovações que transformaram fundamentalmente o mundo. No entanto, por trás desses avanços está um processo complexo e frequentemente tedioso, que exige iteração e experimentação intensivas em termos de mão de obra e poder computacional. Engenheiros e cientistas que desenvolvem modelos de aprendizado de máquina gastam grande parte do seu tempo em tarefas de tentativa e erro, em vez de conceber soluções inovadoras ou hipóteses de pesquisa. Para enfrentar esse desafio, apresentamos o AI-Driven Exploration (AIDE), um agente de engenharia de aprendizado de máquina impulsionado por modelos de linguagem de grande escala (LLMs). O AIDE enquadra a engenharia de aprendizado de máquina como um problema de otimização de código e formula a tentativa e erro como uma busca em árvore no espaço de soluções potenciais. Ao reutilizar e refinar estrategicamente soluções promissoras, o AIDE troca eficientemente recursos computacionais por desempenho aprimorado, alcançando resultados de ponta em diversos benchmarks de engenharia de aprendizado de máquina, incluindo nossas avaliações no Kaggle, o MLE-Bench da OpenAI e o RE-Bench do METRs.
Apresentamos o TESS 2, um modelo de linguagem de difusão geral que segue instruções e supera os modelos contemporâneos de difusão ajustados para instruções, além de igualar e, em alguns casos, exceder modelos autoregressivos (AR) robustos. Treinamos o TESS 2 primeiro adaptando um modelo AR robusto por meio de pré-treinamento contínuo com a entropia cruzada usual como função de perda de difusão, e depois realizando um ajuste adicional para instruções. Descobrimos que o treinamento de adaptação, assim como a escolha do modelo base, é crucial para treinar bons modelos de difusão que seguem instruções. Além disso, propomos a orientação por recompensa, um procedimento modular e inovador de orientação durante a inferência para alinhar as saídas do modelo sem a necessidade de treinar o modelo subjacente. Por fim, demonstramos que o TESS 2 melhora ainda mais com o aumento do poder computacional durante a inferência, destacando a utilidade dos modelos de linguagem de difusão em permitir um controle refinado sobre a quantidade de computação utilizada no momento da inferência. O código e os modelos estão disponíveis em https://github.com/hamishivi/tess-2.
A longo prazo, capacidades de diálogo em domínio aberto são essenciais para chatbots que visam recordar interações passadas e demonstrar inteligência emocional (IE). No entanto, a maioria das pesquisas existentes depende de dados sintéticos gerados por LLMs (Large Language Models), deixando questões em aberto sobre padrões conversacionais do mundo real. Para abordar essa lacuna, apresentamos o REALTALK, um corpus de 21 dias de diálogos autênticos de aplicativos de mensagens, fornecendo um benchmark direto contra interações humanas genuínas. Primeiro, realizamos uma análise do conjunto de dados, focando em atributos de IE e consistência de persona para entender os desafios únicos apresentados por diálogos do mundo real. Ao comparar com conversas geradas por LLMs, destacamos diferenças-chave, incluindo expressões emocionais diversas e variações na estabilidade da persona que diálogos sintéticos frequentemente não conseguem capturar. Com base nessas percepções, introduzimos duas tarefas de benchmark: (1) simulação de persona, em que um modelo continua uma conversa em nome de um usuário específico, dado o contexto de diálogo anterior; e (2) sondagem de memória, em que um modelo responde a perguntas direcionadas que exigem memória de longo prazo de interações passadas. Nossos resultados revelam que os modelos têm dificuldade em simular um usuário apenas com base no histórico de diálogo, enquanto o fine-tuning em chats específicos do usuário melhora a emulação da persona. Além disso, os modelos existentes enfrentam desafios significativos em recordar e aproveitar o contexto de longo prazo em conversas do mundo real.
O uso de Modelos de Linguagem de Grande Escala (LLMs) para avaliações de relevância oferece oportunidades promissoras para aprimorar a Recuperação de Informação (IR), o Processamento de Linguagem Natural (NLP) e áreas relacionadas. De fato, os LLMs têm o potencial de permitir que pesquisadores de IR construam coleções de avaliação com uma fração do trabalho manual humano atualmente necessário. Isso pode ser útil para tópicos emergentes sobre os quais ainda há conhecimento limitado e pode mitigar os desafios de avaliar sistemas de classificação em cenários de baixos recursos, onde é difícil encontrar anotadores humanos. Dado o rápido desenvolvimento recente nesse domínio, muitas questões sobre o uso de LLMs como avaliadores ainda precisam ser respondidas. Entre os aspectos que exigem investigação adicional, podemos citar o impacto de vários componentes em um pipeline de geração de julgamentos de relevância, como o prompt utilizado ou o LLM escolhido. Este artigo apresenta e relata os resultados de uma avaliação em larga escala de julgamentos de relevância automáticos, o desafio LLMJudge na SIGIR 2024, onde diferentes abordagens de avaliação de relevância foram propostas. Em detalhes, disponibilizamos e avaliamos 42 rótulos gerados por LLMs dos julgamentos de relevância da trilha de Aprendizado Profundo do TREC 2023, produzidos por oito equipes internacionais que participaram do desafio. Dada sua natureza diversa, esses julgamentos de relevância gerados automaticamente podem ajudar a comunidade não apenas a investigar vieses sistemáticos causados por LLMs, mas também a explorar a eficácia de modelos de ensemble, analisar as compensações entre diferentes modelos e avaliadores humanos, e avançar metodologias para melhorar técnicas de avaliação automatizada. O recurso liberado está disponível no seguinte link: https://llm4eval.github.io/LLMJudge-benchmark/
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais utilizados em ambientes de trabalho para uma ampla gama de tarefas, destacando-se na resolução de problemas individuais de forma isolada. No entanto, eles também são capazes de colaborar efetivamente em interações de longo prazo? Para investigar isso, apresentamos o MemoryCode, um conjunto de dados sintético multi-sessão projetado para testar a capacidade dos LLMs de rastrear e executar instruções simples de codificação em meio a informações irrelevantes, simulando um cenário realista. Embora todos os modelos testados lidem bem com instruções isoladas, até mesmo o desempenho de modelos de última geração como o GPT-4o se deteriora quando as instruções são distribuídas ao longo de várias sessões. Nossa análise sugere que isso se deve à incapacidade desses modelos de recuperar e integrar informações ao longo de cadeias de instruções longas. Nossos resultados destacam uma limitação fundamental dos LLMs atuais, restringindo sua capacidade de colaborar efetivamente em interações prolongadas.
A recomendação generativa (GR) é um paradigma emergente no qual as ações dos usuários são tokenizadas em padrões discretos de tokens e geradas de forma autoregressiva como previsões. No entanto, os modelos de GR existentes tokenizam cada ação de forma independente, atribuindo os mesmos tokens fixos a ações idênticas em todas as sequências, sem considerar as relações contextuais. Essa falta de consciência contextual pode levar a um desempenho subótimo, já que a mesma ação pode ter significados diferentes dependendo do contexto ao seu redor. Para resolver esse problema, propomos o ActionPiece, que incorpora explicitamente o contexto ao tokenizar sequências de ações. No ActionPiece, cada ação é representada como um conjunto de características de itens, que servem como tokens iniciais. Dado o corpus de sequências de ações, construímos o vocabulário mesclando padrões de características como novos tokens, com base em sua frequência de co-ocorrência tanto dentro de conjuntos individuais quanto entre conjuntos adjacentes. Considerando a natureza não ordenada dos conjuntos de características, introduzimos ainda a regularização de permutação de conjuntos, que produz múltiplas segmentações de sequências de ações com a mesma semântica. Experimentos em conjuntos de dados públicos demonstram que o ActionPiece supera consistentemente os métodos existentes de tokenização de ações, melhorando o NDCG@10 em 6,00% a 12,82%.
Alucinações nas saídas de modelos de linguagem de grande escala (LLMs) limitam severamente sua confiabilidade em tarefas que demandam conhecimento, como a resposta a perguntas. Para enfrentar esse desafio, apresentamos o REFIND (Retrieval-augmented Factuality hallucINation Detection), uma estrutura inovadora que detecta trechos alucinados nas saídas de LLMs ao utilizar diretamente documentos recuperados. Como parte do REFIND, propomos a Razão de Sensibilidade ao Contexto (CSR), uma nova métrica que quantifica a sensibilidade das saídas de LLMs em relação a evidências recuperadas. Essa abordagem inovadora permite que o REFIND detecte alucinações de forma eficiente e precisa, destacando-se em relação aos métodos existentes. Na avaliação, o REFIND demonstrou robustez em nove idiomas, incluindo cenários de baixos recursos, e superou significativamente os modelos de referência, alcançando pontuações IoU superiores na identificação de trechos alucinados. Este trabalho destaca a eficácia de quantificar a sensibilidade ao contexto para a detecção de alucinações, abrindo caminho para aplicações de LLMs mais confiáveis e seguras em diversos idiomas.
A resposta a perguntas de múltipla escolha (MCQA) é popular para a avaliação de modelos de linguagem de grande escala (LLMs) devido à sua simplicidade e semelhança com testes humanos, mas defendemos a sua reformulação. Primeiro, revelamos falhas no formato do MCQA, pois ele tem dificuldade em: 1) testar geração/subjetividade; 2) alinhar-se com os casos de uso de LLMs; e 3) testar completamente o conhecimento. Em vez disso, defendemos formatos generativos baseados em testes humanos, onde os LLMs constroem e explicam respostas, capturando melhor as necessidades dos usuários e o conhecimento, enquanto permanecem fáceis de pontuar. Em seguida, mostramos que, mesmo quando o MCQA é um formato útil, seus conjuntos de dados sofrem com: vazamento; impossibilidade de resposta; atalhos; e saturação. Para cada problema, apresentamos soluções inspiradas na educação, como rubricas para orientar a criação de questões de múltipla escolha; métodos de pontuação para controlar o chute; e a Teoria de Resposta ao Item para criar questões mais desafiadoras. Por fim, discutimos os erros dos LLMs no MCQA—robustez, vieses e explicações infiéis—mostrando como nossas soluções anteriores medem ou abordam melhor esses problemas. Embora não seja necessário abandonar o MCQA, incentivamos mais esforços no refinamento da tarefa com base em testes educacionais, avançando as avaliações.
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) recentemente ganharam atenção devido ao seu desempenho distintivo e ampla aplicabilidade. Embora já tenha sido demonstrado que sua eficácia em cenários de uso envolvendo contextos não ocidentais é limitada, os estudos existentes são restritos em escopo, abrangendo apenas um pequeno conjunto de culturas, focando exclusivamente em um número reduzido de aspectos culturais ou avaliando uma seleção limitada de modelos em uma única tarefa. Em direção a uma pesquisa de LVLMs globalmente inclusiva, introduzimos o GIMMICK, um benchmark multimodal extensivo projetado para avaliar um amplo espectro de conhecimento cultural em 144 países representando seis macrorregiões globais. O GIMMICK compreende seis tarefas construídas sobre três novos conjuntos de dados que abrangem 728 eventos ou facetas culturais únicos, nos quais avaliamos 20 LVLMs e 11 LLMs, incluindo cinco modelos proprietários e 26 modelos de código aberto de todos os tamanhos. Examinamos sistematicamente (1) vieses culturais regionais, (2) a influência do tamanho do modelo, (3) modalidades de entrada e (4) pistas externas. Nossas análises revelam fortes vieses em direção a culturas ocidentais entre modelos e tarefas e destacam fortes correlações entre o tamanho do modelo e o desempenho, bem como a eficácia da entrada multimodal e de pistas geográficas externas. Além disso, descobrimos que os modelos têm mais conhecimento sobre aspectos tangíveis do que intangíveis (por exemplo, comida vs. rituais) e que se destacam em reconhecer origens culturais amplas, mas lutam para compreender nuances mais específicas.
Os benchmarks multilingues existentes para visão e linguagem (VL) geralmente cobrem apenas um punhado de idiomas. Consequentemente, as avaliações de modelos de visão e linguagem de grande escala (LVLMs) focam predominantemente em idiomas de alto recurso, destacando a necessidade de dados de avaliação para idiomas de baixo recurso. Para abordar essa limitação, introduzimos o MVL-SIB, um benchmark de visão e linguagem massivamente multilíngue que avalia tanto a correspondência temática intermodal quanto apenas textual em 205 idiomas — mais de 100 a mais do que os benchmarks VL multilíngues existentes mais abrangentes. Em seguida, avaliamos uma variedade de LVLMs de peso aberto, juntamente com o GPT-4o(-mini), no MVL-SIB. Nossos resultados revelam que os LVLMs têm dificuldades na correspondência temática intermodal em idiomas de baixo recurso, apresentando desempenho não melhor que o acaso em idiomas como o N'Koo. Nossa análise ainda revela que o suporte VL nos LVLMs diminui desproporcionalmente em relação ao suporte textual para idiomas de baixo recurso, conforme evidenciado pela comparação do desempenho na correspondência temática intermodal e apenas textual. Além disso, observamos que os LVLMs de peso aberto não se beneficiam da representação de um tópico com mais de uma imagem, sugerindo que esses modelos ainda não são totalmente eficazes no manuseio de tarefas com múltiplas imagens. Ao correlacionar o desempenho no MVL-SIB com outros benchmarks VL multilingues, destacamos que o MVL-SIB serve como uma sonda abrangente para o entendimento multilingue de VL em LVLMs.
Apesar dos avanços recentes em Síntese de Novas Visões (NVS), a geração de visões de alta fidelidade a partir de observações únicas ou esparsas continua sendo um desafio significativo. As abordagens baseadas em splatting existentes frequentemente produzem geometria distorcida devido a erros de splatting. Enquanto métodos baseados em difusão aproveitam priors 3D ricos para alcançar geometria melhorada, eles frequentemente sofrem com alucinação de textura. Neste artigo, apresentamos o SplatDiff, um modelo de difusão de vídeo guiado por pixel-splatting projetado para sintetizar novas visões de alta fidelidade a partir de uma única imagem. Especificamente, propomos uma estratégia de síntese alinhada para controle preciso de pontos de vista alvo e síntese de visão consistente em geometria. Para mitigar a alucinação de textura, projetamos um módulo de ponte de textura que permite a geração de textura de alta fidelidade por meio de fusão adaptativa de características. Dessa forma, o SplatDiff aproveita os pontos fortes do splatting e da difusão para gerar novas visões com geometria consistente e detalhes de alta fidelidade. Experimentos extensivos verificam o desempenho de ponta do SplatDiff em NVS de visão única. Além disso, sem treinamento adicional, o SplatDiff demonstra um desempenho notável em tarefas diversas, incluindo NVS de visão esparsa e conversão de vídeo estéreo.
A adaptação de domínio heterogêneo semi-supervisionada (SHDA, do inglês Semi-supervised Heterogeneous Domain Adaptation) aborda o aprendizado entre domínios com representações de características e distribuições distintas, onde as amostras da fonte são rotuladas, enquanto a maioria das amostras do destino não possui rótulos, com apenas uma pequena fração rotulada. Além disso, não há uma correspondência um-para-um entre as amostras da fonte e do destino. Embora diversos métodos de SHDA tenham sido desenvolvidos para lidar com esse problema, a natureza do conhecimento transferido entre domínios heterogêneos permanece pouco clara. Este artigo investiga essa questão a partir de uma perspectiva empírica. Realizamos experimentos extensivos em cerca de 330 tarefas de SHDA, empregando dois métodos de aprendizado supervisionado e sete métodos representativos de SHDA. Surpreendentemente, nossas observações indicam que tanto a categoria quanto as informações das características das amostras da fonte não impactam significativamente o desempenho no domínio de destino. Além disso, ruídos extraídos de distribuições simples, quando usados como amostras da fonte, podem conter conhecimento transferível. Com base nessa percepção, realizamos uma série de experimentos para desvendar os princípios subjacentes do conhecimento transferível em SHDA. Especificamente, projetamos uma Estrutura Unificada de Transferência de Conhecimento (KTF, do inglês Knowledge Transfer Framework) para SHDA. Com base na KTF, descobrimos que o conhecimento transferível em SHDA deriva principalmente da transferibilidade e da discriminabilidade do domínio de origem. Consequentemente, garantir essas propriedades nas amostras da fonte, independentemente de sua origem (por exemplo, imagem, texto, ruído), pode melhorar a eficácia da transferência de conhecimento em tarefas de SHDA. Os códigos e conjuntos de dados estão disponíveis em https://github.com/yyyaoyuan/SHDA.
A capacidade de gerar consultas SPARQL a partir de perguntas em linguagem natural é crucial para garantir a recuperação eficiente e precisa de dados estruturados de grafos de conhecimento (KG). Embora os modelos de linguagem de grande escala (LLMs) tenham sido amplamente adotados para a geração de consultas SPARQL, eles frequentemente são suscetíveis a alucinações e erros fora da distribuição ao produzir elementos de KG, como Identificadores de Recursos Uniformes (URIs), com base em conhecimento paramétrico interno. Isso frequentemente resulta em conteúdo que parece plausível, mas é factualmente incorreto, apresentando desafios significativos para seu uso em aplicações de recuperação de informação (IR) do mundo real. Isso levou a um aumento nas pesquisas voltadas para detectar e mitigar tais erros. Neste artigo, apresentamos o PGMR (Post-Generation Memory Retrieval), um framework modular que incorpora um módulo de memória não paramétrico para recuperar elementos de KG e aprimorar a geração de consultas SPARQL baseada em LLMs. Nossos resultados experimentais indicam que o PGMR consistentemente oferece um desempenho robusto em diversos conjuntos de dados, distribuições de dados e LLMs. Notavelmente, o PGMR mitiga significativamente as alucinações de URIs, quase eliminando o problema em vários cenários.