Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Meta MLGym e o MLGym-Bench, um novo framework e benchmark para avaliar e desenvolver agentes de LLM (Large Language Models) em tarefas de pesquisa em IA. Este é o primeiro ambiente Gym para tarefas de aprendizado de máquina (ML), permitindo pesquisas sobre algoritmos de aprendizado por reforço (RL) para o treinamento desses agentes. O MLGym-Bench consiste em 13 tarefas diversas e abertas de pesquisa em IA, abrangendo domínios como visão computacional, processamento de linguagem natural, aprendizado por reforço e teoria dos jogos. A resolução dessas tarefas exige habilidades reais de pesquisa em IA, como gerar novas ideias e hipóteses, criar e processar dados, implementar métodos de ML, treinar modelos, executar experimentos, analisar os resultados e iterar esse processo para melhorar uma tarefa específica. Avaliamos diversos modelos de linguagem de ponta (LLMs) em nossos benchmarks, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Nosso framework MLGym facilita a adição de novas tarefas, a integração e avaliação de modelos ou agentes, a geração de dados sintéticos em escala, bem como o desenvolvimento de novos algoritmos de aprendizado para treinar agentes em tarefas de pesquisa em IA. Constatamos que os modelos de ponta atuais podem melhorar as linhas de base fornecidas, geralmente ao encontrar hiperparâmetros melhores, mas não geram hipóteses, algoritmos, arquiteturas ou melhorias substanciais inéditas. Disponibilizamos nosso framework e benchmark em código aberto para facilitar pesquisas futuras no avanço das capacidades de pesquisa em IA de agentes baseados em LLM.
Apresentamos o SigLIP 2, uma família de novos codificadores visão-linguagem multilingues que se baseiam no sucesso do SigLIP original. Nesta segunda iteração, estendemos o objetivo original de treinamento imagem-texto com várias técnicas previamente desenvolvidas de forma independente, integrando-as em uma receita unificada -- isso inclui pré-treinamento baseado em legendagem, perdas auto-supervisionadas (auto-distilação, predição mascarada) e curadoria de dados online. Com essas mudanças, os modelos SigLIP 2 superam suas contrapartes do SigLIP em todas as escalas de modelo em capacidades essenciais, incluindo classificação zero-shot, recuperação imagem-texto e desempenho de transferência ao extrair representações visuais para Modelos de Visão-Linguagem (VLMs). Além disso, a nova receita de treinamento leva a melhorias significativas em tarefas de localização e predição densa. Também treinamos variantes que suportam múltiplas resoluções e preservam a proporção de aspecto nativa da entrada. Por fim, treinamos com uma mistura de dados mais diversificada que inclui técnicas de redução de viés, resultando em uma compreensão multilingue muito melhor e em maior equidade. Para permitir que os usuários façam uma troca entre custo de inferência e desempenho, lançamos checkpoints de modelo em quatro tamanhos: ViT-B (86M), L (303M), So400m (400M) e g (1B).
Modelos de linguagem de grande escala (LLMs) demonstraram proficiência notável em disciplinas acadêmicas convencionais, como matemática, física e ciência da computação. No entanto, o conhecimento humano abrange mais de 200 disciplinas especializadas, excedendo em muito o escopo dos benchmarks existentes. As capacidades dos LLMs em muitos desses campos especializados - particularmente na indústria leve, agricultura e disciplinas orientadas a serviços - permanecem insuficientemente avaliadas. Para abordar essa lacuna, apresentamos o SuperGPQA, um benchmark abrangente que avalia o conhecimento e as capacidades de raciocínio em nível de pós-graduação em 285 disciplinas. Nosso benchmark emprega um mecanismo inovador de filtragem colaborativa Humano-LLM para eliminar perguntas triviais ou ambíguas por meio de refinamento iterativo com base tanto nas respostas dos LLMs quanto no feedback de especialistas. Nossos resultados experimentais revelam uma margem significativa de melhoria no desempenho dos LLMs state-of-the-art atuais em diversos domínios de conhecimento (por exemplo, o modelo focado em raciocínio DeepSeek-R1 alcançou a maior precisão de 61,82% no SuperGPQA), destacando a considerável lacuna entre as capacidades atuais dos modelos e a inteligência artificial geral. Além disso, apresentamos insights abrangentes de nossa gestão de um processo de anotação em larga escala, envolvendo mais de 80 anotadores especialistas e um sistema interativo de colaboração Humano-LLM, oferecendo orientações metodológicas valiosas para futuras iniciativas de pesquisa de escopo comparável.
O desempenho dos Modelos de Linguagem de Grande Escala (LLMs) em muitas tarefas é significativamente limitado pelo conhecimento aprendido durante o pré-treinamento e armazenado nos parâmetros do modelo. A adaptação de baixo posto (LoRA) é uma técnica de treinamento popular e eficiente para atualização ou adaptação específica de domínio de LLMs. Neste estudo, investigamos como novos fatos podem ser incorporados ao LLM usando LoRA sem comprometer o conhecimento previamente aprendido. Ajustamos o modelo Llama-3.1-8B-instruct usando LoRA com quantidades variáveis de novos conhecimentos. Nossos experimentos mostraram que os melhores resultados são obtidos quando os dados de treinamento contêm uma mistura de fatos conhecidos e novos. No entanto, essa abordagem ainda é potencialmente prejudicial, pois o desempenho do modelo em benchmarks externos de resposta a perguntas diminui após esse ajuste fino. Quando os dados de treinamento são tendenciosos em relação a certas entidades, o modelo tende a regredir para algumas respostas super-representadas. Além disso, descobrimos que o modelo se torna mais confiante e se recusa a fornecer uma resposta em apenas alguns casos. Essas descobertas destacam as possíveis armadilhas das atualizações de LLMs baseadas em LoRA e enfatizam a importância da composição dos dados de treinamento e dos parâmetros de ajuste para equilibrar a integração de novos conhecimentos e as capacidades gerais do modelo.
O aumento do poder computacional durante o teste para LLMs mostra-se promissor em diversos domínios, mas permanece pouco explorado na geração de código, apesar dos extensos estudos em matemática. Neste artigo, propomos S*, o primeiro framework híbrido de escalonamento em tempo de teste que melhora substancialmente a cobertura e a precisão de seleção do código gerado. S* estende o paradigma de escalonamento paralelo existente com escalonamento sequencial para expandir os limites de desempenho. Além disso, ele aproveita um novo mecanismo de seleção que gera entradas diferenciadoras de forma adaptativa para comparação pareada, combinado com informações fundamentadas na execução para identificar robustamente soluções corretas. Avaliamos 12 Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Raciocínio de Grande Escala e mostramos: (1) S* melhora consistentemente o desempenho em diferentes famílias e tamanhos de modelos, permitindo que um modelo de 3B supere o GPT-4o-mini; (2) S* permite que modelos não especializados em raciocínio superem modelos de raciocínio - o GPT-4o-mini com S* supera o o1-preview em 3,7% no LiveCodeBench; (3) S* impulsiona ainda mais os modelos de raciocínio state-of-the-art - o DeepSeek-R1-Distill-Qwen-32B com S* alcança 85,7% no LiveCodeBench, aproximando-se do o1 (alto) com 88,5%. O código estará disponível em https://github.com/NovaSky-AI/SkyThought.
Inspirados pelo sucesso do DeepSeek-R1, exploramos o potencial do aprendizado por reforço baseado em regras (RL) em modelos de raciocínio em larga escala. Para analisar a dinâmica do raciocínio, utilizamos quebra-cabeças lógicos sintéticos como dados de treinamento devido à sua complexidade controlável e verificação direta das respostas. Realizamos algumas contribuições técnicas fundamentais que levam a um treinamento de RL eficaz e estável: um prompt de sistema que enfatiza o processo de pensamento e resposta, uma função de recompensa de formato rigorosa que penaliza saídas por atalhos, e uma receita de treinamento direta que alcança convergência estável. Nosso modelo de 7B desenvolve habilidades avançadas de raciocínio—como reflexão, verificação e sumarização—que estão ausentes do corpus lógico. Notavelmente, após o treinamento em apenas 5 mil problemas lógicos, ele demonstra habilidades de generalização para os desafiadores benchmarks matemáticos AIME e AMC.
A realização da computação quântica tolerante a falhas e escalável espera-se que dependa de códigos de correção de erros quânticos. Na busca por uma tolerância a falhas quântica mais eficiente, um parâmetro crítico do código é o peso das medições que extraem informações sobre os erros para permitir a correção de erros: como pesos de medição mais altos exigem custos de implementação mais elevados e introduzem mais erros, é importante no projeto de códigos otimizar o peso das medições. Isso fundamenta o crescente interesse em códigos quânticos de verificação de paridade de baixa densidade (qLDPC), cujo estudo tem se concentrado principalmente nas propriedades assintóticas (limite de códigos grandes). Neste trabalho, introduzimos uma abordagem versátil e computacionalmente eficiente para a redução de peso de códigos estabilizadores baseada em aprendizado por reforço (RL), que produz novos códigos de baixo peso que superam substancialmente o estado da arte em regimes de parâmetros praticamente relevantes, estendendo-se significativamente além das pequenas distâncias anteriormente acessíveis. Por exemplo, nossa abordagem demonstra economias na sobrecarga de qubits físicos em comparação com os resultados existentes por 1 a 2 ordens de magnitude para códigos de peso 6 e traz a sobrecarga para uma faixa viável para experimentos no futuro próximo. Também investigamos a interação entre os parâmetros do código usando nossa estrutura de RL, oferecendo novos insights sobre a eficiência e o poder potencial de estratégias de codificação praticamente viáveis. No geral, nossos resultados demonstram como o RL pode avançar efetivamente o problema crucial, mas desafiador, da descoberta de códigos quânticos e, assim, facilitar um caminho mais rápido para a implementação prática de tecnologias quânticas tolerantes a falhas.
Estudos recentes demonstraram a eficácia do escalonamento de LLMs (Large Language Models) durante o teste. No entanto, as abordagens existentes para incentivar as habilidades de pensamento profundo dos LLMs geralmente exigem dados em grande escala ou esforços significativos de treinamento. Enquanto isso, ainda não está claro como melhorar as habilidades de pensamento de modelos base menos poderosos. Neste trabalho, apresentamos o S^2R, um framework eficiente que aprimora o raciocínio dos LLMs ao ensinar os modelos a se auto-verificar e se auto-corrigir durante a inferência. Especificamente, primeiro inicializamos os LLMs com comportamentos iterativos de auto-verificação e auto-correção por meio de ajuste fino supervisionado em dados cuidadosamente selecionados. As habilidades de auto-verificação e auto-correção são então ainda mais fortalecidas por meio de aprendizado por reforço tanto no nível de resultado quanto no nível de processo, com requisitos de recursos minimizados, permitindo que o modelo refine adaptativamente seu processo de raciocínio durante a inferência. Nossos resultados demonstram que, com apenas 3.1 mil amostras de inicialização de comportamentos de auto-verificação e auto-correção, o Qwen2.5-math-7B alcança uma melhoria de precisão de 51,0% para 81,6%, superando modelos treinados com uma quantidade equivalente de dados destilados de long-CoT. Experimentos extensivos e análises baseadas em três modelos base, tanto em benchmarks dentro do domínio quanto fora dele, validam a eficácia do S^2R. Nosso código e dados estão disponíveis em https://github.com/NineAbyss/S2R.
Embora a capacidade dos modelos de linguagem de elicitar fatos tenha sido amplamente investigada, como eles lidam com fatos que mudam ao longo do tempo permanece pouco explorado. Descobrimos as Temporal Heads, cabeças de atenção específicas responsáveis principalmente pelo processamento de conhecimento temporal por meio de análise de circuitos. Confirmamos que essas cabeças estão presentes em vários modelos, embora suas localizações específicas possam variar, e suas respostas diferem dependendo do tipo de conhecimento e dos anos correspondentes. Desabilitar essas cabeças degrada a capacidade do modelo de recordar conhecimento específico de tempo, mantendo suas capacidades gerais sem comprometer o desempenho em tarefas invariantes no tempo e de resposta a perguntas. Além disso, as cabeças são ativadas não apenas por condições numéricas ("Em 2004"), mas também por aliases textuais ("No ano de ..."), indicando que elas codificam uma dimensão temporal que vai além de uma simples representação numérica. Adicionalmente, expandimos o potencial de nossas descobertas demonstrando como o conhecimento temporal pode ser editado ajustando os valores dessas cabeças.
Os modelos de visão e linguagem de grande escala (LVLMs) existentes podem processar entradas com contextos de até 128 mil tokens visuais e textuais, mas enfrentam dificuldades para gerar saídas coerentes além de 1.000 palavras. Descobrimos que a principal limitação é a ausência de exemplos de saídas longas durante o ajuste fino supervisionado (SFT). Para resolver esse problema, introduzimos o LongWriter-V-22k, um conjunto de dados SFT composto por 22.158 exemplos, cada um com múltiplas imagens de entrada, uma instrução e saídas correspondentes variando de 0 a 10.000 palavras. Além disso, para alcançar saídas longas que mantenham alta fidelidade às imagens de entrada, aplicamos a Otimização de Preferência Direta (DPO) ao modelo SFT. Dado o alto custo de coletar feedback humano para saídas extensas (por exemplo, 3.000 palavras), propomos o IterDPO, que divide saídas longas em segmentos e usa correções iterativas para formar pares de preferência com as saídas originais. Adicionalmente, desenvolvemos o MMLongBench-Write, um benchmark com seis tarefas para avaliar as capacidades de geração longa de VLMs. Nosso modelo de 7B de parâmetros, treinado com LongWriter-V-22k e IterDPO, alcança um desempenho impressionante nesse benchmark, superando modelos proprietários maiores, como o GPT-4o. Código e dados: https://github.com/THU-KEG/LongWriter-V
No campo de agentes de interface gráfica baseados em MLLM, em comparação com smartphones, o cenário de PC não apenas apresenta um ambiente interativo mais complexo, mas também envolve fluxos de trabalho intra e inter aplicativos mais intrincados. Para abordar esses problemas, propomos uma estrutura de agente hierárquica chamada PC-Agent. Especificamente, do ponto de vista da percepção, desenvolvemos um Módulo de Percepção Ativa (APM) para superar as capacidades inadequadas dos MLLMs atuais em perceber o conteúdo de capturas de tela. Do ponto de vista da tomada de decisão, para lidar de forma mais eficaz com instruções complexas do usuário e subtarefas interdependentes, propomos uma arquitetura de colaboração multiagente hierárquica que decompõe os processos de tomada de decisão em níveis de Instrução-Subtarefa-Ação. Dentro dessa arquitetura, três agentes (ou seja, Gerente, Progresso e Decisão) são configurados para decomposição de instruções, acompanhamento de progresso e tomada de decisão passo a passo, respectivamente. Além disso, um agente de Reflexão é adotado para permitir feedback e ajuste de erros de baixo para cima em tempo hábil. Também introduzimos um novo benchmark chamado PC-Eval com 25 instruções complexas do mundo real. Os resultados empíricos no PC-Eval mostram que nosso PC-Agent alcança uma melhoria absoluta de 32% na taxa de sucesso de tarefas em relação aos métodos state-of-the-art anteriores. O código estará publicamente disponível.
O ritmo de evolução dos Modelos de Linguagem de Grande Escala (LLMs) exige novas abordagens para avaliações rigorosas e abrangentes. A anotação humana tradicional torna-se cada vez mais impraticável devido às complexidades e custos envolvidos na geração de problemas desafiadores e de alta qualidade. Neste trabalho, apresentamos o CHASE, um framework unificado para gerar sinteticamente problemas desafiadores usando LLMs sem envolvimento humano. Para uma determinada tarefa, nossa abordagem constrói um problema difícil de maneira ascendente, a partir de componentes mais simples. Além disso, nosso framework decompõe o processo de geração em sub-tarefas independentemente verificáveis, garantindo assim um alto nível de qualidade e correção. Implementamos o CHASE para criar benchmarks de avaliação em três domínios diversos: (1) questionamento baseado em documentos, (2) conclusão de código em nível de repositório e (3) raciocínio matemático. O desempenho dos LLMs de última geração nesses benchmarks sintéticos varia entre 40-60% de precisão, demonstrando assim a eficácia do nosso framework na geração de problemas desafiadores. Disponibilizamos publicamente nossos benchmarks e código.
A personalização de modelos generativos de texto para imagem tem apresentado avanços notáveis, mas estender essa personalização para modelos de texto para vídeo apresenta desafios únicos. Diferente de conceitos estáticos, a personalização de modelos de texto para vídeo tem o potencial de capturar conceitos dinâmicos, ou seja, entidades definidas não apenas por sua aparência, mas também por seu movimento. Neste artigo, introduzimos Set-and-Sequence, uma nova estrutura para personalizar modelos generativos de vídeo baseados em Transformadores de Difusão (DiTs) com conceitos dinâmicos. Nossa abordagem impõe um espaço de pesos espaço-temporal dentro de uma arquitetura que não separa explicitamente características espaciais e temporais. Isso é alcançado em duas etapas principais. Primeiro, ajustamos finamente camadas de Adaptação de Baixa Ordem (LoRA) usando um conjunto não ordenado de quadros do vídeo para aprender uma base LoRA de identidade que representa a aparência, livre de interferência temporal. Na segunda etapa, com as LoRAs de identidade congeladas, aumentamos seus coeficientes com Residuais de Movimento e os ajustamos finamente na sequência completa do vídeo, capturando a dinâmica do movimento. Nossa estrutura Set-and-Sequence resulta em um espaço de pesos espaço-temporal que efetivamente incorpora conceitos dinâmicos no domínio de saída do modelo de vídeo, permitindo uma editabilidade e composicionalidade sem precedentes, ao mesmo tempo que estabelece um novo padrão para a personalização de conceitos dinâmicos.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades impressionantes no processamento de linguagem, mas frequentemente enfrentam dificuldades em tarefas que exigem raciocínio visual espacial genuíno. Neste artigo, introduzimos uma nova estrutura de treinamento em duas etapas projetada para equipar LLMs padrão com habilidades de raciocínio visual para navegação em labirintos. Primeiro, utilizamos o Ajuste Fino Supervisionado (SFT) em um conjunto de dados curado de representações tokenizadas de labirintos para ensinar o modelo a prever comandos de movimento passo a passo. Em seguida, aplicamos a Otimização de Política Relativa em Grupo (GRPO) — uma técnica usada no DeepSeekR1 — com uma função de recompensa cuidadosamente elaborada para refinar a tomada de decisão sequencial do modelo e incentivar comportamentos emergentes de cadeia de pensamento. Resultados experimentais em labirintos gerados sinteticamente mostram que, enquanto um modelo de linha de base falha em navegar pelo labirinto, o modelo treinado com SFT alcança 86% de precisão, e o ajuste fino adicional com GRPO aumenta a precisão para 93%. Análises qualitativas revelam que o GRPO promove um raciocínio mais robusto e autocorretivo, destacando o potencial de nossa abordagem para preencher a lacuna entre modelos de linguagem e tarefas de raciocínio visual espacial. Essas descobertas oferecem implicações promissoras para aplicações em robótica, navegação autônoma e outros domínios que exigem raciocínio visual e sequencial integrado.
Modelos de linguagem de grande escala (LLMs) demonstraram um potencial notável no processamento de sequências longas, mas a eficiência no atendimento desses modelos de contexto longo continua sendo um desafio devido à complexidade computacional quadrática da atenção na etapa de pré-preenchimento e à grande pegada de memória do cache KV na etapa de decodificação. Para abordar esses problemas, introduzimos o LServe, um sistema eficiente que acelera o atendimento de LLMs de sequência longa por meio de atenção esparsa híbrida. Esse método unifica diferentes padrões de esparsidade estruturada, amigáveis ao hardware, para a atenção tanto no pré-preenchimento quanto na decodificação, em um único framework, onde os cálculos em tokens menos importantes são pulados em blocos. O LServe demonstra a compatibilidade da esparsidade estática e dinâmica na atenção de LLMs de contexto longo. Esse design permite acelerações multiplicativas ao combinar essas otimizações. Especificamente, convertemos metade das cabeças de atenção em cabeças de streaming quase gratuitas tanto na etapa de pré-preenchimento quanto na de decodificação. Além disso, descobrimos que apenas um número constante de páginas KV é necessário para preservar as capacidades de contexto longo, independentemente do comprimento do contexto. Em seguida, projetamos uma política hierárquica de seleção de páginas KV que poda dinamicamente as páginas KV com base na similaridade centrada na consulta. Em média, o LServe acelera o pré-preenchimento de LLMs em até 2,9x e a decodificação em 1,3-2,1x em relação ao vLLM, mantendo a precisão de contexto longo. O código está disponível em https://github.com/mit-han-lab/omniserve.
Raciocinar sobre imagens com texto rico, como gráficos e documentos, é uma aplicação crítica dos modelos de visão e linguagem (VLMs). No entanto, os VLMs frequentemente enfrentam dificuldades nesses domínios devido à escassez de dados diversos e ricos em texto no contexto de visão e linguagem. Para enfrentar esse desafio, apresentamos o CoSyn, um framework que aproveita as capacidades de codificação de modelos de linguagem grandes (LLMs) baseados apenas em texto para criar automaticamente dados multimodais sintéticos ricos em texto. Dado um texto de entrada que descreve um domínio alvo (por exemplo, "rótulos de informações nutricionais"), o CoSyn solicita que um LLM gere código (Python, HTML, LaTeX, etc.) para renderizar imagens sintéticas. Com o código subjacente como representações textuais das imagens sintéticas, o CoSyn pode gerar dados de ajuste de instrução de alta qualidade, novamente dependendo de um LLM baseado apenas em texto. Usando o CoSyn, construímos um conjunto de dados composto por 400 mil imagens e 2,7 milhões de linhas de dados de ajuste de instrução de visão e linguagem. Experimentos abrangentes em sete benchmarks demonstram que modelos treinados com nossos dados sintéticos alcançam desempenho de ponta entre modelos competitivos de código aberto, incluindo o Llama 3.2, e superam modelos proprietários como o GPT-4V e o Gemini 1.5 Flash. Além disso, o CoSyn pode produzir dados sintéticos de apontamento, permitindo que os VLMs fundamentem informações dentro das imagens de entrada, mostrando seu potencial para desenvolver agentes multimodais capazes de agir em ambientes do mundo real.
Nossa capacidade de adquirir, organizar e aproveitar o conhecimento de forma contínua é uma característica fundamental da inteligência humana que os sistemas de IA precisam aproximar para desbloquear todo o seu potencial. Diante dos desafios no aprendizado contínuo com modelos de linguagem de grande escala (LLMs, na sigla em inglês), a geração aumentada por recuperação (RAG, na sigla em inglês) tornou-se a principal forma de introduzir novas informações. No entanto, sua dependência da recuperação vetorial dificulta sua capacidade de imitar a natureza dinâmica e interconectada da memória de longo prazo humana. Abordagens recentes de RAG aumentam os embeddings vetoriais com várias estruturas, como grafos de conhecimento, para abordar algumas dessas lacunas, especificamente a compreensão contextual e a associatividade. No entanto, seu desempenho em tarefas mais básicas de memória factual cai consideravelmente abaixo do RAG padrão. Nós abordamos essa deterioração não intencional e propomos o HippoRAG 2, um framework que supera o RAG padrão de forma abrangente em tarefas de memória factual, compreensão contextual e associativa. O HippoRAG 2 se baseia no algoritmo PageRank Personalizado usado no HippoRAG e o aprimora com uma integração mais profunda de passagens e um uso mais eficiente online de um LLM. Essa combinação aproxima esse sistema RAG da eficácia da memória de longo prazo humana, alcançando uma melhoria de 7% em tarefas de memória associativa em relação ao modelo de embedding state-of-the-art, além de exibir capacidades superiores de conhecimento factual e memória de compreensão contextual. Este trabalho abre caminho para o aprendizado contínuo não paramétrico para LLMs. Nosso código e dados serão disponibilizados em https://github.com/OSU-NLP-Group/HippoRAG.
O Diffusion Transformer desempenha um papel fundamental no avanço da geração de texto para imagem e texto para vídeo, principalmente devido à sua escalabilidade inerente. No entanto, os métodos existentes de controle de difusão em transformers acarretam um custo significativo em termos de parâmetros e computação, além de sofrerem com uma alocação ineficiente de recursos devido à falta de consideração da relevância variável das informações de controle em diferentes camadas do transformer. Para resolver isso, propomos o framework de Geração Controlada Eficiente Guiada por Relevância, RelaCtrl, que permite a integração eficiente e otimizada de recursos de sinais de controle no Diffusion Transformer. Primeiro, avaliamos a relevância de cada camada do Diffusion Transformer em relação às informações de controle, calculando a "Pontuação de Relevância do ControlNet" — ou seja, o impacto de pular cada camada de controle tanto na qualidade da geração quanto na eficácia do controle durante a inferência. Com base na força da relevância, ajustamos o posicionamento, a escala de parâmetros e a capacidade de modelagem das camadas de controle para reduzir parâmetros desnecessários e computações redundantes. Além disso, para melhorar ainda mais a eficiência, substituímos o self-attention e o FFN no bloco de cópia comumente usado pelo Two-Dimensional Shuffle Mixer (TDSM), projetado cuidadosamente, permitindo uma implementação eficiente tanto do token mixer quanto do channel mixer. Resultados experimentais qualitativos e quantitativos demonstram que nossa abordagem alcança um desempenho superior com apenas 15% dos parâmetros e complexidade computacional em comparação com o PixArt-delta. Mais exemplos estão disponíveis em https://relactrl.github.io/RelaCtrl/.
A geo-localização de imagens é a tarefa de prever a localização específica de uma imagem e requer raciocínio complexo em contextos visuais, geográficos e culturais. Embora os modelos de visão e linguagem (VLMs) anteriores tenham a melhor precisão nessa tarefa, há uma escassez de conjuntos de dados e modelos de alta qualidade para raciocínio analítico. Primeiro, criamos o NaviClues, um conjunto de dados de alta qualidade derivado do GeoGuessr, um popular jogo de geografia, para fornecer exemplos de raciocínio especializado a partir da linguagem. Usando esse conjunto de dados, apresentamos o Navig, um framework abrangente de geo-localização de imagens que integra informações globais e detalhadas da imagem. Ao raciocinar com a linguagem, o Navig reduz o erro médio de distância em 14% em comparação com os modelos state-of-the-art anteriores, enquanto requer menos de 1000 amostras de treinamento. Nosso conjunto de dados e código estão disponíveis em https://github.com/SparrowZheyuan18/Navig/.
Desenvolvedores de LLMs estão cada vez mais dependentes de dados sintéticos, mas a geração de dados de alta qualidade para tarefas complexas de raciocínio de contexto longo continua sendo um desafio. Apresentamos o CLIPPER, uma abordagem baseada em compressão para gerar dados sintéticos adaptados à verificação de afirmações narrativas - uma tarefa que exige raciocínio sobre um livro para verificar uma afirmação dada. Em vez de gerar afirmações diretamente a partir do texto bruto do livro, o que resulta em afirmações repletas de artefatos, o CLIPPER primeiro comprime o livro em resumos de capítulos e resumos do livro e, em seguida, usa essas representações intermediárias para gerar afirmações complexas e cadeias de pensamento correspondentes. Em comparação com abordagens ingênuas, o CLIPPER produz afirmações que são mais válidas, fundamentadas e complexas. Usando o CLIPPER, construímos um conjunto de dados de 19 mil afirmações sintéticas de livros, pareadas com seus textos-fonte e cadeias de raciocínio, e o utilizamos para ajustar três modelos de código aberto. Nosso melhor modelo alcança resultados revolucionários na verificação de afirmações narrativas (de 28% para 76% de precisão em nosso conjunto de testes) e estabelece um novo estado da arte para modelos com menos de 10 bilhões de parâmetros no leaderboard do NoCha. Análises adicionais mostram que nossos modelos geram cadeias de raciocínio mais detalhadas e fundamentadas, ao mesmo tempo em que melhoram o desempenho em outras tarefas de compreensão narrativa (por exemplo, NarrativeQA).
Modelos multimodais de grande escala (LMMs) têm demonstrado capacidades impressionantes em uma ampla gama de tarefas visuais. No entanto, eles frequentemente enfrentam dificuldades com raciocínio visual refinado, falhando em identificar objetivos específicos de domínio e fornecer explicações justificáveis para suas previsões. Para abordar isso, propomos uma nova estrutura de amostragem por rejeição visual para melhorar a cognição e a explicabilidade dos LMMs utilizando dados auto-sintetizados. Especificamente, o ajuste fino visual requer imagens, consultas e respostas alvo. Nossa abordagem começa sintetizando respostas interpretáveis que incluem características visuais verificáveis por humanos. Essas características são baseadas em conceitos definidos por especialistas, cuidadosamente selecionados com base em sua alinhamento com o conteúdo da imagem. Após cada rodada de ajuste fino, aplicamos um mecanismo de filtragem sem modelo de recompensa para selecionar as respostas interpretáveis de mais alta qualidade para a próxima rodada de ajuste. Esse processo iterativo de síntese de dados e ajuste fino melhora progressivamente a capacidade do modelo de gerar explicações precisas e razoáveis. Resultados experimentais demonstram a eficácia do nosso método em melhorar tanto a precisão quanto a explicabilidade de tarefas especializadas de classificação visual.
Modelos de recompensa desempenham um papel essencial no treinamento de modelos de visão e linguagem (VLMs) ao avaliar a qualidade das saídas para permitir o alinhamento com as preferências humanas. Apesar de sua importância, a comunidade de pesquisa carece de benchmarks abertos e abrangentes para avaliar modelos de recompensa multimodal em VLMs. Para preencher essa lacuna, introduzimos o Multimodal RewardBench, um benchmark anotado por especialistas que abrange seis domínios: correção geral, preferência, conhecimento, raciocínio, segurança e resposta a perguntas visuais. Nosso conjunto de dados compreende 5.211 triplas anotadas (prompt, resposta escolhida, resposta rejeitada) coletadas de vários VLMs. Ao avaliar uma variedade de juízes VLM, descobrimos que mesmo os modelos de melhor desempenho, Gemini 1.5 Pro e Claude 3.5 Sonnet, atingem apenas 72% de precisão geral. Notavelmente, a maioria dos modelos enfrenta dificuldades nos domínios de raciocínio e segurança. Esses achados sugerem que o Multimodal RewardBench oferece um ambiente desafiador para o avanço do desenvolvimento de modelos de recompensa em múltiplos domínios. Disponibilizamos o benchmark em https://github.com/facebookresearch/multimodal_rewardbench.
A preparação de conjuntos de dados de alta qualidade, exigidos por diversos modelos de IA e aprendizado de máquina orientados a dados, tornou-se uma tarefa fundamental na análise baseada em dados. Métodos convencionais de descoberta de dados geralmente integram conjuntos de dados em direção a uma única medida de qualidade predefinida, o que pode levar a vieses em tarefas subsequentes. Este artigo apresenta o MODis, uma estrutura que descobre conjuntos de dados otimizando múltiplas medidas de desempenho definidas pelo usuário. Dado um conjunto de fontes de dados e um modelo, o MODis seleciona e integra fontes de dados em um conjunto de dados skyline, sobre o qual o modelo deve apresentar o desempenho desejado em todas as medidas de desempenho. Formulamos o MODis como um transdutor de estado finito multiobjetivo e derivamos três algoritmos viáveis para gerar conjuntos de dados skyline. Nosso primeiro algoritmo adota uma estratégia de "redução a partir do universal", que começa com um esquema universal e poda iterativamente dados pouco promissores. O segundo algoritmo reduz ainda mais o custo com uma estratégia bidirecional que intercala aumento e redução de dados. Também introduzimos um algoritmo de diversificação para mitigar o viés em conjuntos de dados skyline. Verificamos experimentalmente a eficiência e a eficácia de nossos algoritmos de descoberta de dados skyline e demonstramos suas aplicações na otimização de pipelines de ciência de dados.
O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) abriu novas oportunidades em sistemas de recomendação, permitindo recomendações zero-shot sem o treinamento convencional. Apesar de seu potencial, a maioria dos trabalhos existentes depende exclusivamente do histórico de compras dos usuários, deixando espaço significativo para melhorias ao incorporar dados textuais gerados pelos usuários, como avaliações e descrições de produtos. Para abordar essa lacuna, propomos o PURE, uma nova estrutura de recomendação baseada em LLM que constrói e mantém perfis de usuários em evolução, extraindo e resumindo sistematicamente informações-chave das avaliações dos usuários. O PURE consiste em três componentes principais: um Extrator de Avaliações para identificar preferências dos usuários e características-chave dos produtos, um Atualizador de Perfil para refinar e atualizar os perfis dos usuários, e um Recomendador para gerar recomendações personalizadas usando o perfil mais atual. Para avaliar o PURE, introduzimos uma tarefa de recomendação sequencial contínua que reflete cenários do mundo real, adicionando avaliações ao longo do tempo e atualizando as previsões de forma incremental. Nossos resultados experimentais em conjuntos de dados da Amazon demonstram que o PURE supera os métodos existentes baseados em LLM, aproveitando efetivamente informações de longo prazo dos usuários enquanto gerencia as limitações de tokens.
A geração de moléculas novas com propriedades fora da distribuição é um grande desafio na descoberta molecular. Embora métodos de aprendizado supervisionado gerem moléculas de alta qualidade semelhantes às de um conjunto de dados, eles têm dificuldade em generalizar para propriedades fora da distribuição. O aprendizado por reforço pode explorar novos espaços químicos, mas frequentemente realiza "hacking de recompensa" e gera moléculas não sintetizáveis. Neste trabalho, abordamos esse problema integrando um método de aprendizado supervisionado de ponta, o STGG+, em um ciclo de aprendizado ativo. Nossa abordagem gera, avalia e ajusta iterativamente o STGG+ para expandir continuamente seu conhecimento. Denominamos essa abordagem de STGG+AL. Aplicamos o STGG+AL ao design de materiais orgânicos pi-funcionais, especificamente a duas tarefas desafiadoras: 1) gerar moléculas altamente absorventes caracterizadas por alta força osciladora e 2) projetar moléculas absorventes com força osciladora razoável na faixa do infravermelho próximo (NIR). As moléculas geradas são validadas e racionalizadas in silico com a teoria do funcional da densidade dependente do tempo. Nossos resultados demonstram que nosso método é altamente eficaz na geração de moléculas novas com alta força osciladora, ao contrário de métodos existentes, como os de aprendizado por reforço (RL). Disponibilizamos publicamente nosso código de aprendizado ativo, juntamente com nosso conjunto de dados Conjugated-xTB, que contém 2,9 milhões de moléculas pi-conjugadas, e a função para aproximar a força osciladora e o comprimento de onda de absorção (baseada no sTDA-xTB).
Estudos recentes mostraram que os Grandes Modelos de Visão e Linguagem (VLMs) tendem a negligenciar o conteúdo das imagens e a depender excessivamente de prioridades do modelo de linguagem, resultando em erros em tarefas visualmente fundamentadas e em alucinações. Nossa hipótese é que esse problema ocorre porque os VLMs existentes não são explicitamente treinados para gerar textos que sejam precisamente fundamentados em detalhes finos das imagens. Para aprimorar o feedback visual durante o treinamento de VLMs, propomos o S-VCO (Otimização Contrastiva Visual Simétrica), um novo objetivo de ajuste fino que direciona o modelo a capturar detalhes visuais importantes e alinhá-los com os tokens de texto correspondentes. Para facilitar ainda mais esse alinhamento detalhado, introduzimos o MVC, um conjunto de dados de pares imagem-texto construído por meio da filtragem e aumento automáticos de dados contrafactuais visuais, desafiando o modelo com casos contrastivos difíceis envolvendo Contrastes Visuais Mínimos. Experimentos mostram que nosso método melhora consistentemente o desempenho dos VLMs em diversos benchmarks que abrangem várias habilidades e domínios, alcançando uma redução de até 22% nas alucinações e ganhos significativos em tarefas centradas na visão e em tarefas gerais. Notavelmente, essas melhorias se tornam cada vez mais pronunciadas em benchmarks com maior dependência visual. Em resumo, o S-VCO oferece um aprimoramento significativo no desempenho de tarefas visualmente dependentes dos VLMs, mantendo ou até mesmo melhorando as habilidades gerais do modelo. Disponibilizamos nosso código em https://s-vco.github.io/.
Geolocalização, a tarefa de identificar a localização de uma imagem, requer raciocínio complexo e é crucial para navegação, monitoramento e preservação cultural. No entanto, os métodos atuais frequentemente produzem localizações grosseiras, imprecisas e não interpretáveis. Um grande desafio reside na qualidade e escala dos conjuntos de dados de geolocalização existentes. Esses conjuntos de dados são tipicamente de pequena escala e construídos automaticamente, resultando em dados ruidosos e dificuldade de tarefa inconsistente, com imagens que ou revelam respostas de forma muito fácil ou carecem de pistas suficientes para inferência confiável. Para enfrentar esses desafios, introduzimos um framework abrangente de geolocalização com três componentes principais: GeoComp, um conjunto de dados em larga escala; GeoCoT, um novo método de raciocínio; e GeoEval, uma métrica de avaliação, projetados coletivamente para abordar desafios críticos e impulsionar avanços na pesquisa de geolocalização. No cerne desse framework está o GeoComp (Geolocation Competition Dataset), um conjunto de dados em larga escala coletado de uma plataforma de jogo de geolocalização envolvendo 740 mil usuários ao longo de dois anos. Ele compreende 25 milhões de entradas de metadados e 3 milhões de localizações geoetiquetadas abrangendo grande parte do globo, com cada localização anotada milhares a dezenas de milhares de vezes por usuários humanos. O conjunto de dados oferece níveis diversos de dificuldade para análise detalhada e destaca lacunas importantes nos modelos atuais. Com base nesse conjunto de dados, propomos o Geographical Chain-of-Thought (GeoCoT), um novo framework de raciocínio em múltiplas etapas projetado para aprimorar as capacidades de raciocínio de Large Vision Models (LVMs) em tarefas de geolocalização. O GeoCoT melhora o desempenho ao integrar pistas contextuais e espaciais por meio de um processo de múltiplas etapas que imita o raciocínio humano de geolocalização. Por fim, utilizando a métrica GeoEval, demonstramos que o GeoCoT aumenta significativamente a precisão da geolocalização em até 25%, ao mesmo tempo em que melhora a interpretabilidade.
Modelos de linguagem de grande escala (LLMs) são capazes de gerar resumos coerentes a partir de contextos muito longos, dada uma consulta do usuário. Extrair e citar adequadamente trechos de evidência pode ajudar a melhorar a transparência e a confiabilidade desses resumos. Ao mesmo tempo, os LLMs sofrem com vieses posicionais em termos de quais informações eles compreendem e atendem, o que pode afetar a citação de evidências. Enquanto trabalhos anteriores se concentraram na citação de evidências com níveis predefinidos de granularidade (por exemplo, frase, parágrafo, documento, etc.), propomos a tarefa de resumo focado em consultas de contexto longo com citação de evidências não estruturadas. Mostramos como os sistemas existentes lutam para gerar e citar adequadamente evidências não estruturadas de seu contexto, e que as evidências tendem a se "perder no meio". Para ajudar a mitigar isso, criamos o conjunto de dados Summaries with Unstructured Evidence Text (SUnsET), um conjunto de dados sintético gerado usando um pipeline agnóstico de domínio que pode ser usado como supervisão para adaptar LLMs a essa tarefa. Demonstramos, em 5 LLMs de diferentes tamanhos e 4 conjuntos de dados com tipos e comprimentos variados de documentos, que os LLMs adaptados com dados do SUnsET geram evidências mais relevantes e factualmente consistentes do que seus modelos base, extraem evidências de locais mais diversos em seu contexto e podem gerar resumos mais relevantes e consistentes.
Na era da desinformação, a alucinação — a tendência dos Modelos de Linguagem de Grande Escala (LLMs) de gerar respostas não factuais ou infiéis — representa o principal risco para sua utilidade global. Apesar de os LLMs estarem se tornando cada vez mais multilíngues, a grande maioria das pesquisas sobre detecção e quantificação de alucinações em LLMs é (a) centrada no inglês e (b) focada em tradução automática (MT) e sumarização, tarefas menos comuns "no mundo real" do que a busca aberta por informações. Em contraste, nosso objetivo é quantificar a extensão da alucinação em LLMs em diversos idiomas em tarefas de resposta a perguntas de longa duração e intensivas em conhecimento. Para isso, treinamos um modelo de detecção de alucinação multilíngue e conduzimos um estudo em larga escala abrangendo 30 idiomas e 6 famílias de LLMs de código aberto. Partimos de um conjunto de dados de detecção de alucinação em inglês e utilizamos MT para gerar dados de treinamento (ruidosos) em outros idiomas. Também anotamos manualmente dados de referência (gold) para cinco idiomas de alto recurso; em seguida, demonstramos, para esses idiomas, que as estimativas das taxas de alucinação são semelhantes entre conjuntos de teste de prata (gerados por LLMs) e de ouro, validando o uso de dados de prata para estimar taxas de alucinação em outros idiomas. Para a estimativa final das taxas, construímos um conjunto de dados de perguntas e respostas intensivas em conhecimento para 30 idiomas, com prompts gerados por LLMs e artigos da Wikipedia como referências. Descobrimos que, embora os LLMs gerem respostas mais longas com mais tokens alucinados para idiomas de maior recurso, não há correlação entre as taxas de alucinação normalizadas por comprimento dos idiomas e sua representação digital. Além disso, observamos que LLMs menores exibem taxas de alucinação maiores do que modelos maiores.