Artigos de pesquisa em IA selecionados diariamente com traduções
A modelagem de contexto longo é crucial para os modelos de linguagem de próxima geração, mas o alto custo computacional dos mecanismos de atenção padrão apresenta desafios computacionais significativos. A atenção esparsa oferece uma direção promissora para melhorar a eficiência enquanto mantém as capacidades do modelo. Apresentamos o NSA, um mecanismo de Atenção Esparsa Nativamente Treinável que integra inovações algorítmicas com otimizações alinhadas ao hardware para alcançar uma modelagem eficiente de contexto longo. O NSA emprega uma estratégia esparsa hierárquica dinâmica, combinando compressão de tokens em nível grosseiro com seleção de tokens em nível fino para preservar tanto a consciência do contexto global quanto a precisão local. Nossa abordagem avança o design da atenção esparsa com duas inovações principais: (1) Alcançamos acelerações substanciais por meio de um design algorítmico balanceado em intensidade aritmética, com otimizações de implementação para hardware moderno. (2) Habilitamos o treinamento de ponta a ponta, reduzindo a computação de pré-treinamento sem sacrificar o desempenho do modelo. Como mostrado na Figura 1, os experimentos demonstram que o modelo pré-treinado com NSA mantém ou supera os modelos de Atenção Completa em benchmarks gerais, tarefas de contexto longo e raciocínio baseado em instruções. Enquanto isso, o NSA alcança acelerações substanciais em relação à Atenção Completa em sequências de 64k de comprimento ao longo da decodificação, propagação direta e propagação reversa, validando sua eficiência em todo o ciclo de vida do modelo.
Apresentamos o SWE-Lancer, um benchmark composto por mais de 1.400 tarefas de engenharia de software freelancer extraídas do Upwork, com um valor total de \$1 milhão em pagamentos reais. O SWE-Lancer abrange tanto tarefas de engenharia independentes—variando desde 50 correções de bugs até implementações de funcionalidades de \$32.000—quanto tarefas gerenciais, nas quais os modelos escolhem entre propostas de implementação técnica. As tarefas independentes são avaliadas por meio de testes de ponta a ponta verificados três vezes por engenheiros de software experientes, enquanto as decisões gerenciais são comparadas com as escolhas dos gerentes de engenharia originalmente contratados. Avaliamos o desempenho dos modelos e constatamos que os modelos de ponta ainda não são capazes de resolver a maioria das tarefas. Para facilitar pesquisas futuras, disponibilizamos publicamente uma imagem Docker unificada e uma divisão de avaliação pública, o SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Ao mapear o desempenho dos modelos para o valor monetário, esperamos que o SWE-Lancer permita uma maior investigação sobre o impacto econômico do desenvolvimento de modelos de IA.
A recuperação automática de quedas é um pré-requisito crucial antes que robôs humanoides possam ser implantados com confiabilidade. Projetar controladores manualmente para se levantar é difícil devido às diversas configurações em que um humanoide pode terminar após uma queda e aos terrenos desafiadores em que se espera que robôs humanoides operem. Este artigo desenvolve uma estrutura de aprendizado para produzir controladores que permitem que robôs humanoides se levantem de várias configurações em diferentes terrenos. Diferentemente de aplicações bem-sucedidas anteriores de aprendizado de locomoção para humanoides, a tarefa de se levantar envolve padrões de contato complexos, o que exige a modelagem precisa da geometria de colisão e recompensas mais esparsas. Abordamos esses desafios por meio de uma abordagem em duas fases que segue um currículo. A primeira etapa se concentra em descobrir uma boa trajetória para se levantar com restrições mínimas de suavidade ou limites de velocidade/torque. A segunda etapa então refina os movimentos descobertos em movimentos implantáveis (ou seja, suaves e lentos) que são robustos a variações na configuração inicial e nos terrenos. Descobrimos que essas inovações permitem que um robô humanoide G1 do mundo real se levante de duas situações principais que consideramos: a) deitado de costas e b) deitado de bruços, ambos testados em superfícies planas, deformáveis, escorregadias e inclinadas (por exemplo, grama inclinada e campo de neve). Até onde sabemos, esta é a primeira demonstração bem-sucedida de políticas aprendidas para se levantar em robôs humanoides de tamanho humano no mundo real. Página do projeto: https://humanoid-getup.github.io/
Este artigo apresenta o ThinkDiff, um novo paradigma de alinhamento que capacita modelos de difusão de texto para imagem com compreensão e raciocínio multimodal em contexto, integrando os pontos fortes dos modelos de visão e linguagem (VLMs). Os métodos existentes de ajuste fino de difusão multimodal concentram-se principalmente na reconstrução em nível de pixel, em vez de raciocínio em contexto, e são limitados pela complexidade e disponibilidade restrita de conjuntos de dados baseados em raciocínio. O ThinkDiff aborda esses desafios ao utilizar o treinamento de visão e linguagem como uma tarefa substituta, alinhando os VLMs com o decodificador de um modelo de linguagem grande (LLM) do tipo codificador-decodificador, em vez de um decodificador de difusão. Essa tarefa substituta baseia-se na observação de que o decodificador do LLM compartilha o mesmo espaço de características de entrada com os decodificadores de difusão que utilizam o codificador correspondente do LLM para incorporação de prompts. Como resultado, o alinhamento de VLMs com decodificadores de difusão pode ser simplificado por meio do alinhamento com o decodificador do LLM. Sem a necessidade de treinamentos complexos e grandes conjuntos de dados, o ThinkDiff libera efetivamente capacidades de compreensão, raciocínio e composição em modelos de difusão. Experimentos demonstram que o ThinkDiff melhora significativamente a precisão de 19,2% para 46,3% no desafiador benchmark CoBSAT para geração de raciocínio multimodal em contexto, com apenas 5 horas de treinamento em 4 GPUs A100. Além disso, o ThinkDiff demonstra desempenho excepcional na composição de múltiplas imagens e textos em imagens logicamente coerentes. Página do projeto: https://mizhenxing.github.io/ThinkDiff.
Os métodos atuais de "desaprendizado" (unlearning) para modelos de linguagem de grande escala geralmente dependem de otimização reversa para reduzir as probabilidades dos tokens alvo. No entanto, esse paradigma prejudica a previsão dos tokens subsequentes, degradando o desempenho do modelo e a coerência linguística. Além disso, as métricas de avaliação existentes superenfatizam o esquecimento contextual, enquanto avaliam de forma inadequada a fluência e a relevância das respostas. Para enfrentar esses desafios, propomos o ReLearn, um pipeline de aumento de dados e ajuste fino para um desaprendizado eficaz, juntamente com um framework de avaliação abrangente. Esse framework introduz a Taxa de Esquecimento de Conhecimento (Knowledge Forgetting Rate - KFR) e a Taxa de Retenção de Conhecimento (Knowledge Retention Rate - KRR) para medir a preservação do conhecimento em nível de informação, e a Pontuação Linguística (Linguistic Score - LS) para avaliar a qualidade da geração. Nossos experimentos mostram que o ReLearn consegue alcançar o esquecimento direcionado enquanto preserva saídas de alta qualidade. Por meio de análise mecanicista, demonstramos ainda como a otimização reversa prejudica a geração de texto coerente, enquanto o ReLearn preserva essa capacidade essencial. O código está disponível em https://github.com/zjunlp/unlearn.
Apesar de suas capacidades excepcionais em tarefas que demandam conhecimento, os Modelos de Linguagem de Grande Escala (LLMs) enfrentam uma lacuna crítica na compreensão de como internalizam novos conhecimentos, particularmente em como incorporam estruturalmente o conhecimento adquirido em suas computações neurais. Abordamos essa questão através da lente da evolução de circuitos de conhecimento, identificando subgrafos computacionais que facilitam o armazenamento e o processamento de conhecimento. Nossa análise sistemática da evolução dos circuitos ao longo do pré-treinamento contínuo revela várias descobertas importantes: (1) a aquisição de novos conhecimentos é influenciada por sua relevância em relação ao conhecimento pré-existente; (2) a evolução dos circuitos de conhecimento exibe uma mudança de fase distinta, da formação para a otimização; (3) a evolução dos circuitos de conhecimento segue um padrão de profundo para superficial. Esses insights não apenas avançam nossa compreensão teórica dos mecanismos de aquisição de novos conhecimentos em LLMs, mas também fornecem implicações potenciais para melhorar as estratégias de pré-treinamento contínuo, visando aprimorar o desempenho do modelo. O código e os dados estarão disponíveis em https://github.com/zjunlp/DynamicKnowledgeCircuits.
A geração de código, o raciocínio matemático simbólico e outras tarefas exigem que os LLMs produzam saídas que sejam sintática e semanticamente corretas. A geração restrita de LLMs é uma direção promissora para garantir a adesão a gramáticas formais, mas trabalhos anteriores observaram empiricamente que a aplicação rigorosa de restrições formais frequentemente diminui as capacidades de raciocínio dos LLMs. Neste trabalho, primeiro fornecemos uma explicação teórica para o motivo pelo qual restringir as saídas dos LLMs a gramáticas muito restritivas, que permitem apenas respostas finais sintaticamente válidas, reduz as capacidades de raciocínio do modelo. Em segundo lugar, demonstramos que, ao expandir a gramática de saída com regras adicionais cuidadosamente projetadas, é sempre possível preservar as capacidades de raciocínio do LLM enquanto se garante a correção sintática e semântica em suas saídas. Com base nessas percepções teóricas, propomos um algoritmo de decodificação restrita aumentada por raciocínio, o CRANE, que equilibra efetivamente a correção da geração restrita com a flexibilidade da geração não restrita. Experimentos com múltiplos LLMs de código aberto e benchmarks mostram que o CRANE supera significativamente tanto as estratégias de decodificação restrita de ponta quanto a decodificação não restrita padrão, mostrando uma melhoria de até 10 pontos percentuais em precisão sobre as linhas de base em benchmarks desafiadores de raciocínio simbólico, como GSM-symbolic e FOLIO.
Investigamos o surgimento da compreensão de física intuitiva em modelos de redes neurais profundas de propósito geral treinados para prever regiões mascaradas em vídeos naturais. Utilizando o paradigma de violação de expectativa, descobrimos que modelos de previsão de vídeo treinados para prever resultados em um espaço de representação aprendido demonstram compreensão de várias propriedades da física intuitiva, como permanência de objetos e consistência de forma. Em contraste, a previsão de vídeo no espaço de pixels e modelos de linguagem multimodal de grande escala, que raciocinam por meio de texto, apresentam desempenho mais próximo do acaso. Nossas comparações dessas arquiteturas revelam que aprender conjuntamente um espaço de representação abstrato enquanto se preveem partes ausentes da entrada sensorial, semelhante à codificação preditiva, é suficiente para adquirir uma compreensão da física intuitiva, e que até mesmo modelos treinados com uma semana de vídeos únicos alcançam desempenho acima do acaso. Isso desafia a ideia de que o conhecimento central — um conjunto de sistemas inatos para ajudar a compreender o mundo — precisa ser embutido para desenvolver uma compreensão da física intuitiva.
A hierarquia de instruções, que estabelece uma ordem de prioridade desde mensagens do sistema até mensagens do usuário, histórico de conversas e saídas de ferramentas, é essencial para garantir comportamento consistente e seguro em modelos de linguagem (LMs). Apesar de sua importância, esse tópico recebe atenção limitada, e há uma carência de benchmarks abrangentes para avaliar a capacidade dos modelos de seguir a hierarquia de instruções. Nós preenchemos essa lacuna ao introduzir o IHEval, um benchmark inovador composto por 3.538 exemplos em nove tarefas, cobrindo casos onde instruções de diferentes prioridades estão alinhadas ou em conflito. Nossa avaliação de LMs populares destaca a dificuldade desses modelos em reconhecer prioridades de instruções. Todos os modelos avaliados apresentam uma queda acentuada no desempenho ao enfrentar instruções conflitantes, em comparação com seu desempenho original de seguir instruções. Além disso, o modelo de código aberto mais competitivo alcança apenas 48% de precisão na resolução de tais conflitos. Nossos resultados destacam a necessidade de otimização direcionada no desenvolvimento futuro de LMs.
Sailor2 é uma família de modelos de linguagem multilíngue de ponta para idiomas do Sudeste Asiático (SEA), disponível em tamanhos de 1B, 8B e 20B para atender a diversas aplicações. Baseado no Qwen2.5, o Sailor2 passa por um pré-treinamento contínuo em 500 bilhões de tokens (400 bilhões específicos para SEA e 100 bilhões de tokens de repetição) para suportar 13 idiomas do Sudeste Asiático, mantendo a proficiência em chinês e inglês. O modelo Sailor2-20B alcança uma taxa de vitória de 50-50 contra o GPT-4o em idiomas do SEA. Também oferecemos um guia abrangente sobre como desenvolver o modelo multilíngue de maneira eficiente, incluindo cinco aspectos principais: curadoria de dados, pré-treinamento, pós-treinamento, personalização do modelo e avaliação. Esperamos que o modelo Sailor2 (licença Apache 2.0) impulsione o desenvolvimento linguístico na região do SEA, e que o guia Sailor2 inspire pesquisadores a construir LLMs mais inclusivos para outros idiomas subatendidos.
O notável sucesso do paradigma autoregressivo trouxe avanços significativos para os Modelos de Linguagem Multimodal de Grande Escala (MLLMs), com modelos poderosos como Show-o, Transfusion e Emu3 alcançando progressos notáveis na compreensão e geração unificada de imagens. Pela primeira vez, identificamos um fenômeno comum: as capacidades de compreensão dos MLLMs são tipicamente mais fortes do que suas capacidades gerativas, com uma lacuna significativa entre as duas. Com base nessa percepção, propomos o HermesFlow, uma estrutura simples, porém geral, projetada para preencher de forma contínua a lacuna entre compreensão e geração em MLLMs. Especificamente, utilizamos dados homólogos como entrada para criar dados de preferência homólogos tanto para compreensão quanto para geração. Por meio da otimização iterativa de Pair-DPO e autojogo, o HermesFlow alinha efetivamente a compreensão e a geração multimodal usando dados de preferência homólogos. Experimentos extensivos demonstram a superioridade significativa de nossa abordagem em relação a métodos anteriores, particularmente na redução da lacuna entre compreensão e geração multimodal. Esses resultados destacam o potencial do HermesFlow como uma estrutura geral de alinhamento para os modelos de base multimodal de próxima geração. Código: https://github.com/Gen-Verse/HermesFlow
Grandes Modelos de Linguagem (LLMs) enfrentam dificuldades com alucinações e conhecimento desatualizado devido à sua dependência de dados de treinamento estáticos. A Geração Aumentada por Recuperação (RAG) mitiga esses problemas ao integrar informações externas dinâmicas, aprimorando a fundamentação factual e atualizada. Avanços recentes em aprendizado multimodal levaram ao desenvolvimento do RAG Multimodal, incorporando múltiplas modalidades como texto, imagens, áudio e vídeo para melhorar as saídas geradas. No entanto, o alinhamento e o raciocínio entre modalidades introduzem desafios únicos ao RAG Multimodal, distinguindo-o do RAG unimodal tradicional. Esta pesquisa oferece uma análise estruturada e abrangente dos sistemas de RAG Multimodal, cobrindo conjuntos de dados, métricas, benchmarks, avaliação, metodologias e inovações em recuperação, fusão, aumento e geração. Revisamos precisamente estratégias de treinamento, aprimoramentos de robustez e funções de perda, enquanto exploramos os diversos cenários de RAG Multimodal. Além disso, discutimos desafios em aberto e direções futuras de pesquisa para apoiar avanços neste campo em evolução. Esta pesquisa estabelece as bases para o desenvolvimento de sistemas de IA mais capazes e confiáveis que utilizam efetivamente bases de conhecimento externo dinâmico e multimodal. Recursos estão disponíveis em https://github.com/llm-lab-org/Multimodal-RAG-Survey.
Propomos o Diffusion-Sharpening, uma abordagem de ajuste fino que melhora o alinhamento em tarefas subsequentes ao otimizar trajetórias de amostragem. Os métodos existentes de ajuste fino baseados em Aprendizado por Reforço (RL) focam em etapas únicas de treinamento e negligenciam o alinhamento em nível de trajetória, enquanto métodos recentes de otimização de trajetórias de amostragem incorrem em custos significativos de NFE (Número de Avaliações de Função) durante a inferência. O Diffusion-Sharpening supera isso ao utilizar um framework de integral de caminho para selecionar trajetórias ótimas durante o treinamento, aproveitando feedback de recompensa e amortizando os custos de inferência. Nosso método demonstra eficiência superior no treinamento com convergência mais rápida e melhor eficiência na inferência, sem exigir NFEs adicionais. Experimentos extensivos mostram que o Diffusion-Sharpening supera métodos de ajuste fino baseados em RL (por exemplo, Diffusion-DPO) e métodos de otimização de trajetórias de amostragem (por exemplo, Inference Scaling) em diversas métricas, incluindo alinhamento de texto, capacidades composicionais e preferências humanas, oferecendo uma solução escalável e eficiente para o ajuste fino futuro de modelos de difusão. Código: https://github.com/Gen-Verse/Diffusion-Sharpening
As mensagens de sistema desempenham um papel crucial nas interações com modelos de linguagem de grande escala (LLMs), frequentemente servindo como prompts para iniciar conversas. Por meio dessas mensagens, os usuários podem atribuir papéis específicos, realizar tarefas pretendidas, incorporar informações de contexto, especificar diversos formatos de saída e estilos de comunicação. Apesar dessa versatilidade, os dados publicamente disponíveis geralmente carecem de mensagens de sistema e estão sujeitos a restrições rigorosas de licenciamento no campo da indústria. A rotulagem manual de dados publicamente disponíveis com mensagens de sistema que estejam alinhadas com as instruções do usuário exige recursos significativos. Diante desses desafios, nosso trabalho introduz o SysGen, um pipeline para gerar mensagens de sistema com respostas do assistente mais alinhadas a partir de um conjunto de dados de ajuste fino supervisionado sem mensagens de sistema. O treinamento com dados do SysGen demonstrou melhorias substanciais no alinhamento das respostas do modelo com as mensagens de sistema e as instruções do usuário, conforme evidenciado em vários modelos de código aberto no benchmark Multifacet, enquanto mantém um impacto mínimo em outros benchmarks não vistos, como o Open LLM Leaderboard 2. Nossa análise qualitativa destaca a importância de mensagens de sistema diversificadas para garantir uma melhor adaptabilidade em diferentes contextos.
Os avanços recentes em sistemas multiagente baseados em LLM (LLM-MA) têm mostrado potencial, mas desafios significativos permanecem no gerenciamento da comunicação e refinamento quando os agentes colaboram em tarefas complexas. Neste artigo, propomos o Talk Structurally, Act Hierarchically (TalkHier), um novo framework que introduz um protocolo de comunicação estruturada para trocas ricas em contexto e um sistema de refinamento hierárquico para abordar problemas como saídas incorretas, falsidades e vieses. O TalkHier supera diversos tipos de SoTA, incluindo modelos de escalonamento de inferência (OpenAI-o1), modelos multiagente de código aberto (por exemplo, AgentVerse) e estratégias de votação majoritária em baselines atuais de LLM e agente único (por exemplo, ReAct, GPT4o), em diversas tarefas, incluindo resposta a perguntas de domínio aberto, questionamento seletivo de domínio específico e geração prática de textos publicitários. Esses resultados destacam seu potencial para estabelecer um novo padrão para sistemas LLM-MA, abrindo caminho para frameworks multiagente mais eficazes, adaptáveis e colaborativos. O código está disponível em https://github.com/sony/talkhier.
Os recentes avanços em modelos multimodais de grande escala (LMMs) têm impulsionado aplicações promissoras de agentes capazes de realizar tarefas complexas na web de forma autônoma. Embora os agentes LMM de código aberto tenham alcançado progressos significativos em benchmarks de avaliação offline, seu desempenho ainda fica substancialmente aquém das capacidades humanas em cenários online mais realistas. Um gargalo crucial é a falta de conjuntos de dados diversos e em grande escala no nível de trajetórias em diversos domínios, que são caros para coletar. Neste artigo, abordamos esse desafio desenvolvendo uma receita escalável para sintetizar o maior e mais diversificado conjunto de dados de trajetórias até o momento, contendo mais de 94 mil trajetórias multimodais bem-sucedidas na web, abrangendo 49 mil URLs únicos, 720 mil capturas de tela e 33 milhões de elementos da web. Em particular, aproveitamos uma extensa exploração e refinamento da web para obter intenções de tarefas diversas. O custo médio é de 28 centavos por trajetória bem-sucedida, tornando-o acessível para uma ampla gama de usuários na comunidade. Utilizando esse conjunto de dados, treinamos o Explorer, um agente web multimodal, e demonstramos um desempenho robusto em benchmarks de agentes web tanto offline quanto online, como Mind2Web-Live, Multimodal-Mind2Web e MiniWob++. Além disso, nossos experimentos destacam o escalonamento de dados como um fator-chave para melhorar as capacidades dos agentes web. Esperamos que este estudo torne a pesquisa de agentes baseados em LMM de última geração em maior escala mais acessível.
Apesar dos resultados quase perfeitos em avaliações artificiais, a eficácia da edição de modelos em aplicações do mundo real permanece inexplorada. Para preencher essa lacuna, propomos estudar a edição de modelos em tarefas de question answering (QA) estabelecendo uma prática de avaliação rigorosa para medir a eficácia dos métodos de edição na correção de erros de LLMs. Isso inclui o QAEdit, um novo benchmark derivado de conjuntos de dados populares de QA, e um framework de avaliação padronizado. Nossos experimentos de edição única indicam que os métodos atuais de edição têm um desempenho substancialmente pior do que o relatado anteriormente (38,5% vs. ~96%). Por meio de análise de módulos e experimentos controlados, demonstramos que essa queda de desempenho decorre de problemas nas práticas de avaliação de pesquisas anteriores sobre edição. Um problema-chave é o uso inadequado de teacher forcing nos testes, que impede a propagação de erros ao fornecer tokens de verdade absoluta (inacessíveis em cenários do mundo real) como entrada. Além disso, simulamos a implantação no mundo real por meio de edições sequenciais, revelando que as abordagens atuais falham drasticamente com apenas 1000 edições. Nossa análise fornece uma reavaliação fundamental tanto da aplicabilidade no mundo real dos métodos existentes de edição de modelos quanto de suas práticas de avaliação, e estabelece um framework de avaliação rigoroso com insights essenciais para avançar a pesquisa em edição de modelos de forma confiável e prática.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis em tarefas relacionadas a código, como compreensão e geração de código. No entanto, uma questão igualmente importante, mas ainda pouco explorada, é se os LLMs podem servir como executores substitutos de código de propósito geral, capazes de prever a saída e o comportamento de um programa sem realmente executá-lo. Para investigar sistematicamente essa capacidade, introduzimos o SURGE, um benchmark abrangente que cobre oito aspectos principais: tarefas de programação em múltiplas linguagens, problemas de programação de nível competitivo, análise de código em nível de repositório, computação científica de alto custo, algoritmos intensivos em complexidade de tempo, análise de código com bugs, programas dependentes de compiladores ou ambientes de execução específicos e verificação de provas matemáticas formais. Avaliamos vários LLMs de código aberto e proprietários no SURGE e conduzimos um estudo de escalonamento para analisar o impacto do tamanho do modelo e da escala dos dados de treinamento na precisão da execução substituta. Além disso, categorizamos os erros de previsão dos modelos e exploramos áreas potenciais para melhoria. Nossos resultados indicam que, embora os LLMs possam prever os resultados da execução de código em certos casos, eles apresentam limitações na execução substituta de propósito geral. Este estudo fornece insights empíricos sobre a viabilidade de usar LLMs como executores substitutos de código. O código e o conjunto de dados são disponibilizados em https://github.com/Imbernoulli/SURGE.
Embora os avanços recentes na otimização de raciocínio tenham aprimorado significativamente as capacidades dos grandes modelos de linguagem (LLMs, na sigla em inglês), os esforços existentes para melhorar o raciocínio têm se limitado a resolver problemas matemáticos e a focar em entradas visuais gráficas, negligenciando aplicações mais amplas na compreensão geral de vídeos. Este artigo propõe o video-SALMONN-o1, o primeiro LLM de áudio-visual aprimorado para raciocínio e de código aberto, projetado para tarefas de compreensão geral de vídeos. Para aprimorar suas habilidades de raciocínio, desenvolvemos um conjunto de dados intensivo em raciocínio, apresentando questões desafiadoras de áudio-visual com soluções passo a passo. Também propomos a otimização direta de preferência de processo (pDPO, na sigla em inglês), que utiliza a seleção contrastiva de passos para alcançar uma modelagem eficiente de recompensas em nível de passo, adaptada para entradas multimodais. Além disso, introduzimos o RivaBench, o primeiro benchmark de compreensão de vídeos intensivo em raciocínio, contendo mais de 4.000 pares de perguntas e respostas de alta qualidade, curados por especialistas, em cenários como comédia stand-up, apresentações acadêmicas e detecção de vídeos sintéticos. O video-SALMONN-o1 alcança melhorias de 3-8% em precisão em relação à linha de base LLaVA-OneVision em diferentes benchmarks de raciocínio em vídeo. Além disso, o pDPO obtém melhorias de 6-8% em comparação com o modelo de ajuste fino supervisionado no RivaBench. O raciocínio aprimorado permite que o video-SALMONN-o1 tenha capacidades de detecção zero-shot de vídeos sintéticos.
Com o crescimento explosivo da criação de conteúdo 3D, há uma demanda crescente por conversão automática de modelos 3D estáticos em versões prontas para articulação que suportem animações realistas. As abordagens tradicionais dependem fortemente de anotações manuais, que são demoradas e trabalhosas. Além disso, a falta de benchmarks em grande escala tem dificultado o desenvolvimento de soluções baseadas em aprendizado. Neste trabalho, apresentamos o MagicArticulate, um framework eficaz que transforma automaticamente modelos 3D estáticos em ativos prontos para articulação. Nossas principais contribuições são três. Primeiro, introduzimos o Articulation-XL, um benchmark em larga escala contendo mais de 33 mil modelos 3D com anotações de articulação de alta qualidade, cuidadosamente selecionados do Objaverse-XL. Segundo, propomos um novo método de geração de esqueletos que formula a tarefa como um problema de modelagem de sequência, utilizando um transformer auto-regressivo para lidar naturalmente com números variáveis de ossos ou articulações dentro dos esqueletos e suas dependências inerentes entre diferentes modelos 3D. Terceiro, prevemos pesos de skinning usando um processo de difusão funcional que incorpora priores de distância geodésica volumétrica entre vértices e articulações. Experimentos extensivos demonstram que o MagicArticulate supera significativamente os métodos existentes em diversas categorias de objetos, alcançando articulação de alta qualidade que permite animações realistas. Página do projeto: https://chaoyuesong.github.io/MagicArticulate.
Text-to-SQL tem como objetivo converter perguntas em linguagem natural em consultas SQL executáveis. Embora abordagens anteriores, como a seleção mascarada de esqueletos, tenham demonstrado um desempenho forte ao recuperar exemplos de treinamento semelhantes para orientar modelos de linguagem de grande escala (LLMs), elas enfrentam dificuldades em cenários do mundo real onde tais exemplos não estão disponíveis. Para superar essa limitação, propomos o Aprendizado em Contexto com Auto-Aumento e Seleção de Exemplos de Texto para SQL (SAFE-SQL), uma nova estrutura que melhora a geração de SQL ao gerar e filtrar exemplos auto-aumentados. O SAFE-SQL primeiro solicita que um LLM gere múltiplos exemplos de Texto para SQL relevantes para a entrada de teste. Em seguida, o SAFE-SQL filtra esses exemplos por meio de três avaliações de relevância, construindo exemplos de aprendizado em contexto de alta qualidade. Ao utilizar exemplos auto-gerados, o SAFE-SQL supera as estruturas anteriores de Texto para SQL em cenários zero-shot e few-shot, alcançando maior precisão de execução. Notavelmente, nossa abordagem oferece ganhos adicionais de desempenho em cenários extremamente difíceis e inéditos, onde métodos convencionais frequentemente falham.
Este artigo apresenta a Model-guidance (MG), um novo objetivo para o treinamento de modelos de difusão que aborda e elimina o uso comum da Classifier-free guidance (CFG). Nossa abordagem inovadora transcende a modelagem padrão da distribuição de dados para incorporar a probabilidade posterior das condições. A técnica proposta surge da ideia da CFG e é simples, porém eficaz, tornando-se um módulo plug-and-play para modelos existentes. Nosso método acelera significativamente o processo de treinamento, dobra a velocidade de inferência e alcança uma qualidade excepcional que rivaliza e até supera modelos de difusão concorrentes que utilizam CFG. Experimentos extensivos demonstram a eficácia, eficiência e escalabilidade em diferentes modelos e conjuntos de dados. Por fim, estabelecemos um desempenho de ponta nos benchmarks do ImageNet 256 com um FID de 1,34. Nosso código está disponível em https://github.com/tzco/Diffusion-wo-CFG.
Grandes modelos de linguagem demonstram capacidades notáveis em vários domínios, especialmente em matemática e raciocínio lógico. No entanto, as avaliações atuais negligenciam o raciocínio baseado em física - uma tarefa complexa que requer teoremas e restrições físicas. Apresentamos o PhysReason, um benchmark composto por 1.200 problemas, divididos em problemas baseados em conhecimento (25%) e problemas baseados em raciocínio (75%), onde os últimos são categorizados em três níveis de dificuldade (fácil, médio, difícil). Notavelmente, os problemas exigem uma média de 8,1 etapas de solução, com os difíceis exigindo 15,6, refletindo a complexidade do raciocínio baseado em física. Propomos o Physics Solution Auto Scoring Framework, que incorpora avaliações eficientes em nível de resposta e avaliações abrangentes em nível de etapa. Modelos de alto desempenho, como Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, obtêm menos de 60% na avaliação em nível de resposta, com o desempenho caindo de questões de conhecimento (75,11%) para problemas difíceis (31,95%). Através da avaliação em nível de etapa, identificamos quatro gargalos principais: Aplicação de Teoremas Físicos, Compreensão de Processos Físicos, Cálculo e Análise de Condições Físicas. Esses resultados posicionam o PhysReason como um benchmark inovador e abrangente para avaliar as capacidades de raciocínio baseado em física em grandes modelos de linguagem. Nosso código e dados serão publicados em https:/dxzxy12138.github.io/PhysReason.
Apresentamos o Dyve, um verificador de processos dinâmico que aprimora a detecção de erros de raciocínio em modelos de linguagem de grande escala ao integrar o pensamento rápido e lento, inspirado na Teoria dos Sistemas de Kahneman. O Dyve aplica de forma adaptativa a confirmação imediata em nível de token do Sistema 1 para etapas simples e a análise abrangente do Sistema 2 para as complexas. Utilizando uma técnica inovadora de supervisão de processos filtrada por consenso passo a passo, que combina estimativa de Monte Carlo com avaliação baseada em modelos de linguagem, o Dyve seleciona sinais de supervisão de alta qualidade a partir de dados ruidosos. Resultados experimentais no ProcessBench e no conjunto de dados MATH confirmam que o Dyve supera significativamente os verificadores de processos existentes e melhora o desempenho em configurações Best-of-N.
Modelos generativos latentes surgiram como uma abordagem líder para a síntese de imagens de alta qualidade. Esses modelos dependem de um autoencoder para comprimir imagens em um espaço latente, seguido por um modelo generativo para aprender a distribuição latente. Identificamos que os autoencoders existentes carecem de equivariância em relação a transformações que preservam a semântica, como escalonamento e rotação, resultando em espaços latentes complexos que prejudicam o desempenho generativo. Para resolver isso, propomos o EQ-VAE, uma abordagem simples de regularização que impõe equivariância no espaço latente, reduzindo sua complexidade sem degradar a qualidade da reconstrução. Ao ajustar finamente autoencoders pré-treinados com o EQ-VAE, melhoramos o desempenho de vários modelos generativos de ponta, incluindo DiT, SiT, REPA e MaskGIT, alcançando uma aceleração de 7 vezes no DiT-XL/2 com apenas cinco épocas de ajuste fino do SD-VAE. O EQ-VAE é compatível com autoencoders contínuos e discretos, oferecendo assim um aprimoramento versátil para uma ampla gama de modelos generativos latentes. Página do projeto e código: https://eq-vae.github.io/.
Aproveitar modelos de linguagem de grande escala (LLMs) matemáticos para a geração de provas é um tópico fundamental na pesquisa de LLMs. Argumentamos que a capacidade dos LLMs atuais de provar afirmações depende em grande parte de terem encontrado o processo de prova relevante durante o treinamento. Essa dependência limita sua compreensão mais profunda de teoremas matemáticos e conceitos relacionados. Inspirados pelo método pedagógico de "prova por contraexemplos", comumente usado na educação matemática humana, nosso trabalho visa aprimorar a capacidade dos LLMs de realizar raciocínio e prova matemática por meio de contraexemplos. Especificamente, criamos manualmente um benchmark matemático de alta qualidade em nível universitário, o CounterMATH, que exige que os LLMs provem afirmações matemáticas fornecendo contraexemplos, avaliando assim sua compreensão de conceitos matemáticos. Além disso, desenvolvemos uma estrutura de engenharia de dados para obter automaticamente dados de treinamento para melhorias adicionais do modelo. Experimentos extensivos e análises detalhadas demonstram que o CounterMATH é desafiador, indicando que LLMs, como o OpenAI o1, têm capacidades insuficientes de prova baseada em contraexemplos. Além disso, nossa exploração sobre o treinamento de modelos revela que fortalecer as habilidades de raciocínio conceitual baseado em contraexemplos dos LLMs é crucial para melhorar suas capacidades matemáticas gerais. Acreditamos que nosso trabalho oferece novas perspectivas para a comunidade de LLMs matemáticos.
Os modelos de linguagem (LMs) existentes enfrentam dificuldades com programação orientada a provas devido à escassez de dados, que se manifesta de duas maneiras principais: (1) a falta de corpora suficientes para linguagens de programação orientadas a provas, como F*, e (2) a ausência de implementações em grande escala e em nível de projeto que possam ensinar ao modelo o processo de raciocínio intrincado ao realizar programação orientada a provas. Apresentamos o primeiro método de aumento de dados sintéticos para programação orientada a provas em nível de projeto, tanto para geração quanto para reparo. Nosso método aborda a escassez de dados sintetizando problemas básicos de programação orientada a provas para proficiência na linguagem; incorporando dados de codificação diversificados para eliciar capacidade de raciocínio e criando novas provas e dados de reparo em repositórios existentes. Essa abordagem permite que os modelos de linguagem sintetizem e reparem provas para códigos em nível de função e de repositório. Mostramos que nosso modelo ajustado de 14 bilhões de parâmetros, PoPilot, pode superar o desempenho dos modelos que superam o GPT-4o em programação orientada a provas em nível de projeto por uma margem relativa de 64%, e pode melhorar o desempenho do GPT-4o em 54% ao reparar suas saídas em comparação com o autorreparo do GPT-4o.
Dados massivos e de alta qualidade, tanto textos brutos de pré-treinamento quanto anotações pós-treinamento, foram cuidadosamente preparados para incubar modelos avançados de linguagem de grande escala (LLMs). Em contraste, para a extração de informações (IE), dados de pré-treinamento, como sequências marcadas com BIO, são difíceis de escalar. Mostramos que modelos de IE podem atuar como "caronas" nos recursos de LLMs ao reformular a previsão do próximo token em extração para tokens já presentes no contexto. Especificamente, nosso paradigma proposto de extração dos próximos tokens (NTE) aprende um modelo versátil de IE, o Cuckoo, com 102,6 milhões de dados extrativos convertidos a partir de dados de pré-treinamento e pós-treinamento de LLMs. Sob o cenário de poucos exemplos, o Cuckoo se adapta efetivamente à IE tradicional e complexa de seguir instruções, com desempenho superior aos modelos de IE pré-treinados existentes. Como um "carona", o Cuckoo pode evoluir naturalmente com os avanços contínuos na preparação de dados de LLMs, beneficiando-se de melhorias nos pipelines de treinamento de LLMs sem esforço manual adicional.
A memória é crucial para permitir que agentes enfrentem tarefas complexas com dependências temporais e espaciais. Embora muitos algoritmos de aprendizado por reforço (RL, do inglês Reinforcement Learning) incorporem memória, o campo carece de um benchmark universal para avaliar as capacidades de memória de um agente em diversos cenários. Essa lacuna é particularmente evidente na manipulação robótica em mesa, onde a memória é essencial para resolver tarefas com observabilidade parcial e garantir um desempenho robusto, mas não existem benchmarks padronizados. Para abordar isso, introduzimos o MIKASA (Memory-Intensive Skills Assessment Suite for Agents), um benchmark abrangente para RL com memória, com três contribuições principais: (1) propomos uma estrutura de classificação abrangente para tarefas de RL intensivas em memória, (2) coletamos o MIKASA-Base - um benchmark unificado que permite a avaliação sistemática de agentes aprimorados por memória em diversos cenários, e (3) desenvolvemos o MIKASA-Robo - um novo benchmark composto por 32 tarefas cuidadosamente projetadas e intensivas em memória que avaliam as capacidades de memória na manipulação robótica em mesa. Nossas contribuições estabelecem uma estrutura unificada para avançar a pesquisa em RL com memória, impulsionando o desenvolvimento de sistemas mais confiáveis para aplicações no mundo real. O código está disponível em https://sites.google.com/view/memorybenchrobots/.
Modelos de Linguagem de Grande Escala (LLMs) com capacidades de chamada de API permitiram a construção de Agentes de Linguagem (LA) eficazes, ao mesmo tempo em que revolucionaram o paradigma convencional de diálogo orientado a tarefas (TOD). No entanto, as abordagens atuais enfrentam um dilema crítico: os sistemas TOD são frequentemente treinados em um conjunto limitado de APIs-alvo, exigindo novos dados para manter sua qualidade ao interagir com novos serviços, enquanto os LAs não são treinados para manter a intenção do usuário em conversas de múltiplos turnos. Como tanto o gerenciamento robusto de múltiplos turnos quanto a chamada avançada de funções são cruciais para agentes conversacionais eficazes, avaliamos essas habilidades em três benchmarks populares: MultiWOZ 2.4 (TOD), BFCL V3 (LA) e API-Bank (LA), e nossas análises revelam que abordagens especializadas se destacam em um domínio, mas têm desempenho inferior no outro. Para preencher essa lacuna, introduzimos o CALM (Modelo de Linguagem Agente Conversacional), uma abordagem unificada que integra capacidades conversacionais e agentivas. Criamos o CALM-IT, um conjunto de dados multitarefa cuidadosamente construído que intercala raciocínio ReAct de múltiplos turnos com o uso complexo de APIs. Usando o CALM-IT, treinamos três modelos: CALM 8B, CALM 70B e CALM 405B, que superam os principais modelos específicos de domínio, incluindo o GPT-4o, em todos os três benchmarks.
Este trabalho apresenta o ILIAS, um novo conjunto de dados de teste para Recuperação de Imagens em Nível de Instância em Escala. Ele foi projetado para avaliar a capacidade de modelos base e técnicas de recuperação atuais e futuras de reconhecer objetos específicos. As principais vantagens em relação aos conjuntos de dados existentes incluem escala ampla, diversidade de domínios, anotações de verdade fundamental precisas e um desempenho que está longe de estar saturado. O ILIAS inclui imagens de consulta e positivas para 1.000 instâncias de objetos, coletadas manualmente para capturar condições desafiadoras e domínios diversos. A recuperação em larga escala é realizada contra 100 milhões de imagens distratoras do YFCC100M. Para evitar falsos negativos sem esforço adicional de anotação, incluímos apenas objetos de consulta confirmados como tendo surgido após 2014, ou seja, a data de compilação do YFCC100M. Uma extensa avaliação comparativa foi realizada com as seguintes observações: i) modelos ajustados para domínios específicos, como pontos turísticos ou produtos, se destacam nesse domínio, mas falham no ILIAS; ii) aprender uma camada de adaptação linear usando supervisão de classes de múltiplos domínios resulta em melhorias de desempenho, especialmente para modelos visão-linguagem; iii) descritores locais na reclassificação de recuperação ainda são um componente essencial, especialmente na presença de fundos muito desordenados; iv) o desempenho de modelos base visão-linguagem na tarefa de texto-para-imagem está surpreendentemente próximo ao caso correspondente de imagem-para-imagem. Site: https://vrg.fel.cvut.cz/ilias/
A ubiquidade dos grandes modelos de linguagem e da IA generativa nas mídias online ampliou a necessidade de verificadores de fatos automatizados eficazes para auxiliar os verificadores de fatos a lidar com o volume crescente e a sofisticação da desinformação. A natureza complexa da verificação de fatos exige que os sistemas automatizados forneçam explicações que permitam aos verificadores de fatos examinar suas saídas. No entanto, não está claro como essas explicações devem se alinhar aos processos de tomada de decisão e raciocínio dos verificadores de fatos para serem efetivamente integradas em seus fluxos de trabalho. Por meio de entrevistas semiestruturadas com profissionais de verificação de fatos, preenchemos essa lacuna ao: (i) fornecer um relato de como os verificadores de fatos avaliam evidências, tomam decisões e explicam seus processos; (ii) examinar como os verificadores de fatos usam ferramentas automatizadas na prática; e (iii) identificar os requisitos de explicação dos verificadores de fatos para ferramentas automatizadas de verificação de fatos. Os resultados mostram necessidades de explicação não atendidas e identificam critérios importantes para explicações de verificação de fatos replicáveis que rastreiam o caminho de raciocínio do modelo, referenciam evidências específicas e destacam incertezas e lacunas de informação.
Este artigo investiga as capacidades de raciocínio matemático de modelos de linguagem de grande escala (LLMs) utilizando 50 problemas de palavras recém-construídos, de nível do ensino médio. Diferentemente de estudos anteriores que se concentram apenas na correção das respostas, analisamos rigorosamente tanto as respostas finais quanto as etapas da solução para identificar falhas de raciocínio. Avaliando oito modelos de última geração - incluindo Mixtral, Llama, Gemini, GPT-4o e as variantes o1 da OpenAI - descobrimos que, embora modelos mais recentes (por exemplo, o3-mini, deepseek-r1) alcancem maior precisão, todos os modelos exibem erros em raciocínio espacial, planejamento estratégico e aritmética, às vezes produzindo respostas corretas por meio de lógica falha. Modos comuns de falha incluem suposições injustificadas, dependência excessiva de padrões numéricos e dificuldade em traduzir intuição física em etapas matemáticas. A análise manual revela que os modelos têm dificuldade com problemas que exigem dedução em múltiplas etapas ou conhecimento do mundo real, apesar de possuírem amplo conhecimento matemático. Nossos resultados destacam a importância de avaliar os processos de raciocínio, e não apenas as respostas, e alertam contra a superestimação da proficiência dos LLMs na resolução de problemas. O estudo evidencia lacunas persistentes nas habilidades de generalização dos LLMs, enfatizando a necessidade de melhorias direcionadas no raciocínio estruturado e no manuseio de restrições.
Este artigo desafia o paradigma recente na previsão de propriedades atômicas que associa o progresso ao aumento do tamanho dos conjuntos de dados e dos recursos computacionais. Demonstramos que o pré-treinamento em um conjunto de dados cuidadosamente selecionado e relevante para a tarefa pode igualar ou até superar o pré-treinamento em larga escala, utilizando apenas 1/24 do custo computacional. Introduzimos o Índice de Similaridade Química (Chemical Similarity Index - CSI), uma nova métrica inspirada na Distância de Fréchet Inception da visão computacional, para grafos moleculares, que quantifica o alinhamento entre os conjuntos de dados de pré-treinamento e as tarefas subsequentes. Ao selecionar o conjunto de dados mais relevante com a menor distância CSI, mostramos que modelos pré-treinados em um conjunto de dados menor e focado superam consistentemente aqueles pré-treinados em conjuntos de dados massivos e mistos, como o JMP, mesmo quando esses conjuntos maiores incluem o conjunto de dados relevante. Contraintuitivamente, também descobrimos que adicionar indiscriminadamente mais dados pode degradar o desempenho do modelo quando os dados adicionais estão mal alinhados com a tarefa em questão. Nossas descobertas destacam que, no pré-treinamento para previsão de propriedades atômicas, a qualidade frequentemente supera a quantidade.
As funções de influência fornecem insights cruciais sobre o treinamento de modelos, mas os métodos existentes sofrem com altos custos computacionais e generalização limitada. Em particular, trabalhos recentes propuseram várias métricas e algoritmos para calcular a influência dos dados usando modelos de linguagem, que não escalam bem com modelos e conjuntos de dados grandes. Isso ocorre devido às caras passagens para frente e para trás necessárias para o cálculo, aos requisitos substanciais de memória para armazenar modelos grandes e à fraca generalização das estimativas de influência para novos dados. Neste artigo, exploramos o uso de pequenas redes neurais — que chamamos de InfluenceNetwork — para estimar valores de influência, alcançando uma redução de custo de até 99%. Nossa avaliação demonstra que os valores de influência podem ser estimados com modelos que têm apenas 0,0027% do tamanho de modelos de linguagem completos (usamos versões de 7B e 8B). Aplicamos nosso algoritmo de estimativa de valores de influência (chamado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) à tarefa subsequente de seleção de subconjuntos para ajuste fino de instruções gerais. Em nosso estudo, incluímos quatro funções de influência state-of-the-art e mostramos que não há comprometimento no desempenho, apesar de grandes ganhos de velocidade, entre o NN-CIFT e as funções de influência originais. Fornecemos uma análise detalhada dos hiperparâmetros do NN-CIFT. O código do nosso método pode ser encontrado aqui: https://github.com/agarwalishika/NN-CIFT.
Apesar de suas capacidades notáveis, os LLMs aprendem representações de palavras que exibem a característica indesejada e ainda pouco compreendida de anisotropia. Neste artigo, argumentamos que o segundo momento no Adam é uma causa de embeddings anisotrópicos e sugerimos um otimizador modificado chamado Coupled Adam para mitigar o problema. Nossos experimentos demonstram que o Coupled Adam melhora significativamente a qualidade dos embeddings, ao mesmo tempo em que leva a um melhor desempenho em tarefas upstream e downstream em conjuntos de dados suficientemente grandes.
Modelos de Linguagem de Grande Escala (LLMs) deram passos significativos na geração de linguagem natural, mas frequentemente enfrentam desafios em tarefas que exigem cálculos precisos e análise estrutural. Este artigo investiga o desempenho de LLMs de última geração em tarefas de medição de complexidade linguística, por meio do cálculo da métrica de legibilidade LIX e da Distância Média de Dependência (ADD). Utilizando redações de estudantes do ensino médio e universitários suecos, avaliamos a capacidade dos modelos de calcular pontuações LIX e realizar análise de dependência, comparando seus resultados com verdades estabelecidas. Nossos resultados revelam que, embora todos os modelos demonstrem alguma capacidade para essas tarefas, o ChatGPT-o1-mini apresenta o desempenho mais consistente, alcançando a maior precisão tanto no cálculo do LIX quanto na análise de dependência. Além disso, observamos uma forte correlação significativa de -0,875 p 0,026 (N=6) entre a precisão dos modelos no cálculo do LIX e seu desempenho geral no benchmark Massive Multitask Language Understanding (MMLU). Esses resultados sugerem que as habilidades de medição de complexidade linguística podem servir como proxies ruidosos de zero-shot para avaliar as capacidades gerais dos LLMs, fornecendo um método prático para avaliação de modelos sem a necessidade de extensos conjuntos de dados de benchmarking.
A detecção de textos gerados por Modelos de Linguagem de Grande Escala (LLMs) pode levar a erros graves devido a decisões incorretas, como prejudicar a dignidade acadêmica de estudantes. Portanto, a detecção de textos de LLMs precisa garantir a interpretabilidade da decisão, o que pode ajudar os usuários a julgar quão confiável é sua previsão. Quando humanos verificam se um texto foi escrito por uma pessoa ou gerado por um LLM, eles intuitivamente investigam com qual deles o texto compartilha trechos mais semelhantes. No entanto, os detectores interpretáveis existentes não estão alinhados com o processo de tomada de decisão humano e falham em fornecer evidências que os usuários compreendam facilmente. Para preencher essa lacuna, apresentamos o ExaGPT, uma abordagem de detecção interpretável fundamentada no processo de tomada de decisão humano para verificar a origem de um texto. O ExaGPT identifica um texto verificando se ele compartilha trechos mais semelhantes com textos escritos por humanos ou com textos gerados por LLMs a partir de um repositório de dados. Essa abordagem pode fornecer exemplos de trechos semelhantes que contribuem para a decisão de cada trecho do texto como evidência. Nossa avaliação humana demonstra que fornecer exemplos de trechos semelhantes contribui de forma mais eficaz para julgar a correção da decisão do que os métodos interpretáveis existentes. Além disso, experimentos extensos em quatro domínios e três geradores mostram que o ExaGPT supera significativamente detectores poderosos anteriores, com um aumento de até +40,9 pontos de precisão em uma taxa de falsos positivos de 1%.