Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de raciocínio extenso (LRMs), como o OpenAI-o1, têm demonstrado impressionantes capacidades de raciocínio passo a passo por meio de aprendizado por reforço em larga escala. No entanto, seus processos de raciocínio estendidos frequentemente sofrem de insuficiência de conhecimento, resultando em incertezas frequentes e possíveis erros. Para lidar com essa limitação, apresentamos o Search-o1, um framework que aprimora os LRMs com um mecanismo de geração aumentado por recuperação agente (RAG) e um módulo de Raciocínio em Documentos para refinar os documentos recuperados. O Search-o1 integra um fluxo de trabalho de busca agente no processo de raciocínio, permitindo a recuperação dinâmica de conhecimento externo quando os LRMs encontram pontos de conhecimento incertos. Além disso, devido à natureza detalhada dos documentos recuperados, projetamos um módulo separado de Raciocínio em Documentos para analisar profundamente as informações recuperadas antes de injetá-las na cadeia de raciocínio, minimizando ruídos e preservando o fluxo de raciocínio coerente. Experimentos extensivos em tarefas complexas de raciocínio em ciência, matemática e codificação, bem como em seis benchmarks de perguntas e respostas de domínio aberto, demonstram o forte desempenho do Search-o1. Esta abordagem aprimora a confiabilidade e aplicabilidade dos LRMs em tarefas de raciocínio complexas, abrindo caminho para sistemas inteligentes mais confiáveis e versáteis. O código está disponível em https://github.com/sunnynexus/Search-o1.
Existe uma alegação amplamente difundida de que as GANs são difíceis de treinar, e as arquiteturas de GAN na literatura estão repletas de truques empíricos. Apresentamos evidências contra essa alegação e construímos uma linha de base moderna de GAN de maneira mais fundamentada. Primeiramente, derivamos uma perda regularizada relativística bem-comportada que aborda questões de eliminação de modos e falta de convergência que foram anteriormente resolvidas por meio de um conjunto de truques ad hoc. Analisamos matematicamente nossa perda e demonstramos que ela admite garantias de convergência local, ao contrário da maioria das perdas relativísticas existentes. Em segundo lugar, nossa nova perda nos permite descartar todos os truques ad hoc e substituir espinhas dorsais desatualizadas usadas em GANs comuns por arquiteturas modernas. Usando o StyleGAN2 como exemplo, apresentamos um roteiro de simplificação e modernização que resulta em uma nova linha de base minimalista - R3GAN. Apesar de ser simples, nossa abordagem supera o StyleGAN2 nos conjuntos de dados FFHQ, ImageNet, CIFAR e Stacked MNIST, e se compara favoravelmente aos GANs e modelos de difusão de ponta.
Este artigo explora os avanços na tornar os grandes modelos de linguagem (LLMs) mais semelhantes aos humanos. Focamos em técnicas que aprimoram a compreensão da linguagem natural, a coerência conversacional e a inteligência emocional em sistemas de IA. O estudo avalia várias abordagens, incluindo ajuste fino com conjuntos de dados diversos, incorporação de princípios psicológicos e design de modelos que melhor imitam os padrões de raciocínio humano. Nossas descobertas demonstram que essas melhorias não apenas aprimoram as interações do usuário, mas também abrem novas possibilidades para aplicações de IA em diferentes domínios. Trabalhos futuros abordarão as implicações éticas e possíveis viéses introduzidos por esses atributos semelhantes aos humanos.
Estudamos empiricamente o pré-treinamento autoregressivo a partir de vídeos. Para realizar nosso estudo, construímos uma série de modelos de vídeo autoregressivos, chamados de Toto. Tratamos os vídeos como sequências de tokens visuais e treinamos modelos de transformer para prever autoregressivamente os tokens futuros. Nossos modelos são pré-treinados em um conjunto de dados diversificado de vídeos e imagens compreendendo mais de 1 trilhão de tokens visuais. Exploramos diferentes escolhas de arquitetura, treinamento e design de inferência. Avaliamos as representações visuais aprendidas em uma variedade de tarefas secundárias, incluindo reconhecimento de imagem, classificação de vídeo, rastreamento de objetos e robótica. Nossos resultados demonstram que, apesar de viéses indutivos mínimos, o pré-treinamento autoregressivo leva a um desempenho competitivo em todos os benchmarks. Por fim, descobrimos que o dimensionamento de nossos modelos de vídeo resulta em curvas de dimensionamento semelhantes às vistas em modelos de linguagem, embora com uma taxa diferente. Mais detalhes em https://brjathu.github.io/toto/
Avanços recentes em Modelos de Visão-Linguagem (VLMs) despertaram interesse em sua utilização para direção autônoma, especialmente na geração de decisões de direção interpretáveis por meio de linguagem natural. No entanto, a suposição de que os VLMs fornecem de forma inerente explicações visualmente fundamentadas, confiáveis e interpretáveis para direção permanece amplamente não examinada. Para abordar essa lacuna, apresentamos o DriveBench, um conjunto de dados de referência projetado para avaliar a confiabilidade dos VLMs em 17 configurações (entradas limpas, corrompidas e apenas de texto), abrangendo 19.200 quadros, 20.498 pares pergunta-resposta, três tipos de perguntas, quatro tarefas de direção principais e um total de 12 VLMs populares. Nossas descobertas revelam que os VLMs frequentemente geram respostas plausíveis derivadas de conhecimento geral ou pistas textuais em vez de fundamentação visual real, especialmente sob entradas visuais degradadas ou ausentes. Esse comportamento, mascarado por desequilíbrios nos conjuntos de dados e métricas de avaliação insuficientes, apresenta riscos significativos em cenários críticos de segurança, como direção autônoma. Observamos ainda que os VLMs enfrentam dificuldades com raciocínio multi-modal e exibem sensibilidade aumentada a corrupções de entrada, resultando em inconsistências de desempenho. Para lidar com esses desafios, propomos métricas de avaliação refinadas que priorizam uma fundamentação visual robusta e compreensão multi-modal. Além disso, destacamos o potencial de aproveitar a consciência dos VLMs sobre corrupções para aprimorar sua confiabilidade, oferecendo um roteiro para o desenvolvimento de sistemas de tomada de decisão mais confiáveis e interpretáveis em contextos reais de direção autônoma. O conjunto de ferramentas de referência está publicamente acessível.
A maioria dos Modelos de Grande Escala de Visão-Linguagem (LVLMs, na sigla em inglês) até o momento são treinados predominantemente em dados em inglês, o que os faz ter dificuldade em entender entradas em idiomas não ingleses e falhar na geração de saída no idioma-alvo desejado. Esforços existentes para mitigar esses problemas adicionam dados de treinamento multilíngues, porém o fazem de maneira em grande parte ad hoc, sem insights sobre como diferentes misturas de treinamento influenciam de forma diferente os grupos de idiomas. Neste trabalho, apresentamos uma investigação abrangente sobre as estratégias de treinamento para LVLMs massivamente multilíngues. Primeiramente, conduzimos uma série de experimentos em múltiplos estágios abrangendo 13 tarefas de visão-linguagem e 43 idiomas, examinando sistematicamente: (1) o número de idiomas de treinamento que podem ser incluídos sem degradar o desempenho em inglês e (2) as distribuições ótimas de idiomas para pré-treinamento, bem como (3) dados de ajuste de instruções. Além disso, investigamos como melhorar a compreensão multilíngue de texto em imagem e introduzimos um novo benchmark para a tarefa. Surpreendentemente, nossa análise revela que é possível (i) incluir até 100 idiomas de treinamento simultaneamente (ii) com tão pouco quanto 25-50\% de dados não em inglês, para melhorar significativamente o desempenho multilíngue mantendo um forte desempenho em inglês. Descobrimos ainda que (iii) incluir dados de OCR não em inglês no pré-treinamento e ajuste de instruções é fundamental para melhorar a compreensão multilíngue de texto em imagem. Por fim, reunimos todas as nossas descobertas e treinamos o Centurio, um LVLM de 100 idiomas, oferecendo desempenho de ponta em uma avaliação que abrange 14 tarefas e 56 idiomas.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado uma notável proficiência em uma variedade de tarefas complexas. Uma aplicação significativa dos LLMs é lidar com desafios de engenharia de software, especialmente na resolução de tarefas do mundo real no GitHub ao corrigir código com base nos problemas relatados pelos usuários. No entanto, muitas abordagens atuais dependem de LLMs proprietários, o que limita a reprodutibilidade, acessibilidade e transparência. Os componentes críticos dos LLMs para lidar com problemas de engenharia de software e como suas capacidades podem ser aprimoradas de forma eficaz permanecem incertos. Para enfrentar esses desafios, apresentamos o SWE-Fixer, um novo LLM de código aberto projetado para resolver de forma eficaz e eficiente problemas do GitHub. O SWE-Fixer é composto por dois módulos essenciais: um módulo de recuperação de arquivos de código e um módulo de edição de código. O módulo de recuperação utiliza o BM25 juntamente com um modelo LLM leve para alcançar a recuperação de arquivos de forma grosseira a refinada. Posteriormente, o módulo de edição de código utiliza o outro modelo LLM para gerar patches para os arquivos identificados. Em seguida, para mitigar a falta de conjuntos de dados publicamente disponíveis, compilamos um extenso conjunto de dados que inclui 110 mil problemas do GitHub juntamente com seus patches correspondentes, e treinamos os dois módulos do SWE-Fixer separadamente. Avaliamos nossa abordagem nos benchmarks SWE-Bench Lite e Verified, alcançando desempenho de ponta entre os modelos de código aberto, com pontuações de 23,3% e 30,2%, respectivamente. Esses resultados destacam a eficácia de nossa abordagem. Disponibilizaremos nosso modelo, conjunto de dados e código publicamente em https://github.com/InternLM/SWE-Fixer.
Recentemente, os Modelos Visuais Autoregressivos (VAR) introduziram um avanço inovador no campo da geração de imagens, oferecendo uma abordagem escalável por meio de um paradigma de "próxima escala de previsão" de grosso a fino. No entanto, o algoritmo de ponta dos modelos VAR em [Tian, Jiang, Yuan, Peng e Wang, NeurIPS 2024] leva tempo O(n^4), o que é computacionalmente ineficiente. Neste trabalho, analisamos os limites computacionais e os critérios de eficiência dos Modelos VAR por meio de uma lente de complexidade detalhada. Nossa contribuição chave é identificar as condições sob as quais os cálculos VAR podem alcançar uma complexidade de tempo subquadrática. Especificamente, estabelecemos um limiar crítico para a norma das matrizes de entrada usadas nos mecanismos de atenção VAR. Acima desse limiar, assumindo a Hipótese do Tempo Exponencial Forte (SETH) da teoria de complexidade detalhada, um algoritmo de tempo subquártico para modelos VAR é impossível. Para fundamentar nossas descobertas teóricas, apresentamos construções eficientes aproveitando aproximações de baixa patente que se alinham com os critérios derivados. Este trabalho inicia o estudo da eficiência computacional do modelo VAR de uma perspectiva teórica. Nossa técnica lançará luz sobre o avanço da geração de imagens escaláveis e eficientes em estruturas VAR.
A prevalência de modelos de linguagem proprietários tem levantado preocupações críticas de privacidade, exigindo avanços em inferência privada (IP), onde cálculos são realizados diretamente em dados criptografados sem revelar informações sensíveis dos usuários. Embora a IP ofereça uma solução promissora, sua implementação prática é prejudicada por substanciais sobrecargas de comunicação e latência, principalmente decorrentes de operações não lineares. Para lidar com isso, introduzimos um framework teórico da informação para caracterizar o papel das não linearidades em modelos de linguagem de decodificação única, estabelecendo uma base fundamentada para otimizar arquiteturas de transformadores adaptadas às demandas da IP. Ao alavancar a entropia de Shannon como uma medida quantitativa, descobrimos o significado dual das não linearidades anteriormente não explorado: além de garantir estabilidade de treinamento, elas são cruciais para manter a diversidade de cabeças de atenção. Especificamente, descobrimos que a remoção delas desencadeia dois modos críticos de falha: o "colapso de entropia" em camadas mais profundas que desestabiliza o treinamento, e a "sobrecarga entrópica" em camadas mais iniciais que leva à subutilização da capacidade representacional da Atenção Multi-Cabeça (AMC). Propomos um mecanismo de atenção guiado por entropia combinado com uma técnica de regularização de entropia inovadora para mitigar a sobrecarga entrópica. Além disso, exploramos alternativas amigáveis à IP para normalização de camada a fim de prevenir o colapso de entropia e estabilizar o treinamento de LLMs com menos não linearidades. Nosso estudo preenche a lacuna entre teoria da informação e design arquitetônico, estabelecendo a dinâmica de entropia como um guia fundamentado para desenvolver arquiteturas eficientes de IP. O código e a implementação estão disponíveis em https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Este artigo apresenta recursos e modelos fundamentais para o processamento de linguagem natural (PLN) do turco histórico, um domínio que tem sido pouco explorado na linguística computacional. Apresentamos o primeiro conjunto de dados de reconhecimento de entidades nomeadas (NER), HisTR, e o primeiro banco de árvores de Dependências Universais, OTA-BOUN, para uma forma histórica da língua turca, juntamente com modelos baseados em transformadores treinados usando esses conjuntos de dados para tarefas de reconhecimento de entidades nomeadas, análise de dependências e marcação de partes do discurso. Além disso, introduzimos o Corpus de Texto Otomano (OTC), um corpus limpo de textos históricos turcos transliterados que abrange uma ampla gama de períodos históricos. Nossos resultados experimentais mostram melhorias significativas na análise computacional do turco histórico, alcançando resultados promissores em tarefas que exigem compreensão das estruturas linguísticas históricas. Eles também destacam desafios existentes, como adaptação de domínio e variações linguísticas ao longo dos períodos de tempo. Todos os recursos e modelos apresentados estão disponíveis em https://huggingface.co/bucolin para servir como referência para futuros avanços no PLN do turco histórico.