Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os LLMs impactam cada vez mais aplicações críticas de segurança, garantir sua segurança por meio de trilhos de proteção continua sendo um desafio fundamental. Este artigo propõe o GuardReasoner, um novo mecanismo de proteção para LLMs, orientando o modelo de proteção a aprender a raciocinar. Concretamente, primeiro criamos o conjunto de dados GuardReasonerTrain, que consiste em 127 mil amostras com 460 mil etapas detalhadas de raciocínio. Em seguida, introduzimos a SFT de raciocínio para desbloquear a capacidade de raciocínio dos modelos de proteção. Além disso, apresentamos o DPO de amostra difícil para fortalecer ainda mais sua capacidade de raciocínio. Dessa forma, o GuardReasoner alcança melhor desempenho, explicabilidade e generalização. Experimentos extensivos e análises em 13 benchmarks de 3 tarefas de trilhos de proteção demonstram sua superioridade. Notavelmente, o GuardReasoner 8B supera o GPT-4o+CoT em 5,74% e o LLaMA Guard 3 8B em 20,84% no escore F1 em média. Disponibilizamos os dados de treinamento, código e modelos com diferentes escalas (1B, 3B, 8B) do GuardReasoner em: https://github.com/yueliu1999/GuardReasoner/.
Modelos de linguagem de grande escala (LLMs) como o o1 da OpenAI têm demonstrado habilidades notáveis em tarefas de raciocínio complexo, escalando o cálculo no momento do teste e exibindo um pensamento profundo semelhante ao humano. No entanto, identificamos um fenômeno que denominamos de subpensamento, no qual LLMs semelhantes ao o1 frequentemente alternam entre diferentes pensamentos de raciocínio sem explorar suficientemente caminhos promissores para alcançar uma solução correta. Esse comportamento leva a uma profundidade inadequada de raciocínio e desempenho reduzido, especialmente em problemas matemáticos desafiadores. Para analisar sistematicamente esse problema, realizamos experimentos em três conjuntos de testes desafiadores e dois modelos representativos de código aberto semelhantes ao o1, revelando que a alternância frequente de pensamentos se correlaciona com respostas incorretas. Introduzimos uma métrica inovadora para quantificar o subpensamento, medindo a eficiência de tokens em respostas incorretas. Para lidar com o subpensamento, propomos uma estratégia de decodificação com uma penalidade de alternância de pensamento (TIP) que desencoraja transições prematuras entre pensamentos, incentivando uma exploração mais profunda de cada caminho de raciocínio. Os resultados experimentais demonstram que nossa abordagem melhora a precisão em conjuntos de dados desafiadores sem exigir ajustes finos no modelo. Nossas descobertas contribuem para a compreensão das ineficiências de raciocínio em LLMs semelhantes ao o1 e oferecem uma solução prática para aprimorar suas capacidades de resolução de problemas.
O treinamento de grandes modelos de linguagem (LLMs) é tipicamente distribuído entre um grande número de aceleradores para reduzir o tempo de treinamento. Como os estados internos e os gradientes de parâmetros precisam ser trocados a cada passo de gradiente, todos os dispositivos precisam estar localizados no mesmo local, utilizando links de comunicação de baixa latência e alta largura de banda para suportar o alto volume de bits trocados necessário. Recentemente, algoritmos distribuídos como o DiLoCo relaxaram essa restrição de co-localização: os aceleradores podem ser agrupados em "workers", onde as sincronizações entre os workers ocorrem apenas ocasionalmente. Isso significa que os workers podem ser conectados por links de comunicação de menor largura de banda sem afetar a qualidade do aprendizado. No entanto, nesses métodos, a comunicação entre os workers ainda requer a mesma largura de banda máxima de antes, já que as sincronizações exigem que todos os parâmetros sejam trocados entre todos os workers. Neste artigo, melhoramos o DiLoCo de três maneiras. Primeiro, sincronizamos apenas subconjuntos de parâmetros em sequência, em vez de todos de uma vez, o que reduz significativamente a largura de banda máxima. Segundo, permitimos que os workers continuem treinando enquanto sincronizam, o que diminui o tempo de relógio de parede. Terceiro, quantizamos os dados trocados pelos workers, o que reduz ainda mais a largura de banda entre os workers. Ao combinar adequadamente essas modificações, mostramos experimentalmente que podemos distribuir o treinamento de parâmetros em escala de bilhões e alcançar qualidade semelhante à anterior, mas reduzindo a largura de banda necessária em duas ordens de magnitude.
A irrupção do DeepSeek-R1 constitui um ponto de viragem para a indústria de IA em geral e para os LLMs em particular. Suas capacidades demonstraram um desempenho excepcional em várias tarefas, incluindo pensamento criativo, geração de código, matemática e reparo automático de programas, aparentemente a um custo de execução mais baixo. No entanto, os LLMs devem aderir a uma propriedade qualitativa importante, ou seja, sua alinhamento com a segurança e valores humanos. Um concorrente claro do DeepSeek-R1 é seu homólogo americano, o modelo o3-mini da OpenAI, que se espera estabelecer altos padrões em termos de desempenho, segurança e custo. Neste artigo, realizamos uma avaliação sistemática do nível de segurança de ambos, o DeepSeek-R1 (versão 70b) e o o3-mini da OpenAI (versão beta). Para isso, utilizamos nossa ferramenta de teste de segurança automatizada, chamada ASTRAL, recentemente lançada. Ao alavancar essa ferramenta, geramos e executamos automaticamente e sistematicamente um total de 1260 entradas de teste inseguras em ambos os modelos. Após realizar uma avaliação semi-automatizada dos resultados fornecidos pelos dois LLMs, os resultados indicam que o DeepSeek-R1 é altamente inseguro em comparação com o o3-mini da OpenAI. Com base em nossa avaliação, o DeepSeek-R1 respondeu de forma insegura a 11,98% dos prompts executados, enquanto o o3-mini apenas a 1,19%.
Grandes Modelos de Linguagem surgiram com muitas capacidades intelectuais. Embora numerosas referências avaliem sua inteligência, pouca atenção tem sido dada à capacidade de explorar, uma capacidade essencial para descobrir novas informações e se adaptar a ambientes novos em sistemas naturais e artificiais. A extensão em que os Grandes Modelos de Linguagem podem explorar de forma eficaz, especialmente em tarefas de natureza aberta, permanece incerta. Este estudo investiga se os Grandes Modelos de Linguagem podem superar os humanos na exploração durante uma tarefa de natureza aberta, utilizando Little Alchemy 2 como paradigma, onde agentes combinam elementos para descobrir novos. Os resultados mostram que a maioria dos Grandes Modelos de Linguagem tem desempenho inferior ao dos humanos, exceto pelo modelo o1, sendo que esses modelos tradicionais de Grande Modelo de Linguagem dependem principalmente de estratégias impulsionadas pela incerteza, ao contrário dos humanos que equilibram incerteza e capacitação. A análise representacional dos modelos com Autoencoders Esparsos revelou que a incerteza e as escolhas são representadas em blocos transformadores mais iniciais, enquanto os valores de capacitação são processados posteriormente, fazendo com que os Grandes Modelos de Linguagem pensem muito rapidamente e tomem decisões prematuras, prejudicando a exploração eficaz. Essas descobertas lançam luz sobre as limitações da exploração dos Grandes Modelos de Linguagem e sugerem direções para melhorar sua adaptabilidade.
Apresentamos o MedXpertQA, um benchmark altamente desafiador e abrangente para avaliar conhecimento médico de nível especializado e raciocínio avançado. O MedXpertQA inclui 4.460 perguntas abrangendo 17 especialidades e 11 sistemas corporais. Ele contém dois subconjuntos, Texto para avaliação de texto e MM para avaliação multimodal. Notavelmente, MM introduz perguntas de exame de nível especializado com diversas imagens e informações clínicas detalhadas, incluindo registros de pacientes e resultados de exames, diferenciando-se de benchmarks médicos multimodais tradicionais com pares de perguntas e respostas simples gerados a partir de legendas de imagens. O MedXpertQA aplica filtragem rigorosa e aumento para lidar com a dificuldade insuficiente de benchmarks existentes como o MedQA, e incorpora perguntas de conselhos especializados para melhorar a relevância clínica e abrangência. Realizamos síntese de dados para mitigar o risco de vazamento de dados e conduzimos múltiplas rodadas de revisões por especialistas para garantir precisão e confiabilidade. Avaliamos 16 modelos líderes no MedXpertQA. Além disso, a medicina está profundamente ligada à tomada de decisões do mundo real, fornecendo um cenário rico e representativo para avaliar habilidades de raciocínio além de matemática e código. Para isso, desenvolvemos um subconjunto orientado para raciocínio para facilitar a avaliação de modelos semelhantes ao o1.
O pós-treinamento do modelo de linguagem (LLM), desde DPO até a destilação, pode refinar comportamentos e desbloquear novas habilidades, mas a ciência aberta que apoia essas técnicas de pós-treinamento ainda está em seus estágios iniciais. Um fator limitante tem sido a dificuldade de conduzir análises comparativas em larga escala de modelos geradores de dados sintéticos e juízes de LLM. Para preencher essa lacuna, apresentamos o WILDCHAT-50M, o maior conjunto de dados de bate-papo público até o momento. Estendemos o conjunto de dados WildChat existente para incluir respostas não apenas do GPT, mas de mais de 50 modelos de peso aberto diferentes, variando em tamanho de 0,5B a 104B parâmetros. Realizamos uma análise comparativa extensiva e demonstramos o potencial deste conjunto de dados ao criar o RE-WILD, nossa própria mistura pública de SFT, que supera a recente mistura de SFT Tulu-3 da Allen AI com apenas 40% do número de amostras. Nosso conjunto de dados, amostras e código estão disponíveis em https://github.com/penfever/wildchat-50m.
Este artigo apresenta o SANA-1.5, um Transformador de Difusão Linear para escalabilidade eficiente na geração de texto para imagem. Construindo sobre o SANA-1.0, introduzimos três inovações-chave: (1) Escalonamento Eficiente do Treinamento: Um paradigma de crescimento em profundidade que permite a escalabilidade de 1,6B para 4,8B parâmetros com recursos computacionais significativamente reduzidos, combinado com um otimizador eficiente de 8 bits. (2) Poda de Profundidade do Modelo: Uma técnica de análise de importância de bloco para compressão eficiente do modelo para tamanhos arbitrários com perda mínima de qualidade. (3) Escalonamento no Tempo de Inferência: Uma estratégia de amostragem repetida que troca computação por capacidade do modelo, permitindo que modelos menores alcancem a qualidade de modelos maiores no tempo de inferência. Através dessas estratégias, o SANA-1.5 alcança uma pontuação de alinhamento texto-imagem de 0,72 no GenEval, que pode ser ainda melhorada para 0,80 através do escalonamento de inferência, estabelecendo um novo estado-da-arte no benchmark GenEval. Essas inovações possibilitam a escalabilidade eficiente do modelo em diferentes orçamentos computacionais mantendo alta qualidade, tornando a geração de imagens de alta qualidade mais acessível.
Compreender o mundo físico é um desafio fundamental na IA incorporada, crucial para capacitar agentes a realizar tarefas complexas e operar com segurança em ambientes do mundo real. Embora os Modelos Visão-Linguagem (VLMs) tenham mostrado grande promessa em raciocínio e planejamento de tarefas para agentes incorporados, sua capacidade de compreender fenômenos físicos permanece extremamente limitada. Para fechar essa lacuna, apresentamos o PhysBench, um benchmark abrangente projetado para avaliar a capacidade de compreensão do mundo físico dos VLMs em uma ampla variedade de tarefas. O PhysBench contém 10.002 entradas de dados de vídeo-imagem-texto entrelaçados, categorizados em quatro grandes domínios: propriedades de objetos físicos, relações entre objetos físicos, compreensão de cenas físicas e dinâmicas baseadas em física, divididas ainda em 19 subclasses e 8 dimensões de capacidade distintas. Nossos experimentos extensivos, realizados em 75 VLMs representativos, revelam que, embora esses modelos se destaquem no raciocínio de senso comum, eles têm dificuldade em compreender o mundo físico - provavelmente devido à ausência de conhecimento físico em seus dados de treinamento e à falta de premissas físicas incorporadas. Para lidar com essa deficiência, apresentamos o PhysAgent, um novo framework que combina as forças de generalização dos VLMs com a expertise especializada de modelos de visão, melhorando significativamente a compreensão física dos VLMs em uma variedade de tarefas, incluindo uma melhoria de 18,4\% no GPT-4o. Além disso, nossos resultados demonstram que aprimorar as capacidades de compreensão do mundo físico dos VLMs pode ajudar agentes incorporados, como o MOKA. Acreditamos que o PhysBench e o PhysAgent oferecem insights valiosos e contribuem para preencher a lacuna entre os VLMs e a compreensão do mundo físico.
Embora grande parte do trabalho em agentes web enfatize a promessa de realizar tarefas autonomamente em nome dos usuários, na realidade, os agentes muitas vezes falham em tarefas complexas em contextos do mundo real e na modelagem das preferências do usuário. Isso cria uma oportunidade para os humanos colaborarem com o agente e aproveitarem efetivamente as capacidades do agente. Propomos o CowPilot, um framework que suporta a navegação web autônoma, bem como a colaboração entre humanos e agentes, e a avaliação do sucesso e eficiência das tarefas. O CowPilot reduz o número de etapas que os humanos precisam realizar, permitindo que os agentes proponham os próximos passos, enquanto os usuários podem pausar, rejeitar ou tomar ações alternativas. Durante a execução, os usuários podem intercalar suas ações com as do agente, substituindo sugestões ou retomando o controle do agente quando necessário. Realizamos estudos de caso em cinco sites comuns e descobrimos que o modo colaborativo entre humanos e agentes alcança a maior taxa de sucesso, de 95%, exigindo que os humanos realizem apenas 15,2% do total de etapas. Mesmo com intervenções humanas durante a execução da tarefa, o agente consegue conduzir com sucesso até metade do sucesso da tarefa por conta própria. O CowPilot pode servir como uma ferramenta útil para coleta de dados e avaliação de agentes em sites, o que acreditamos que possibilitará pesquisas sobre como usuários e agentes podem trabalhar juntos. Demonstrativos em vídeo estão disponíveis em https://oaishi.github.io/cowpilot.html