Artigos de pesquisa em IA selecionados diariamente com traduções
A navegação na web é um domínio único que pode automatizar muitas tarefas repetitivas da vida real e é desafiador, pois requer tomada de decisão sequencial de longo prazo, indo além das tarefas típicas dos modelos de linguagem multimodal de grande escala (MLLM). No entanto, até agora, faltavam modelos de recompensa especializados para navegação na web que pudessem ser utilizados tanto durante o treinamento quanto no momento do teste. Apesar da importância da velocidade e da relação custo-benefício, trabalhos anteriores utilizaram MLLMs como modelos de recompensa, o que impõe restrições significativas para a implantação no mundo real. Para resolver isso, neste trabalho, propomos o primeiro modelo de recompensa de processo (PRM), chamado Web-Shepherd, que pode avaliar trajetórias de navegação na web em nível de etapa. Para alcançar isso, primeiro construímos o WebPRM Collection, um conjunto de dados em larga escala com 40 mil pares de preferência em nível de etapa e listas de verificação anotadas, abrangendo diversos domínios e níveis de dificuldade. Em seguida, também introduzimos o WebRewardBench, o primeiro benchmark de meta-avaliação para avaliar PRMs. Em nossos experimentos, observamos que nosso Web-Shepherd alcança uma precisão cerca de 30 pontos melhor em comparação com o uso do GPT-4o no WebRewardBench. Além disso, ao testar no WebArena-lite usando o GPT-4o-mini como política e o Web-Shepherd como verificador, alcançamos um desempenho 10,9 pontos melhor, com um custo 10 vezes menor em comparação com o uso do GPT-4o-mini como verificador. Nosso modelo, conjunto de dados e código estão publicamente disponíveis em LINK.
Apresentamos o MMaDA, uma nova classe de modelos de fundação de difusão multimodal projetados para alcançar desempenho superior em diversos domínios, como raciocínio textual, compreensão multimodal e geração de texto para imagem. A abordagem é diferenciada por três inovações principais: (i) O MMaDA adota uma arquitetura de difusão unificada com uma formulação probabilística compartilhada e um design agnóstico à modalidade, eliminando a necessidade de componentes específicos para cada modalidade. Essa arquitetura garante integração e processamento contínuos entre diferentes tipos de dados. (ii) Implementamos uma estratégia de ajuste fino de cadeia de pensamento (CoT) mista e longa que organiza um formato unificado de CoT entre modalidades. Ao alinhar os processos de raciocínio entre os domínios textual e visual, essa estratégia facilita o treinamento de partida a frio para a etapa final de aprendizado por reforço (RL), aprimorando assim a capacidade do modelo de lidar com tarefas complexas desde o início. (iii) Propomos o UniGRPO, um algoritmo de RL baseado em gradiente de política unificado, especificamente adaptado para modelos de fundação de difusão. Utilizando modelagem de recompensa diversificada, o UniGRPO unifica o pós-treinamento em tarefas de raciocínio e geração, garantindo melhorias consistentes de desempenho. Resultados experimentais demonstram que o MMaDA-8B exibe fortes capacidades de generalização como um modelo de fundação multimodal unificado. Ele supera modelos poderosos como o LLaMA-3-7B e o Qwen2-7B em raciocínio textual, supera o Show-o e o SEED-X em compreensão multimodal e se destaca em relação ao SDXL e ao Janus na geração de texto para imagem. Essas conquistas destacam a eficácia do MMaDA em preencher a lacuna entre pré-treinamento e pós-treinamento dentro de arquiteturas de difusão unificadas, fornecendo uma estrutura abrangente para pesquisas e desenvolvimentos futuros. Disponibilizamos nosso código e modelos treinados em: https://github.com/Gen-Verse/MMaDA.
Modelos de linguagem de grande escala (LLMs) exigem recursos computacionais e de memória substanciais, criando desafios de implantação. O treinamento com consciência de quantização (QAT) aborda esses desafios ao reduzir a precisão do modelo enquanto mantém o desempenho. No entanto, o comportamento de escalonamento do QAT, especialmente em precisão de 4 bits (W4A4), não é bem compreendido. As leis de escalonamento de QAT existentes frequentemente ignoram fatores-chave, como o número de tokens de treinamento e a granularidade da quantização, o que limita sua aplicabilidade. Este artigo propõe uma lei de escalonamento unificada para QAT que modela o erro de quantização como uma função do tamanho do modelo, volume de dados de treinamento e tamanho do grupo de quantização. Através de 268 experimentos de QAT, mostramos que o erro de quantização diminui à medida que o tamanho do modelo aumenta, mas aumenta com mais tokens de treinamento e granularidade de quantização mais grossa. Para identificar as fontes do erro de quantização W4A4, decompomos esse erro em componentes de peso e ativação. Ambos os componentes seguem a tendência geral do erro de quantização W4A4, mas com sensibilidades diferentes. Especificamente, o erro de quantização de peso aumenta mais rapidamente com mais tokens de treinamento. Uma análise mais aprofundada mostra que o erro de quantização de ativação na camada FC2, causado por valores atípicos, é o principal gargalo do erro de quantização QAT W4A4. Ao aplicar quantização de precisão mista para abordar esse gargalo, demonstramos que os erros de quantização de peso e ativação podem convergir para níveis semelhantes. Além disso, com mais dados de treinamento, o erro de quantização de peso eventualmente excede o erro de quantização de ativação, sugerindo que a redução do erro de quantização de peso também é importante nesses cenários. Essas descobertas oferecem insights importantes para melhorar a pesquisa e o desenvolvimento de QAT.
Modelos de incorporação de texto baseados em grandes modelos de linguagem (LLMs), beneficiando-se de pré-treinamento e pós-treinamento em larga escala, começaram a superar modelos baseados em BERT e T5 em tarefas gerais de incorporação de texto, como recuperação de documentos. No entanto, uma limitação fundamental das incorporações de LLMs reside na atenção unidirecional utilizada durante o pré-treinamento autoregressivo, que não está alinhada com a natureza bidirecional das tarefas de incorporação de texto. Para isso, propomos a adoção de modelos de linguagem de difusão para incorporações de texto, motivados por sua arquitetura bidirecional inerente e sucesso recente em igualar ou superar LLMs, especialmente em tarefas de raciocínio. Apresentamos o primeiro estudo sistemático do modelo de incorporação de linguagem de difusão, que supera o modelo de incorporação baseado em LLM em 20% na recuperação de documentos longos, 8% na recuperação intensiva em raciocínio, 2% na recuperação de seguimento de instruções e alcança desempenho competitivo em benchmarks tradicionais de incorporação de texto. Nossa análise verifica que a atenção bidirecional é crucial para codificar o contexto global em textos longos e complexos.
Os métodos tradicionais de ancoragem visual concentram-se principalmente em cenários de imagem única com referências textuais simples. No entanto, estender esses métodos para cenários do mundo real que envolvem instruções implícitas e complexas, particularmente em conjunto com múltiplas imagens, apresenta desafios significativos, principalmente devido à falta de capacidade avançada de raciocínio em contextos multimodais diversos. Neste trabalho, visamos abordar a tarefa mais prática de ancoragem universal e propomos o UniVG-R1, um modelo de linguagem multimodal (MLLM) guiado por raciocínio para ancoragem visual universal, que aprimora as capacidades de raciocínio por meio de aprendizado por reforço (RL) combinado com dados de inicialização a frio. Especificamente, primeiro construímos um conjunto de dados de ancoragem de Chain-of-Thought (CoT) de alta qualidade, anotado com cadeias de raciocínio detalhadas, para guiar o modelo em direção a caminhos de raciocínio corretos por meio de ajuste fino supervisionado. Posteriormente, realizamos aprendizado por reforço baseado em regras para incentivar o modelo a identificar cadeias de raciocínio corretas, promovendo assim suas capacidades de raciocínio. Além disso, identificamos um viés de dificuldade decorrente da prevalência de amostras fáceis à medida que o treinamento de RL avança, e propomos uma estratégia de ajuste de peso consciente da dificuldade para fortalecer ainda mais o desempenho. Os resultados experimentais demonstram a eficácia do UniVG-R1, que alcança desempenho de ponta no MIG-Bench com uma melhoria de 9,1% em relação ao método anterior. Além disso, nosso modelo exibe forte generalização, alcançando uma melhoria média de 23,4% no desempenho zero-shot em quatro benchmarks de ancoragem de raciocínio em imagens e vídeos. A página do projeto pode ser acessada em https://amap-ml.github.io/UniVG-R1-page/.
A ampliação de dados de trajetória de alta qualidade tem sido um gargalo crítico para o desenvolvimento de agentes de uso de computador com comportamento humano. Apresentamos o PC Agent-E, uma estrutura eficiente de treinamento de agentes que reduz significativamente a dependência de demonstrações humanas em larga escala. Começando com apenas 312 trajetórias de uso de computador anotadas por humanos, aprimoramos ainda mais a qualidade dos dados sintetizando diversas decisões de ação com o Claude 3.7 Sonnet. Treinado nessas trajetórias enriquecidas, nosso modelo PC Agent-E alcançou uma melhoria relativa impressionante de 141%, superando o robusto Claude 3.7 Sonnet com pensamento estendido no WindowsAgentArena-V2, um benchmark aprimorado que também lançamos. Além disso, o PC Agent-E demonstra forte generalização para diferentes sistemas operacionais no OSWorld. Nossos achados sugerem que capacidades avançadas de uso de computador podem ser estimuladas a partir de uma pequena quantidade de dados de trajetória de alta qualidade.
Apresentamos o Toto, um modelo base de previsão de séries temporais com 151 milhões de parâmetros. O Toto utiliza uma arquitetura moderna apenas de decodificador, combinada com inovações arquitetônicas projetadas para lidar com desafios específicos encontrados em dados de séries temporais multivariadas de observabilidade. O corpus de pré-treinamento do Toto é uma mistura de dados de observabilidade, conjuntos de dados abertos e dados sintéticos, sendo 4 a 10 vezes maior do que os dos principais modelos base de séries temporais. Além disso, introduzimos o BOOM, um benchmark em larga escala composto por 350 milhões de observações em 2.807 séries temporais do mundo real. Tanto para o Toto quanto para o BOOM, os dados de observabilidade são obtidos exclusivamente da telemetria e métricas internas de observabilidade da própria Datadog. Avaliações extensivas demonstram que o Toto alcança desempenho de ponta tanto no BOOM quanto em benchmarks estabelecidos de previsão de séries temporais de propósito geral. Os pesos do modelo Toto, código de inferência e scripts de avaliação, bem como os dados e código de avaliação do BOOM, estão todos disponíveis como código aberto sob a Licença Apache 2.0 em https://huggingface.co/Datadog/Toto-Open-Base-1.0 e https://github.com/DataDog/toto.
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis na resolução de problemas complexos por meio de aprendizado por reforço (RL), especialmente ao gerar longos traços de raciocínio. No entanto, essas saídas extensas frequentemente apresentam redundância substancial, o que limita a eficiência dos LRMs. Neste artigo, investigamos abordagens baseadas em RL para promover a eficiência do raciocínio. Especificamente, primeiro apresentamos um framework unificado que formula vários métodos de raciocínio eficiente através da lente da modelagem de recompensa baseada em comprimento. Com base nessa perspectiva, propomos um novo método de modelagem de recompensa baseada em comprimento e passo (LASER), que emprega uma função degrau como recompensa, controlada por um comprimento alvo. O LASER supera métodos anteriores, alcançando um equilíbrio Pareto-ótimo superior entre desempenho e eficiência. Em seguida, estendemos ainda mais o LASER com base em duas intuições principais: (1) O comportamento de raciocínio do modelo evolui durante o treinamento, exigindo especificações de recompensa que também sejam adaptativas e dinâmicas; (2) Em vez de encorajar uniformemente cadeias de pensamento (CoT) mais curtas ou mais longas, postulamos que a modelagem de recompensa baseada em comprimento deve ser consciente da dificuldade, ou seja, deve penalizar CoTs longos mais severamente para consultas fáceis. Essa abordagem deve facilitar uma combinação de pensamento rápido e lento, levando a um melhor equilíbrio geral. O método resultante é denominado LASER-D (Dinâmico e Consciente da Dificuldade). Experimentos nos modelos DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B e DeepSeek-R1-Distill-Qwen-32B mostram que nossa abordagem melhora significativamente tanto o desempenho do raciocínio quanto a eficiência do comprimento da resposta. Por exemplo, o LASER-D e sua variante alcançam uma melhoria de +6.1 no AIME2024 enquanto reduzem o uso de tokens em 63%. Análises adicionais revelam que nossa compressão baseada em RL produz padrões de raciocínio mais concisos com menos "auto-reflexões" redundantes. Os recursos estão disponíveis em https://github.com/hkust-nlp/Laser.
Modelos de mundo, que preveem transições com base em sequências de observações e ações históricas, têm mostrado grande potencial para melhorar a eficiência de dados na tomada de decisões sequenciais. No entanto, os modelos de mundo existentes frequentemente exigem treinamento extensivo específico do domínio e ainda produzem previsões de baixa fidelidade e grosseiras, limitando sua aplicabilidade em ambientes complexos. Em contraste, modelos de difusão de vídeo treinados em grandes conjuntos de dados em escala da internet demonstraram capacidades impressionantes na geração de vídeos de alta qualidade que capturam dinâmicas diversas do mundo real. Neste trabalho, apresentamos o Vid2World, uma abordagem geral para aproveitar e transferir modelos de difusão de vídeo pré-treinados para modelos de mundo interativos. Para preencher essa lacuna, o Vid2World realiza a casualização de um modelo de difusão de vídeo pré-treinado, adaptando sua arquitetura e objetivo de treinamento para permitir a geração autoregressiva. Além disso, ele introduz um mecanismo de orientação causal de ações para melhorar a controlabilidade das ações no modelo de mundo interativo resultante. Experimentos extensos em domínios de manipulação robótica e simulação de jogos mostram que nosso método oferece uma abordagem escalável e eficaz para reutilizar modelos de difusão de vídeo altamente capazes como modelos de mundo interativos.
A aquisição de cenas 3D detalhadas geralmente exige equipamentos caros, dados de múltiplas vistas ou modelagem intensiva em mão de obra. Portanto, uma alternativa leve, que gera cenas 3D complexas a partir de uma única imagem de vista superior, desempenha um papel essencial em aplicações do mundo real. Embora modelos generativos 3D recentes tenham alcançado resultados notáveis no nível de objetos, sua extensão para a geração de cenas completas frequentemente resulta em geometria inconsistente, alucinações de layout e malhas de baixa qualidade. Neste trabalho, apresentamos o 3DTown, uma estrutura sem necessidade de treinamento projetada para sintetizar cenas 3D realistas e coerentes a partir de uma única vista superior. Nosso método é baseado em dois princípios: geração baseada em regiões para melhorar o alinhamento e a resolução de imagem para 3D, e preenchimento 3D espacialmente consciente para garantir a coerência global da cena e a geração de geometria de alta qualidade. Especificamente, decompomos a imagem de entrada em regiões sobrepostas e geramos cada uma usando um gerador de objetos 3D pré-treinado, seguido por um processo de preenchimento de fluxo retificado com máscara que preenche a geometria ausente enquanto mantém a continuidade estrutural. Esse design modular nos permite superar gargalos de resolução e preservar a estrutura espacial sem a necessidade de supervisão 3D ou ajuste fino. Experimentos extensos em diversas cenas mostram que o 3DTown supera as bases de referência mais avançadas, incluindo Trellis, Hunyuan3D-2 e TripoSG, em termos de qualidade de geometria, coerência espacial e fidelidade de textura. Nossos resultados demonstram que a geração de cidades 3D de alta qualidade é alcançável a partir de uma única imagem usando uma abordagem fundamentada e sem necessidade de treinamento.
Modelos de raciocínio de grande escala (LRMs) alcançam desempenho notável por meio de longas cadeias de raciocínio, mas frequentemente incorrem em sobrecarga computacional excessiva devido a raciocínios redundantes, especialmente em tarefas simples. Neste trabalho, quantificamos sistematicamente os limites superiores dos LRMs nos modos Pensamento Longo e Sem Pensamento, e descobrimos o fenômeno do "Mecanismo de Autorrecuperação Interna", onde os modelos implicitamente complementam o raciocínio durante a geração de respostas. Com base nessa percepção, propomos o Raciocínio de Autorrecuperação Adaptativa (ASRR), uma estrutura que suprime raciocínios desnecessários e permite a recuperação implícita. Ao introduzir a regulação de recompensa de comprimento baseada em precisão, o ASRR aloca esforço de raciocínio de forma adaptativa de acordo com a dificuldade do problema, alcançando alta eficiência com sacrifício de desempenho insignificante. Experimentos em múltiplos benchmarks e modelos mostram que, em comparação com o GRPO, o ASRR reduz o orçamento de raciocínio em até 32,5% (1,5B) e 25,7% (7B) com perda mínima de precisão (1,2% e 0,6% pass@1), e aumenta significativamente as taxas de inofensividade em benchmarks de segurança (até +21,7%). Nossos resultados destacam o potencial do ASRR para permitir raciocínio eficiente, adaptativo e mais seguro em LRMs.
Jogar videogames exige percepção, memória e planejamento, exatamente as habilidades que os agentes modernos de modelos de linguagem de grande escala (LLMs) devem dominar. Estudamos os principais desafios em usar videogames populares para avaliar LLMs modernos e descobrimos que inserir LLMs diretamente em jogos não pode resultar em uma avaliação eficaz, por três razões: percepção visual frágil, sensibilidade a prompts e possível contaminação de dados. Introduzimos o lmgame-Bench para transformar jogos em avaliações confiáveis. O lmgame-Bench apresenta um conjunto de jogos de plataforma, quebra-cabeças e narrativos entregues por meio de uma API unificada no estilo Gym e emparelhados com estruturas leves de percepção e memória, sendo projetado para estabilizar a variação de prompts e remover contaminação. Em 13 modelos líderes, mostramos que o lmgame-Bench é desafiador, mas ainda assim separa bem os modelos. A análise de correlação mostra que cada jogo explora uma combinação única de habilidades frequentemente testadas isoladamente em outros contextos. Mais interessante ainda, realizar aprendizado por reforço em um único jogo do lmgame-Bench se transfere tanto para jogos não vistos quanto para tarefas externas de planejamento. Nosso código de avaliação está disponível em https://github.com/lmgame-org/GamingAgent/lmgame-bench.
A cognição humana normalmente envolve pensar por meio de conceitos abstratos e fluidos, em vez de usar estritamente tokens linguísticos discretos. No entanto, os modelos de raciocínio atuais estão limitados a raciocinar dentro dos limites da linguagem humana, processando embeddings de tokens discretos que representam pontos fixos no espaço semântico. Essa restrição discreta limita o poder expressivo e o potencial máximo desses modelos de raciocínio, frequentemente causando uma exploração incompleta dos caminhos de raciocínio, já que os métodos padrão de Chain-of-Thought (CoT) dependem da amostragem de um token por etapa. Neste trabalho, introduzimos o Soft Thinking, um método sem necessidade de treinamento que emula o raciocínio "suave" semelhante ao humano, gerando tokens de conceitos abstratos e suaves em um espaço conceitual contínuo. Esses tokens de conceitos são criados pela mistura ponderada por probabilidade de embeddings de tokens, que formam o espaço conceitual contínuo, permitindo transições suaves e representações mais ricas que transcendem os limites discretos tradicionais. Em essência, cada token de conceito gerado encapsula múltiplos significados de tokens discretos relacionados, explorando implicitamente vários caminhos de raciocínio para convergir efetivamente para a resposta correta. Avaliações empíricas em diversos benchmarks matemáticos e de codificação demonstram consistentemente a eficácia e eficiência do Soft Thinking, melhorando a precisão pass@1 em até 2,48 pontos enquanto reduz o uso de tokens em até 22,4% em comparação com o CoT padrão. Análises qualitativas revelam ainda que as saídas do Soft Thinking permanecem altamente interpretáveis e legíveis, destacando o potencial do Soft Thinking para superar o gargalo inerente ao raciocínio baseado em linguagem discreta. O código está disponível em https://github.com/eric-ai-lab/Soft-Thinking.
Os seres humanos utilizam naturalmente múltiplas modalidades de raciocínio para aprender e resolver problemas lógicos, ou seja, diferentes formatos de representação, como linguagem natural, código e lógica simbólica. Em contraste, a maioria das abordagens existentes baseadas em LLMs opera com uma única modalidade de raciocínio durante o treinamento, tipicamente a linguagem natural. Embora alguns métodos tenham explorado a seleção ou ampliação de modalidades no momento da inferência, o processo de treinamento permanece cego às modalidades, limitando a sinergia entre elas. Para preencher essa lacuna, propomos o Mixture-of-Thought (MoT), um framework que permite que LLMs raciocinem através de três modalidades complementares: linguagem natural, código e uma nova modalidade simbólica, a tabela-verdade, que enumera sistematicamente casos lógicos e mitiga parcialmente modos de falha críticos no raciocínio em linguagem natural. O MoT adota um design em duas fases: (1) treinamento auto-evolutivo do MoT, que aprende conjuntamente a partir de racionalidades auto-geradas e filtradas entre as modalidades; e (2) inferência do MoT, que aproveita plenamente a sinergia das três modalidades para produzir previsões melhores. Experimentos em benchmarks de raciocínio lógico, incluindo FOLIO e ProofWriter, demonstram que nosso framework MoT supera consistentemente e de forma significativa as abordagens de chain-of-thought com modalidade única em LLMs, alcançando um ganho médio de precisão de até +11,7pp. Análises adicionais mostram que nosso framework MoT beneficia tanto o treinamento quanto a inferência; que é particularmente eficaz em problemas de raciocínio lógico mais difíceis; e que diferentes modalidades contribuem com pontos fortes complementares, com o raciocínio por tabela-verdade ajudando a superar gargalos críticos na inferência em linguagem natural.
Modelos de raciocínio em larga escala, como o OpenAI o1 e o DeepSeek-R1, alcançaram desempenho notável no domínio do raciocínio. Um componente essencial de seu treinamento é a incorporação de recompensas verificáveis no aprendizado por reforço (RL). No entanto, os benchmarks de recompensa existentes não avaliam sistemas de recompensa baseados em referência, deixando os pesquisadores com uma compreensão limitada da precisão dos verificadores utilizados no RL. Neste artigo, introduzimos dois benchmarks, VerifyBench e VerifyBench-Hard, projetados para avaliar o desempenho de sistemas de recompensa baseados em referência. Esses benchmarks são construídos por meio de coleta e curadoria meticulosa de dados, seguida por anotação humana cuidadosa para garantir alta qualidade. Os modelos atuais ainda mostram espaço considerável para melhoria tanto no VerifyBench quanto no VerifyBench-Hard, especialmente modelos em menor escala. Além disso, realizamos uma análise detalhada e abrangente dos resultados de avaliação, oferecendo insights para a compreensão e o desenvolvimento de sistemas de recompensa baseados em referência. Nossos benchmarks propostos servem como ferramentas eficazes para orientar o desenvolvimento da precisão dos verificadores e das capacidades de raciocínio de modelos treinados via RL em tarefas de raciocínio.
A geração aumentada por recuperação baseada em grafos de conhecimento busca mitigar alucinações em Modelos de Linguagem de Grande Escala (LLMs) causadas por conhecimento insuficiente ou desatualizado. No entanto, os métodos existentes frequentemente falham em explorar completamente o conhecimento prévio incorporado em grafos de conhecimento (KGs), particularmente sua informação estrutural e restrições explícitas ou implícitas. A primeira pode melhorar a fidelidade do raciocínio dos LLMs, enquanto a segunda pode aumentar a confiabilidade da geração de respostas. Motivados por isso, propomos um framework de raciocínio confiável, denominado Deliberação sobre Prioris (DP), que utiliza suficientemente os prioris contidos em KGs. Especificamente, o DP adota uma estratégia progressiva de destilação de conhecimento que integra prioris estruturais nos LLMs por meio de uma combinação de ajuste fino supervisionado e otimização de Kahneman-Tversky, melhorando assim a fidelidade da geração de caminhos de relação. Além disso, nosso framework emprega uma estratégia de introspecção de raciocínio, que orienta os LLMs a realizar uma verificação refinada de raciocínio com base em prioris de restrição extraídos, garantindo a confiabilidade da geração de respostas. Experimentos extensivos em três conjuntos de dados de referência demonstram que o DP alcança um novo desempenho de ponta, especialmente uma melhoria de 13% no Hit@1 no conjunto de dados ComplexWebQuestions, e gera respostas altamente confiáveis. Também realizamos várias análises para verificar sua flexibilidade e praticidade. O código está disponível em https://github.com/reml-group/Deliberation-on-Priors.
Modelos de mundo preveem transições de estado em resposta a ações e estão sendo cada vez mais desenvolvidos em diversas modalidades. No entanto, objetivos de treinamento padrão, como a estimativa de máxima verossimilhança (MLE), frequentemente se desalinham com metas específicas de tarefas dos modelos de mundo, ou seja, métricas de previsão de transição como precisão ou qualidade perceptual. Neste artigo, apresentamos o RLVR-World, uma estrutura unificada que aproveita o aprendizado por reforço com recompensas verificáveis (RLVR) para otimizar diretamente modelos de mundo para tais métricas. Apesar de formular a modelagem de mundo como previsão autoregressiva de sequências tokenizadas, o RLVR-World avalia métricas de previsões decodificadas como recompensas verificáveis. Demonstramos ganhos substanciais de desempenho em modelos de mundo baseados em linguagem e vídeo em diversos domínios, incluindo jogos de texto, navegação na web e manipulação robótica. Nosso trabalho indica que, além dos avanços recentes em modelos de linguagem de raciocínio, o RLVR oferece um paradigma promissor de pós-treinamento para aprimorar a utilidade de modelos generativos de forma mais ampla.
Os Modelos de Linguagem de Difusão (DLMs, na sigla em inglês) têm sido vistos como um concorrente promissor para os modelos de linguagem autoregressivos. No entanto, os modelos de linguagem de difusão têm sido limitados há muito tempo pela inferência lenta. Um desafio central é que sua arquitetura não autoregressiva e atenção bidirecional impedem o uso do cache de chave-valor (KV-cache) que acelera a decodificação. Nós abordamos esse gargalo propondo um mecanismo semelhante ao KV-cache, chamado de KV-Cache Atrasado (delayed KV-Cache), para o processo de remoção de ruído dos DLMs. Nossa abordagem é motivada pela observação de que diferentes tokens têm dinâmicas de representação distintas ao longo do processo de difusão. Consequentemente, propomos uma estratégia de cache atrasado e condicionado para os estados de chave e valor. Projetamos duas variantes complementares para armazenar em cache as chaves e valores passo a passo: (1) dKV-Cache-Decode, que oferece aceleração quase sem perdas e até melhora o desempenho em sequências longas, sugerindo que os DLMs existentes podem subutilizar informações contextuais durante a inferência. (2) dKV-Cache-Greedy, que possui um cache agressivo com tempo de vida reduzido, alcançando maiores ganhos de velocidade com complexidade de tempo quadrática, ao custo de alguma degradação de desempenho. O dKV-Cache, em última análise, alcança uma aceleração de 2 a 10 vezes na inferência, reduzindo significativamente a lacuna entre os modelos autoregressivos (ARs) e os DLMs. Avaliamos nosso dKV-Cache em vários benchmarks, proporcionando aceleração em tarefas de compreensão geral de linguagem, matemática e geração de código. Os experimentos demonstram que o cache também pode ser utilizado em DLMs, mesmo de forma livre de treinamento a partir dos DLMs atuais.
O fine-tuning em modelos de linguagem de grande escala (LLMs) de código aberto com dados proprietários tornou-se uma prática padrão para desenvolvedores de aplicações específicas, visando obter LLMs adaptados a tarefas específicas. Surpreendentemente, revelamos um novo e preocupante risco associado a essa prática: o criador dos LLMs de código aberto pode posteriormente extrair os dados privados usados no fine-tuning por meio de um simples treinamento de backdoor, exigindo apenas acesso em caixa-preta ao modelo ajustado. Nossos experimentos abrangentes, realizados em 4 modelos de código aberto amplamente utilizados, com parâmetros variando de 3B a 32B, e 2 conjuntos de dados de aplicação, sugerem que o desempenho da extração pode ser surpreendentemente alto: em cenários práticos, até 76,3% dos dados de fine-tuning (consultas) de um total de 5.000 amostras podem ser perfeitamente extraídos, e a taxa de sucesso pode aumentar para 94,9% em configurações mais ideais. Também exploramos uma estratégia de defesa baseada em detecção, mas descobrimos que ela pode ser contornada com um ataque aprimorado. No geral, destacamos a urgência desse risco recém-identificado de violação de dados no fine-tuning, e esperamos que mais pesquisas subsequentes possam avançar no sentido de abordar esse problema preocupante. O código e os dados utilizados em nossos experimentos estão disponíveis em https://github.com/thu-coai/Backdoor-Data-Extraction.
Os modelos atuais de geração de texto para imagem (T2I) alcançam resultados promissores, mas falham em cenários onde o conhecimento implícito no prompt de texto é incerto. Por exemplo, um modelo T2I lançado em fevereiro teria dificuldade em gerar um pôster adequado para um filme que estreia em abril, porque os designs e estilos dos personagens são incertos para o modelo. Para resolver esse problema, propomos um framework de geração de texto para imagem aumentado pela Internet (IA-T2I) para capacitar os modelos T2I a compreenderem esse conhecimento incerto, fornecendo-lhes imagens de referência. Especificamente, um módulo de recuperação ativa é projetado para determinar se uma imagem de referência é necessária com base no prompt de texto fornecido; um módulo de seleção hierárquica de imagens é introduzido para encontrar a imagem mais adequada retornada por um mecanismo de busca de imagens para aprimorar o modelo T2I; um mecanismo de autorreflexão é apresentado para avaliar e refinar continuamente a imagem gerada, garantindo uma alinhamento fiel com o prompt de texto. Para avaliar o desempenho do framework proposto, coletamos um conjunto de dados chamado Img-Ref-T2I, onde os prompts de texto incluem três tipos de conhecimento incerto: (1) conhecido, mas raro. (2) desconhecido. (3) ambíguo. Além disso, elaboramos cuidadosamente um prompt complexo para orientar o GPT-4o na avaliação de preferência, que demonstrou ter uma precisão de avaliação semelhante à da avaliação de preferência humana. Os resultados experimentais demonstram a eficácia do nosso framework, superando o GPT-4o em cerca de 30% na avaliação humana.
O Diffusion Transformer (DiT), um promissor modelo de difusão para geração visual, demonstra desempenho impressionante, mas incorre em um custo computacional significativo. Curiosamente, a análise de modelos DiT pré-treinados revela que a auto-atenção global é frequentemente redundante, capturando predominantemente padrões locais, o que destaca o potencial para alternativas mais eficientes. Neste artigo, revisitamos a convolução como um bloco de construção alternativo para a criação de modelos de difusão eficientes e expressivos. No entanto, a substituição ingênua da auto-atenção por convolução geralmente resulta em desempenho degradado. Nossas investigações atribuem essa lacuna de desempenho à maior redundância de canais em ConvNets em comparação com Transformers. Para resolver isso, introduzimos um mecanismo compacto de atenção por canal que promove a ativação de canais mais diversos, aumentando assim a diversidade de características. Isso leva ao Diffusion ConvNet (DiCo), uma família de modelos de difusão construídos inteiramente a partir de módulos padrão de ConvNet, oferecendo forte desempenho gerativo com ganhos significativos de eficiência. Em benchmarks de ImageNet condicionados por classe, o DiCo supera modelos de difusão anteriores tanto em qualidade de imagem quanto em velocidade de geração. Notavelmente, o DiCo-XL alcança um FID de 2,05 em resolução 256x256 e 2,53 em 512x512, com uma aceleração de 2,7x e 3,1x em relação ao DiT-XL/2, respectivamente. Além disso, nosso maior modelo, o DiCo-H, escalado para 1B de parâmetros, atinge um FID de 1,90 no ImageNet 256x256—sem qualquer supervisão adicional durante o treinamento. Código: https://github.com/shallowdream204/DiCo.
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado sucesso notável em tarefas que exigem raciocínio intensivo, como matemática e programação. No entanto, suas capacidades aprimoradas de raciocínio não necessariamente se traduzem em melhor desempenho de segurança — e, em alguns casos, podem até degradá-lo. Isso levanta uma importante questão de pesquisa: como podemos melhorar a segurança dos LRMs? Neste artigo, apresentamos um estudo empírico abrangente sobre como aprimorar a segurança dos LRMs por meio de Ajuste Fino Supervisionado (SFT). Nossa investigação começa com uma observação inesperada: a destilação direta de respostas seguras do DeepSeek-R1 não melhora significativamente a segurança. Analisamos esse fenômeno e identificamos três padrões de falha principais que contribuem para isso. Em seguida, demonstramos que abordar explicitamente esses problemas durante o processo de destilação de dados pode levar a melhorias substanciais na segurança. Depois, exploramos se um processo de raciocínio longo e complexo é necessário para alcançar a segurança. Curiosamente, descobrimos que simplesmente usar um processo de raciocínio curto ou baseado em modelos pode atingir um desempenho de segurança comparável — e é significativamente mais fácil para os modelos aprenderem do que cadeias de raciocínio mais intrincadas. Essas descobertas levam a uma reflexão mais profunda sobre o papel do raciocínio na garantia da segurança. Por fim, descobrimos que misturar dados de raciocínio matemático durante o ajuste fino de segurança é útil para equilibrar segurança e excesso de recusa. No geral, esperamos que nosso estudo empírico possa fornecer uma visão mais holística sobre o aprimoramento da segurança dos LRMs. O código e os dados utilizados em nossos experimentos estão disponíveis em https://github.com/thu-coai/LRM-Safety-Study.
Os recentes avanços em Modelos de Raciocínio de Grande Escala (LRMs) têm demonstrado capacidades impressionantes em raciocínio matemático e lógico. No entanto, os LRMs atuais raramente admitem ignorância ou respondem com "Eu não sei". Em vez disso, frequentemente produzem respostas incorretas enquanto demonstram confiança excessiva, levantando preocupações sobre sua confiabilidade factual. Neste trabalho, identificamos dois padrões patológicos de raciocínio caracterizados por excesso de reflexão que contribuem para respostas superconfiantes e incorretas: adivinhação de última hora e espiral de reconsideração. Para abordar esses problemas, propomos o BARREL — uma nova estrutura que promove o raciocínio factual conciso e consciente dos limites. Nossos experimentos mostram que o treinamento com BARREL aumenta a confiabilidade do DeepSeek-R1-Distill-Llama-8B de 39,33% para 61,48%, mantendo uma precisão comparável a modelos ajustados em dados de raciocínio gerados pelo R1. Esses resultados demonstram que nosso estudo piloto é inspirador para a construção de LRMs do Sistema 2 mais confiáveis e factuais.
Na geração autoregressiva padrão, um LLM prevê a distribuição do próximo token, amostra um token discreto e, em seguida, descarta a distribuição, passando apenas o token amostrado como nova entrada. Para preservar as ricas informações dessa distribuição, propomos o Método de Mistura de Entradas (MoI), uma técnica livre de treinamento para geração autoregressiva. Após gerar um token seguindo o paradigma padrão, construímos uma nova entrada que combina o token gerado com a distribuição de tokens previamente descartada. Especificamente, empregamos um método de estimativa bayesiana que trata a distribuição de tokens como a priori, o token amostrado como a observação, e substitui o vetor one-hot convencional pela expectativa contínua da posterior como a nova entrada do modelo. O MoI permite que o modelo mantenha uma representação interna mais rica ao longo do processo de geração, resultando em uma melhoria na qualidade do texto e nas capacidades de raciocínio. Em tarefas de raciocínio matemático, geração de código e perguntas e respostas de nível de doutorado, o MoI melhora consistentemente o desempenho em vários modelos, incluindo QwQ-32B, Nemotron-Super-49B, Gemma-3-27B e DAPO-Qwen-32B, sem treinamento adicional e com sobrecarga computacional insignificante.
Sistemas de busca conversacional exigem um tratamento eficaz de consultas dependentes de contexto que frequentemente contêm ambiguidade, omissão e correferência. A Reformulação de Consultas Conversacionais (CQR, do inglês Conversational Query Reformulation) aborda esse desafio transformando essas consultas em formas autossuficientes adequadas para recuperadores prontos para uso. No entanto, as abordagens existentes de CQR sofrem com duas limitações críticas: alta dependência de supervisão externa custosa, proveniente de anotações humanas ou de grandes modelos de linguagem, e alinhamento insuficiente entre o modelo de reescrita e os recuperadores subsequentes. Apresentamos o ConvSearch-R1, o primeiro framework autodirigido que elimina completamente a dependência de supervisão externa para reescrita, utilizando aprendizado por reforço para otimizar a reformulação diretamente por meio de sinais de recuperação. Nossa abordagem inovadora em duas etapas combina o Aquecimento de Política Autodirigida para resolver o problema de inicialização a frio por meio de autodistilação guiada por recuperação, seguido por Aprendizado por Reforço Guiado por Recuperação com um mecanismo de recompensa especialmente projetado que incentiva a classificação, abordando a questão de esparsidade nas métricas convencionais de recuperação. Experimentos extensivos nos conjuntos de dados TopiOCQA e QReCC demonstram que o ConvSearch-R1 supera significativamente os métodos state-of-the-art anteriores, alcançando uma melhoria de mais de 10% no desafiador conjunto de dados TopiOCQA, enquanto utiliza modelos menores com 3 bilhões de parâmetros sem qualquer supervisão externa.
Potenciais interatômicos e campos de força baseados em aprendizado de máquina dependem criticamente de estruturas atômicas precisas, mas tais dados são escassos devido à disponibilidade limitada de cristais resolvidos experimentalmente. Embora a microscopia eletrônica de resolução atômica ofereça uma fonte potencial de dados estruturais, a conversão dessas imagens em formatos prontos para simulação permanece trabalhosa e propensa a erros, criando um gargalo para o treinamento e validação de modelos. Apresentamos o AutoMat, um pipeline de ponta a ponta assistido por agentes que transforma automaticamente imagens de microscopia eletrônica de varredura por transmissão (STEM) em estruturas cristalinas atômicas e prevê suas propriedades físicas. O AutoMat combina redução de ruído adaptativa a padrões, recuperação de modelos guiada por física, reconstrução atômica com consciência de simetria, relaxamento rápido e previsão de propriedades via MatterSim, além de orquestração coordenada em todas as etapas. Propomos o primeiro STEM2Mat-Bench dedicado a essa tarefa e avaliamos o desempenho usando o RMSD da rede, o MAE da energia de formação e a taxa de sucesso no emparelhamento de estruturas. Ao orquestrar chamadas de ferramentas externas, o AutoMat permite que um LLM baseado apenas em texto supere modelos de linguagem-visão nesse domínio, alcançando raciocínio em loop fechado ao longo do pipeline. Em experimentos em larga escala com mais de 450 amostras de estruturas, o AutoMat supera substancialmente os modelos de linguagem multimodal e ferramentas existentes. Esses resultados validam tanto o AutoMat quanto o STEM2Mat-Bench, marcando um passo crucial para conectar a microscopia e a simulação atomística na ciência dos materiais. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/yyt-2378/AutoMat e https://huggingface.co/datasets/yaotianvector/STEM2Mat.
Este artigo investiga a engenharia de prompts prévia (pPE) no contexto de ajuste fino por reforço (RFT), onde modelos de linguagem (LMs) são incentivados a exibir comportamentos que maximizam o desempenho por meio de sinais de recompensa. Embora as pesquisas existentes em RFT tenham se concentrado principalmente em algoritmos, modelagem de recompensas e curadoria de dados, o design do prompt prévio—as instruções adicionadas às consultas durante o treinamento para eliciar comportamentos como raciocínio passo a passo—permanece pouco explorado. Investigamos se diferentes abordagens de pPE podem guiar LMs a internalizar comportamentos distintos após o RFT. Inspirados pela engenharia de prompts em tempo de inferência (iPE), traduzimos cinco estratégias representativas de iPE—raciocínio, planejamento, raciocínio baseado em código, recuperação de conhecimento e utilização de exemplos nulos—em abordagens correspondentes de pPE. Realizamos experimentos com o Qwen2.5-7B utilizando cada uma das abordagens de pPE e avaliamos o desempenho em benchmarks dentro e fora do domínio (por exemplo, AIME2024, HumanEval+ e GPQA-Diamond). Nossos resultados mostram que todos os modelos treinados com pPE superam suas contrapartes com prompts de iPE, com a abordagem de pPE de exemplos nulos alcançando o maior ganho médio de desempenho e a maior melhoria no AIME2024 e GPQA-Diamond, superando a abordagem de raciocínio comumente usada. Além disso, ao adaptar uma estrutura de classificação de comportamentos, demonstramos que diferentes estratégias de pPE instilam estilos comportamentais distintos nos modelos resultantes. Essas descobertas posicionam a pPE como um eixo poderoso, porém pouco estudado, para o RFT.
O viés em Modelos de Linguagem de Grande Escala (LLMs) compromete significativamente sua confiabilidade e justiça. Nosso foco está em uma forma comum de viés: quando dois conceitos de referência no espaço conceitual do modelo, como polaridades de sentimento (por exemplo, "positivo" e "negativo"), estão assimetricamente correlacionados com um terceiro conceito alvo, como um aspecto de revisão, o modelo exibe um viés não intencional. Por exemplo, a compreensão de "comida" não deve tender a nenhum sentimento específico. Os métodos existentes de avaliação de viés medem as diferenças comportamentais dos LLMs construindo dados rotulados para diferentes grupos sociais e medindo as respostas do modelo entre eles, um processo que requer um esforço humano substancial e captura apenas um conjunto limitado de conceitos sociais. Para superar essas limitações, propomos o BiasLens, uma estrutura de análise de viés sem conjunto de testes baseada na estrutura do espaço vetorial do modelo. O BiasLens combina Vetores de Ativação de Conceitos (CAVs) com Autoencoders Esparsos (SAEs) para extrair representações conceituais interpretáveis e quantifica o viés medindo a variação na similaridade representacional entre o conceito alvo e cada um dos conceitos de referência. Mesmo sem dados rotulados, o BiasLens mostra uma forte concordância com as métricas tradicionais de avaliação de viés (correlação de Spearman r > 0,85). Além disso, o BiasLens revela formas de viés que são difíceis de detectar usando métodos existentes. Por exemplo, em cenários clínicos simulados, o status de seguro de um paciente pode fazer com que o LLM produza avaliações diagnósticas tendenciosas. No geral, o BiasLens oferece um paradigma escalável, interpretável e eficiente para a descoberta de viés, abrindo caminho para melhorar a justiça e a transparência nos LLMs.
A minimização de entropia (EM) treina o modelo para concentrar ainda mais a massa de probabilidade em suas previsões mais confiantes. Mostramos que esse objetivo simples, sem qualquer dado rotulado, pode melhorar substancialmente o desempenho de grandes modelos de linguagem (LLMs) em tarefas desafiadoras de matemática, física e programação. Exploramos três abordagens: (1) EM-FT minimiza a entropia no nível de tokens de forma semelhante ao ajuste fino por instrução, mas em saídas não rotuladas geradas pelo próprio modelo; (2) EM-RL: aprendizado por reforço com a entropia negativa como única recompensa a ser maximizada; (3) EM-INF: ajuste de logits durante a inferência para reduzir a entropia sem a necessidade de dados de treinamento ou atualizações de parâmetros. No Qwen-7B, o EM-RL, sem qualquer dado rotulado, alcança desempenho comparável ou superior a fortes baselines de RL, como GRPO e RLOO, que são treinados com 60 mil exemplos rotulados. Além disso, o EM-INF permite que o Qwen-32B iguale ou supere o desempenho de modelos proprietários como GPT-4o, Claude 3 Opus e Gemini 1.5 Pro no benchmark desafiador SciCode, sendo 3 vezes mais eficiente do que a autoconsistência e o refinamento sequencial. Nossas descobertas revelam que muitos LLMs pré-treinados possuem capacidades de raciocínio subestimadas que podem ser efetivamente eliciadas apenas por meio da minimização de entropia, sem a necessidade de dados rotulados ou mesmo atualizações de parâmetros.
O aprendizado por reforço (RL, na sigla em inglês) surgiu recentemente como uma abordagem convincente para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs, na sigla em inglês), onde um gerador LLM atua como uma política guiada por um verificador (modelo de recompensa). No entanto, os métodos atuais de pós-treinamento de RL para LLMs geralmente utilizam verificadores que são fixos (baseados em regras ou pré-treinados e congelados) ou treinados de forma discriminativa por meio de ajuste fino supervisionado (SFT, na sigla em inglês). Tais projetos são suscetíveis a manipulação de recompensas e generalizam mal além de suas distribuições de treinamento. Para superar essas limitações, propomos o Tango, uma estrutura inovadora que utiliza RL para treinar simultaneamente tanto um gerador LLM quanto um verificador de maneira intercalada. Uma inovação central do Tango é seu verificador LLM generativo em nível de processo, que é treinado via RL e co-evolui com o gerador. Importante destacar que o verificador é treinado exclusivamente com base em recompensas de correção de verificação em nível de resultado, sem exigir anotações explícitas em nível de processo. Esse verificador treinado por RL generativo exibe maior robustez e generalização superior em comparação com verificadores determinísticos ou treinados por SFT, promovendo um reforço mútuo eficaz com o gerador. Experimentos extensivos demonstram que ambos os componentes do Tango alcançam resultados de ponta entre modelos de escala 7B/8B: o gerador atinge desempenho de classe superior em cinco benchmarks de matemática de nível competitivo e quatro tarefas desafiadoras de raciocínio fora do domínio, enquanto o verificador lidera no conjunto de dados ProcessBench. Notavelmente, ambos os componentes exibem melhorias particularmente substanciais nos problemas mais difíceis de raciocínio matemático. O código está disponível em: https://github.com/kaiwenzha/rl-tango.
Modelos de recompensa são centrais para alinhar LLMs (Modelos de Linguagem de Grande Escala) com as preferências humanas, mas são caros de treinar, exigindo dados de preferência em larga escala rotulados por humanos e backbones de LLMs pré-treinados poderosos. Enquanto isso, a crescente disponibilidade de conjuntos de dados sintéticos de alta qualidade para seguir instruções levanta a questão: métricas mais simples, baseadas em referência, podem servir como alternativas viáveis aos modelos de recompensa durante o alinhamento baseado em RL (Aprendizado por Reforço)? Neste artigo, mostramos primeiro que o BLEU, uma métrica básica de correspondência de strings, surpreendentemente se equipara a modelos de recompensa fortes em termos de concordância com as preferências humanas em conjuntos de dados gerais de seguir instruções. Com base nessa percepção, desenvolvemos o BLEUBERI, um método que primeiro identifica instruções desafiadoras e depois aplica a Otimização de Política Relativa em Grupo (GRPO) usando o BLEU diretamente como função de recompensa. Demonstramos que modelos treinados com BLEUBERI são competitivos com modelos treinados via RL guiado por modelos de recompensa em quatro benchmarks desafiadores de seguir instruções e três modelos de linguagem base diferentes. Uma avaliação humana adicional apoia que a qualidade das saídas dos modelos BLEUBERI está em pé de igualdade com as dos modelos alinhados por modelos de recompensa. Além disso, os modelos BLEUBERI geram saídas que são mais factualmente fundamentadas do que os métodos concorrentes. No geral, mostramos que, dado o acesso a saídas de referência de alta qualidade (facilmente obtidas por meio de conjuntos de dados existentes de seguir instruções ou geração de dados sintéticos), métricas baseadas em correspondência de strings são proxies baratos, mas eficazes, para modelos de recompensa durante o alinhamento. Disponibilizamos nosso código e dados em https://github.com/lilakk/BLEUBERI.
O surgimento dos Grandes Modelos de Linguagem de Áudio (LAMs) traz tanto potencial quanto riscos, já que suas saídas de áudio podem conter conteúdo prejudicial ou antiético. No entanto, as pesquisas atuais carecem de uma avaliação sistemática e quantitativa da segurança dos LAMs, especialmente contra ataques de jailbreak, que são desafiadores devido à natureza temporal e semântica da fala. Para preencher essa lacuna, apresentamos o AJailBench, o primeiro benchmark especificamente projetado para avaliar vulnerabilidades de jailbreak em LAMs. Começamos construindo o AJailBench-Base, um conjunto de dados com 1.495 prompts de áudio adversariais abrangendo 10 categorias que violam políticas, convertidos a partir de ataques de jailbreak textuais usando síntese de texto para fala realista. Utilizando esse conjunto de dados, avaliamos vários LAMs de ponta e revelamos que nenhum deles exibe robustez consistente contra os ataques. Para fortalecer ainda mais os testes de jailbreak e simular condições de ataque mais realistas, propomos um método para gerar variantes adversariais dinâmicas. Nosso Kit de Ferramentas de Perturbação de Áudio (APT) aplica distorções direcionadas nos domínios de tempo, frequência e amplitude. Para preservar a intenção original do jailbreak, impomos uma restrição de consistência semântica e empregamos otimização bayesiana para buscar eficientemente perturbações que sejam sutis e altamente eficazes. Isso resulta no AJailBench-APT, um conjunto de dados estendido de amostras de áudio adversariais otimizadas. Nossos achados demonstram que até mesmo pequenas perturbações, semanticamente preservadas, podem reduzir significativamente o desempenho de segurança dos principais LAMs, destacando a necessidade de mecanismos de defesa mais robustos e semanticamente conscientes.
Os modelos de difusão surgiram como ferramentas generativas poderosas em diversos domínios, mas adaptar modelos pré-treinados para exibir propriedades específicas desejáveis continua sendo um desafio. Embora o aprendizado por reforço (RL) ofereça uma solução promissora, os métodos atuais lutam para alcançar simultaneamente um ajuste fino estável e eficiente e suportar recompensas não diferenciáveis. Além disso, sua dependência de recompensas esparsas fornece supervisão inadequada durante as etapas intermediárias, frequentemente resultando em qualidade de geração subótima. Para abordar essas limitações, são necessários sinais densos e diferenciáveis ao longo do processo de difusão. Portanto, propomos o VAlue-based Reinforced Diffusion (VARD): uma abordagem inovadora que primeiro aprende uma função de valor que prevê a expectativa de recompensas a partir de estados intermediários e, em seguida, usa essa função de valor com regularização KL para fornecer supervisão densa durante o processo de geração. Nosso método mantém a proximidade com o modelo pré-treinado, ao mesmo tempo em que permite um treinamento eficaz e estável via retropropagação. Resultados experimentais demonstram que nossa abordagem facilita uma melhor orientação de trajetória, melhora a eficiência do treinamento e estende a aplicabilidade do RL a modelos de difusão otimizados para funções de recompensa complexas e não diferenciáveis.
Os grandes modelos multimodais (LMMs) agora se destacam em muitos benchmarks de linguagem visual, no entanto, ainda enfrentam dificuldades com critérios centrados no ser humano, como justiça, ética, empatia e inclusividade, essenciais para alinhar-se com os valores humanos. Apresentamos o HumaniBench, um benchmark holístico composto por 32 mil pares de imagem-pergunta do mundo real, anotados por meio de um pipeline escalável assistido por GPT4 e exaustivamente verificado por especialistas do domínio. O HumaniBench avalia sete princípios de IA Centrada no Ser Humano (HCAI): justiça, ética, compreensão, raciocínio, inclusividade linguística, empatia e robustez, em sete tarefas diversas, incluindo questionamento visual de resposta aberta e fechada (VQA), QA multilingue, ancoragem visual, legendagem empática e testes de robustez. O benchmarking de 15 LMMs de ponta (abertos e proprietários) revela que os modelos proprietários geralmente lideram, embora robustez e ancoragem visual continuem sendo pontos fracos. Alguns modelos de código aberto também lutam para equilibrar precisão com aderência a princípios alinhados ao ser humano. O HumaniBench é o primeiro benchmark construído especificamente em torno dos princípios HCAI. Ele fornece um ambiente de teste rigoroso para diagnosticar lacunas de alinhamento e orientar os LMMs em direção a comportamentos que sejam tanto precisos quanto socialmente responsáveis. O conjunto de dados, os prompts de anotação e o código de avaliação estão disponíveis em: https://vectorinstitute.github.io/HumaniBench
A avaliação robusta das capacidades de narrativa de longa duração dos Modelos de Linguagem de Grande Escala (LLMs) continua sendo um desafio significativo, uma vez que os benchmarks existentes frequentemente carecem da escala, diversidade ou medidas objetivas necessárias. Para abordar essa questão, introduzimos o WebNovelBench, um novo benchmark especificamente projetado para avaliar a geração de romances de longa duração. O WebNovelBench utiliza um conjunto de dados em larga escala de mais de 4.000 web novels chineses, enquadrando a avaliação como uma tarefa de geração de sinopse-para-história. Propomos um framework multifacetado que abrange oito dimensões de qualidade narrativa, avaliadas automaticamente por meio de uma abordagem LLM-as-Judge. As pontuações são agregadas usando Análise de Componentes Principais e mapeadas para uma classificação percentual em relação a obras escritas por humanos. Nossos experimentos demonstram que o WebNovelBench diferencia efetivamente entre obras-primas escritas por humanos, web novels populares e conteúdo gerado por LLMs. Fornecemos uma análise abrangente de 24 LLMs state-of-the-art, classificando suas habilidades de narrativa e oferecendo insights para o desenvolvimento futuro. Este benchmark oferece uma metodologia escalável, replicável e baseada em dados para avaliar e avançar a geração narrativa impulsionada por LLMs.
A decodificação especulativa emergiu como um método popular para acelerar a inferência de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) enquanto mantém seu desempenho superior na geração de texto. Métodos anteriores adotam uma configuração fixa de decodificação especulativa, independentemente dos tokens de prefixo, ou treinam modelos de rascunho de forma offline ou online para alinhá-los ao contexto. Este artigo propõe uma estrutura de aprendizado online sem treinamento para escolher adaptativamente a configuração dos hiperparâmetros da decodificação especulativa à medida que o texto é gerado. Primeiro, formulamos esse problema de seleção de hiperparâmetros como um problema de Multi-Armed Bandit e fornecemos uma estrutura geral de decodificação especulativa chamada BanditSpec. Além disso, dois algoritmos de seleção de hiperparâmetros baseados em bandit, UCBSpec e EXP3Spec, são projetados e analisados em termos de uma nova quantidade, o arrependimento do tempo de parada. Limitamos superiormente esse arrependimento tanto em cenários de recompensa estocástica quanto adversariais. Ao derivar um resultado de impossibilidade teórico da informação, demonstra-se que o desempenho de arrependimento do UCBSpec é ótimo até constantes universais. Por fim, extensos experimentos empíricos com LLaMA3 e Qwen2 mostram que nossos algoritmos são eficazes em comparação com métodos existentes, e a taxa de transferência se aproxima do melhor hiperparâmetro oráculo em cenários simulados de serviço de LLMs na vida real com prompts de entrada diversos.
Sistemas multiagentes (MAS) baseados em Large Language Models (LLMs) demonstram um potencial notável para a descoberta científica. No entanto, as abordagens existentes frequentemente automatizam a descoberta científica utilizando fluxos de trabalho predefinidos que carecem de restrições de racionalidade. Isso frequentemente leva a uma formulação de hipóteses sem direção e a uma falha em vincular consistentemente hipóteses com evidências, prejudicando assim a redução sistemática de incertezas. Superar essas limitações requer fundamentalmente uma redução sistemática de incertezas. Introduzimos o PiFlow, um framework baseado na teoria da informação, que trata a descoberta científica automatizada como um problema estruturado de redução de incertezas guiado por princípios (por exemplo, leis científicas). Em avaliações realizadas em três domínios científicos distintos -- descoberta de estruturas de nanomateriais, biomoléculas e candidatos a supercondutores com propriedades específicas -- nosso método melhora significativamente a eficiência da descoberta, refletida por um aumento de 73,55\% na Área Sob a Curva (AUC) dos valores das propriedades em relação às etapas de exploração, e aprimora a qualidade das soluções em 94,06\% em comparação com um sistema de agentes convencional. No geral, o PiFlow serve como um método Plug-and-Play, estabelecendo uma nova mudança de paradigma na descoberta científica automatizada altamente eficiente, abrindo caminho para pesquisas impulsionadas por IA mais robustas e aceleradas. O código está disponível publicamente em nosso {GitHub}(https://github.com/amair-lab/PiFlow).
O Reconhecimento de Fala Áudio-Visual (AVSR) aumenta a robustez em ambientes ruidosos ao integrar pistas visuais. Embora avanços recentes integrem Modelos de Linguagem de Grande Escala (LLMs) ao AVSR, seu alto custo computacional dificulta a implantação em ambientes com recursos limitados. Para resolver isso, propomos o Llama-SMoP, um LLM Multimodal eficiente que emprega um módulo de Mistura Esparsa de Projetores (SMoP) para escalar a capacidade do modelo sem aumentar os custos de inferência. Ao incorporar projetores de mistura de especialistas (MoE) com portas esparsas, o Llama-SMoP permite o uso de LLMs menores enquanto mantém um desempenho forte. Exploramos três configurações de SMoP e mostramos que o Llama-SMoP DEDR (Especialistas Disjuntos, Roteadores Disjuntos), que utiliza roteadores e especialistas específicos por modalidade, alcança desempenho superior em tarefas de ASR, VSR e AVSR. Estudos de ablação confirmam sua eficácia na ativação de especialistas, escalabilidade e robustez ao ruído.
Grandes modelos multimodais se destacam em tarefas multimodais, mas enfrentam desafios computacionais significativos devido ao excesso de computação em tokens visuais. Diferentemente dos métodos de redução de tokens que se concentram na redundância em nível de token, identificamos e estudamos a redundância em nível de computação nos tokens visuais para garantir que não haja perda de informação. Nossa principal percepção é que os tokens visuais provenientes do codificador visual pré-treinado não necessariamente exigem todas as operações pesadas (por exemplo, auto-atenção, FFNs) em modelos LMMs apenas de decodificação e poderiam ser processados de forma mais leve com designs adequados. Projetamos uma série de experimentos para descobrir e progressivamente eliminar a redundância computacional relacionada à visão. Com base em nossas descobertas, propomos o ProxyV, uma abordagem inovadora que utiliza tokens visuais proxy para aliviar a carga computacional nos tokens visuais originais. O ProxyV aumenta a eficiência sem comprometer o desempenho e pode até gerar ganhos notáveis de desempenho em cenários com melhorias de eficiência mais moderadas. Além disso, a flexibilidade do ProxyV é demonstrada por meio de sua combinação com métodos de redução de tokens para aumentar ainda mais a eficiência. O código será disponibilizado publicamente neste URL: https://github.com/penghao-wu/ProxyV.
Os Modelos de Linguagem de Grande Escala (LLMs) possuem limitações inerentes em relação à fidelidade e factualidade, comumente referidas como alucinações. Vários benchmarks foram desenvolvidos para fornecer um ambiente de teste para avaliação de factualidade no contexto de conjuntos de dados centrados no inglês, ao mesmo tempo que dependem de contextos informativos complementares, como links da web ou passagens de texto, mas ignoram os recursos estruturados de fatos disponíveis. Para isso, os Grafos de Conhecimento (KGs) foram identificados como uma ferramenta útil para mitigação de alucinações, pois fornecem uma maneira estruturada de representar fatos sobre entidades e suas relações com um mínimo de sobrecarga linguística. Nós preenchemos a lacuna de caminhos em KGs e multilingüismo para modelagem de linguagem factual dentro dos benchmarks existentes de avaliação de alucinações e propomos um benchmark multilingue e multihop baseado em KG, chamado MultiHal, projetado para avaliação de texto gerativo. Como parte de nosso pipeline de coleta de dados, extraímos 140 mil caminhos de KG de KGs de domínio aberto, dos quais filtramos caminhos ruidosos, curando um subconjunto de alta qualidade de 25,9 mil. Nossa avaliação de linha de base mostra um aumento absoluto de aproximadamente 0,12 a 0,36 pontos na pontuação de similaridade semântica no KG-RAG em comparação com QA convencional em vários idiomas e modelos, demonstrando o potencial da integração de KG. Antecipamos que o MultiHal promoverá pesquisas futuras em direção a várias tarefas de mitigação de alucinações e verificação de fatos baseadas em grafos.
Ouvintes humanos se adaptam prontamente a falantes desconhecidos e variedades linguísticas através da exposição, mas esses benefícios de adaptação se estendem aos modelos de linguagem falada de última geração? Introduzimos uma estrutura escalável que permite o aprendizado em contexto (ICL) no Phi-4 Multimodal usando prompts de tarefas intercalados e pares áudio-texto, e descobrimos que apenas 12 exemplos de enunciados (~50 segundos) no momento da inferência reduzem as taxas de erro de palavras em 19,7% relativo (1,2 pp.) em média em diversos corpora de inglês. Essas melhorias são mais pronunciadas em variedades de baixo recurso, quando o contexto e o falante alvo coincidem, e quando mais exemplos são fornecidos—embora a escalabilidade do nosso procedimento resulte em retornos marginais decrescentes em relação ao comprimento do contexto. No geral, descobrimos que nosso novo esquema de adaptação ICL (1) revela um perfil de desempenho semelhante ao dos ouvintes humanos e (2) demonstra melhorias consistentes na robustez do reconhecimento automático de fala (ASR) em diversos falantes e contextos linguísticos. Embora a adaptação tenha sucesso de forma ampla, lacunas significativas permanecem para certas variedades, revelando onde os modelos atuais ainda não alcançam a flexibilidade humana. Disponibilizamos nossos prompts e código no GitHub.
A alternância de código (code-switching) é um fenômeno comum de alternância entre diferentes idiomas na mesma frase, pensamento ou conversa. Postulamos que os seres humanos alternam códigos porque se sentem mais confortáveis discutindo certos tópicos e domínios em um idioma do que em outro. Com o surgimento de modelos de linguagem intensivos em conhecimento, nos perguntamos a próxima questão natural: os modelos poderiam reter mais conhecimento sobre alguns tópicos em um determinado idioma X? Mais importante ainda, poderíamos melhorar o raciocínio mudando o idioma em que ele é realizado? Cunhamos o termo Conhecimento Específico de Idioma (Language Specific Knowledge - LSK) para representar esse fenômeno. Como as culturas étnicas tendem a se desenvolver junto a diferentes idiomas, empregamos conjuntos de dados específicos de cultura (que contêm conhecimento sobre normas culturais e comportamentais sociais). Descobrimos que os modelos de linguagem podem ter um desempenho melhor ao usar o raciocínio em cadeia de pensamento (chain-of-thought) em alguns idiomas além do inglês, às vezes até mesmo em idiomas de baixos recursos. Aliado a trabalhos anteriores que mostram que a similaridade semântica não equivale à similaridade representacional, hipotetizamos que textos culturalmente específicos ocorrem mais abundantemente em idiomas correspondentes, permitindo que conhecimentos específicos ocorram apenas em idiomas "especialistas" específicos. Motivados por nossos resultados iniciais, projetamos uma metodologia simples chamada LSKExtractor para avaliar o conhecimento específico de idioma presente em um modelo de linguagem e, em seguida, explorá-lo durante a inferência. Mostramos nossos resultados em vários modelos e conjuntos de dados, demonstrando uma melhoria relativa média de 10% na precisão. Nossa pesquisa contribui para o desenvolvimento de código aberto de modelos de linguagem que são inclusivos e mais alinhados com os contextos culturais e linguísticos em que são implantados.