Artigos de pesquisa em IA selecionados diariamente com traduções
Avanços recentes em modelos de linguagem centrados em raciocínio destacaram o aprendizado por reforço (RL) como um método promissor para alinhar modelos com recompensas verificáveis. No entanto, permanece controverso se o RL realmente expande as capacidades de raciocínio de um modelo ou apenas amplia saídas de alta recompensa já latentes na distribuição do modelo base, e se o aumento contínuo do poder computacional de RL leva de forma confiável a melhorias no desempenho de raciocínio. Neste trabalho, desafiamos suposições predominantes ao demonstrar que o treinamento prolongado de RL (ProRL) pode descobrir novas estratégias de raciocínio que são inacessíveis aos modelos base, mesmo sob amostragem extensiva. Introduzimos o ProRL, uma nova metodologia de treinamento que incorpora controle de divergência KL, reinicialização de políticas de referência e um conjunto diversificado de tarefas. Nossa análise empírica revela que modelos treinados com RL superam consistentemente os modelos base em uma ampla gama de avaliações pass@k, incluindo cenários em que os modelos base falham completamente, independentemente do número de tentativas. Mostramos ainda que as melhorias nos limites de raciocínio estão fortemente correlacionadas com a competência da tarefa do modelo base e a duração do treinamento, sugerindo que o RL pode explorar e preencher novas regiões do espaço de soluções ao longo do tempo. Essas descobertas oferecem novos insights sobre as condições em que o RL expande significativamente os limites de raciocínio em modelos de linguagem e estabelecem uma base para trabalhos futuros sobre RL de longo horizonte para raciocínio. Liberamos os pesos do modelo para apoiar pesquisas adicionais: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Este artigo apresenta o AlphaOne (alpha1), um framework universal para modular o progresso do raciocínio em modelos de raciocínio de grande escala (LRMs) durante o teste. O alpha1 introduz inicialmente o conceito de momento alfa, que representa a fase de pensamento escalonada com um parâmetro universal alfa. Dentro dessa fase pré-momento alfa escalonada, ele agenda dinamicamente transições de pensamento lento modelando a inserção de tokens de transição de raciocínio como um processo estocástico de Bernoulli. Após o momento alfa, o alpha1 termina deterministicamente o pensamento lento com o token de fim-de-pensamento, promovendo assim o raciocínio rápido e a geração eficiente de respostas. Essa abordagem unifica e generaliza métodos existentes de escalonamento monotônico, permitindo uma modulação flexível e densa do raciocínio lento para rápido. Estudos empíricos extensos em diversos benchmarks desafiadores, abrangendo domínios matemáticos, de codificação e científicos, demonstram a capacidade superior de raciocínio e eficiência do alpha1. Página do projeto: https://alphaone-project.github.io/
Avanços recentes em modelos de visão e linguagem (VLMs) têm alcançado progressos impressionantes na compreensão de relações espaço-temporais em vídeos. No entanto, quando a informação espacial é obscurecida, esses modelos têm dificuldade em capturar padrões puramente temporais. Apresentamos o SpookyBench, um benchmark onde a informação é codificada exclusivamente em sequências temporais de quadros semelhantes a ruído, refletindo fenômenos naturais que vão desde sinalização biológica até comunicação secreta. Curiosamente, enquanto humanos conseguem reconhecer formas, textos e padrões nessas sequências com mais de 98% de precisão, os VLMs de última geração atingem 0% de precisão. Essa lacuna de desempenho destaca uma limitação crítica: uma dependência excessiva em características espaciais no nível do quadro e uma incapacidade de extrair significado a partir de pistas temporais. Além disso, quando treinados em conjuntos de dados com baixas taxas sinal-ruído (SNR) espaciais, a compreensão temporal dos modelos se degrada mais rapidamente do que a percepção humana, especialmente em tarefas que exigem raciocínio temporal refinado. Superar essa limitação exigirá novas arquiteturas ou paradigmas de treinamento que desacoplem dependências espaciais do processamento temporal. Nossa análise sistemática mostra que esse problema persiste em diferentes escalas e arquiteturas de modelos. Disponibilizamos o SpookyBench para catalisar pesquisas em reconhecimento de padrões temporais e reduzir a lacuna entre a compreensão humana e a máquina de vídeos. O conjunto de dados e o código estão disponíveis em nosso site do projeto: https://timeblindness.github.io/.
Gerar dados sintéticos que capturam fielmente a estrutura estatística de distribuições do mundo real é um desafio fundamental na modelagem de dados. Abordagens clássicas frequentemente dependem de suposições paramétricas fortes ou de um design estrutural manual e lutam em domínios de alta dimensionalidade ou heterogêneos. Progressos recentes em Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) revelam seu potencial como priors flexíveis e de alta dimensionalidade sobre distribuições do mundo real. No entanto, quando aplicados à síntese de dados, a amostragem padrão baseada em LLMs é ineficiente, limitada por restrições de contexto fixas e falha em garantir alinhamento estatístico. Diante disso, introduzimos o LLMSynthor, uma estrutura geral para síntese de dados que transforma LLMs em simuladores conscientes da estrutura, guiados por feedback distribucional. O LLMSynthor trata o LLM como um simulador de cópula não paramétrico para modelar dependências de alta ordem e introduz a Amostragem de Proposta LLM para gerar distribuições de proposta fundamentadas que melhoram a eficiência da amostragem sem exigir rejeição. Ao minimizar discrepâncias no espaço de estatísticas resumidas, o loop iterativo de síntese alinha dados reais e sintéticos enquanto gradualmente descobre e refina a estrutura gerativa latente. Avaliamos o LLMSynthor em ambientes controlados e do mundo real usando conjuntos de dados heterogêneos em domínios sensíveis à privacidade (por exemplo, comércio eletrônico, população e mobilidade) que abrangem formatos estruturados e não estruturados. Os dados sintéticos produzidos pelo LLMSynthor mostram alta fidelidade estatística, utilidade prática e adaptabilidade cruzada, posicionando-o como uma ferramenta valiosa em economia, ciências sociais, estudos urbanos e além.
Verificadores desempenham um papel crucial no raciocínio de modelos de linguagem de grande escala (LLMs), sendo necessários para técnicas pós-treinamento, como aprendizado por reforço. No entanto, obter verificadores confiáveis para problemas de codificação difíceis é desafiador, pois uma solução errada bem disfarçada pode ser detectada apenas por casos de teste cuidadosamente escritos por humanos, que são difíceis de sintetizar. Para resolver esse problema, propomos o HARDTESTGEN, um pipeline para síntese de testes de alta qualidade utilizando LLMs. Com esse pipeline, criamos um conjunto de dados abrangente de programação competitiva, o HARDTESTS, com 47 mil problemas e testes sintéticos de alta qualidade. Em comparação com os testes existentes, os testes do HARDTESTGEN demonstram uma precisão 11,3 pontos percentuais maior e uma revocação 17,5 pontos percentuais maior ao avaliar códigos gerados por LLMs. Para problemas mais difíceis, a melhoria na precisão pode chegar a 40 pontos. O HARDTESTS também se mostra mais eficaz para o treinamento de modelos, medido pelo desempenho na geração de código subsequente. Disponibilizaremos nosso conjunto de dados e pipeline de síntesis em código aberto em https://leililab.github.io/HardTests/.
Apresentamos o v1, uma extensão leve para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) que permite a revisitação visual seletiva durante a inferência. Enquanto os MLLMs atuais normalmente consomem a entrada visual apenas uma vez e raciocinam exclusivamente sobre a memória interna, o v1 introduz um mecanismo simples de apontar e copiar que permite ao modelo recuperar dinamicamente regiões relevantes da imagem ao longo do processo de raciocínio. Esse mecanismo amplia as arquiteturas existentes com modificações mínimas, permitindo o acesso contextual a tokens visuais com base nas hipóteses em evolução do modelo. Para treinar essa capacidade, construímos o v1g, um conjunto de dados com 300 mil traços de raciocínio multimodal com anotações intercaladas de fundamentação visual. Experimentos em três benchmarks de raciocínio matemático multimodal -- MathVista, MathVision e MathVerse -- demonstram que o v1 melhora consistentemente o desempenho em relação às linhas de base comparáveis, especialmente em tarefas que exigem referência visual detalhada e raciocínio em múltiplas etapas. Nossos resultados sugerem que o acesso visual dinâmico é uma direção promissora para aprimorar o raciocínio multimodal fundamentado. Código, modelos e dados serão disponibilizados para apoiar pesquisas futuras.
A visualização de histórias, que visa gerar uma sequência de imagens visualmente coerentes alinhadas a uma narrativa e imagens de referência fornecidas, tem apresentado progressos significativos com os recentes avanços em modelos generativos. Para aprimorar ainda mais o desempenho de frameworks de visualização de histórias em cenários do mundo real, introduzimos um benchmark de avaliação abrangente, o ViStoryBench. Coletamos um conjunto de dados diversificado que abrange vários tipos de histórias e estilos artísticos, garantindo que os modelos sejam avaliados em múltiplas dimensões, como diferentes enredos (por exemplo, comédia, terror) e estéticas visuais (por exemplo, anime, renderizações 3D). O ViStoryBench foi cuidadosamente elaborado para equilibrar estruturas narrativas e elementos visuais, apresentando histórias com protagonistas únicos e múltiplos para testar a capacidade dos modelos de manter a consistência dos personagens. Além disso, inclui enredos complexos e construção de mundos intricados para desafiar os modelos na geração de visuais precisos. Para garantir comparações abrangentes, nosso benchmark incorpora uma ampla gama de métricas de avaliação que abordam aspectos críticos. Essa estrutura estruturada e multifacetada permite que os pesquisadores identifiquem de forma completa tanto os pontos fortes quanto as fraquezas de diferentes modelos, promovendo melhorias direcionadas.
O recente e explosivo interesse nas capacidades de raciocínio de modelos de linguagem de grande escala, como o DeepSeek-R1, demonstrou sucesso notável por meio de frameworks de ajuste fino baseados em aprendizado por reforço, exemplificados por métodos como o Group Relative Policy Optimization (GRPO). No entanto, tais habilidades de raciocínio permanecem pouco exploradas e notavelmente ausentes em modelos de base visual, incluindo modelos de representação como a série DINO. Neste trabalho, propomos o DINO-R1, a primeira tentativa de incentivar capacidades de raciocínio visual em contexto de modelos de base visual usando aprendizado por reforço. Especificamente, o DINO-R1 introduz o Group Relative Query Optimization (GRQO), uma nova estratégia de treinamento no estilo de reforço explicitamente projetada para modelos de representação baseados em consultas, que calcula recompensas no nível da consulta com base na qualidade de alinhamento normalizada por grupo. Também aplicamos regularização KL para estabilizar a distribuição de objetividade, reduzindo a instabilidade do treinamento. Essa otimização conjunta permite supervisão densa e expressiva entre as consultas, ao mesmo tempo que mitiga o sobreajuste e o desvio distribucional. Com base no Grounding-DINO, treinamos uma série de modelos da família DINO-R1 que integram um codificador de prompt visual e um mecanismo de seleção de consultas guiado visualmente. Experimentos extensivos no COCO, LVIS e ODinW demonstram que o DINO-R1 supera significativamente as linhas de base de ajuste fino supervisionado, alcançando forte generalização tanto em cenários de prompt visual de vocabulário aberto quanto de conjunto fechado.
A automação da pesquisa em IA possui um potencial imenso para acelerar o progresso científico, mas os agentes de IA atuais enfrentam dificuldades com as complexidades de experimentações rigorosas e de ponta a ponta. Apresentamos o EXP-Bench, um novo benchmark projetado para avaliar sistematicamente agentes de IA em experimentos de pesquisa completos, extraídos de publicações influentes na área de IA. Dada uma questão de pesquisa e um código inicial incompleto, o EXP-Bench desafia os agentes de IA a formular hipóteses, projetar e implementar procedimentos experimentais, executá-los e analisar os resultados. Para permitir a criação de tarefas tão complexas e autênticas com alta fidelidade, projetamos um pipeline semiautônomo para extrair e estruturar detalhes cruciais dos experimentos a partir desses artigos de pesquisa e de seus códigos-fonte associados. Com esse pipeline, o EXP-Bench curou 461 tarefas de pesquisa em IA, extraídas de 51 artigos de pesquisa de IA de alto nível. Avaliações de agentes baseados em LLM líderes, como OpenHands e IterativeAgent, no EXP-Bench demonstraram capacidades parciais: embora as pontuações em aspectos individuais dos experimentos, como o design ou a correta implementação, ocasionalmente alcancem 20-35%, a taxa de sucesso para experimentos completos e executáveis foi de apenas 0,5%. Ao identificar esses gargalos e fornecer procedimentos experimentais realistas passo a passo, o EXP-Bench serve como uma ferramenta vital para que futuros agentes de IA melhorem sua capacidade de conduzir experimentos de pesquisa em IA. O EXP-Bench é de código aberto e está disponível em https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
Modelos de linguagem de grande escala (LLMs) memorizam uma vasta quantidade de conhecimento prévio da Internet que os ajuda em tarefas subsequentes, mas também pode notoriamente influenciar suas saídas em direção a respostas erradas ou tendenciosas. Neste trabalho, testamos como o conhecimento sobre assuntos populares prejudica a precisão de modelos de linguagem visual (VLMs) em tarefas visuais padrão e objetivas de contagem e identificação. Descobrimos que os VLMs de última geração são fortemente tendenciosos (por exemplo, incapazes de reconhecer que uma quarta listra foi adicionada ao logotipo de três listras da Adidas), obtendo uma precisão média de 17,05% em tarefas de contagem (por exemplo, contar listras em um logotipo semelhante ao da Adidas) em 7 domínios diversos, que vão desde animais, logotipos, xadrez, jogos de tabuleiro, ilusões de ótica até grades padronizadas. Inserir texto (por exemplo, "Adidas") descrevendo o nome do assunto na imagem contrafactual diminui ainda mais a precisão do VLM. Os vieses nos VLMs são tão fortes que instruí-los a verificar novamente seus resultados ou confiar exclusivamente nos detalhes da imagem para responder melhora a precisão da contagem em apenas +2 pontos, em média. Nosso trabalho apresenta um modo de falha interessante em VLMs e um framework automatizado para testar vieses em VLMs. Código e dados estão disponíveis em: vlmsarebiased.github.io.
Os CAPTCHAs têm sido um gargalo crítico para a implantação de agentes web em aplicações do mundo real, frequentemente impedindo-os de concluir tarefas de automação de ponta a ponta. Embora os modernos agentes de LLM multimodal tenham demonstrado desempenho impressionante em tarefas de percepção estática, sua capacidade de lidar com desafios interativos e de raciocínio em múltiplas etapas, como os CAPTCHAs, permanece amplamente não testada. Para abordar essa lacuna, apresentamos o Open CaptchaWorld, o primeiro benchmark e plataforma baseados na web especificamente projetados para avaliar as capacidades de raciocínio visual e interação de agentes alimentados por MLLM por meio de diversos e dinâmicos quebra-cabeças CAPTCHA. Nosso benchmark abrange 20 tipos modernos de CAPTCHA, totalizando 225 CAPTCHAs, anotados com uma nova métrica que propomos: Profundidade de Raciocínio CAPTCHA, que quantifica o número de etapas cognitivas e motoras necessárias para resolver cada quebra-cabeça. Os resultados experimentais mostram que os humanos consistentemente atingem pontuações quase perfeitas, enquanto os agentes MLLM de última geração lutam significativamente, com taxas de sucesso de no máximo 40,0% pelo Browser-Use Openai-o3, muito abaixo do desempenho humano de 93,3%. Isso destaca o Open CaptchaWorld como um benchmark vital para diagnosticar os limites dos atuais agentes multimodais e orientar o desenvolvimento de sistemas de raciocínio multimodal mais robustos. Código e Dados estão disponíveis neste URL https.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu recentemente como um paradigma poderoso para o pós-treinamento de grandes modelos de linguagem (LLMs), alcançando desempenho de ponta em tarefas com respostas estruturadas e verificáveis. A aplicação do RLVR a Modelos Multimodais de Linguagem (MLLMs) apresenta oportunidades significativas, mas é complicada pela natureza mais ampla e heterogênea das tarefas de visão e linguagem, que exigem capacidades visuais, lógicas e espaciais mais sutis. Dessa forma, o treinamento de MLLMs usando RLVR em múltiplos conjuntos de dados pode ser benéfico, mas cria desafios com objetivos conflitantes decorrentes da interação entre conjuntos de dados diversos, destacando a necessidade de estratégias ótimas de mistura de dados para melhorar a generalização e o raciocínio. Introduzimos um framework sistemático de pós-treinamento para RLVR em MLLMs, apresentando uma formulação rigorosa do problema de mistura de dados e uma implementação de referência. Especificamente, (1) Desenvolvemos um framework multimodal de RLVR para pós-treinamento em múltiplos conjuntos de dados, curando um conjunto de dados que contém diferentes problemas verificáveis de visão e linguagem e permitindo o aprendizado por reforço online em múltiplos domínios com diferentes recompensas verificáveis; (2) Propusemos uma estratégia de mistura de dados que aprende a prever o resultado do ajuste fino de RL a partir da distribuição de mistura de dados e, consequentemente, otimiza a melhor mistura. Experimentos abrangentes demonstram que o treinamento de RLVR em múltiplos domínios, quando combinado com estratégias de previsão de mistura, pode impulsionar significativamente as capacidades de raciocínio geral dos MLLMs. Nossa melhor mistura melhora a precisão do modelo pós-treinado em benchmarks fora da distribuição em média 5,24% em comparação com o mesmo modelo pós-treinado com mistura uniforme de dados, e em um total de 20,74% em comparação com a linha de base antes do ajuste fino.
A síntese da manipulação de objetos articulados com o corpo inteiro, incluindo o movimento do corpo, das mãos e do objeto, é uma tarefa crítica, porém desafiadora, com amplas aplicações em humanos virtuais e robótica. Os principais desafios são duplos. Primeiro, alcançar movimentos realistas do corpo inteiro requer uma coordenação estreita entre as mãos e o restante do corpo, já que seus movimentos são interdependentes durante a manipulação. Segundo, a manipulação de objetos articulados geralmente envolve um alto grau de liberdade e exige maior precisão, frequentemente exigindo que os dedos sejam posicionados em regiões específicas para acionar partes móveis. Para abordar esses desafios, propomos uma nova estrutura de otimização de ruído de difusão coordenada. Especificamente, realizamos a otimização no espaço de ruído sobre três modelos de difusão especializados para o corpo, mão esquerda e mão direita, cada um treinado em seu próprio conjunto de dados de movimento para melhorar a generalização. A coordenação emerge naturalmente através do fluxo de gradiente ao longo da cadeia cinemática humana, permitindo que a postura global do corpo se adapte em resposta aos objetivos de movimento das mãos com alta fidelidade. Para aprimorar ainda mais a precisão na interação mão-objeto, adotamos uma representação unificada baseada em conjuntos de pontos de base (BPS), onde as posições dos efetores finais são codificadas como distâncias para o mesmo BPS usado para a geometria do objeto. Essa representação unificada captura relações espaciais detalhadas entre a mão e as partes articuladas do objeto, e as trajetórias resultantes servem como alvos para guiar a otimização do ruído de difusão, produzindo movimentos de interação altamente precisos. Realizamos extensos experimentos demonstrando que nosso método supera as abordagens existentes em qualidade de movimento e plausibilidade física, e permite várias capacidades, como controle de pose do objeto, manipulação simultânea com caminhada e geração de corpo inteiro a partir de dados apenas das mãos.
Um componente crítico para a confiabilidade dos LLMs (Modelos de Linguagem de Grande Escala) é a comunicação confiável de incerteza, no entanto, os LLMs frequentemente utilizam linguagem assertiva ao transmitir afirmações falsas, levando à superconfiança e à erosão da confiança. Apresentamos o primeiro estudo sistemático de calibração de confiança fiel em LLMs, avaliando a capacidade dos modelos de usar expressões linguísticas de incerteza que refletem fielmente sua incerteza intrínseca, abrangendo uma ampla gama de modelos, conjuntos de dados e estratégias de prompt. Nossos resultados demonstram que os LLMs falham amplamente nessa tarefa e que as intervenções existentes são insuficientes: abordagens padrão de prompt oferecem apenas ganhos marginais, e técnicas de calibração baseadas em factualidade podem até prejudicar a calibração fiel. Para abordar essa lacuna crítica, introduzimos o MetaFaith, uma nova abordagem de calibração baseada em prompt inspirada na metacognição humana. Mostramos que o MetaFaith melhora robustamente a calibração fiel em diversos modelos e domínios de tarefas, permitindo uma melhoria de até 61% na fidelidade e alcançando uma taxa de sucesso de 83% em comparação com as gerações originais, conforme avaliado por humanos.
Os benchmarks de Text-to-Speech (TTS) frequentemente falham em capturar quão bem os modelos lidam com textos complexos e semanticamente sutis. Baseando-se no EmergentTTS, introduzimos o EmergentTTS-Eval, um benchmark abrangente que cobre seis cenários desafiadores de TTS: emoções, paralinguística, palavras estrangeiras, complexidade sintática, pronúncia complexa (por exemplo, URLs, fórmulas) e perguntas. Crucialmente, nosso framework automatiza tanto a geração de casos de teste quanto a avaliação, tornando o benchmark facilmente extensível. A partir de um pequeno conjunto de prompts iniciais escritos por humanos, nós os estendemos iterativamente usando LLMs para direcionar desafios estruturais, fonéticos e prosódicos específicos, resultando em 1.645 casos de teste diversos. Além disso, empregamos uma abordagem de modelo-como-juiz, utilizando um Large Audio Language Model (LALM) para avaliar a fala em múltiplas dimensões, como emoção expressa, precisão prosódica, entonação e pronúncia. Avaliamos sistemas de TTS de última geração, tanto de código aberto quanto proprietários, como 11Labs, Deepgram e o 4o-mini-TTS da OpenAI, no EmergentTTS-Eval, demonstrando sua capacidade de revelar diferenças de desempenho em nível granular. Os resultados mostram que a abordagem de modelo-como-juiz oferece uma avaliação robusta de TTS e uma alta correlação com as preferências humanas. Disponibilizamos o código de avaliação em https://github.com/boson-ai/EmergentTTS-Eval-public e o conjunto de dados em https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
Recentemente, métodos que utilizam priors de modelos de difusão para auxiliar na estimativa geométrica monocromática (por exemplo, profundidade e normal) têm ganhado atenção significativa devido à sua forte capacidade de generalização. No entanto, a maioria dos trabalhos existentes se concentra na estimativa de propriedades geométricas dentro do sistema de coordenadas da câmera de quadros individuais de vídeo, negligenciando a capacidade inerente dos modelos de difusão de determinar correspondências entre quadros. Neste trabalho, demonstramos que, através de um design e ajuste apropriados, a consistência intrínseca dos modelos de geração de vídeo pode ser efetivamente aproveitada para estimativas geométricas consistentes. Especificamente, 1) selecionamos atributos geométricos no sistema de coordenadas global que compartilham a mesma correspondência com os quadros de vídeo como alvos de predição, 2) introduzimos um método de condicionamento novo e eficiente ao reutilizar codificações posicionais, e 3) aprimoramos o desempenho através do treinamento conjunto em múltiplos atributos geométricos que compartilham a mesma correspondência. Nossos resultados alcançam desempenho superior na predição de atributos geométricos globais em vídeos e podem ser diretamente aplicados a tarefas de reconstrução. Mesmo quando treinados exclusivamente em dados de vídeo estático, nossa abordagem exibe o potencial de generalização para cenas de vídeo dinâmicas.
Demonstramos que as operações de inferência de vários modelos de linguagem de grande escala (LLMs) de pesos abertos podem ser mapeadas para um sistema linear exatamente equivalente para uma sequência de entrada, sem modificar os pesos do modelo ou alterar as previsões de saída. Estendendo técnicas de modelos de difusão de imagens que exibem linearidade local ou por partes, alteramos estrategicamente o cálculo do gradiente em relação a uma sequência de entrada dada para uma previsão do próximo token, de modo que o Jacobiano do modelo reproduz quase exatamente a previsão direta com um sistema linear. Demonstramos essa abordagem em vários modelos (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral e OLMo 2, até Llama 3.3 70B Q4) e mostramos, por meio da decomposição em valores singulares do Jacobiano desacoplado, que esses LLMs operam em subespaços de dimensão extremamente baixa, onde muitos dos maiores vetores singulares decodificam conceitos relacionados ao token de saída mais provável. Essa abordagem também nos permite examinar a operação de cada camada sucessiva (e seus componentes de atenção e MLP) como sistemas lineares quase exatos e observar a emergência de conceitos semânticos. Apesar de seu poder expressivo e não linearidade global, os LLMs modernos podem ser interpretados por meio de decomposições localmente lineares quase exatas, que fornecem insights sobre suas representações internas e revelam estruturas semânticas interpretáveis no processo de previsão do próximo token.
O poder computacional em tempo de teste capacitou modelos de linguagem multimodal de grande escala a gerar cadeias de raciocínio estendidas, resultando em um desempenho forte em tarefas como raciocínio matemático multimodal. No entanto, essa capacidade aprimorada de raciocínio frequentemente vem acompanhada de um aumento na alucinação: à medida que as gerações se tornam mais longas, os modelos tendem a se afastar do conteúdo baseado em imagens e a depender mais fortemente de prioridades linguísticas. A análise de atenção mostra que cadeias de raciocínio mais longas levam a uma redução no foco nas entradas visuais, o que contribui para a alucinação. Para estudar sistematicamente esse fenômeno, introduzimos o RH-AUC, uma métrica que quantifica como a precisão de percepção de um modelo muda com o comprimento do raciocínio, permitindo-nos avaliar se o modelo preserva o fundamento visual durante o raciocínio. Também lançamos o RH-Bench, um benchmark diagnóstico que abrange uma variedade de tarefas multimodais, projetado para avaliar a relação entre a capacidade de raciocínio e a alucinação. Nossa análise revela que (i) modelos maiores geralmente alcançam um melhor equilíbrio entre raciocínio e percepção, e (ii) esse equilíbrio é influenciado mais pelos tipos e domínios dos dados de treinamento do que pelo seu volume geral. Essas descobertas destacam a importância de frameworks de avaliação que consideram conjuntamente a qualidade do raciocínio e a fidelidade perceptiva.
A geração de textos multilingues precisos com modelos de difusão tem sido um objetivo há muito tempo, mas continua sendo um desafio. Métodos recentes têm avançado na renderização de textos em um único idioma, mas a renderização de idiomas arbitrários ainda é uma área inexplorada. Este artigo apresenta o EasyText, um framework de renderização de texto baseado no DiT (Diffusion Transformer), que conecta latentes de remoção de ruído com tokens de caracteres multilingues codificados como tokens de caracteres. Propomos técnicas de codificação de posicionamento de caracteres e interpolação de codificação de posição para alcançar uma renderização de texto controlável e precisa. Além disso, construímos um grande conjunto de dados sintéticos de imagens de texto com 1 milhão de anotações de texto-imagem multilingues, bem como um conjunto de dados de alta qualidade com 20 mil imagens anotadas, que são usados para pré-treinamento e ajuste fino, respectivamente. Experimentos e avaliações extensivos demonstram a eficácia e o avanço da nossa abordagem na renderização de textos multilingues, qualidade visual e integração de texto com consciência de layout.
A decodificação especulativa (SD) é um método promissor para acelerar o processo de decodificação de Modelos de Linguagem de Grande Escala (LLMs). A eficiência da SD depende principalmente da consistência entre o modelo de rascunho e o modelo de verificação. No entanto, as abordagens de rascunho existentes geralmente exigem módulos adicionais a serem treinados, o que pode ser desafiador de implementar e garantir compatibilidade entre diversos LLMs. Neste artigo, propomos o CLaSp, uma estratégia de salto de camadas em contexto para decodificação especulativa automática. Diferente de métodos anteriores, o CLaSp não requer módulos de rascunho adicionais ou treinamento extra. Em vez disso, ele emprega um mecanismo plug-and-play ao pular camadas intermediárias do modelo de verificação para construir um modelo de rascunho comprimido. Especificamente, desenvolvemos um algoritmo de programação dinâmica que otimiza o processo de salto de camadas ao aproveitar os estados ocultos completos da última etapa de verificação como objetivo. Isso permite que o CLaSp ajuste dinamicamente sua estratégia de salto de camadas após cada etapa de verificação, sem depender de conjuntos pré-otimizados de camadas puladas. Resultados experimentais em diversas tarefas downstream demonstram que o CLaSp alcança uma aceleração de 1,3x ~ 1,7x em modelos da série LLaMA3 sem alterar a distribuição original do texto gerado.
Embora o raciocínio em cadeia de pensamento e o aprendizado por reforço (RL) tenham impulsionado avanços significativos em PLN, sua integração em modelos generativos de visão ainda é pouco explorada. Apresentamos o ReasonGen-R1, uma estrutura de duas etapas que primeiro capacita um gerador de imagens autoregressivo com habilidades explícitas de "pensamento" baseadas em texto por meio de ajuste fino supervisionado em um novo conjunto de dados de raciocínio contendo justificativas escritas, e então refina suas saídas utilizando a Otimização de Política Relativa em Grupo. Para permitir que o modelo raciocine por meio de texto antes de gerar imagens, geramos e disponibilizamos automaticamente um corpus de justificativas elaboradas pelo modelo, emparelhadas com prompts visuais, possibilitando o planejamento controlado de layouts de objetos, estilos e composições de cenas. Nosso algoritmo GRPO utiliza sinais de recompensa de um modelo de linguagem visual pré-treinado para avaliar a qualidade visual geral, otimizando a política em cada atualização. Avaliações no GenEval, DPG e no benchmark T2I demonstram que o ReasonGen-R1 supera consistentemente as linhas de base robustas e os modelos state-of-the-art anteriores. Mais informações: aka.ms/reasongen.
O objetivo deste trabalho é aprimorar a compreensão multimodal equilibrada em modelos de linguagem de grande escala audiovisual (AV-LLMs) ao abordar o viés de modalidade sem a necessidade de treinamento adicional. Nos AV-LLMs atuais, os recursos de áudio e vídeo são tipicamente processados em conjunto no decodificador. Embora essa estratégia facilite a compreensão multimodal unificada, ela pode introduzir um viés de modalidade, onde o modelo tende a depender excessivamente de uma modalidade devido a sinais de treinamento desequilibrados. Para mitigar isso, propomos o Decodificador Fork-Merge (FMD), uma estratégia simples, porém eficaz, aplicada durante a inferência que não requer treinamento adicional ou modificações arquitetônicas. O FMD primeiro realiza o raciocínio específico por modalidade ao processar entradas exclusivas de áudio e vídeo nas primeiras camadas do decodificador (fase de fork) e, em seguida, mescla os estados ocultos resultantes para o raciocínio conjunto nas camadas restantes (fase de merge). Essa abordagem promove contribuições equilibradas das modalidades e aproveita informações complementares entre elas. Avaliamos nosso método em dois AV-LLMs representativos, VideoLLaMA2 e video-SALMONN, utilizando três conjuntos de dados de referência. Os resultados experimentais demonstram melhorias consistentes de desempenho em tarefas focadas em raciocínio de áudio, vídeo e audiovisual combinado, evidenciando a eficácia de intervenções durante a inferência para uma compreensão multimodal robusta.
Apresentamos o DexUMI - um framework de coleta de dados e aprendizado de políticas que utiliza a mão humana como interface natural para transferir habilidades de manipulação hábil para diversas mãos robóticas. O DexUMI inclui adaptações de hardware e software para minimizar a lacuna de incorporação entre a mão humana e várias mãos robóticas. A adaptação de hardware reduz a lacuna cinemática utilizando um exoesqueleto de mão vestível. Ele permite feedback háptico direto na coleta de dados de manipulação e adapta o movimento humano para movimentos viáveis da mão robótica. A adaptação de software reduz a lacuna visual substituindo a mão humana em vídeos por uma reconstrução de alta fidelidade da mão robótica. Demonstramos as capacidades do DexUMI por meio de experimentos abrangentes no mundo real em duas plataformas diferentes de hardware de mãos robóticas hábeis, alcançando uma taxa média de sucesso em tarefas de 86%.
Modelos de linguagem multimodal de grande escala (MLLMs) alcançaram desempenho notável em tarefas complexas com contexto multimodal. No entanto, ainda é pouco estudado se eles exibem preferência de modalidade ao processar contextos multimodais. Para investigar essa questão, primeiro construímos um benchmark MC\textsuperscript{2} sob cenários controlados de conflito de evidências para avaliar sistematicamente a preferência de modalidade, que é a tendência de favorecer uma modalidade em detrimento de outra ao tomar decisões com base em evidências multimodais conflitantes. Nossa avaliação extensiva revela que todos os 18 MLLMs testados geralmente demonstram um viés de modalidade claro, e a preferência de modalidade pode ser influenciada por intervenções externas. Uma análise detalhada revela que a direção da preferência pode ser capturada nas representações latentes dos MLLMs. Com base nisso, propomos um método de sondagem e direcionamento baseado em engenharia de representações para controlar explicitamente a preferência de modalidade sem ajuste fino adicional ou prompts cuidadosamente elaborados. Nosso método amplifica efetivamente a preferência de modalidade em uma direção desejada e se aplica a tarefas subsequentes, como mitigação de alucinações e tradução automática multimodal, gerando melhorias promissoras.
Avanços recentes em destilação de modelos demonstram que dados de modelos avançados de raciocínio (por exemplo, DeepSeek-R1, OpenAI's o1) podem transferir efetivamente habilidades complexas de raciocínio para modelos menores e eficientes, conhecidos como modelos estudante. No entanto, práticas padrão empregam amostragem por rejeição, descartando exemplos de raciocínio incorretos — dados valiosos, mas frequentemente subutilizados. Este artigo aborda a questão crítica: Como podemos aproveitar efetivamente tanto os rastros de raciocínio destilados positivos quanto os negativos para maximizar o desempenho de raciocínio de LLMs em um cenário offline? Para isso, propomos o Reinforcement Distillation (REDI), um framework de duas etapas. A Etapa 1 aprende com rastros positivos por meio de Ajuste Fino Supervisionado (SFT). A Etapa 2 refina ainda mais o modelo usando tanto rastros positivos quanto negativos através de nosso objetivo REDI proposto. Este novo objetivo é uma função de perda simples e sem referência que supera métodos estabelecidos como DPO e SimPO neste contexto de destilação. Nossas avaliações empíricas demonstram a superioridade do REDI sobre a linha de base de SFT com Amostragem por Rejeição ou SFT combinado com DPO/SimPO em tarefas de raciocínio matemático. Notavelmente, o modelo Qwen-REDI-1.5B, pós-treinado com apenas 131 mil exemplos positivos e negativos do conjunto de dados aberto Open-R1, alcança uma pontuação de 83,1% no MATH-500 (pass@1). Seu desempenho iguala ou supera o do DeepSeek-R1-Distill-Qwen-1.5B (um modelo pós-treinado com 800 mil dados proprietários) em vários benchmarks de raciocínio matemático, estabelecendo um novo estado da arte para modelos de 1.5B pós-treinados offline com dados abertamente disponíveis.
Agentes de Linguagem de Role-Playing (RPLAs) visam simular personagens para interações humano-computador realistas e envolventes. No entanto, os modelos de recompensa tradicionais frequentemente enfrentam desafios de escalabilidade e adaptação a preferências conversacionais subjetivas. Propomos o ChARM, um Modelo de Recompensa Adaptativo Baseado em Personagem, que aborda esses desafios por meio de duas inovações: (1) uma margem adaptativa que melhora significativamente a eficiência de aprendizado e a generalização, e (2) um mecanismo de auto-evolução que aproveita dados não rotulados em grande escala para melhorar a cobertura do treinamento. Além disso, introduzimos o RoleplayPref, o primeiro conjunto de dados de preferências em grande escala especificamente para RPLAs, contendo 1.108 personagens, 13 subcategorias e 16.888 diálogos bilíngues, juntamente com o RoleplayEval, um benchmark de avaliação dedicado. Os resultados experimentais mostram uma melhoria de 13% em relação ao modelo convencional de Bradley-Terry em rankings de preferência. Além disso, a aplicação de recompensas geradas pelo ChARM em técnicas de aprendizado de preferências (por exemplo, otimização direta de preferência) alcança resultados de ponta no CharacterEval e RoleplayEval. O código e o conjunto de dados estão disponíveis em https://github.com/calubkk/ChARM.
Os Grandes Modelos de Linguagem (LLMs) demonstram uma capacidade notável de adotar personas e se envolver em role-playing. No entanto, avaliar essa habilidade apresenta desafios significativos, uma vez que as avaliações humanas são intensivas em recursos e as avaliações automatizadas podem ser tendenciosas. Para abordar essa questão, introduzimos o Role-Playing Eval (RPEval), um novo benchmark projetado para avaliar as capacidades de role-playing dos LLMs em quatro dimensões principais: compreensão emocional, tomada de decisão, alinhamento moral e consistência no personagem. Este artigo detalha a construção do RPEval e apresenta avaliações de linha de base. Nosso código e conjunto de dados estão disponíveis em https://github.com/yelboudouri/RPEval.
Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4o, são capazes de lidar com uma ampla gama de tarefas complexas quando recebem o prompt adequado. À medida que os custos por token são reduzidos, as vantagens de ajustar finamente Modelos de Linguagem de Pequena Escala (SLMs) para aplicações do mundo real — como inferência mais rápida e custos menores — podem não ser mais tão evidentes. Neste trabalho, apresentamos evidências de que, para tarefas específicas de domínio que exigem saídas estruturadas, os SLMs ainda possuem uma vantagem em termos de qualidade. Comparamos o ajuste fino de um SLM com a técnica de prompting em LLMs na tarefa de gerar fluxos de trabalho de baixo código em formato JSON. Observamos que, embora um bom prompt possa produzir resultados razoáveis, o ajuste fino melhora a qualidade em média 10%. Também realizamos uma análise sistemática de erros para revelar as limitações dos modelos.
Embora as leis de escala tenham transformado o processamento de linguagem natural e a visão computacional, a compreensão de nuvens de pontos 3D ainda não atingiu esse estágio. Isso pode ser atribuído tanto à escala comparativamente menor dos conjuntos de dados 3D quanto às fontes diversas dos próprios dados. As nuvens de pontos são capturadas por sensores variados (por exemplo, câmeras de profundidade, LiDAR) em diferentes domínios (por exemplo, ambientes internos, externos), cada um introduzindo padrões de varredura únicos, densidades de amostragem e vieses semânticos. Essa heterogeneidade de domínio representa uma grande barreira para o treinamento de modelos unificados em escala, especialmente sob a restrição realista de que os rótulos de domínio geralmente não estão acessíveis no momento da inferência. Neste trabalho, propomos o Point-MoE, uma arquitetura de Mistura de Especialistas (Mixture-of-Experts) projetada para permitir generalização em grande escala e entre domínios na percepção 3D. Mostramos que os backbones padrão de nuvens de pontos têm uma degradação significativa no desempenho quando treinados com dados de domínios mistos, enquanto o Point-MoE, com uma simples estratégia de roteamento top-k, pode especializar automaticamente os especialistas, mesmo sem acesso aos rótulos de domínio. Nossos experimentos demonstram que o Point-MoE não apenas supera as linhas de base multi-domínio fortes, mas também generaliza melhor para domínios não vistos. Este trabalho destaca um caminho escalável para a compreensão 3D: permitir que o modelo descubra a estrutura em dados 3D diversos, em vez de impô-la por meio de curadoria manual ou supervisão de domínio.
Em uma era de crescimento exponencial científico, identificar novas ideias de pesquisa é crucial e desafiador na academia. Apesar do potencial, a falta de um conjunto de dados de referência apropriado dificulta a pesquisa em detecção de novidades. Mais importante ainda, simplesmente adotar tecnologias existentes de PLN, como recuperação e verificação cruzada, não é uma solução universal devido à lacuna entre similaridade textual e concepção de ideias. Neste artigo, propomos utilizar modelos de linguagem de grande escala (LLMs) para detecção de novidades científicas (ND), associados a dois novos conjuntos de dados nas áreas de marketing e PLN. Para construir conjuntos de dados considerados para ND, propomos extrair conjuntos de fechamento de artigos com base em suas relações e, em seguida, resumir suas principais ideias com base em LLMs. Para capturar a concepção de ideias, propomos treinar um recuperador leve ao destilar o conhecimento em nível de ideia dos LLMs para alinhar ideias com concepção semelhante, permitindo uma recuperação de ideias eficiente e precisa para detecção de novidades em LLMs. Experimentos mostram que nosso método supera consistentemente outros nos conjuntos de dados de referência propostos para tarefas de recuperação de ideias e ND. Códigos e dados estão disponíveis em https://anonymous.4open.science/r/NoveltyDetection-10FB/.
Os recentes avanços na otimização em tempo de teste levaram a capacidades de raciocínio notáveis em Modelos de Linguagem de Grande Escala (LLMs), permitindo que eles resolvam problemas altamente complexos em matemática e codificação. No entanto, as capacidades de raciocínio de LLMs multimodais (MLLMs) ainda estão significativamente atrasadas, especialmente para tarefas complexas de vídeo e linguagem. Para abordar essa questão, apresentamos o SiLVR, uma estrutura simples de raciocínio em vídeo baseada em linguagem que decompõe a compreensão complexa de vídeo em dois estágios. No primeiro estágio, o SiLVR transforma o vídeo bruto em representações baseadas em linguagem usando entradas multissensoriais, como legendas de clipes curtos e legendas de áudio/fala. No segundo estágio, as descrições em linguagem são alimentadas em um LLM poderoso de raciocínio para resolver tarefas complexas de compreensão de vídeo e linguagem. Para lidar com entradas multissensoriais de contexto longo, usamos um esquema de redução de tokens adaptativo, que determina dinamicamente a granularidade temporal com a qual amostrar os tokens. Nossa estrutura simples, modular e livre de treinamento para raciocínio em vídeo alcança os melhores resultados relatados em Video-MME (longo), Video-MMMU (compreensão), Video-MMLU, CGBench e EgoLife. Além disso, nosso estudo empírico focado nas capacidades de raciocínio em vídeo mostra que, apesar de não serem explicitamente treinados em vídeo, LLMs fortes de raciocínio podem agregar efetivamente informações de entrada multissensoriais de vídeo, fala e áudio para tarefas complexas de raciocínio temporal, causal, de contexto longo e de aquisição de conhecimento em vídeo. O código está disponível em https://github.com/CeeZh/SILVR.
O pré-treinamento contrastivo de linguagem-imagem (CLIP) tornou-se um modelo fundamental e tem sido aplicado a diversas tarefas visuais e multimodais. No entanto, trabalhos recentes indicam que o CLIP apresenta dificuldades em distinguir diferenças detalhadas em imagens e mostra desempenho subótimo em tarefas de predição densa e multimodais centradas em visão. Portanto, este trabalho foca em melhorar os modelos CLIP existentes, visando capturar o máximo de detalhes visuais nas imagens. Descobrimos que um tipo específico de modelos generativos, o unCLIP, fornece uma estrutura adequada para alcançar nosso objetivo. Especificamente, o unCLIP treina um gerador de imagens condicionado na incorporação de imagem do CLIP. Em outras palavras, ele inverte o codificador de imagem do CLIP. Comparados a modelos discriminativos como o CLIP, os modelos generativos são melhores em capturar detalhes de imagens, pois são treinados para aprender a distribuição de dados das imagens. Além disso, o espaço de entrada condicional do unCLIP está alinhado com o espaço original de incorporação texto-imagem do CLIP. Portanto, propomos inverter o unCLIP (denominado un^2CLIP) para melhorar o modelo CLIP. Dessa forma, o codificador de imagem aprimorado pode adquirir a capacidade de captura de detalhes visuais do unCLIP, mantendo simultaneamente seu alinhamento com o codificador de texto original. Avaliamos nosso CLIP aprimorado em várias tarefas às quais o CLIP foi aplicado, incluindo o desafiador benchmark MMVP-VLM, a tarefa de segmentação de vocabulário aberto com predição densa e tarefas de modelos de linguagem multimodal de grande escala. Os experimentos mostram que o un^2CLIP melhora significativamente o CLIP original e os métodos anteriores de aprimoramento do CLIP. O código e os modelos estarão disponíveis em https://github.com/LiYinqi/un2CLIP.
O papel das unidades ocultas em redes neurais recorrentes é tipicamente visto como a modelagem de memória, com pesquisas focando em melhorar a retenção de informação por meio de mecanismos de portão. Uma perspectiva menos explorada vê as unidades ocultas como participantes ativos na computação realizada pela rede, em vez de meros armazenamentos passivos de memória. Neste trabalho, revisitamos operações bilineares, que envolvem interações multiplicativas entre unidades ocultas e embeddings de entrada. Demonstramos teórica e empiricamente que elas constituem um viés indutivo natural para representar a evolução dos estados ocultos em tarefas de rastreamento de estado. Essas são o tipo mais simples de tarefa que exigem que as unidades ocultas contribuam ativamente para o comportamento da rede. Também mostramos que atualizações de estado bilineares formam uma hierarquia natural correspondente a tarefas de rastreamento de estado de complexidade crescente, com redes recorrentes lineares populares, como a Mamba, residindo no centro de menor complexidade dessa hierarquia.
Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial notável, mas continuam desafiadores de aprimorar continuamente por meio de ajustes finos tradicionais, especialmente ao integrar capacidades de outros LLMs especializados. Métodos populares como ensemble e fusão de pesos exigem uma quantidade substancial de memória e lutam para se adaptar a ambientes de dados em constante mudança. Esforços recentes têm transferido conhecimento de múltiplos LLMs para um único modelo alvo; no entanto, eles sofrem com interferência e degradação de desempenho entre tarefas, em grande parte devido à flexibilidade limitada na seleção de candidatos e pipelines de treinamento. Para abordar esses problemas, propomos um framework que seleciona e agrega conhecimento de forma adaptativa a partir de diversos LLMs para construir um único modelo mais forte, evitando a alta sobrecarga de memória do ensemble e a inflexibilidade da fusão de pesos. Especificamente, projetamos uma rede de seleção adaptativa que identifica os LLMs de origem mais relevantes com base em suas pontuações, reduzindo assim a interferência de conhecimento. Além disso, propomos uma estratégia de fusão ponderada dinâmica que leva em consideração os pontos fortes inerentes dos LLMs candidatos, juntamente com uma função de perda orientada por feedback que impede o seletor de convergir para um único subconjunto de fontes. Resultados experimentais demonstram que nosso método pode permitir um processo de agregação de conhecimento mais estável e escalável, reduzindo a interferência de conhecimento em até 50% em comparação com abordagens existentes. O código está disponível em https://github.com/ZLKong/LLM_Integration.
Modelos de linguagem de grande escala (LLMs) demonstram um potencial notável para democratizar o raciocínio automatizado ao gerar especificações formais. No entanto, existe uma tensão fundamental: LLMs são probabilísticos, enquanto a verificação formal exige garantias determinísticas. Este artigo aborda essa lacuna epistemológica ao investigar de forma abrangente os modos de falha e a quantificação de incerteza (UQ) em artefatos formais gerados por LLMs. Nossa avaliação sistemática de cinco LLMs de ponta revela o impacto específico do domínio da autoformalização baseada em Satisfiability Modulo Theories (SMT) na precisão (variando de +34,8% em tarefas lógicas a -44,5% em tarefas factuais), com técnicas conhecidas de UQ, como a entropia das probabilidades de tokens, falhando em identificar esses erros. Introduzimos uma estrutura de gramática livre de contexto probabilística (PCFG) para modelar as saídas dos LLMs, resultando em uma taxonomia de incerteza refinada. Descobrimos que os sinais de incerteza são dependentes da tarefa (por exemplo, entropia gramatical para lógica, AUROC>0,93). Por fim, uma fusão leve desses sinais permite a verificação seletiva, reduzindo drasticamente os erros (14-100%) com uma abstenção mínima, transformando a formalização impulsionada por LLMs em uma disciplina de engenharia confiável.
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam em diversas tarefas de processamento de linguagem natural, mas ainda são vulneráveis à geração de conteúdo prejudicial ou à exploração para fins maliciosos. Embora conjuntos de dados de alinhamento de segurança tenham sido introduzidos para mitigar esses riscos por meio de ajuste fino supervisionado (SFT), esses conjuntos de dados frequentemente carecem de cobertura abrangente de riscos. A maioria dos conjuntos de dados existentes se concentra principalmente na diversidade lexical, negligenciando outras dimensões críticas. Para abordar essa limitação, propomos uma nova estrutura de análise para medir sistematicamente a cobertura de risco dos conjuntos de dados de alinhamento em três dimensões essenciais: Diversidade Lexical, Intenção Maliciosa e Táticas de Jailbreak. Além disso, introduzimos o TRIDENT, um pipeline automatizado que aproveita a geração zero-shot baseada em persona de LLMs para produzir instruções diversas e abrangentes que abrangem essas dimensões. Cada instrução prejudicial é emparelhada com uma resposta alinhada eticamente, resultando em dois conjuntos de dados: TRIDENT-Core, composto por 26.311 exemplos, e TRIDENT-Edge, com 18.773 exemplos. O ajuste fino do Llama 3.1-8B no TRIDENT-Edge demonstra melhorias substanciais, alcançando uma redução média de 14,29% no Índice de Dano e uma diminuição de 20% na Taxa de Sucesso de Ataque em comparação com o modelo de linha de base de melhor desempenho ajustado no conjunto de dados WildBreak.
As capacidades emergentes dos grandes modelos de linguagem (LLMs) têm gerado preocupações sobre seu potencial imediato para uso malicioso. A abordagem central para mitigar essas preocupações é a detecção de consultas prejudiciais ao modelo. As abordagens atuais de detecção são falhas e são particularmente suscetíveis a ataques que exploram a generalização desalinhada das capacidades do modelo (por exemplo, prompts em idiomas de baixo recurso ou prompts fornecidos em modalidades não textuais, como imagem e áudio). Para enfrentar esse desafio, propomos o OMNIGUARD, uma abordagem para detectar prompts prejudiciais em diferentes idiomas e modalidades. Nossa abordagem (i) identifica representações internas de um LLM/MLLM que estão alinhadas entre idiomas ou modalidades e, em seguida, (ii) as utiliza para construir um classificador independente de idioma ou modalidade para detectar prompts prejudiciais. O OMNIGUARD melhora a precisão da classificação de prompts prejudiciais em 11,57% em relação à linha de base mais forte em um cenário multilíngue, em 20,44% para prompts baseados em imagem e estabelece um novo estado da arte (SOTA) para prompts baseados em áudio. Ao reaproveitar embeddings calculados durante a geração, o OMNIGUARD também é muito eficiente (aproximadamente 120 vezes mais rápido que a próxima linha de base mais rápida). O código e os dados estão disponíveis em: https://github.com/vsahil/OmniGuard.
Agentes de IA estão sendo cada vez mais utilizados em aplicações voltadas para o consumidor para auxiliar em tarefas como busca de produtos, negociação e execução de transações. Neste artigo, exploramos um cenário futuro em que tanto consumidores quanto comerciantes autorizam agentes de IA a automatizar completamente negociações e transações. Nosso objetivo é responder a duas perguntas-chave: (1) Diferentes agentes de LLM variam em sua capacidade de garantir acordos favoráveis para os usuários? (2) Quais riscos surgem ao automatizar totalmente a realização de negócios com agentes de IA em mercados de consumo? Para abordar essas questões, desenvolvemos uma estrutura experimental que avalia o desempenho de vários agentes de LLM em cenários reais de negociação e transação. Nossos resultados revelam que a realização de negócios mediada por IA é um jogo intrinsecamente desequilibrado — diferentes agentes alcançam resultados significativamente distintos para seus usuários. Além disso, anomalias comportamentais em LLMs podem resultar em perdas financeiras tanto para consumidores quanto para comerciantes, como gastos excessivos ou aceitação de acordos irracionais. Esses resultados destacam que, embora a automação possa melhorar a eficiência, ela também introduz riscos substanciais. Os usuários devem exercer cautela ao delegar decisões de negócios a agentes de IA.
A similaridade semântica textual (STS) é uma tarefa crítica no processamento de linguagem natural (PLN), permitindo aplicações em recuperação, agrupamento e compreensão de relações semânticas entre textos. No entanto, a pesquisa nessa área para a língua árabe permanece limitada devido à falta de conjuntos de dados de alta qualidade e modelos pré-treinados. Essa escassez de recursos tem restringido a avaliação precisa e o avanço da similaridade semântica em textos árabes. Este artigo apresenta modelos de Embedding de Texto Árabe Geral (GATE) que alcançam desempenho de ponta na tarefa de Similaridade Semântica Textual dentro do benchmark MTEB. O GATE aproveita o Aprendizado de Representação Matryoshka e uma abordagem de treinamento com perda híbrida usando conjuntos de dados de triplas árabes para Inferência em Linguagem Natural, que são essenciais para melhorar o desempenho do modelo em tarefas que exigem compreensão semântica refinada. O GATE supera modelos maiores, incluindo os da OpenAI, com uma melhoria de 20-25% nos benchmarks de STS, capturando efetivamente as nuances semânticas únicas do árabe.
Uma limitação dos métodos modernos de incorporação de recuperação de documentos é que eles normalmente codificam trechos (chunks) do mesmo documento de forma independente, frequentemente negligenciando informações contextuais cruciais do restante do documento que poderiam melhorar significativamente as representações individuais dos trechos. Neste trabalho, introduzimos o ConTEB (Context-aware Text Embedding Benchmark), um benchmark projetado para avaliar modelos de recuperação em sua capacidade de aproveitar o contexto de todo o documento. Nossos resultados mostram que os modelos de incorporação state-of-the-art têm dificuldades em cenários de recuperação onde o contexto é necessário. Para abordar essa limitação, propomos o InSeNT (In-sequence Negative Training), uma nova abordagem de pós-treinamento contrastivo que, combinada com o agrupamento tardio de trechos (late chunking pooling), melhora o aprendizado de representações contextuais enquanto preserva a eficiência computacional. Nosso método melhora significativamente a qualidade da recuperação no ConTEB sem sacrificar o desempenho do modelo base. Além disso, descobrimos que os trechos incorporados com nosso método são mais robustos a estratégias de chunking subótimas e a tamanhos maiores de corpus de recuperação. Disponibilizamos todos os artefatos em código aberto em https://github.com/illuin-tech/contextual-embeddings.
A Recuperação de Casos Jurídicos (LCR, do inglês Legal Case Retrieval), que recupera casos relevantes a partir de um caso de consulta, é uma tarefa fundamental para profissionais do direito em pesquisas e tomadas de decisão. No entanto, os estudos existentes sobre LCR enfrentam duas grandes limitações. Primeiro, eles são avaliados em corpora de recuperação relativamente pequenos (por exemplo, 100 a 55 mil casos) e utilizam uma gama estreita de tipos de consultas criminais, o que não reflete adequadamente a complexidade dos cenários reais de recuperação jurídica. Segundo, sua dependência de métodos baseados em embeddings ou correspondência lexical frequentemente resulta em representações limitadas e correspondências juridicamente irrelevantes. Para abordar essas questões, apresentamos: (1) LEGAR BENCH, o primeiro benchmark coreano de LCR em grande escala, abrangendo 411 tipos de crimes diversos em consultas sobre 1,2 milhão de casos jurídicos; e (2) LegalSearchLM, um modelo de recuperação que realiza raciocínio sobre elementos jurídicos do caso de consulta e gera diretamente conteúdo fundamentado nos casos-alvo por meio de decodificação restrita. Os resultados experimentais mostram que o LegalSearchLM supera as baselines em 6-20% no LEGAR BENCH, alcançando desempenho de ponta. Ele também demonstra forte generalização para casos fora do domínio, superando modelos generativos ingênuos treinados com dados do domínio em 15%.
Este artigo apresenta uma análise abrangente da diversidade linguística na pesquisa de segurança de LLMs (Large Language Models), destacando a natureza centrada no inglês do campo. Por meio de uma revisão sistemática de quase 300 publicações de 2020 a 2024 em conferências e workshops importantes de PLN (Processamento de Linguagem Natural) da *ACL, identificamos uma lacuna linguística significativa e crescente na pesquisa de segurança de LLMs, com até mesmo idiomas não ingleses de alto recurso recebendo atenção mínima. Observamos ainda que idiomas não ingleses raramente são estudados como uma língua autônoma e que a pesquisa de segurança em inglês apresenta práticas deficientes de documentação linguística. Para motivar pesquisas futuras em segurança multilíngue, fazemos várias recomendações com base em nossa pesquisa e, em seguida, propomos três direções concretas para o futuro: avaliação de segurança, geração de dados de treinamento e generalização de segurança entre idiomas. Com base em nossa pesquisa e nas direções propostas, o campo pode desenvolver práticas de segurança de IA mais robustas e inclusivas para diversas populações globais.