Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem (LMs) pós-treinamento com aprendizado por reforço (RL) podem aprimorar suas capacidades de raciocínio complexo sem a necessidade de ajuste fino supervisionado, conforme demonstrado pelo DeepSeek-R1-Zero. No entanto, utilizar o RL de forma eficaz para LMs exige uma paralelização significativa para escalar a inferência, o que introduz desafios técnicos não triviais (por exemplo, latência, memória e confiabilidade) juntamente com custos financeiros crescentes. Apresentamos o Swarm sAmpling Policy Optimization (SAPO), um algoritmo de RL pós-treinamento totalmente descentralizado e assíncrono. O SAPO foi projetado para redes descentralizadas de nós de computação heterogêneos, onde cada nó gerencia seus próprios modelos de política enquanto "compartilha" rollouts com outros na rede; não são necessárias suposições explícitas sobre latência, homogeneidade de modelos ou hardware, e os nós podem operar de forma isolada, se desejado. Como resultado, o algoritmo evita gargalos comuns ao escalar o RL pós-treinamento, ao mesmo tempo em que permite (e até incentiva) novas possibilidades. Ao amostrar rollouts "compartilhados" pela rede, ele permite que "momentos de insight" se propaguem, impulsionando assim o processo de aprendizado. Neste artigo, mostramos que o SAPO alcançou ganhos cumulativos de recompensa de até 94% em experimentos controlados. Também compartilhamos insights de testes em uma rede com milhares de nós contribuídos por membros da comunidade Gensyn, que executaram o algoritmo em hardwares e modelos diversos durante uma demonstração de código aberto.
O pensamento paralelo surgiu como uma abordagem inovadora para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs) ao explorar múltiplos caminhos de raciocínio simultaneamente. No entanto, ativar tais capacidades por meio de treinamento permanece desafiador, pois os métodos existentes dependem predominantemente de ajuste fino supervisionado (SFT) sobre dados sintéticos, o que incentiva a imitação forçada pelo professor em vez de exploração e generalização. Diferentemente deles, propomos o Parallel-R1, o primeiro framework de aprendizado por reforço (RL) que habilita comportamentos de pensamento paralelo para tarefas complexas de raciocínio do mundo real. Nosso framework emprega um currículo progressivo que aborda explicitamente o problema de inicialização a frio no treinamento de pensamento paralelo com RL. Primeiro, utilizamos SFT em trajetórias geradas por prompts de tarefas mais simples para instilar a capacidade de pensamento paralelo, depois fazemos a transição para RL para explorar e generalizar essa habilidade em problemas mais difíceis. Experimentos em diversos benchmarks matemáticos, incluindo MATH, AMC23 e AIME, mostram que o Parallel-R1 instila com sucesso o pensamento paralelo, levando a melhorias de 8,4% na precisão em relação ao modelo de pensamento sequencial treinado diretamente em tarefas desafiadoras com RL. Uma análise mais aprofundada revela uma mudança clara no comportamento de pensamento do modelo: em um estágio inicial, ele usa o pensamento paralelo como uma estratégia de exploração, enquanto em um estágio posterior, ele usa a mesma capacidade para verificação multiperspectiva. Mais significativamente, validamos o pensamento paralelo como um andaime de exploração durante o treinamento, onde essa fase exploratória temporária desbloqueia um teto de desempenho mais alto após o RL, resultando em uma melhoria de 42,9% em relação à linha de base no AIME25. Nosso modelo, dados e código serão disponibilizados como código aberto em https://github.com/zhengkid/Parallel-R1.
Modelos de linguagem multimodal de grande escala (MLLMs) treinados com ajuste fino por instrução visual têm alcançado um desempenho robusto em diversas tarefas, mas ainda apresentam limitações em tarefas centradas na visão, como contagem de objetos ou raciocínio espacial. Atribuímos essa lacuna ao paradigma predominante de supervisão baseada apenas em texto, que fornece orientação indireta para o caminho visual e frequentemente leva os MLLMs a descartar detalhes visuais refinados durante o treinamento. Neste artigo, apresentamos o VIsual Representation ALignment (VIRAL), uma estratégia de regularização simples, porém eficaz, que alinha as representações visuais internas dos MLLMs com as de modelos de base visual (VFMs) pré-treinados. Ao impor explicitamente esse alinhamento, o VIRAL permite que o modelo não apenas retenha detalhes visuais críticos do codificador visual de entrada, mas também complemente conhecimentos visuais adicionais dos VFMs, aprimorando assim sua capacidade de raciocinar sobre entradas visuais complexas. Nossos experimentos demonstram melhorias consistentes em todas as tarefas de benchmarks multimodais amplamente adotados. Além disso, realizamos estudos abrangentes de ablação para validar as principais escolhas de design subjacentes ao nosso framework. Acreditamos que essa descoberta simples abre uma direção importante para a integração eficaz de informações visuais no treinamento de MLLMs.
Avanços recentes em modelos multimodais de grande escala têm aproveitado ferramentas baseadas em imagens com aprendizado por reforço para abordar problemas visuais. No entanto, as abordagens de código aberto existentes frequentemente exibem padrões de raciocínio monótonos e permitem apenas um número limitado de interações, tornando-as inadequadas para tarefas difíceis que exigem exploração por tentativa e erro. Neste trabalho, abordamos essa limitação ao escalar as interações baseadas em ferramentas e introduzimos o Mini-o3, um sistema que executa raciocínio profundo e multi-turno — abrangendo dezenas de etapas — e alcança desempenho de ponta em tarefas desafiadoras de busca visual. Nossa receita para reproduzir comportamentos no estilo OpenAI o3 compreende três componentes principais. Primeiro, construímos o Visual Probe Dataset, uma coleção de milhares de problemas desafiadores de busca visual projetados para raciocínio exploratório. Segundo, desenvolvemos um pipeline iterativo de coleta de dados para obter trajetórias de partida a frio que exibem padrões diversos de raciocínio, incluindo busca em profundidade, tentativa e erro, e manutenção de objetivos. Terceiro, propomos uma estratégia de mascaramento de turnos extras que evita a penalização de respostas que excedem o número máximo de turnos durante o aprendizado por reforço, equilibrando assim a eficiência no treinamento com a escalabilidade no teste. Apesar de ser treinado com um limite superior de apenas seis turnos de interação, nosso modelo gera trajetórias que naturalmente escalam para dezenas de turnos no momento da inferência, com a precisão melhorando à medida que o número de turnos aumenta. Experimentos extensivos demonstram que o Mini-o3 produz padrões ricos de raciocínio e caminhos de pensamento profundos, resolvendo efetivamente problemas desafiadores de busca visual.
Modelos multimodais unificados (UMMs) integram compreensão e geração visual em uma única arquitetura. No entanto, o treinamento convencional depende de pares (ou sequências) de imagem-texto cujas legendas são tipicamente esparsas e carecem de detalhes visuais refinados—mesmo quando utilizam centenas de palavras para descrever uma imagem simples. Introduzimos o Alinhamento por Reconstrução (RecA), um método pós-treinamento eficiente em recursos que aproveita embeddings de codificadores de compreensão visual como "prompts de texto" densos, fornecendo supervisão rica sem a necessidade de legendas. Concretamente, o RecA condiciona um UMM em seus próprios embeddings de compreensão visual e o otimiza para reconstruir a imagem de entrada com uma perda de reconstrução auto-supervisionada, realinhando assim a compreensão e a geração. Apesar de sua simplicidade, o RecA é amplamente aplicável: em UMMs baseados em autoregressão, autoregressão mascarada e difusão, ele melhora consistentemente a fidelidade de geração e edição. Com apenas 27 horas de GPU, o pós-treinamento com RecA melhora substancialmente o desempenho na geração de imagens no GenEval (0.73→0.90) e no DPGBench (80.93→88.15), ao mesmo tempo em que impulsiona benchmarks de edição (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notavelmente, o RecA supera modelos open-source muito maiores e se aplica amplamente em diversas arquiteturas de UMMs, estabelecendo-se como uma estratégia de alinhamento pós-treinamento eficiente e geral para UMMs.
Os recentes avanços na personalização de imagens exibem uma ampla gama de perspectivas de aplicação devido a capacidades de personalização mais robustas. No entanto, como nós, seres humanos, somos mais sensíveis a rostos, um desafio significativo permanece na preservação de uma identidade consistente, evitando a confusão de identidade com imagens de múltiplas referências, o que limita a escalabilidade de identidade dos modelos de personalização. Para abordar isso, apresentamos o UMO, uma estrutura de Otimização Unificada de Multi-identidades, projetada para manter uma preservação de identidade de alta fidelidade e aliviar a confusão de identidade com escalabilidade. Com o paradigma de "correspondência múltipla para múltipla", o UMO reformula a geração de multi-identidades como um problema de otimização de atribuição global e libera a consistência de multi-identidades para métodos existentes de personalização de imagens de forma geral por meio de aprendizado por reforço em modelos de difusão. Para facilitar o treinamento do UMO, desenvolvemos um conjunto de dados de personalização escalável com imagens de múltiplas referências, consistindo em partes sintetizadas e reais. Além disso, propomos uma nova métrica para medir a confusão de identidade. Experimentos extensivos demonstram que o UMO não apenas melhora significativamente a consistência de identidade, mas também reduz a confusão de identidade em vários métodos de personalização de imagens, estabelecendo um novo estado da arte entre os métodos de código aberto na dimensão de preservação de identidade. Código e modelo: https://github.com/bytedance/UMO
A execução de tarefas condicionadas por linguagem em ambientes visuais dinâmicos permanece um desafio central na IA incorporada. Os modelos existentes de Visão-Linguagem-Ação (VLA) adotam predominantemente mapeamentos reativos de estado para ação, frequentemente resultando em comportamentos de curto alcance e baixa robustez em cenas dinâmicas. Neste artigo, introduzimos o F1, um framework VLA pré-treinado que integra a geração de previsão visual no pipeline de tomada de decisão. O F1 adota uma arquitetura Mixture-of-Transformer com módulos dedicados para percepção, geração de previsão e controle, conectando assim compreensão, geração e ações. Em seu núcleo, o F1 emprega um mecanismo de previsão de próxima escala para sintetizar previsões visuais condicionadas por objetivos como alvos explícitos de planejamento. Ao prever estados visuais futuros plausíveis, o F1 reformula a geração de ações como um problema de dinâmica inversa guiada por previsão, permitindo ações que implicitamente alcançam objetivos visuais. Para dotar o F1 de capacidades robustas e generalizáveis, propomos uma receita de treinamento em três estágios em um extenso conjunto de dados composto por mais de 330 mil trajetórias em 136 tarefas diversas. Esse esquema de treinamento aprimora o raciocínio modular e equipa o modelo com previsão visual transferível, o que é crucial para ambientes complexos e dinâmicos. Avaliações extensas em tarefas do mundo real e benchmarks de simulação demonstram que o F1 supera consistentemente as abordagens existentes, alcanizando ganhos substanciais tanto na taxa de sucesso das tarefas quanto na capacidade de generalização.
O Aprendizado por Reforço (RL) tem se mostrado altamente eficaz para aprimorar as habilidades de raciocínio complexo de Modelos de Linguagem de Grande Escala (LLMs), porém os mecanismos subjacentes que impulsionam esse sucesso permanecem amplamente obscuros. Nossa análise revela que fenômenos intrigantes como "momentos de insight", "escalonamento de comprimento" e dinâmicas de entropia não são ocorrências isoladas, mas características de uma hierarquia emergente de raciocínio, semelhante à separação entre planejamento estratégico de alto nível e execução procedural de baixo nível na cognição humana. Descobrimos uma dinâmica convincente em duas fases: inicialmente, o modelo é limitado pela correção procedural e precisa aprimorar suas habilidades de baixo nível. O gargalo de aprendizagem então muda decisivamente, com os ganhos de desempenho sendo impulsionados pela exploração e domínio do planejamento estratégico de alto nível. Essa percepção expõe uma ineficiência central nos algoritmos de RL predominantes, como o GRPO, que aplicam pressão de otimização de forma agnóstica e diluem o sinal de aprendizagem em todos os tokens. Para resolver isso, propomos o HIerarchy-Aware Credit Assignment (HICRA), um algoritmo que concentra os esforços de otimização em tokens de planejamento de alto impacto. O HICRA supera significativamente as baselines fortes, demonstrando que focar nesse gargalo estratégico é crucial para desbloquear raciocínios avançados. Além disso, validamos a entropia semântica como uma bússola superior para medir a exploração estratégica em comparação com métricas enganosas, como a entropia em nível de token.
Os grandes modelos de linguagem (LLMs) avançaram rapidamente nos últimos anos, impulsionados pela escala, abundância de dados de treinamento de alta qualidade e aprendizado por reforço. No entanto, esse progresso enfrenta um gargalo fundamental: a necessidade de cada vez mais dados a partir dos quais os modelos possam continuar a aprender. Neste trabalho, propomos uma abordagem de aprendizado por reforço que elimina essa dependência, permitindo que os modelos melhorem sem dados adicionais. Nosso método utiliza uma estrutura teórica dos jogos de autojogo, onde as capacidades de um modelo são medidas pelo desempenho em um jogo competitivo, e políticas mais fortes emergem ao fazer o modelo jogar contra si mesmo — um processo que chamamos de Autojogo de Linguagem (LSP). Experimentos com o Llama-3.2-3B-Instruct em benchmarks de seguimento de instruções mostram que modelos pré-treinados não apenas podem aprimorar seu desempenho em tarefas desafiadoras apenas com o autojogo, mas também podem fazê-lo de forma mais eficaz do que abordagens baseadas em dados.
O aprendizado por reforço com recompensas verificáveis (RLVR) alcançou sucesso notável em aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos existentes de RLVR frequentemente sofrem com ineficiência de exploração devido a descompassos entre a dificuldade dos dados de treinamento e a capacidade do modelo. Os LLMs falham em descobrir caminhos de raciocínio viáveis quando os problemas são excessivamente difíceis, enquanto aprendem pouca capacidade nova quando os problemas são muito simples. Neste trabalho, formalizamos o impacto da dificuldade do problema ao quantificar a relação entre a velocidade de descida da perda e a precisão do rollout. Com base nessa análise, propomos o SEELE, uma nova estrutura de RLVR assistida por supervisão que ajusta dinamicamente a dificuldade do problema para permanecer na região de alta eficiência. O SEELE aumenta cada amostra de treinamento ao anexar uma dica (parte de uma solução completa) após o problema original. Diferente de abordagens anteriores baseadas em dicas, o SEELE ajusta deliberada e adaptativamente o comprimento da dica para cada problema a fim de alcançar uma dificuldade ótima. Para determinar o comprimento ideal da dica, o SEELE emprega uma estratégia de amostragem de rollout em múltiplas rodadas. Em cada rodada, ele ajusta um modelo de teoria de resposta ao item aos pares precisão-dica coletados nas rodadas anteriores para prever o comprimento necessário da dica para a próxima rodada. Esse ajuste de dificuldade em tempo real e no nível da instância alinha a dificuldade do problema com a capacidade evolutiva do modelo, melhorando assim a eficiência da exploração. Resultados experimentais mostram que o SEELE supera a Otimização de Política Relativa de Grupo (GRPO) e o Ajuste Fino Supervisionado (SFT) em +11,8 e +10,5 pontos, respectivamente, e ultrapassa a melhor abordagem assistida por supervisão anterior em +3,6 pontos em média em seis benchmarks de raciocínio matemático.
A interpretação radiológica assistida por IA é baseada predominantemente em modelos estreitos e de tarefa única. Essa abordagem é impraticável para cobrir o vasto espectro de modalidades de imagem, doenças e achados radiológicos. Os modelos de base (Foundation Models - FMs) prometem uma generalização ampla entre modalidades e em cenários com poucos dados. No entanto, esse potencial permaneceu em grande parte não realizado na radiologia. Apresentamos o Curia, um modelo de base treinado em toda a produção de imagens transversais de um grande hospital ao longo de vários anos, que, até onde sabemos, é o maior corpus desse tipo de dados do mundo real, abrangendo 150.000 exames (130 TB). Em um novo benchmark de validação externa composto por 19 tarefas, o Curia identifica com precisão órgãos, detecta condições como hemorragias cerebrais e infartos do miocárdio, e prevê resultados no estadiamento de tumores. O Curia iguala ou supera o desempenho de radiologistas e modelos de base recentes, e exibe propriedades emergentes clinicamente significativas em regimes de baixo volume de dados e entre modalidades. Para acelerar o progresso, disponibilizamos os pesos do nosso modelo base em https://huggingface.co/raidium/curia.
Na atenção causal padrão, a consulta, chave e valor (QKV) de cada token são estáticos e codificam apenas o contexto precedente. Introduzimos a atenção CAuSal com Chaves de Antecipação (CASTLE), um mecanismo de atenção que atualiza continuamente as chaves de cada token à medida que o contexto se desdobra. Denominamos essas chaves atualizadas como chaves de antecipação porque pertencem a posições anteriores, mas integram informações de tokens que aparecem posteriormente em relação a essas posições, preservando estritamente a propriedade autorregressiva. Embora o mecanismo pareça sequencial, derivamos uma equivalência matemática que evita a materialização explícita das chaves de antecipação em cada posição e permite um treinamento paralelo eficiente. Em benchmarks de modelagem de linguagem, o CASTLE supera consistentemente a atenção causal padrão em diferentes escalas de modelos, reduzindo a perplexidade de validação e melhorando o desempenho em uma variedade de tarefas subsequentes.
Estudos recentes demonstraram a eficácia de alinhar diretamente modelos de difusão com preferências humanas utilizando recompensas diferenciáveis. No entanto, eles apresentam dois desafios principais: (1) dependem de desruídos em múltiplos passos com cálculo de gradiente para pontuação de recompensa, o que é computacionalmente caro, restringindo assim a otimização a apenas alguns passos de difusão; (2) frequentemente necessitam de adaptação contínua offline de modelos de recompensa para alcançar a qualidade estética desejada, como fotorealismo ou efeitos de iluminação precisos. Para abordar a limitação do desruído em múltiplos passos, propomos o Direct-Align, um método que pré-define um ruído para recuperar efetivamente as imagens originais de qualquer passo temporal via interpolação, aproveitando a equação de que os estados de difusão são interpolações entre ruído e imagens alvo, o que evita efetivamente a superotimização em passos temporais tardios. Além disso, introduzimos a Otimização de Preferência Relativa Semântica (SRPO), na qual as recompensas são formuladas como sinais condicionados por texto. Essa abordagem permite o ajuste online das recompensas em resposta a aumentos de prompts positivos e negativos, reduzindo assim a dependência de ajustes offline de recompensa. Ao ajustar o modelo FLUX.1.dev com desruído otimizado e ajuste online de recompensa, melhoramos seu realismo e qualidade estética avaliados por humanos em mais de 3 vezes.
Apresentamos o SimpleQA Verified, um benchmark de 1.000 prompts para avaliar a factualidade de curto prazo em Modelos de Linguagem de Grande Escala (LLMs), baseado no SimpleQA da OpenAI. Ele aborda limitações críticas no benchmark da OpenAI, incluindo rótulos ruidosos e incorretos, vieses temáticos e redundância de perguntas. O SimpleQA Verified foi criado por meio de um rigoroso processo de filtragem em múltiplas etapas, envolvendo desduplicação, balanceamento de tópicos e reconciliação de fontes, para produzir um conjunto de avaliação mais confiável e desafiador, juntamente com melhorias no prompt do avaliador automático. Neste novo benchmark, o Gemini 2.5 Pro alcança um F1-score de ponta de 55,6, superando outros modelos de fronteira, incluindo o GPT-5. Este trabalho fornece à comunidade de pesquisa uma ferramenta de maior fidelidade para acompanhar o progresso genuíno na factualidade de modelos paramétricos e para mitigar alucinações. O conjunto de dados do benchmark, o código de avaliação e o leaderboard estão disponíveis em: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Modelos de difusão texto-imagem são computacionalmente intensivos, frequentemente exigindo dezenas de passagens diretas por backbones grandes de transformers. Por exemplo, o Stable Diffusion XL gera imagens de alta qualidade com 50 avaliações de um modelo de 2,6 bilhões de parâmetros, um processo caro mesmo para um único lote. Modelos de difusão com poucos passos reduzem esse custo para 2-8 etapas de remoção de ruído, mas ainda dependem de backbones grandes e não compactados de U-Net ou transformers de difusão, que geralmente são muito custosos para inferência em precisão total sem GPUs de datacenter. Esses requisitos também limitam os métodos existentes de quantização pós-treinamento que dependem de calibração em precisão total. Introduzimos o Q-Sched, um novo paradigma para quantização pós-treinamento que modifica o agendador do modelo de difusão em vez dos pesos do modelo. Ao ajustar a trajetória de amostragem de poucos passos, o Q-Sched alcança precisão total com uma redução de 4x no tamanho do modelo. Para aprender coeficientes de pré-condicionamento conscientes da quantização, propomos a perda JAQ, que combina compatibilidade texto-imagem com uma métrica de qualidade de imagem para otimização refinada. A JAQ é livre de referência e requer apenas um punhado de prompts de calibração, evitando inferência em precisão total durante a calibração. O Q-Sched oferece ganhos substanciais: uma melhoria de 15,5% no FID em relação ao Modelo de Consistência Latente de 4 passos em FP16 e uma melhoria de 16,6% em relação ao Modelo de Consistência Faseada de 8 passos em FP16, mostrando que a quantização e a destilação de poucos passos são complementares para geração de alta fidelidade. Um estudo de usuários em larga escala com mais de 80.000 anotações confirma ainda mais a eficácia do Q-Sched tanto no FLUX.1[schnell] quanto no SDXL-Turbo.
Propomos a Normalização Delta L, um método simples, porém eficaz, de agregação de perdas adaptado à característica de comprimentos de geração dinâmica no Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Recentemente, o RLVR demonstrou um forte potencial para melhorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs), mas um grande desafio reside na grande variabilidade dos comprimentos das respostas durante o treinamento, o que leva a uma alta variância de gradiente e otimização instável. Embora métodos anteriores, como GRPO, DAPO e Dr. GRPO, introduzam diferentes termos de normalização de perda para abordar esse problema, eles produzem estimativas tendenciosas ou ainda sofrem com alta variância de gradiente. Ao analisar o efeito dos comprimentos variáveis na perda da política tanto teoricamente quanto empiricamente, reformulamos o problema como a busca por um estimador não tendencioso de variância mínima. Nossa proposta de Normalização Delta L não apenas fornece uma estimativa não tendenciosa da verdadeira perda da política, mas também minimiza a variância do gradiente em teoria. Experimentos extensivos mostram que ela consistentemente alcança resultados superiores em diferentes tamanhos de modelo, comprimentos máximos e tarefas. Nosso código será disponibilizado publicamente em https://github.com/zerolllin/Delta-L-Normalization.
Modelos de linguagem de grande escala (LLMs) são ferramentas incríveis e versáteis para tarefas baseadas em texto que possibilitaram inúmeras aplicações anteriormente inimagináveis. Em contraste, modelos de recuperação ainda não viram surgir modelos de propósito geral tão capazes. Para alcançar esse objetivo, os modelos de recuperação devem ser capazes de realizar tarefas complexas de recuperação, onde as consultas contêm múltiplas partes, restrições ou requisitos em linguagem natural. Essas tarefas representam uma progressão natural em relação às consultas simples e de único aspecto que são usadas na grande maioria dos conjuntos de avaliação existentes e comumente utilizados. Consultas complexas surgem naturalmente à medida que as pessoas esperam que os sistemas de busca lidem com solicitações de informação mais específicas e, muitas vezes, ambiciosas, como demonstra o uso de sistemas de informação baseados em LLMs. Apesar do crescente desejo de que os modelos de recuperação expandam suas capacidades em tarefas complexas de recuperação, existem recursos limitados para avaliar a capacidade desses modelos em um conjunto abrangente de tarefas complexas e diversificadas. Os poucos recursos que existem apresentam um escopo limitado e frequentemente carecem de configurações realistas, dificultando a compreensão das verdadeiras capacidades dos modelos de recuperação em tarefas complexas do mundo real. Para abordar essa lacuna e impulsionar a inovação em modelos de recuperação de próxima geração, construímos um conjunto diversificado e realista de tarefas complexas de recuperação e avaliamos um conjunto representativo de modelos de recuperação state-of-the-art. Além disso, exploramos o impacto da expansão e reescrita de consultas baseadas em LLMs na qualidade da recuperação. Nossos resultados mostram que mesmo os melhores modelos lutam para produzir resultados de recuperação de alta qualidade, com o maior nDCG@10 médio de apenas 0,346 e R@100 de apenas 0,587 em todas as tarefas. Embora a ampliação com LLMs possa ajudar modelos mais fracos, o modelo mais forte apresenta desempenho reduzido em todas as métricas com todas as técnicas de reescrita.
À medida que os sistemas de IA generativa se tornam competentes e democratizados na ciência, nos negócios e no governo, uma compreensão mais profunda de seus modos de falha agora representa uma necessidade urgente. A volatilidade ocasional em seu comportamento, como a propensão dos modelos transformadores a alucinar, dificulta a confiança e a adoção de soluções emergentes de IA em áreas de alto risco. No presente trabalho, estabelecemos como e quando as alucinações surgem em modelos transformadores pré-treinados por meio de representações de conceitos capturadas por autoencoders esparsos, em cenários com incerteza experimentalmente controlada no espaço de entrada. Nossos experimentos sistemáticos revelam que o número de conceitos semânticos utilizados pelo modelo transformador aumenta à medida que a informação de entrada se torna cada vez mais desestruturada. Diante do aumento da incerteza no espaço de entrada, o modelo transformador torna-se propenso a ativar características semânticas coerentes, mas insensíveis à entrada, levando a uma saída alucinada. No extremo, para entradas de ruído puro, identificamos uma grande variedade de conceitos robustamente acionados e significativos nas ativações intermediárias de modelos transformadores pré-treinados, cuja integridade funcional confirmamos por meio de direcionamento específico. Também mostramos que as alucinações na saída de um modelo transformador podem ser previstas de forma confiável a partir dos padrões de conceitos incorporados nas ativações das camadas do transformador. Esse conjunto de insights sobre a mecânica interna de processamento dos transformadores tem consequências imediatas para o alinhamento de modelos de IA com valores humanos, a segurança da IA, a abertura da superfície de ataque para possíveis ataques adversariais e a base para a quantificação automática do risco de alucinação de um modelo.