Artigos de pesquisa em IA selecionados diariamente com traduções
A detecção de alucinações continua sendo um desafio fundamental para a implantação segura e confiável de grandes modelos de linguagem (LLMs), especialmente em aplicações que exigem precisão factual. Os benchmarks existentes para alucinações geralmente operam no nível de sequência e são limitados ao inglês, carecendo da supervisão detalhada e multilíngue necessária para uma avaliação abrangente. Neste trabalho, apresentamos o PsiloQA, um conjunto de dados em larga escala e multilíngue, anotado com alucinações em nível de trecho em 14 idiomas. O PsiloQA é construído por meio de um pipeline automatizado em três etapas: geração de pares pergunta-resposta a partir da Wikipédia usando o GPT-4o, elicitação de respostas potencialmente alucinadas de diversos LLMs em um cenário sem contexto e anotação automática de trechos alucinados usando o GPT-4o, comparando-os com respostas de referência e contexto recuperado. Avaliamos uma ampla gama de métodos de detecção de alucinações — incluindo quantificação de incerteza, marcação baseada em LLMs e modelos de codificador ajustados — e mostramos que os modelos baseados em codificadores alcançam o melhor desempenho entre os idiomas. Além disso, o PsiloQA demonstra generalização cross-lingual eficaz e suporta transferência robusta de conhecimento para outros benchmarks, tudo isso sendo significativamente mais econômico do que conjuntos de dados anotados manualmente. Nosso conjunto de dados e resultados avançam o desenvolvimento de detecção escalável e detalhada de alucinações em cenários multilíngues.
Recentemente, o Aprendizado por Reforço Agente (Agentic RL) tem feito progressos significativos no incentivo às capacidades de uso de ferramentas em múltiplas etapas e de longo prazo de agentes web. Enquanto os principais algoritmos de RL Agente exploram autonomamente etapas de chamada de ferramentas com alta incerteza sob a orientação da entropia, a dependência excessiva em sinais de entropia pode impor restrições adicionais, levando ao colapso do treinamento. Neste artigo, investigamos os desafios causados pela entropia e propomos o Otimização de Política com Equilíbrio de Entropia Agente (AEPO), um algoritmo de RL Agente projetado para equilibrar a entropia tanto na fase de execução quanto na atualização da política. O AEPO consiste em dois componentes principais: (1) um mecanismo de execução dinâmico com equilíbrio de entropia que aloca adaptativamente o orçamento de amostragem global e de ramificação por meio de pré-monitoramento de entropia, enquanto impõe uma penalidade de ramificação em etapas consecutivas de chamada de ferramentas com alta entropia para evitar problemas de super-ramificação; e (2) a Otimização de Política com Equilíbrio de Entropia que insere uma operação de parada de gradiente no termo de corte de alta entropia para preservar e redimensionar adequadamente os gradientes em tokens de alta entropia, enquanto incorpora estimativa de vantagem consciente da entropia para priorizar o aprendizado em tokens de alta incerteza. Os resultados em 14 conjuntos de dados desafiadores mostram que o AEPO supera consistentemente 7 algoritmos principais de RL. Com apenas 1K amostras de RL, o Qwen3-14B com AEPO alcança resultados impressionantes: 47,6% no GAIA, 11,2% no Humanity's Last Exam e 43,0% no WebWalker para Pass@1; 65,0% no GAIA, 26,0% no Humanity's Last Exam e 70,0% no WebWalker para Pass@5. Análises adicionais revelam que o AEPO melhora a diversidade de amostragem de execução enquanto mantém a entropia da política estável, facilitando o treinamento escalável de agentes web.
A geração consistente de identidade tornou-se um foco importante na pesquisa de texto para imagem, com modelos recentes alcançando sucesso notável na produção de imagens alinhadas com uma identidade de referência. No entanto, a escassez de grandes conjuntos de dados pareados contendo múltiplas imagens da mesma pessoa força a maioria das abordagens a adotar treinamento baseado em reconstrução. Essa dependência frequentemente leva a um modo de falha que denominamos "copiar e colar", onde o modelo replica diretamente o rosto de referência em vez de preservar a identidade através de variações naturais de pose, expressão ou iluminação. Tal similaridade excessiva prejudica a controlabilidade e limita o poder expressivo da geração. Para abordar essas limitações, nós (1) construímos um grande conjunto de dados pareados, o MultiID-2M, projetado para cenários com múltiplas pessoas, fornecendo referências diversas para cada identidade; (2) introduzimos um benchmark que quantifica tanto os artefatos de "copiar e colar" quanto a relação entre fidelidade de identidade e variação; e (3) propomos um novo paradigma de treinamento com uma função de perda de identidade contrastiva que aproveita dados pareados para equilibrar fidelidade com diversidade. Essas contribuições culminam no WithAnyone, um modelo baseado em difusão que efetivamente mitiga o "copiar e colar" enquanto preserva alta similaridade de identidade. Experimentos qualitativos e quantitativos extensivos demonstram que o WithAnyone reduz significativamente os artefatos de "copiar e colar", melhora a controlabilidade sobre pose e expressão, e mantém uma forte qualidade perceptual. Estudos com usuários validam ainda que nosso método alcança alta fidelidade de identidade enquanto permite geração controlada e expressiva.
Em uma era em que a IA está evoluindo de uma ferramenta passiva para um companheiro ativo e adaptativo, apresentamos a IA para Serviço (AI4Service), um novo paradigma que permite assistência proativa e em tempo real no dia a dia. Os serviços de IA existentes permanecem em grande parte reativos, respondendo apenas a comandos explícitos do usuário. Argumentamos que um assistente verdadeiramente inteligente e útil deve ser capaz de antecipar as necessidades do usuário e tomar ações proativamente quando apropriado. Para realizar essa visão, propomos o Alpha-Service, um framework unificado que aborda dois desafios fundamentais: Saber Quando intervir, detectando oportunidades de serviço a partir de fluxos de vídeo egocêntricos, e Saber Como fornecer serviços tanto generalizados quanto personalizados. Inspirado na arquitetura de computadores von Neumann e baseado em óculos de IA, o Alpha-Service consiste em cinco componentes principais: uma Unidade de Entrada para percepção, uma Unidade Central de Processamento para agendamento de tarefas, uma Unidade Lógica Aritmética para utilização de ferramentas, uma Unidade de Memória para personalização de longo prazo e uma Unidade de Saída para interação humana natural. Como uma exploração inicial, implementamos o Alpha-Service por meio de um sistema multiagente implantado em óculos de IA. Estudos de caso, incluindo um assessor de Blackjack em tempo real, um guia de museu e um assistente de compras de roupas, demonstram sua capacidade de perceber o ambiente de forma contínua, inferir a intenção do usuário e fornecer assistência oportuna e útil sem solicitações explícitas.
O edifício dos Modelos Visão-Linguagem Nativos (VLMs) emergiu como um forte concorrente aos típicos VLMs modulares, moldado por arquiteturas de modelos e paradigmas de treinamento em evolução. No entanto, duas nuvens persistentes lançam sombras sobre sua ampla exploração e promoção: (-) Quais são as restrições fundamentais que diferenciam os VLMs nativos dos modulares, e até que ponto essas barreiras podem ser superadas? (-) Como tornar a pesquisa em VLMs nativos mais acessível e democratizada, acelerando assim o progresso no campo. Neste artigo, esclarecemos esses desafios e delineamos princípios orientadores para a construção de VLMs nativos. Especificamente, um primitivo de VLM nativo deve: (i) alinhar efetivamente as representações de pixels e palavras dentro de um espaço semântico compartilhado; (ii) integrar de forma contínua os pontos fortes dos módulos de visão e linguagem anteriormente separados; (iii) incorporar intrinsecamente várias propriedades cross-modais que suportam codificação, alinhamento e raciocínio unificados de visão e linguagem. Assim, lançamos o NEO, uma nova família de VLMs nativos construída a partir de primeiros princípios, capaz de rivalizar com as melhores contrapartes modulares em diversos cenários do mundo real. Com apenas 390M exemplos de imagem-texto, o NEO desenvolve eficientemente a percepção visual do zero, enquanto mitiga conflitos visão-linguagem dentro de um modelo denso e monolítico elaborado a partir de nossos primitivos detalhados. Posicionamos o NEO como uma pedra angular para VLMs nativos escaláveis e poderosos, acompanhado por um rico conjunto de componentes reutilizáveis que promovem um ecossistema econômico e extensível. Nosso código e modelos estão publicamente disponíveis em: https://github.com/EvolvingLMMs-Lab/NEO.
Neste relatório, propomos o PaddleOCR-VL, um modelo SOTA e eficiente em recursos, projetado especificamente para análise de documentos. Seu componente central é o PaddleOCR-VL-0.9B, um modelo compacto, porém poderoso, de visão e linguagem (VLM) que integra um codificador visual de resolução dinâmica no estilo NaViT com o modelo de linguagem ERNIE-4.5-0.3B, permitindo o reconhecimento preciso de elementos. Este modelo inovador suporta eficientemente 109 idiomas e se destaca no reconhecimento de elementos complexos (por exemplo, texto, tabelas, fórmulas e gráficos), mantendo um consumo mínimo de recursos. Por meio de avaliações abrangentes em benchmarks públicos amplamente utilizados e benchmarks internos, o PaddleOCR-VL alcança desempenho SOTA tanto na análise de documentos em nível de página quanto no reconhecimento de elementos em nível individual. Ele supera significativamente as soluções existentes, exibe forte competitividade em relação aos VLMs de ponta e oferece velocidades de inferência rápidas. Essas vantagens o tornam altamente adequado para implantação prática em cenários do mundo real.
Modelos de geração de vídeo têm alcançado progressos notáveis, destacando-se especialmente em cenários realistas; no entanto, seu desempenho se degrada significativamente em cenários imaginativos. Esses prompts frequentemente envolvem conceitos que raramente co-ocorrem, com relações semânticas de longo alcance, situando-se fora das distribuições de treinamento. Métodos existentes geralmente aplicam escalonamento em tempo de teste para melhorar a qualidade do vídeo, mas seus espaços de busca fixos e designs de recompensa estáticos limitam a adaptabilidade a cenários imaginativos. Para preencher essa lacuna, propomos o ImagerySearch, uma estratégia de busca adaptativa em tempo de teste guiada por prompt, que ajusta dinamicamente tanto o espaço de busca de inferência quanto a função de recompensa de acordo com as relações semânticas no prompt. Isso permite a criação de vídeos mais coerentes e visualmente plausíveis em cenários imaginativos desafiadores. Para avaliar o progresso nessa direção, introduzimos o LDT-Bench, o primeiro benchmark dedicado a prompts semânticos de longo alcance, composto por 2.839 pares de conceitos diversos e um protocolo automatizado para avaliar capacidades de geração criativa. Experimentos extensivos mostram que o ImagerySearch supera consistentemente fortes baselines de geração de vídeo e abordagens existentes de escalonamento em tempo de teste no LDT-Bench, além de alcançar melhorias competitivas no VBench, demonstrando sua eficácia em diversos tipos de prompts. Disponibilizaremos o LDT-Bench e o código para facilitar pesquisas futuras em geração de vídeo imaginativo.
Neste artigo, apresentamos o BitNet Distillation (BitDistill), um pipeline leve que ajusta modelos de linguagem de grande escala (LLMs) de precisão completa prontos para uso (por exemplo, Qwen) para uma precisão de 1,58 bits (ou seja, pesos ternários {-1, 0, 1}) em tarefas específicas de downstream, alcançando um desempenho forte para tarefas específicas com custo computacional mínimo. Especificamente, o BitDistill incorpora três técnicas principais: o módulo SubLN, conforme introduzido no BitNet; a destilação de atenção multi-head, baseada no MiniLM; e o pré-treinamento contínuo, que serve como um passo crucial de aquecimento para mitigar o problema de escalabilidade da diferença de desempenho entre LLMs de precisão completa ajustados e LLMs de 1,58 bits em tarefas específicas. Resultados experimentais mostram que o BitDistill alcança um desempenho comparável aos modelos de precisão completa em diferentes tamanhos de modelo, enquanto permite economias de memória de até 10x e inferência 2,65x mais rápida em CPUs. O código está disponível em https://github.com/microsoft/BitNet.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu recentemente como um paradigma central para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). Para abordar a falta de sinais de verificação durante o teste, estudos anteriores incorporam o treinamento da capacidade de autoverificação do modelo no processo padrão de RLVR, unificando assim as capacidades de raciocínio e verificação em um único LLM. No entanto, práticas anteriores exigiam que o LLM gerasse sequencialmente soluções e autoverificações usando dois modelos de prompt separados, o que reduz significativamente a eficiência. Neste trabalho, revelamos teoricamente que a solução de forma fechada para o objetivo de RL de autoverificação pode ser reduzida a uma forma notavelmente simples: a recompensa verdadeira de raciocínio de uma solução é igual à sua pontuação de autorecompensa no último token, que é calculada como a diferença entre a probabilidade logarítmica do próximo token atribuída pelo modelo de política a qualquer token pré-especificado no último token da solução e uma constante pré-calculada, escalada pelo coeficiente de KL. Com base nessa percepção, propomos o LaSeR (Aprendizado por Reforço com Autorecompensa no Último Token), um algoritmo que simplesmente aumenta a perda original de RLVR com uma perda MSE que alinha as pontuações de autorecompensa no último token com as recompensas de raciocínio baseadas em verificadores, otimizando conjuntamente as capacidades de raciocínio e autorecompensa dos LLMs. As pontuações de autorecompensa otimizadas podem ser utilizadas tanto no treinamento quanto no teste para melhorar o desempenho do modelo. Notavelmente, nosso algoritmo deriva essas pontuações da distribuição de probabilidade do próximo token prevista para o último token imediatamente após a geração, incorrendo apenas no custo extra mínimo de uma inferência adicional de token. Experimentos mostram que nosso método não apenas melhora o desempenho de raciocínio do modelo, mas também o equipa com uma capacidade notável de autorecompensa, impulsionando assim seu desempenho de escalonamento em tempo de inferência.
Este trabalho estuda como recalcular de forma adaptativa os caches de chave-valor (KV) para modelos de linguagem de difusão em larga escala (DLMs) a fim de maximizar a precisão das previsões enquanto minimiza a latência de decodificação. Métodos anteriores recalcularam QKV para todos os tokens em cada etapa de remoção de ruído e camada, apesar dos estados KV mudarem pouco na maioria das etapas, especialmente em camadas mais superficiais, resultando em redundância substancial. Fizemos três observações: (1) tokens {bf MASK} distantes atuam principalmente como um viés de comprimento e podem ser armazenados em cache em blocos além da janela de previsão ativa; (2) a dinâmica KV aumenta com a profundidade, sugerindo que uma atualização seletiva a partir de camadas mais profundas é suficiente; e (3) o token mais atendido exibe o menor desvio KV, fornecendo um limite inferior conservador para a mudança de cache em outros tokens. Com base nisso, propomos {bf Elastic-Cache}, uma estratégia livre de treinamento e independente de arquitetura que decide conjuntamente {quando} atualizar (por meio de um teste de desvio baseado em atenção no token mais atendido) e {onde} atualizar (por meio de um cronograma consciente da profundidade que recalcula a partir de uma camada escolhida enquanto reutiliza caches de camadas superficiais e caches MASK fora da janela). Diferente de esquemas de período fixo, o Elastic-Cache realiza atualizações de cache adaptativas e conscientes da camada para DLMs, reduzindo a computação redundante e acelerando a decodificação com perda insignificante na qualidade da geração. Experimentos em LLaDA-Instruct, LLaDA-1.5 e LLaDA-V em tarefas de raciocínio matemático e geração de código demonstram acelerações consistentes: 8,7 vezes no GSM8K (256 tokens), 45,1 vezes em sequências mais longas e 4,8 vezes no HumanEval, mantendo consistentemente maior precisão que a linha de base. Nosso método alcança uma taxa de transferência significativamente maior (6,8 vezes no GSM8K) que abordagens baseadas em confiança existentes, preservando a qualidade da geração e permitindo a implantação prática de DLMs.
Agentes baseados em grandes modelos de linguagem (LLMs) estão sendo cada vez mais treinados com aprendizado por reforço (RL) para aprimorar sua capacidade de interagir com ambientes externos por meio do uso de ferramentas, especialmente em cenários baseados em busca que exigem raciocínio em múltiplas etapas e aquisição de conhecimento. No entanto, as abordagens existentes geralmente dependem de recompensas baseadas em resultados que são fornecidas apenas na resposta final. Essa escassez de recompensas torna-se particularmente problemática em configurações de múltiplas etapas, onde trajetórias longas exacerbam dois problemas críticos: (i) colapso da vantagem, onde todas as execuções recebem recompensas idênticas e não fornecem sinais úteis de aprendizado, e (ii) falta de atribuição de crédito refinada, onde as dependências entre as etapas são obscurecidas, especialmente em tarefas de longo prazo. Neste artigo, propomos a Otimização de Política baseada em Ganho de Informação (IGPO), uma estrutura de RL simples, mas eficaz, que fornece supervisão densa e intrínseca para o treinamento de agentes em múltiplas etapas. O IGPO modela cada etapa de interação como um processo incremental de aquisição de informações sobre a verdade fundamental e define recompensas em nível de etapa como o aumento marginal na probabilidade da política de produzir a resposta correta. Diferente de abordagens anteriores de recompensa em nível de processo que dependem de modelos de recompensa externos ou de estimativas custosas de Monte Carlo, o IGPO deriva recompensas intrínsecas diretamente das atualizações de crença do próprio modelo. Essas recompensas intrínsecas em nível de etapa são combinadas com supervisão em nível de resultado para formar trajetórias de recompensa densas. Experimentos extensos em benchmarks tanto dentro do domínio quanto fora do domínio demonstram que o IGPO supera consistentemente as linhas de base fortes em cenários de múltiplas etapas, alcançando maior precisão e eficiência amostral aprimorada.
Modelos de linguagem de grande escala (LLMs) para código dependem de tokenizadores de subpalavras, como a codificação de pares de bytes (BPE), aprendidos a partir de uma mistura de texto em linguagem natural e código de linguagem de programação, mas guiados por estatísticas em vez de gramática. Como resultado, trechos de código semanticamente idênticos podem ser tokenizados de maneira diferente dependendo de fatores superficiais, como espaços em branco ou nomenclatura de identificadores. Para medir o impacto desse desalinhamento, introduzimos o TokDrift, uma estrutura que aplica regras de reescrita que preservam a semântica para criar variantes de código que diferem apenas na tokenização. Em nove LLMs de código, incluindo modelos grandes com mais de 30 bilhões de parâmetros, até mesmo pequenas alterações de formatação podem causar mudanças substanciais no comportamento do modelo. Análises camada por camada mostram que o problema se origina nos embeddings iniciais, onde a segmentação de subpalavras falha em capturar os limites dos tokens gramaticais. Nossas descobertas identificam a tokenização desalinhada como um obstáculo oculto para a compreensão e geração confiável de código, destacando a necessidade de tokenização consciente da gramática para futuros LLMs de código.
Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham se destacado no raciocínio textual, eles enfrentam dificuldades em domínios matemáticos como a geometria, que dependem intrinsecamente de recursos visuais. As abordagens existentes para a Cadeia de Pensamento Visual (VCoT) são frequentemente limitadas por ferramentas externas rígidas ou falham em gerar diagramas de alta fidelidade e estrategicamente cronometrados, necessários para a resolução de problemas complexos. Para preencher essa lacuna, introduzimos o MathCanvas, um framework abrangente projetado para dotar Modelos Multimodais de Grande Escala (LMMs) unificados com capacidades intrínsecas de VCoT para matemática. Nossa abordagem consiste em duas fases. Primeiro, uma etapa de Manipulação Visual pré-treina o modelo em um novo corpus de 15,2 milhões de pares, composto por 10 milhões de pares de legenda-diagrama (MathCanvas-Imagen) e 5,2 milhões de trajetórias de edição passo a passo (MathCanvas-Edit), para dominar a geração e edição de diagramas. Segundo, uma etapa de Raciocínio Visual Estrategicamente Auxiliado ajusta o modelo no MathCanvas-Instruct, um novo conjunto de dados de 219 mil exemplos de caminhos de raciocínio visual-textual intercalados, ensinando-o quando e como utilizar recursos visuais. Para facilitar uma avaliação rigorosa, introduzimos o MathCanvas-Bench, um benchmark desafiador com 3 mil problemas que exigem que os modelos produzam soluções visual-textual intercaladas. Nosso modelo, BAGEL-Canvas, treinado sob esse framework, alcança uma melhoria relativa de 86% em relação a baselines fortes de LMMs no MathCanvas-Bench, demonstrando excelente generalização para outros benchmarks públicos de matemática. Nosso trabalho fornece um kit completo — framework, conjuntos de dados e benchmark — para desbloquear o raciocínio visual auxiliado complexo e semelhante ao humano em LMMs. Página do Projeto: https://mathcanvas.github.io/
Propomos e testamos a Hipótese de Degeneração Cerebral em LLMs: a exposição contínua a textos de baixa qualidade na web induz um declínio cognitivo duradouro em modelos de linguagem de grande escala (LLMs). Para isolar causalmente a qualidade dos dados, realizamos experimentos controlados em corpora reais do Twitter/X, construindo conjuntos de dados de baixa qualidade e controlados inversamente por meio de duas operacionalizações ortogonais: M1 (grau de engajamento) e M2 (qualidade semântica), com escala de tokens e operações de treinamento correspondentes entre as condições. Contrariamente ao grupo de controle, o pré-treinamento contínuo de 4 LLMs no conjunto de dados de baixa qualidade causa declínios significativos (Hedges' g>0,3) no raciocínio, compreensão de contexto longo, segurança e inflação de "traços sombrios" (por exemplo, psicopatia, narcisismo). As misturas graduais de conjuntos de dados de baixa qualidade e controlados também resultam em um decaimento cognitivo dose-resposta: por exemplo, sob M1, o ARC-Challenge com Chain of Thoughts cai de 74,9 para 57,2 e o RULER-CWE de 84,4 para 52,3 à medida que a proporção de dados de baixa qualidade aumenta de 0% para 100%. A análise forense de erros revela várias percepções-chave. Primeiro, identificamos o "pensamento pulado" como a principal lesão: os modelos truncam ou pulam cada vez mais cadeias de raciocínio, explicando a maior parte do crescimento de erros. Segundo, observamos uma cura parcial, mas incompleta: o ajuste de instruções em escala e o pré-treinamento com dados limpos melhoram a cognição declinada, mas não conseguem restaurar a capacidade basal, sugerindo um desvio representacional persistente em vez de uma incompatibilidade de formato. Por fim, descobrimos que a popularidade, uma métrica não semântica, de um tweet é um indicador melhor do efeito de Degeneração Cerebral do que o comprimento em M1. Juntos, os resultados fornecem evidências significativas e multiperspectivas de que a qualidade dos dados é um fator causal do declínio de capacidade dos LLMs, reenquadrando a curadoria para pré-treinamento contínuo como um problema de segurança no tempo de treinamento e motivando "verificações de saúde cognitiva" rotineiras para LLMs implantados.
Avanços recentes em modelos de recompensa multimodal (RMs) melhoraram substancialmente o pós-treinamento de modelos generativos visuais. No entanto, os RMs atuais enfrentam limitações intrínsecas: (1) entradas visuais consomem grandes orçamentos de contexto, forçando menos quadros e causando perda de detalhes refinados; e (2) todas as informações visuais são compactadas no prompt inicial, exacerbando alucinações e esquecimento durante o raciocínio em cadeia de pensamento. Para superar esses problemas, introduzimos o VideoReward Thinker (VR-Thinker), uma estrutura de pensamento com imagens que equipa o RM com operações de raciocínio visual (por exemplo, selecionar quadro) e uma janela de memória visual configurável. Isso permite que o RM adquira e atualize ativamente evidências visuais dentro dos limites de contexto, melhorando a fidelidade e confiabilidade do raciocínio. Ativamos o raciocínio visual por meio de um pipeline de ajuste fino por reforço: (i) Inicialização a Frio com dados curados de cadeia de pensamento visual para destilar habilidades básicas de raciocínio e formatação de operações; (ii) selecionar amostras cujos julgamentos por dimensão e gerais estão todos corretos, então realizar Ajuste Fino por Amostragem de Rejeição nessas trilhas de alta qualidade para aprimorar ainda mais o raciocínio; e (iii) aplicar a Otimização de Política Relativa em Grupo (GRPO) para fortalecer o raciocínio. Nossa abordagem alcança precisão de ponta entre modelos de código aberto em benchmarks de preferência de vídeo, especialmente para vídeos mais longos: um VR-Thinker de 7B atinge 80,5% no VideoGen Reward, 82,3% no GenAI-Bench e 75,6% no MJ-Bench-Video. Esses resultados validam a eficácia e promessa da modelagem de recompensa multimodal com pensamento com imagens.
Trabalhos recentes sugerem que modelos de linguagem de grande escala (LLMs) codificam sinais de factualidade em suas representações internas, como estados ocultos, pesos de atenção ou probabilidades de tokens, implicando que os LLMs podem "saber o que não sabem". No entanto, os LLMs também podem produzir erros factuais ao depender de atalhos ou associações espúrias. Esses erros são impulsionados pelo mesmo objetivo de treinamento que incentiva previsões corretas, levantando a questão de se os cálculos internos podem distinguir de forma confiável entre saídas factuais e alucinadas. Neste trabalho, realizamos uma análise mecanicista de como os LLMs processam internamente consultas factuais, comparando dois tipos de alucinações com base em sua dependência de informações sobre o assunto. Descobrimos que, quando as alucinações estão associadas ao conhecimento do assunto, os LLMs empregam o mesmo processo de recuperação interna que para respostas corretas, resultando em geometrias de estados ocultos sobrepostas e indistinguíveis. Em contraste, alucinações desvinculadas do conhecimento do assunto produzem representações distintas e agrupadas que as tornam detectáveis. Essas descobertas revelam uma limitação fundamental: os LLMs não codificam a veracidade em seus estados internos, mas apenas padrões de recuperação de conhecimento, demonstrando que "os LLMs não sabem realmente o que não sabem".
Os sistemas modernos de recuperação de informação (IR) estão cada vez mais encarregados de responder a consultas complexas e multifacetadas que exigem raciocínio profundo, em vez de simples correspondência de palavras-chave ou semântica. Embora o IR baseado em LLMs (Large Language Models) tenha mostrado grande potencial, o paradigma predominante de recuperar e depois reclassificar herda as limitações da recuperação baseada em embeddings; as abordagens generativas paramétricas são difíceis de atualizar com novas informações; e os métodos de contexto longo, que colocam todo o corpus em contexto, são computacionalmente inviáveis para grandes coleções de documentos. Para enfrentar esses desafios, apresentamos o LATTICE, uma estrutura hierárquica de recuperação que permite que um LLM raciocine e navegue por grandes corpora com complexidade de busca logarítmica, impondo uma estrutura de árvore semântica no corpus. Nossa abordagem consiste em duas etapas: (1) uma fase offline que organiza o corpus em uma hierarquia semântica por meio de uma estratégia aglomerativa ascendente ou divisiva descendente, utilizando resumos multiníveis, e (2) uma fase de travessia online em que um LLM de busca navega por essa árvore. Um desafio central nessa busca guiada por LLM é que os julgamentos de relevância do modelo são ruidosos, dependentes do contexto e inconscientes da hierarquia, dificultando comparações entre ramos e níveis. Para superar isso, propomos um algoritmo de travessia que estima pontuações de relevância latente calibradas a partir das saídas locais do LLM e as agrega em uma métrica global de relevância do caminho. Nossa estrutura livre de treinamento alcança desempenho state-of-the-art zero-shot no benchmark BRIGHT, intensivo em raciocínio, demonstrando uma melhoria de até 9% no Recall@100 e 5% no nDCG@10 em relação à melhor linha de base zero-shot. Além disso, em comparação com o método SOTA ajustado DIVER-v2, o LATTICE obtém resultados comparáveis em subconjuntos do BRIGHT que usam um corpus estático para avaliação.
Os modelos atuais de visão-linguagem-ação (VLA), pré-treinados em dados robóticos em grande escala, exibem fortes capacidades multitarefa e generalizam bem para variações em instruções visuais e linguísticas para manipulação. No entanto, sua taxa de sucesso cai significativamente quando confrontados com conceitos de objetos fora dos dados de treinamento, como descrições e texturas de objetos não vistos no conjunto de dados. Para resolver isso, propomos uma nova estrutura agentiva, VLA^2, que aproveita o OpenVLA como backbone de execução e utiliza efetivamente módulos externos, como recuperação na web e detecção de objetos, para fornecer conhecimento visual e textual sobre os objetos-alvo ao VLA. Essa abordagem mitiga a falha de generalização ao lidar com objetos fora da distribuição. Com base no ambiente de simulação LIBERO, introduzimos novos objetos e descrições de objetos para construir um novo benchmark de avaliação com três níveis de dificuldade para testar a eficácia do nosso método. Nossa estrutura superou com sucesso os modelos state-of-the-art atuais em nosso benchmark de generalização de nível difícil projetado. Em comparação com a linha de base OpenVLA autônoma, o VLA^2 alcança uma melhoria de 44,2% na taxa de sucesso no benchmark de nível difícil e uma melhoria média de 20,2% em todos os ambientes personalizados, sem qualquer degradação de desempenho em tarefas dentro do domínio. Site do projeto: https://vla-2.github.io.
À medida que os modelos de linguagem de grande escala (LLMs) se tornam mais capazes e amplamente utilizados, garantir a segurança de suas saídas é cada vez mais crítico. Os modelos de proteção existentes, embora úteis em configurações de avaliação estática, enfrentam duas grandes limitações em aplicações do mundo real: (1) eles normalmente produzem apenas rótulos binários "seguro/inseguro", que podem ser interpretados de forma inconsistente em diversas políticas de segurança, tornando-os incapazes de acomodar tolerâncias de segurança variáveis entre domínios; e (2) eles exigem saídas completas do modelo antes de realizar verificações de segurança, tornando-os fundamentalmente incompatíveis com a inferência de LLMs em streaming, impedindo intervenções oportunas durante a geração e aumentando a exposição a saídas parciais prejudiciais. Para enfrentar esses desafios, apresentamos o Qwen3Guard, uma série de modelos de proteção de segurança multilíngues com duas variantes especializadas: o Generative Qwen3Guard, que transforma a classificação de segurança em uma tarefa de seguir instruções para permitir julgamentos de três classes (seguro, controverso, inseguro); e o Stream Qwen3Guard, que introduz um cabeçalho de classificação em nível de token para monitoramento de segurança em tempo real durante a geração incremental de texto. Ambas as variantes estão disponíveis em três tamanhos (0,6B, 4B e 8B parâmetros) e suportam até 119 idiomas e dialetos, fornecendo moderação de segurança abrangente, escalável e de baixa latência para implantações globais de LLMs. Avaliados em benchmarks em inglês, chinês e multilíngues, o Qwen3Guard alcança desempenho de ponta tanto na classificação de segurança de prompts quanto de respostas. Todos os modelos são liberados sob a licença Apache 2.0 para uso público.
Grandes modelos de linguagem exibem deficiências sistemáticas na escrita criativa, particularmente em contextos não anglófonos onde os dados de treinamento são escassos e carecem de supervisão em nível de processo. Apresentamos o COIG-Writer, um novo conjunto de dados para escrita criativa em chinês que captura tanto saídas diversas quanto seus processos de pensamento subjacentes por meio de engenharia reversa sistemática de textos de alta qualidade. Diferentemente de conjuntos de dados existentes que fornecem apenas pares de entrada-saída, o COIG-Writer compreende 1.665 triplas meticulosamente curadas abrangendo 51 gêneros, cada uma contendo: (1) um prompt de engenharia reversa, (2) raciocínio criativo detalhado documentando os processos de tomada de decisão, e (3) o texto final. Por meio de experimentos abrangentes, identificamos um modelo de escrita criativa de dois componentes: lógica narrativa (fornecida pela supervisão de processo) e expressão linguística (mantida por dados de propósito geral). Nossas descobertas revelam três insights críticos: (1) A supervisão de processo é altamente eficaz, mas requer estabilização com dados gerais. Uma proporção de pelo menos uma amostra criativa para doze amostras gerais é necessária para alcançar desempenho ideal; abaixo desse limiar, a taxa de sucesso degrada progressivamente (de 62,75% para 35,78%). (2) As capacidades criativas são culturalmente limitadas, sem transferência interlinguística (lacuna de 89,26pp entre o desempenho em chinês e inglês). (3) A diversidade lexical correlaciona-se inversamente com a qualidade criativa (paradoxo TTR), sugerindo que alta diversidade sinaliza comportamento compensatório para deficiências lógicas. Essas descobertas estabelecem que a excelência criativa emerge da interação entre andaimes lógicos e fundamentação linguística, de forma análoga a como o raciocínio matemático aprimora, mas não pode substituir, a competência linguística em modelos de base.
Neste trabalho, apresentamos os modelos mxbai-edge-colbert-v0, com duas contagens de parâmetros diferentes: 17M e 32M. Como parte de nossa pesquisa, conduzimos diversos experimentos para aprimorar modelos de recuperação e interação tardia, que pretendemos destilar em modelos menores como provas de conceito. Nosso objetivo final é suportar a recuperação em todas as escalas, desde a recuperação em larga escala que reside na nuvem até modelos que podem ser executados localmente, em qualquer dispositivo. O mxbai-edge-colbert-v0 é um modelo que esperamos que sirva como uma base sólida para todos os experimentos futuros, representando a primeira versão de uma longa série de pequenas provas de conceito. Como parte do desenvolvimento do mxbai-edge-colbert-v0, realizamos múltiplos estudos de ablação, cujos resultados relatamos. Em termos de desempenho em tarefas subsequentes, o mxbai-edge-colbert-v0 é um modelo pequeno particularmente capaz, superando o ColBERTv2 em benchmarks comuns de textos curtos (BEIR) e representando um grande avanço em tarefas de contexto longo, com eficiência sem precedentes.
Pesquisa aprofundada -- produzindo relatórios abrangentes e fundamentados em citações por meio da busca e síntese de informações de centenas de fontes web em tempo real -- representa uma fronteira importante para sistemas agentivos. Para avaliar rigorosamente essa capacidade, quatro princípios são essenciais: as tarefas devem ser (1) centradas no usuário, refletindo necessidades de informação realistas, (2) dinâmicas, exigindo informações atualizadas além do conhecimento paramétrico, (3) inequívocas, garantindo interpretação consistente entre os usuários, e (4) multifacetadas e intensivas em busca, exigindo pesquisa em inúmeras fontes web e análise aprofundada. Os benchmarks existentes não atendem a esses princípios, muitas vezes focando em domínios restritos ou apresentando perguntas ambíguas que dificultam a comparação justa. Guiados por esses princípios, introduzimos o LiveResearchBench, um benchmark de 100 tarefas curadas por especialistas, abrangendo vida cotidiana, empresas e academia, cada uma exigindo busca web extensiva, dinâmica e em tempo real, além de síntese. Construído com mais de 1.500 horas de trabalho humano, o LiveResearchBench fornece uma base rigorosa para avaliação sistemática. Para avaliar relatórios longos fundamentados em citações, introduzimos o DeepEval, um conjunto abrangente que cobre tanto a qualidade do conteúdo quanto do relatório, incluindo cobertura, apresentação, precisão e associação de citações, consistência e profundidade da análise. O DeepEval integra quatro protocolos de avaliação complementares, cada um projetado para garantir avaliação estável e alta concordância com julgamentos humanos. Usando o LiveResearchBench e o DeepEval, realizamos uma avaliação abrangente de 17 sistemas de pesquisa aprofundada de ponta, incluindo busca web com agente único, pesquisa aprofundada com agente único e sistemas multiagentes. Nossa análise revela pontos fortes atuais, modos de falha recorrentes e componentes-chave do sistema necessários para avançar em pesquisas aprofundadas confiáveis e perspicazes.
Os métodos atuais de aprendizado de preferências alcançam alta precisão em benchmarks padrão, mas exibem uma degradação significativa de desempenho quando sinais objetivos de qualidade são removidos. Apresentamos o WritingPreferenceBench, um conjunto de dados com 1.800 pares de preferências anotados por humanos (1.200 em inglês, 600 em chinês) abrangendo 8 gêneros de escrita criativa, onde as respostas são equilibradas quanto à correção objetiva, precisão factual e extensão. Neste benchmark, modelos de recompensa baseados em sequência—a arquitetura padrão para RLHF (Aprendizado por Reforço com Feedback Humano)—atingem apenas 52,7% de precisão média, enquanto modelos de linguagem de julgamento zero-shot alcançam 53,9%. Em contraste, modelos de recompensa generativos que produzem cadeias de raciocínio explícitas atingem 81,8% de precisão. Observamos alta variância intra-modelo entre gêneros: modelos individuais variam de 18,2% a 81,8% de precisão em diferentes categorias de escrita, com desvios padrão médios de 10,1%. Essa variância persiste independentemente da escala do modelo, com modelos de 27 bilhões de parâmetros não mostrando melhoria consistente em relação a variantes de 8 bilhões. Nossos resultados sugerem que os métodos atuais de RLHF aprendem principalmente a detectar erros objetivos, em vez de capturar preferências subjetivas de qualidade (por exemplo, criatividade, estilo e ressonância emocional), e que a modelagem bem-sucedida de preferências pode exigir representações intermediárias de raciocínio, em vez de classificação direta.
Apresentamos o AnyUp, um método para upsampling de características que pode ser aplicado a qualquer característica visual em qualquer resolução, sem treinamento específico para o codificador. Os métodos existentes baseados em aprendizado para upsampling de características, como DINO ou CLIP, precisam ser retreinados para cada extrator de características e, portanto, não generalizam para diferentes tipos de características no momento da inferência. Neste trabalho, propomos uma arquitetura de upsampling agnóstica em relação às características, aplicável durante a inferência, para mitigar essa limitação e melhorar a qualidade do upsampling. Em nossos experimentos, o AnyUp estabelece um novo estado da arte para características com upsampling, generaliza para diferentes tipos de características e preserva a semântica das características, sendo eficiente e fácil de aplicar a uma ampla gama de tarefas subsequentes.
O design de máquinas complexas representa tanto um marco da inteligência humana quanto um fundamento da prática de engenharia. Diante dos recentes avanços em modelos de linguagem de grande escala (LLMs), questionamos se eles também podem aprender a criar. Abordamos essa questão através da lente do design composicional de máquinas: uma tarefa na qual máquinas são montadas a partir de componentes padronizados para atender demandas funcionais, como locomoção ou manipulação, em um ambiente físico simulado. Para apoiar essa investigação, introduzimos o BesiegeField, um ambiente de teste baseado no jogo de construção de máquinas Besiege, que permite construção baseada em partes, simulação física e avaliação orientada por recompensas. Utilizando o BesiegeField, avaliamos LLMs de última geração com fluxos de trabalho agentivos e identificamos capacidades essenciais para o sucesso, incluindo raciocínio espacial, montagem estratégica e seguimento de instruções. Como os modelos de código aberto atuais não atingem o desempenho desejado, exploramos o aprendizado por reforço (RL) como um caminho para melhoria: compilamos um conjunto de dados de partida, conduzimos experimentos de ajuste fino com RL e destacamos desafios em aberto na interseção entre linguagem, design de máquinas e raciocínio físico.
O aprendizado por reforço com recompensas verificáveis (RLVR) avançou as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos predominantes de RLVR exibem um viés sistemático em favor da exploração em detrimento da exploração, como evidenciado pela melhoria no desempenho pass@1, mas pela redução no desempenho pass@K (K>1). Para entender essa questão, analisamos a dinâmica de treinamento dos métodos RLVR rastreando as distribuições de probabilidade em nível de token sobre os candidatos do vocabulário. Nossa análise revela um efeito consistente de concentração de probabilidade, onde o candidato top-1 acumula cada vez mais massa de probabilidade e suprime a dos demais candidatos. Mais importante, uma concentração excessiva mais forte correlaciona-se com um pior desempenho pass@K. Inspirados por essa descoberta, propomos o Simple Pass@K Optimization (SimKO), um método projetado para mitigar o problema de concentração excessiva, incentivando assim a exploração. O SimKO opera de maneira assimétrica. Para respostas verificadas como corretas, ele aumenta as probabilidades dos candidatos top-K. Para respostas verificadas como incorretas, ele aplica penalidades mais fortes ao candidato top-1. Observamos que esse design assimétrico é particularmente eficaz na mitigação da concentração excessiva quando aplicado em tokens com alta entropia. Em vários benchmarks de matemática e raciocínio lógico, o SimKO consistentemente produz um pass@K mais alto para uma ampla gama de K, oferecendo uma maneira simples de melhorar a exploração do RLVR.
Os modelos Visão-Linguagem-Ação (VLA) estão passando por um desenvolvimento rápido e demonstrando capacidades promissoras em tarefas de manipulação robótica. No entanto, a escalabilidade desses modelos apresenta vários desafios críticos: (1) Treinar novos modelos VLA do zero exige recursos computacionais substanciais e conjuntos de dados extensos. Dada a escassez atual de dados robóticos, torna-se particularmente valioso aproveitar ao máximo os pesos de modelos VLA bem pré-treinados durante o processo de escalonamento. (2) O controle em tempo real requer um equilíbrio cuidadoso entre a capacidade do modelo e a eficiência computacional. Para enfrentar esses desafios, propomos o AdaMoE, uma arquitetura de Mistura de Especialistas (MoE) que herda pesos pré-treinados de modelos VLA densos e escala o especialista em ação substituindo as camadas feedforward por camadas MoE ativadas esparsamente. O AdaMoE emprega uma técnica de desacoplamento que separa a seleção de especialistas da ponderação de especialistas por meio de um adaptador de escala independente que trabalha junto ao roteador tradicional. Isso permite que os especialistas sejam selecionados com base na relevância da tarefa, enquanto contribuem com pesos controlados de forma independente, possibilitando a utilização colaborativa de especialistas em vez de uma dinâmica de "vencedor leva tudo". Nossa abordagem demonstra que a expertise não precisa ser monopolizada. Em vez disso, por meio da utilização colaborativa de especialistas, podemos alcançar desempenho superior enquanto mantemos a eficiência computacional. O AdaMoE supera consistentemente o modelo de referência em benchmarks-chave, obtendo ganhos de desempenho de 1,8% no LIBERO e 9,3% no RoboTwin. Mais importante, uma melhoria substancial de 21,5% em experimentos do mundo real valida sua eficácia prática para tarefas de manipulação robótica.
Os modelos Visão-Linguagem-Ação (VLAs) possuem um imenso potencial para habilitar a manipulação robótica generalista. No entanto, a melhor maneira de construí-los ainda é uma questão em aberto. As abordagens atuais frequentemente adicionam complexidade, como modificar o vocabulário existente de um Modelo de Visão-Linguagem (VLM) com tokens de ação ou introduzir cabeças de ação especiais. Curiosamente, a estratégia mais simples de representar ações diretamente como texto permaneceu amplamente inexplorada. Este trabalho introduz o VLA-0 para investigar essa ideia. Descobrimos que o VLA-0 não apenas é eficaz; ele é surpreendentemente poderoso. Com o design adequado, o VLA-0 supera modelos mais complexos. No LIBERO, um benchmark popular para avaliação de VLAs, o VLA-0 supera todos os métodos existentes treinados com os mesmos dados robóticos, incluindo pi_0.5-KI, OpenVLA-OFT e SmolVLA. Além disso, sem treinamento em larga escala específico para robótica, ele supera métodos treinados com grandes volumes de dados robóticos, como pi_0.5-KI, pi_0, GR00T-N1 e MolmoAct. Esses achados também se traduzem para o mundo real, onde o VLA-0 supera o SmolVLA, um modelo VLA pré-treinado com grandes volumes de dados reais. Este artigo resume nossas descobertas inesperadas e detalha as técnicas específicas necessárias para desbloquear o alto desempenho desse design VLA simples, porém potente. Resultados visuais, código e modelos treinados são fornecidos aqui: https://vla0.github.io/.
Os grandes modelos de linguagem (LLMs) têm despertado um interesse crescente em agentes de pesquisa de aprendizado de máquina automáticos. Entre eles, os agentes capazes de propor ideias e conduzir experimentos de aprendizado de máquina de forma autônoma são particularmente promissores, pois maximizam a automação da pesquisa e aceleram o progresso científico ao refinar iterativamente ideias com base nos resultados experimentais. No entanto, avaliar de forma abrangente esses agentes continua sendo um desafio. Os benchmarks existentes tendem a supervalorizar aspectos de engenharia enquanto negligenciam o rigor acadêmico, criando barreiras que obscurecem uma avaliação clara das capacidades científicas de um agente na pesquisa de aprendizado de máquina. Eles também sofrem com diversidade limitada de tarefas, uma supervalorização de tarefas orientadas para aplicações em detrimento de problemas de pesquisa fundamentais, e escalabilidade limitada para cenários de pesquisa realistas. Para abordar essas limitações, introduzimos o FML-bench, um benchmark projetado para avaliar agentes de pesquisa de aprendizado de máquina automáticos em 8 problemas diversos e fundamentais de pesquisa em aprendizado de máquina. Ele reduz a carga de codificação, enfatiza problemas fundamentais em vez de casos de uso específicos, oferece alta diversidade de tarefas e é extensível a repositórios GitHub de aprendizado de máquina do mundo real. Além disso, apresentamos um framework de avaliação unificado com cinco métricas complementares, projetado para avaliar de forma abrangente o desempenho dos agentes em nosso benchmark. Avaliamos os agentes de pesquisa automática mais avançados no FML-bench e descobrimos que os agentes que empregam estratégias amplas de exploração de pesquisa superam aqueles que se concentram em uma exploração estreita, mas profunda. Essas descobertas sugerem que enfatizar a amplitude da exploração pode levar a resultados de pesquisa mais eficazes do que focar apenas em refinamentos incrementais. Nosso benchmark está disponível em https://github.com/qrzou/FML-bench.
Modelos generativos baseados em difusão ou fluxo com poucos passos geralmente destilam um professor que prevê a velocidade em um aluno que prevê um atalho em direção aos dados sem ruído. Essa incompatibilidade de formato levou a procedimentos de destilação complexos que frequentemente sofrem com uma troca entre qualidade e diversidade. Para resolver isso, propomos modelos de fluxo baseados em política (pi-Flow). O pi-Flow modifica a camada de saída de um modelo de fluxo aluno para prever uma política sem rede em um passo de tempo. A política então produz velocidades de fluxo dinâmicas em subpassos futuros com sobrecarga insignificante, permitindo uma integração rápida e precisa de EDO nesses subpassos sem avaliações extras de rede. Para alinhar a trajetória da EDO da política à do professor, introduzimos uma nova abordagem de destilação por imitação, que alinha a velocidade da política à do professor ao longo da trajetória da política usando uma perda padrão de correspondência de fluxo ell_2. Ao simplesmente imitar o comportamento do professor, o pi-Flow permite um treinamento estável e escalável e evita a troca entre qualidade e diversidade. No ImageNet 256^2, ele atinge um FID de 1-NFE de 2,85, superando o MeanFlow da mesma arquitetura DiT. No FLUX.1-12B e Qwen-Image-20B com 4 NFEs, o pi-Flow alcança uma diversidade substancialmente melhor do que os métodos state-of-the-art de poucos passos, mantendo a qualidade no nível do professor.
O raciocínio em múltiplos estágios surgiu como uma estratégia eficaz para aprimorar a capacidade de raciocínio de modelos de linguagem menores, decompondo problemas complexos em subestágios sequenciais. No entanto, isso ocorre ao custo de um aumento na latência. Observamos que as técnicas de aceleração adaptativa existentes, como o salto de camadas, lutam para equilibrar eficiência e precisão nesse cenário devido a dois desafios principais: (1) variação na sensibilidade ao salto entre os estágios e (2) a geração de tokens de saída redundantes. Para abordar esses problemas, propomos o LiteStage, uma estrutura de salto de camadas com consciência de latência para raciocínio em múltiplos estágios. O LiteStage combina uma busca offline por estágio que aloca orçamentos de camadas ideais com uma saída antecipada de geração baseada em confiança online para suprimir a decodificação desnecessária. Experimentos em três benchmarks, como OBQA, CSQA e StrategyQA, mostram que o LiteStage alcança uma aceleração de até 1,70x com uma perda de precisão inferior a 4,0%, superando métodos anteriores de salto de camadas sem treinamento.
O rápido progresso dos modelos grandes e pré-treinados tanto para geração de conteúdo visual quanto para reconstrução 3D abre novas possibilidades para a geração de texto-para-3D. Intuitivamente, seria possível obter um gerador de cenas 3D formidável se fosse possível combinar o poder de um modelo latente moderno de texto-para-vídeo como "gerador" com as habilidades geométricas de um sistema recente de reconstrução 3D (feedforward) como "decodificador". Apresentamos o VIST3A, um framework geral que faz exatamente isso, abordando dois desafios principais. Primeiro, os dois componentes devem ser unidos de forma a preservar o rico conhecimento codificado em seus pesos. Revisitamos o conceito de "costura de modelos", ou seja, identificamos a camada no decodificador 3D que melhor corresponde à representação latente produzida pelo gerador de texto-para-vídeo e conectamos as duas partes. Essa operação requer apenas um pequeno conjunto de dados e nenhum rótulo. Segundo, o gerador de texto-para-vídeo deve ser alinhado com o decodificador 3D costurado, para garantir que os latentes gerados sejam decodificáveis em uma geometria de cena 3D consistente e perceptualmente convincente. Para isso, adaptamos o ajuste fino direto por recompensa, uma técnica popular para alinhamento de preferências humanas. Avaliamos a abordagem VIST3A proposta com diferentes geradores de vídeo e modelos de reconstrução 3D. Todos os pares testados mostram uma melhoria significativa em relação aos modelos anteriores de texto-para-3D que produzem splats gaussianos. Além disso, ao escolher um modelo base 3D adequado, o VIST3A também permite a geração de texto-para-mapa de pontos de alta qualidade.
Modelos recentes de edição de imagens têm alcançado resultados impressionantes ao seguir instruções de edição em linguagem natural, mas eles dependem de ajuste fino supervisionado com grandes conjuntos de dados de pares entrada-alvo. Este é um gargalo crítico, uma vez que tais pares que ocorrem naturalmente são difíceis de curar em escala. Soluções atuais utilizam pares de treinamento sintéticos que aproveitam as capacidades zero-shot de modelos existentes. No entanto, isso pode propagar e amplificar os artefatos do modelo pré-treinado no modelo final treinado. Neste trabalho, apresentamos um novo paradigma de treinamento que elimina completamente a necessidade de dados pareados. Nossa abordagem otimiza diretamente um modelo de difusão de poucos passos, desenrolando-o durante o treinamento e aproveitando o feedback de modelos de visão e linguagem (VLMs). Para cada entrada e instrução de edição, o VLM avalia se uma edição segue a instrução e preserva o conteúdo inalterado, fornecendo gradientes diretos para otimização de ponta a ponta. Para garantir fidelidade visual, incorporamos a perda de correspondência de distribuição (DMD), que restringe as imagens geradas a permanecerem dentro da variedade de imagens aprendida por modelos pré-treinados. Avaliamos nosso método em benchmarks padrão e incluímos um extenso estudo de ablação. Sem nenhum dado pareado, nosso método tem desempenho comparável a vários modelos de edição de imagens baseados em difusão treinados com extensos dados pareados supervisionados, na configuração de poucos passos. Dado o mesmo VLM como modelo de recompensa, também superamos técnicas baseadas em RL, como Flow-GRPO.
Modelos generativos de vídeo recentemente alcançaram avanços notáveis na qualidade de síntese. No entanto, a geração de movimentos complexos continua sendo um desafio crítico, pois os modelos existentes frequentemente lutam para produzir movimentos naturais, suaves e contextualmente consistentes. Essa lacuna entre movimentos gerados e movimentos do mundo real limita sua aplicabilidade prática. Para abordar essa questão, introduzimos o RealDPO, um novo paradigma de alinhamento que aproveita dados do mundo real como amostras positivas para aprendizado de preferência, permitindo uma síntese de movimento mais precisa. Diferentemente do ajuste fino supervisionado tradicional (SFT), que oferece feedback corretivo limitado, o RealDPO emprega a Otimização Direta de Preferência (DPO) com uma função de perda personalizada para aprimorar o realismo do movimento. Ao contrastar vídeos do mundo real com saídas errôneas do modelo, o RealDPO permite uma autocorreção iterativa, refinando progressivamente a qualidade do movimento. Para suportar o pós-treinamento na síntese de movimentos complexos, propomos o RealAction-5K, um conjunto de dados curado de vídeos de alta qualidade que capturam atividades diárias humanas com detalhes de movimento ricos e precisos. Experimentos extensivos demonstram que o RealDPO melhora significativamente a qualidade do vídeo, o alinhamento de texto e o realismo do movimento em comparação com modelos state-of-the-art e técnicas existentes de otimização de preferência.
O desenvolvimento de grandes modelos de linguagem depende de corpora de treinamento em larga escala, porém a maioria contém dados com status de licenciamento incerto, limitando o desenvolvimento de modelos verdadeiramente abertos. Esse problema é agravado para idiomas não ingleses, onde textos com licenças abertas permanecem criticamente escassos. Apresentamos o German Commons, a maior coleção de textos em alemão com licenças abertas até o momento. Ele compila dados de 41 fontes em sete domínios, abrangendo textos jurídicos, científicos, culturais, políticos, noticiosos, econômicos e da web. Por meio de uma coleta sistemática de provedores de dados estabelecidos com licenciamento verificável, ele resulta em 154,56 bilhões de tokens de texto de alta qualidade para treinamento de modelos de linguagem. Nosso pipeline de processamento implementa filtragem de qualidade abrangente, remoção de duplicatas e correções de formatação de texto, garantindo qualidade consistente em fontes de texto heterogêneas. Todos os subconjuntos de domínio apresentam licenças de pelo menos CC-BY-SA 4.0 ou equivalente, assegurando conformidade legal para treinamento e redistribuição de modelos. O German Commons, portanto, aborda a lacuna crítica em dados de pré-treinamento em alemão com licenças abertas e possibilita o desenvolvimento de modelos de linguagem em alemão verdadeiramente abertos. Também disponibilizamos código para construção de corpus e filtragem de dados adaptados a textos em alemão, tornando o German Commons totalmente reproduzível e extensível.
Modelos de linguagem com profundidade recorrente, também chamados de universais ou em loop quando consideramos transformers, são definidos pela capacidade de aumentar sua computação por meio da repetição de camadas. Esforços recentes em pré-treinamento demonstraram que essas arquiteturas podem ser escaladas para tarefas modernas de modelagem de linguagem, ao mesmo tempo que exibem vantagens em tarefas de raciocínio. Neste trabalho, examinamos a relação entre modelos de profundidade recorrente e modelos de linguagem de difusão. Com base em suas semelhanças, desenvolvemos um novo amostrador de forçamento de difusão para esses modelos, a fim de acelerar a geração. O amostrador avança decodificando novos tokens a cada passagem direta do modelo, enquanto os estados latentes desses tokens podem ser refinados em paralelo por meio de recorrência. Teoricamente, a geração com nosso amostrador é estritamente mais expressiva do que a geração autoregressiva de linha de base usando o mesmo orçamento de tempo em hardware moderno. Além disso, esse amostrador, baseado em princípios da literatura de difusão, pode ser aplicado diretamente a transformers de profundidade recorrente de 3,5B existentes, sem qualquer ajuste, resultando em uma aceleração de até 5x. Consequentemente, nossas descobertas não apenas fornecem um mecanismo eficiente para paralelizar a computação extra em modelos de profundidade recorrente durante a inferência, mas também sugerem que tais modelos podem ser naturalmente vistos como fortes modelos de linguagem de difusão contínua, embora causais.
A generalização sistemática e composicional além da distribuição de treinamento permanece um desafio central no aprendizado de máquina — e um gargalo crítico para as habilidades emergentes de raciocínio dos modelos de linguagem modernos. Este trabalho investiga a generalização fora da distribuição (OOD, do inglês "out-of-distribution") em redes Transformer utilizando uma tarefa de aritmética modular em grafos computacionais no estilo GSM8K como um ambiente de teste. Introduzimos e exploramos um conjunto de quatro mecanismos arquitetônicos voltados para aprimorar a generalização OOD: (i) recorrência adaptativa à entrada; (ii) supervisão algorítmica; (iii) representações latentes ancoradas por meio de um gargalo discreto; e (iv) um mecanismo explícito de correção de erros. Coletivamente, esses mecanismos resultam em uma abordagem arquitetônica para o raciocínio nativo e escalável em espaços latentes em redes Transformer, com capacidades robustas de generalização algorítmica. Complementamos esses resultados empíricos com uma análise detalhada de interpretabilidade mecanicista que revela como esses mecanismos dão origem a habilidades robustas de generalização OOD.
Agentes digitais exigem trajetórias de interface do usuário (UI) diversas e em grande escala para generalizar em tarefas do mundo real, mas a coleta desses dados é proibitivamente cara em termos de anotação humana, infraestrutura e engenharia. Para isso, apresentamos o UI-Simulator, um paradigma escalável que gera estados e transições estruturados de UI para sintetizar trajetórias de treinamento em larga escala. Nosso paradigma integra um simulador de mundo digital para estados de UI diversos, um processo de exploração guiada para uma exploração coerente e um wrapper de trajetória que produz trajetórias de alta qualidade e diversificadas para o treinamento de agentes. Além disso, propomos o UI-Simulator-Grow, uma estratégia de escalonamento direcionada que permite uma escalabilidade mais rápida e eficiente em termos de dados, priorizando tarefas de alto impacto e sintetizando variantes informativas de trajetórias. Experimentos no WebArena e AndroidWorld mostram que o UI-Simulator rivaliza ou supera agentes de código aberto treinados em UIs reais, com uma robustez significativamente melhor, apesar de usar modelos de professor mais fracos. Além disso, o UI-Simulator-Grow iguala o desempenho do Llama-3-70B-Instruct usando apenas o Llama-3-8B-Instruct como modelo base, destacando o potencial do paradigma de síntese direcionada para aprimorar continuamente e de forma eficiente os agentes digitais.
Línguas de contato como o inglês exibem ricas variações regionais na forma de dialetos, que são frequentemente utilizados por falantes de dialetos ao interagir com modelos generativos. No entanto, os modelos generativos multimodais conseguem produzir conteúdo de forma eficaz a partir de entradas textuais dialetais? Neste trabalho, investigamos essa questão construindo um novo benchmark em larga escala que abrange seis dialetos comuns do inglês. Trabalhamos com falantes de dialetos para coletar e verificar mais de 4200 prompts únicos e avaliamos 17 modelos generativos de imagem e vídeo. Nossos resultados de avaliação automática e humana mostram que os modelos generativos multimodais state-of-the-art atuais apresentam uma degradação de desempenho de 32,26% a 48,17% quando uma única palavra dialetal é usada no prompt. Métodos comuns de mitigação, como fine-tuning e reescrita de prompts, só conseguem melhorar o desempenho em dialetos em pequenas margens (< 7%), enquanto potencialmente causam uma degradação significativa no inglês americano padrão (Standard American English - SAE). Para isso, projetamos uma estratégia geral de mitigação baseada em codificador para modelos generativos multimodais. Nosso método ensina o modelo a reconhecer novas características dialetais enquanto preserva o desempenho em SAE. Experimentos em modelos como o Stable Diffusion 1.5 mostram que nosso método é capaz de elevar simultaneamente o desempenho em cinco dialetos para níveis equivalentes ao SAE (+34,4%), com um custo quase nulo para o desempenho em SAE.
O pré-treinamento em nível de repositório é comumente utilizado para permitir que grandes modelos de linguagem para código aproveitem o contexto em toda a base de código. Isso melhora sua capacidade de gerar sugestões de código precisas e contextualmente conscientes. Neste trabalho, investigamos como diferentes estratégias de processamento de repositório afetam o aprendizado em contexto no OpenCoder, um modelo com 1,5 bilhão de parâmetros. Estendemos sua janela de contexto de 4.096 para 16.384 tokens ao treinar com 1 bilhão adicionais de tokens de dados curados em nível de repositório. Apesar de depender de um conjunto de dados menor do que os modelos concorrentes (que frequentemente usam centenas de bilhões de tokens), nosso modelo alcança desempenho comparável no benchmark Long Code Arena. Descobrimos que várias técnicas de processamento de repositório produzem resultados igualmente fortes, com o ganho principal vindo da adaptação a um novo parâmetro de escalonamento de embeddings posicionais rotativos (RoPE). Por fim, mostramos que uma abordagem de treinamento mais simples em nível de arquivo, com o comprimento original da sequência, permanece altamente eficaz, abrindo caminho para pesquisas em conclusão de código em nível de repositório em cenários com recursos de dados e computação mais limitados.
O escalonamento em tempo de teste é uma estratégia poderosa para melhorar o desempenho de modelos de linguagem grandes em tarefas de raciocínio complexo. Embora as abordagens de ponta frequentemente empreguem verificadores generativos para selecionar a melhor solução de um conjunto de candidatos, esse método incorre em custos computacionais proibitivos, limitando sua praticidade. Neste trabalho, deslocamos o foco para um paradigma mais consciente do orçamento: a verificação discriminativa. Realizamos uma análise empírica detalhada e demonstramos que, embora os verificadores discriminativos possam ter desempenho inferior isoladamente, combiná-los com a autoconsistência em uma abordagem híbrida cria um mecanismo de escalonamento em tempo de teste poderoso e eficiente. Notavelmente, sob um orçamento computacional fixo, essa abordagem híbrida supera a verificação generativa de ponta por uma margem significativa: alcançando até 15,3% de precisão maior no AIME2025. Nossas descobertas estabelecem que, para aplicações práticas do mundo real, o escalonamento consciente do orçamento com verificadores discriminativos não é apenas uma atualização "gratuita" em relação à autoconsistência, mas também uma alternativa mais eficaz e eficiente às técnicas generativas custosas. O código está disponível em https://github.com/wang-research-lab/verification.
Poses interativas de humanos em proximidade física transmitem informações contextuais ricas sobre a dinâmica da interação. Dadas tais poses, os humanos podem inferir intuitivamente o contexto e antecipar possíveis dinâmicas passadas e futuras, baseando-se em fortes prioris do comportamento humano. Inspirados por essa observação, propomos o Ponimator, uma estrutura simples ancorada em poses interativas proximais para animação versátil de interações. Nossos dados de treinamento consistem em poses de duas pessoas em contato próximo e seu contexto temporal circundante, extraídos de conjuntos de dados de interação capturados por sensores de movimento. Aproveitando as prioris de poses interativas, o Ponimator emprega dois modelos de difusão condicional: (1) um animador de poses que utiliza a priori temporal para gerar sequências dinâmicas de movimento a partir de poses interativas, e (2) um gerador de poses que aplica a priori espacial para sintetizar poses interativas a partir de uma única pose, texto ou ambos, quando poses interativas não estão disponíveis. Coletivamente, o Ponimator suporta diversas tarefas, incluindo animação de interação baseada em imagem, animação de reação e síntese de texto para interação, facilitando a transferência de conhecimento de interação de dados de captura de movimento de alta qualidade para cenários de mundo aberto. Experimentos empíricos em diversos conjuntos de dados e aplicações demonstram a universalidade da priori de poses e a eficácia e robustez de nossa estrutura.
As leis de escala transformaram nossa compreensão dos grandes modelos de linguagem ao vincular métricas iniciais, como a perda de entropia cruzada, a fatores de design como tamanho do modelo, dados de treinamento e capacidade computacional. No entanto, essas leis convencionais não conseguem capturar o desempenho em tarefas subsequentes, onde o contexto desempenha um papel crítico. Neste trabalho, propomos uma estrutura simples e interpretável que modela conjuntamente o desempenho subsequente como uma função do poder computacional de treinamento e do contexto fornecido. Validamos empiricamente nossa estrutura ao ajustá-la ao desempenho observado em tarefas subsequentes de variantes de contexto estendido dos modelos Llama-2-7B e Llama-2-13B, abrangendo 65.500 instâncias únicas em três tarefas: raciocínio aritmético, raciocínio de senso comum e tradução automática. Nossos resultados demonstram que nossa estrutura modela com precisão o desempenho subsequente dentro da distribuição, generaliza-se em três ordens de magnitude de poder computacional de treinamento e extrapola de forma confiável o desempenho à medida que a quantidade de contexto aumenta. Essas descobertas oferecem insights valiosos sobre a interação entre o poder computacional de treinamento e a utilização do contexto, fornecendo orientações para projetar LLMs de contexto longo mais eficientes para diversas tarefas subsequentes. Nosso código está disponível em https://github.com/wang-research-lab/context-scaling.
Agentes de 'pesquisa profunda' baseados na web visam resolver tarefas complexas de questionamento e resposta por meio de interações de longo prazo com ferramentas online. Essas tarefas permanecem desafiadoras, pois os modelos de linguagem subjacentes frequentemente não são otimizados para raciocínio e exploração de longo prazo. Trabalhos anteriores propuseram fluxos de trabalho para a construção de conjuntos de dados de ajuste fino de instruções, muitas vezes utilizando grafos de conhecimento. No entanto, tais métodos geralmente carecem de controle refinado sobre dificuldade e qualidade, gerando dados sintéticos que não capturam a complexidade necessária para o raciocínio de longo prazo. Além disso, muitos estudos confundem os efeitos dos dados e do treinamento ao comparar modelos treinados sob diferentes receitas de otimização, dificultando o isolamento e a avaliação da eficácia dos próprios dados. Introduzimos um pipeline de síntese de dados de duas vertentes que gera pares de perguntas e respostas aumentando progressivamente a complexidade da tarefa até que um agente web de linha de base falhe. O agente de linha de base desempenha múltiplos papéis nesse processo: tentando responder às perguntas, validando a factualidade, verificando respostas alternativas e aplicando filtros. Para avaliar a eficácia de nossos métodos de síntese, adotamos uma configuração de treinamento controlada baseada na destilação de agentes web robustos. Experimentos em vários benchmarks baseados na web mostram que nosso conjunto de dados — apesar de menor — permite o treinamento de agentes web mais eficazes do que os conjuntos de dados existentes. Em particular, nossos dados exibem o dobro da diversidade em ações de uso de ferramentas, permitindo que os modelos treinados com eles alcancem desempenho superior enquanto evitam comportamentos repetitivos de chamada de ferramentas.
O paradigma tradicional de RAG (Retrieval-Augmented Generation), que normalmente envolve a compreensão de trechos de texto relevantes em resposta a consultas recebidas, restringe inerentemente tanto a profundidade da internalização do conhecimento quanto as capacidades de raciocínio. Para abordar essa limitação, nossa pesquisa transforma o processamento de texto no RAG de um recorte passivo para uma compreensão proativa, definindo esse processo como extração de memória documental com o objetivo de simular os processos cognitivos humanos durante a leitura. Com base nisso, propomos o framework Mixtures of Scenario-aware Document Memories (MoM), projetado para lidar eficientemente com documentos de múltiplos domínios e treinar modelos de linguagem pequenos (SLMs) para adquirir a capacidade de explorar e construir memórias documentais de forma proativa. O MoM inicialmente instrui modelos de linguagem grandes (LLMs) a simular especialistas de domínio na geração de esboços lógicos de documentos, direcionando assim o recorte estruturado e a extração de conteúdo central. Ele emprega um mecanismo de amostragem multipath e avaliação multiperspectiva, projetando especificamente métricas abrangentes que representam a clareza dos trechos e a completude da extração para selecionar as melhores memórias documentais. Além disso, para infundir habilidades de leitura mais profundas e semelhantes às humanas durante o treinamento dos SLMs, incorporamos uma estratégia de raciocínio reverso, que deduz caminhos de pensamento especializados refinados a partir de resultados de alta qualidade. Por fim, aproveitando diversas formas de conteúdo geradas pelo MoM, desenvolvemos um mecanismo de recuperação de memória documental de três camadas, fundamentado em nossa prova teórica a partir da perspectiva de modelagem probabilística. Resultados experimentais extensivos em três domínios distintos demonstram que o framework MoM não apenas resolve os desafios de recorte de texto nos sistemas RAG existentes, fornecendo aos LLMs memórias documentais semanticamente completas, mas também abre caminho para que os SLMs alcancem o processamento de texto inteligente centrado no ser humano.
A modelagem persistente de cenas dinâmicas para rastreamento e síntese de novas visões continua desafiadora devido à dificuldade de capturar deformações precisas enquanto se mantém a eficiência computacional. Propomos o SCas4D, uma estrutura de otimização em cascata que aproveita padrões estruturais no Splatting Gaussiano 3D para cenas dinâmicas. A ideia central é que as deformações do mundo real frequentemente exibem padrões hierárquicos, onde grupos de Gaussianas compartilham transformações semelhantes. Ao refinar progressivamente as deformações de um nível grosso de partes para um nível fino de pontos, o SCas4D alcança convergência em até 100 iterações por quadro de tempo e produz resultados comparáveis aos métodos existentes com apenas um vigésimo das iterações de treinamento. A abordagem também demonstra eficácia em tarefas de segmentação autossupervisionada de objetos articulados, síntese de novas visões e rastreamento denso de pontos.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais utilizados como agentes de role-playing, mas sua capacidade de retratar fiel e consistentemente personagens específicos de diferentes versões — por exemplo, super-heróis em universos de quadrinhos e cinematográficos — ainda é pouco explorada. Cânones de super-heróis como Marvel e DC oferecem um rico campo de testes: décadas de narrativas resultam em múltiplas encarnações do mesmo personagem com histórias, valores e códigos morais distintos. Para estudar esse problema, introduzimos o Beyond One World, um benchmark para role-playing baseado em personagens, abrangendo 30 heróis icônicos e 90 versões específicas de cânones. O benchmark compreende duas tarefas: (i) Eventos Canônicos, que avalia a recordação factual de estágios cruciais da vida, e (ii) Dilemas Morais, que confronta os modelos com cenários eticamente carregados. Avaliamos as respostas quanto à precisão canônica e fidelidade de raciocínio sob um framework que separa a deliberação interna ("pensar") das decisões externas ("agir"). Além disso, propomos o Think-Act Matching, uma métrica que quantifica o alinhamento entre razões e ações e serve como um proxy para a confiabilidade do modelo. Experimentos com modelos orientados e não orientados para raciocínio revelam três descobertas: (1) o prompting de cadeia de pensamento melhora a coerência narrativa em modelos mais fracos, mas pode reduzir a precisão canônica em modelos mais fortes; (2) a generalização entre versões de um mesmo personagem continua sendo um grande obstáculo; e (3) os modelos frequentemente se destacam em pensar ou agir, mas raramente em ambos. O Beyond One World expõe lacunas críticas na consistência multiversal e no alinhamento de raciocínio, oferecendo uma avaliação desafiadora para LLMs de role-playing.
A capacidade dos modelos de linguagem em sistemas RAG de se recusar seletivamente a responder com base em contextos falhos é crucial para a segurança, mas ainda representa um ponto de falha significativo. Nosso estudo em larga escala revela que até mesmo modelos de ponta enfrentam dificuldades nesse cenário, com a precisão de recusa caindo abaixo de 50% em tarefas de múltiplos documentos, enquanto exibem confiança excessivamente perigosa ou cautela exagerada. Benchmarks estáticos falham em avaliar de forma confiável essa capacidade, pois os modelos exploram artefatos específicos de conjuntos de dados e memorizam instâncias de teste. Introduzimos o RefusalBench, uma metodologia generativa que cria programaticamente casos de teste diagnósticos por meio de perturbações linguísticas controladas. Nosso framework emprega 176 estratégias distintas de perturbação em seis categorias de incerteza informacional e três níveis de intensidade. A avaliação de mais de 30 modelos revela padrões sistemáticos de falha: a recusa compreende habilidades separáveis de detecção e categorização, e nem a escala nem o raciocínio estendido melhoram o desempenho. Descobrimos que a recusa seletiva é uma capacidade treinável e sensível ao alinhamento, oferecendo um caminho claro para aprimoramento. Lançamos dois benchmarks — RefusalBench-NQ (documento único) e RefusalBench-GaRAGe (múltiplos documentos) — e nosso framework completo de geração para permitir a avaliação contínua e dinâmica dessa capacidade crítica.
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) mitiga limitações fundamentais dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models)—como erros factuais, conhecimento desatualizado e alucinações—ao recuperar dinamicamente informações externas. Trabalhos recentes estendem esse paradigma por meio de sistemas RAG agentivos, nos quais os LLMs atuam como agentes para planejar, recuperar e raciocinar iterativamente sobre consultas complexas. No entanto, esses sistemas ainda enfrentam dificuldades com perguntas desafiadoras de múltiplos saltos (multi-hop), e suas capacidades de raciocínio intermediário permanecem pouco exploradas. Para abordar isso, propomos o RAGCap-Bench, um benchmark orientado a capacidades para avaliação detalhada de tarefas intermediárias em fluxos de trabalho RAG agentivos. Analisamos saídas de sistemas de última geração para identificar tarefas comuns e as capacidades essenciais necessárias para sua execução, e então construímos uma taxonomia de erros típicos dos LLMs para projetar perguntas de avaliação direcionadas. Experimentos mostram que modelos de "pensamento lento" com melhor desempenho no RAGCap alcançam resultados finais superiores, reforçando a validade do benchmark e a importância de aprimorar essas capacidades intermediárias.
Os Modelos de Recompensa de Processo (PRMs) visam melhorar o raciocínio em múltiplos passos em Modelos de Linguagem de Grande Escala (LLMs) ao supervisionar etapas intermediárias e identificar erros. No entanto, a construção de PRMs eficazes continua desafiadora devido à falta de anotações escaláveis e de alta qualidade. As abordagens existentes dependem de rotulagem humana custosa, autoavaliação baseada em LLMs que é propensa a alucinações, ou estimativa de Monte Carlo (MC), que infere a qualidade das etapas apenas com base nos resultados finais e frequentemente introduz supervisão ruidosa e desalinhada devido à má atribuição de crédito. Esses problemas resultam em três limitações principais: recompensas ruidosas, baixa fidelidade factual e desalinhamento com os objetivos de raciocínio em nível de etapa. Para enfrentar esses desafios, introduzimos o GroundedPRM, uma estrutura guiada por árvore e consciente da fidelidade para supervisão automática de processos. Para reduzir o ruído nas recompensas e permitir atribuição de crédito refinada, construímos caminhos de raciocínio estruturados por meio de Busca em Árvore de Monte Carlo (MCTS). Para eliminar a supervisão alucinada, validamos cada etapa intermediária usando uma ferramenta externa, fornecendo sinais de correção baseados em execução. Para combinar tanto a validação em nível de etapa quanto a avaliação global do resultado, projetamos um mecanismo híbrido de agregação de recompensas que funde a verificação baseada em ferramentas com o feedback derivado do MCTS. Por fim, formatamos o sinal de recompensa em uma estrutura generativa aprimorada por racionalizações para promover interpretabilidade e compatibilidade com LLMs ajustados por instrução. O GroundedPRM é treinado com apenas 40 mil amostras rotuladas automaticamente, representando apenas 10% dos dados usados pelo PRM de melhor desempenho treinado com supervisão auto-rotulada. Ainda assim, ele alcança uma melhoria relativa de até 26% no desempenho médio no ProcessBench. Quando usado para busca gulosa guiada por recompensas, o GroundedPRM supera até mesmo PRMs treinados com supervisão rotulada por humanos, oferecendo um caminho escalável e verificável para raciocínio de alta qualidade em nível de processo.
A decodificação especulativa acelera a inferência de LLMs ao utilizar um modelo de rascunho para antecipar previsões, mas os ganhos são limitados pelo custo da geração autoregressiva do rascunho: aumentar o tamanho do rascunho eleva as taxas de aceitação, mas introduz uma sobrecarga adicional de latência, exacerbando o tradeoff entre velocidade e precisão. Métodos anteriores (Medusa, Hydra, EAGLE) reduzem parcialmente o custo do rascunho, mas ou degradam a aceitação ou introduzem sobrecargas que limitam a escalabilidade. Apresentamos a Decodificação Especulativa Espelhada (Mirror-SD), um algoritmo de inferência que quebra o tradeoff entre latência e aceitação. O Mirror-SD lança rollouts completos de ramificações a partir de sinais de saída antecipada em paralelo com o sufixo do modelo alvo e mapeia explicitamente a computação em aceleradores heterogêneos (GPU e NPU) para explorar o paralelismo entre dispositivos. O rascunho especula continuações futuras para o modelo alvo verificar, enquanto o alvo simultaneamente especula caminhos de correção para o rascunho, convertendo a especulação em dois pipelines de execução complementares. Para reduzir ainda mais a latência do rascunho sem enfraquecer a semântica de aceitação, adicionamos o streaming especulativo, permitindo que o rascunho emita múltiplos tokens por etapa. Essa estratégia dupla de execução paralela heterogênea mais streaming especulativo de múltiplos tokens aproxima a decodificação especulativa de seu regime ideal de alta aceitação com baixa sobrecarga. No SpecBench, com modelos em escala de servidor variando de 14B a 66B parâmetros, o Mirror-SD oferece ganhos consistentes de ponta a ponta, alcançando acelerações de tempo real de 2,8x a 5,8x em diversas tarefas e uma melhoria relativa média de 30% sobre o baseline mais forte, o EAGLE3.