Artigos de pesquisa em IA selecionados diariamente com traduções
Nos modelos Diffusion Transformer (DiT), particularmente para geração de vídeos, a latência de atenção é um grande gargalo devido ao comprimento longo das sequências e à complexidade quadrática. Descobrimos que os pesos de atenção podem ser separados em duas partes: uma pequena fração de pesos grandes com alta classificação e os pesos restantes com classificação muito baixa. Isso sugere naturalmente a aplicação de aceleração esparsa à primeira parte e aceleração de baixa classificação à segunda. Com base nessa descoberta, propomos o SLA (Sparse-Linear Attention), um método de atenção treinável que combina atenção esparsa e linear para acelerar modelos de difusão. O SLA classifica os pesos de atenção em categorias críticos, marginais e negligenciáveis, aplicando atenção O(N^2) aos pesos críticos, atenção O(N) aos pesos marginais e ignorando os negligenciáveis. O SLA combina esses cálculos em um único kernel de GPU e suporta tanto passos diretos quanto reversos. Com apenas alguns passos de ajuste fino usando o SLA, os modelos DiT alcançam uma redução de 20x no cálculo de atenção, resultando em uma aceleração significativa sem perda de qualidade na geração. Experimentos mostram que o SLA reduz o cálculo de atenção em 95% sem degradar a qualidade de geração de ponta a ponta, superando métodos de linha de base. Além disso, implementamos um kernel de GPU eficiente para o SLA, que proporciona uma aceleração de 13,7x no cálculo de atenção e uma aceleração de 2,2x na geração de vídeos de ponta a ponta no Wan2.1-1.3B.
Os tokenizadores semânticos de fala predominantes, projetados para capturar conteúdo linguístico, são surpreendentemente frágeis. Descobrimos que eles não são robustos a perturbações acústicas irrelevantes para o significado; mesmo em altas taxas de Sinal-Ruído (SNRs), onde a fala é perfeitamente inteligível, suas sequências de tokens de saída podem mudar drasticamente, aumentando a carga de aprendizado para LLMs subsequentes. Essa instabilidade decorre de duas falhas: uma arquitetura de quantização de caminho único frágil e um sinal de treinamento distante indiferente à estabilidade dos tokens intermediários. Para resolver isso, introduzimos o StableToken, um tokenizador que alcança estabilidade por meio de um mecanismo baseado em consenso. Sua arquitetura de múltiplos ramos processa o áudio em paralelo, e essas representações são combinadas por meio de um poderoso mecanismo de votação bit a bit para formar uma única sequência de tokens estável. O StableToken estabelece um novo estado da arte em estabilidade de tokens, reduzindo drasticamente a Distância de Edição de Unidade (UED) sob diversas condições de ruído. Essa estabilidade fundamental se traduz diretamente em benefícios subsequentes, melhorando significativamente a robustez de SpeechLLMs em uma variedade de tarefas.
O aprendizado por reforço com feedback humano (RLHF) emergiu como o paradigma padrão para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, métodos baseados em recompensa construídos sobre a suposição de Bradley-Terry lutam para capturar a natureza não transitiva e heterogênea das preferências do mundo real. Para abordar isso, estudos recentes reformularam o alinhamento como um jogo de Nash de dois jogadores, dando origem ao aprendizado de Nash com feedback humano (NLHF). Embora essa perspectiva tenha inspirado algoritmos como INPO, ONPO e EGPO com fortes garantias teóricas e empíricas, eles permanecem fundamentalmente restritos a interações de dois jogadores, criando um viés de único oponente que falha em capturar a complexidade completa das estruturas de preferências realistas. Neste trabalho, introduzimos a Otimização de Preferências de Nash Multiplayer (MNPO), uma nova estrutura que generaliza o NLHF para o regime multiplayer. Ela formula o alinhamento como um jogo de n jogadores, onde cada política compete contra uma população de oponentes enquanto é regularizada em direção a um modelo de referência. Nossa estrutura estabelece equilíbrios de Nash bem definidos em configurações multiplayer e estende o conceito de lacuna de dualidade para quantificar a qualidade da aproximação. Demonstramos que o MNPO herda as garantias de equilíbrio dos métodos de dois jogadores, ao mesmo tempo em que permite dinâmicas competitivas mais ricas e uma cobertura melhorada de estruturas de preferências diversas. Por meio de uma avaliação empírica abrangente, mostramos que o MNPO supera consistentemente as bases de NLHF existentes em benchmarks de seguimento de instruções, alcançando qualidade de alinhamento superior sob condições de anotadores heterogêneos e cenários de avaliação de políticas mistas. Juntos, esses resultados estabelecem o MNPO como uma estrutura principiada e escalável para alinhar LLMs com preferências humanas complexas e não transitivas. O código está disponível em https://github.com/smiles724/MNPO.
O desempenho de modelos multimodais unificados para geração e edição de imagens é fundamentalmente limitado pela qualidade e abrangência de seus dados de treinamento. Embora os conjuntos de dados existentes tenham coberto tarefas básicas, como transferência de estilo e manipulação simples de objetos, eles frequentemente carecem da estrutura sistemática e dos cenários desafiadores necessários para aplicações do mundo real. Para resolver esse gargalo, apresentamos o OpenGPT-4o-Image, um conjunto de dados em larga escala construído usando uma metodologia inovadora que combina taxonomia hierárquica de tarefas com geração automatizada de dados. Nossa taxonomia não apenas inclui capacidades fundamentais, como renderização de texto e controle de estilo, mas também introduz categorias altamente práticas, porém desafiadoras, como imagens científicas para ilustrações de química e edição de instruções complexas que exigem a execução simultânea de múltiplas operações. Por meio de um pipeline automatizado que aproveita pools de recursos estruturados e o GPT-4o, geramos 80 mil pares de instrução-imagem de alta qualidade com diversidade controlada, abrangendo 11 domínios principais e 51 subtarefas. Experimentos extensivos mostram que o ajuste fino de modelos líderes em nosso conjunto de dados alcança ganhos significativos de desempenho em vários benchmarks, com melhorias de até 18% em tarefas de edição (UniWorld-V1 no ImgEdit-Bench) e 13% em tarefas de geração (Harmon no GenEval). Nosso trabalho demonstra que a construção sistemática de dados é fundamental para avançar as capacidades da IA multimodal.
Uma visão predominante no Aprendizado por Reforço para Recompensas Verificáveis (RLVR) interpreta os avanços recentes através da lente de um dilema entre exploração e explotação, uma perspectiva amplamente moldada por métricas em nível de token. Reexaminamos essa perspectiva, propondo que esse dilema percebido pode não ser uma restrição fundamental, mas sim um artefato do nível de medição. Para investigar isso, deslocamos a análise para o espaço de estados ocultos semanticamente rico, adotando o Rank Efetivo (ER) para quantificar a exploração e propondo suas novas derivadas de primeira e segunda ordem, denominadas Velocidade do Rank Efetivo (ERV) e Aceleração do Rank Efetivo (ERA), para capturar a dinâmica da explotação. Nossa análise revela que, no nível dos estados ocultos, a exploração e a explotação podem ser desacopladas (Seção 4). Essa descoberta revela uma oportunidade de aprimorar ambas as capacidades simultaneamente. Esse insight motiva nosso método, Aprendizado de Rank com Explotação de Velocidade (VERL), o primeiro a operacionalizar o princípio de aprimoramento sinérgico entre exploração e explotação, moldando diretamente a função de vantagem do RL. A inovação chave é aproveitar a ERA teoricamente estável como um meta-controlador preditivo para criar uma estrutura de incentivo sinérgica de duplo canal. Em vez de forçar um dilema, o VERL amplia prospectivamente as recompensas para exploração a fim de prevenir excesso de confiança e reforça os ganhos exploratórios para consolidar o raciocínio. Experimentos em diversos LLMs e benchmarks de raciocínio mostram ganhos consistentes, incluindo uma melhoria de até 21,4% na precisão absoluta no desafiador conjunto de dados Gaokao 2024.
A integração da compreensão e geração visual em modelos multimodais unificados representa um avanço significativo em direção à IA de propósito geral. No entanto, uma questão fundamental permanece sem resposta pelos benchmarks existentes: essa unificação arquitetônica realmente permite uma interação sinérgica entre as capacidades constituintes? Os paradigmas de avaliação atuais, que avaliam principalmente a compreensão e a geração de forma isolada, são insuficientes para determinar se um modelo unificado pode aproveitar sua compreensão para aprimorar sua geração ou usar simulação generativa para facilitar uma compreensão mais profunda. Para abordar essa lacuna crítica, apresentamos o RealUnify, um benchmark projetado especificamente para avaliar a sinergia bidirecional de capacidades. O RealUnify compreende 1.000 instâncias meticulosamente anotadas por humanos, abrangendo 10 categorias e 32 subtarefas. Ele é estruturado em torno de dois eixos principais: 1) Compreensão Aprimora Geração, que exige raciocínio (por exemplo, senso comum, lógica) para orientar a geração de imagens, e 2) Geração Aprimora Compreensão, que requer simulação mental ou reconstrução (por exemplo, de entradas visuais transformadas ou desordenadas) para resolver tarefas de raciocínio. Uma contribuição fundamental é nosso protocolo de avaliação dupla, que combina avaliação direta de ponta a ponta com uma avaliação diagnóstica passo a passo que decompõe as tarefas em fases distintas de compreensão e geração. Esse protocolo nos permite discernir com precisão se os gargalos de desempenho decorrem de deficiências nas habilidades centrais ou de uma falha em integrá-las. Por meio de avaliações em larga escala de 12 modelos unificados líderes e 6 baselines especializados, descobrimos que os modelos unificados atuais ainda lutam para alcançar uma sinergia eficaz, indicando que a unificação arquitetônica por si só é insuficiente. Esses resultados destacam a necessidade de novas estratégias de treinamento e vieses indutivos para liberar totalmente o potencial da modelagem unificada.
Apresentamos o SANA-Video, um pequeno modelo de difusão capaz de gerar vídeos de forma eficiente com resolução de até 720x1280 e duração de minutos. O SANA-Video sintetiza vídeos de alta resolução, alta qualidade e longa duração com um forte alinhamento texto-vídeo a uma velocidade notavelmente rápida, sendo implantável em GPUs RTX 5090. Dois designs centrais garantem a geração eficiente, eficaz e de longa duração de vídeos: (1) Linear DiT: Utilizamos atenção linear como operação central, que é mais eficiente do que a atenção tradicional, considerando o grande número de tokens processados na geração de vídeos. (2) Cache KV de Memória Constante para Atenção Linear em Blocos: projetamos uma abordagem autoregressiva em blocos para a geração de vídeos longos, empregando um estado de memória constante, derivado das propriedades cumulativas da atenção linear. Esse cache KV fornece ao Linear DiT um contexto global com um custo de memória fixo, eliminando a necessidade de um cache KV tradicional e permitindo a geração eficiente de vídeos com duração de minutos. Além disso, exploramos filtros de dados eficazes e estratégias de treinamento de modelos, reduzindo o custo de treinamento para 12 dias em 64 GPUs H100, o que representa apenas 1% do custo do MovieGen. Dado seu baixo custo, o SANA-Video alcança um desempenho competitivo em comparação com modelos modernos de difusão de pequeno porte (por exemplo, Wan 2.1-1.3B e SkyReel-V2-1.3B), sendo 16x mais rápido em latência medida. Além disso, o SANA-Video pode ser implantado em GPUs RTX 5090 com precisão NVFP4, acelerando a velocidade de inferência para gerar um vídeo de 5 segundos em 720p de 71s para 29s (aceleração de 2,4x). Em resumo, o SANA-Video possibilita a geração de vídeos de alta qualidade com baixo custo.
Modelos de linguagem de difusão (DLMs) possuem forte eficiência teórica, mas são limitados pela decodificação de comprimento fixo e incompatibilidade com caches de chave-valor (KV). A difusão em blocos mitiga esses problemas, mas ainda impõe um tamanho de bloco fixo e requer treinamento custoso. Introduzimos a Predição de Sequência Seguinte (NSP), que unifica a previsão do próximo token e do próximo bloco, permitindo que o modelo determine adaptativamente o comprimento da geração em cada etapa. Quando o comprimento é fixado em 1, a NSP se reduz à previsão padrão do próximo token. Com base na NSP, propomos o Modelo de Linguagem de Difusão Sequencial (SDLM), que pode adaptar modelos de linguagem autorregressivos (ALMs) pré-treinados com custo mínimo. Especificamente, o SDLM realiza inferência de difusão dentro de blocos de máscara de tamanho fixo, mas decodifica subsequências consecutivas de forma dinâmica com base na confiança do modelo, preservando assim a compatibilidade com caches KV e melhorando a robustez frente à variação de incerteza e semântica ao longo da sequência. Experimentos mostram que o SDLM iguala ou supera fortes baselines autorregressivas usando apenas 3,5 milhões de amostras de treinamento, enquanto alcança um throughput 2,1 vezes maior que o Qwen-2.5. Notavelmente, o modelo SDLM-32B apresenta ganhos de eficiência ainda mais pronunciados, demonstrando o forte potencial de escalabilidade do nosso paradigma de modelagem. Página do projeto e códigos: https://github.com/OpenGVLab/SDLM
Cientistas de IA estão desenvolvendo sistemas computacionais que atuam como parceiros colaborativos na descoberta científica. Esses sistemas permanecem difíceis de construir porque são personalizados, vinculados a fluxos de trabalho rígidos e carecem de ambientes compartilhados que unifiquem ferramentas, dados e análises em um ecossistema comum. Na área de ômicas, ecossistemas unificados transformaram a pesquisa ao permitir interoperabilidade, reutilização e desenvolvimento impulsionado pela comunidade; cientistas de IA exigem uma infraestrutura comparável. Apresentamos o ToolUniverse, um ecossistema para construir cientistas de IA a partir de qualquer linguagem ou modelo de raciocínio, seja aberto ou fechado. O TOOLUNIVERSE padroniza como cientistas de IA identificam e chamam ferramentas, integrando mais de 600 modelos de aprendizado de máquina, conjuntos de dados, APIs e pacotes científicos para análise de dados, recuperação de conhecimento e design experimental. Ele refina automaticamente as interfaces das ferramentas para uso correto por cientistas de IA, cria novas ferramentas a partir de descrições em linguagem natural, otimiza iterativamente as especificações das ferramentas e compõe ferramentas em fluxos de trabalho agentivos. Em um estudo de caso sobre hipercolesterolemia, o ToolUniverse foi usado para criar um cientista de IA que identificou um análogo potente de um medicamento com propriedades previstas favoráveis. O ToolUniverse de código aberto está disponível em https://aiscientist.tools.
Modelos de Linguagem de Grande Escala (LLMs) com capacidades de raciocínio alcançaram desempenho de ponta em uma ampla gama de tarefas. Apesar do sucesso empírico, as tarefas e escalas de modelos nas quais o raciocínio se torna eficaz, bem como seus custos de treinamento e inferência, permanecem pouco explorados. Neste trabalho, utilizamos um framework de destilação de dados sintéticos para conduzir um estudo supervisionado em larga escala. Comparamos o Fine-Tuning por Instrução (IFT) e modelos de raciocínio de tamanhos variados, em uma ampla variedade de tarefas centradas em matemática e de propósito geral, avaliando tanto formatos de múltipla escolha quanto de resposta aberta. Nossa análise revela que o raciocínio melhora consistentemente o desempenho do modelo, muitas vezes igualando ou superando sistemas IFT significativamente maiores. Notavelmente, embora o IFT permaneça Pareto-ótimo em termos de custos de treinamento e inferência, os modelos de raciocínio tornam-se cada vez mais valiosos à medida que a escala do modelo aumenta, superando os limites de desempenho do IFT em tarefas intensivas em raciocínio e de resposta aberta.
O pós-treinamento baseado em aprendizado por reforço surgiu recentemente como um paradigma poderoso para aprimorar as capacidades de alinhamento e raciocínio de modelos de linguagem multimodal de grande escala (MLLMs). Embora o pós-treinamento centrado em visão seja crucial para melhorar a compreensão intrínseca dos MLLMs sobre sinais visuais, os paradigmas atuais de pós-treinamento são predominantemente centrados em texto, onde entradas visuais densas são utilizadas apenas para extrair pistas esparsas para o raciocínio baseado em texto. Existem algumas abordagens nessa direção, no entanto, elas ainda dependem do texto como mediador intermediário ou introduzem designs generativos visuais adicionais. Neste trabalho, apresentamos o Visual Jigsaw, uma estrutura genérica de pós-treinamento auto-supervisionada projetada para fortalecer a compreensão visual em MLLMs. O Visual Jigsaw é formulado como uma tarefa geral de ordenação: as entradas visuais são particionadas, embaralhadas, e o modelo deve reconstruir a informação visual produzindo a permutação correta em linguagem natural. Isso se alinha naturalmente com o aprendizado por reforço a partir de recompensas verificáveis (RLVR), não requer componentes generativos visuais adicionais e deriva seu sinal de supervisão automaticamente sem qualquer anotação. Instanciamos o Visual Jigsaw em três modalidades visuais, incluindo imagens, vídeos e dados 3D. Experimentos extensivos demonstram melhorias substanciais na percepção de detalhes finos, raciocínio temporal e compreensão espacial 3D. Nossos resultados destacam o potencial de tarefas auto-supervisionadas centradas em visão no pós-treinamento de MLLMs e visam inspirar mais pesquisas sobre designs de pretexto centrados em visão. Página do Projeto: https://penghao-wu.github.io/visual_jigsaw/
Embora os modelos de linguagem por difusão (DLMs) ofereçam uma alternativa promissora aos modelos autoregressivos (ARs), os DLMs de código aberto existentes sofrem com alta latência de inferência. Esse gargalo ocorre principalmente devido à complexidade quadrática da atenção em relação ao comprimento do contexto ao calcular todos os pares de consulta-chave. Intuitivamente, para reduzir essa complexidade, uma estratégia natural é restringir a atenção a padrões esparsos que retêm apenas as conexões mais relevantes. Essas abordagens são bem estabelecidas em ARs, onde a atenção segue padrões esparsos fixos e claramente definidos. No entanto, em DLMs, observamos comportamentos de esparsidade distintos: (1) os padrões de atenção variam entre as cabeças, (2) os padrões de atenção em cada cabeça permanecem altamente semelhantes entre as etapas de desruído, e (3) as etapas iniciais de desruído são críticas para a geração. Essas descobertas tornam os métodos de atenção esparsa projetados para ARs amplamente incompatíveis com DLMs, pois falham em capturar estruturas específicas das cabeças e correm o risco de degradar a geração quando aplicados nas etapas iniciais de desruído. Para enfrentar esses desafios, propomos o SparseD, um novo método de atenção esparsa para DLMs. Aproveitando as observações, o SparseD requer apenas o pré-cálculo de padrões esparsos específicos para cada cabeça uma única vez, reutilizando-os em todas as etapas. Isso evita o recálculo de padrões esparsos a cada etapa de desruído. Enquanto isso, o SparseD usa atenção completa nas etapas iniciais e, em seguida, alterna para atenção esparsa mais tarde para manter a qualidade da geração. Juntos, esses aspectos estabelecem o SparseD como uma solução prática e eficiente para a implantação de DLMs em aplicações de contexto longo. Resultados experimentais demonstram que o SparseD alcança aceleração sem perdas, proporcionando um aumento de velocidade de até 1,50 vezes em relação ao FlashAttention em um contexto de 64k com 1.024 etapas de desruído.
Modelos de linguagem visual (VLMs) alcançam uma modelagem unificada de imagens e texto, permitindo que realizem tarefas complexas do mundo real por meio de percepção, planejamento e raciocínio. Entre essas tarefas, o raciocínio é particularmente representativo, com o raciocínio matemático servindo como um exemplo proeminente. Ele destaca a capacidade de alto nível dos VLMs de compreender informações matemáticas em imagens e realizar raciocínios sofisticados. Recentemente, diversos benchmarks de raciocínio matemático visual foram propostos, mas eles frequentemente se restringem à geometria, carecem de cobertura de problemas matemáticos verbais e raramente avaliam o raciocínio em múltiplas imagens. Para abordar essas lacunas, introduzimos o GSM8K-V, um benchmark puramente visual de raciocínio matemático com múltiplas imagens. O GSM8K-V é construído mapeando sistematicamente cada amostra do amplamente utilizado GSM8K baseado em texto para uma forma visual. Por meio de um pipeline de geração de imagens automatizado cuidadosamente projetado, combinado com anotação humana meticulosa, curamos 1.319 amostras de alta qualidade. Avaliamos uma ampla gama de modelos de código aberto e proprietários no GSM8K-V. Os resultados mostram que, embora os VLMs existentes tenham quase saturado o desempenho no GSM8K baseado em texto, ainda há um espaço substancial para melhoria no GSM8K-V. Por exemplo, o modelo de melhor desempenho, Gemini-2.5-Pro, alcança 95,22% de precisão no GSM8K, mas apenas 46,93% no GSM8K-V. Realizamos uma análise abrangente do GSM8K-V, examinando as limitações dos modelos atuais, bem como possíveis direções para melhoria. O GSM8K-V oferece uma nova perspectiva sobre o raciocínio matemático visual e estabelece um benchmark para guiar o desenvolvimento de VLMs mais robustos e generalizáveis.
O RL com Recompensas Verificáveis (RLVR) emergiu como um paradigma promissor para melhorar as habilidades de raciocínio de grandes modelos de linguagem (LLMs). Os métodos atuais dependem principalmente de frameworks de otimização de políticas como PPO e GRPO, que seguem uma iteração de política generalizada que alterna entre avaliar o valor da política atual e melhorar a política com base na avaliação. Embora eficazes, eles frequentemente sofrem com instabilidade no treinamento e colapso de diversidade, exigindo truques heurísticos complexos e ajustes cuidadosos. Observamos que o RLVR padrão em raciocínio matemático pode ser formalizado como um Processo de Decisão Markoviano de horizonte finito especializado, com transições de estado determinísticas, dinâmica estruturada em árvore e recompensas terminais binárias. Embora em grande escala, a estrutura subjacente é mais simples do que os cenários de controle de propósito geral para os quais os algoritmos populares de RL (por exemplo, PPO) foram desenvolvidos, sugerindo que várias técnicas sofisticadas nos métodos existentes podem ser reduzidas ou até mesmo omitidas. Com base nessa percepção, provamos um resultado surpreendente: a ação ótima pode ser recuperada a partir da função Q de uma política uniformemente aleatória fixa, contornando assim o loop de iteração de política generalizada e suas heurísticas associadas. Introduzimos a Avaliação de Política Aleatória para Raciocínio Diverso (ROVER) para traduzir esse princípio em um algoritmo prático e escalável para raciocínio matemático em LLMs, um método de RL minimalista, mas altamente eficaz, que amostra ações a partir de um softmax sobre esses valores Q da política uniforme. O ROVER preserva a diversidade ao longo do treinamento, permitindo uma exploração sustentada de múltiplos caminhos válidos. Em vários modelos base e benchmarks padrão de raciocínio matemático, o ROVER demonstra desempenho superior tanto em qualidade (+8,2 em pass@1, +16,8 em pass@256) quanto em diversidade (+17,6\%), apesar de sua radical simplificação em comparação com métodos existentes fortes e complicados.
A edição de imagens guiada por instruções alcançou progressos notáveis, mas os modelos atuais ainda enfrentam desafios com instruções complexas e frequentemente exigem múltiplas amostras para produzir um resultado desejado. O Aprendizado por Reforço (RL) oferece uma solução promissora, mas sua adoção na edição de imagens tem sido severamente dificultada pela falta de um sinal de recompensa de alta fidelidade e eficiente. Neste trabalho, apresentamos uma metodologia abrangente para superar essa barreira, centrada no desenvolvimento de um modelo de recompensa especializado e de última geração. Primeiro, introduzimos o EditReward-Bench, um benchmark abrangente para avaliar sistematicamente modelos de recompensa na qualidade de edição. Com base nesse benchmark, desenvolvemos o EditScore, uma série de modelos de recompensa (7B-72B) para avaliar a qualidade da edição de imagens guiada por instruções. Através de uma curadoria e filtragem meticulosa de dados, o EditScore corresponde efetivamente ao desempenho de modelos visuais de linguagem (VLMs) proprietários. Além disso, combinado com uma estratégia de auto-ensemble eficaz, adaptada à natureza generativa do EditScore, nossa maior variante até supera o GPT-5 no benchmark. Em seguida, demonstramos que um modelo de recompensa de alta fidelidade é a chave para desbloquear o RL online na edição de imagens. Nossos experimentos mostram que, enquanto até mesmo os maiores VLMs de código aberto falham em fornecer um sinal de aprendizado eficaz, o EditScore permite uma otimização de política eficiente e robusta. A aplicação de nossa estrutura a um modelo base forte, o OmniGen2, resulta em um modelo final que mostra um aumento substancial e consistente no desempenho. No geral, este trabalho fornece o primeiro caminho sistemático desde o benchmarking até a modelagem de recompensa e o treinamento de RL na edição de imagens, mostrando que um modelo de recompensa de alta fidelidade e especializado no domínio é a chave para desbloquear todo o potencial do RL nessa área.
Agentes de Pesquisa Profunda (DRAs) podem conduzir investigações complexas de forma autônoma e gerar relatórios abrangentes, demonstrando um forte potencial no mundo real. No entanto, as avaliações existentes dependem principalmente de benchmarks de respostas fechadas, enquanto benchmarks de pesquisa profunda de respostas abertas permanecem escassos e geralmente negligenciam cenários personalizados. Para preencher essa lacuna, introduzimos o Personalized Deep Research Bench, o primeiro benchmark para avaliar a personalização em DRAs. Ele combina 50 tarefas de pesquisa diversas em 10 domínios com 25 perfis de usuários autênticos que integram atributos estruturados de persona com contextos dinâmicos do mundo real, resultando em 250 consultas realistas de usuário-tarefa. Para avaliar o desempenho do sistema, propomos o PQR Evaluation Framework, que mede conjuntamente (P) Alinhamento de Personalização, (Q) Qualidade do Conteúdo e (R) Confiabilidade Factual. Nossos experimentos em uma variedade de sistemas destacam as capacidades e limitações atuais no tratamento de pesquisas profundas personalizadas. Este trabalho estabelece uma base rigorosa para o desenvolvimento e avaliação da próxima geração de assistentes de pesquisa em IA verdadeiramente personalizados.
A direção de grandes modelos de linguagem (LLMs, do inglês Large Language Models) surgiu como um paradigma promissor para controlar o comportamento dos modelos durante a inferência por meio da manipulação direcionada de estados ocultos, oferecendo uma alternativa leve ao retreinamento dispendioso. No entanto, as estruturas de direção existentes sofrem com limitações críticas: ineficiência computacional, extensibilidade limitada e funcionalidade restrita, o que dificulta tanto o progresso da pesquisa quanto a implantação prática. Apresentamos o EasySteer, uma estrutura unificada para direção de LLMs de alto desempenho e extensível, construída sobre o vLLM. Nosso sistema apresenta uma arquitetura modular com interfaces conectáveis para métodos baseados em análise e aprendizado, controle de parâmetros refinado, vetores de direção pré-computados para oito domínios de aplicação e um sistema de demonstração interativo. Por meio da integração profunda com o motor de inferência otimizado do vLLM, o EasySteer alcança uma aceleração de 5,5 a 11,4 vezes em relação às estruturas existentes. Experimentos extensivos demonstram sua eficácia na mitigação de "overthinking", redução de alucinações e outras aplicações-chave. O EasySteer transforma a direção de uma técnica de pesquisa em uma capacidade pronta para produção, estabelecendo infraestrutura crítica para modelos de linguagem implantáveis e controláveis.
Os avanços recentes na geração de texto para vídeo têm produzido conteúdos cada vez mais realistas e diversificados, mas a avaliação desses vídeos continua sendo um desafio fundamental devido à sua natureza multifacetada, que abrange qualidade visual, alinhamento semântico e consistência física. Os avaliadores e modelos de recompensa existentes são limitados a pontuações únicas e opacas, carecem de interpretabilidade ou fornecem apenas análises superficiais, tornando-os insuficientes para capturar a natureza abrangente da avaliação da qualidade de vídeo. Apresentamos o VideoScore2, uma estrutura multidimensional, interpretável e alinhada com humanos que avalia explicitamente a qualidade visual, o alinhamento texto-vídeo e a consistência física/de senso comum, enquanto produz justificativas detalhadas em cadeia de pensamento. Nosso modelo é treinado em um conjunto de dados em larga escala, o VideoFeedback2, contendo 27.168 vídeos anotados por humanos com pontuações e rastros de raciocínio em três dimensões, utilizando um pipeline de duas etapas: ajuste fino supervisionado seguido de aprendizado por reforço com Otimização de Política Relativa de Grupo (GRPO) para aprimorar a robustez analítica. Experimentos extensivos demonstram que o VideoScore2 alcança desempenho superior com 44,35 (+5,94) de precisão em nosso benchmark interno VideoScore-Bench-v2 e 50,37 (+4,32) de desempenho médio em quatro benchmarks externos (VideoGenReward-Bench, VideoPhy2, etc.), enquanto fornece avaliações interpretáveis que preenchem a lacuna entre avaliação e geração controlável por meio de modelagem eficaz de recompensa para amostragem Best-of-N. Página do Projeto: https://tiger-ai-lab.github.io/VideoScore2/
A geração de vídeos em streaming, como um componente fundamental em modelos de mundo interativos e motores de jogos neurais, visa gerar fluxos de vídeo longos de alta qualidade, baixa latência e coerência temporal. No entanto, a maioria dos trabalhos existentes sofre com o acúmulo severo de erros, que frequentemente degrada significativamente os vídeos gerados ao longo de horizontes temporais longos. Projetamos o Rolling Forcing, uma nova técnica de geração de vídeos que permite a transmissão de vídeos longos com acúmulo mínimo de erros. O Rolling Forcing apresenta três novos designs. Primeiro, em vez de amostrar iterativamente quadros individuais, o que acelera a propagação de erros, projetamos um esquema de remoção de ruído conjunto que remove ruído de múltiplos quadros simultaneamente com níveis de ruído progressivamente crescentes. Esse design relaxa a causalidade estrita entre quadros adjacentes, suprimindo efetivamente o crescimento de erros. Segundo, introduzimos o mecanismo de "attention sink" na tarefa de geração de vídeos em streaming de longo horizonte, o que permite que o modelo mantenha estados de valor-chave dos quadros iniciais como uma âncora de contexto global, melhorando assim a consistência global de longo prazo. Terceiro, projetamos um algoritmo de treinamento eficiente que permite a destilação em poucos passos em janelas de remoção de ruído amplamente estendidas. Esse algoritmo opera em janelas não sobrepostas e mitiga o viés de exposição condicionado a histórias autogeradas. Experimentos extensivos mostram que o Rolling Forcing permite a geração em tempo real de vídeos de vários minutos em uma única GPU, com redução substancial no acúmulo de erros.
Apresentamos o HunyuanImage 3.0, um modelo multimodal nativo que unifica a compreensão e a geração multimodal em um framework autoregressivo, com seu módulo de geração de imagens disponível publicamente. A realização do HunyuanImage 3.0 depende de vários componentes-chave, incluindo curadoria meticulosa de dados, design de arquitetura avançado, um esquema nativo de Chain-of-Thoughts, pré-treinamento progressivo do modelo, pós-treinamento agressivo do modelo e uma infraestrutura eficiente que permite treinamento e inferência em larga escala. Com esses avanços, treinamos com sucesso um modelo Mixture-of-Experts (MoE) composto por mais de 80 bilhões de parâmetros no total, com 13 bilhões de parâmetros ativados por token durante a inferência, tornando-o o maior e mais poderoso modelo de geração de imagens de código aberto até o momento. Realizamos extensos experimentos, e os resultados das avaliações automáticas e humanas de alinhamento texto-imagem e qualidade visual demonstram que o HunyuanImage 3.0 rivaliza com os modelos state-of-the-art anteriores. Ao liberar o código e os pesos do HunyuanImage 3.0, nosso objetivo é permitir que a comunidade explore novas ideias com um modelo de base state-of-the-art, promovendo um ecossistema multimodal dinâmico e vibrante. Todos os ativos de código aberto estão disponíveis publicamente em https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
O Aprendizado por Reforço (RL) emergiu como um paradigma de treinamento popular, especialmente quando combinado com modelos de raciocínio. Embora eficaz, ele se concentra principalmente na geração de respostas e carece de mecanismos para promover explicitamente a crítica ou a reflexão. Vários estudos recentes, como o Critique-Fine-Tuning (CFT) e o Critique-Guided-Distillation (CGD), demonstraram os benefícios de ensinar explicitamente os LLMs a criticar. Motivados por eles, propomos o Critique Reinforcement Learning (CRL), no qual o modelo é encarregado de gerar uma crítica para um par (pergunta, solução). A recompensa é determinada exclusivamente pelo fato de o rótulo de julgamento final c em {Verdadeiro, Falso} da crítica gerada estar alinhado com o julgamento verdadeiro c^*. Com base nisso, introduzimos o Critique-Coder, que é treinado com uma combinação de RL e CRL, substituindo 20% dos dados padrão de RL por dados de CRL. Ajustamos vários modelos (Critique-Coder) e os avaliamos em diferentes benchmarks para mostrar suas vantagens sobre modelos exclusivamente RL. Demonstramos que o Critique-Coder supera consistentemente as baselines exclusivamente RL em todos os benchmarks avaliados. Notavelmente, nosso Critique-Coder-8B pode atingir mais de 60% no LiveCodeBench (v5), superando outros modelos de raciocínio como o DeepCoder-14B e o GPT-o1. Além da geração de código, o Critique-Coder também demonstra habilidades aprimoradas de raciocínio geral, como evidenciado por seu melhor desempenho em tarefas de raciocínio lógico do conjunto de dados BBEH. Isso indica que a aplicação do CRL em conjuntos de dados de codificação aprimora as habilidades gerais de raciocínio e crítica, que são transferíveis para uma ampla gama de tarefas. Portanto, acreditamos que o CRL funciona como um excelente complemento ao RL padrão para o raciocínio de LLMs.
Postulamos que, para alcançar uma melhoria contínua do modelo e um alinhamento multifacetado, os modelos futuros devem aprender a partir da interação humana natural. Os modelos conversacionais atuais são alinhados utilizando feedback humano pré-anotado e gerado por especialistas. Neste trabalho, introduzimos o Aprendizado por Reforço a partir da Interação Humana (RLHI, na sigla em inglês), um paradigma que aprende diretamente de conversas de usuários em ambientes reais. Desenvolvemos dois métodos complementares: (1) RLHI com Reescrevimentos Guiados pelo Usuário, que revisa saídas insatisfatórias do modelo com base nas respostas subsequentes em linguagem natural dos usuários, e (2) RLHI com Recompensas Baseadas no Usuário, que aprende por meio de um modelo de recompensa condicionado ao conhecimento do histórico de interações de longo prazo do usuário (denominado persona). Juntos, esses métodos conectam personas de usuários de longo prazo a preferências em nível de turno por meio da otimização de preferências condicionadas à persona. Treinados em conversas derivadas do WildChat, ambas as variantes do RLHI superam linhas de base robustas em personalização e seguimento de instruções, e feedbacks semelhantes melhoram o desempenho em benchmarks de raciocínio. Esses resultados sugerem que a interação humana orgânica oferece uma supervisão escalável e eficaz para o alinhamento personalizado.
Estudamos o problema de aplicar Modelos de Base 3D (3DFMs) à Síntese de Novas Visões Densas (NVS). Apesar dos avanços significativos na Síntese de Novas Visões impulsionados por NeRF e 3DGS, as abordagens atuais ainda dependem de atributos 3D precisos (por exemplo, poses de câmera e nuvens de pontos) obtidos por Estrutura a partir de Movimento (SfM), que muitas vezes é lento e frágil em capturas com baixa textura ou baixa sobreposição. Modelos de Base 3D recentes demonstram uma aceleração de ordens de magnitude em relação ao pipeline tradicional e um grande potencial para NVS online. No entanto, a maior parte da validação e conclusões está limitada a configurações de visões esparsas. Nosso estudo revela que a simples escalonamento de 3DFMs para visões densas encontra duas barreiras fundamentais: o aumento dramático da carga de VRAM e saídas imperfeitas que degradam o treinamento 3D sensível à inicialização. Para abordar essas barreiras, introduzimos o VGGT-X, incorporando uma implementação eficiente em memória do VGGT que escala para mais de 1.000 imagens, um alinhamento global adaptativo para aprimoramento da saída do VGGT e práticas robustas de treinamento 3DGS. Experimentos extensivos mostram que essas medidas reduzem substancialmente a lacuna de fidelidade com pipelines inicializados por COLMAP, alcançando resultados de ponta em NVS densa sem COLMAP e estimativa de pose. Além disso, analisamos as causas das lacunas remanescentes com renderização inicializada por COLMAP, fornecendo insights para o desenvolvimento futuro de modelos de base 3D e NVS densa. Nossa página do projeto está disponível em https://dekuliutesla.github.io/vggt-x.github.io/.
Modelos de linguagem de grande escala (LLMs) se destacam no raciocínio matemático geral, mas falham catastróficamente em matemática técnica especializada. Em comunicações sem fio, onde os problemas exigem manipulação precisa de limites teóricos da informação, restrições de otimização e formulações de processamento de sinais, até mesmo os modelos mais avançados lutam para alcançar um desempenho competente. Apresentamos o WirelessMathLM, demonstrando que modelos compactos (0,5B-7B parâmetros) podem igualar ou superar modelos muito maiores por meio de aprendizado por reforço específico do domínio com recompensas verificáveis. Nossa principal percepção é que os problemas de matemática sem fio possuem uma propriedade única—correção verificável—que permite um aprendizado por reforço eficaz sem feedback humano. Construímos o WirelessMathBench-XL, um benchmark abrangente de 4.027 problemas de 970 artigos. Usando a Otimização de Política Relativa de Grupo (GRPO) com recompensas de verificação binária, treinamos modelos diretamente a partir de checkpoints base sem aquecimento supervisionado. Nosso modelo de 7B alcança 39,5% de precisão no WirelessMathBench-XL, aproximando-se do GPT-4o (40,4%) enquanto usa cerca de 100 vezes menos parâmetros que o DeepSeek-R1 (671B, 57,4%). Notavelmente, o treinamento com GRPO quase dobra o desempenho em todas as escalas de modelo (0,5B +11%, 3B +103%, 7B +81%), com transferência positiva para benchmarks de matemática geral—nossos modelos ganham +8,4 pontos em média em MATH, Minerva-Math, OlympiadBench, AMC e AIME sem qualquer treinamento nessas tarefas.
O RL ensina habilidades genuinamente novas aos LLMs, ou ele apenas ativa habilidades já existentes? Essa questão está no cerne dos debates em curso sobre o papel do RL no pós-treinamento de LLMs. Por um lado, resultados empíricos robustos podem ser alcançados com RL mesmo sem um ajuste fino supervisionado prévio; por outro, críticos argumentam que o RL contribui pouco além de reajustar estratégias de raciocínio já existentes. Este trabalho fornece evidências concretas de que os LLMs podem adquirir habilidades genuinamente novas durante o RL ao compor habilidades existentes, refletindo um dos mecanismos centrais pelos quais os humanos adquirem novas habilidades cognitivas. Para mitigar a contaminação de dados e outros fatores de confusão, e para permitir um controle preciso sobre a complexidade das tarefas, desenvolvemos uma estrutura sintética para nossa investigação. Especificamente, definimos uma habilidade como a capacidade de inferir a saída de uma função de transformação de strings f(x) dado x. Quando um LLM já aprendeu f e g antes do RL, nossos experimentos revelam que o RL permite que ele aprenda composições não vistas delas, como h(x)=g(f(x)). Além disso, essa capacidade composicional generaliza para problemas mais difíceis, como composições de >2 funções não vistas durante o treinamento de RL. Surpreendentemente, nossos experimentos mostram que a habilidade composicional adquirida em uma tarefa de origem se transfere para uma tarefa de destino diferente. Essa transferência ocorre mesmo sem treinamento composicional no destino, exigindo apenas conhecimento prévio das habilidades atômicas da tarefa de destino. Nossa análise qualitativa mostra que o RL muda fundamentalmente os comportamentos de raciocínio dos modelos. Em contraste, o treinamento de próximo token com os mesmos dados não produz nenhum desses resultados. Nossos experimentos sistemáticos fornecem novas perspectivas sobre o aprendizado de LLMs, sugerindo o valor de primeiro construir modelos base com habilidades básicas e, em seguida, usar o RL para incentivar habilidades avançadas e generalizáveis para problemas complexos.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) para tarefas de raciocínio dependem fortemente de conjuntos de dados massivos e de alta qualidade — tipicamente anotados por humanos e, portanto, difíceis de escalar. Embora a síntese ou destilação de dados ofereça uma alternativa promissora, os métodos existentes enfrentam desafios com a inconsistência na qualidade dos dados e a incapacidade de se adaptar dinamicamente às capacidades evolutivas do modelo, resultando em sinais de treinamento subótimos. Para superar essas limitações, introduzimos o Socratic-Zero, um framework totalmente autônomo que gera dados de treinamento de alta qualidade a partir de exemplos iniciais mínimos, por meio da coevolução de três agentes: o Professor, o Solucionador e o Gerador. O Solucionador refina continuamente seu raciocínio ao aprender com feedback de preferência sobre trajetórias bem-sucedidas e falhas; o Professor cria adaptativamente questões cada vez mais desafiadoras com base nas fraquezas do Solucionador; e o Gerador destila a estratégia de design de questões do Professor para permitir a geração escalável de currículos de alta fidelidade. Esse sistema em loop fechado produz um currículo de autoaperfeiçoamento — sem a necessidade de tarefas ou rótulos pré-existentes. Notavelmente, partindo de apenas 100 questões iniciais, nosso Socratic-Solver-8B alcança um ganho médio de +20,2 pontos percentuais em relação a métodos anteriores de síntese de dados em sete benchmarks de raciocínio matemático (AMC23, AIME24-25, Olimpíada, MATH-500, Minerva e GSM8K), com ganhos consistentes tanto em modelos da série Qwen3 quanto GLM4. Ainda mais surpreendente, os dados sintéticos gerados pelo Socratic-Generator-32B permitem que LLMs estudantes atinjam desempenho superior em comparação com outros LLMs comerciais de última geração (SOTA) nesses benchmarks, incluindo Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 e Claude-4.1-Opus.
Agentes de análise de dados estão surgindo como um catalisador fundamental para a descoberta científica automatizada e para a visão de Inovação em IA. As abordagens atuais, no entanto, dependem fortemente de engenharia de prompts sobre modelos proprietários, enquanto modelos de código aberto lutam para lidar com arquivos de dados em grande escala e formatos diversos, além de raciocínios de múltiplos passos e longo horizonte que as análises do mundo real exigem. Este artigo apresenta o DataMind, uma receita escalável de síntese de dados e treinamento de agentes projetada para construir agentes generalistas de análise de dados. O DataMind aborda três desafios principais na construção de agentes de análise de dados de código aberto, incluindo recursos de dados insuficientes, estratégia de treinamento inadequada e execução instável baseada em código em múltiplas interações. Concretamente, o DataMind aplica 1) uma taxonomia de tarefas detalhada e um mecanismo de composição de tarefas recursivo do fácil para o difícil para aumentar a diversidade e a dificuldade das consultas sintetizadas; 2) uma estratégia de amostragem de trajetória aumentada por conhecimento, seguida de filtragem baseada em modelo e em regras; 3) um objetivo de treinamento ajustável dinamicamente, combinando perdas de SFT e RL; 4) um framework de execução baseado em código em múltiplas interações, econômico em memória e estável. Baseado no DataMind, criamos o DataMind-12K, um conjunto de trajetórias de alta qualidade abrangendo diversos domínios, categorias de tarefas e formatos de arquivos de dados para tarefas de análise de dados. Treinado no DataMind-12K, nosso DataMind-14B alcança o estado da arte com uma pontuação média de 71,16% em múltiplos benchmarks de análise de dados, superando os baselines proprietários mais fortes, DeepSeek-V3.1 e GPT-5. Nosso DataMind-7B também apresenta o melhor desempenho entre todos os modelos de código aberto, com uma pontuação de 68,10%. Também incorporamos algumas percepções empíricas obtidas em nossos testes exploratórios nos experimentos de análise, com o objetivo de fornecer insights acionáveis sobre o treinamento de agentes para a comunidade. Liberaremos o DataMind-12K e os modelos DataMind-7B e 14B para pesquisas futuras da comunidade.
A inteligência espacial abrange um rico conjunto de habilidades, incluindo a visualização e transformação de formas, a rotação mental de objetos, a avaliação de posições e contenções relacionais, e a estimativa de numerosidade. No entanto, ela ainda permanece um desafio crítico e não resolvido para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Para preencher essa lacuna, propomos tratar a resolução de problemas de geometria euclidiana como uma tarefa substituta. Especificamente, construímos meticulosamente um conjunto de dados multimodal curado, chamado Euclid30K, composto por aproximadamente 30 mil problemas de geometria plana e sólida. Para permitir que o modelo adquira e aplique princípios euclidianos a partir desses problemas de geometria, empregamos a Otimização de Política Relativa de Grupo (GRPO) para ajustar as famílias Qwen2.5VL e RoboBrain2.0, inspirando os modelos a identificar formas, contar e relacionar entidades, e realizar raciocínio dedutivo em múltiplos passos usando princípios euclidianos. Nossos experimentos demonstram que os modelos resultantes alcançam ganhos substanciais de zero-shot em quatro benchmarks de raciocínio espacial (Super-CLEVR, Omni3DBench, VSI-Bench e MindCube) sem qualquer adaptação específica para a tarefa. Notavelmente, após o treinamento no Euclid30K, a precisão média no VSI-Bench de todos os modelos avaliados aumentou de 34,5% para 40,5%, uma melhoria de 5,5 pontos percentuais. Entre eles, o RoboBrain2.0-Euclid-7B alcançou 49,6% de precisão, superando o modelo anteriormente considerado estado da arte, o Spatial-MLLM. Até onde sabemos, este é o primeiro estudo sistemático a mostrar que o ajuste fino centrado em geometria pode conferir aos modelos de visão e linguagem habilidades espaciais amplamente transferíveis. O código e o conjunto de dados Euclid30K podem ser encontrados em https://zgca-ai4edu.github.io/Euclids_Gift.
A personalização visual é essencial em sistemas de IA voltados para o usuário, como casas inteligentes e saúde, onde alinhar o comportamento do modelo com conceitos centrados no usuário é crucial. No entanto, os recentes Modelos de Visão e Linguagem (VLMs) de grande escala, apesar de sua ampla aplicabilidade, permanecem pouco explorados em sua capacidade de se adaptar a usuários individuais. Neste artigo, apresentamos o MMPB, o primeiro benchmark extensivo para avaliar VLMs em personalização. O MMPB compreende 10 mil pares de imagem-consulta e inclui 111 conceitos personalizáveis em quatro categorias: humanos, animais, objetos e personagens, com a categoria humana enriquecida com consultas baseadas em preferências. Estruturamos a personalização em três tipos principais de tarefas, cada uma destacando uma propriedade chave diferente dos VLMs. Utilizando 23 VLMs amplamente utilizados, incluindo modelos de código aberto e fechado, avaliamos o desempenho de personalização por meio de um protocolo de três etapas: injeção de conceitos, diálogo multi-turn e consultas personalizadas. Nossos resultados indicam que a maioria dos VLMs (incluindo alguns modelos de código fechado) enfrentam dificuldades com a personalização, particularmente em manter a consistência ao longo do diálogo, lidar com preferências do usuário e se adaptar a pistas visuais. Nossa análise revela que os desafios na personalização de VLMs (como comportamentos de recusa e esquecimento de contexto longo) destacam uma margem substancial para melhoria. Ao identificar essas limitações e oferecer um benchmark escalável, o MMPB fornece insights valiosos e uma base sólida para pesquisas futuras em direção a uma IA multimodal verdadeiramente personalizada. Página do Projeto: aidaslab.github.io/MMPB
Apresentamos o MGM-Omni, um modelo de linguagem Omni unificado para compreensão omni-modal e geração de fala expressiva e de longo horizonte. Diferente de pipelines em cascata que isolam a síntese de fala, o MGM-Omni adota um design "cérebro-boca" com uma arquitetura de trilha dupla baseada em tokens, que desacopla de forma clara o raciocínio multimodal da geração de fala em tempo real. Esse design permite interação eficiente entre modais e geração de fala em streaming com baixa latência. Para compreensão, uma estratégia de treinamento unificada, aliada a um design de codificador de áudio duplo, possibilita a percepção de áudio de longa duração em diversas condições acústicas. Para geração, um esquema de decodificação paralela baseado em chunks reduz a lacuna entre a taxa de tokens de texto e fala, acelerando a inferência e suportando clonagem de voz zero-shot em streaming com timbre estável por longos períodos. Comparado a trabalhos concorrentes, o MGM-Omni alcança essas capacidades com um treinamento notavelmente eficiente em termos de dados. Experimentos extensivos demonstram que o MGM-Omni supera modelos de código aberto existentes na preservação da identidade do timbre em sequências estendidas, na produção de fala natural e contextualmente consciente, e na obtenção de uma compreensão superior de áudio de longa duração e omni-modal. O MGM-Omni estabelece um paradigma eficiente e de ponta a ponta para compreensão omni-modal e geração de fala controlável e personalizada de longo horizonte.
A Estimação de Profundidade Monocular (MDE) é uma tarefa fundamental para a visão computacional. Métodos tradicionais são limitados pela escassez e qualidade dos dados, prejudicando sua robustez. Para superar isso, propomos o BRIDGE, um framework de geração de imagem a partir de profundidade (D2I) otimizado por RL que sintetiza mais de 20 milhões de imagens RGB realistas e geometricamente precisas, cada uma intrinsecamente pareada com sua profundidade de referência, a partir de mapas de profundidade diversos. Em seguida, treinamos nosso modelo de estimação de profundidade nesse conjunto de dados, empregando uma estratégia de supervisão híbrida que integra pseudo-rótulos de um modelo professor com a profundidade de referência para um treinamento abrangente e robusto. Esse paradigma inovador de geração de dados e treinamento permite que o BRIDGE alcance avanços em escala e diversidade de domínio, superando consistentemente as abordagens state-of-the-art existentes tanto quantitativamente quanto na captura de detalhes de cenas complexas, promovendo assim características de profundidade gerais e robustas. O código e os modelos estão disponíveis em https://dingning-liu.github.io/bridge.github.io/.
O Raciocínio Integrado a Ferramentas (TIR) permite que grandes modelos de linguagem (LLMs) melhorem sua capacidade de raciocínio interno ao integrar ferramentas externas. No entanto, modelos que empregam TIR frequentemente exibem comportamentos subótimos, como uso insuficiente ou excessivo de ferramentas e excesso de reflexão após chamadas de ferramentas. O desafio de incentivar LLMs a realizar TIR de forma eficiente e precisa, enquanto estabiliza o processo de raciocínio, permanece uma questão em aberto. Neste artigo, começamos explorando o impacto das chamadas de ferramentas no raciocínio do modelo a partir da perspectiva da entropia da informação. Nossos achados indicam que os resultados das chamadas de ferramentas levam a uma mudança distinta na entropia da informação do raciocínio subsequente, com a entropia geral da cadeia de raciocínio variando com base no número de chamadas de ferramentas. Com base nessas descobertas, propomos o Tool-Light, um framework projetado para encorajar LLMs a realizar TIR de forma eficiente e precisa. Nosso framework inclui a construção de conjuntos de dados e ajuste fino em múltiplas etapas. Para a construção do conjunto de dados, empregamos amostragem contínua autoevolutiva usando o modelo ajustado, integrando tanto amostragem simples quanto amostragem guiada por entropia. Além disso, estabelecemos critérios rigorosos para a seleção de pares positivo-negativos durante a amostragem. O processo de treinamento envolve uma abordagem em duas etapas, compreendendo Ajuste Fino Supervisionado (SFT) e Otimização de Preferência Direta Autoevolutiva (DPO). Resultados experimentais em 10 conjuntos de dados demonstram a eficácia do Tool-Light, melhorando significativamente a eficiência do modelo na execução de tarefas TIR.
Modelos de grande escala visão-linguagem (LVLMs, do inglês Large Vision-Language Models) alcançam um desempenho robusto em tarefas multimodais, mas frequentemente recorrem ao seu prior linguístico (LP, do inglês Language Prior) — padrões textuais memorizados durante o pré-treinamento — subutilizando evidências visuais. Análises anteriores do LP baseiam-se principalmente em sondagens de entrada-saída, que falham em revelar os mecanismos internos que governam quando e como a visão influencia o comportamento do modelo. Para preencher essa lacuna, apresentamos a primeira análise sistemática do prior linguístico através da lente da cadeia de embeddings, que examina a dinâmica das representações camada por camada dentro dos LVLMs. Nossa análise revela um fenômeno universal: cada modelo exibe um Ponto de Integração Visual (VIP, do inglês Visual Integration Point), uma camada crítica na qual a informação visual começa a remodelar significativamente as representações ocultas e a influenciar a decodificação. Com base nessa observação, introduzimos o estimador de Integração Visual Total (TVI, do inglês Total Visual Integration), que agrega a distância das representações além do VIP para quantificar o quão fortemente a consulta visual influencia a geração de respostas. Em 54 combinações de modelo-conjunto de dados, abrangendo 9 LVLMs contemporâneos e 6 benchmarks, demonstramos que o VIP emerge consistentemente e que o TVI prevê de forma confiável a força do prior linguístico. Isso oferece um conjunto de ferramentas fundamentado para diagnosticar e compreender o prior linguístico em LVLMs.
O processamento de sequências longas é uma capacidade crítica para os modernos modelos de linguagem de grande escala. No entanto, o mecanismo de auto-atenção na arquitetura padrão do Transformer enfrenta sérios gargalos computacionais e de memória ao processar sequências longas. Embora os métodos de atenção esparsa treináveis ofereçam uma solução promissora, abordagens existentes, como a NSA, introduzem parâmetros extras excessivos e perturbam o fluxo de trabalho convencional de pré-treinamento em sequências curtas e ajuste fino em sequências longas, resultando em convergência lenta e dificuldade de aceleração. Para superar essas limitações, introduzimos uma estrutura de atenção comutável densa-esparsa, denominada InfLLM-V2. O InfLLM-V2 é uma atenção esparsa treinável que adapta os modelos de forma contínua de sequências curtas para longas. Especificamente, o InfLLM-V2 reutiliza parâmetros de atenção densa por meio de modificações arquitetônicas sem parâmetros, mantendo a consistência entre o processamento de sequências curtas e longas. Além disso, o InfLLM-V2 garante eficiência computacional em todos os comprimentos de sequência, utilizando atenção densa para entradas curtas e transicionando suavemente para atenção esparsa em sequências longas. Para alcançar aceleração prática, introduzimos ainda uma implementação eficiente do InfLLM-V2 que reduz significativamente a sobrecarga computacional. Nossos experimentos em compreensão de contexto longo e raciocínio em cadeia de pensamento demonstram que o InfLLM-V2 é 4 vezes mais rápido que a atenção densa, mantendo 98,1% e 99,7% do desempenho, respectivamente. Com base na estrutura InfLLM-V2, treinamos e disponibilizamos publicamente o MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), um modelo de raciocínio híbrido, fornecendo uma implementação reproduzível para a comunidade de pesquisa.
Agentes de interface gráfica (GUI) baseados em modelos visão-linguagem (VLM) mostram potencial para automatizar tarefas complexas em desktops e dispositivos móveis, mas enfrentam desafios significativos na aplicação de aprendizado por reforço (RL): (1) interações multiturno lentas com ambientes de GUI para execução de políticas, e (2) interações insuficientes de alta qualidade entre agente e ambiente para aprendizado de políticas. Para abordar esses desafios, propomos o DART, um framework de Treinamento de RL Agêntico Desacoplado para agentes de GUI, que coordena módulos heterogêneos de maneira altamente desacoplada. O DART separa o sistema de treinamento em quatro módulos assíncronos: cluster de ambiente, serviço de execução, gerenciador de dados e treinador. Esse design permite comunicação não bloqueante, treinamento assíncrono, amostragem de trajetórias por execução e sincronização de modelos por worker, melhorando significativamente a eficiência do sistema: 1,6* de utilização de GPU para execução, 1,9* de taxa de transferência de treinamento e 5,5* de utilização do ambiente. Para facilitar o aprendizado eficaz a partir de amostras abundantes, introduzimos um esquema de curadoria de dados adaptativo: (1) pré-coleta de trajetórias bem-sucedidas para tarefas desafiadoras, complementando o sucesso esparso na amostragem online; (2) ajuste dinâmico do número de execuções e comprimentos de trajetórias com base na dificuldade da tarefa; (3) treinamento seletivo em etapas de alta entropia para priorizar decisões críticas; (4) estabilização do aprendizado via amostragem de importância truncada para descompasso de políticas entre execução e atualização. No benchmark OSWorld, o DART-GUI-7B alcança uma taxa de sucesso de tarefas de 42,13%, um ganho absoluto de 14,61% sobre o modelo base e 7,34% superior ao SOTA de código aberto. Disponibilizaremos integralmente nosso framework de treinamento, dados e checkpoints de modelo em computer-use-agents.github.io/dart-gui, o que acreditamos ser uma contribuição oportuna para a comunidade de código aberto de treinamento de RL agêntico.
Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) atuais são poderosos solucionadores de problemas em diversos domínios e continuam a se fortalecer à medida que escalam em tamanho de modelo, tamanho do conjunto de treinamento e qualidade do conjunto de treinamento, conforme demonstrado por extensas pesquisas e experimentações em toda a indústria. Treinar um modelo de ponta hoje requer da ordem de dezenas a centenas de yottaflops, o que representa um investimento massivo de tempo, capacidade computacional e energia. Portanto, melhorar a eficiência do pré-treinamento é essencial para viabilizar a próxima geração de LLMs ainda mais capazes. Embora o treinamento em ponto flutuante de 8 bits (FP8) seja amplamente adotado atualmente, a transição para precisões ainda mais estreitas, como o ponto flutuante de 4 bits (FP4), poderia desbloquear melhorias adicionais em velocidade computacional e utilização de recursos. No entanto, a quantização nesse nível apresenta desafios para a estabilidade do treinamento, convergência e implementação, especialmente para modelos de grande escala treinados em horizontes longos de tokens. Neste estudo, introduzimos uma abordagem inovadora para o treinamento estável e preciso de modelos de linguagem de grande escala (LLMs) utilizando o formato NVFP4. Nosso método integra transformadas de Hadamard aleatórias (RHT) para limitar outliers em nível de bloco, emprega um esquema de quantização bidimensional para representações consistentes tanto na passagem direta quanto na passagem reversa, utiliza arredondamento estocástico para estimativa imparcial de gradientes e incorpora camadas seletivas de alta precisão. Validamos nossa abordagem treinando um modelo de 12 bilhões de parâmetros em 10 trilhões de tokens — o treinamento mais longo documentado publicamente em precisão de 4 bits até o momento. Nossos resultados mostram que o modelo treinado com nossa técnica de pré-treinamento baseada em NVFP4 alcança perda de treinamento e acurácias em tarefas subsequentes comparáveis a uma linha de base em FP8. Esses achados destacam que o NVFP4, quando combinado com nossa abordagem de treinamento, representa um grande avanço nos algoritmos de treinamento de LLMs em precisão estreita.
Apresentamos o SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, uma abordagem simples, porém eficaz de Aprendizado por Reforço (RL) para Modelos de Raciocínio de Grande Escala (LRMs) que possibilita um raciocínio mais eficiente e preciso. Estudos existentes observaram padrões de pensamento repetitivos em LRMs, e tentativas de reduzi-los frequentemente resultam em perda de desempenho. Neste artigo, demonstramos que essa compensação pode ser superada por meio de um regime de treinamento que alterna iterativamente entre comprimir e expandir o orçamento de raciocínio, ajustando dinamicamente o comprimento máximo de rollout durante o treinamento. A fase de compressão reduz o comprimento do rollout, forçando o modelo a tomar decisões precisas e valiosas dentro de um contexto limitado, o que efetivamente reduz tokens redundantes e aumenta a densidade de raciocínio. A fase de expansão, por sua vez, relaxa o limite de comprimento, proporcionando espaço para o modelo explorar e planejar em cenários de longo horizonte. Notavelmente, observamos que após cada ciclo de compressão-expansão, o desempenho do modelo melhora mesmo com a redução do comprimento de sua saída, aproximando-o progressivamente da fronteira de Pareto na compensação entre desempenho e eficiência. Ao treinar no DeepSeek-R1-Distill-Qwen-1.5B, o SIRI-low melhora o desempenho no AIME24 em 43,2% enquanto reduz o uso de tokens em 46,9% após três iterações, e o SIRI-high alcança a maior precisão em comparação com todos os outros métodos (Figura 1). Nossas descobertas destacam o potencial de oscilar periodicamente o comprimento de truncamento da saída do LRM durante o treinamento para equilibrar dinamicamente exploração e eficiência no raciocínio, convergindo para um "ponto ideal" entre os dois. Nossos modelos estão publicamente disponíveis.
O Escalonamento em Tempo de Teste (TTS) aprimora a capacidade de raciocínio de modelos de linguagem de grande escala (LLMs) ao alocar computação adicional durante a inferência. No entanto, as abordagens existentes dependem principalmente da amostragem no nível de saída, negligenciando o papel da arquitetura do modelo. Em LLMs convencionais baseados em Mistura de Especialistas (MoE), observamos que variar o número de especialistas ativados produz conjuntos de soluções complementares com precisão estável, revelando uma nova e pouco explorada fonte de diversidade. Motivados por essa observação, propomos a Busca Dinâmica de Especialistas (DES), uma estratégia de TTS que eleva a ativação de especialistas a uma dimensão controlável do espaço de busca. O DES integra dois componentes principais: (1) MoE Dinâmico, que permite o controle direto do número de especialistas durante a inferência para gerar trajetórias de raciocínio diversas sem custo adicional; e (2) Herança de Configuração de Especialistas, que preserva contagens consistentes de especialistas em um caminho de raciocínio, variando-as entre execuções, equilibrando assim estabilidade e diversidade ao longo da busca. Experimentos extensivos em arquiteturas MoE, verificadores e benchmarks de raciocínio (ou seja, matemática, código e conhecimento) demonstram que o DES supera consistentemente as abordagens de TTS existentes, melhorando a precisão e a estabilidade sem custo adicional. Esses resultados destacam o DES como uma forma prática e escalável de TTS consciente da arquitetura, ilustrando como a flexibilidade estrutural em LLMs modernos pode avançar o raciocínio.
Agentes de Modelos de Linguagem de Grande Escala (LLM), que integram módulos de planejamento, memória, reflexão e uso de ferramentas, têm mostrado potencial na resolução de tarefas complexas e de múltiplas etapas. No entanto, suas arquiteturas sofisticadas ampliam a vulnerabilidade a falhas em cascata, onde um único erro de causa raiz se propaga por decisões subsequentes, levando à falha da tarefa. Os sistemas atuais carecem de uma estrutura que possa compreender de forma abrangente os erros dos agentes de maneira modular e sistêmica e, portanto, falham em detectar esses erros adequadamente. Abordamos essa lacuna com três contribuições. Primeiro, introduzimos a AgentErrorTaxonomy, uma classificação modular de modos de falha que abrangem operações de memória, reflexão, planejamento, ação e nível de sistema. Segundo, construímos o AgentErrorBench, o primeiro conjunto de dados de trajetórias de falhas anotadas sistematicamente do ALFWorld, GAIA e WebShop, fundamentando a análise de erros em execuções reais de agentes. Terceiro, propomos o AgentDebug, uma estrutura de depuração que isola falhas de causa raiz e fornece feedback corretivo, permitindo que os agentes se recuperem e melhorem iterativamente. Experimentos no AgentErrorBench mostram que o AgentDebug alcança uma precisão de acertos totais 24% maior e uma precisão de etapas 17% maior em comparação com a linha de base mais forte. Além da detecção, o feedback direcionado gerado pelo AgentDebug permite que os agentes LLM se recuperem iterativamente de falhas, resultando em melhorias relativas de até 26% no sucesso da tarefa em ALFWorld, GAIA e WebShop. Esses resultados estabelecem a depuração fundamentada como um caminho para agentes LLM mais confiáveis e adaptáveis. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/AgentDebug.
Apresentamos uma nova abordagem para a destilação de modelos de linguagem de grande escala (LLM) ao formulá-la como um problema de aprendizado por reforço com restrições. Embora trabalhos recentes tenham começado a explorar a integração de recompensas específicas à tarefa em processos de destilação, os métodos existentes geralmente dependem de ponderação de recompensas ad-hoc. Propomos um framework de otimização fundamentado que maximiza as recompensas específicas da tarefa enquanto restringe a divergência do modelo professor a permanecer abaixo de um limite especificado. Nossa abordagem adapta o aprendizado por reforço com aumento de estado e restrições ao cenário de destilação, introduzindo uma função de recompensa modificada que mantém garantias teóricas de satisfação das restrições sem exigir aumento de estado ou acesso ao modelo professor durante a implantação, e sem a sobrecarga computacional dos métodos duais de Lagrange. Por meio de experimentos extensos em tarefas de raciocínio matemático, demonstramos que nosso método alcança melhores taxas de satisfação das restrições e melhor raciocínio em comparação com as linhas de base de relaxação suave de Lagrange, mantendo um desempenho competitivo nas tarefas. Nosso framework oferece uma solução teoricamente fundamentada e praticamente eficiente para destilação com consciência de recompensa em cenários com recursos limitados.
Progressos recentes, como o DeepSeek-R1, demonstraram que o algoritmo GRPO, uma abordagem de Aprendizado por Reforço (RL), pode efetivamente treinar o raciocínio em Cadeia de Pensamentos (CoT) em Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem e Visão (VLMs). Neste artigo, analisamos três desafios do GRPO: o acoplamento de gradientes entre pensamentos e respostas, os sinais de recompensa esparsa causados pela amostragem paralela limitada e a estimativa instável de vantagem. Para mitigar esses desafios, propomos o GRPO-MA, um método simples, mas teoricamente fundamentado, que aproveita a geração de múltiplas respostas a partir de cada processo de pensamento, permitindo uma otimização mais robusta e eficiente. Teoricamente, mostramos que a variância da vantagem do pensamento diminui à medida que o número de respostas por pensamento aumenta. Empiricamente, nossa análise de gradiente confirma esse efeito, mostrando que o GRPO-MA reduz os picos de gradiente em comparação com o GRPO. Experimentos em tarefas de matemática, código e diversas tarefas multimodais demonstram que o GRPO-MA melhora substancialmente o desempenho e a eficiência do treinamento. Nossos estudos de ablação revelam ainda que aumentar o número de respostas por pensamento melhora consistentemente o desempenho do modelo.
Modelos de linguagem de raciocínio recentes (RLMs), especialmente aqueles treinados com aprendizado por reforço baseado em verificador, frequentemente apresentam desempenho pior com poucos exemplos de Chain-of-Thought (CoT) do que com respostas diretas. Revisitamos esse paradoxo utilizando traços de raciocínio de alta qualidade do DeepSeek-R1 como demonstrações e descobrimos que adicionar mais exemplos consistentemente degrada a precisão, mesmo quando as demonstrações são ótimas. Uma análise detalhada revela dois mecanismos por trás desse declínio: (i) desorientação semântica, onde a alta similaridade textual leva o modelo a tratar o alvo como igual ao exemplo e a copiar passos intermediários literalmente; e (ii) falha na transferência de estratégia, onde o modelo luta para extrair estratégias de raciocínio úteis e aplicá-las a questões-alvo. Guiados por esses insights, introduzimos o Insight-to-Solve (I2S), um procedimento sequencial em tempo de teste que transforma demonstrações em insights explícitos e reutilizáveis e deriva um traço de raciocínio específico para o alvo; opcionalmente, o raciocínio é auto-refinado para coerência e correção (I2S+). Experimentos extensos em diversos benchmarks mostram que I2S e I2S+ consistentemente superam tanto respostas diretas quanto baselines de escalonamento em tempo de teste em modelos de código aberto e fechado. Mesmo para modelos GPT, nosso método ajuda: no AIME'25, o GPT-4.1 aumenta em +14,0%, e o o1-mini melhora em +2,7% no AIME e +1,7% no GPQA, indicando que demonstrações em contexto podem ser aproveitadas efetivamente por meio do framework insight-refine-solve.
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) visa mitigar alucinações em modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) ao fundamentar as respostas em documentos recuperados. No entanto, LLMs baseados em RAG ainda apresentam alucinações mesmo quando fornecidos com contexto correto e suficiente. Uma linha crescente de pesquisas sugere que isso decorre de um desequilíbrio entre como os modelos utilizam o contexto externo e seu conhecimento interno, e várias abordagens têm tentado quantificar esses sinais para a detecção de alucinações. No entanto, os métodos existentes exigem um extenso ajuste de hiperparâmetros, limitando sua generalizabilidade. Propomos o LUMINA, uma estrutura inovadora que detecta alucinações em sistemas RAG por meio de sinais de contexto-conhecimento: a utilização do contexto externo é quantificada por meio de distância distribucional, enquanto a utilização do conhecimento interno é medida rastreando como os tokens previstos evoluem através das camadas do transformador. Além disso, introduzimos uma estrutura para validar estatisticamente essas medições. Experimentos em benchmarks comuns de alucinação em RAG e quatro LLMs de código aberto mostram que o LUMINA alcança consistentemente altas pontuações de AUROC e AUPRC, superando métodos anteriores baseados em utilização em até +13% de AUROC no HalluRAG. Adicionalmente, o LUMINA mantém-se robusto sob suposições relaxadas sobre a qualidade da recuperação e correspondência do modelo, oferecendo tanto eficácia quanto praticidade.
As Video Joint Embedding Predictive Architectures (V-JEPA) aprendem representações de vídeo generalizáveis e prontas para uso ao prever regiões mascaradas no espaço latente com um professor atualizado por média móvel exponencial (EMA). Embora o EMA evite o colapso da representação, ele complica a seleção escalável de modelos e acopla as arquiteturas do professor e do aluno. Revisitamos a previsão de latentes mascarados e mostramos que um professor congelado é suficiente. Concretamente, nós (i) treinamos um codificador alvo com um objetivo simples de reconstrução de pixels sob o mascaramento V-JEPA, então (ii) o congelamos e treinamos um aluno para prever os latentes do professor em regiões mascaradas. Isso leva a um esquema de duas etapas e não regularizado que chamamos de SALT (Static-teacher Asymmetric Latent Training). O SALT desacopla a otimização em reconstrução de pixels (professor) e previsão de latentes mascarados (aluno), aumentando a transparência, eficiência e escalabilidade, enquanto preserva a capacidade da representação de generalizar sob avaliação congelada. Empiricamente, nossos modelos de aluno superam os codificadores V-JEPA 2 recentemente propostos sob avaliação de backbone congelada em diversos benchmarks. Eles também são mais otimizados em termos de computação: com FLOPs de pré-treinamento equivalentes, nosso método alcança maior precisão de sondagem, e suas curvas de escalonamento dominam a fronteira de Pareto de precisão-FLOPs do V-JEPA. Por fim, descobrimos que a qualidade do aluno é notavelmente robusta à qualidade do professor: alunos de alto desempenho surgem mesmo com professores pequenos e sub-ótimos. Isso aponta para uma alocação de orçamento de computação que deve favorecer massivamente o aluno. Esses resultados posicionam o SALT como uma alternativa simples, escalável e computacionalmente eficiente à auto-distilação baseada em EMA para aprendizado de representação de vídeo.
O ajuste fino de modelos de linguagem pré-treinados de grande escala (LLMs) para tarefas específicas é uma etapa crucial no pipeline de implantação de IA. O aprendizado por reforço (RL) é, sem dúvida, o método de ajuste fino mais proeminente, contribuindo para o surgimento de muitos LLMs de última geração. Em contraste, as estratégias evolutivas (ES), que já demonstraram desempenho comparável ao RL em modelos com alguns milhões de parâmetros, foram negligenciadas devido à percepção pessimista de sua escalabilidade para modelos maiores. Neste trabalho, relatamos a primeira tentativa bem-sucedida de escalar as ES para o ajuste fino de todos os parâmetros de LLMs, mostrando o fato surpreendente de que as ES podem buscar eficientemente em bilhões de parâmetros e superar os métodos de ajuste fino baseados em RL em múltiplos aspectos, incluindo eficiência amostral, tolerância a recompensas de longo prazo, robustez a diferentes LLMs base, menor tendência à manipulação de recompensas e desempenho mais estável entre execuções. Portanto, isso serve como base para desbloquear uma nova direção no ajuste fino de LLMs além do que as técnicas atuais de RL oferecem. Os códigos-fonte são fornecidos em: https://github.com/VsonicV/es-fine-tuning-paper.
À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais aplicados ao raciocínio científico, a complexidade dos formatos de resposta e a diversidade de expressões equivalentes tornam a verificação de respostas uma tarefa crítica, porém desafiadora. Os estudos de verificação existentes em domínios científicos sofrem de duas grandes limitações: (a) a ausência de padrões sistemáticos de avaliação e cobertura disciplinar insuficiente, o que dificulta sua avaliação abrangente; e (b) a forte dependência de projetos de regras complexas ou engenharia de prompts, o que reduz sua eficácia em cenários de raciocínio complexo ou limita sua generalização interdisciplinar. Para enfrentar esses desafios, propomos soluções tanto no nível dos dados quanto no nível do modelo. No lado dos dados, construímos o SCI-VerifyBench, um benchmark interdisciplinar que abrange matemática, física, biologia, química e perguntas e respostas científicas gerais. O benchmark é construído a partir de respostas reais de LLMs e aprimorado com transformações de equivalência específicas do domínio, gerando dados desafiadores e realistas. Anotações baseadas em modelos e especialistas garantem qualidade e diversidade, permitindo uma avaliação rigorosa da capacidade de verificação. No lado do modelo, enfatizamos a importância do raciocínio para verificação e introduzimos o SCI-Verifier, um verificador unificado e aprimorado por raciocínio para domínios científicos. Por meio de pós-treinamento, o SCI-Verifier demonstra fortes capacidades de raciocínio lógico e julgamento de equivalência, mantendo saídas concisas e estáveis. Juntos, o SCI-VerifyBench e o SCI-Verifier fornecem uma estrutura fundamentada para verificação científica, oferecendo tanto avaliação sistemática quanto caminhos práticos para aprimorar a confiabilidade e a aplicabilidade dos LLMs em domínios científicos.
O feedback humano desempenha um papel fundamental no alinhamento de grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, esse feedback frequentemente é ruidoso ou inconsistente, o que pode degradar a qualidade dos modelos de recompensa e dificultar o alinhamento. Embora diversos métodos automatizados de limpeza de dados tenham sido propostos para mitigar esse problema, ainda falta uma avaliação sistemática de sua eficácia e generalizabilidade. Para preencher essa lacuna, introduzimos o primeiro benchmark abrangente para avaliar 13 métodos de limpeza de dados de preferência no contexto do alinhamento de LLMs. O PrefCleanBench oferece um protocolo padronizado para avaliar estratégias de limpeza em termos de desempenho de alinhamento e generalizabilidade em diversos conjuntos de dados, arquiteturas de modelos e algoritmos de otimização. Ao unificar métodos distintos e compará-los rigorosamente, descobrimos fatores-chave que determinam o sucesso da limpeza de dados em tarefas de alinhamento. Esse benchmark estabelece as bases para abordagens fundamentadas e reproduzíveis de melhoria do alinhamento de LLMs por meio de uma melhor qualidade dos dados, destacando o papel crucial, mas pouco explorado, do pré-processamento de dados no desenvolvimento responsável de IA. Disponibilizamos implementações modulares de todos os métodos para catalisar novas pesquisas: https://github.com/deeplearning-wisc/PrefCleanBench.
Modelos de linguagem de difusão mascarada (MDLMs, na sigla em inglês) surgiram recentemente como uma alternativa promissora aos modelos de linguagem autoregressivos (AR), oferecendo propriedades como decodificação paralela, ordens de geração flexíveis e o potencial para menos etapas de inferência. Apesar dessas vantagens, estratégias de decodificação e algoritmos de aprendizado por reforço (RL, na sigla em inglês) adaptados para MDLMs ainda são pouco explorados. Uma abordagem ingênua é transferir diretamente técnicas bem estabelecidas para modelos AR para MDLMs. No entanto, isso levanta uma questão imediata: essa transferência ingênua é realmente ideal? Por exemplo, 1) Estratégias de decodificação em blocos e semi-AR não são empregadas durante o treinamento de MDLMs, então por que elas superam a decodificação completa no estilo de difusão durante a inferência? 2) A aplicação direta de algoritmos de RL projetados para modelos AR em MDLMs exibe uma inconsistência entre treinamento e inferência, já que a decodificação de MDLMs é não-causal (paralela). Isso resulta em inconsistências entre a trajetória de execução e a trajetória de otimização. Para enfrentar esses desafios, propomos o EOS Early Rejection (EOSER) e o Ascending Step-Size (ASS) como agendadores de decodificação, que desbloqueiam o potencial dos MDLMs para realizar decodificação completa no estilo de difusão, alcançando desempenho competitivo com menos etapas de decodificação. Além disso, introduzimos o Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) para domar MDLMs, que enfatiza a consistência entre a trajetória de execução e a trajetória de otimização, e reduz os erros de otimização causados pela otimização de etapas puladas. Realizamos experimentos extensos em tarefas de raciocínio, como benchmarks matemáticos e de planejamento, utilizando o LLaDA-8B-Instruct. Os resultados demonstram que os mecanismos propostos EOSER e ASS, juntamente com o CJ-GRPO, mostram grande potencial para domar MDLMs de forma eficaz e eficiente. Código: https://github.com/yjyddq/EOSER-ASS-RL.
Apresentamos o DafnyCOMP, um benchmark para avaliar modelos de linguagem de grande escala (LLMs) na geração de especificações composicionais em Dafny. Diferente de benchmarks anteriores que se concentram em tarefas de função única, o DafnyCOMP visa programas compostos por múltiplas funções interativas com dependências de dados, exigindo raciocínio além dos limites dos componentes. O benchmark consiste em 300 programas multifuncionais sintetizados automaticamente. Avaliamos várias famílias de LLMs de ponta e constatamos que, embora tenham um bom desempenho na verificação de função única, seu desempenho cai drasticamente em tarefas composicionais. A análise revela falhas sistemáticas no raciocínio cross-funcional, incluindo especificações frágeis, desalinhamento entre implementações e provas, e raciocínio instável. O DafnyCOMP, portanto, fornece uma ferramenta diagnóstica para medir o progresso em direção à geração de código confiável, verificável e composicional com LLMs.
Modelos de linguagem visual (VLMs) podem abordar de forma flexível diversas tarefas visuais por meio de interações textuais. Embora bem-sucedidos na compreensão semântica, VLMs de última geração, incluindo o GPT-5, ainda enfrentam dificuldades para entender informações 3D a partir de entradas 2D. Por outro lado, modelos especializados puramente visuais alcançam precisão sobre-humana na estimativa de profundidade métrica, uma tarefa fundamental para a compreensão 3D. No entanto, eles exigem arquiteturas e funções de perda específicas para cada tarefa. Essa diferença nos motiva a perguntar: VLMs podem atingir precisão de nível especialista sem alterações na arquitetura ou na função de perda? Tomamos a estimativa de profundidade métrica por pixel como tarefa representativa e mostramos que a resposta é sim! Surpreendentemente, uma análise abrangente revela que o ajuste fino supervisionado baseado em texto com rótulos esparsos é suficiente para que VLMs desbloqueiem uma forte compreensão 3D, sem a necessidade de cabeças de predição densa ou funções de perda complexas de regressão/regularização. O gargalo para VLMs está, na verdade, na referência de pixels e na ambiguidade de câmeras entre conjuntos de dados, que abordamos por meio de *prompting* visual e aumento condicionado intrínseco. Com modelos muito menores, nosso método DepthLM supera a precisão da maioria dos VLMs avançados em mais de 2x, tornando VLMs comparáveis pela primeira vez a modelos puramente visuais. Curiosamente, sem imposição explícita durante o treinamento, VLMs treinados com DepthLM evitam naturalmente o excesso de suavização, apresentando muito menos pontos flutuantes em regiões de borda do que modelos puramente visuais. A simplicidade do DepthLM também permite que um único VLM cubra diversas tarefas 3D além da estimativa de profundidade métrica. Nosso código e modelo serão disponibilizados no link abaixo.
A geração de imagens com múltiplos sujeitos visa sintetizar os sujeitos fornecidos pelo usuário em uma única imagem, preservando a fidelidade dos sujeitos, garantindo a consistência do prompt e alinhando-se às preferências estéticas humanas. No entanto, os métodos existentes, particularmente aqueles baseados no paradigma de Aprendizado em Contexto (In-Context-Learning), são limitados por sua dependência de objetivos simples baseados em reconstrução, resultando tanto em vazamento severo de atributos que compromete a fidelidade dos sujeitos quanto em falhas para alinhar-se às nuances das preferências humanas. Para resolver isso, propomos o MultiCrafter, um framework que garante geração de alta fidelidade e alinhada às preferências. Primeiro, descobrimos que a causa raiz do vazamento de atributos é um emaranhamento significativo da atenção entre diferentes sujeitos durante o processo de geração. Portanto, introduzimos supervisão posicional explícita para separar claramente as regiões de atenção para cada sujeito, mitigando efetivamente o vazamento de atributos. Para permitir que o modelo planeje com precisão a região de atenção de diferentes sujeitos em cenários diversos, empregamos uma arquitetura de Mistura de Especialistas (Mixture-of-Experts) para aumentar a capacidade do modelo, permitindo que diferentes especialistas se concentrem em diferentes cenários. Por fim, projetamos um novo framework de aprendizado por reforço online para alinhar o modelo às preferências humanas, apresentando um mecanismo de pontuação para avaliar com precisão a fidelidade de múltiplos sujeitos e uma estratégia de treinamento mais estável adaptada à arquitetura MoE. Experimentos validam que nosso framework melhora significativamente a fidelidade dos sujeitos enquanto se alinha melhor às preferências humanas.
Os modelos de difusão texto-imagem existentes se destacam na geração de imagens de alta qualidade, mas enfrentam desafios significativos de eficiência quando escalonados para resoluções elevadas, como a geração de imagens em 4K. Embora pesquisas anteriores acelerem modelos de difusão em vários aspectos, raramente lidam com a redundância inerente ao espaço latente. Para preencher essa lacuna, este artigo introduz o DC-Gen, um framework geral que acelera modelos de difusão texto-imagem ao aproveitar um espaço latente profundamente comprimido. Em vez de uma abordagem custosa de treinamento do zero, o DC-Gen utiliza um pipeline eficiente de pós-treinamento para preservar a qualidade do modelo base. Um desafio central nesse paradigma é a lacuna de representação entre o espaço latente do modelo base e um espaço latente profundamente comprimido, o que pode levar à instabilidade durante o ajuste fino direto. Para superar isso, o DC-Gen primeiro preenche a lacuna de representação com um treinamento leve de alinhamento de embeddings. Uma vez que os embeddings latentes estão alinhados, apenas uma pequena quantidade de ajuste fino com LoRA é necessária para desbloquear a qualidade de geração inerente do modelo base. Verificamos a eficácia do DC-Gen no SANA e no FLUX.1-Krea. Os modelos resultantes, DC-Gen-SANA e DC-Gen-FLUX, alcançam qualidade comparável aos seus modelos base, mas com um ganho significativo de velocidade. Especificamente, o DC-Gen-FLUX reduz a latência na geração de imagens 4K em 53x na GPU NVIDIA H100. Quando combinado com o NVFP4 SVDQuant, o DC-Gen-FLUX gera uma imagem 4K em apenas 3,5 segundos em uma única GPU NVIDIA 5090, alcançando uma redução total de latência de 138x em comparação ao modelo base FLUX.1-Krea. Código: https://github.com/dc-ai-projects/DC-Gen.
Os LLMs (Large Language Models) aprimorados por busca frequentemente enfrentam dificuldades em tarefas de raciocínio complexo devido à recuperação ineficaz de múltiplos saltos e à capacidade limitada de raciocínio. Propomos o AceSearcher, uma estrutura de autojogo cooperativo que treina um único LLM para alternar entre dois papéis: um decompositor que divide consultas complexas e um resolvedor que integra contextos recuperados para a geração de respostas. O AceSearcher combina ajuste fino supervisionado em uma mistura diversificada de tarefas de busca, raciocínio e decomposição com ajuste fino por reforço otimizado para a precisão da resposta final, eliminando a necessidade de anotações intermediárias. Experimentos extensivos em três tarefas intensivas em raciocínio, abrangendo 10 conjuntos de dados, mostram que o AceSearcher supera os modelos de última geração, alcançando uma melhoria média de 7,6% na correspondência exata. Notavelmente, em tarefas de raciocínio financeiro em nível de documento, o AceSearcher-32B iguala o desempenho do modelo DeepSeek-V3 usando menos de 5% de seus parâmetros. Mesmo em escalas menores (1,5B e 8B), o AceSearcher frequentemente supera os LLMs aprimorados por busca existentes com até 9 vezes mais parâmetros, destacando sua eficiência e eficácia excepcionais no enfrentamento de tarefas de raciocínio complexo. Nosso código será publicado em https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.
Modelos autoregressivos (AR) são promissores para geração de imagens, mas as variantes de tokens contínuos de AR frequentemente ficam atrás de modelos de difusão latente e geração mascarada. O problema central é a variância heterogênea nos latentes de VAEs, que é amplificada durante a decodificação AR, especialmente sob orientação livre de classificador (CFG), e pode causar colapso de variância. Propomos o SphereAR para resolver esse problema. Seu design central é restringir todas as entradas e saídas AR — incluindo após CFG — a permanecerem em uma hiperesfera de raio fixo (norma ell_2 constante), aproveitando VAEs hiperesféricos. Nossa análise teórica mostra que a restrição hiperesférica remove o componente de escala (a principal causa do colapso de variância), estabilizando assim a decodificação AR. Empiricamente, na geração de ImageNet, o SphereAR-H (943M) estabelece um novo estado da arte para modelos AR, alcançando FID 1.34. Mesmo em escalas menores, o SphereAR-L (479M) atinge FID 1.54 e o SphereAR-B (208M) alcança 1.92, igualando ou superando baselines muito maiores, como MAR-H (943M, 1.55) e VAR-d30 (2B, 1.92). Até onde sabemos, esta é a primeira vez que um gerador de imagens AR puro de próximo token com ordem raster supera modelos de difusão e geração mascarada em escalas de parâmetros comparáveis.
A compreensão de vídeos longos ainda é um desafio para os recentes Modelos de Vídeo-Linguagem de Grande Escala (LVLMs, na sigla em inglês) devido ao conflito entre a compreensão temporal de longa duração e a percepção espacial detalhada. LVLMs com um mecanismo de amostragem uniforme de quadros, que amostra quadros com tamanho igual e taxa de amostragem fixa, inevitavelmente sacrificam pistas temporais ou detalhes espaciais, resultando em soluções subótimas. Para mitigar esse dilema, propomos o LOVE-R1, um modelo que pode ampliar adaptativamente um clipe de vídeo. O modelo é inicialmente fornecido com quadros densamente amostrados, mas em uma resolução pequena. Se alguns detalhes espaciais forem necessários, o modelo pode ampliar um clipe de interesse com uma grande resolução de quadro com base em seu raciocínio até que informações visuais-chave sejam obtidas. Todo o processo é implementado como um processo de raciocínio em múltiplas etapas. Para treinar a capacidade de raciocínio, primeiro ajustamos o modelo em nossos 38k dados CoT de alta qualidade coletados e o aprimoramos com ajuste fino de reforço desacoplado. Como recompensas de resultado não podem fornecer supervisão de processo em nível granular, desacoplamos o raciocínio em múltiplas etapas em vários raciocínios de etapa única e otimizamos explicitamente a capacidade interna de ampliação. Experimentos em benchmarks de compreensão de vídeos longos mostram que nosso modelo com o mecanismo de amostragem de quadros adaptativo lento-rápido alcança um ótimo equilíbrio entre densidade de amostragem e resoluções de quadro, e o LOVE-R1 supera nossa linha de base Qwen2.5-VL em uma média de 3,1 pontos percentuais em 4 benchmarks comuns de compreensão de vídeos longos.
A otimização de preferências é crucial para alinhar grandes modelos de linguagem (LLMs) com valores e intenções humanas. Um desafio significativo nesse processo é a incompatibilidade de distribuição entre os dados de preferência pré-coletados offline e a política em evolução do modelo. Métodos existentes tentam reduzir essa lacuna usando heurísticas estáticas ou estratégias de amostragem online desacopladas, mas frequentemente falham em se adaptar ao estado dinâmico de aprendizado do modelo. Para preencher essa lacuna, propomos a Meta-Weighted Adaptive Preference Optimization (MetaAPO), uma estrutura inovadora que acopla dinamicamente a geração de dados ao treinamento do modelo. A MetaAPO emprega um meta-aprendiz leve, como um "estimador de lacuna de alinhamento", para avaliar os benefícios potenciais da amostragem on-policy em relação aos dados offline. Isso orienta a geração online direcionada e atribui meta-pesos específicos a cada amostra no objetivo de otimização, equilibrando dinamicamente a qualidade e a distribuição dos dados online e offline. Experimentos no AlpacaEval 2, Arena-Hard e MT-Bench demonstram que a MetaAPO supera consistentemente as abordagens existentes de otimização de preferências em várias configurações, enquanto reduz 42% nos custos de anotação online.
A tarefa de conversão de página web para código exige que os modelos compreendam representações visuais de páginas web e gerem o código correspondente. No entanto, os benchmarks existentes focam principalmente em tarefas estáticas de captura de tela para código, negligenciando assim as interações dinâmicas fundamentais para aplicações web do mundo real. Para abordar essa limitação, este artigo introduz o IWR-Bench, um novo benchmark para avaliar as capacidades de Modelos de Linguagem e Visão de Grande Escala (LVLMs) na reconstrução interativa de páginas web a partir de vídeo. O IWR-Bench compreende 113 tarefas meticulosamente curadas de 100 sites reais, com 1.001 ações e apresentando diversas complexidades de interação (por exemplo, jogos web), estilos visuais e domínios. Alinhado com as práticas padrão de desenvolvimento web, cada tarefa inclui não apenas vídeos de interação do usuário, mas também todos os recursos estáticos capturados (por exemplo, imagens, vídeos). Este benchmark avalia os modelos em dois desafios fundamentais: raciocínio multimodal abrangente para inferir a lógica de interação a partir de vídeo e recursos, e geração avançada de código para traduzir essa lógica em código funcional. Um framework de agente-como-juiz com um sistema abrangente de métricas avalia automaticamente a correção funcional e a fidelidade visual das páginas web geradas. Experimentos extensivos em 28 LVLMs revelam um desafio significativo: o melhor modelo alcança uma pontuação geral de apenas 36,35%, já que a correção funcional (24,39% IFS) fica significativamente atrás da fidelidade visual (64,25% VFS). Esses resultados destacam limitações críticas na capacidade dos modelos atuais de raciocinar sobre dinâmicas temporais e sintetizar lógica orientada a eventos, estabelecendo o IWR-Bench como uma fronteira desafiadora para a pesquisa em linguagem e visão. O benchmark e o código de avaliação serão disponibilizados publicamente. O código está disponível em https://github.com/L-O-I/IWR-Bench.
O Aprendizado por Reforço (RL) emergiu como um paradigma central para o avanço de Modelos de Linguagem de Grande Escala (LLMs), onde o pré-treinamento e o pós-treinamento com RL compartilham a mesma formulação de log-verossimilhança. Em contraste, abordagens recentes de RL para modelos de difusão, mais notavelmente a Otimização de Política de Difusão de Ruído (DDPO), otimizam um objetivo diferente dos objetivos de pré-treinamento—a perda de correspondência de pontuação/fluxo. Neste trabalho, estabelecemos uma nova análise teórica: a DDPO é uma forma implícita de correspondência de pontuação/fluxo com alvos ruidosos, o que aumenta a variância e retarda a convergência. Com base nessa análise, introduzimos a Correspondência Ponderada por Vantagem (AWM), um método de gradiente de política para difusão. Ele utiliza a mesma perda de correspondência de pontuação/fluxo do pré-treinamento para obter um objetivo de menor variância e repondera cada amostra pela sua vantagem. Na prática, a AWM aumenta a influência de amostras de alta recompensa e suprime as de baixa recompensa, mantendo o objetivo de modelagem idêntico ao pré-treinamento. Isso unifica o pré-treinamento e o RL tanto conceitual quanto praticamente, é consistente com a teoria de gradiente de política, reduz a variância e resulta em convergência mais rápida. Este design simples, porém eficaz, traz benefícios substanciais: nos benchmarks GenEval, OCR e PickScore, a AWM oferece uma aceleração de até 24 vezes em relação ao Flow-GRPO (que é baseado na DDPO), quando aplicada ao Stable Diffusion 3.5 Medium e FLUX, sem comprometer a qualidade da geração. O código está disponível em https://github.com/scxue/advantage_weighted_matching.
Imagens estruturadas (por exemplo, gráficos e diagramas geométricos) continuam sendo um desafio para modelos de linguagem multimodal de grande escala (MLLMs), uma vez que falhas perceptivas podem levar a conclusões errôneas. Pistas visuais intermediárias podem direcionar o raciocínio; no entanto, os métodos baseados em pistas existentes são limitados por processamento de imagem de baixa fidelidade e padrões de raciocínio lineares e rígidos, restringindo sua eficácia em tarefas complexas envolvendo imagens estruturadas. Neste artigo, propomos o PixelCraft, um sistema multiagente inovador para processamento de imagem de alta fidelidade e raciocínio visual flexível em imagens estruturadas. O sistema é composto por um despachante, um planejador, um raciocinador, críticos e um conjunto de agentes de ferramentas visuais. Para alcançar processamento de alta fidelidade, construímos um corpus de alta qualidade e ajustamos um MLLM para se tornar um modelo de ancoragem, cujas localizações em nível de pixel são integradas com algoritmos tradicionais de visão computacional (CV) nos agentes de ferramentas. Com base nessa fundação, o PixelCraft facilita o raciocínio visual flexível por meio de um fluxo de trabalho dinâmico em três etapas: seleção de ferramentas, discussão entre agentes e autocrítica. Além disso, ao contrário dos padrões de raciocínio linear anteriores que simplesmente anexam imagens históricas, o PixelCraft mantém uma memória de imagem, permitindo que o planejador revisite adaptativamente etapas visuais anteriores, explore ramificações alternativas de raciocínio e ajuste dinamicamente a trajetória de raciocínio durante a discussão. Experimentos extensos em benchmarks desafiadores de gráficos e geometria demonstram que o PixelCraft melhora significativamente o desempenho do raciocínio visual para MLLMs avançados, estabelecendo um novo padrão para o raciocínio em imagens estruturadas. Nosso código estará disponível em https://github.com/microsoft/PixelCraft.
A busca por agentes artificiais capazes de aprender a dominar ambientes complexos tem levado a sucessos notáveis, embora os métodos predominantes de aprendizado por reforço profundo frequentemente dependam de uma imensa experiência, codificando seu conhecimento de forma opaca nos pesos das redes neurais. Propomos um paradigma diferente, no qual um agente aprende a jogar por meio de raciocínio e planejamento. Introduzimos o Cogito, ergo ludo (CEL), uma nova arquitetura de agente que aproveita um Modelo de Linguagem de Grande Escala (LLM) para construir uma compreensão explícita, baseada em linguagem, da mecânica do ambiente e de sua própria estratégia. Partindo de um estado de tabula rasa sem conhecimento prévio (exceto o conjunto de ações), o CEL opera em um ciclo de interação e reflexão. Após cada episódio, o agente analisa sua trajetória completa para realizar dois processos de aprendizado simultâneos: Indução de Regras, onde ele refina seu modelo explícito da dinâmica do ambiente, e Resumo de Estratégia e Playbook, onde ele destila experiências em um playbook estratégico acionável. Avaliamos o CEL em diversas tarefas de mundo de grade (ou seja, Campo Minado, Lago Congelado e Sokoban) e mostramos que o agente CEL aprende com sucesso a dominar esses jogos ao descobrir autonomamente suas regras e desenvolver políticas eficazes a partir de recompensas esparsas. Estudos de ablação confirmam que o processo iterativo é crítico para o aprendizado sustentado. Nosso trabalho demonstra um caminho para agentes mais gerais e interpretáveis que não apenas agem de forma eficaz, mas também constroem um modelo transparente e em evolução de seu mundo por meio de raciocínio explícito sobre experiências brutas.
A crescente implantação de agentes baseados em grandes modelos de linguagem (LLMs) que interagem com ambientes externos criou novas superfícies de ataque para manipulação adversária. Uma grande ameaça é a injeção indireta de prompts, onde atacantes incorporam instruções maliciosas na saída de ambientes externos, fazendo com que os agentes as interpretem e executem como se fossem prompts legítimos. Embora pesquisas anteriores tenham se concentrado principalmente em ataques de injeção de texto simples, identificamos uma vulnerabilidade significativa e ainda pouco explorada: a dependência dos LLMs em modelos estruturados de chat e sua suscetibilidade à manipulação contextual por meio de diálogos persuasivos em múltiplos turnos. Para isso, introduzimos o ChatInject, um ataque que formata cargas maliciosas para imitar modelos nativos de chat, explorando assim a tendência inerente do modelo de seguir instruções. Com base nisso, desenvolvemos uma variante Multi-turn orientada à persuasão, que prepara o agente ao longo de vários turnos de conversa para aceitar e executar ações que, de outra forma, seriam consideradas suspeitas. Por meio de experimentos abrangentes em LLMs de ponta, demonstramos três descobertas críticas: (1) o ChatInject alcança taxas médias de sucesso de ataque significativamente maiores do que os métodos tradicionais de injeção de prompts, melhorando de 5,18% para 32,05% no AgentDojo e de 15,13% para 45,90% no InjecAgent, com diálogos Multi-turn mostrando um desempenho particularmente forte, com uma taxa média de sucesso de 52,33% no InjecAgent, (2) cargas baseadas em modelos de chat demonstram forte transferibilidade entre modelos e permanecem eficazes mesmo contra LLMs de código fechado, apesar de suas estruturas de modelo desconhecidas, e (3) as defesas existentes baseadas em prompts são amplamente ineficazes contra essa abordagem de ataque, especialmente contra variantes Multi-turn. Essas descobertas destacam vulnerabilidades nos sistemas de agentes atuais.
Modelos de linguagem de grande escala (LLMs) têm demonstrado eficácia crescente em tarefas de Texto-para-SQL. No entanto, outro problema intimamente relacionado, a Tradução de SQL entre Sistemas (também conhecida como SQL-para-SQL), que adapta uma consulta escrita para um sistema de banco de dados (por exemplo, MySQL) em sua equivalente para outro sistema (por exemplo, ClickHouse), é de grande importância prática, mas permanece pouco explorado. Os benchmarks de SQL existentes não são adequados para avaliação de SQL-para-SQL, pois (1) focam em um conjunto limitado de sistemas de banco de dados (frequentemente apenas SQLite) e (2) não conseguem capturar muitos dialetos SQL específicos de sistemas (por exemplo, funções personalizadas, tipos de dados e regras de sintaxe). Assim, neste artigo, apresentamos o PARROT, um Benchmark Prático e Realista para Tradução de SQL entre Sistemas. O PARROT compreende 598 pares de tradução de 38 benchmarks de código aberto e serviços comerciais do mundo real, especificamente preparados para desafiar o entendimento de SQL específico de sistemas (por exemplo, LLMs alcançam uma precisão média inferior a 38,53%). Também fornecemos múltiplas variantes do benchmark, incluindo o PARROT-Diverse com 28.003 traduções (para testes extensivos de sintaxe) e o PARROT-Simple com 5.306 amostras representativas (para testes de estresse focados), abrangendo 22 sistemas de banco de dados de nível de produção. Para promover pesquisas futuras, disponibilizamos um quadro de líderes público e o código-fonte em: https://code4db.github.io/parrot-bench/.
Este artigo apresenta o MathBode, uma ferramenta de diagnóstico dinâmico para o raciocínio matemático em modelos de linguagem de grande escala (LLMs). Em vez de precisão pontual, o MathBode trata cada problema paramétrico como um sistema: variamos um único parâmetro de forma senoidal e ajustamos as respostas de primeira harmônica das saídas do modelo e das soluções exatas. Isso produz métricas interpretáveis e resolvidas em frequência — ganho (rastreamento de amplitude) e fase (atraso) — que formam impressões digitais no estilo de Bode. Em cinco famílias de problemas de forma fechada (resolução linear, razão/saturação, juros compostos, sistemas lineares 2x2, triângulos semelhantes), o diagnóstico revela comportamentos sistemáticos de passa-baixa e atrasos de fase crescentes que a precisão isolada oculta. Comparamos vários modelos em relação a uma linha de base simbólica que calibra o instrumento (G ≈ 1, φ ≈ 0). Os resultados distinguem modelos de ponta de modelos intermediários em termos de dinâmica, fornecendo um protocolo compacto e reproduzível que complementa benchmarks padrão com medições acionáveis de fidelidade e consistência do raciocínio. Disponibilizamos o conjunto de dados e o código em código aberto para permitir mais pesquisas e adoção.
A modelagem unificada de vídeo que combina capacidades de geração e compreensão torna-se cada vez mais importante, mas enfrenta dois desafios principais: manter a fidelidade semântica durante a geração baseada em fluxo devido ao desequilíbrio entre tokens textuais e visuais e as limitações da atenção cross-modal uniforme ao longo da trajetória do fluxo, e estender de forma eficiente MLLMs centrados em imagem para vídeo sem retreinamento custoso. Apresentamos o UniVid, uma arquitetura unificada que acopla um MLLM a um decodificador de difusão por meio de um adaptador leve, permitindo tanto a compreensão quanto a geração de vídeo. Introduzimos o Alinhamento de Modalidade por Temperatura para melhorar a aderência a prompts e a Reflexão em Pirâmide para raciocínio temporal eficiente por meio de seleção dinâmica de keyframes. Experimentos extensos em benchmarks padrão demonstram desempenho de ponta, alcançando uma melhoria de 2,2% no score total do VBench-Long em comparação com o EasyAnimateV5.1, e ganhos de precisão de 1,0% e 3,3% no MSVD-QA e ActivityNet-QA, respectivamente, em relação aos melhores baselines anteriores de 7B.
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis na resolução de problemas complexos por meio do raciocínio em Cadeia de Pensamento (CoT). No entanto, a natureza de múltiplos passos do CoT introduz novos desafios de segurança que vão além do alinhamento convencional de modelos de linguagem. Identificamos um modo de falha nos métodos atuais de ajuste de segurança em CoT: o efeito bola de neve, onde pequenos desvios de raciocínio se amplificam progressivamente ao longo do processo de pensamento, levando a uma conformidade prejudicial ou a uma recusa excessiva. Esse efeito surge porque os modelos são treinados para imitar scripts de raciocínio perfeitos sem aprender a se autocorrigir. Para abordar essa limitação, propomos o AdvChain, um paradigma de alinhamento que ensina os modelos a se autocorrigir dinamicamente por meio de ajuste adversário em CoT. Nosso método envolve a construção de um conjunto de dados contendo amostras de Tentação-Correção e Hesitação-Correção, onde os modelos aprendem a se recuperar de desvios de raciocínio prejudiciais e cautelas desnecessárias. Experimentos extensivos mostram que o AdvChain melhora significativamente a robustez contra ataques de jailbreak e sequestro de CoT, ao mesmo tempo em que reduz substancialmente a recusa excessiva em prompts benignos, alcançando um equilíbrio superior entre segurança e utilidade sem comprometer as capacidades de raciocínio. Nosso trabalho estabelece uma nova direção para a construção de modelos de raciocínio mais robustos e confiáveis.
O rápido progresso dos Modelos Multimodais de Grande Escala (LMMs) e dos agentes de IA baseados em nuvem está transformando a colaboração humano-IA em uma interação bidirecional e multimodal. No entanto, os codecs existentes permanecem otimizados para comunicação unimodal e unidirecional, resultando em degradação repetida sob os pipelines convencionais de compressão-transmissão-reconstrução. Para abordar essa limitação, propomos o UniMIC, uma estrutura de Codificação Interativa Multimodal Unificada baseada em tokens que conecta dispositivos de borda e agentes de IA em nuvem. Em vez de transmitir pixels brutos ou texto simples, o UniMIC emprega representações tokenizadas compactas como meio de comunicação, permitindo transmissão eficiente em baixa taxa de bits enquanto mantém a compatibilidade com LMMs. Para aprimorar ainda mais a compressão, modelos de entropia leves baseados em Transformer com designs específicos para cenários—genérico, mascarado e condicionado por texto—minimizam efetivamente a redundância entre tokens. Experimentos extensivos em geração de texto para imagem, preenchimento guiado por texto, extensão de imagem e resposta a perguntas visuais mostram que o UniMIC alcança economias substanciais na taxa de bits e permanece robusto mesmo em taxas de bits ultrabaixas (<0,05bpp), sem comprometer o desempenho das tarefas subsequentes. Esses resultados estabelecem o UniMIC como um paradigma prático e visionário para a próxima geração de comunicação interativa multimodal.
A escalabilidade tem impulsionado avanços recentes na modelagem generativa, mas seus princípios permanecem pouco explorados no aprendizado adversário. Investigamos a escalabilidade de Redes Generativas Adversariais (GANs) por meio de duas escolhas de projeto que se mostraram eficazes em outros tipos de modelos generativos: treinamento em um espaço latente compacto de Autoencoders Variacionais e a adoção de geradores e discriminadores baseados exclusivamente em transformadores. O treinamento no espaço latente permite computação eficiente enquanto preserva a fidelidade perceptual, e essa eficiência combina naturalmente com transformadores simples, cujo desempenho escala com o orçamento computacional. Com base nessas escolhas, analisamos modos de falha que surgem ao escalar GANs de forma ingênua. Especificamente, identificamos problemas como a subutilização de camadas iniciais no gerador e instabilidade de otimização à medida que a rede escala. Consequentemente, oferecemos soluções simples e adequadas à escala, como supervisão intermediária leve e ajuste de taxa de aprendizado consciente da largura. Nossos experimentos mostram que o GAT, uma GAN baseada exclusivamente em transformadores e no espaço latente, pode ser treinado de forma confiável e fácil em uma ampla gama de capacidades (de S a XL). Além disso, o GAT-XL/2 alcança desempenho de geração condicional por classe em uma única etapa (FID de 2,96) de última geração no ImageNet-256 em apenas 40 épocas, 6 vezes menos épocas do que as linhas de base fortes.
A navegação guiada por linguagem orientada a objetivos requer capacidades robustas de exploração para que os agentes naveguem até metas especificadas em ambientes desconhecidos sem instruções passo a passo. Os métodos existentes tendem a utilizar exclusivamente trajetórias de caminho mais curto, carecendo de prioridades de exploração eficazes para treinar agentes de navegação. Para enfrentar esses desafios, apresentamos o SID, uma abordagem de aprendizado de navegação guiada por linguagem orientada a objetivos com Demonstrações de Auto-Melhoria. Especificamente, o SID aprende um agente inicial com base em dados de caminho mais curto amostrados dos ambientes e, em seguida, utiliza esse agente para gerar trajetórias de exploração inéditas. As novas execuções fornecem demonstrações com estratégias de exploração mais robustas para treinar um agente melhor, que, por sua vez, produz demonstrações de agente de maior qualidade para a próxima rodada de treinamento. Mostramos que esse pipeline iterativo de auto-melhoria se escala facilmente para novos ambientes, e as demonstrações resultantes podem ser transferidas para uma variedade de tarefas de navegação guiada por linguagem, elevando o limite de desempenho em diversas tarefas de navegação orientada a objetivos. Experimentos extensivos demonstram que o SID aumenta significativamente as capacidades de exploração e a generalização dos agentes de navegação. O agente resultante alcança um novo desempenho de ponta em tarefas de navegação guiada por linguagem orientada a objetivos, incluindo REVERIE e SOON, atingindo notavelmente uma taxa de sucesso de 50,9% nas divisões de validação não vistas do SOON, superando as abordagens líderes anteriores por uma margem de 13,9%.
O Desenvolvimento Orientado por Testes (TDD) é uma prática amplamente adotada na engenharia de software que exige que os desenvolvedores criem e executem testes juntamente com a implementação do código, garantindo que o comportamento do software seja continuamente validado e refinado. Na era da codificação por intenção, onde os desenvolvedores delegam cada vez mais a escrita de código a modelos de linguagem de grande escala (LLMs) ao especificar intenções de alto nível, o TDD se torna ainda mais crucial, pois os casos de teste servem como especificações executáveis que definem e verificam explicitamente a funcionalidade pretendida, indo além do que descrições em linguagem natural e o contexto do código podem transmitir. Embora a codificação por intenção sob TDD seja promissora, existem três desafios principais: (1) selecionar um conjunto de testes pequeno, porém eficaz, para melhorar a precisão da geração e controlar a carga de execução; (2) recuperar contextos, como código relevante, de forma eficiente; e (3) usar sistematicamente o feedback dos testes para refinar o código de maneira eficaz. Para enfrentar esses desafios, apresentamos o TENET, um agente LLM para gerar funções em repositórios complexos do mundo real sob o cenário de TDD. O TENET possui três componentes: (1) um mecanismo inovador de conjunto de testes que seleciona um conjunto conciso de testes para maximizar a diversidade de cenários de uso alvo; (2) um conjunto de ferramentas personalizadas para o agente que realiza a recuperação eficiente de código relevante com depuração interativa; e (3) um fluxo de trabalho de refinamento baseado em reflexão que analisa iterativamente falhas, complementa o contexto e aplica refinamentos de código. O TENET alcança 69,08% e 81,77% de Pass@1 nos benchmarks RepoCod e RepoEval, superando os melhores baselines agentivos em 9,49 e 2,17 pontos percentuais, respectivamente. Além disso, este é o primeiro estudo sobre geração de código orientada por testes com contexto em nível de repositório, examinando como diferentes aspectos dos conjuntos de testes afetam o desempenho de agentes LLM sob o cenário de TDD.
Compreender como os Modelos de Linguagem de Grande Escala (LLMs) realizam raciocínios complexos e seus mecanismos de falha é um desafio na pesquisa de interpretabilidade. Para oferecer uma perspectiva mensurável de análise geométrica, definimos o conceito de *Manifold de Raciocínio*, uma estrutura geométrica latente de baixa dimensão formada pelas representações internas correspondentes a todas as gerações corretamente raciocinadas. Essa estrutura pode ser conceituada como a materialização dos caminhos de pensamento eficazes que o modelo aprendeu para resolver com sucesso uma determinada tarefa. Com base nesse conceito, construímos o REMA, um framework que explica as origens das falhas ao comparar quantitativamente as relações espaciais das representações internas do modelo correspondentes a amostras de raciocínio errôneas e corretas. Especificamente, o REMA primeiro quantifica o desvio geométrico de cada representação errônea ao calcular a distância de seus k-vizinhos mais próximos ao manifold aproximado formado pelas representações corretas, fornecendo assim um sinal unificado de falha. Em seguida, ele localiza os pontos de divergência onde esses desvios se tornam significativos ao rastrear essa métrica de desvio através das camadas do modelo e compará-la com uma linha de base de flutuações internas das representações corretas, identificando assim onde a cadeia de raciocínio começa a se desviar. Nossos extensos experimentos em diversos modelos de linguagem e multimodais, bem como em tarefas variadas, demonstram a natureza de baixa dimensão do manifold de raciocínio e a alta separabilidade entre as representações de raciocínio errôneas e corretas. Os resultados também validam a eficácia do framework REMA na análise das origens das falhas de raciocínio. Esta pesquisa conecta falhas abstratas de raciocínio a desvios geométricos mensuráveis nas representações, abrindo novas vias para a compreensão aprofundada e o diagnóstico dos processos computacionais internos de modelos de caixa-preta.
Dados emparelhados RGB-térmicos são cruciais para a fusão de sensores visuais-térmicos e tarefas de cross-modalidade, incluindo aplicações importantes como alinhamento e recuperação de imagens multimodais. No entanto, a escassez de pares de imagens RGB-térmicas sincronizadas e calibradas representa um grande obstáculo para o progresso nessas áreas. Para superar esse desafio, a tradução de imagens RGB para térmicas (RGB-T) surgiu como uma solução promissora, permitindo a síntese de imagens térmicas a partir de conjuntos de dados RGB abundantes para fins de treinamento. Neste estudo, propomos o ThermalGen, um modelo generativo baseado em fluxo adaptativo para tradução de imagens RGB-T, incorporando uma arquitetura de condicionamento de imagens RGB e um mecanismo de desacoplamento de estilo. Para apoiar o treinamento em larga escala, organizamos oito conjuntos de dados públicos emparelhados RGB-T de satélite-aéreo, aéreo e terrestre, e introduzimos três novos conjuntos de dados RGB-T de satélite-aéreo em larga escala—DJI-day, Bosonplus-day e Bosonplus-night—capturados em diversos horários, tipos de sensores e regiões geográficas. Avaliações extensas em vários benchmarks RGB-T demonstram que o ThermalGen alcança desempenho de tradução comparável ou superior aos métodos existentes baseados em GAN e difusão. Até onde sabemos, o ThermalGen é o primeiro modelo de tradução de imagens RGB-T capaz de sintetizar imagens térmicas que refletem variações significativas em pontos de vista, características de sensores e condições ambientais. Página do projeto: http://xjh19971.github.io/ThermalGen
Sistemas de inteligência artificial (IA), e particularmente os Modelos de Linguagem de Grande Escala (LLMs), estão sendo cada vez mais empregados em tarefas criativas, como a geração de ideias científicas, constituindo uma forma de generalização a partir de dados de treinamento que não é abordada pelos frameworks conceituais existentes. Apesar de suas semelhanças com a generalização composicional (CG), a criatividade combinatória (CC) é uma habilidade de natureza aberta. Em vez de avaliar a precisão ou correção em relação a objetivos fixos, o que contradiria a natureza aberta da CC, propomos um framework teórico e uma tarefa algorítmica para avaliar as saídas com base em seus graus de novidade e utilidade. A partir disso, fazemos várias contribuições empíricas importantes: (1) Obtemos os primeiros insights sobre o comportamento de escalonamento da criatividade em LLMs. (2) Descobrimos que, para orçamentos de computação fixos, existem profundidades e larguras ótimas de modelos para a capacidade criativa. (3) Constatamos que a lacuna entre ideação e execução, na qual os LLMs se destacam na geração de ideias científicas novas, mas lutam para garantir sua viabilidade prática, pode ser explicada por uma troca mais fundamental entre novidade e utilidade, característica de algoritmos de criatividade em geral. Importante destacar que essa troca persiste mesmo em escala, lançando dúvidas sobre o potencial criativo de longo prazo dos LLMs em sua forma atual. Juntos, nosso framework conceitual e descobertas empíricas fornecem uma base para entender e melhorar a criatividade em modelos modernos de IA, aproximando a inteligência humana e a artificial.
A Wikipédia é o maior corpus de conhecimento aberto, amplamente utilizado em todo o mundo e servindo como um recurso fundamental para o treinamento de grandes modelos de linguagem (LLMs) e sistemas de geração aumentada por recuperação (RAG). Garantir sua precisão é, portanto, crucial. Mas quão precisa é a Wikipédia, e como podemos melhorá-la? Nosso foco está nas inconsistências, um tipo específico de imprecisão factual, e introduzimos a tarefa de detecção de inconsistências em nível de corpus. Apresentamos o CLAIRE, um sistema agente que combina o raciocínio de LLMs com a recuperação de informações para identificar afirmações potencialmente inconsistentes, juntamente com evidências contextuais para revisão humana. Em um estudo com editores experientes da Wikipédia, 87,5% relataram maior confiança ao usar o CLAIRE, e os participantes identificaram 64,7% mais inconsistências no mesmo período de tempo. Combinando o CLAIRE com anotações humanas, contribuímos com o WIKICOLLIDE, o primeiro benchmark de inconsistências reais da Wikipédia. Usando amostragem aleatória com análise assistida pelo CLAIRE, descobrimos que pelo menos 3,3% dos fatos da Wikipédia em inglês contradizem outro fato, com inconsistências propagando-se para 7,3% dos exemplos do FEVEROUS e 4,0% do AmbigQA. O benchmarking de bases fortes nesse conjunto de dados revela uma margem significativa de melhoria: o melhor sistema totalmente automatizado alcança um AUROC de apenas 75,1%. Nossos resultados mostram que as contradições são um componente mensurável da Wikipédia e que sistemas baseados em LLMs, como o CLAIRE, podem fornecer uma ferramenta prática para ajudar os editores a melhorar a consistência do conhecimento em escala.
Prever a mobilidade humana é intrinsecamente desafiador devido a complexas dependências de longo alcance e comportamentos periódicos em múltiplas escalas. Para abordar isso, introduzimos o RHYTHM (Raciocínio com Tokenização Temporal Hierárquica para Mobilidade Humana), um framework unificado que aproveita modelos de linguagem de grande escala (LLMs) como preditores espaço-temporais de propósito geral e raciocinadores de trajetórias. Metodologicamente, o RHYTHM emprega tokenização temporal para dividir cada trajetória em segmentos diários e codificá-los como tokens discretos com atenção hierárquica que captura dependências tanto diárias quanto semanais, reduzindo significativamente o comprimento da sequência enquanto preserva informações cíclicas. Além disso, enriquecemos as representações dos tokens adicionando embeddings de prompt pré-computados para segmentos de trajetória e alvos de predição por meio de um LLM congelado, e alimentamos esses embeddings combinados de volta no núcleo do LLM para capturar interdependências complexas. Computacionalmente, o RHYTHM congela o núcleo pré-treinado do LLM para reduzir a complexidade da atenção e o custo de memória. Avaliamos nosso modelo em comparação com métodos state-of-the-art usando três conjuntos de dados do mundo real. Notavelmente, o RHYTHM alcança uma melhoria de 2,4% na precisão geral, um aumento de 5,0% nos fins de semana e uma redução de 24,6% no tempo de treinamento. O código está disponível publicamente em https://github.com/he-h/rhythm.
Ao editar diretamente a partir da vida, os fotógrafos descobriram que é muito difícil ver simultaneamente tanto o azul quanto o céu. O fotógrafo e curador Szarkowski revelou de forma perspicaz uma das lacunas notáveis entre o entendimento visual geral e o estético: enquanto o primeiro se concentra em identificar o elemento factual em uma imagem (o céu), o último transcende essa identificação de objeto, vendo-o, em vez disso, como um componente estético—um bloco de cor pura (azul). Tais distinções fundamentais entre o entendimento visual geral (detecção, localização, etc.) e o estético (cor, iluminação, composição, etc.) apresentam um desafio significativo para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Embora alguns trabalhos recentes tenham feito explorações iniciais, eles frequentemente se limitam ao senso comum estético geral e básico. Como resultado, eles frequentemente falham em cenários do mundo real (Fig. 1), que exigem ampla expertise—incluindo técnicas fotográficas, conhecimento de pré/pós-processamento de fotos e mais—para fornecer uma análise e descrição detalhadas. Para aprimorar fundamentalmente o entendimento estético dos MLLMs, primeiro introduzimos um novo conjunto de dados, o PhotoCritique, derivado de extensas discussões entre fotógrafos profissionais e entusiastas, e caracterizado pela grande escala, expertise e diversidade. Em seguida, para aprender melhor a estética visual a partir do PhotoCritique, propomos ainda um novo modelo, o PhotoEye, que apresenta um mecanismo de fusão de visão multi-visão guiada por linguagem para entender a estética da imagem a partir de múltiplas perspectivas. Finalmente, apresentamos um novo benchmark, o PhotoBench, um benchmark abrangente e profissional para o entendimento visual estético. Nos benchmarks existentes e no PhotoBench, nosso modelo demonstra vantagens claras sobre os modelos existentes.
A capacidade de resumir documentos extensos de forma sucinta é cada vez mais importante na vida cotidiana devido à sobrecarga de informações, mas há uma notável escassez de tais resumos para documentos em espanhol em geral, e no domínio jurídico em particular. Neste trabalho, apresentamos o BOE-XSUM, um conjunto de dados curado que compreende 3.648 resumos concisos e em linguagem simples de documentos extraídos do ``Boletín Oficial del Estado'' (BOE), o Diário Oficial do Estado da Espanha. Cada entrada no conjunto de dados inclui um breve resumo, o texto original e o rótulo do tipo de documento. Avaliamos o desempenho de modelos de linguagem de grande porte (LLMs) de tamanho médio ajustados no BOE-XSUM, comparando-os com modelos genericos de propósito geral em um cenário de zero-shot. Os resultados mostram que os modelos ajustados superam significativamente suas contrapartes não especializadas. Notavelmente, o modelo de melhor desempenho -- BERTIN GPT-J 6B (precisão de 32 bits) -- alcança um ganho de desempenho de 24% em relação ao melhor modelo zero-shot, DeepSeek-R1 (acurácias de 41,6% vs. 33,5%).
Este artigo apresenta o BPMN Assistant, uma ferramenta que utiliza Modelos de Linguagem de Grande Escala (LLMs) para a criação e edição de diagramas BPMN baseada em linguagem natural. Uma representação especializada baseada em JSON é introduzida como uma alternativa estruturada ao manuseio direto de XML, visando aumentar a precisão das modificações de processos. A qualidade da geração de processos é avaliada usando a Distância de Edição de Grafos (GED) e a Distância de Edição de Grafos Relativa (RGED), enquanto o desempenho de edição é avaliado com uma métrica binária de sucesso. Os resultados mostram que JSON e XML alcançam pontuações de similaridade semelhantes na geração, mas o JSON oferece maior confiabilidade, processamento mais rápido e taxas de sucesso de edição significativamente maiores. Discutimos as principais compensações, limitações e melhorias futuras. A implementação está disponível em https://github.com/jtlicardo/bpmn-assistant.
Apresentamos o ADAM (A Diverse Archive of Mankind), uma estrutura para avaliar e melhorar modelos de linguagem multimodal de grande escala (MLLMs) no raciocínio biográfico. Até onde sabemos, este é o primeiro trabalho a examinar sistematicamente as capacidades de LLMs em biografias, uma dimensão crítica, mas pouco explorada, do conhecimento factual. No núcleo do ADAM, o AdamDB é um conjunto de dados multilíngue e multimodal que abrange mais de 4 milhões de indivíduos em diferentes geografias, períodos históricos e profissões, enquanto o AdamBench oferece avaliações cognitivamente estruturadas baseadas na taxonomia de Bloom, abrangendo seis níveis de raciocínio tanto em inglês quanto em idiomas nativos. Para abordar alucinações, especialmente para indivíduos menos conhecidos, propomos o AdamRAG, um sistema de geração aumentada por recuperação de informações, adaptado para contextos biográficos. Experimentos mostram que o AdamRAG melhora substancialmente os modelos de código aberto e beneficia modestamente os de código fechado, com os maiores ganhos em raciocínios de ordem inferior. A popularidade influencia fortemente a precisão, e a entrada multimodal por meio de imagens faciais oferece melhorias menores e menos consistentes do que a recuperação de informações. O ADAM estabelece o primeiro benchmark e estrutura para avaliação biográfica cognitivamente, culturalmente e multimodalmente fundamentada, avançando o desenvolvimento de MLLMs multilíngues, precisos e resistentes a alucinações.
Gerar estimativas de confiança precisas e calibradas é crucial para a implantação de LLMs em aplicações de alto risco ou voltadas para o usuário, e continua sendo um desafio em aberto. Pesquisas anteriores frequentemente enquadraram a confiança como um problema de elicitar o "autoconhecimento" de um modelo, ou seja, a capacidade de um LLM de julgar se suas próprias respostas estão corretas; essa abordagem assume implicitamente que há alguma informação privilegiada sobre a correção da resposta que é acessível ao próprio modelo. No entanto, nossos experimentos revelam que um LLM tentando prever a correção de suas próprias saídas geralmente não tem desempenho melhor do que um LLM não relacionado. Além disso, hipotetizamos que um fator-chave na construção de um "Modelo de Correção" (CM) é a exposição às previsões históricas de um modelo alvo. Propomos múltiplos métodos para injetar essa informação histórica de correção, criando um Modelo de Correção Generalizado (GCM). Primeiro, mostramos que GCMs podem ser treinados com dados de correção de muitos LLMs e aprender padrões para previsão de correção aplicáveis em diferentes conjuntos de dados e modelos. Em seguida, usamos CMs como uma lente para estudar a fonte da capacidade de previsão de correção e sua generalização, controlando sistematicamente seus dados de treinamento e descobrindo que a formulação da resposta é um forte preditor de correção. Exploramos ainda métodos alternativos de injetar histórico sem treinar um LLM, descobrindo que incluir histórico como exemplos em contexto pode ajudar a melhorar a previsão de correção, e a calibração pós-hoc pode fornecer reduções complementares no erro de calibração. Avaliamos GCMs baseados no Qwen3-8B em 5 famílias de modelos e nos conjuntos de dados MMLU e TriviaQA, bem como em uma tarefa de previsão seletiva downstream, concluindo que a estimativa confiável de confiança em LLMs é uma habilidade generalizável e independente de modelo, aprendida pela codificação sistemática do histórico de correção, em vez de uma habilidade específica do modelo dependente de auto-introspecção.
O aprendizado por reforço com controle ótimo estocástico oferece uma estrutura promissora para o ajuste fino de difusão, onde um modelo de difusão pré-treinado é otimizado para gerar caminhos que levam a uma distribuição inclinada por recompensas. Embora essas abordagens permitam a otimização sem acesso a amostras explícitas da distribuição ótima, elas exigem treinamento em execuções sob o modelo ajustado atual, tornando-as suscetíveis ao reforço de trajetórias subótimas que produzem recompensas insatisfatórias. Para superar esse desafio, introduzimos o TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), uma nova estrutura que otimiza trajetórias de difusão discreta guiadas por recompensas com busca em árvore para construir buffers de replay para ajuste fino consciente da trajetória. Esses buffers são gerados usando a Busca em Árvore de Monte Carlo (MCTS) e subsequentemente usados para ajustar um modelo de difusão discreta pré-treinado sob um objetivo de controle ótimo estocástico. Validamos nossa estrutura no ajuste fino de modelos de difusão de sequências biológicas com objetivos únicos e múltiplos, destacando a eficácia geral do TR2-D2 para ajuste fino confiável guiado por recompensas na geração de sequências discretas.
As legendas de vídeo oferecem instantâneos concisos de atores, objetos e ações dentro de um vídeo, servindo como recursos valiosos para aplicações como resposta a perguntas e localização de eventos. No entanto, a aquisição de anotações humanas para legendas de vídeo é custosa ou até mesmo impraticável, especialmente ao lidar com diversos domínios de vídeo. Modelos existentes treinados em conjuntos de dados supervisionados enfrentam desafios na avaliação de desempenho em diferentes domínios devido à dependência de protocolos de avaliação baseados em referência, que exigem legendas de verdade absoluta. Essa suposição é irrealista para avaliar vídeos em cenários reais. Para abordar essas limitações, propomos uma estrutura de avaliação sem referência que não requer legendas de verdade absoluta, focando na fundamentação factual para garantir uma avaliação precisa da qualidade das legendas. Introduzimos o VC-Inspector, um novo avaliador de qualidade de legendas que é tanto sem referência quanto factualmente fundamentado. Utilizando modelos de linguagem de grande escala, geramos legendas pseudo de qualidade variável com base em dados supervisionados, que são subsequentemente usados para treinar um modelo multimodal (ou seja, Qwen2.5-VL) como avaliador. Nossa abordagem demonstra uma alinhamento superior com os julgamentos humanos no conjunto de dados VATEX-Eval, superando métodos existentes. O desempenho também se generaliza para conjuntos de dados de legendas de imagens, Flickr8K-Expert e Flickr8K-CF, ao visualizar imagens como vídeos de 1 quadro. No geral, o VC-Inspector oferece uma solução escalável e generalizável para avaliar a precisão factual de legendas de vídeo, abrindo caminho para metodologias de avaliação mais eficazes e objetivas em diversos domínios de vídeo.
Na última década, a Linguística Computacional (LC) e o Processamento de Linguagem Natural (PLN) evoluíram rapidamente, especialmente com o advento dos Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers. Essa mudança transformou os objetivos e prioridades de pesquisa, passando de Recursos Lexicais e Semânticos para Modelagem de Linguagem e Multimodalidade. Neste estudo, acompanhamos as tendências de pesquisa da comunidade italiana de LC e PLN por meio de uma análise das contribuições para o CLiC-it, considerada a principal conferência italiana na área. Compilamos os anais das primeiras 10 edições da conferência CLiC-it (de 2014 a 2024) no Corpus CLiC-it, fornecendo uma análise abrangente tanto de seus metadados, incluindo proveniência dos autores, gênero, afiliações e mais, quanto do conteúdo dos artigos em si, que abordam diversos tópicos. Nosso objetivo é fornecer às comunidades de pesquisa italiana e internacional insights valiosos sobre tendências emergentes e desenvolvimentos-chave ao longo do tempo, apoiando decisões informadas e direcionamentos futuros no campo.