Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o QeRL, um framework de Aprendizado por Reforço Aprimorado por Quantização (Quantization-enhanced Reinforcement Learning) para modelos de linguagem de grande escala (LLMs). Embora o Aprendizado por Reforço (RL) seja essencial para as capacidades de raciocínio dos LLMs, ele é intensivo em recursos, exigindo uma quantidade substancial de memória GPU e longas durações de execução. O QeRL aborda esses problemas ao combinar a quantização NVFP4 com a Adaptação de Baixa Ordem (LoRA), acelerando a fase de execução do RL enquanto reduz a sobrecarga de memória. Além da eficiência, nossos resultados mostram que o ruído de quantização aumenta a entropia da política, melhorando a exploração e permitindo a descoberta de estratégias melhores durante o RL. Para otimizar ainda mais a exploração, o QeRL introduz um mecanismo de Ruído de Quantização Adaptativo (AQN), que ajusta dinamicamente o ruído durante o treinamento. Experimentos demonstram que o QeRL proporciona uma aceleração de mais de 1,5 vezes na fase de execução. Além disso, este é o primeiro framework a permitir o treinamento de RL de um LLM de 32B em uma única GPU H100 80GB, ao mesmo tempo que oferece acelerações gerais para o treinamento de RL. Ele também alcança um crescimento mais rápido de recompensas e uma precisão final maior do que o LoRA de 16 bits e o QLoRA, enquanto iguala o desempenho do ajuste fino de parâmetros completos em benchmarks matemáticos como GSM8K (90,8%) e MATH 500 (77,4%) no modelo de 7B. Esses resultados estabelecem o QeRL como um framework eficiente e eficaz para o treinamento de RL em LLMs.
A modelagem generativa latente, onde um autoencoder pré-treinado mapeia pixels em um espaço latente para o processo de difusão, tornou-se a estratégia padrão para Transformadores de Difusão (DiTs); no entanto, o componente do autoencoder mal evoluiu. A maioria dos DiTs continua a depender do codificador VAE original, o que introduz várias limitações: backbones desatualizados que comprometem a simplicidade arquitetônica, espaços latentes de baixa dimensionalidade que restringem a capacidade de informação e representações fracas resultantes de treinamento puramente baseado em reconstrução, limitando, em última instância, a qualidade gerativa. Neste trabalho, exploramos substituir o VAE por codificadores de representação pré-treinados (por exemplo, DINO, SigLIP, MAE) combinados com decodificadores treinados, formando o que chamamos de Autoencoders de Representação (RAEs). Esses modelos fornecem tanto reconstruções de alta qualidade quanto espaços latentes semanticamente ricos, permitindo uma arquitetura escalável baseada em transformadores. Como esses espaços latentes são tipicamente de alta dimensionalidade, um desafio chave é permitir que os transformadores de difusão operem de forma eficaz dentro deles. Analisamos as fontes dessa dificuldade, propomos soluções teoricamente motivadas e as validamos empiricamente. Nossa abordagem alcança convergência mais rápida sem perdas auxiliares de alinhamento de representação. Usando uma variante de DiT equipada com uma cabeça DDT leve e ampla, alcançamos resultados fortes na geração de imagens no ImageNet: 1.51 FID em 256x256 (sem orientação) e 1.13 tanto em 256x256 quanto em 512x512 (com orientação). O RAE oferece vantagens claras e deve ser o novo padrão para o treinamento de transformadores de difusão.
Os modelos autoregressivos (AR) continuam sendo o padrão para geração de linguagem natural, mas ainda sofrem com alta latência devido à decodificação estritamente sequencial. Abordagens recentes inspiradas em difusão, como LlaDA e Dream, mitigam isso gerando em paralelo, mas enfrentam duas limitações principais: perda de informação, já que as distribuições preditivas para tokens não finalizados são descartadas a cada passo, e comprometimento prematuro, onde decisões locais são tomadas sem coordenação global suficiente. Introduzimos o Decodificação com Refinamento Latente (LRD), um framework de dois estágios com Refinamento Latente e um Loop de Feedback Preditivo. O primeiro estágio mantém posições mascaradas como misturas distribucionais de tokens previstos e a incorporação de máscara, permitindo que o modelo estabeleça crenças mais consistentes globalmente. O segundo estágio finaliza progressivamente tokens confiantes enquanto retém os incertos para feedback iterativo. A dinâmica da divergência KL fornece um critério confiável e fundamentado para convergência e parada antecipada. Experimentos em codificação (HumanEval +6.3, MBPP +2.6) e raciocínio (GSM8K +2.9, MATH500 +3.8) mostram que o LRD melhora a precisão enquanto oferece acelerações de até 10.6x, tornando-o uma alternativa forte e versátil para geração paralela de sequências.
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) demonstraram um potencial substancial na compreensão de vídeos. No entanto, os benchmarks existentes falham em avaliar de forma abrangente as capacidades de raciocínio sinérgico entre as modalidades de áudio e visual, muitas vezes negligenciando uma das modalidades ou integrando-as de maneira logicamente inconsistente. Para preencher essa lacuna, introduzimos o OmniVideoBench, um benchmark de grande escala e rigorosamente projetado dedicado a avaliar a compreensão sinérgica de áudio e visual, com forte ênfase na complementaridade das modalidades e na consistência lógica. Especificamente, o OmniVideoBench compreende 1000 pares de perguntas e respostas (QA) de alta qualidade, cada um anotado com traços de raciocínio passo a passo, derivados de 628 vídeos diversos que variam de alguns segundos a 30 minutos, e verificados manualmente para garantir correção completa e unicidade. Além disso, o OmniVideoBench abrange 13 tipos de perguntas cuidadosamente projetados, cobrindo raciocínio temporal, localização espacial, contagem, inferência causal, sumarização e além, capturando assim os desafios essenciais da compreensão de vídeos. A avaliação de múltiplos MLLMs no OmniVideoBench revela uma lacuna pronunciada entre o desempenho do modelo e o raciocínio humano, com modelos de código aberto ficando significativamente atrás de suas contrapartes de código fechado, destacando a dificuldade inerente do verdadeiro raciocínio áudio-visual. Lançaremos o OmniVideoBench para promover o desenvolvimento de MLLMs com capacidades de raciocínio mais fortes e generalizáveis.
Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha avançado as capacidades de raciocínio dos Grandes Modelos de Visão e Linguagem (LVLMs), a maioria dos métodos existentes em raciocínio multimodal negligencia o papel crítico da percepção visual dentro do processo de otimização do RLVR. Neste artigo, realizamos uma exploração pioneira do RLVR multimodal através da nova perspectiva da percepção de tokens, que mede a dependência visual de cada token gerado. Com uma análise granular dos processos de Chain-of-Thought (CoT), descobrimos dois insights principais: primeiro, a percepção de tokens em uma trajetória de rollout é distribuída de forma esparsa, onde apenas uma pequena fração dos tokens possui alta dependência visual para raciocínio baseado em visão; segundo, diferentes trajetórias exibem divergência significativa em sua dependência visual geral. Com base nessas observações, propomos a Otimização de Política Visualmente Perceptiva (VPPO), um novo algoritmo de gradiente de política que utiliza explicitamente a percepção de tokens para refinar o sinal de aprendizado. Especificamente, o VPPO alcança isso através de um mecanismo duplo: ele reponde a vantagem de uma trajetória pela sua dependência visual geral e concentra as atualizações de política exclusivamente em tokens perceptualmente cruciais. Em um conjunto abrangente de oito benchmarks de percepção e raciocínio, o VPPO demonstra ganhos substanciais em relação aos principais modelos sintonizados por RL de código aberto, com sua eficácia consistentemente validada em escalas de modelos de 7B e 32B. Nossas descobertas não apenas estabelecem uma nova perspectiva perceptual em nível de token para analisar o RLVR multimodal, mas também apresentam uma estratégia de otimização nova e eficaz para aprimorar significativamente as capacidades de raciocínio multimodal dos LVLMs.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu recentemente como uma estrutura promissora para melhorar as habilidades de raciocínio em Modelos de Linguagem de Grande Escala (LLMs). No entanto, políticas otimizadas com verificação binária tendem a negligenciar explorações potencialmente valiosas na trajetória de raciocínio. Diante do alto custo de anotação dos Modelos de Recompensa de Processo (PRMs) de referência, trabalhos recentes tentam utilizar sinais auxiliares para moldar a recompensa de tokens de processo, envolvendo entropia e verossimilhança coletadas do espaço de logits. Neste trabalho, oferecemos uma nova perspectiva sobre a modelagem do RLVR com recompensas de fluxo derivadas do espaço latente e propomos o RLFR, onde os campos de fluxo dos latentes do modelo são construídos a partir de dados de alta qualidade fora da política e de dados de amostragem por rejeição dentro da política, e os desvios de velocidade dos latentes da política dentro dele são quantificados para servir como sinal de recompensa. O RLFR demonstra primeiro que um campo de fluxo bem estabelecido pode ser um ambiente sólido para a coleta de sinais de recompensa, destacando que o espaço latente expressivo é muito pouco explorado. Além disso, o RLFR é capaz de comprimir quaisquer dados de especialistas fora da política como referência para constituir sinais de recompensa, e mostramos que a dependência contextual eficiente comprimida dentro dos estados ocultos é utilizada, em vez da denotação individual em nível de token para a compreensão do contexto. Experimentos em benchmarks de raciocínio linguístico e multimodal demonstram a confiabilidade das recompensas de fluxo e sugerem um paradigma promissor para a modelagem de recompensas com sinais auxiliares.
A modelagem geral de SVG continua desafiadora devido a conjuntos de dados fragmentados, transferibilidade limitada de métodos entre tarefas e a dificuldade de lidar com complexidade estrutural. Em resposta, aproveitamos as fortes capacidades de transferência e generalização de modelos de linguagem multimodal de grande escala (MLLMs) para alcançar uma modelagem unificada para compreensão, edição e geração de SVG. Apresentamos a família InternSVG, um conjunto integrado de dados, benchmarks e modelos. No seu núcleo está o SAgoge, o maior e mais abrangente conjunto de dados multimodal para tarefas de SVG, abrangendo tanto gráficos estáticos quanto animações dinâmicas. Ele cobre ícones, ilustrações de longa sequência, diagramas científicos e animações dinâmicas, suportando tarefas de diversos níveis de dificuldade e fornecendo hierarquias mais profundas com atributos mais ricos em comparação com conjuntos de dados anteriores. Com base nesse recurso, introduzimos o SArena, um benchmark complementar com definições abrangentes de tarefas e avaliação padronizada que se alinha com os domínios e o espectro de dificuldade cobertos pelo SAgoge. Com base nessas fundações, propomos o InternSVG, um MLLM unificado para compreensão, edição e geração de SVG com tokens especiais específicos para SVG, inicialização de embeddings baseada em subpalavras e uma estratégia de treinamento em duas etapas que progride de SVGs estáticos curtos para ilustrações de longa sequência e animações complexas. Essa formulação unificada induz transferência positiva e melhora o desempenho geral. Experimentos no SArena e em benchmarks anteriores confirmam que o InternSVG alcança ganhos substanciais e consistentemente supera as principais contrapartes abertas e proprietárias.
Recentemente, o surgimento do RL (Reinforcement Learning) agencial demonstrou que o RL também pode melhorar efetivamente a capacidade de raciocínio agencial dos LLMs (Large Language Models), embora os princípios de design fundamentais e as práticas ideais ainda permaneçam pouco claros. Neste trabalho, realizamos uma investigação abrangente e sistemática para desmistificar o uso do reinforcement learning no raciocínio agencial a partir de três perspectivas-chave: dados, algoritmo e modo de raciocínio. Destacamos nossas principais conclusões: (i) Substituir trajetórias sintéticas costuradas por trajetórias reais de uso de ferramentas de ponta a ponta resulta em uma inicialização SFT (Supervised Fine-Tuning) muito mais robusta; conjuntos de dados de alta diversidade e conscientes do modelo sustentam a exploração e melhoram significativamente o desempenho do RL. (ii) Técnicas favoráveis à exploração são cruciais para o RL agencial, como o corte superior, a modelagem de recompensas para trajetórias longas e a manutenção de uma entropia de política adequada, o que pode melhorar a eficiência do treinamento. (iii) Uma estratégia deliberativa com menos chamadas de ferramentas supera chamadas frequentes de ferramentas ou raciocínio autorreferencial extenso, melhorando a eficiência das ferramentas e a precisão final. Juntas, essas práticas simples aprimoram consistentemente o raciocínio agencial e a eficiência do treinamento, alcançando resultados robustos em benchmarks desafiadores com modelos menores e estabelecendo uma base prática para futuras pesquisas em RL agencial. Além desses insights empíricos, contribuímos ainda com um conjunto de dados SFT agencial de alta qualidade e ponta a ponta, juntamente com um conjunto de dados RL de alta qualidade, e demonstramos a eficácia de nossas conclusões no aprimoramento da capacidade de raciocínio agencial dos LLMs em quatro benchmarks desafiadores, incluindo AIME2024/AIME2025, GPQA-Diamond e LiveCodeBench-v6. Com nossas receitas, modelos de 4B também podem alcançar desempenho superior em raciocínio agencial em comparação com modelos de 32B. Código e modelos: https://github.com/Gen-Verse/Open-AgentRL
A legendagem audiovisual de vídeos visa gerar descrições semanticamente ricas com alinhamento temporal entre eventos visuais e auditivos, beneficiando tanto a compreensão quanto a geração de vídeos. Neste artigo, apresentamos o AVoCaDO, um poderoso legendador audiovisual de vídeos impulsionado pela orquestração temporal entre as modalidades de áudio e vídeo. Propomos um pipeline de pós-treinamento em duas etapas: (1) AVoCaDO SFT, que ajusta o modelo em um novo conjunto de dados curado de 107 mil legendas audiovisuais de alta qualidade e temporalmente alinhadas; e (2) AVoCaDO GRPO, que utiliza funções de recompensa personalizadas para aprimorar ainda mais a coerência temporal e a precisão do diálogo, ao mesmo tempo que regulariza o comprimento das legendas e reduz o colapso. Os resultados experimentais demonstram que o AVoCaDO supera significativamente os modelos de código aberto existentes em quatro benchmarks de legendagem audiovisual de vídeos, além de alcançar desempenho competitivo nos benchmarks VDC e DREAM-1K em configurações exclusivamente visuais.
Neste trabalho, propomos o DiT360, uma estrutura baseada em DiT que realiza treinamento híbrido em dados de perspectiva e panorâmicos para a geração de imagens panorâmicas. Para as questões de manutenção da fidelidade geométrica e do fotorealismo na qualidade de geração, atribuímos a principal razão à falta de dados panorâmicos em grande escala e de alta qualidade do mundo real, onde essa visão centrada em dados difere de métodos anteriores que se concentram no design do modelo. Basicamente, o DiT360 possui vários módulos-chave para transformação interdomínio e aumento intra-domínio, aplicados tanto no nível de imagem pré-VAE quanto no nível de token pós-VAE. No nível de imagem, incorporamos conhecimento entre domínios por meio de orientação de imagem em perspectiva e refinamento panorâmico, que melhoram a qualidade perceptiva enquanto regularizam a diversidade e o fotorealismo. No nível de token, a supervisão híbrida é aplicada em vários módulos, que incluem preenchimento circular para continuidade de borda, perda de yaw para robustez rotacional e perda de cubo para consciência de distorção. Experimentos extensos em tarefas de texto-para-panorama, inpainting e outpainting demonstram que nosso método alcança melhor consistência de borda e fidelidade de imagem em onze métricas quantitativas. Nosso código está disponível em https://github.com/Insta360-Research-Team/DiT360.
Agentes de Modelos de Linguagem de Grande Escala (LLM) mostram grande potencial para tarefas complexas e de múltiplas etapas que envolvem o uso de ferramentas, mas seu desenvolvimento é frequentemente dificultado pela extrema escassez de dados de treinamento de alta qualidade. O ajuste fino supervisionado (SFT) em dados sintéticos leva ao sobreajuste, enquanto o aprendizado por reforço (RL) padrão enfrenta um problema crítico de "cold-start" e instabilidade no treinamento. Para abordar esses desafios, introduzimos o Ajuste de Ambiente, um novo paradigma de treinamento que permite que os agentes aprendam comportamentos complexos diretamente a partir de instâncias de problemas, sem depender de trajetórias especializadas pré-coletadas. O Ajuste de Ambiente orquestra esse processo de aprendizagem por meio de um currículo estruturado, uma ampliação do ambiente que fornece feedback corretivo e recompensas de progresso detalhadas para garantir uma exploração estável e eficiente. Utilizando apenas 400 instâncias de problemas do benchmark Berkeley Function-Calling Leaderboard (BFCL), nosso método não apenas alcança desempenho competitivo em distribuição contra linhas de base fortes, mas também demonstra generalização superior fora da distribuição, superando o colapso de desempenho comum em abordagens baseadas em SFT. Nosso trabalho representa uma mudança de paradigma, passando do ajuste fino supervisionado em trajetórias estáticas para uma exploração dinâmica baseada no ambiente, abrindo caminho para o treinamento de agentes mais robustos e eficientes em termos de dados.
Nos últimos anos, o foco de pesquisa em modelos de linguagem de grande escala (LLMs) e agentes tem se deslocado progressivamente da demonstração de novas capacidades para o raciocínio complexo e a resolução de tarefas desafiadoras. No entanto, as avaliações existentes concentram-se principalmente em competições de matemática/código ou tarefas gerais, enquanto os benchmarks acadêmicos multidomínio atuais carecem de profundidade de raciocínio suficiente, deixando o campo sem um benchmark rigoroso para raciocínio de alto nível. Para preencher essa lacuna, introduzimos o benchmark Acadreason, projetado para avaliar a capacidade de LLMs e agentes de adquirir e raciocinar sobre conhecimento acadêmico. Ele consiste em 50 problemas acadêmicos anotados por especialistas, abrangendo cinco domínios de alto raciocínio, incluindo ciência da computação, economia, direito, matemática e filosofia. Todas as questões são extraídas de publicações de alto nível dos últimos anos e passam por um rigoroso processo de anotação e controle de qualidade para garantir que sejam desafiadoras e respondíveis. Realizamos avaliações sistemáticas de mais de 10 LLMs e agentes principais. Os resultados mostram que a maioria dos LLMs obteve pontuações abaixo de 20, com até mesmo o GPT-5 de ponta alcançando apenas 16 pontos. Embora os agentes tenham alcançado pontuações mais altas, nenhum ultrapassou 40 pontos. Isso demonstra a lacuna de capacidade atual entre LLMs e agentes em tarefas de pesquisa acadêmica superinteligente e destaca os desafios do Acadreason.
Resolver problemas do mundo real de forma eficiente com LLMs depende cada vez mais de sua capacidade de interagir com ambientes web dinâmicos e adquirir informações externas de forma autônoma. Embora pesquisas recentes, como Search-R1 e WebDancer, demonstrem um desempenho forte na resolução de tarefas web, elas dependem fortemente de ferramentas adicionais para converter o ambiente web interativo em conteúdo textual estático. Isso contrasta com os comportamentos de navegação humana, que envolvem interações diversas com o navegador, como rolagem, cliques e digitação. Neste artigo, propomos o BrowserAgent, um agente mais interativo que resolve tarefas complexas por meio de ações de navegação inspiradas no comportamento humano. O BrowserAgent opera diretamente em páginas web brutas via Playwright, utilizando um conjunto de ações de navegação predefinidas. Adotamos um treinamento em duas etapas (Ajuste Fino Supervisionado - SFT e Ajuste Fino por Rejeição - RFT) para melhorar as habilidades de generalização do modelo. Apesar de usar significativamente menos dados de treinamento do que o Search-R1, o BrowserAgent alcança resultados mais competitivos em diferentes tarefas de Perguntas e Respostas Abertas (Open-QA). Além disso, introduzimos um mecanismo de memória explícita para armazenar conclusões-chave entre etapas, aprimorando ainda mais as capacidades de raciocínio do modelo para tarefas de longo prazo. Notavelmente, o BrowserAgent-7B pode alcançar uma melhoria de cerca de 20% em relação ao Search-R1 em tarefas de QA multi-hop, como HotpotQA, 2Wiki e Bamboogle. Esses resultados indicam que o BrowserAgent pode servir como uma estrutura mais avançada para agentes web mais interativos e escaláveis.
Os avanços recentes em fluxos de trabalho agentes têm permitido a automação de tarefas como a geração de documentos profissionais. No entanto, eles se concentram principalmente na qualidade textual, negligenciando a estrutura e o estilo visual, que são cruciais para a legibilidade e o engajamento. Essa lacuna surge principalmente da ausência de modelos de recompensa adequados para orientar os fluxos de trabalho agentes na produção de documentos com maior qualidade estrutural e estilística. Para resolver isso, propomos o DocReward, um modelo de recompensa de documentos que avalia documentos com base em sua estrutura e estilo. Construímos um conjunto de dados multi-domínio, o DocPair, com 117K pares de documentos, abrangendo 32 domínios e 267 tipos de documentos, cada um incluindo um documento de alta e baixa profissionalidade com conteúdo idêntico, mas com estrutura e estilo diferentes. Isso permite que o modelo avalie a profissionalidade de forma abrangente e de maneira independente da qualidade textual. O DocReward é treinado usando a função de perda de Bradley-Terry para pontuar documentos, penalizando previsões que contradizem a classificação anotada. Para avaliar o desempenho dos modelos de recompensa, criamos um conjunto de dados de teste contendo pacotes de documentos classificados por avaliadores humanos bem-educados. Notavelmente, o DocReward supera o GPT-4o e o GPT-5 em precisão por 30,6 e 19,4 pontos percentuais, respectivamente, demonstrando sua superioridade em relação às linhas de base. Em uma avaliação extrínseca de geração de documentos, o DocReward alcança uma taxa de vitória significativamente maior de 60,8%, em comparação com a taxa de vitória de 37,7% do GPT-5, demonstrando sua utilidade em orientar agentes de geração na produção de documentos preferidos por humanos.
Embora agentes de LLM possam planejar tarefas de múltiplas etapas, intervir na fase de planejamento — antes que qualquer ação seja executada — é frequentemente a maneira mais segura de evitar danos, já que certos riscos podem levar a consequências graves uma vez realizados. No entanto, as salvaguardas existentes operam principalmente pós-execução, o que é difícil de escalar e deixa pouco espaço para supervisão controlável no nível do plano. Para enfrentar esse desafio, destacamos três lacunas críticas na pesquisa atual: lacuna de dados, lacuna de modelo e lacuna de avaliação. Para fechar a lacuna de dados, introduzimos o AuraGen, um motor controlável que (i) sintetiza trajetórias benignas, (ii) injeta riscos rotulados por categoria com dificuldade calibrada e (iii) filtra saídas por meio de um modelo de recompensa automatizado, produzindo grandes e confiáveis corpora para segurança pré-execução. Para fechar a lacuna do modelo guardião, propomos uma salvaguarda fundamental, o Safiron, combinando um adaptador de planejamento cruzado com um modelo guardião compacto. O adaptador unifica diferentes formatos de entrada, enquanto o Safiron sinaliza casos de risco, atribui tipos de risco e gera justificativas; treinado em duas etapas com uma receita de dados amplamente explorada, o Safiron alcança transferência robusta entre configurações. Para fechar a lacuna de avaliação, lançamos o Pre-Exec Bench, um benchmark realista que abrange diversas ferramentas e trajetórias ramificadas, medindo detecção, categorização refinada, explicação e generalização entre planejadores em cenários verificados por humanos. Experimentos extensivos demonstram ganhos consistentes da salvaguarda proposta sobre linhas de base fortes no Pre-Exec Bench, e as ablações ainda destilam práticas acionáveis, fornecendo um modelo prático para sistemas agentes mais seguros.
A resolução de problemas matemáticos por meio de linguagens verificáveis, como o Lean, teve um impacto significativo tanto nas comunidades de matemática quanto de ciência da computação. Os modelos de última geração atuais são frequentemente treinados com Aprendizado por Reforço (RL) online de alto custo ou iteração de especialistas. No entanto, essas abordagens dependem de conjuntos de problemas fixos, o que causa treinamento ineficiente e limita a capacidade do modelo de lidar com problemas complexos. Para superar essas limitações, propomos o GAR: Aprendizado por Reforço Generativo Adversarial, um framework abrangente de treinamento de RL que treina conjuntamente o compositor de problemas e o resolvedor em um loop adversário. O GAR introduz um mecanismo implícito de aprendizado curricular, que alinha a dificuldade da tarefa com a capacidade evolutiva do provador. Isso, por sua vez, melhora a eficiência do treinamento e permite um desempenho mais forte na prova de teoremas avançados. Experimentos mostram que, com o treinamento GAR, o Goedel-Prover-V2-8B e o DeepSeek-Prover-V2-7B alcançam uma melhoria relativa média em pass@32 de 4,20% no benchmark MiniF2F-Test, enquanto o pass@32 do DeepSeek-Prover-V2 no ProofNet-Test aumenta de 22,58% para 25,81%. Além da prova formal, o GAR estabelece um paradigma geral de RL para a coevolução da geração e resolução de problemas em ambientes verificáveis.
O raciocínio matemático é um indicador primário da inteligência de modelos de linguagem de grande escala (LLMs). No entanto, os LLMs existentes apresentam falhas de robustez e generalização. Este artigo atribui essas deficiências ao raciocínio espúrio, ou seja, à produção de respostas a partir de características superficiais. Para enfrentar esse desafio, propomos o framework AdaR para permitir o raciocínio adaptativo, no qual os modelos se baseiam na lógica de resolução de problemas para produzir respostas. O AdaR sintetiza consultas logicamente equivalentes variando os valores das variáveis e treina os modelos com RLVR nesses dados para penalizar a lógica espúria, ao mesmo tempo que incentiva a lógica adaptativa. Para melhorar a qualidade dos dados, extraímos a lógica de resolução de problemas da consulta original e geramos a resposta correspondente por meio de execução de código, aplicando em seguida uma verificação de sanidade. Os resultados experimentais demonstram que o AdaR melhora a robustez e a generalização, alcançando uma melhoria substancial no raciocínio matemático enquanto mantém alta eficiência de dados. A análise indica que a síntese de dados e o RLVR funcionam de forma coordenada para permitir o raciocínio adaptativo em LLMs. Análises subsequentes derivam insights-chave de design sobre o efeito de fatores críticos e a aplicabilidade para instruir LLMs. Nosso projeto está disponível em https://github.com/LaiZhejian/AdaR.
Embora pesquisas significativas tenham se concentrado no desenvolvimento de capacidades de raciocínio incorporado usando Modelos de Visão e Linguagem (VLMs) ou na integração de VLMs avançados em modelos de Visão, Linguagem e Ação (VLA) para controle de robôs de ponta a ponta, poucos estudos abordam diretamente a lacuna crítica entre o raciocínio baseado em VLM de nível superior e o aprendizado de políticas VLA de nível inferior. Neste trabalho, damos um passo inicial para conectar o raciocínio incorporado ao aprendizado de políticas VLA, introduzindo o Vlaser - um Modelo de Visão, Linguagem e Ação com capacidade sinérgica de raciocínio incorporado, que é um modelo fundamental de visão e linguagem projetado para integrar raciocínio de alto nível com controle de baixo nível para agentes incorporados. Construído com base no conjunto de dados de alta qualidade Vlaser-6M, o Vlaser alcança desempenho de ponta em uma variedade de benchmarks de raciocínio incorporado - incluindo raciocínio espacial, fundamentação incorporada, perguntas e respostas incorporadas e planejamento de tarefas. Além disso, examinamos sistematicamente como diferentes inicializações de VLM afetam o ajuste fino supervisionado de VLA, oferecendo novos insights para mitigar a mudança de domínio entre dados de pré-treinamento em escala da internet e dados específicos de aprendizado de políticas incorporadas. Com base nessas descobertas, nossa abordagem alcança resultados de ponta no benchmark WidowX e desempenho competitivo no benchmark Google Robot.
A complexidade dos Princípios Contábeis Geralmente Aceitos (GAAP) e a estrutura hierárquica dos arquivos em eXtensible Business Reporting Language (XBRL) tornam a auditoria financeira cada vez mais difícil de automatizar e verificar. Embora os modelos de linguagem de grande escala (LLMs) tenham demonstrado capacidades robustas na compreensão de textos não estruturados, sua habilidade para raciocinar sobre documentos financeiros estruturados, interdependentes e orientados por taxonomias permanece amplamente inexplorada. Para preencher essa lacuna, introduzimos o FinAuditing, o primeiro benchmark alinhado a taxonomias, consciente da estrutura e multi-documento para avaliar LLMs em tarefas de auditoria financeira. Construído a partir de arquivos XBRL reais em conformidade com os US-GAAP, o FinAuditing define três subtarefas complementares: FinSM para consistência semântica, FinRE para consistência relacional e FinMR para consistência numérica, cada uma visando um aspecto distinto do raciocínio estruturado em auditoria. Além disso, propomos um framework unificado de avaliação que integra métricas de recuperação, classificação e raciocínio nessas subtarefas. Experimentos extensivos em zero-shot com 13 LLMs state-of-the-art revelam que os modelos atuais apresentam desempenho inconsistente nas dimensões semântica, relacional e matemática, com quedas de precisão de até 60-90% ao raciocinar sobre estruturas hierárquicas multi-documento. Nossas descobertas expõem as limitações sistemáticas dos LLMs modernos no raciocínio financeiro baseado em taxonomias e estabelecem o FinAuditing como uma base para o desenvolvimento de sistemas de inteligência financeira confiáveis, conscientes da estrutura e alinhados às regulamentações. O conjunto de dados do benchmark está disponível no Hugging Face.
Modelos recentes de Texto para Vídeo (T2V) demonstraram uma capacidade poderosa na simulação visual da geometria e das leis físicas do mundo real, indicando seu potencial como modelos implícitos do mundo. Inspirados por isso, exploramos a viabilidade de aproveitar o conhecimento prévio de geração de vídeo para o planejamento de pontos de vista a partir de cenas 4D dadas, uma vez que os vídeos internamente acompanham cenas dinâmicas com pontos de vista naturais. Para isso, propomos um paradigma de duas etapas para adaptar modelos T2V pré-treinados para a previsão de pontos de vista, de maneira compatível. Primeiro, injetamos a representação da cena 4D no modelo T2V pré-treinado por meio de um ramo de aprendizado adaptativo, onde a cena 4D é independente do ponto de vista e o vídeo gerado condicionalmente incorpora visualmente os pontos de vista. Em seguida, formulamos a extração de pontos de vista como um processo de remoção de ruído extrínseco da câmera guiado por condições híbridas. Especificamente, um ramo de difusão extrínseca da câmera é introduzido no modelo T2V pré-treinado, tomando como entrada o vídeo gerado e a cena 4D. Os resultados experimentais mostram a superioridade do nosso método proposto em relação aos concorrentes existentes, e estudos de ablação validam a eficácia dos nossos principais projetos técnicos. Até certo ponto, este trabalho comprova o potencial dos modelos de geração de vídeo para a interação 4D no mundo real.
Modelos multimodais unificados integram a capacidade de raciocínio de grandes modelos de linguagem com a compreensão e geração de imagens, demonstrando grande potencial para inteligência multimodal avançada. No entanto, a comunidade ainda carece de um benchmark rigoroso e centrado em raciocínio para avaliar sistematicamente o alinhamento entre compreensão e geração, bem como seu potencial de generalização em tarefas visuais complexas. Para isso, introduzimos o GIR-Bench, um benchmark abrangente que avalia modelos unificados em três perspectivas complementares. Primeiramente, investigamos a consistência entre compreensão e geração (GIR-Bench-UGC), questionando se os modelos podem utilizar consistentemente o mesmo conhecimento em tarefas de compreensão e geração. Em segundo lugar, investigamos se os modelos podem realizar geração de texto para imagem centrada em raciocínio, que exige a aplicação de restrições lógicas e conhecimento implícito para gerar conteúdo visual fiel (GIR-Bench-T2I). Em terceiro lugar, avaliamos se os modelos conseguem lidar com raciocínio em múltiplas etapas durante a edição (GIR-Bench-Edit). Para cada subconjunto, projetamos cuidadosamente diferentes pipelines de avaliação específicos para cada tarefa. Isso permite uma avaliação detalhada e interpretável, ao mesmo tempo que mitiga vieses do paradigma prevalente de MLLM-como-Juiz. Ablações extensas em vários modelos unificados e sistemas de geração exclusiva mostraram que: Embora os modelos unificados sejam mais capazes em tarefas visuais orientadas por raciocínio, eles ainda exibem uma lacuna persistente entre compreensão e geração. Os dados e o código do GIR-Bench estão disponíveis em https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
Propomos o Stable Video Infinity (SVI), capaz de gerar vídeos de duração infinita com alta consistência temporal, transições de cena plausíveis e narrativas de streaming controláveis. Enquanto os métodos existentes para vídeos longos tentam mitigar erros acumulados por meio de técnicas anti-deriva manuais (por exemplo, agendador de ruído modificado, ancoragem de quadros), eles permanecem limitados à extrapolação de um único prompt, produzindo cenas homogêneas com movimentos repetitivos. Identificamos que o desafio fundamental vai além da acumulação de erros, estendendo-se a uma discrepância crítica entre a suposição de treinamento (ver dados limpos) e a realidade autoregressiva em tempo de teste (condicionamento em saídas autogeradas e propensas a erros). Para preencher essa lacuna de hipótese, o SVI incorpora o Error-Recycling Fine-Tuning, um novo tipo de treinamento eficiente que recicla os erros autogerados pelo Diffusion Transformer (DiT) em prompts de supervisão, incentivando o DiT a identificar e corrigir ativamente seus próprios erros. Isso é alcançado por meio da injeção, coleta e armazenamento de erros em um ciclo fechado de reciclagem, aprendendo autoregressivamente com feedback de erros injetados. Especificamente, nós (i) injetamos erros históricos cometidos pelo DiT para intervir em entradas limpas, simulando trajetórias de erros acumulados no fluxo de correspondência; (ii) aproximamos eficientemente as previsões com integração bidirecional em uma etapa e calculamos os erros com resíduos; (iii) armazenamos dinamicamente os erros em uma memória de replay ao longo de etapas discretizadas, que são reamostradas para novas entradas. O SVI é capaz de escalar vídeos de segundos para durações infinitas sem custos adicionais de inferência, mantendo-se compatível com diversas condições (por exemplo, áudio, esqueleto e fluxos de texto). Avaliamos o SVI em três benchmarks, incluindo configurações consistentes, criativas e condicionais, verificando minuciosamente sua versatilidade e papel de estado da arte.
Grandes modelos de visão e linguagem (LVLMs, do inglês Large Vision-Language Models), que integram um codificador visual (VE, do inglês Vision Encoder) com um grande modelo de linguagem, alcançaram sucesso notável em diversas tarefas. No entanto, ainda existem desafios cruciais nos LVLMs, como a alucinação de objetos, que ocorre quando o modelo gera descrições de objetos que não estão presentes na imagem de entrada. Aqui, argumentamos que tokens visuais incertos dentro do VE são um fator-chave que contribui para a alucinação de objetos. Nossa análise estatística revelou que há correlações positivas entre tokens visuais com alta incerteza epistêmica e a ocorrência de alucinações. Além disso, demonstramos teórica e empiricamente que tokens visuais nas camadas iniciais do VE que exibem grandes desvios de representação sob pequenas perturbações adversárias indicam alta incerteza epistêmica. Com base nessas descobertas, propomos uma estratégia simples, porém eficaz, para mitigar a alucinação de objetos modificando apenas o VE. Nosso método consiste em uma técnica proxy com perturbações adversárias para identificar tokens visuais incertos de forma eficiente e um método para mascarar esses tokens visuais incertos durante o processo de auto-atenção nas camadas intermediárias do VE, suprimindo sua influência na codificação visual e, assim, aliviando as alucinações. Experimentos extensivos mostram que nosso método reduz significativamente as alucinações de objetos em LVLMs e pode funcionar sinergicamente com outras técnicas existentes.
Modelos de linguagem de grande escala baseados em difusão (dLLMs) estão surgindo como uma alternativa eficiente aos modelos autoregressivos devido à sua capacidade de decodificar múltiplos tokens em paralelo. No entanto, alinhar dLLMs com preferências humanas ou recompensas específicas de tarefas por meio de aprendizado por reforço (RL) é desafiador, pois sua log-verossimilhança intratável impede a aplicação direta de métodos padrão de gradiente de política. Embora trabalhos anteriores utilizem substitutos como o limite inferior da evidência (ELBO), essas aproximações unilaterais podem introduzir um viés significativo no gradiente de política. Para resolver isso, propomos o Gradiente de Política Sanduíche (SPG), que aproveita tanto um limite superior quanto um limite inferior da log-verossimilhança verdadeira. Experimentos mostram que o SPG supera significativamente as abordagens baseadas em ELBO ou estimação de um passo. Especificamente, o SPG melhora a precisão em relação aos métodos de RL state-of-the-art para dLLMs em 3,6% no GSM8K, 2,6% no MATH500, 18,4% no Countdown e 27,0% no Sudoku.
Agentes de modelos de linguagem de grande escala (LLMs) demonstraram habilidades de raciocínio notáveis. No entanto, os frameworks multiagentes existentes frequentemente dependem de papéis fixos ou controle centralizado, limitando a escalabilidade e adaptabilidade em raciocínios de longo prazo. Apresentamos o SwarmSys, um framework de loop fechado para raciocínio multiagente distribuído inspirado na inteligência de enxame. A coordenação no SwarmSys emerge por meio de interações iterativas entre três papéis especializados: Exploradores, Trabalhadores e Validadores, que ciclicamente alternam entre exploração, explotação e validação. Para permitir colaboração escalável e adaptativa, integramos perfis adaptativos de agentes e eventos, correspondência probabilística baseada em embeddings e um mecanismo de reforço inspirado em feromônios, suportando alocação dinâmica de tarefas e convergência auto-organizada sem supervisão global. Em tarefas de raciocínio simbólico, síntese de pesquisa e programação científica, o SwarmSys consistentemente supera as abordagens de referência, melhorando tanto a precisão quanto a estabilidade do raciocínio. Esses resultados destacam a coordenação inspirada em enxames como um paradigma promissor para raciocínio multiagente escalável, robusto e adaptativo, sugerindo que a escalabilidade da coordenação pode rivalizar com a escalabilidade de modelos no avanço da inteligência dos LLMs.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem Visual (VLMs) têm mostrado progresso significativo no raciocínio matemático, mas ainda enfrentam um gargalo crítico com problemas que exigem assistência visual, como traçar linhas auxiliares ou plotar funções para resolvê-los. A maioria dos LLMs e VLMs está limitada a cadeias de raciocínio baseadas apenas em texto, enquanto modelos unificados multimodais que podem gerar texto e imagens intercalados carecem da precisão e controlabilidade necessárias para tais tarefas. Para resolver isso, propomos o CodePlot-CoT, um paradigma de Cadeia de Pensamento (Chain-of-Thought) baseado em código para "pensar com imagens" na matemática. Nossa abordagem utiliza o VLM para gerar raciocínio textual, bem como código de plotagem executável, que é então renderizado em imagens como "pensamento visual", para resolver problemas matemáticos. Para alcançar isso, primeiro construímos o Math-VR, o primeiro conjunto de dados e benchmark em grande escala e bilíngue para problemas de Matemática com Raciocínio Visual, composto por 178 mil amostras. Em segundo lugar, para criar dados de treinamento de alta qualidade, desenvolvemos um conversor de imagem para código de última geração, especializado em analisar figuras matemáticas complexas e convertê-las em códigos. Por fim, utilizando esses dados de treinamento, treinamos o modelo CodePlot-CoT para resolver problemas matemáticos. Os resultados experimentais mostram que nosso modelo alcança um aumento de até 21% em relação ao modelo base em nosso novo benchmark, validando plenamente a eficácia do nosso paradigma de raciocínio baseado em código. Nosso trabalho abre uma nova direção para o raciocínio matemático multimodal e fornece à comunidade o primeiro conjunto de dados em grande escala, um benchmark abrangente e uma abordagem robusta para tais problemas. Para facilitar pesquisas futuras, disponibilizamos publicamente nossos conjuntos de dados, códigos e modelos pré-treinados em https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
A escalabilidade do aprendizado robótico é fundamentalmente limitada pelo custo significativo e pelo trabalho intensivo envolvidos na coleta de dados do mundo real. Embora os dados simulados ofereçam uma alternativa escalável, eles frequentemente falham em generalizar para o mundo real devido a lacunas significativas na aparência visual, propriedades físicas e interações entre objetos. Para resolver isso, propomos o RoboSimGS, uma nova estrutura Real2Sim2Real que converte imagens do mundo real capturadas em múltiplas perspectivas em ambientes de simulação escaláveis, de alta fidelidade e fisicamente interativos para manipulação robótica. Nossa abordagem reconstrói cenários usando uma representação híbrida: o 3D Gaussian Splatting (3DGS) captura a aparência fotorrealista do ambiente, enquanto primitivas de malha para objetos interativos garantem uma simulação física precisa. De forma crucial, somos pioneiros no uso de um Modelo de Linguagem de Grande Porte Multimodal (MLLM) para automatizar a criação de ativos articulados e fisicamente plausíveis. O MLLM analisa dados visuais para inferir não apenas propriedades físicas (por exemplo, densidade, rigidez), mas também estruturas cinemáticas complexas (por exemplo, dobradiças, trilhos deslizantes) dos objetos. Demonstramos que políticas treinadas inteiramente com dados gerados pelo RoboSimGS alcançam transferência bem-sucedida de simulação para o mundo real (sim-to-real) em tarefas de manipulação diversas. Além disso, os dados do RoboSimGS melhoram significativamente o desempenho e a capacidade de generalização de métodos de última geração (SOTA). Nossos resultados validam o RoboSimGS como uma solução poderosa e escalável para reduzir a lacuna entre simulação e realidade.
Modelos recentes baseados em transformers para Recuperação de Malha Humana 3D (HMR) têm alcançado um desempenho robusto, mas frequentemente sofrem com alto custo computacional e complexidade devido a arquiteturas profundas de transformers e tokens redundantes. Neste artigo, introduzimos duas estratégias de fusão específicas para HMR: Fusão de Camadas com Restrição de Erro (ECLM) e Fusão de Tokens Guiada por Máscara (Mask-ToMe). O ECLM seleciona e funde camadas de transformers que têm impacto mínimo no Erro Médio de Posição por Articulação (MPJPE), enquanto o Mask-ToMe se concentra em fundir tokens de fundo que contribuem pouco para a previsão final. Para abordar ainda mais a possível queda de desempenho causada pela fusão, propomos um decodificador baseado em difusão que incorpora contexto temporal e aproveita prioridades de pose aprendidas de grandes conjuntos de dados de captura de movimento. Experimentos em vários benchmarks demonstram que nosso método alcança uma aceleração de até 2,3x enquanto melhora ligeiramente o desempenho em relação à linha de base.
Embora os Modelos de Linguagem de Grande Escala (LLMs) se destaquem na geração de código algorítmico, eles enfrentam dificuldades no desenvolvimento de front-end, onde a correção é julgada com base em pixels renderizados e interação. Apresentamos o ReLook, um framework de aprendizado por reforço agentivo e baseado em visão que capacita um agente a fechar um ciclo robusto de geração--diagnóstico--refinamento ao invocar um LLM multimodal (MLLM) como ferramenta. Durante o treinamento, o agente utiliza o MLLM em loop tanto como um crítico visual—avaliando o código com capturas de tela—quanto como uma fonte de feedback acionável e baseado em visão; uma regra estrita de zero-recompensa para renders inválidos ancoram a renderização e previnem a manipulação de recompensas. Para evitar o colapso comportamental, introduzimos a Otimização Forçada, uma regra estrita de aceitação que admite apenas revisões que melhoram, gerando trajetórias monotonicamente melhores. Na inferência, desacoplamos o crítico e executamos um ciclo leve de autoedição sem crítico, mantendo a latência comparável à decodificação base enquanto retém a maior parte dos ganhos. Em três benchmarks amplamente utilizados, o ReLook consistentemente supera as linhas de base fortes na geração de código de front-end baseado em visão, destacando os benefícios da percepção agentiva, recompensas visuais e o desacoplamento entre treinamento e inferência.
Como devemos avaliar a robustez das defesas dos modelos de linguagem? As defesas atuais contra jailbreaks e injeções de prompt (que visam impedir que um atacante elicie conhecimento prejudicial ou acione remotamente ações maliciosas, respectivamente) são tipicamente avaliadas contra um conjunto estático de strings de ataque prejudiciais ou contra métodos de otimização computacionalmente fracos que não foram projetados considerando a defesa. Argumentamos que esse processo de avaliação é falho. Em vez disso, devemos avaliar as defesas contra atacantes adaptativos que modificam explicitamente sua estratégia de ataque para contornar o design da defesa, enquanto investem recursos consideráveis para otimizar seu objetivo. Ao ajustar e escalar sistematicamente técnicas gerais de otimização—descida de gradiente, aprendizado por reforço, busca aleatória e exploração guiada por humanos—contornamos 12 defesas recentes (baseadas em um conjunto diversificado de técnicas) com uma taxa de sucesso de ataque acima de 90% na maioria dos casos; importante destacar que a maioria das defesas originalmente relatava taxas de sucesso de ataque próximas a zero. Acreditamos que trabalhos futuros em defesa devem considerar ataques mais fortes, como os que descrevemos, para fazer afirmações confiáveis e convincentes sobre robustez.
Um paradigma de ajuste fino de modelos de linguagem (LM) baseia-se na criação de grandes conjuntos de dados de treinamento, sob a suposição de que alta quantidade e diversidade permitirão que os modelos generalizem para novas tarefas após o treinamento. Na prática, coletar grandes conjuntos de dados é ineficiente, e treinar neles é proibitivamente caro; pior ainda, não há garantia de que o modelo resultante lidará com cenários complexos ou generalizará melhor. Além disso, as técnicas existentes raramente avaliam se uma amostra de treinamento fornece informações novas ou é redundante com o conhecimento já adquirido pelo modelo, resultando em custos desnecessários. Neste trabalho, exploramos um novo método de autoaperfeiçoamento em tempo de teste para criar LMs agentivos mais eficazes e generalizáveis dinamicamente. O algoritmo proposto pode ser resumido em três etapas: (i) primeiro, identifica as amostras com as quais o modelo tem dificuldade (autoconsciência), (ii) então gera exemplos semelhantes a partir das amostras incertas detectadas (auto-aumento de dados), e (iii) usa essas novas amostras geradas no ajuste fino em tempo de teste (autoaperfeiçoamento). Estudamos duas variantes dessa abordagem: Autoaperfeiçoamento em Tempo de Teste (TT-SI), onde o mesmo modelo gera exemplos de treinamento adicionais a partir de seus próprios casos incertos e depois aprende com eles, e contrastamos essa abordagem com Destilação em Tempo de Teste (TT-D), onde um modelo mais forte gera exemplos semelhantes para casos incertos, permitindo que o aluno se adapte usando supervisão destilada. Avaliações empíricas em diferentes benchmarks de agentes demonstram que o TT-SI melhora o desempenho com um ganho absoluto de precisão de +5,48% em média em todos os benchmarks e supera outros métodos de aprendizado padrão, ainda usando 68x menos amostras de treinamento. Nossos resultados destacam a promessa do TT-SI, demonstrando o potencial de algoritmos de autoaperfeiçoamento em tempo de teste como um novo paradigma para construir agentes mais capazes em direção à auto-evolução.
Modelos de linguagem frequentemente mostram pouca ou nenhuma melhoria (ou seja, "saturação") quando treinados por meio de ajuste fino supervisionado convencional (SFT) em dados semelhantes aos que viram em seu conjunto de treinamento (por exemplo, MATH). Introduzimos uma nova estratégia de ajuste fino, STAT, para treinar um modelo estudante utilizando a capacidade de metacognição de um modelo de linguagem grande (LLM) mais forte como professor. O professor usa o conjunto de dados da tarefa para criar uma lista de habilidades necessárias para a tarefa e, em seguida, rotula cada ponto de dados com as habilidades exigidas (Didolkar et al., 2024). Ao monitorar as respostas do estudante, o professor cria um Perfil de Habilidades Faltantes para o estudante, rastreando com que frequência ele falhou em aplicar cada habilidade em suas respostas. Usamos essa ideia para construir um conjunto de treinamento modificado de uma das duas maneiras. No STAT-Sel, o professor usa um conjunto existente de exemplos de treinamento, mas os reajusta de forma adaptativa de acordo com o Perfil de Habilidades Faltantes. No STAT-Syn, o professor sintetiza exemplos adicionais envolvendo habilidades faltantes. Em experimentos extensivos com modelos Llama e Qwen, nossos métodos resultam em melhorias de até 7,5% no MATH, enquanto o SFT oferece apenas ganhos limitados. Além disso, o STAT melhora o desempenho em benchmarks fora da distribuição (por exemplo, AIME24/25, AMC23, etc.) em uma média de 4,6%. Crucialmente, descobrimos que o STAT é complementar ao RL via GRPO (Shao et al., 2024): após o modelo ser aprimorado usando o STAT para abordar lacunas de habilidades, o GRPO continua a adicionar ganhos adicionais. Concluímos que o treinamento adaptativo direcionado a habilidades deve melhorar amplamente os pipelines de treinamento atuais. Nosso código está disponível em: https://github.com/princeton-pli/STAT.
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado desempenho impressionante em tarefas complexas de raciocínio ao gerar explicações detalhadas em cadeia de pensamento (CoT). No entanto, essas respostas são frequentemente excessivamente longas, contendo etapas de raciocínio redundantes que aumentam o custo de inferência e reduzem a usabilidade. Controlar o comprimento do raciocínio gerado sem sacrificar a precisão permanece um desafio em aberto. Por meio de uma análise empírica sistemática, revelamos uma correlação positiva consistente entre a entropia do modelo e o comprimento da resposta em diferentes estágios de raciocínio em diversos LRMs: a fase de pensamento exibe maior entropia, refletindo um comportamento exploratório de respostas mais longas, enquanto a fase de resposta final mostra menor entropia, indicando uma solução mais determinística. Essa observação sugere que a entropia em diferentes estágios de raciocínio pode servir como um controle para equilibrar concisão e desempenho. Com base nessa percepção, este artigo introduz o Mecanismo de Recompensa Consciente da Entropia de Fase (PEAR), um mecanismo de recompensa que incorpora a entropia dependente da fase no design da recompensa. Em vez de tratar todos os tokens de forma uniforme, o PEAR penaliza a entropia excessiva durante a fase de pensamento e permite uma exploração moderada na fase de resposta final, o que incentiva os modelos a gerar traços de raciocínio concisos que mantêm flexibilidade suficiente para resolver a tarefa corretamente. Isso possibilita o controle adaptativo do comprimento da resposta sem depender de metas explícitas de comprimento ou regras rígidas de truncamento. Experimentos extensos em quatro benchmarks demonstram que o PEAR reduz consistentemente o comprimento da resposta enquanto mantém uma precisão competitiva em diferentes escalas de modelos. Além disso, o PEAR demonstra forte robustez fora da distribuição (OOD) além da distribuição de treinamento. Nosso código está disponível em: https://github.com/iNLP-Lab/PEAR.
Comparar o desempenho humano e de modelos oferece uma perspectiva valiosa para entender os pontos fortes e as limitações dos modelos de embeddings, destacando onde eles têm sucesso e onde falham em capturar significado e nuances. No entanto, tais comparações raramente são feitas, pois o desempenho humano em tarefas de embeddings é difícil de medir. Para preencher essa lacuna, introduzimos o HUME: Framework de Avaliação Humana para Embeddings de Texto. Embora frameworks como o MTEB forneçam uma avaliação ampla de modelos, eles carecem de estimativas confiáveis do desempenho humano, limitando a interpretabilidade das pontuações dos modelos. Medimos o desempenho humano em 16 conjuntos de dados do MTEB, abrangendo reranking, classificação, clustering e similaridade semântica textual em línguas de alta e baixa recursos linguisticamente diversas. Os humanos alcançam um desempenho médio de 77,6% em comparação com 80,1% do melhor modelo de embedding, embora a variação seja substancial: os modelos atingem desempenho próximo ao máximo em alguns conjuntos de dados, enquanto lutam em outros, sugerindo problemas nos conjuntos de dados e revelando deficiências em línguas de baixa recursos. Fornecemos baselines de desempenho humano, insights sobre padrões de dificuldade de tarefas e um framework de avaliação extensível que permite uma interpretação mais significativa do modelo e informa o desenvolvimento tanto de modelos quanto de benchmarks. Nosso código, conjunto de dados e leaderboard estão publicamente disponíveis em https://github.com/embeddings-benchmark/mteb.
Os modelos generativos formam a espinha dorsal do aprendizado de máquina moderno, sustentando sistemas de ponta em aplicações de texto, visão e multimodais. Embora a Estimativa de Máxima Verossimilhança tenha tradicionalmente servido como o paradigma de treinamento dominante, trabalhos recentes destacaram suas limitações, particularmente em generalização e suscetibilidade ao esquecimento catastrófico em comparação com técnicas de Aprendizado por Reforço, como métodos de Gradiente de Política. No entanto, essas abordagens dependem de sinais de recompensa explícitos, que muitas vezes não estão disponíveis na prática, deixando em aberto o problema fundamental de como alinhar modelos generativos quando apenas conjuntos de dados de alta qualidade estão acessíveis. Neste trabalho, abordamos esse desafio por meio de uma estrutura de Otimização Bilevel, onde a função de recompensa é tratada como a variável de otimização de um problema de nível externo, enquanto um objetivo de gradiente de política define o nível interno. Em seguida, conduzimos uma análise teórica desse problema de otimização em um cenário tratável e extraímos insights que, como demonstramos, se generalizam para aplicações como classificação tabular e aprendizado por reforço baseado em modelo. Liberamos o código em https://github.com/abenechehab/nll_to_po.
Quando um assistente de IA lembra que Sarah é uma mãe solteira que trabalha em dois empregos, ele interpreta o estresse dela de forma diferente do que se ela fosse uma executiva rica? À medida que os sistemas de IA personalizados incorporam cada vez mais a memória de longo prazo do usuário, compreender como essa memória molda o raciocínio emocional é crucial. Investigamos como a memória do usuário afeta a inteligência emocional em modelos de linguagem de grande escala (LLMs) avaliando 15 modelos em testes de inteligência emocional validados por humanos. Descobrimos que cenários idênticos associados a diferentes perfis de usuário produzem interpretações emocionais sistematicamente divergentes. Em cenários emocionais independentes do usuário validados e diversos perfis de usuários, surgiram vieses sistemáticos em vários LLMs de alto desempenho, onde perfis privilegiados receberam interpretações emocionais mais precisas. Além disso, os LLMs demonstram disparidades significativas em fatores demográficos em tarefas de compreensão emocional e recomendações de suporte, indicando que os mecanismos de personalização podem incorporar hierarquias sociais no raciocínio emocional dos modelos. Esses resultados destacam um desafio fundamental para a IA aprimorada por memória: sistemas projetados para personalização podem inadvertidamente reforçar desigualdades sociais.
A compreensão intuitiva da física em modelos de difusão de vídeo desempenha um papel essencial na construção de simuladores de mundo fisicamente plausíveis de propósito geral. No entanto, avaliar com precisão essa capacidade continua sendo uma tarefa desafiadora devido à dificuldade de separar a correção física da aparência visual na geração. Para tanto, introduzimos o LikePhys, um método livre de treinamento que avalia a física intuitiva em modelos de difusão de vídeo, distinguindo vídeos fisicamente válidos e impossíveis usando o objetivo de remoção de ruído como um substituto de verossimilhança baseado em ELBO (Evidence Lower Bound) em um conjunto de dados curado de pares válidos-inválidos. Ao testar em nosso benchmark construído de doze cenários abrangendo quatro domínios da física, mostramos que nossa métrica de avaliação, o Erro de Preferência de Plausibilidade (PPE), demonstra uma forte alinhamento com a preferência humana, superando os avaliadores de última geração. Em seguida, avaliamos sistematicamente a compreensão intuitiva da física nos modelos atuais de difusão de vídeo. Nosso estudo ainda analisa como o design do modelo e as configurações de inferência afetam a compreensão intuitiva da física e destaca variações de capacidade específicas de domínio entre as leis físicas. Resultados empíricos mostram que, apesar dos modelos atuais enfrentarem dificuldades com dinâmicas complexas e caóticas, há uma clara tendência de melhoria na compreensão da física à medida que a capacidade do modelo e as configurações de inferência escalam.
Gerar avatares humanos 3D realistas e controláveis é um desafio de longa data, especialmente ao abranger amplas faixas de atributos como etnia, idade, estilos de vestuário e formas corporais detalhadas. Capturar e anotar grandes conjuntos de dados humanos para treinar modelos generativos é proibitivamente caro e limitado em escala e diversidade. A questão central que abordamos neste artigo é: Modelos de base existentes podem ser destilados para gerar dados humanos 3D teoricamente ilimitados e ricamente anotados? Apresentamos o InfiniHuman, um framework que sinergicamente destila esses modelos para produzir dados humanos ricamente anotados a um custo mínimo e com escalabilidade teoricamente ilimitada. Propomos o InfiniHumanData, um pipeline totalmente automático que aproveita modelos de visão-linguagem e geração de imagens para criar um conjunto de dados multimodal em grande escala. Um estudo com usuários mostra que nossas identidades geradas automaticamente são indistinguíveis de renderizações de escaneamentos. O InfiniHumanData contém 111 mil identidades abrangendo uma diversidade sem precedentes. Cada identidade é anotada com descrições textuais de múltiplas granularidades, imagens RGB de múltiplas vistas, imagens detalhadas de roupas e parâmetros de forma corporal SMPL. Com base nesse conjunto de dados, propomos o InfiniHumanGen, um pipeline generativo baseado em difusão condicionado em texto, forma corporal e ativos de vestuário. O InfiniHumanGen permite a geração rápida, realista e precisamente controlável de avatares. Experimentos extensivos demonstram melhorias significativas em relação aos métodos state-of-the-art em qualidade visual, velocidade de geração e controlabilidade. Nossa abordagem permite a geração de avatares de alta qualidade com controle refinado em uma escala efetivamente ilimitada por meio de uma solução prática e acessível. Disponibilizaremos publicamente o pipeline de geração automática de dados, o conjunto de dados abrangente InfiniHumanData e os modelos InfiniHumanGen em https://yuxuan-xue.com/infini-human.
Dados de pré-treinamento de alta qualidade são o combustível fóssil dos grandes modelos de linguagem (LLMs), mas suas reservas estão se esgotando para os modelos de ponta. Neste artigo, apresentamos o RePro, um método inovador de reciclagem da web que treina um modelo de linguagem relativamente pequeno com aprendizado por reforço para gerar reformulações eficazes e fiéis de dados de pré-treinamento. Especificamente, projetamos uma recompensa de qualidade e três recompensas de fidelidade, otimizando o reformulador de LM para converter dados orgânicos em reformulações de alta qualidade, mantendo sua semântica e estrutura principais. Em nosso experimento, treinamos um reformulador de 4B para reciclar 72B tokens amostrados do DCLM-RefinedWeb. Os resultados de pré-treinamento em modelos de 400M e 1.4B demonstram que o RePro proporciona ganhos de precisão relativos de 4,7% a 14,0% em relação à linha de base apenas orgânica em 22 tarefas subsequentes. O RePro também supera o ReWire, o método de reciclagem da web mais avançado que solicita um reformulador de 70B, bem como a linha de base orgânica com um pool de dados 4 vezes maior. Experimentos com diferentes quantidades de dados reciclados destacam que o RePro melhora a eficiência dos dados orgânicos em 2-3 vezes. Análises individuais e distribucionais validam que o RePro preserva mais informações críticas e reflete fielmente as características dos dados orgânicos em comparação com métodos baseados em solicitação. Juntos, esses resultados mostram que o RePro fornece um caminho eficiente e controlável para aproveitar efetivamente o combustível fóssil do pré-treinamento de LLM. Disponibilizamos nosso código, reformulador e dados reciclados em https://github.com/cxcscmu/RePro.
Modelos de visão pré-treinados (VFMs) avançam o aprendizado robótico por meio de representações visuais ricas, porém, VFMs individuais geralmente se destacam apenas em domínios específicos, limitando a generalidade entre tarefas. A destilação de múltiplos VFMs em uma representação unificada para políticas pode mitigar essa limitação, mas frequentemente resulta em uma seleção de características inflexível e específica para cada tarefa, exigindo um retreinamento completo e custoso para incorporar conhecimento do domínio robótico. Propomos o VER, um transformer de Visão Especializada para aprendizado robótico. Durante o pré-treinamento, o VER destila múltiplos VFMs em uma biblioteca de especialistas visuais. Em seguida, ele ajusta apenas uma rede de roteamento leve (menos de 0,4% dos parâmetros) para selecionar dinamicamente especialistas relevantes para a tarefa a partir da biblioteca pré-treinada, aplicando-os a tarefas robóticas subsequentes. Além disso, introduzimos o Roteamento de Especialistas por Fragmentos com Anelamento Top-K Curricular para melhorar tanto a flexibilidade quanto a precisão da seleção dinâmica de especialistas. Adicionalmente, o VER suporta ajuste eficiente de parâmetros para utilização escalável de especialistas e integração adaptativa de conhecimento do domínio robótico. Em 17 tarefas robóticas diversas e múltiplas cabeças de política, o VER alcança desempenho de ponta. Observamos que o VER reduz outliers de grande norma em regiões irrelevantes para a tarefa (por exemplo, fundo) e se concentra em regiões críticas para a tarefa. Visualizações e códigos podem ser encontrados em https://yixiaowang7.github.io/ver_page/.
Modelos de Raciocínio de Grande Escala (LRMs) se destacam em raciocínios complexos, mas são tradicionalmente avaliados em cenários estáticos, de "mundo congelado": as respostas do modelo são assumidas como instantâneas, e o contexto de uma solicitação é presumido como imutável durante a duração da resposta. Embora isso seja geralmente verdadeiro para tarefas de curto prazo, a suposição de "mundo congelado" se desfaz em tarefas modernas de raciocínio, como programação assistida, onde os modelos podem levar horas para refletir sobre problemas e o código pode mudar drasticamente desde o momento em que o modelo começa a pensar até a sua saída final. Neste trabalho, desafiamos a suposição de mundo congelado e avaliamos a robustez dos LRMs em dois cenários dinâmicos realistas: interrupções, que testam a qualidade das saídas parciais do modelo com um orçamento limitado, e contexto dinâmico, que testa a adaptação do modelo a mudanças durante a execução. Em benchmarks de matemática e programação que exigem raciocínio de longo prazo, as avaliações estáticas superestimam consistentemente a robustez: mesmo os LRMs de última geração, que alcançam alta precisão em cenários estáticos, podem falhar de forma imprevisível quando interrompidos ou expostos a mudanças de contexto, com o desempenho caindo até 60% quando atualizações são introduzidas tardiamente no processo de raciocínio. Nossa análise ainda revela vários novos modos de falha, incluindo vazamento de raciocínio, onde os modelos incorporam o raciocínio em sua resposta final quando interrompidos; pânico, onde, sob pressão de tempo, os modelos abandonam completamente o raciocínio e retornam respostas incorretas; e autodúvida, onde o desempenho se degrada ao incorporar informações atualizadas.
Embora os modelos de texto-para-imagem (T2I) possam sintetizar imagens de alta qualidade, seu desempenho se degrada significativamente quando solicitados com entidades novas ou fora da distribuição (OOD, do inglês "out-of-distribution") devido a limitações inerentes de conhecimento. Apresentamos o World-To-Image, uma nova estrutura que preenche essa lacuna ao capacitar a geração T2I com conhecimento do mundo orientado por agentes. Projetamos um agente que busca dinamicamente na web para recuperar imagens de conceitos desconhecidos pelo modelo base. Essas informações são então usadas para realizar uma otimização multimodal de prompts, direcionando poderosos backbones gerativos para uma síntese precisa. De forma crítica, nossa avaliação vai além das métricas tradicionais, utilizando avaliações modernas como LLMGrader e ImageReward para medir a verdadeira fidelidade semântica. Nossos experimentos mostram que o World-To-Image supera substancialmente os métodos state-of-the-art tanto no alinhamento semântico quanto na estética visual, alcançando uma melhoria de +8,1% na precisão em relação ao prompt em nosso benchmark NICE. Nossa estrutura alcança esses resultados com alta eficiência em menos de três iterações, abrindo caminho para sistemas T2I que podem refletir melhor o mundo real em constante mudança. Nosso código de demonstração está disponível aqui: https://github.com/mhson-kyle/World-To-Image.
Os mecanismos de reação orgânica são as reações elementares passo a passo pelas quais os reagentes formam intermediários e produtos, sendo fundamentais para compreender a reatividade química e projetar novas moléculas e reações. Embora os grandes modelos de linguagem (LLMs) tenham mostrado potencial na compreensão de tarefas químicas, como o design de sínteses, não está claro até que ponto isso reflete capacidades genuínas de raciocínio químico, ou seja, a habilidade de gerar intermediários válidos, manter a consistência química e seguir caminhos de múltiplos passos logicamente coerentes. Abordamos isso introduzindo o oMeBench, o primeiro benchmark em larga escala e curado por especialistas para raciocínio de mecanismos orgânicos em química orgânica. Ele compreende mais de 10.000 passos mecanísticos anotados com intermediários, rótulos de tipo e classificações de dificuldade. Além disso, para avaliar a capacidade dos LLMs com maior precisão e permitir uma pontuação refinada, propomos o oMeS, um framework de avaliação dinâmica que combina lógica em nível de passo e similaridade química. Analisamos o desempenho dos LLMs de última geração, e nossos resultados mostram que, embora os modelos atuais exibam intuição química promissora, eles lutam com o raciocínio correto e consistente de múltiplos passos. Notavelmente, descobrimos que o uso de estratégias de prompting e o ajuste fino de um modelo especialista em nosso conjunto de dados proposto aumentam o desempenho em 50% em relação ao modelo líder de código fechado. Esperamos que o oMeBench sirva como uma base rigorosa para avançar os sistemas de IA em direção ao raciocínio químico genuíno.
Agentes conversacionais modernos como ChatGPT e Alexa+ dependem de políticas predefinidas que especificam metadados, estilos de resposta e regras de uso de ferramentas. À medida que esses sistemas baseados em LLM (Large Language Models) se expandem para suportar diversas consultas de negócios e usuários, tais políticas, frequentemente implementadas como prompts em contexto, estão se tornando cada vez mais complexas e extensas, dificultando a adesão fiel e impondo grandes custos computacionais fixos. Com o surgimento de agentes multimodais, políticas que governam comportamentos visuais e multimodais são críticas, mas ainda pouco estudadas. Trabalhos anteriores de compressão de prompts se concentram principalmente em encurtar modelos de tarefas e demonstrações, enquanto estudos existentes sobre alinhamento de políticas focam apenas em regras de segurança baseadas em texto. Introduzimos a Internalização de Políticas Multimodais (Multimodal Policy Internalization - MPI), uma nova tarefa que internaliza políticas multimodais intensivas em raciocínio nos parâmetros do modelo, permitindo uma adesão mais forte às políticas sem a necessidade de incluí-las durante a inferência. A MPI apresenta desafios únicos de dados e algoritmos. Construímos dois conjuntos de dados abrangendo tarefas sintéticas e do mundo real de tomada de decisão e uso de ferramentas e propomos o TriMPI, uma estrutura de treinamento em três estágios. O TriMPI primeiro injeta conhecimento de políticas por meio de pré-treinamento contínuo, depois realiza ajuste fino supervisionado e, finalmente, aplica o PolicyRollout, uma extensão de aprendizado por reforço no estilo GRPO que aumenta os rollouts com respostas conscientes das políticas para exploração fundamentada. O TriMPI alcança ganhos notáveis em precisão de ponta a ponta, generalização e robustez ao esquecimento. Como o primeiro trabalho sobre internalização de políticas multimodais, fornecemos conjuntos de dados, receitas de treinamento e avaliações abrangentes para fomentar pesquisas futuras. Página do projeto: https://mikewangwzhl.github.io/TriMPI.
Modelos de Linguagem de Grande Escala (LLMs) gerais se destacam em tarefas de raciocínio, mas aqueles aprimorados para tradução enfrentam dificuldades em tarefas de raciocínio. Para resolver isso, propomos uma nova abordagem de aprimoramento para tradução que começa com modelos de instrução e aplica ajuste seletivo de camadas apenas em dados paralelos. Seguindo esse pipeline, introduzimos os modelos Qwen3-XPlus, que demonstram melhorias significativas no desempenho de tradução em idiomas de alta e baixa disponibilidade de recursos, alcançando mais de 15 spBLEU e mais de 40 xComet em idiomas de baixa disponibilidade de recursos, como o suaíli. Curiosamente, ao treinar apenas com pequenos conjuntos de dados paralelos, o Qwen3-XPlus alcança uma melhoria média de mais de 1 ponto em 7 tarefas multilingues, mantendo proficiência comparável ao modelo de instrução Qwen3 em 15 conjuntos de dados populares de raciocínio. Este trabalho oferece uma abordagem promissora para o aprimoramento multilingue, reduzindo significativamente a complexidade e aumentando a acessibilidade para uma gama mais ampla de idiomas. O código e o modelo estão publicamente disponíveis.
A geração criativa é a síntese de amostras novas, surpreendentes e valiosas que refletem a intenção do usuário, mas não podem ser previstas antecipadamente. Essa tarefa visa expandir a imaginação humana, permitindo a descoberta de conceitos visuais que existem nos espaços inexplorados entre domínios familiares. Embora os modelos de difusão texto-imagem se destaquem na renderização de cenas foto-realistas que correspondem fielmente às solicitações do usuário, eles ainda têm dificuldade em gerar conteúdo genuinamente novo. As abordagens existentes para aprimorar a criatividade gerativa ou dependem da interpolação de características de imagem, o que restringe a exploração a categorias predefinidas, ou exigem procedimentos demorados, como otimização de embeddings ou ajuste fino do modelo. Propomos o VLM-Guided Adaptive Negative-Prompting, um método sem treinamento, aplicado durante a inferência, que promove a geração de imagens criativas enquanto preserva a validade do objeto gerado. Nossa abordagem utiliza um modelo de visão e linguagem (VLM) que analisa as saídas intermediárias do processo de geração e o direciona de forma adaptativa para longe de conceitos visuais convencionais, incentivando o surgimento de resultados novos e surpreendentes. Avaliamos a criatividade tanto pela novidade quanto pela validade, utilizando métricas estatísticas no espaço de embeddings do CLIP. Por meio de extensos experimentos, mostramos ganhos consistentes em novidade criativa com sobrecarga computacional insignificante. Além disso, ao contrário dos métodos existentes que geram principalmente objetos únicos, nossa abordagem se estende a cenários complexos, como a geração de conjuntos coerentes de objetos criativos e a preservação da criatividade em prompts composicionais elaborados. Nosso método se integra perfeitamente aos pipelines de difusão existentes, oferecendo uma rota prática para produzir resultados criativos que vão além das limitações das descrições textuais.
A edição de vídeo guiada por instruções emergiu como uma direção de pesquisa em rápido avanço, oferecendo novas oportunidades para a transformação intuitiva de conteúdo, ao mesmo tempo em que apresenta desafios significativos para uma avaliação sistemática. Os benchmarks existentes para edição de vídeo não suportam adequadamente a avaliação da edição guiada por instruções e ainda sofrem com diversidade limitada de fontes, cobertura restrita de tarefas e métricas de avaliação incompletas. Para abordar essas limitações, introduzimos o IVEBench, um conjunto de benchmarks moderno especificamente projetado para a avaliação de edição de vídeo guiada por instruções. O IVEBench compreende um banco de dados diversificado de 600 vídeos de alta qualidade, abrangendo sete dimensões semânticas e cobrindo durações de vídeo que variam de 32 a 1.024 quadros. Ele ainda inclui 8 categorias de tarefas de edição com 35 subcategorias, cujos prompts são gerados e refinados por meio de modelos de linguagem de grande escala e revisão de especialistas. Crucialmente, o IVEBench estabelece um protocolo de avaliação tridimensional que abrange qualidade de vídeo, conformidade com as instruções e fidelidade do vídeo, integrando tanto métricas tradicionais quanto avaliações baseadas em modelos de linguagem multimodal de grande escala. Experimentos extensivos demonstram a eficácia do IVEBench na avaliação de métodos de edição de vídeo guiada por instruções de última geração, mostrando sua capacidade de fornecer resultados de avaliação abrangentes e alinhados com a percepção humana.
No cerne da Deep Research está a mineração de conhecimento, a tarefa de extrair informações estruturadas de textos massivos e não estruturados em resposta a instruções do usuário. Modelos de linguagem de grande escala (LLMs) se destacam na interpretação dessas instruções, mas são proibitivamente caros para implantação em larga escala, enquanto pipelines tradicionais de classificadores e extratores permanecem eficientes, porém frágeis e incapazes de generalizar para novas tarefas. Apresentamos o Falconer, um framework colaborativo que combina o raciocínio agentivo dos LLMs com modelos proxy leves para mineração de conhecimento escalável. No Falconer, os LLMs atuam como planejadores, decompondo instruções do usuário em pipelines executáveis, e como anotadores, gerando supervisão para treinar proxies menores. O framework unifica classificação e extração em duas operações atômicas, get label e get span, permitindo que um único modelo de seguimento de instruções substitua múltiplos componentes específicos para tarefas. Para avaliar a consistência entre os modelos proxy incubados pelo Falconer e as anotações fornecidas por humanos e grandes modelos, construímos novos benchmarks que cobrem tanto o planejamento quanto a execução de ponta a ponta. Experimentos mostram que o Falconer se aproxima da precisão dos LLMs de última geração no seguimento de instruções, enquanto reduz o custo de inferência em até 90% e acelera a mineração de conhecimento em larga escala em mais de 20 vezes, oferecendo uma base eficiente e escalável para a Deep Research.
Os paradigmas típicos de pós-treinamento para Grandes Modelos de Visão e Linguagem (LVLMs) incluem Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Recompensas Verificáveis (RLVR). O SFT utiliza orientação externa para injetar novos conhecimentos, enquanto o RLVR emprega reforço interno para aprimorar as capacidades de raciocínio e o desempenho geral. No entanto, nossa análise revela que o SFT frequentemente resulta em desempenho subótimo, enquanto o RLVR enfrenta dificuldades em tarefas que ultrapassam a base de conhecimento interno do modelo. Para abordar essas limitações, propomos o ViSurf (Ajuste Fino Supervisionado e por Reforço Visual), um paradigma unificado de pós-treinamento que integra os pontos fortes tanto do SFT quanto do RLVR em uma única etapa. Analisamos a derivação dos objetivos do SFT e do RLVR para estabelecer o objetivo do ViSurf, oferecendo uma perspectiva unificada sobre esses dois paradigmas. O cerne do ViSurf envolve a injeção de rótulos verdadeiros nos rollouts do RLVR, fornecendo assim supervisão externa e reforço interno simultaneamente. Além disso, introduzimos três novas estratégias de controle de recompensa para estabilizar e otimizar o processo de treinamento. Experimentos extensos em diversos benchmarks demonstram a eficácia do ViSurf, superando tanto o SFT individual, o RLVR, quanto a abordagem em duas etapas SFT \textrightarrow RLVR. Análises detalhadas corroboram esses resultados, validando a derivação e os princípios de design do ViSurf.
O aprendizado em contexto permite que modelos grandes se adaptem a novas tarefas a partir de algumas demonstrações, mas tem mostrado sucesso limitado no design molecular. Bancos de dados existentes, como o ChEMBL, contêm propriedades moleculares abrangendo milhões de ensaios biológicos, mas os dados rotulados para cada propriedade ainda são escassos. Para abordar essa limitação, introduzimos modelos de difusão condicionados por demonstrações (DemoDiff), que definem contextos de tarefas usando um pequeno conjunto de exemplos de moléculas e pontuações, em vez de descrições textuais. Essas demonstrações orientam um Transformer de remoção de ruído para gerar moléculas alinhadas com propriedades-alvo. Para um pré-treinamento escalável, desenvolvemos um novo tokenizador molecular com Codificação de Pares de Nós que representa moléculas no nível de motivos, exigindo 5,5 vezes menos nós. Curamos um conjunto de dados contendo milhões de tarefas de contexto de várias fontes, abrangendo tanto fármacos quanto materiais, e pré-treinamos um modelo de 0,7 bilhão de parâmetros nele. Em 33 tarefas de design em seis categorias, o DemoDiff iguala ou supera modelos de linguagem 100-1000 vezes maiores e alcança uma classificação média de 3,63, comparado a 5,25-10,20 para abordagens específicas de domínio. Esses resultados posicionam o DemoDiff como um modelo de fundação molecular para o design molecular em contexto. Nosso código está disponível em https://github.com/liugangcode/DemoDiff.
Nos últimos anos, enquanto modelos de linguagem multimodal baseados em nuvem, como QwenVL, InternVL, GPT-4o, Gemini e Claude Sonnet, demonstraram desempenho excepcional com tamanhos de modelo enormes, atingindo centenas de bilhões de parâmetros, eles superam significativamente as limitações de memória, consumo de energia e capacidade computacional de dispositivos de borda, como smartphones. Este artigo apresenta o AndesVL, um conjunto de modelos de linguagem multimodal para dispositivos móveis com 0,6B a 4B de parâmetros, baseados no modelo de linguagem Qwen3 e em vários codificadores visuais. Descrevemos detalhadamente as arquiteturas dos modelos, o pipeline de treinamento e os dados de treinamento do AndesVL, que alcança desempenho de primeira linha em uma ampla gama de benchmarks de código aberto, incluindo áreas como compreensão de imagens ricas em texto, raciocínio e matemática, compreensão de múltiplas imagens, VQA geral, mitigação de alucinações, compreensão multilingue e tarefas relacionadas a interfaces gráficas, quando comparado com os modelos state-of-the-art de escala similar. Além disso, introduzimos uma abordagem de LoRA 1+N.
A segmentação semântica precisa de nuvens de pontos obtidas por varredura a laser terrestre (TLS) é limitada pela anotação manual custosa. Propomos um pipeline semi-automatizado e consciente da incerteza que integra projeção esférica, enriquecimento de características, aprendizado conjunto e anotação direcionada para reduzir o esforço de rotulagem, mantendo alta precisão. Nossa abordagem projeta pontos 3D em uma grade esférica 2D, enriquece pixels com características de múltiplas fontes e treina um conjunto de redes de segmentação para produzir pseudo-rótulos e mapas de incerteza, sendo que estes últimos orientam a anotação de regiões ambíguas. As saídas 2D são retroprojetadas para 3D, gerando nuvens de pontos densamente anotadas, apoiadas por uma suíte de visualização de três níveis (mapas de características 2D, nuvens de pontos coloridas 3D e esferas virtuais compactas) para triagem rápida e orientação do revisor. Utilizando esse pipeline, construímos o Mangrove3D, um conjunto de dados de segmentação semântica TLS para florestas de mangue. Avaliamos ainda a eficiência dos dados e a importância das características para abordar duas questões-chave: (1) quantos dados anotados são necessários e (2) quais características são mais relevantes. Os resultados mostram que o desempenho satura após ~12 varreduras anotadas, as características geométricas contribuem mais, e pilhas compactas de nove canais capturam quase todo o poder discriminativo, com a média de Intersecção sobre União (mIoU) estabilizando em torno de 0,76. Por fim, confirmamos a generalização de nossa estratégia de enriquecimento de características por meio de testes cruzados nos conjuntos de dados ForestSemantic e Semantic3D. Nossas contribuições incluem: (i) um pipeline robusto e consciente da incerteza para anotação TLS com ferramentas de visualização; (ii) o conjunto de dados Mangrove3D; e (iii) orientação empírica sobre eficiência de dados e importância de características, permitindo assim a segmentação escalável e de alta qualidade de nuvens de pontos TLS para monitoramento ecológico e além. O conjunto de dados e os scripts de processamento estão disponíveis publicamente em https://fz-rit.github.io/through-the-lidars-eye/.
Neste artigo, apresentamos o primeiro estudo em larga escala que investiga se o código JavaScript gerado por Modelos de Linguagem de Grande Escala (LLMs) pode revelar qual modelo o produziu, permitindo a atribuição confiável de autoria e a identificação de modelos. Com o rápido aumento do código gerado por IA, a atribuição está desempenhando um papel crucial na detecção de vulnerabilidades, sinalização de conteúdo malicioso e garantia de responsabilidade. Embora a detecção de IA versus humanos geralmente trate a IA como uma única categoria, mostramos que LLMs individuais deixam assinaturas estilísticas únicas, mesmo entre modelos pertencentes à mesma família ou com tamanho de parâmetros semelhante. Para isso, introduzimos o LLM-NodeJS, um conjunto de dados de 50.000 programas back-end em Node.js de 20 grandes modelos de linguagem. Cada programa possui quatro variantes transformadas, resultando em 250.000 amostras únicas de JavaScript e duas representações adicionais (JSIR e AST) para diversas aplicações de pesquisa. Utilizando este conjunto de dados, avaliamos classificadores tradicionais de aprendizado de máquina contra codificadores Transformer ajustados e introduzimos o CodeT5-JSA, uma arquitetura personalizada derivada do modelo CodeT5 de 770 milhões de parâmetros, com seu decodificador removido e uma cabeça de classificação modificada. Ele alcança 95,8% de precisão na atribuição de cinco classes, 94,6% em dez classes e 88,5% em vinte classes, superando outros modelos testados, como BERT, CodeBERT e Longformer. Demonstramos que os classificadores capturam regularidades estilísticas mais profundas no fluxo de dados e na estrutura do programa, em vez de depender de características superficiais. Como resultado, a atribuição permanece eficaz mesmo após ofuscação, remoção de comentários e transformações pesadas no código. Para apoiar a ciência aberta e a reprodutibilidade, disponibilizamos o conjunto de dados LLM-NodeJS, scripts de treinamento no Google Colab e todos os materiais relacionados no GitHub: https://github.com/LLM-NodeJS-dataset.
Melhorias na construção de modelos, incluindo barreiras de segurança reforçadas, permitem que os modelos de linguagem de grande escala (LLMs, na sigla em inglês) passem cada vez mais por verificações padrão de segurança. No entanto, os LLMs às vezes revelam comportamentos prejudiciais, como expressar pontos de vista racistas, durante conversas. Para analisar isso de forma sistemática, introduzimos o CoBia, um conjunto de ataques adversariais leves que nos permitem refinar o escopo das condições sob as quais os LLMs se desviam de comportamentos normativos ou éticos em conversas. O CoBia cria uma conversa construída na qual o modelo emite uma afirmação tendenciosa sobre um grupo social. Em seguida, avaliamos se o modelo consegue se recuperar da afirmação tendenciosa fabricada e rejeitar perguntas de acompanhamento enviesadas. Avaliamos 11 LLMs de código aberto e proprietários em relação às suas saídas relacionadas a seis categorias sociodemográficas relevantes para a segurança individual e o tratamento justo, ou seja, gênero, raça, religião, nacionalidade, orientação sexual e outras. Nossa avaliação é baseada em métricas de viés estabelecidas para LLMs, e comparamos os resultados com julgamentos humanos para delimitar a confiabilidade e o alinhamento dos LLMs. Os resultados sugerem que conversas intencionalmente construídas revelam de forma confiável a amplificação de viés e que os LLMs frequentemente falham em rejeitar perguntas de acompanhamento enviesadas durante o diálogo. Essa forma de teste de estresse destaca vieses profundamente embutidos que podem ser revelados por meio da interação. O código e os artefatos estão disponíveis em https://github.com/nafisenik/CoBia.
O diagnóstico de uma imagem de lâmina completa é um processo interativo e multifásico que envolve mudanças de ampliação e movimentação entre campos. Embora os modelos fundamentais recentes de patologia sejam robustos, ainda faltam sistemas agentes práticos que decidam qual campo examinar a seguir, ajustem a ampliação e forneçam diagnósticos explicáveis. O obstáculo são os dados: supervisão escalável e clinicamente alinhada do comportamento de visualização de especialistas, que é tácita e baseada em experiência, não escrita em livros didáticos ou online e, portanto, ausente do treinamento de grandes modelos de linguagem. Apresentamos o AI Session Recorder, que funciona com visualizadores padrão de WSI para registrar de forma discreta a navegação rotineira e converter os logs de visualização em comandos comportamentais padronizados (inspecionar ou espiar em ampliações discretas) e caixas delimitadoras. Uma revisão leve com humano no loop transforma as justificativas elaboradas pela IA no conjunto de dados Pathology-CoT, uma forma de supervisão pareada de "onde olhar" e "por que importa" produzida com um tempo de rotulagem aproximadamente seis vezes menor. Usando esses dados comportamentais, construímos o Pathologist-o3, um agente de dois estágios que primeiro propõe regiões de interesse e depois realiza raciocínio guiado por comportamento. Na detecção de metástase em linfonodos gastrointestinais, ele alcançou 84,5% de precisão, 100,0% de recall e 75,4% de acurácia, superando o modelo OpenAI o3 state-of-the-art e generalizando entre backbones. Até onde sabemos, este constitui um dos primeiros sistemas agentes fundamentados em comportamento na patologia. Transformando logs de visualização cotidianos em supervisão escalável e validada por especialistas, nosso framework torna a patologia agentica prática e estabelece um caminho para IA clínica alinhada com humanos e passível de atualização.
A interpolação de vídeo cria transições suaves e naturais entre dois quadros de imagem, tornando-se uma ferramenta indispensável para edição de vídeo e síntese de vídeos de longa duração. Os trabalhos existentes nesse domínio são incapazes de gerar movimentos grandes, complexos ou intrincados. Em particular, eles não conseguem acomodar a versatilidade das intenções do usuário e geralmente carecem de controle refinado sobre os detalhes dos quadros intermediários, levando a um desalinhamento com a mente criativa. Para preencher essas lacunas, apresentamos o MultiCOIN, um framework de interpolação de vídeo que permite controles multimodais, incluindo transição e camadas de profundidade, trajetórias de movimento, prompts de texto e regiões alvo para localização de movimento, enquanto alcança um equilíbrio entre flexibilidade, facilidade de uso e precisão para interpolação de vídeo de alta granularidade. Para isso, adotamos a arquitetura Diffusion Transformer (DiT) como nosso modelo gerador de vídeo, devido à sua comprovada capacidade de gerar vídeos longos de alta qualidade. Para garantir a compatibilidade entre o DiT e nossos controles multimodais, mapeamos todos os controles de movimento em uma representação comum baseada em pontos, esparsa e amigável ao usuário, como entrada de vídeo/ruído. Além disso, para respeitar a variedade de controles que operam em diferentes níveis de granularidade e influência, separamos os controles de conteúdo e os controles de movimento em dois ramos para codificar as características necessárias antes de guiar o processo de remoção de ruído, resultando em dois geradores: um para movimento e outro para conteúdo. Por fim, propomos uma estratégia de treinamento em etapas para garantir que nosso modelo aprenda os controles multimodais de forma suave. Experimentos qualitativos e quantitativos extensivos demonstram que os controles multimodais permitem uma narrativa visual mais dinâmica, personalizável e contextualmente precisa.
Modelos de linguagem de grande escala (LLMs) podem responder corretamente "Quando Einstein nasceu?", mas falham em fornecer a mesma data ao escrever sobre a vida de Einstein, revelando uma inconsistência fundamental em como os modelos acessam conhecimento factual em diferentes complexidades de tarefas. Embora os modelos demonstrem precisão impressionante em benchmarks de resposta a perguntas factuais, a lacuna de confiabilidade entre consultas simples e complexas permanece pouco compreendida, minando sua confiabilidade. Neste trabalho, introduzimos o Alinhamento de Formato Curto-Longo para Resposta a Perguntas Factuais (SLAQ), uma estrutura de avaliação controlada que compara as respostas dos LLMs às mesmas perguntas factuais feitas (a) isoladamente (curto) versus (b) integradas em consultas complexas (longo). Analisando 16 LLMs em 600 consultas, encontramos um desalinhamento sistemático das respostas às consultas curtas e longas correspondentes. Além disso, descobrimos perda de precisão dependente da posição e efeitos de momentum, onde respostas corretas ou incorretas consecutivas criam padrões auto-reforçadores. Através de análise mecanicista, descobrimos que fatos alinhados ativam internos do modelo sobrepostos, e que métricas baseadas em similaridade mecanicista podem prever o alinhamento de respostas curtas-longas com até 78% de precisão. Nosso trabalho estabelece a consistência factual sobre a complexidade da consulta como um aspecto importante da confiabilidade dos LLMs e desafia as práticas atuais de avaliação, que implicitamente assumem que um bom desempenho em consultas factuais simples implica confiabilidade em tarefas de busca de conhecimento mais complexas também.