Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, propomos um novo paradigma de aprendizagem, denominado Chain-of-Model (CoM), que incorpora a relação causal nos estados ocultos de cada camada em um estilo de cadeia, introduzindo assim uma grande eficiência de escalonamento no treinamento do modelo e flexibilidade na inferência durante a implantação. Introduzimos o conceito de Chain-of-Representation (CoR), que formula os estados ocultos em cada camada como uma combinação de múltiplas sub-representações (ou seja, cadeias) no nível da dimensão oculta. Em cada camada, cada cadeia das representações de saída pode apenas visualizar todas as suas cadeias precedentes nas representações de entrada. Consequentemente, o modelo construído sobre o framework CoM pode escalar progressivamente o tamanho do modelo ao aumentar as cadeias com base nos modelos anteriores (ou seja, cadeias), e oferecer múltiplos sub-modelos de tamanhos variados para inferência elástica ao utilizar diferentes números de cadeias. Com base nesse princípio, desenvolvemos o Chain-of-Language-Model (CoLM), que incorpora a ideia do CoM em cada camada da arquitetura Transformer. Com base no CoLM, introduzimos ainda o CoLM-Air ao incorporar um mecanismo de compartilhamento de KV, que calcula todas as chaves e valores dentro da primeira cadeia e então os compartilha entre todas as cadeias. Esse design demonstra extensibilidade adicional, como permitir a troca contínua de modelos de linguagem, aceleração de preenchimento prévio e muito mais. Resultados experimentais demonstram que nossa família CoLM pode alcançar desempenho comparável ao Transformer padrão, ao mesmo tempo em que oferece maior flexibilidade, como escalonamento progressivo para melhorar a eficiência de treinamento e oferecer múltiplos tamanhos de modelos para inferência elástica, abrindo um novo caminho para a construção de modelos de linguagem. Nosso código será liberado futuramente em: https://github.com/microsoft/CoLM.
Recentemente, grandes modelos de raciocínio alcançaram desempenhos impressionantes em diversas tarefas ao empregar um pensamento profundo semelhante ao humano. No entanto, o processo de pensamento prolongado aumenta substancialmente a sobrecarga de inferência, tornando a eficiência um gargalo crítico. Neste trabalho, primeiro demonstramos que o NoThinking, que solicita ao modelo de raciocínio que pule o pensamento e gere diretamente a solução final, é uma escolha melhor para tarefas relativamente simples em termos de desempenho e eficiência. Motivados por isso, propomos o AdaptThink, um novo algoritmo de RL para ensinar modelos de raciocínio a escolher o modo de pensamento ideal de forma adaptativa com base na dificuldade do problema. Especificamente, o AdaptThink apresenta dois componentes principais: (1) um objetivo de otimização restrito que incentiva o modelo a escolher o NoThinking enquanto mantém o desempenho geral; (2) uma estratégia de amostragem por importância que equilibra as amostras de Thinking e NoThinking durante o treinamento on-policy, permitindo assim um início a frio e possibilitando que o modelo explore e aproveite ambos os modos de pensamento ao longo do processo de treinamento. Nossos experimentos indicam que o AdaptThink reduz significativamente os custos de inferência enquanto melhora ainda mais o desempenho. Notavelmente, em três conjuntos de dados matemáticos, o AdaptThink reduz o comprimento médio das respostas do DeepSeek-R1-Distill-Qwen-1.5B em 53% e melhora sua precisão em 2,4%, destacando o potencial da seleção adaptativa do modo de pensamento para otimizar o equilíbrio entre qualidade de raciocínio e eficiência. Nossos códigos e modelos estão disponíveis em https://github.com/THU-KEG/AdaptThink.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis, mas frequentemente enfrentam desafios em tarefas que exigem raciocínio sofisticado. Embora o prompting de Cadeia de Pensamento (Chain-of-Thought, CoT) melhore significativamente o raciocínio, ele gera indiscriminadamente etapas longas de raciocínio para todas as consultas, resultando em custos computacionais substanciais e ineficiência, especialmente para entradas mais simples. Para abordar essa questão crítica, introduzimos o AdaCoT (Adaptive Chain-of-Thought), um novo framework que permite aos LLMs decidir de forma adaptativa quando invocar o CoT. O AdaCoT enquadra o raciocínio adaptativo como um problema de otimização de Pareto, buscando equilibrar o desempenho do modelo com os custos associados à invocação do CoT (tanto em frequência quanto em sobrecarga computacional). Propomos um método baseado em Aprendizado por Reforço (Reinforcement Learning, RL), especificamente utilizando a Otimização de Política Proximal (Proximal Policy Optimization, PPO), para controlar dinamicamente o limite de decisão de ativação do CoT ao ajustar coeficientes de penalidade, permitindo que o modelo determine a necessidade do CoT com base na complexidade implícita da consulta. Uma contribuição técnica fundamental é o Mascaramento Seletivo de Perda (Selective Loss Masking, SLM), projetado para contrapor o colapso do limite de decisão durante o treinamento de RL em múltiplas etapas, garantindo uma ativação adaptativa robusta e estável. Resultados experimentais demonstram que o AdaCoT navega com sucesso pela fronteira de Pareto, alcançando reduções substanciais no uso do CoT para consultas que não exigem raciocínio elaborado. Por exemplo, em nosso conjunto de testes de tráfego de produção, o AdaCoT reduziu as taxas de ativação do CoT para apenas 3,18% e diminuiu os tokens médios de resposta em 69,06%, mantendo alto desempenho em tarefas complexas.
Modelos de Linguagem de Raciocínio, capazes de extensas cadeias de pensamento, demonstraram desempenho notável em tarefas que exigem inferência lógica complexa. No entanto, aplicar raciocínios elaborados para todas as consultas frequentemente resulta em ineficiências computacionais significativas, especialmente quando muitos problemas admitem soluções diretas. Isso motiva uma questão aberta: Os LLMs podem aprender quando pensar? Para responder a isso, propomos o Thinkless, uma estrutura aprendível que capacita um LLM a selecionar adaptativamente entre raciocínios curtos e longos, com base na complexidade da tarefa e na capacidade do modelo. O Thinkless é treinado sob um paradigma de aprendizado por reforço e emprega dois tokens de controle, <short> para respostas concisas e <think> para raciocínios detalhados. No cerne de nosso método está um algoritmo de Otimização de Política Relativa de Grupo Desacoplado (DeGRPO), que decompõe o objetivo de aprendizado de raciocínio híbrido em dois componentes: (1) uma perda de token de controle que governa a seleção do modo de raciocínio, e (2) uma perda de resposta que melhora a precisão das respostas geradas. Essa formulação desacoplada permite um controle refinado sobre as contribuições de cada objetivo, estabilizando o treinamento e prevenindo efetivamente o colapso observado no GRPO convencional. Empiricamente, em vários benchmarks como Minerva Algebra, MATH-500 e GSM8K, o Thinkless consegue reduzir o uso de pensamentos de cadeia longa em 50% a 90%, melhorando significativamente a eficiência dos Modelos de Linguagem de Raciocínio. O código está disponível em https://github.com/VainF/Thinkless.
O mecanismo de atenção de um transformer possui complexidade quadrática, resultando em altos custos de inferência e latência para sequências longas. No entanto, as matrizes de atenção são majoritariamente esparsas, o que implica que muitas entradas podem ser omitidas do cálculo para uma inferência eficiente. Métodos de inferência de atenção esparsa visam reduzir esse custo computacional; entretanto, eles também vêm acompanhados de uma degradação de desempenho problemática. Descobrimos que uma razão para essa degradação é que o cálculo esparso induz uma mudança distribucional nas saídas de atenção. Essa mudança distribucional faz com que as consultas no tempo de decodificação falhem em se alinhar adequadamente com as chaves apropriadas da etapa de preenchimento, levando a uma queda no desempenho. Propomos um procedimento simples, novo e eficaz para corrigir essa mudança distribucional, aproximando a distribuição das saídas de atenção esparsa daquela da atenção quadrática. Nosso método pode ser aplicado sobre qualquer método de atenção esparsa e resulta em um aumento médio de desempenho de 36 pontos percentuais, recuperando 88% da precisão da atenção quadrática no benchmark RULER de 131K quando aplicado sobre a atenção de janela deslizante com tokens de sumidouro, enquanto adiciona apenas uma pequena sobrecarga. Nosso método pode manter aproximadamente 98,5% de esparsidade em relação à atenção quadrática completa, tornando nosso modelo 32 vezes mais rápido que o Flash Attention 2 ao processar preenchimentos de 1 milhão de tokens.
A fundamentação de interface gráfica do usuário (GUI), a capacidade de mapear instruções em linguagem natural para ações específicas em interfaces gráficas do usuário, continua sendo um gargalo crítico no desenvolvimento de agentes de uso de computador. Os benchmarks atuais simplificam demais as tarefas de fundamentação como expressões de referência curtas, falhando em capturar a complexidade das interações do mundo real que exigem senso comum de software, compreensão de layout e capacidades de manipulação refinadas. Para abordar essas limitações, introduzimos o OSWorld-G, um benchmark abrangente composto por 564 amostras minuciosamente anotadas em diversos tipos de tarefas, incluindo correspondência de texto, reconhecimento de elementos, compreensão de layout e manipulação precisa. Além disso, sintetizamos e disponibilizamos o maior conjunto de dados de fundamentação de uso de computador, Jedi, que contém 4 milhões de exemplos por meio da decupagem multiperspectiva de tarefas. Nossos modelos multiescala treinados no Jedi demonstram sua eficácia ao superar abordagens existentes no ScreenSpot-v2, ScreenSpot-Pro e nosso OSWorld-G. Adicionalmente, demonstramos que a melhoria na fundamentação com o Jedi aprimora diretamente as capacidades agentivas de modelos de base geral em tarefas complexas de computador, melhorando de 5% para 27% no OSWorld. Por meio de estudos detalhados de ablação, identificamos fatores-chave que contribuem para o desempenho de fundamentação e verificamos que a combinação de dados especializados para diferentes elementos de interface permite a generalização composicional para interfaces novas. Todos os benchmarks, dados, checkpoints e código são de código aberto e estão disponíveis em https://osworld-grounding.github.io.
A fusão de modelos emergiu como uma técnica promissora para aprimorar modelos de linguagem de grande escala, embora sua aplicação em pré-treinamento em larga escala ainda seja relativamente inexplorada. Neste artigo, apresentamos uma investigação abrangente das técnicas de fusão de modelos durante o processo de pré-treinamento. Por meio de extensos experimentos com arquiteturas densas e de Mistura de Especialistas (MoE), variando de milhões a mais de 100 bilhões de parâmetros, demonstramos que a fusão de checkpoints treinados com taxas de aprendizado constantes não apenas alcança melhorias significativas de desempenho, mas também permite a previsão precisa do comportamento de recozimento. Essas melhorias resultam tanto em um desenvolvimento de modelos mais eficiente quanto em custos de treinamento significativamente menores. Nossos estudos detalhados de ablação sobre estratégias de fusão e hiperparâmetros fornecem novos insights sobre os mecanismos subjacentes, ao mesmo tempo em que revelam aplicações inovadoras. Por meio de uma análise experimental abrangente, oferecemos à comunidade de código aberto diretrizes práticas de pré-treinamento para uma fusão eficaz de modelos.
A escalabilidade dos transformadores de difusão de vídeo (DiTs) é limitada por sua atenção 3D quadrática, mesmo que a maior parte da massa de atenção se concentre em um pequeno subconjunto de posições. Transformamos essa observação em VSA, uma atenção esparsa treinável e eficiente em hardware que substitui a atenção completa tanto no treinamento quanto na inferência. No VSA, um estágio leve e grosseiro agrupa tokens em blocos e identifica tokens críticos de alto peso; um estágio fino calcula a atenção em nível de token apenas dentro desses blocos, sujeito a um layout de computação em bloco para garantir eficiência rígida. Isso resulta em um kernel diferenciável único que treina de ponta a ponta, não requer perfilamento pós-treino e mantém 85\% da MFU do FlashAttention3. Realizamos uma ampla varredura de estudos de ablação e experimentos de leis de escalonamento ao pré-treinar DiTs com parâmetros variando de 60M a 1,4B. O VSA atinge um ponto de Pareto que reduz os FLOPS de treinamento em 2,53 vezes sem queda na perda de difusão. A adaptação do modelo de código aberto Wan-2.1 acelera o tempo de atenção em 6 vezes e reduz o tempo de geração de ponta a ponta de 31s para 18s com qualidade comparável. Esses resultados estabelecem a atenção esparsa treinável como uma alternativa prática à atenção completa e um facilitador chave para a escalabilidade adicional de modelos de difusão de vídeo.
Os recentes avanços na reconstrução dinâmica de cenas 3D têm mostrado resultados promissores, permitindo a síntese de novas vistas 3D de alta fidelidade com consistência temporal aprimorada. Dentre esses avanços, o 4D Gaussian Splatting (4DGS) emergiu como uma abordagem atraente devido à sua capacidade de modelar variações espaciais e temporais de alta fidelidade. No entanto, os métodos existentes sofrem com um sobrecarga computacional e de memória substancial devido à alocação redundante de Gaussianas 4D em regiões estáticas, o que também pode degradar a qualidade da imagem. Neste trabalho, introduzimos o hybrid 3D-4D Gaussian Splatting (3D-4DGS), uma nova estrutura que representa adaptativamente regiões estáticas com Gaussianas 3D, enquanto reserva Gaussianas 4D para elementos dinâmicos. Nosso método começa com uma representação totalmente 4D de Gaussianas e converte iterativamente Gaussianas temporalmente invariantes em 3D, reduzindo significativamente o número de parâmetros e melhorando a eficiência computacional. Enquanto isso, as Gaussianas dinâmicas mantêm sua representação 4D completa, capturando movimentos complexos com alta fidelidade. Nossa abordagem alcança tempos de treinamento significativamente mais rápidos em comparação com os métodos baselines de 4D Gaussian Splatting, mantendo ou melhorando a qualidade visual.
Medir como as imagens reais parecem é uma tarefa complexa na pesquisa de inteligência artificial. Por exemplo, uma imagem de um menino com um aspirador de pó em um deserto viola o senso comum. Introduzimos um método inovador, que chamamos de Through the Looking Glass (TLG), para avaliar a consistência do senso comum em imagens utilizando Large Vision-Language Models (LVLMs) e um codificador baseado em Transformer. Ao aproveitar os LVLMs para extrair fatos atômicos dessas imagens, obtemos uma mistura de fatos precisos. Prosseguimos ajustando finamente um classificador compacto de pooling de atenção sobre os fatos atômicos codificados. Nosso TLG alcançou um novo desempenho de ponta nos conjuntos de dados WHOOPS! e WEIRD, enquanto utiliza um componente compacto de ajuste fino.
A capacidade de raciocínio, um componente central da inteligência humana, continua a representar um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs) na busca pela Inteligência Artificial Geral (AGI). Embora o desempenho dos modelos tenha melhorado sob a lei de escalonamento de treinamento, desafios importantes permanecem, particularmente em relação aos algoritmos de treinamento, como o esquecimento catastrófico, e a disponibilidade limitada de dados de treinamento novos. Como alternativa, o escalonamento em tempo de teste melhora o desempenho de raciocínio ao aumentar a computação em tempo de teste sem atualização de parâmetros. Diferentemente de métodos anteriores nesse paradigma, que se concentravam no espaço de tokens, propomos aproveitar o espaço latente para um raciocínio mais eficaz e uma melhor adesão à lei de escalonamento em tempo de teste. Introduzimos o LatentSeek, uma nova estrutura que aprimora o raciocínio dos LLMs por meio da Adaptação em Nível de Instância em Tempo de Teste (TTIA) dentro do espaço latente do modelo. Especificamente, o LatentSeek utiliza gradiente de política para atualizar iterativamente as representações latentes, guiado por sinais de recompensa autogerados. O LatentSeek é avaliado em uma variedade de benchmarks de raciocínio, incluindo GSM8K, MATH-500 e AIME2024, em várias arquiteturas de LLMs. Os resultados mostram que o LatentSeek supera consistentemente baselines robustas, como o prompting de Cadeia de Pensamento e métodos baseados em ajuste fino. Além disso, nossa análise demonstra que o LatentSeek é altamente eficiente, geralmente convergindo em poucas iterações para problemas de complexidade média, ao mesmo tempo em que se beneficia de iterações adicionais, destacando assim o potencial do escalonamento em tempo de teste no espaço latente. Esses achados posicionam o LatentSeek como uma solução leve, escalável e eficaz para aprimorar as capacidades de raciocínio dos LLMs.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham alcançado progressos impressionantes na compreensão de visão e linguagem, eles ainda enfrentam dificuldades com raciocínios complexos de múltiplas etapas, frequentemente produzindo soluções logicamente inconsistentes ou parcialmente corretas. Uma limitação crucial reside na falta de supervisão refinada sobre as etapas intermediárias do raciocínio. Para abordar isso, propomos o MM-PRM, um modelo de recompensa de processo treinado dentro de uma estrutura totalmente automatizada e escalável. Primeiro, construímos o MM-Policy, um modelo multimodal robusto treinado em dados diversos de raciocínio matemático. Em seguida, criamos o MM-K12, um conjunto de dados curado de 10.000 problemas matemáticos multimodais com respostas verificáveis, que serve como dados iniciais. Utilizando um pipeline baseado em Monte Carlo Tree Search (MCTS), geramos mais de 700 mil anotações em nível de etapa sem rotulação humana. O PRM resultante é usado para pontuar caminhos de raciocínio candidatos na configuração de inferência Best-of-N e alcança melhorias significativas tanto em benchmarks de domínio interno (conjunto de teste MM-K12) quanto de domínio externo (OlympiadBench, MathVista, etc.). Análises adicionais confirmam a eficácia de rótulos suaves, taxas de aprendizado menores e diversidade de caminhos na otimização do desempenho do PRM. O MM-PRM demonstra que a supervisão de processo é uma ferramenta poderosa para aprimorar a robustez lógica dos sistemas de raciocínio multimodal. Disponibilizamos todos os nossos códigos e dados em https://github.com/ModalMinds/MM-PRM.
Modelos de Linguagem de Grande Escala (LLMs) têm impulsionado avanços significativos, mas o crescente número de parâmetros e janelas de contexto acarreta custos proibitivos de computação, energia e monetários. Apresentamos o EfficientLLM, um novo benchmark e o primeiro estudo empírico abrangente que avalia técnicas de eficiência para LLMs em escala. Realizado em um cluster de classe de produção (48xGH200, 8xH200 GPUs), nosso estudo explora sistematicamente três eixos principais: (1) pré-treinamento de arquitetura (variantes eficientes de atenção: MQA, GQA, MLA, NSA; Mistura de Especialistas (MoE) esparsa), (2) ajuste fino (métodos eficientes em parâmetros: LoRA, RSLoRA, DoRA) e (3) inferência (métodos de quantização: int4, float16). Definimos seis métricas detalhadas (Utilização de Memória, Utilização de Computação, Latência, Taxa de Transferência, Consumo de Energia, Taxa de Compressão) para capturar saturação de hardware, equilíbrio latência-taxa de transferência e custo de carbono. Avaliando mais de 100 pares modelo-técnica (0,5B-72B parâmetros), derivamos três insights principais: (i) Eficiência envolve compensações quantificáveis: nenhum método é universalmente ótimo; por exemplo, MoE reduz FLOPs e melhora a precisão, mas aumenta a VRAM em 40%, enquanto a quantização int4 reduz memória/energia em até 3,9x com uma queda de 3-5% na precisão. (ii) Os ótimos dependem da tarefa e da escala: MQA oferece as melhores compensações memória-latência para dispositivos restritos, MLA alcança a menor perplexidade para tarefas críticas de qualidade, e RSLoRA supera a eficiência do LoRA apenas além de 14B parâmetros. (iii) As técnicas generalizam entre modalidades: estendemos as avaliações para Modelos de Visão de Grande Escala (Stable Diffusion 3.5, Wan 2.1) e Modelos de Visão-Linguagem (Qwen2.5-VL), confirmando a transferibilidade eficaz. Ao disponibilizar conjuntos de dados, pipelines de avaliação e rankings em código aberto, o EfficientLLM fornece orientação essencial para pesquisadores e engenheiros que navegam no cenário eficiência-desempenho dos modelos de base da próxima geração.
Avanços recentes no aprendizado por reforço baseado em regras (RL) melhoraram significativamente a capacidade de raciocínio de modelos de linguagem (LMs) com recompensas baseadas em regras. No entanto, os métodos existentes de RL — como GRPO, REINFORCE++ e RLOO — frequentemente sofrem com instabilidade no treinamento, onde grandes atualizações de política e recorte inadequado podem levar ao colapso do treinamento. Para resolver esse problema, propomos o Clipped Policy Gradient Optimization with Policy Drift (CPGD), um novo algoritmo projetado para estabilizar o aprendizado de políticas em LMs. O CPGD introduz uma restrição de deriva de política baseada na divergência KL para regularizar dinamicamente as atualizações de política e utiliza um mecanismo de recorte no logaritmo da razão para evitar atualizações excessivas de política. Fornecemos justificativa teórica para o CPGD e demonstramos por meio de análise empírica que ele mitiga a instabilidade observada em abordagens anteriores. Além disso, mostramos que o CPGD melhora significativamente o desempenho enquanto mantém a estabilidade do treinamento. Nossa implementação equilibra rigor teórico com usabilidade prática, oferecendo uma alternativa robusta para RL no pós-treinamento de LMs. Disponibilizamos nosso código em https://github.com/ModalMinds/MM-EUREKA.
Técnicas de escalonamento no tempo de inferência têm fortalecido significativamente as capacidades de raciocínio de grandes modelos de linguagem (LLMs) ao aproveitar esforço computacional adicional durante a inferência sem a necessidade de retreinamento. Da mesma forma, o prompting de Cadeia de Pensamento (CoT) e sua extensão, Long CoT, melhoram a precisão ao gerar trajetórias intermediárias de raciocínio ricas, mas essas abordagens incorrem em custos substanciais de tokens que dificultam sua implantação em cenários sensíveis à latência. Neste trabalho, primeiro mostramos que o CoT truncado, que interrompe o raciocínio antes da conclusão e gera diretamente a resposta final, frequentemente iguala a amostragem completa de CoT enquanto utiliza dramaticamente menos tokens. Com base nessa percepção, introduzimos a Amostragem Fracturada, uma estratégia unificada de inferência que interpola entre a amostragem completa de CoT e a amostragem apenas da solução ao longo de três eixos ortogonais: (1) o número de trajetórias de raciocínio, (2) o número de soluções finais por trajetória e (3) a profundidade na qual os rastros de raciocínio são truncados. Por meio de extensos experimentos em cinco benchmarks diversos de raciocínio e várias escalas de modelos, demonstramos que a Amostragem Fracturada consistentemente alcança compensações superiores entre precisão e custo, gerando ganhos de escalonamento log-linear acentuados em Pass@k versus orçamento de tokens. Nossa análise revela como alocar computação nessas dimensões para maximizar o desempenho, abrindo caminho para um raciocínio mais eficiente e escalável em LLMs.
A Adaptação de Baixo Rank (LoRA), que introduz um produto de duas matrizes treináveis de baixo rank em pesos pré-treinados congelados, é amplamente utilizada para o ajuste fino eficiente de modelos de linguagem em aprendizado federado (FL). No entanto, quando combinada com o gradiente descendente estocástico com privacidade diferencial (DP-SGD), a LoRA enfrenta uma amplificação substancial de ruído: o DP-SGD perturba os gradientes por amostra, e a multiplicação de matrizes da atualização da LoRA (BA) intensifica esse efeito. Congelar uma matriz (por exemplo, A) reduz o ruído, mas restringe a expressividade do modelo, frequentemente resultando em uma adaptação subótima. Para resolver isso, propomos o FedSVD, um método simples, porém eficaz, que introduz uma reparametrização global baseada na decomposição em valores singulares (SVD). Em nossa abordagem, cada cliente otimiza apenas a matriz B e a transmite ao servidor. O servidor agrega as matrizes B, calcula o produto BA usando a matriz A anterior e refatoriza o resultado via SVD. Isso produz uma nova matriz adaptativa A composta pelos vetores singulares direitos ortonormais de BA, e uma matriz B atualizada contendo os componentes restantes da SVD. Essa reparametrização evita a amplificação quadrática de ruído, ao mesmo tempo em que permite que A capture melhor as direções principais das atualizações agregadas. Além disso, a estrutura ortonormal de A limita as normas dos gradientes de B e preserva mais sinal sob o DP-SGD, conforme confirmado por nossa análise teórica. Como resultado, o FedSVD melhora consistentemente a estabilidade e o desempenho em uma variedade de configurações de privacidade e benchmarks, superando as linhas de base relevantes tanto em regimes privados quanto não privados.
Modelos de linguagem de grande escala (LLMs) exibem níveis variados de confiança em relação a diferentes prompts de entrada (perguntas): alguns levam a respostas consistentes e semanticamente semelhantes, enquanto outros produzem saídas diversas ou contraditórias. Essa variação reflete a incerteza do LLM sobre o prompt de entrada, um sinal de quão confiantemente o modelo compreende um determinado problema. No entanto, o Group Relative Policy Optimization (GRPO) padrão trata todos os prompts igualmente durante as atualizações da política, ignorando essa informação importante sobre os limites do conhecimento do modelo. Para abordar essa limitação, propomos o SEED-GRPO (Semantic Entropy EnhanceD GRPO), que mede explicitamente a incerteza dos LLMs em relação à entropia semântica dos prompts de entrada. A entropia semântica mede a diversidade de significado em múltiplas respostas geradas para um prompt e usa isso para modular a magnitude das atualizações da política. Esse mecanismo de treinamento consciente da incerteza permite o ajuste dinâmico da magnitude das atualizações da política com base na incerteza da pergunta. Ele permite atualizações mais conservadoras em perguntas de alta incerteza, mantendo o sinal de aprendizado original em perguntas confiantes. Resultados experimentais em cinco benchmarks de raciocínio matemático (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 e OlympiadBench 48.0) demonstram que o SEED-GRPO alcança um novo estado da arte em precisão média, validando a eficácia da otimização de política consciente da incerteza.
Grandes modelos de visão e linguagem exibem capacidades inerentes para lidar com diversas tarefas de percepção visual. Neste artigo, apresentamos o VisionReasoner, um framework unificado capaz de raciocinar e resolver múltiplas tarefas de percepção visual dentro de um modelo compartilhado. Especificamente, ao projetar novas estratégias de aprendizagem cognitiva multiobjetivo e reformulação sistemática de tarefas, o VisionReasoner aprimora suas capacidades de raciocínio para analisar entradas visuais e abordar diversas tarefas de percepção em um framework unificado. O modelo gera um processo de raciocínio estruturado antes de entregar os resultados desejados em resposta às consultas do usuário. Para avaliar rigorosamente as capacidades unificadas de percepção visual, avaliamos o VisionReasoner em dez tarefas diversas abrangendo três domínios críticos: detecção, segmentação e contagem. Os resultados experimentais mostram que o VisionReasoner alcança desempenho superior como modelo unificado, superando o Qwen2.5VL com margens relativas de 29,1% no COCO (detecção), 22,1% no ReasonSeg (segmentação) e 15,3% no CountBench (contagem).
O reconhecimento preciso da intenção de busca em sistemas de Geração Aumentada por Recuperação (RAG) continua sendo um objetivo desafiador, especialmente sob restrições de recursos e para consultas complexas com estruturas aninhadas e dependências. Este artigo apresenta o QCompiler, um framework neuro-simbólico inspirado em regras gramaticais linguísticas e no design de compiladores, para preencher essa lacuna. Ele projeta teoricamente uma gramática Backus-Naur Form (BNF) mínima, porém suficiente, G[q] para formalizar consultas complexas. Diferente de métodos anteriores, essa gramática mantém a completude enquanto minimiza a redundância. Com base nisso, o QCompiler inclui um Tradutor de Expressões de Consulta, um Analisador Sintático Léxico e um Processador de Descida Recursiva para compilar consultas em Árvores Sintáticas Abstratas (ASTs) para execução. A atomicidade das subconsultas nos nós folha garante uma recuperação de documentos e geração de respostas mais precisas, melhorando significativamente a capacidade do sistema RAG de lidar com consultas complexas.
A compreensão de gráficos apresenta um desafio único para grandes modelos de visão e linguagem (LVLMs), pois requer a integração de capacidades sofisticadas de raciocínio textual e visual. No entanto, os LVLMs atuais exibem um desequilíbrio notável entre essas habilidades, ficando aquém no raciocínio visual que é difícil de realizar em texto. Realizamos um estudo de caso utilizando um conjunto de dados sintético solucionável apenas por meio de raciocínio visual e mostramos que o desempenho do modelo se degrada significativamente com o aumento da complexidade visual, enquanto o desempenho humano permanece robusto. Em seguida, apresentamos o ChartMuseum, um novo benchmark de Question Answering (QA) para gráficos contendo 1.162 questões anotadas por especialistas, abrangendo múltiplos tipos de raciocínio, curadas a partir de gráficos do mundo real de 184 fontes, especificamente construído para avaliar raciocínios visuais e textuais complexos. Diferentemente de benchmarks anteriores de compreensão de gráficos -- onde modelos de ponta apresentam desempenho semelhante e próximo à saturação -- nosso benchmark expõe uma lacuna substancial entre o desempenho do modelo e o humano, enquanto diferencia efetivamente as capacidades dos modelos: embora os humanos alcancem 93% de precisão, o modelo com melhor desempenho, o Gemini-2.5-Pro, atinge apenas 63,0%, e o LVLM de código aberto líder, o Qwen2.5-VL-72B-Instruct, alcança apenas 38,5%. Além disso, em questões que exigem principalmente raciocínio visual, todos os modelos experimentam uma queda de desempenho de 35%-55% em relação ao desempenho em questões com maior foco em raciocínio textual. Por fim, nossa análise qualitativa de erros revela categorias específicas de raciocínio visual que são desafiadoras para os LVLMs atuais.
A integração de Modelos de Linguagem de Grande Escala (LLMs) com planejadores simbólicos é uma direção promissora para obter planos verificáveis e fundamentados em comparação com o planejamento em linguagem natural, com trabalhos recentes estendendo essa ideia para domínios visuais usando Modelos de Visão e Linguagem (VLMs). No entanto, uma comparação rigorosa entre abordagens simbólicas fundamentadas em VLMs e métodos que planejam diretamente com um VLM tem sido dificultada pela falta de ambientes comuns, protocolos de avaliação e cobertura de modelos. Apresentamos o ViPlan, o primeiro benchmark de código aberto para Planejamento Visual com predicados simbólicos e VLMs. O ViPlan apresenta uma série de tarefas progressivamente desafiadoras em dois domínios: uma variante visual do clássico problema de planejamento Blocksworld e um ambiente simulado de robótica doméstica. Avaliamos nove famílias de VLMs de código aberto em vários tamanhos, juntamente com modelos fechados selecionados, comparando tanto o planejamento simbólico fundamentado em VLMs quanto o uso direto dos modelos para propor ações. Descobrimos que o planejamento simbólico supera o planejamento direto com VLMs no Blocksworld, onde a fundamentação precisa de imagens é crucial, enquanto o oposto ocorre nas tarefas de robótica doméstica, onde o conhecimento de senso comum e a capacidade de se recuperar de erros são benéficos. Por fim, mostramos que, na maioria dos modelos e métodos, não há benefício significativo no uso de prompts de Cadeia de Pensamento (Chain-of-Thought), sugerindo que os VLMs atuais ainda enfrentam dificuldades com o raciocínio visual.
Modelos de recompensa são essenciais para alinhar as saídas de modelos de linguagem com as preferências humanas, mas as abordagens existentes frequentemente carecem tanto de controlabilidade quanto de interpretabilidade. Esses modelos são tipicamente otimizados para objetivos restritos, limitando sua generalização para tarefas subsequentes mais amplas. Além disso, suas saídas escalares são difíceis de interpretar sem raciocínio contextual. Para abordar essas limitações, introduzimos o R3, uma nova estrutura de modelagem de recompensa que é agnóstica em relação a rubricas, generalizável entre dimensões de avaliação e fornece atribuições de pontuação interpretáveis e fundamentadas. O R3 permite uma avaliação mais transparente e flexível de modelos de linguagem, apoiando um alinhamento robusto com diversos valores humanos e casos de uso. Nossos modelos, dados e código estão disponíveis como código aberto em https://github.com/rubricreward/r3.
A animação de imagens humanas tem ganhado crescente atenção e se desenvolvido rapidamente devido às suas amplas aplicações em humanos digitais. No entanto, os métodos existentes dependem em grande parte de imagens de poses renderizadas em 2D para orientação de movimento, o que limita a generalização e descarta informações essenciais em 3D para animação em mundos abertos. Para resolver esse problema, propomos o MTVCrafter (Motion Tokenization Video Crafter), o primeiro framework que modela diretamente sequências de movimento 3D brutas (ou seja, movimento 4D) para animação de imagens humanas. Especificamente, introduzimos o 4DMoT (4D motion tokenizer) para quantizar sequências de movimento 3D em tokens de movimento 4D. Em comparação com imagens de poses renderizadas em 2D, os tokens de movimento 4D oferecem pistas espaço-temporais mais robustas e evitam o alinhamento rigoroso em nível de pixel entre a imagem da pose e o personagem, permitindo um controle mais flexível e desacoplado. Em seguida, introduzimos o MV-DiT (Motion-aware Video DiT). Ao projetar uma atenção de movimento única com codificações posicionais 4D, o MV-DiT pode efetivamente aproveitar os tokens de movimento como contexto 4D compacto, porém expressivo, para animação de imagens humanas no complexo mundo 3D. Assim, ele representa um avanço significativo nesse campo e abre uma nova direção para a geração de vídeos humanos guiados por poses. Experimentos mostram que o nosso MTVCrafter alcança resultados de última geração com um FID-VID de 6,98, superando o segundo melhor em 65%. Alimentado por tokens de movimento robustos, o MTVCrafter também generaliza bem para diversos personagens de mundos abertos (simples/múltiplos, corpo inteiro/meio corpo) em vários estilos e cenários. Nossos vídeos de demonstração e código estão disponíveis em: https://github.com/DINGYANB/MTVCrafter.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm alimentado a visão de descoberta científica automatizada, frequentemente chamada de Co-Cientistas de IA. Até o momento, trabalhos anteriores retratam esses sistemas como coautores generativos responsáveis por formular hipóteses, sintetizar código ou redigir manuscritos. Neste trabalho, exploramos uma aplicação complementar: o uso de LLMs como verificadores para automatizar a verificação acadêmica de manuscritos científicos. Para esse fim, introduzimos o SPOT, um conjunto de dados composto por 83 artigos publicados pareados com 91 erros significativos o suficiente para motivar errata ou retratação, validados cruzadamente com os autores reais e anotadores humanos. Avaliando LLMs de última geração no SPOT, descobrimos que nenhum supera 21,1% de recall ou 6,1% de precisão (o GPT-3 alcança os melhores resultados, com todos os outros próximos de zero). Além disso, as estimativas de confiança são uniformemente baixas, e, ao longo de oito execuções independentes, os modelos raramente redescobrem os mesmos erros, comprometendo sua confiabilidade. Por fim, a análise qualitativa com especialistas do domínio revela que mesmo os modelos mais fortes cometem erros semelhantes a equívocos de nível estudantil, derivados de mal-entendidos. Esses achados destacam a lacuna substancial entre as capacidades atuais dos LLMs e os requisitos para uma verificação acadêmica assistida por IA confiável.
Apresentamos o SLED, uma abordagem alternativa para modelagem de linguagem de fala, que codifica formas de onda de fala em sequências de representações latentes contínuas e as modela de forma autoregressiva usando um objetivo de distância de energia. A distância de energia oferece uma medida analítica da diferença distribucional ao contrastar amostras simuladas e alvo, permitindo um treinamento eficiente para capturar a distribuição autoregressiva contínua subjacente. Ao evitar a dependência da quantização vetorial residual, o SLED contorna erros de discretização e elimina a necessidade das arquiteturas hierárquicas complexas comuns nos modelos de linguagem de fala existentes. Ele simplifica o pipeline geral de modelagem, preservando a riqueza das informações de fala e mantendo a eficiência de inferência. Resultados empíricos demonstram que o SLED alcança um desempenho robusto tanto na síntese de fala zero-shot quanto na streaming, mostrando seu potencial para aplicações mais amplas em modelos de linguagem de fia de propósito geral.
Médicos e pacientes estão utilizando cada vez mais Modelos de Linguagem de Grande Escala (LLMs) para diagnosticar casos clínicos. No entanto, ao contrário de domínios como matemática ou programação, onde a correção pode ser definida objetivamente pela resposta final, o diagnóstico médico exige que tanto o resultado quanto o processo de raciocínio sejam precisos. Atualmente, benchmarks médicos amplamente utilizados, como MedQA e MMLU, avaliam apenas a precisão da resposta final, negligenciando a qualidade e a fidelidade do processo de raciocínio clínico. Para abordar essa limitação, introduzimos o MedCaseReasoning, o primeiro conjunto de dados de acesso aberto para avaliar LLMs em sua capacidade de se alinhar ao raciocínio diagnóstico elaborado por clínicos. O conjunto de dados inclui 14.489 casos de perguntas e respostas diagnósticas, cada um acompanhado de declarações detalhadas de raciocínio derivadas de relatos de casos médicos de acesso aberto. Avaliamos LLMs de raciocínio de última geração no MedCaseReasoning e encontramos deficiências significativas em seus diagnósticos e raciocínios: por exemplo, o modelo de código aberto de melhor desempenho, DeepSeek-R1, alcança apenas 48% de precisão diagnóstica em 10-shot e menciona apenas 64% das declarações de raciocínio clínico (recall). No entanto, demonstramos que o ajuste fino de LLMs nos traços de raciocínio derivados do MedCaseReasoning melhora significativamente a precisão diagnóstica e o recall do raciocínio clínico, com ganhos relativos médios de 29% e 41%, respectivamente. O conjunto de dados de código aberto, o código e os modelos estão disponíveis em https://github.com/kevinwu23/Stanford-MedCaseReasoning.
Modelos de geração de imagens alcançaram aplicações generalizadas. Como exemplo, o modelo TarFlow combina a arquitetura transformer com modelos de Normalizing Flow, obtendo resultados de ponta em múltiplos benchmarks. No entanto, devido à forma causal da atenção, que requer computação sequencial, o processo de amostragem do TarFlow é extremamente lento. Neste artigo, demonstramos que, por meio de uma série de estratégias de otimização, a amostragem do TarFlow pode ser significativamente acelerada utilizando o método de iteração Gauss-Seidel-Jacobi (abreviado como GS-Jacobi). Especificamente, descobrimos que os blocos no modelo TarFlow possuem importância variável: um pequeno número de blocos desempenha um papel principal nas tarefas de geração de imagens, enquanto outros blocos contribuem relativamente pouco; alguns blocos são sensíveis a valores iniciais e propensos a overflow numérico, enquanto outros são relativamente robustos. Com base nessas duas características, propomos a Métrica de Classificação de Convergência (CRM) e a Métrica de Estimativa Inicial (IGM): a CRM é usada para identificar se um bloco do TarFlow é "simples" (converge em poucas iterações) ou "difícil" (requer mais iterações); a IGM é usada para avaliar se o valor inicial da iteração é bom. Experimentos em quatro modelos TarFlow demonstram que a amostragem GS-Jacobi pode melhorar significativamente a eficiência de amostragem enquanto mantém a qualidade das imagens geradas (medida pelo FID), alcançando acelerações de 4,53x no Img128cond, 5,32x no AFHQ, 2,96x no Img64uncond e 2,51x no Img64cond, sem degradar as pontuações FID ou a qualidade das amostras. Código e checkpoints estão disponíveis em https://github.com/encoreus/GS-Jacobi_for_TarFlow.
O Tiny QA Benchmark++ (TQB++) apresenta um conjunto de testes ultraleve e multilíngue projetado para fornecer uma rede de segurança no estilo de testes unitários para pipelines de modelos de linguagem de grande escala (LLM), que é executado em segundos com custo mínimo. Surgiu das demandas de ciclos de feedback rápidos durante o desenvolvimento do SDK de otimização de prompts Comet Opik, onde a espera por benchmarks pesados interrompe o fluxo de desenvolvimento. O TQB++ combina um conjunto de 52 itens em inglês (menos de 20 kB) com um pequeno pacote PyPI gerador de dados sintéticos, construído sobre o LiteLLM, que é independente de provedores. O gerador permite que os profissionais criem seus próprios conjuntos de dados em qualquer idioma, domínio ou nível de dificuldade, enquanto dez pacotes prontos já cobrem árabe, chinês, francês, alemão, japonês, coreano, português, russo, espanhol e turco. Cada conjunto de dados é fornecido com metadados Croissant e arquivos plug-and-play para OpenAI-Evals, LangChain e ferramentas padrão de CI, permitindo que as equipes integrem microbenchmarks determinísticos diretamente em portas de pull-request, loops de engenharia de prompts e painéis de produção sem afetar o orçamento de GPU. Uma execução completa do TQB++ adiciona apenas alguns segundos à latência do pipeline, mas sinaliza de forma confiável erros em modelos de prompt, desvios no tokenizador e efeitos colaterais de ajuste fino muito antes que conjuntos de testes em grande escala, como MMLU ou BIG-Bench, terminem de ser configurados. O framework completo foi lançado para acelerar a garantia de qualidade contínua e eficiente em termos de recursos em todo o ecossistema de IA generativa.
Apesar dos avanços significativos na geração de vídeos, a síntese de ações humanas fisicamente plausíveis continua sendo um desafio persistente, particularmente na modelagem de semântica refinada e dinâmicas temporais complexas. Por exemplo, gerar rotinas de ginástica como "salto com mudança de 0,5 giro" apresenta dificuldades substanciais para os métodos atuais, frequentemente resultando em resultados insatisfatórios. Para preencher essa lacuna, propomos o FinePhys, um framework de geração de ações humanas refinadas que incorpora Física para obter orientação esquelética eficaz. Especificamente, o FinePhys primeiro estima poses 2D de maneira online e, em seguida, realiza a elevação de 2D para 3D por meio de aprendizado em contexto. Para mitigar a instabilidade e a limitada interpretabilidade das poses 3D puramente baseadas em dados, introduzimos ainda um módulo de reestimação de movimento baseado em física, governado por equações de Euler-Lagrange, calculando acelerações articulares por meio de atualização temporal bidirecional. As poses 3D fisicamente previstas são então fundidas com as baseadas em dados, oferecendo orientação de mapa de calor 2D em múltiplas escalas para o processo de difusão. Avaliado em três subconjuntos de ações refinadas do FineGym (FX-JUMP, FX-TURN e FX-SALTO), o FinePhys supera significativamente as linhas de base competitivas. Resultados qualitativos abrangentes demonstram ainda a capacidade do FinePhys de gerar ações humanas refinadas mais naturais e plausíveis.
O Escalonamento em Tempo de Teste (Test-Time Scaling, TTS) refere-se a abordagens que melhoram o desempenho de raciocínio ao alocar computação adicional durante a inferência, sem alterar os parâmetros do modelo. Enquanto os métodos existentes de TTS operam em um espaço discreto de tokens, gerando mais etapas intermediárias, estudos recentes no Coconut e SoftCoT demonstraram que pensar no espaço latente contínuo pode aprimorar ainda mais o desempenho de raciocínio. Tais pensamentos latentes codificam raciocínios informativos sem a perda de informação associada à geração autoregressiva de tokens, despertando um interesse crescente no raciocínio em espaço contínuo. Diferente da decodificação discreta, onde a amostragem repetida permite explorar diversos caminhos de raciocínio, as representações latentes no espaço contínuo são fixas para uma dada entrada, o que limita a exploração diversificada, já que todos os caminhos decodificados se originam do mesmo pensamento latente. Para superar essa limitação, introduzimos o SoftCoT++ para estender o SoftCoT ao paradigma de Escalonamento em Tempo de Teste, permitindo uma exploração diversificada de caminhos de pensamento. Especificamente, perturbamos pensamentos latentes por meio de múltiplos tokens iniciais especializados e aplicamos aprendizado contrastivo para promover a diversidade entre as representações de pensamentos suaves. Experimentos em cinco benchmarks de raciocínio e duas arquiteturas distintas de LLM demonstram que o SoftCoT++ melhora significativamente o SoftCoT e também supera o SoftCoT com escalonamento de autoconsistência. Além disso, ele mostra forte compatibilidade com técnicas convencionais de escalonamento, como a autoconsistência. O código-fonte está disponível em https://github.com/xuyige/SoftCoT.
A interação humano-computador há muito imagina tecnologias que nos compreendem — desde nossas preferências e hábitos até o momento e o propósito de nossas ações cotidianas. No entanto, os modelos de usuário atuais permanecem fragmentados, estreitamente adaptados a aplicativos específicos e incapazes de realizar o raciocínio flexível necessário para concretizar essas visões. Este artigo apresenta uma arquitetura para um modelo geral de usuário (GUM, na sigla em inglês) que aprende sobre você observando qualquer interação que você tenha com seu computador. O GUM recebe como entrada qualquer observação não estruturada de um usuário (por exemplo, capturas de tela de dispositivos) e constrói proposições ponderadas por confiança que capturam o conhecimento e as preferências desse usuário. Os GUMs podem inferir que um usuário está se preparando para um casamento ao qual comparecerá a partir de mensagens trocadas com um amigo. Ou reconhecer que um usuário está enfrentando dificuldades com o feedback de um colaborador em um rascunho ao observar múltiplas edições paralisadas e uma mudança para a leitura de trabalhos relacionados. Os GUMs introduzem uma arquitetura que infere novas proposições sobre um usuário a partir de observações multimodais, recupera proposições relacionadas para contexto e revisa continuamente as proposições existentes. Para ilustrar a amplitude de aplicações que os GUMs possibilitam, demonstramos como eles ampliam assistentes baseados em chat com contexto, gerenciam notificações do sistema operacional para destacar seletivamente informações importantes e permitem agentes interativos que se adaptam às preferências entre aplicativos. Também instanciamos assistentes proativos (GUMBOs) que descobrem e executam sugestões úteis em nome do usuário usando seu GUM. Em nossas avaliações, descobrimos que os GUMs fazem inferências calibradas e precisas sobre os usuários e que assistentes construídos sobre GUMs identificam e realizam proativamente ações que os usuários não pensariam em solicitar explicitamente. No geral, os GUMs introduzem métodos que aproveitam modelos multimodais para entender contextos não estruturados, permitindo visões de longa data da HCI e sistemas interativos totalmente novos que antecipam as necessidades dos usuários.
Modelos de difusão de vídeo (DMs) têm possibilitado a síntese de vídeos de alta qualidade. No entanto, suas demandas substanciais de computação e memória apresentam sérios desafios para a implantação no mundo real, mesmo em GPUs de alto desempenho. Como uma solução comumente adotada, a quantização tem demonstrado sucesso notável na redução de custos para DMs de imagem, enquanto sua aplicação direta em DMs de vídeo permanece ineficaz. Neste artigo, apresentamos o QVGen, uma nova estrutura de treinamento ciente de quantização (QAT) projetada para DMs de vídeo de alto desempenho e eficiência de inferência sob quantização de bits extremamente baixos (por exemplo, 4 bits ou menos). Começamos com uma análise teórica demonstrando que a redução da norma do gradiente é essencial para facilitar a convergência do QAT. Para isso, introduzimos módulos auxiliares (Phi) para mitigar grandes erros de quantização, levando a uma convergência significativamente aprimorada. Para eliminar a sobrecarga de inferência do Phi, propomos uma estratégia de decaimento de posto que progressivamente elimina o Phi. Especificamente, empregamos repetidamente a decomposição em valores singulares (SVD) e uma regularização baseada em posto proposta, chamada gama, para identificar e decair componentes de baixa contribuição. Essa estratégia mantém o desempenho enquanto elimina a sobrecarga de inferência. Experimentos extensivos em 4 DMs de vídeo state-of-the-art (SOTA), com tamanhos de parâmetros variando de 1,3B a 14B, mostram que o QVGen é o primeiro a alcançar qualidade comparável à de precisão total em configurações de 4 bits. Além disso, ele supera significativamente os métodos existentes. Por exemplo, nosso CogVideoX-2B de 3 bits alcança melhorias de +25,28 em Grau Dinâmico e +8,43 em Consistência de Cena no VBench.
Conjuntos de dados de preferência são essenciais para treinar modelos de linguagem de domínio geral que seguem instruções, utilizando Aprendizado por Reforço com Feedback Humano (RLHF). Cada lançamento subsequente de dados eleva as expectativas para futuras coletas de dados, o que significa que há uma necessidade constante de avançar na qualidade e diversidade dos dados de preferência disponíveis abertamente. Para atender a essa necessidade, apresentamos o HelpSteer3-Preference, um conjunto de dados de preferência de alta qualidade, anotado por humanos e licenciado de forma permissiva (CC-BY-4.0), composto por mais de 40.000 amostras. Essas amostras abrangem diversas aplicações do mundo real de modelos de linguagem de grande escala (LLMs), incluindo tarefas relacionadas a STEM, programação e cenários multilíngues. Utilizando o HelpSteer3-Preference, treinamos Modelos de Recompensa (RMs) que alcançam desempenho de topo no RM-Bench (82,4%) e no JudgeBench (73,7%). Isso representa uma melhoria substancial (~10% absoluta) em relação aos melhores resultados relatados anteriormente por RMs existentes. Demonstramos que o HelpSteer3-Preference também pode ser aplicado para treinar Modelos de Recompensa Generativos e como modelos de política podem ser alinhados com RLHF usando nossos RMs. Conjunto de dados (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
Os recentes avanços em Patologia Digital (PD), particularmente por meio de inteligência artificial e Modelos de Base, destacaram a importância de conjuntos de dados em grande escala, diversos e ricamente anotados. Apesar de seu papel crítico, os conjuntos de dados publicamente disponíveis de Imagens de Lâmina Completa (ILC) frequentemente carecem de escala suficiente, diversidade de tecidos e metadados clínicos abrangentes, limitando a robustez e a generalização dos modelos de IA. Em resposta, apresentamos o conjunto de dados HISTAI, uma grande coleção multimodal e de acesso aberto de ILCs, composta por mais de 60.000 lâminas de diversos tipos de tecidos. Cada caso no conjunto de dados HISTAI é acompanhado por extensos metadados clínicos, incluindo diagnóstico, informações demográficas, anotações patológicas detalhadas e codificação diagnóstica padronizada. O conjunto de dados visa preencher as lacunas identificadas nos recursos existentes, promovendo inovação, reprodutibilidade e o desenvolvimento de soluções computacionais de patologia clinicamente relevantes. O conjunto de dados pode ser acessado em https://github.com/HistAI/HISTAI.
Identificar com precisão técnicas adversárias em textos de segurança é crucial para uma defesa cibernética eficaz. No entanto, os métodos existentes enfrentam uma troca fundamental: eles dependem de modelos genéricos com precisão limitada no domínio ou exigem pipelines intensivos em recursos que dependem de grandes conjuntos de dados rotulados e otimizações específicas para a tarefa, como mineração personalizada de negativos difíceis e remoção de ruído, recursos raramente disponíveis em domínios especializados. Propomos o TechniqueRAG, uma estrutura de geração aumentada por recuperação (RAG) específica para o domínio que preenche essa lacuna ao integrar recuperadores prontos para uso, LLMs ajustados por instrução e pares mínimos de texto-técnica. Nossa abordagem aborda a escassez de dados ao ajustar apenas o componente de geração em exemplos limitados do domínio, contornando a necessidade de treinamento intensivo em recursos de recuperação. Embora o RAG convencional mitigue a alucinação ao acoplar recuperação e geração, sua dependência de recuperadores genéricos frequentemente introduz candidatos ruidosos, limitando a precisão específica do domínio. Para resolver isso, melhoramos a qualidade da recuperação e a especificidade do domínio por meio de reclassificação zero-shot com LLM, que alinha explicitamente os candidatos recuperados com técnicas adversárias. Experimentos em vários benchmarks de segurança demonstram que o TechniqueRAG alcança desempenho de ponta sem extensas otimizações específicas para a tarefa ou dados rotulados, enquanto uma análise abrangente fornece insights adicionais.
Nos últimos anos, o surgimento de grandes modelos de raciocínio (LRMs, do inglês Large Reasoning Models), como o OpenAI-o1 e o DeepSeek-R1, demonstrou capacidades impressionantes em problemas complexos, como matemática e codificação. Alguns estudos pioneiros tentam trazer o sucesso dos LRMs para a tradução automática neural (MT, do inglês Machine Translation). Eles buscam construir LRMs com capacidade profunda de raciocínio em MT por meio de aprendizado por reforço (RL, do inglês Reinforcement Learning). Apesar de alguns progressos terem sido alcançados, essas tentativas geralmente se concentram em vários idiomas de alto recurso, como inglês e chinês, deixando o desempenho em outros idiomas incerto. Além disso, os métodos de modelagem de recompensa em trabalhos anteriores não exploram plenamente o potencial do aprendizado por reforço em MT. Neste trabalho, primeiro projetamos um novo método de modelagem de recompensa que compara os resultados de tradução do modelo de MT de política com um LRM forte (ou seja, o DeepSeek-R1-671B) e quantifica as comparações para fornecer recompensas. Os resultados experimentais demonstram a superioridade do método de modelagem de recompensa. Usando o Qwen2.5-7B-Instruct como base, o modelo treinado alcança o novo estado da arte em tradução literária e supera LRMs fortes, incluindo o OpenAI-o1 e o DeepSeek-R1. Além disso, estendemos nosso método para configurações multilingues com 11 idiomas. Com uma modelagem de recompensa leve e cuidadosamente projetada em RL, podemos simplesmente transferir a forte capacidade de MT de uma única direção para múltiplas (ou seja, 90) direções de tradução e alcançar um desempenho impressionante em MT multilingue.
Os primeiros homens das cavernas dependiam de gestos, vocalizações e sinais simples para coordenar, planejar, evitar predadores e compartilhar recursos. Hoje, os humanos colaboram usando linguagens complexas para alcançar resultados notáveis. O que impulsiona essa evolução na comunicação? Como a linguagem emerge, se adapta e se torna vital para o trabalho em equipe? Compreender as origens da linguagem continua sendo um desafio. Uma hipótese proeminente na linguística e na antropologia sugere que a linguagem evoluiu para atender às demandas ecológicas e sociais da cooperação humana primitiva. A linguagem não surgiu isoladamente, mas através de objetivos de sobrevivência compartilhados. Inspirados por essa visão, investigamos a emergência da linguagem em Jogos de Coleta multiagente. Esses ambientes são projetados para refletir as restrições cognitivas e ecológicas que acredita-se terem influenciado a evolução da comunicação. Os agentes operam em um mundo de grade compartilhado com conhecimento parcial sobre outros agentes e o ambiente, e devem se coordenar para completar tarefas como coletar alvos de alto valor ou executar ações temporalmente ordenadas. Usando aprendizado por reforço profundo de ponta a ponta, os agentes aprendem tanto ações quanto estratégias de comunicação do zero. Descobrimos que os agentes desenvolvem protocolos de comunicação com características marcantes da linguagem natural: arbitrariedade, intercambialidade, deslocamento, transmissão cultural e composicionalidade. Quantificamos cada propriedade e analisamos como diferentes fatores, como tamanho da população e dependências temporais, moldam aspectos específicos da linguagem emergente. Nosso framework serve como uma plataforma para estudar como a linguagem pode evoluir a partir de observabilidade parcial, raciocínio temporal e objetivos cooperativos em ambientes multiagente corporificados. Disponibilizaremos todos os dados, códigos e modelos publicamente.
O Processador de Sinal de Imagem (ISP) é um componente fundamental nas câmeras de smartphones modernos, responsável pela conversão de dados de imagem RAW do sensor para imagens RGB, com um forte foco na qualidade perceptiva. Trabalhos recentes destacam o potencial das abordagens de aprendizado profundo e sua capacidade de capturar detalhes com uma qualidade cada vez mais próxima à das câmeras profissionais. Um passo difícil e custoso no desenvolvimento de um ISP aprendido é a aquisição de dados pareados alinhados pixel a pixel que mapeiam o RAW capturado por um sensor de câmera de smartphone para imagens de referência de alta qualidade. Neste trabalho, abordamos esse desafio propondo um novo método de treinamento para um ISP aprendível que elimina a necessidade de correspondências diretas entre imagens RAW e dados de referência com conteúdo correspondente. Nossa abordagem não pareada emprega uma função de perda multi-termo guiada por treinamento adversarial com múltiplos discriminadores que processam mapas de características de redes pré-treinadas para manter a estrutura do conteúdo enquanto aprendem características de cor e textura a partir do conjunto de dados RGB de destino. Utilizando arquiteturas de redes neurais leves adequadas para dispositivos móveis como backbones, avaliamos nosso método nos conjuntos de dados Zurich RAW to RGB e Fujifilm UltraISP. Comparada aos métodos de treinamento pareado, nossa estratégia de aprendizado não pareado mostra um forte potencial e alcança alta fidelidade em múltiplas métricas de avaliação. O código e os modelos pré-treinados estão disponíveis em https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
A desambiguação de homógrafos continua sendo um desafio significativo na conversão grafema-fonema (G2P), especialmente para idiomas de baixos recursos. Esse desafio é duplo: (1) a criação de conjuntos de dados de homógrafos balanceados e abrangentes é trabalhosa e custosa, e (2) estratégias específicas de desambiguação introduzem latência adicional, tornando-as inadequadas para aplicações em tempo real, como leitores de tela e outras ferramentas de acessibilidade. Neste artigo, abordamos ambas as questões. Primeiro, propomos um pipeline semiautomatizado para a construção de conjuntos de dados focados em homógrafos, apresentamos o conjunto de dados HomoRich gerado por meio desse pipeline e demonstramos sua eficácia ao aplicá-lo para aprimorar um sistema G2P baseado em aprendizado profundo de última geração para o persa. Segundo, defendemos uma mudança de paradigma - utilizar conjuntos de dados ricos offline para informar o desenvolvimento de métodos rápidos baseados em regras, adequados para aplicações de acessibilidade sensíveis à latência, como leitores de tela. Para isso, aprimoramos um dos sistemas G2P baseados em regras mais conhecidos, o eSpeak, em uma versão rápida e consciente de homógrafos, o HomoFast eSpeak. Nossos resultados mostram uma melhoria aproximada de 30% na precisão de desambiguação de homógrafos para os sistemas baseados em aprendizado profundo e eSpeak.
Treinar Small Language Models (SLMs) de alto desempenho continua sendo custoso, mesmo com o uso de destilação de conhecimento e poda de modelos professores maiores. Os trabalhos existentes frequentemente enfrentam três desafios principais: (1) perda de informação devido à poda rígida, (2) alinhamento ineficiente de representações e (3) subutilização de ativações informativas, especialmente das Redes Feed-Forward (FFNs). Para abordar esses desafios, introduzimos o Low-Rank Clone (LRC), um método eficiente de pré-treinamento que constrói SLMs que aspiram à equivalência comportamental com modelos professores robustos. O LRC treina um conjunto de matrizes de projeção de baixa classificação que permitem conjuntamente a poda suave, comprimindo os pesos do professor, e a clonagem de ativações, alinhando as ativações do aluno, incluindo sinais das FFNs, com as do professor. Esse design unificado maximiza a transferência de conhecimento enquanto elimina a necessidade de módulos explícitos de alinhamento. Experimentos extensivos com modelos professores de código aberto (por exemplo, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) mostram que o LRC iguala ou supera os modelos state-of-the-art treinados com trilhões de tokens—utilizando apenas 20 bilhões de tokens, alcançando uma eficiência de treinamento superior a 1.000x. Nossos códigos e checkpoints de modelo estão disponíveis em https://github.com/CURRENTF/LowRankClone e https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
Identificar erros técnicos sutis em documentos científicos e técnicos complexos, especialmente aqueles que exigem interpretação multimodal (por exemplo, fórmulas em imagens), representa um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs), cujas tendências inerentes de correção de erros podem mascarar imprecisões. Este estudo exploratório de prova de conceito (PoC) investiga o condicionamento estruturado de contexto em LLMs, baseado nos princípios do Persistent Workflow Prompting (PWP), como uma estratégia metodológica para modular esse comportamento dos LLMs durante a inferência. A abordagem foi projetada para aumentar a confiabilidade de LLMs de propósito geral amplamente disponíveis (especificamente o Gemini 2.5 Pro e o ChatGPT Plus o3) em tarefas de validação precisas, dependendo crucialmente apenas de suas interfaces de chat padrão, sem acesso a APIs ou modificações no modelo. Para explorar essa metodologia, focamos na validação de fórmulas químicas em um único artigo de teste complexo com erros conhecidos em texto e imagens. Várias estratégias de prompt foram avaliadas: enquanto prompts básicos se mostraram pouco confiáveis, uma abordagem adaptando estruturas PWP para condicionar rigorosamente a mentalidade analítica do LLM pareceu melhorar a identificação de erros textuais em ambos os modelos. Notavelmente, esse método também guiou o Gemini 2.5 Pro a identificar repetidamente um erro sutil em uma fórmula baseada em imagem que havia sido previamente ignorado durante a revisão manual, uma tarefa em que o ChatGPT Plus o3 falhou em nossos testes. Esses achados preliminares destacam modos operacionais específicos dos LLMs que dificultam a validação orientada a detalhes e sugerem que o condicionamento de contexto informado pelo PWP oferece uma técnica promissora e altamente acessível para desenvolver fluxos de trabalho analíticos mais robustos impulsionados por LLMs, particularmente para tarefas que exigem detecção meticulosa de erros em documentos científicos e técnicos. Uma validação extensa além deste PoC limitado é necessária para confirmar a aplicabilidade mais ampla.
A revisão crítica por pares de manuscritos científicos representa um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs), em parte devido às limitações de dados e à complexidade do raciocínio especializado. Este relatório introduz o Persistent Workflow Prompting (PWP), uma metodologia de engenharia de prompts potencialmente amplamente aplicável, projetada para preencher essa lacuna utilizando interfaces de chat padrão de LLMs (sem código, sem APIs). Apresentamos um prompt PWP de prova de conceito para a análise crítica de manuscritos de química experimental, caracterizado por uma arquitetura hierárquica e modular (estruturada via Markdown) que define fluxos de trabalho detalhados de análise. Desenvolvemos esse prompt PWP por meio da aplicação iterativa de técnicas de meta-prompting e meta-raciocínio, visando codificar sistematicamente os fluxos de trabalho de revisão especializada, incluindo conhecimentos tácitos. Submetido uma vez no início de uma sessão, esse prompt PWP equipa o LLM com fluxos de trabalho persistentes acionados por consultas subsequentes, guiando os LLMs modernos de raciocínio por meio de avaliações sistemáticas e multimodais. Demonstrações mostram o LLM guiado pelo PWP identificando falhas metodológicas significativas em um caso de teste, enquanto mitiga o viés de entrada do LLM e executa tarefas complexas, incluindo distinguir afirmações de evidências, integrar análises de texto/foto/figura para inferir parâmetros, executar verificações quantitativas de viabilidade, comparar estimativas com afirmações e avaliar a plausibilidade a priori. Para garantir transparência e facilitar a replicação, fornecemos os prompts completos, análises detalhadas de demonstração e logs de chats interativos como recursos suplementares. Além da aplicação específica, este trabalho oferece insights sobre o próprio processo de meta-desenvolvimento, destacando o potencial do PWP, informado pela formalização detalhada de fluxos de trabalho, para permitir análises sofisticadas utilizando LLMs prontamente disponíveis para tarefas científicas complexas.
Este estudo explora os Modelos de Linguagem de Grande Escala (LLMs) como agentes autônomos para tarefas do mundo real, incluindo o desenvolvimento de software freelance. Este trabalho apresenta um novo benchmark que avalia LLMs em tarefas de programação e análise de dados freelance derivadas de dados econômicos. Construímos o benchmark utilizando tarefas sintéticas criadas a partir de um conjunto de dados de anúncios de empregos do Kaggle Freelancer, com todos os preços dos projetos padronizados em USD (preço mediano de projeto fixo em torno de 250, e uma média de 306). Cada tarefa é acompanhada por casos de teste estruturados de entrada-saída e uma etiqueta de preço estimada, permitindo a verificação automática de correção e uma avaliação de desempenho monetário. Essa abordagem é inspirada no recente benchmark SWE-Lancer da OpenAI (1.400 tarefas reais do Upwork no valor total de 1 milhão). No entanto, nosso framework simplifica a avaliação utilizando tarefas testáveis programaticamente e valores de preço previstos, tornando-o altamente escalável e repetível. Neste benchmark, avaliamos quatro LLMs modernos - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 e Mistral. Relatamos a precisão de cada modelo (taxa de sucesso da tarefa e taxa de aprovação dos casos de teste) e o total de "ganhos freelance" que ele alcança (soma dos preços das tarefas resolvidas). Nossos resultados mostram que o Claude 3.5 Haiku tem o melhor desempenho, ganhando aproximadamente 1,52 milhão de USD, seguido de perto pelo GPT-4o-mini com 1,49 milhão, depois Qwen 2.5 (1,33M) e Mistral (0,70M). Analisamos a distribuição de erros por tarefa e observamos que os modelos mais fortes resolvem a maioria das tarefas e raramente falham completamente em qualquer projeto. Discutimos as implicações desses resultados para a viabilidade da IA como desenvolvedora freelance, as vantagens e limitações de nossa abordagem de benchmark automatizado e a lacuna entre o desempenho em tarefas estruturadas versus a verdadeira complexidade dos trabalhos freelance do mundo real.