Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado por reforço em larga escala com recompensas verificáveis (RLVR) demonstrou sua eficácia em aproveitar o potencial dos grandes modelos de linguagem (LLMs) para tarefas de raciocínio de turno único. Em cenários realistas de raciocínio, os LLMs frequentemente podem utilizar ferramentas externas para auxiliar nos processos de resolução de tarefas. No entanto, os algoritmos atuais de RL não equilibram adequadamente as capacidades intrínsecas de raciocínio de longo prazo dos modelos e sua proficiência em interações multi-turno com ferramentas. Para preencher essa lacuna, propomos o Otimização de Política Reforçada Agente (ARPO), um novo algoritmo de RL agente projetado para treinar agentes baseados em LLMs de multi-turno. Através de experimentos preliminares, observamos que os LLMs tendem a exibir comportamentos altamente incertos, caracterizados por um aumento na distribuição de entropia dos tokens gerados, imediatamente após interações com ferramentas externas. Motivados por essa observação, o ARPO incorpora um mecanismo de rollout adaptativo baseado em entropia, equilibrando dinamicamente a amostragem global de trajetórias e a amostragem em nível de passo, promovendo assim a exploração em passos com alta incerteza após o uso de ferramentas. Ao integrar uma estimativa de atribuição de vantagem, o ARPO permite que os LLMs internalizem as diferenças de vantagem em interações passo a passo com o uso de ferramentas. Nossos experimentos em 13 benchmarks desafiadores nos domínios de raciocínio computacional, raciocínio de conhecimento e busca profunda demonstram a superioridade do ARPO sobre algoritmos de RL em nível de trajetória. Notavelmente, o ARPO alcança um desempenho aprimorado utilizando apenas metade do orçamento de uso de ferramentas exigido pelos métodos existentes, oferecendo uma solução escalável para alinhar agentes baseados em LLMs com ambientes dinâmicos em tempo real. Nosso código e conjuntos de dados estão disponíveis em https://github.com/dongguanting/ARPO.
Vídeos curtos gerados por usuários no mundo real, especialmente aqueles distribuídos em plataformas como WeChat Channel e TikTok, dominam a internet móvel. No entanto, os atuais modelos multimodais de grande escala carecem de capacidades essenciais de compreensão de vídeo estruturada temporalmente, detalhada e aprofundada, que são a base para uma busca e recomendação eficaz de vídeos, bem como para aplicações emergentes de vídeo. Compreender vídeos curtos do mundo real é, na verdade, desafiador devido aos seus elementos visuais complexos, alta densidade de informação tanto em elementos visuais quanto em áudio, e ritmo acelerado que se concentra na expressão emocional e na entrega de pontos de vista. Isso exige raciocínio avançado para integrar efetivamente informações multimodais, incluindo visuais, áudio e texto. Neste trabalho, apresentamos o ARC-Hunyuan-Video, um modelo multimodal que processa sinais visuais, de áudio e textuais a partir de entradas de vídeo brutas de ponta a ponta para uma compreensão estruturada. O modelo é capaz de legendagem e resumo de vídeo com marcação temporal de múltiplas granularidades, resposta a perguntas abertas sobre vídeos, localização temporal em vídeos e raciocínio sobre vídeos. Aproveitando dados de alta qualidade de um pipeline de anotação automatizada, nosso modelo compacto de 7 bilhões de parâmetros é treinado por meio de um regime abrangente: pré-treinamento, ajuste fino por instrução, início a frio, pós-treinamento com aprendizado por reforço (RL) e ajuste final por instrução. Avaliações quantitativas em nosso benchmark introduzido, ShortVid-Bench, e comparações qualitativas demonstram seu forte desempenho na compreensão de vídeos do mundo real, e ele suporta zero-shot ou ajuste fino com poucas amostras para diversas aplicações downstream. A implantação em produção do nosso modelo no mundo real resultou em melhorias tangíveis e mensuráveis no engajamento e satisfação do usuário, um sucesso apoiado por sua notável eficiência, com testes de estresse indicando um tempo de inferência de apenas 10 segundos para um vídeo de um minuto em GPU H20.
Apesar da promessa da Aprendizagem Multitarefa em aproveitar o conhecimento complementar entre tarefas, as técnicas existentes de otimização multitarefa (MTO) permanecem focadas em resolver conflitos por meio de estratégias de escalonamento de perda e manipulação de gradientes centradas no otimizador, mas falham em entregar ganhos consistentes. Neste artigo, argumentamos que o espaço de representação compartilhada, onde as interações entre tarefas ocorrem naturalmente, oferece informações ricas e potencial para operações complementares aos otimizadores existentes, especialmente para facilitar a complementaridade intertarefa, que raramente é explorada no MTO. Essa intuição leva ao Rep-MTL, que explora a saliência de tarefa no nível de representação para quantificar as interações entre a otimização específica de cada tarefa e o aprendizado de representação compartilhada. Ao direcionar essas saliências por meio de penalização baseada em entropia e alinhamento intertarefa por amostra, o Rep-MTL visa mitigar a transferência negativa mantendo o treinamento eficaz de tarefas individuais, em vez de apenas resolver conflitos, enquanto promove explicitamente o compartilhamento de informações complementares. Experimentos são conduzidos em quatro benchmarks desafiadores de MTL, cobrindo cenários de mudança de tarefa e mudança de domínio. Os resultados mostram que o Rep-MTL, mesmo quando emparelhado com a política básica de ponderação igual, alcança ganhos de desempenho competitivos com eficiência favorável. Além das métricas de desempenho padrão, a análise do expoente da Lei de Potência demonstra a eficácia do Rep-MTL em equilibrar o aprendizado específico de cada tarefa e o compartilhamento intertarefa. A página do projeto está disponível AQUI.
A reconstrução da inteligência espacial 4D a partir de observações visuais tem sido há muito tempo uma tarefa central, porém desafiadora, na visão computacional, com amplas aplicações no mundo real. Essas variam desde domínios de entretenimento, como filmes, onde o foco frequentemente está na reconstrução de elementos visuais fundamentais, até a IA incorporada, que enfatiza a modelagem de interações e o realismo físico. Impulsionado pelos rápidos avanços nas representações 3D e nas arquiteturas de aprendizado profundo, o campo evoluiu rapidamente, superando o escopo de pesquisas anteriores. Além disso, as pesquisas existentes raramente oferecem uma análise abrangente da estrutura hierárquica da reconstrução de cenas 4D. Para preencher essa lacuna, apresentamos uma nova perspectiva que organiza os métodos existentes em cinco níveis progressivos de inteligência espacial 4D: (1) Nível 1 -- reconstrução de atributos 3D de baixo nível (por exemplo, profundidade, pose e mapas de pontos); (2) Nível 2 -- reconstrução de componentes de cena 3D (por exemplo, objetos, humanos, estruturas); (3) Nível 3 -- reconstrução de cenas dinâmicas 4D; (4) Nível 4 -- modelagem de interações entre os componentes da cena; e (5) Nível 5 -- incorporação de leis e restrições físicas. Concluímos a pesquisa discutindo os principais desafios em cada nível e destacando direções promissoras para avançar em direção a níveis ainda mais ricos de inteligência espacial 4D. Para acompanhar os desenvolvimentos em andamento, mantemos uma página de projeto atualizada: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Enquanto os grandes modelos de linguagem (LLMs) de ponta continuam a expandir os limites de capacidade, sua implantação permanece restrita a infraestruturas em nuvem equipadas com GPUs. Desafiamos esse paradigma com o SmallThinker, uma família de LLMs projetada nativamente — e não adaptada — para as restrições únicas de dispositivos locais: poder computacional limitado, memória reduzida e armazenamento lento. Diferente das abordagens tradicionais que principalmente comprimem modelos existentes construídos para nuvens, arquitetamos o SmallThinker desde o início para prosperar dentro dessas limitações. Nossa inovação reside em uma arquitetura consciente da implantação que transforma restrições em princípios de design. Primeiro, introduzimos uma estrutura esparsa de dois níveis que combina Mixture-of-Experts (MoE) de granularidade fina com redes feed-forward esparsas, reduzindo drasticamente as demandas computacionais sem sacrificar a capacidade do modelo. Segundo, para superar o gargalo de E/S do armazenamento lento, projetamos um roteador de pré-atenção que permite ao nosso mecanismo de inferência co-projetado pré-buscar parâmetros de especialistas do armazenamento enquanto calcula a atenção, efetivamente ocultando a latência de armazenamento que, de outra forma, prejudicaria a inferência no dispositivo. Terceiro, para eficiência de memória, utilizamos um mecanismo de atenção esparsa híbrido NoPE-RoPE para reduzir drasticamente os requisitos de cache KV. Lançamos o SmallThinker-4B-A0.6B e o SmallThinker-21B-A3B, que alcançam pontuações de desempenho de última geração e até superam LLMs maiores. Notavelmente, nosso sistema co-projetado elimina em grande parte a necessidade de hardware GPU caro: com quantização Q4_0, ambos os modelos excedem 20 tokens/s em CPUs comuns de consumidor, enquanto consomem apenas 1GB e 8GB de memória, respectivamente. O SmallThinker está disponível publicamente em hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct e hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades robustas, mas permanecem fundamentalmente estáticos, incapazes de adaptar seus parâmetros internos a novas tarefas, domínios de conhecimento em evolução ou contextos de interação dinâmicos. À medida que os LLMs são cada vez mais implantados em ambientes interativos e abertos, essa natureza estática tornou-se um gargalo crítico, exigindo agentes que possam raciocinar, agir e evoluir de forma adaptativa em tempo real. Essa mudança de paradigma — da escalabilidade de modelos estáticos para o desenvolvimento de agentes auto-evolutivos — despertou um interesse crescente em arquiteturas e métodos que permitem aprendizado contínuo e adaptação a partir de dados, interações e experiências. Esta revisão oferece a primeira análise sistemática e abrangente de agentes auto-evolutivos, organizada em torno de três dimensões fundamentais — o que evoluir, quando evoluir e como evoluir. Examinamos mecanismos evolutivos em componentes de agentes (por exemplo, modelos, memória, ferramentas, arquitetura), categorizamos métodos de adaptação por estágios (por exemplo, intra-tempo de teste, inter-tempo de teste) e analisamos os designs algorítmicos e arquitetônicos que orientam a adaptação evolutiva (por exemplo, recompensas escalares, feedback textual, sistemas de agente único e multiagente). Além disso, analisamos métricas de avaliação e benchmarks específicos para agentes auto-evolutivos, destacamos aplicações em domínios como programação, educação e saúde, e identificamos desafios críticos e direções de pesquisa em segurança, escalabilidade e dinâmicas co-evolutivas. Ao fornecer uma estrutura estruturada para compreender e projetar agentes auto-evolutivos, esta revisão estabelece um roteiro para avançar sistemas agentes adaptativos tanto na pesquisa quanto em implantações do mundo real, iluminando o caminho para a realização da Inteligência Super Artificial (ASI), onde agentes evoluem autonomamente, desempenhando tarefas em ou além do nível de inteligência humana em uma ampla gama de atividades.
Avanços recentes, como a Otimização de Política Relativa de Grupo (GRPO), aprimoraram as capacidades de raciocínio de grandes modelos de linguagem ao otimizar a média aritmética das recompensas em nível de token. No entanto, o GRPO sofre com atualizações de política instáveis ao processar tokens com recompensas ponderadas por importância discrepantes, o que se manifesta como razões de amostragem de importância extremas durante o treinamento, ou seja, a razão entre as probabilidades de amostragem atribuídas a um token pelas políticas atual e antiga. Neste trabalho, propomos a Otimização de Política de Média Geométrica (GMPO), uma variante estabilizada do GRPO. Em vez de otimizar a média aritmética, o GMPO maximiza a média geométrica das recompensas em nível de token, que é intrinsecamente menos sensível a valores discrepantes e mantém uma faixa mais estável da razão de amostragem de importância. Além disso, fornecemos uma análise teórica e experimental abrangente para justificar o design e os benefícios de estabilidade do GMPO. Além da estabilidade aprimorada, o GMPO-7B supera o GRPO em média 4,1% em vários benchmarks matemáticos e 1,4% em benchmarks de raciocínio multimodal, incluindo AIME24, AMC, MATH500, OlympiadBench, Minerva e Geometry3K. O código está disponível em https://github.com/callsys/GMPO.
Os recentes avanços em modelos multimodais de grande escala, como o GPT-4o, estabeleceram um novo padrão para edição de imagens guiada por instruções de alta fidelidade. No entanto, a natureza proprietária desses modelos e de seus dados de treinamento cria uma barreira significativa para a pesquisa de código aberto. Para preencher essa lacuna, apresentamos o GPT-IMAGE-EDIT-1.5M, um corpus de edição de imagens em grande escala e publicamente disponível, contendo mais de 1,5 milhão de triplas de alta qualidade (instrução, imagem original, imagem editada). Construímos sistematicamente esse conjunto de dados aproveitando as capacidades versáteis do GPT-4o para unificar e refinar três populares conjuntos de dados de edição de imagens: OmniEdit, HQ-Edit e UltraEdit. Especificamente, nossa metodologia envolve 1) regenerar imagens de saída para melhorar a qualidade visual e o alinhamento com as instruções, e 2) reescrever seletivamente os prompts para aprimorar a clareza semântica. Para validar a eficácia do nosso conjunto de dados, ajustamos modelos avançados de código aberto no GPT-IMAGE-EDIT-1.5M. Os resultados empíricos são animadores; por exemplo, o FluxKontext ajustado alcança um desempenho altamente competitivo em uma ampla gama de benchmarks, incluindo 7,24 no GEdit-EN, 3,80 no ImgEdit-Full e 8,78 no Complex-Edit, demonstrando uma melhor aderência às instruções e maior qualidade perceptual, mantendo a identidade. Essas pontuações superam marcadamente todos os métodos de código aberto previamente publicados e reduzem substancialmente a distância para os principais modelos proprietários. Esperamos que o lançamento completo do GPT-IMAGE-EDIT-1.5M possa ajudar a catalisar pesquisas abertas adicionais em edição de imagens guiada por instruções.
A aprendizagem de representações visuais é fundamental para uma ampla gama de tarefas subsequentes. Embora modelos contrastivos recentes de visão e linguagem, como CLIP e SigLIP, tenham alcançado desempenho impressionante em cenários de zero-shot por meio do alinhamento em larga escala entre visão e linguagem, sua dependência de representações globais limita sua eficácia para tarefas de predição densa, como grounding, OCR e segmentação. Para abordar essa lacuna, introduzimos o Método de Discriminação de Cluster com Consciência de Região (RICE), uma abordagem inovadora que aprimora as capacidades visuais e de OCR em nível regional. Primeiro, construímos um conjunto de dados de regiões candidatas em escala de bilhões e propomos uma camada de Transformer de Região para extrair semânticas regionais ricas. Além disso, projetamos uma função de perda unificada de discriminação de cluster de região que suporta conjuntamente a aprendizagem de objetos e OCR dentro de um único framework de classificação, permitindo treinamento distribuído eficiente e escalável em dados de larga escala. Experimentos extensivos mostram que o RICE supera consistentemente métodos anteriores em tarefas como segmentação, detecção densa e percepção visual para Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Os modelos pré-treinados foram disponibilizados em https://github.com/deepglint/MVT.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) destacaram o potencial do aprendizado por reforço com recompensas verificáveis (RLVR) para aprimorar as capacidades de raciocínio por meio de sequências de saída estendidas. No entanto, os frameworks tradicionais de RL enfrentam ineficiências ao lidar com saídas ultra-longas devido a distribuições de sequência de cauda longa e ao colapso de entropia durante o treinamento. Para abordar esses desafios, propomos uma abordagem de Aprendizado por Reforço de Saída Ultra-Longa (UloRL) para avançar as habilidades de raciocínio de modelos de linguagem de grande escala. Especificamente, dividimos a decodificação de saída ultra-longa em segmentos curtos, permitindo um treinamento eficiente ao mitigar os atrasos causados por amostras de cauda longa. Além disso, introduzimos o mascaramento dinâmico de Tokens Positivos Bem Dominados (MPTs) para evitar o colapso de entropia. Os resultados experimentais demonstram a eficácia de nossa abordagem. No modelo Qwen3-30B-A3B, o RL com segmentação de rollout alcançou um aumento de 2,06x na velocidade de treinamento, enquanto o treinamento de RL com saídas de 128k tokens melhorou o desempenho do modelo no AIME2025 de 70,9% para 85,1% e no BeyondAIME de 50,7% para 61,9%, superando até mesmo o Qwen3-235B-A22B com ganhos notáveis. Esses achados destacam o potencial de nossos métodos para avançar as capacidades de raciocínio de LLMs com geração de sequências ultra-longas. Disponibilizaremos nosso código e modelo para uso adicional pela comunidade.
O aumento da frequência de eventos climáticos extremos devido às mudanças climáticas globais exige previsões meteorológicas precisas. Recentemente, grandes avanços foram alcançados por métodos de ponta a ponta, graças às técnicas de aprendizado profundo, mas eles enfrentam limitações de inconsistência na representação da integração multivariável e dificuldades para capturar efetivamente a dependência entre variáveis, o que é necessário em sistemas climáticos complexos. Tratar diferentes variáveis como modalidades distintas e aplicar uma abordagem de treinamento em duas etapas a partir de modelos multimodais pode aliviar parcialmente esse problema, mas devido à incompatibilidade nas tarefas de treinamento entre as duas etapas, os resultados geralmente são subótimos. Para enfrentar esses desafios, propomos um método de treinamento implícito em duas etapas, configurando codificadores e decodificadores separados para cada variável. Especificamente, na primeira etapa, o Tradutor é congelado enquanto os Codificadores e Decodificadores aprendem um espaço latente compartilhado; na segunda etapa, os Codificadores e Decodificadores são congelados, e o Tradutor captura as interações entre variáveis para a previsão. Além disso, ao introduzir um mecanismo de autoatenção para a fusão multivariável no espaço latente, o desempenho alcança melhorias adicionais. Empiricamente, experimentos extensivos mostram o desempenho de ponta do nosso método. Especificamente, ele reduz o MSE para previsões de temperatura do ar próximo à superfície e umidade relativa em 28,82% e 23,39%, respectivamente. O código-fonte está disponível em https://github.com/ShremG/Met2Net.
A retificação de imagens de documentos visa eliminar deformações geométricas em documentos fotografados para facilitar o reconhecimento de texto. No entanto, os métodos existentes frequentemente negligenciam a importância dos elementos em primeiro plano, que fornecem referências geométricas essenciais e informações de layout para a correção da imagem do documento. Neste artigo, apresentamos a Rede Centrada no Primeiro Plano (ForCenNet) para eliminar distorções geométricas em imagens de documentos. Especificamente, propomos inicialmente um método de geração de rótulos centrado no primeiro plano, que extrai elementos detalhados do primeiro plano de uma imagem não distorcida. Em seguida, introduzimos um mecanismo de máscara centrado no primeiro plano para melhorar a distinção entre regiões legíveis e o fundo. Além disso, projetamos uma função de perda de consistência de curvatura para aproveitar os rótulos detalhados do primeiro plano e ajudar o modelo a compreender a distribuição geométrica distorcida. Experimentos extensivos demonstram que o ForCenNet alcança novos estados da arte em quatro benchmarks do mundo real, como DocUNet, DIR300, WarpDoc e DocReal. A análise quantitativa mostra que o método proposto efetivamente corrige elementos de layout, como linhas de texto e bordas de tabelas. Os recursos para comparações adicionais são fornecidos em https://github.com/caipeng328/ForCenNet.
A geração perpétua de cenas 3D visa produzir sequências de visões 3D de longo alcance e coesas, sendo aplicável para a síntese de vídeos de longo prazo e a reconstrução de cenas 3D. Os métodos existentes seguem uma abordagem de "navegar-e-imaginar" e dependem de técnicas de outpainting para a expansão sucessiva das visões. No entanto, as sequências de visões geradas sofrem com o problema de deriva semântica, decorrente do desvio acumulado do módulo de outpainting. Para enfrentar esse desafio, propomos o ScenePainter, um novo framework para a geração de cenas 3D semanticamente consistentes, que alinha o conhecimento prévio específico da cena do outpainter com a compreensão da cena atual. Especificamente, introduzimos uma estrutura hierárquica em grafo chamada SceneConceptGraph para construir relações entre conceitos de cena em múltiplos níveis, que orienta o outpainter para a criação de visões novas consistentes e pode ser refinada dinamicamente para aumentar a diversidade. Experimentos extensivos demonstram que nosso framework supera o problema de deriva semântica e gera sequências de visões 3D mais consistentes e imersivas. Página do Projeto: https://xiac20.github.io/ScenePainter/.
Apresentamos o Music Arena, uma plataforma aberta para avaliação escalável de preferências humanas em modelos de texto para música (TTM). Solicitar preferências humanas por meio de estudos de escuta é o padrão ouro para avaliação em TTM, mas esses estudos são caros de realizar e difíceis de comparar, pois os protocolos de estudo podem variar entre os sistemas. Além disso, as preferências humanas podem ajudar os pesquisadores a alinhar seus sistemas TTM ou melhorar as métricas de avaliação automática, mas uma fonte aberta e renovável de preferências atualmente não existe. Nosso objetivo é preencher essas lacunas oferecendo avaliação *em tempo real* para TTM. No Music Arena, usuários do mundo real inserem prompts de texto de sua escolha e comparam saídas de dois sistemas TTM, e suas preferências são usadas para compilar um ranking. Embora o Music Arena siga tendências recentes de avaliação em outros domínios de IA, também o projetamos com recursos-chave adaptados à música: um sistema de roteamento baseado em LLM para navegar pelas assinaturas de tipo heterogêneas dos sistemas TTM, e a coleta de preferências *detalhadas*, incluindo dados de escuta e feedback em linguagem natural. Também propomos uma política de liberação contínua de dados com garantias de privacidade do usuário, fornecendo uma fonte renovável de dados de preferência e aumentando a transparência da plataforma. Por meio de seu protocolo de avaliação padronizado, políticas transparentes de acesso a dados e recursos específicos para música, o Music Arena não apenas aborda desafios-chave no ecossistema TTM, mas também demonstra como a avaliação em tempo real pode ser cuidadosamente adaptada às características únicas de domínios específicos de IA. O Music Arena está disponível em: https://music-arena.org
Modelos de difusão e correspondência de fluxo revolucionaram a geração automática de áudio a partir de texto nos últimos tempos. Esses modelos são cada vez mais capazes de gerar saídas de áudio de alta qualidade e fidedignas, capturando fala e eventos acústicos. No entanto, ainda há muito espaço para melhorias na geração criativa de áudio que envolve principalmente música e canções. Modelos recentes de letra-para-música de código aberto, como DiffRhythm, ACE-Step e LeVo, estabeleceram um padrão aceitável na geração automática de músicas para uso recreativo. No entanto, esses modelos carecem de controlabilidade em nível de palavra, frequentemente desejada por músicos em seus fluxos de trabalho. Até onde sabemos, nosso modelo JAM, baseado em correspondência de fluxo, é o primeiro esforço para fornecer controle de tempo e duração em nível de palavra na geração de músicas, permitindo um controle vocal refinado. Para melhorar a qualidade das músicas geradas e alinhá-las melhor com as preferências humanas, implementamos o alinhamento estético por meio de Otimização Direta de Preferência, que refina iterativamente o modelo usando um conjunto de dados sintético, eliminando a necessidade de anotações manuais de dados. Além disso, buscamos padronizar a avaliação de tais modelos de letra-para-música por meio de nosso conjunto de dados de avaliação público, JAME. Demonstramos que o JAM supera os modelos existentes em termos de atributos específicos da música.
Quando modelos de linguagem (LMs) são treinados via aprendizado por reforço (RL) para gerar "cadeias de raciocínio" em linguagem natural, seu desempenho melhora em uma variedade de tarefas difíceis de resposta a perguntas. Hoje, quase todas as aplicações bem-sucedidas de RL para raciocínio usam funções de recompensa binárias que avaliam a correção das saídas dos LMs. Como tais funções de recompensa não penalizam palpites ou saídas de baixa confiança, elas frequentemente têm o efeito colateral indesejado de degradar a calibração e aumentar a taxa na qual os LMs geram respostas incorretas (ou "alucinam") em outros domínios de problemas. Este artigo descreve o RLCR (Reinforcement Learning with Calibration Rewards), uma abordagem para treinar modelos de raciocínio que melhora conjuntamente a precisão e a estimativa de confiança calibrada. Durante o RLCR, os LMs geram tanto previsões quanto estimativas numéricas de confiança após o raciocínio. Eles são treinados para otimizar uma função de recompensa que aumenta uma pontuação binária de correção com um escore de Brier — uma regra de pontuação para estimativas de confiança que incentiva a previsão calibrada. Primeiro, provamos que essa função de recompensa (ou qualquer função de recompensa análoga que use uma regra de pontuação própria e limitada) produz modelos cujas previsões são tanto precisas quanto bem calibradas. Em seguida, mostramos que, em diversos conjuntos de dados, o RLCR melhora substancialmente a calibração sem perda de precisão, tanto em avaliações dentro do domínio quanto fora dele — superando tanto o treinamento RL comum quanto classificadores treinados para atribuir pontuações de confiança pós-hoc. Enquanto o RL comum prejudica a calibração, o RLCR a melhora. Por fim, demonstramos que a confiança verbalizada pode ser aproveitada no momento do teste para melhorar a precisão e a calibração por meio de métodos de ponderação de confiança. Nossos resultados mostram que otimizar explicitamente para a calibração pode produzir modelos de raciocínio mais confiáveis em geral.
A análise de expressão gênica é fundamental para muitas descobertas biomédicas, mas a extração de insights a partir de dados transcriptômicos brutos continua sendo um desafio devido à complexidade de múltiplos arquivos grandes e semiestruturados e à necessidade de ampla expertise no domínio. As abordagens atuais de automação são frequentemente limitadas por fluxos de trabalho inflexíveis que falham em casos extremos ou por agentes totalmente autônomos que carecem da precisão necessária para investigações científicas rigorosas. O GenoMAS traça um caminho diferente ao apresentar uma equipe de cientistas baseados em LLM (Large Language Models) que integra a confiabilidade de fluxos de trabalho estruturados com a adaptabilidade de agentes autônomos. O GenoMAS orquestra seis agentes especializados de LLM por meio de protocolos de passagem de mensagens tipadas, cada um contribuindo com pontos fortes complementares para uma tela analítica compartilhada. No cerne do GenoMAS está uma estrutura de planejamento guiado: agentes de programação desdobram diretrizes de tarefas de alto nível em Unidades de Ação e, em cada junção, optam por avançar, revisar, contornar ou retroceder, mantendo assim a coerência lógica enquanto se adaptam com flexibilidade às idiossincrasias dos dados genômicos. No benchmark GenoTEX, o GenoMAS alcança uma Correlação de Similaridade Composta de 89,13% para pré-processamento de dados e um F1 de 60,48% para identificação de genes, superando o estado da arte anterior em 10,61% e 16,85%, respectivamente. Além das métricas, o GenoMAS revela associações gene-fenótipo biologicamente plausíveis corroboradas pela literatura, tudo isso enquanto ajusta para confundidores latentes. O código está disponível em https://github.com/Liu-Hy/GenoMAS.
Modelos de raciocínio de grande escala (LRM) com capacidades de cadeia de pensamento (CoT) longa têm demonstrado um forte desempenho em tarefas objetivas, como raciocínio matemático e codificação. No entanto, sua eficácia em questões subjetivas que podem ter respostas diferentes dependendo da perspectiva ainda é limitada por uma tendência ao raciocínio homogêneo, introduzida pela dependência de uma única verdade fundamental no ajuste fino supervisionado e de recompensas verificáveis no aprendizado por reforço. Motivados pela descoberta de que o aumento das perspectivas de papéis melhora consistentemente o desempenho, propomos o MultiRole-R1, uma estrutura aprimorada para diversidade com múltiplas perspectivas de papéis, para melhorar a precisão e a diversidade em tarefas de raciocínio subjetivo. O MultiRole-R1 apresenta um pipeline de construção de dados não supervisionado que gera cadeias de raciocínio que incorporam diversas perspectivas de papéis. Além disso, empregamos aprendizado por reforço via Otimização de Política Relativa de Grupo (GRPO) com modelagem de recompensa, considerando a diversidade como um sinal de recompensa além da recompensa verificável. Com funções de recompensa especialmente projetadas, promovemos com sucesso a diversidade de perspectivas e a diversidade lexical, revelando uma relação positiva entre a diversidade de raciocínio e a precisão. Nossos experimentos em seis benchmarks demonstram a eficácia e a generalizabilidade do MultiRole-R1 no aprimoramento do raciocínio tanto subjetivo quanto objetivo, destacando o potencial do treinamento aprimorado para diversidade em LRMs.
A demanda por Modelos de Linguagem de Grande Escala (LLMs) capazes de realizar raciocínio matemático sofisticado está crescendo em diversos setores. No entanto, o desenvolvimento de LLMs matemáticos de alto desempenho é severamente limitado pela escassez de dados de treinamento desafiadores e inovadores. Apresentamos o SAND-Math (Problemas e Soluções Matemáticas Sintéticas, Aumentadas, Novas e Difíceis), um pipeline que aborda essa questão ao gerar problemas de alta qualidade do zero e, em seguida, elevar sistematicamente sua complexidade por meio de uma nova etapa chamada Difficulty Hiking. Demonstramos a eficácia de nossa abordagem por meio de dois resultados principais. Primeiro, ao aumentar um modelo de referência robusto com dados do SAND-Math, observamos um ganho significativo de desempenho, superando o melhor conjunto de dados sintéticos em até 17,85 pontos absolutos no benchmark AIME25. Segundo, em um estudo de ablação dedicado, mostramos que o processo de Difficulty Hiking é altamente eficaz: ao aumentar a dificuldade média dos problemas de 5,02 para 5,98, essa etapa eleva o desempenho no AIME25 de 46,38% para 49,23%. O pipeline completo de geração, o conjunto de dados final e um modelo ajustado formam um kit de ferramentas prático e escalável para a construção de LLMs de raciocínio matemático mais capazes e eficientes. O conjunto de dados SAND-Math está disponível em: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}