Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de raciocínio (LRMs, do inglês Large Reasoning Models), como o OpenAI-o1 e o DeepSeek-R1, demonstram capacidades impressionantes de raciocínio de longo prazo. No entanto, sua dependência de conhecimento interno estático limita seu desempenho em tarefas complexas e intensivas em conhecimento, além de dificultar sua capacidade de produzir relatórios de pesquisa abrangentes que exigem a síntese de diversas informações da web. Para resolver isso, propomos o WebThinker, um agente de pesquisa profunda que capacita os LRMs a buscar autonomamente na web, navegar por páginas da internet e redigir relatórios de pesquisa durante o processo de raciocínio. O WebThinker integra um módulo de Exploração Profunda da Web, permitindo que os LRMs busquem, naveguem e extraiam informações da web de forma dinâmica ao encontrarem lacunas de conhecimento. Ele também emprega uma estratégia autônoma de Pensar-Buscar-Escrever, permitindo que o modelo intercale de forma contínua o raciocínio, a coleta de informações e a redação de relatórios em tempo real. Para aprimorar ainda mais a utilização de ferramentas de pesquisa, introduzimos uma estratégia de treinamento baseada em Aprendizado por Reforço (RL) via Otimização Direta de Preferências (DPO, do inglês Direct Preference Optimization) iterativa online. Experimentos extensos em benchmarks de raciocínio complexo (GPQA, GAIA, WebWalkerQA, HLE) e tarefas de geração de relatórios científicos (Glaive) demonstram que o WebThinker supera significativamente os métodos existentes e sistemas proprietários robustos. Nossa abordagem aumenta a confiabilidade e a aplicabilidade dos LRMs em cenários complexos, abrindo caminho para sistemas de pesquisa profunda mais capazes e versáteis. O código está disponível em https://github.com/RUC-NLPIR/WebThinker.
A diacritização de textos em árabe continua sendo um desafio persistente no processamento de linguagem natural devido à riqueza morfológica da língua. Neste artigo, apresentamos o Sadeed, uma abordagem inovadora baseada em um modelo de linguagem apenas de decodificador, ajustado a partir do Kuwain 1.5B Hennara et al. [2025], um modelo compacto originalmente treinado em diversos corpora árabes. O Sadeed é ajustado em conjuntos de dados diacritizados de alta qualidade, cuidadosamente curados e construídos por meio de um rigoroso pipeline de limpeza e normalização de dados. Apesar de utilizar recursos computacionais modestos, o Sadeed alcança resultados competitivos em comparação com modelos de linguagem grandes proprietários e supera modelos tradicionais treinados em domínios semelhantes. Além disso, destacamos limitações importantes nas práticas atuais de avaliação de benchmarks para diacritização árabe. Para abordar essas questões, introduzimos o SadeedDiac-25, um novo benchmark projetado para permitir uma avaliação mais justa e abrangente em diversos gêneros de texto e níveis de complexidade. Juntos, o Sadeed e o SadeedDiac-25 fornecem uma base robusta para avançar aplicações de PLN em árabe, incluindo tradução automática, conversão de texto em fala e ferramentas de aprendizado de idiomas.
Apresentamos o Phi-4-reasoning, um modelo de raciocínio com 14 bilhões de parâmetros que alcança um desempenho robusto em tarefas complexas de raciocínio. Treinado por meio de ajuste fino supervisionado do Phi-4 em um conjunto cuidadosamente curado de prompts "ensináveis" — selecionados pelo nível adequado de complexidade e diversidade — e demonstrações de raciocínio geradas usando o o3-mini, o Phi-4-reasoning produz cadeias de raciocínio detalhadas que aproveitam efetivamente o poder computacional durante a inferência. Desenvolvemos ainda o Phi-4-reasoning-plus, uma variante aprimorada por uma breve fase de aprendizado por reforço baseado em resultados, que oferece um desempenho superior ao gerar traços de raciocínio mais longos. Em uma ampla gama de tarefas de raciocínio, ambos os modelos superam significativamente modelos de código aberto muito maiores, como o DeepSeek-R1-Distill-Llama-70B, e se aproximam dos níveis de desempenho do modelo completo DeepSeek-R1. Nossas avaliações abrangentes abrangem benchmarks de raciocínio matemático e científico, codificação, resolução de problemas algorítmicos, planejamento e compreensão espacial. Curiosamente, observamos uma transferência não trivial de melhorias para benchmarks de propósito geral também. Neste relatório, fornecemos insights sobre nossos dados de treinamento, metodologias de treinamento e avaliações. Mostramos que o benefício da curadoria cuidadosa de dados para ajuste fino supervisionado (SFT) se estende a modelos de linguagem de raciocínio e pode ser amplificado ainda mais pelo aprendizado por reforço (RL). Por fim, nossa avaliação aponta oportunidades para melhorar a forma como avaliamos o desempenho e a robustez dos modelos de raciocínio.
O Chain-of-Thought (CoT) aprimora significativamente as capacidades de raciocínio formal em Large Language Models (LLMs) ao treiná-los para gerar explicitamente etapas intermediárias de raciocínio. Embora os LLMs se beneficiem facilmente de tais técnicas, melhorar o raciocínio em Small Language Models (SLMs) continua desafiador devido à sua capacidade limitada de modelo. Trabalhos recentes do Deepseek-R1 demonstram que a destilação de dados sintéticos gerados por LLMs pode melhorar substancialmente a capacidade de raciocínio de SLMs. No entanto, a receita detalhada de modelagem não é divulgada. Neste trabalho, apresentamos uma receita sistemática de treinamento para SLMs que consiste em quatro etapas: (1) treinamento intermediário em larga escala com dados diversos de long-CoT destilados, (2) ajuste fino supervisionado com dados de long-CoT de alta qualidade, (3) Rollout DPO utilizando um conjunto de dados de preferência cuidadosamente curado, e (4) Aprendizado por Reforço (RL) com Recompensa Verificável. Aplicamos nosso método no Phi-4-Mini, um modelo compacto de 3,8 bilhões de parâmetros. O modelo resultante, Phi-4-Mini-Reasoning, supera, em tarefas de raciocínio matemático, modelos de raciocínio muito maiores, por exemplo, superando o DeepSeek-R1-Distill-Qwen-7B em 3,2 pontos e o DeepSeek-R1-Distill-Llama-8B em 7,7 pontos no Math-500. Nossos resultados validam que uma receita de treinamento cuidadosamente projetada, com dados de CoT em larga escala e de alta qualidade, é eficaz para desbloquear fortes capacidades de raciocínio mesmo em modelos pequenos com recursos limitados.
O recente desenvolvimento de modelos de linguagem de raciocínio (RLMs) representa uma nova evolução nos grandes modelos de linguagem. Em particular, o lançamento recente do DeepSeek-R1 gerou um amplo impacto social e despertou entusiasmo na comunidade de pesquisa para explorar o paradigma de raciocínio explícito dos modelos de linguagem. No entanto, os detalhes de implementação dos modelos lançados não foram totalmente disponibilizados como código aberto pela DeepSeek, incluindo o DeepSeek-R1-Zero, o DeepSeek-R1 e os modelos pequenos destilados. Como resultado, muitos estudos de replicação surgiram com o objetivo de reproduzir o forte desempenho alcançado pelo DeepSeek-R1, atingindo desempenho comparável por meio de procedimentos de treinamento semelhantes e recursos de dados totalmente abertos. Esses trabalhos investigaram estratégias viáveis para ajuste fino supervisionado (SFT) e aprendizado por reforço com recompensas verificáveis (RLVR), focando na preparação de dados e no design de métodos, gerando diversos insights valiosos. Neste relatório, fornecemos um resumo dos estudos de replicação recentes para inspirar pesquisas futuras. Nos concentramos principalmente no SFT e no RLVR como duas direções principais, introduzindo os detalhes de construção de dados, design de métodos e procedimentos de treinamento dos estudos de replicação atuais. Além disso, concluímos descobertas-chave a partir dos detalhes de implementação e resultados experimentais relatados por esses estudos, com o objetivo de inspirar pesquisas futuras. Também discutimos técnicas adicionais para aprimorar RLMs, destacando o potencial de expandir o escopo de aplicação desses modelos e discutindo os desafios no desenvolvimento. Com este levantamento, pretendemos ajudar pesquisadores e desenvolvedores de RLMs a se manterem atualizados com os avanços mais recentes e buscar inspirar novas ideias para aprimorar ainda mais os RLMs.
Apresentamos o softpick, uma substituição direta e retificada, não somada a um, para a função softmax em mecanismos de atenção de transformadores, que elimina o sumidouro de atenção e as ativações massivas. Nossos experimentos com modelos de 340 milhões de parâmetros demonstram que o softpick mantém a paridade de desempenho com a softmax em benchmarks padrão, enquanto alcança uma taxa de sumidouro de 0%. O transformador com softpick produz estados ocultos com curtose significativamente menor (340 vs 33.510) e cria mapas de atenção esparsos (46,97% de esparsidade). Modelos que utilizam softpick consistentemente superam a softmax quando quantizados, com vantagens particularmente pronunciadas em precisões de bits mais baixas. Nossa análise e discussão mostram como o softpick tem o potencial de abrir novas possibilidades para quantização, treinamento de baixa precisão, otimização de esparsidade, poda e interpretabilidade. Nosso código está disponível em https://github.com/zaydzuhri/softpick-attention.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destacam em tarefas simples de visão e linguagem, mas enfrentam dificuldades quando confrontados com tarefas complexas que exigem múltiplas capacidades, como reconhecer objetos, contá-los e compreender suas relações espaciais simultaneamente. Isso pode ser parcialmente resultado do fato de que o Ajuste de Instrução Visual (VIT), uma etapa crítica de treinamento para MLLMs, tradicionalmente se concentrou em escalar o volume de dados, mas não na complexidade composicional dos exemplos de treinamento. Propomos o COMPACT (Ajuste de Capacidade Visual COMPosicional de Atômico a Complexo), que gera um conjunto de dados de treinamento controlando explicitamente a complexidade composicional dos exemplos. Os dados do COMPACT permitem que os MLLMs treinem combinações de capacidades atômicas para aprender capacidades complexas de forma mais eficiente. Em todos os benchmarks, o COMPACT alcança desempenho comparável ao VIT LLaVA-665k enquanto utiliza menos de 10% do seu orçamento de dados, e até o supera em vários, especialmente aqueles envolvendo tarefas complexas de múltiplas capacidades. Por exemplo, o COMPACT obtém uma melhoria substancial de 83,3% no MMStar e 94,0% no MM-Vet em comparação com o VIT em escala completa em questões particularmente complexas que exigem quatro ou mais capacidades atômicas. O COMPACT oferece uma receita escalável e eficiente em termos de dados para ajuste composicional visual, melhorando o desempenho em tarefas complexas de visão e linguagem.
Modelos de Linguagem de Grande Escala (LLMs) utilizam raciocínio passo a passo para resolver problemas complexos. A prática padrão de avaliação envolve gerar um rastro completo de raciocínio e avaliar a correção da resposta final apresentada em sua conclusão. Neste artigo, questionamos a dependência da resposta final ao propor as seguintes duas perguntas: A resposta final representa de forma confiável a conclusão ótima do modelo? Caminhos alternativos de raciocínio podem gerar resultados diferentes? Para responder a essas perguntas, analisamos etapas intermediárias de raciocínio, denominadas subpensamentos, e propomos um método baseado em nossas descobertas. Nossa abordagem envolve segmentar um rastro de raciocínio em subpensamentos sequenciais com base em pistas linguísticas. Começamos solicitando ao modelo que gere continuações a partir do ponto final de cada subpensamento intermediário. Extraímos uma resposta potencial de cada continuação concluída originada de diferentes subpensamentos. Descobrimos que agregar essas respostas selecionando a mais frequente (a moda) frequentemente resulta em uma precisão significativamente maior em comparação com depender exclusivamente da resposta derivada do rastro completo original. A análise da consistência entre as respostas derivadas de diferentes subpensamentos revela características que correlacionam-se com a confiança e a correção do modelo, sugerindo potencial para identificar respostas menos confiáveis. Nossos experimentos em vários LLMs e conjuntos de dados desafiadores de raciocínio matemático (AIME2024 e AIME2025) mostram melhorias consistentes na precisão, com ganhos atingindo até 13% e 10%, respectivamente. A implementação está disponível em: https://github.com/hammoudhasan/SubthoughtReasoner.
A IA generativa está remodelando a arte, os jogos e, mais notavelmente, a animação. Avanços recentes em modelos de base e de difusão reduziram o tempo e o custo de produção de conteúdo animado. Os personagens são componentes centrais da animação, envolvendo movimento, emoções, gestos e expressões faciais. O ritmo e a amplitude dos avanços nos últimos meses tornam difícil manter uma visão coerente do campo, motivando a necessidade de uma revisão integrativa. Diferente de visões gerais anteriores que tratam avatares, gestos ou animação facial de forma isolada, este estudo oferece uma perspectiva única e abrangente sobre todas as principais aplicações de IA generativa para animação de personagens. Começamos examinando o estado da arte em animação facial, renderização de expressões, síntese de imagens, criação de avatares, modelagem de gestos, síntese de movimento, geração de objetos e síntese de texturas. Destacamos pesquisas líderes, implantações práticas, conjuntos de dados comumente usados e tendências emergentes para cada área. Para apoiar os iniciantes, também fornecemos uma seção de fundo abrangente que introduz modelos fundamentais e métricas de avaliação, equipando os leitores com o conhecimento necessário para ingressar no campo. Discutimos desafios em aberto e mapeamos direções futuras de pesquisa, fornecendo um roteiro para avançar as tecnologias de animação de personagens impulsionadas por IA. Este estudo pretende ser um recurso para pesquisadores e desenvolvedores que ingressam no campo da animação de IA generativa ou áreas adjacentes. Recursos estão disponíveis em: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
À medida que os grandes modelos de linguagem (LLMs) baseados em transformers se tornam cada vez mais presentes na sociedade, eles revolucionaram domínios como engenharia de software, escrita criativa e artes digitais. No entanto, sua adoção na área de cibersegurança permanece limitada devido a desafios como a escassez de dados de treinamento especializados e a complexidade de representar conhecimentos específicos de cibersegurança. Para abordar essas lacunas, apresentamos o Foundation-Sec-8B, um LLM focado em cibersegurança, construído sobre a arquitetura Llama 3.1 e aprimorado por meio de pré-treinamento contínuo em um corpus de cibersegurança cuidadosamente curado. Avaliamos o Foundation-Sec-8B em benchmarks de cibersegurança estabelecidos e novos, demonstrando que ele se equipara ao Llama 3.1-70B e ao GPT-4o-mini em certas tarefas específicas de cibersegurança. Ao disponibilizar nosso modelo publicamente, visamos acelerar o progresso e a adoção de ferramentas impulsionadas por IA em contextos de cibersegurança tanto públicos quanto privados.
Nos últimos anos, a geração de vídeos tem apresentado avanços significativos. No entanto, desafios ainda persistem na geração de movimentos e interações complexos. Para enfrentar esses desafios, apresentamos o ReVision, uma estrutura plug-and-play que integra explicitamente conhecimento físico 3D parametrizado em um modelo pré-treinado de geração condicional de vídeos, melhorando significativamente sua capacidade de gerar vídeos de alta qualidade com movimentos e interações complexos. Especificamente, o ReVision consiste em três etapas. Primeiro, um modelo de difusão de vídeo é usado para gerar um vídeo preliminar. Em seguida, extraímos um conjunto de características 2D e 3D do vídeo preliminar para construir uma representação 3D centrada em objetos, que é então refinada pelo nosso modelo de prior físico parametrizado proposto para produzir uma sequência de movimento 3D precisa. Por fim, essa sequência de movimento refinada é realimentada no mesmo modelo de difusão de vídeo como condicionamento adicional, permitindo a geração de vídeos consistentes em movimento, mesmo em cenários envolvendo ações e interações complexas. Validamos a eficácia da nossa abordagem no Stable Video Diffusion, onde o ReVision melhora significativamente a fidelidade e a coerência do movimento. Notavelmente, com apenas 1,5 bilhão de parâmetros, ele supera até mesmo um modelo de geração de vídeos state-of-the-art com mais de 13 bilhões de parâmetros na geração de vídeos complexos por uma margem substancial. Nossos resultados sugerem que, ao incorporar conhecimento físico 3D, mesmo um modelo de difusão de vídeo relativamente pequeno pode gerar movimentos e interações complexos com maior realismo e controlabilidade, oferecendo uma solução promissora para a geração de vídeos fisicamente plausíveis.
Os Modelos de Linguagem de Grande Escala (LLMs) para IA Generativa alcançaram progressos notáveis, evoluindo para ferramentas sofisticadas e versáteis amplamente adotadas em diversos domínios e aplicações. No entanto, a sobrecarga significativa de memória causada pelo vasto número de parâmetros, combinada com as altas demandas computacionais do mecanismo de atenção, apresenta desafios substanciais para alcançar baixa latência e alta taxa de transferência em serviços de inferência de LLMs. Avanços recentes, impulsionados por pesquisas inovadoras, aceleraram significativamente o progresso nesse campo. Este artigo fornece uma revisão abrangente desses métodos, cobrindo abordagens fundamentais em nível de instância, estratégias aprofundadas em nível de cluster, direções emergentes de cenários e outras áreas diversas, porém importantes. No nível de instância, revisamos o posicionamento do modelo, o agendamento de solicitações, a previsão de comprimento de decodificação, o gerenciamento de armazenamento e o paradigma de desagregação. No nível de cluster, exploramos a implantação de clusters de GPU, o balanceamento de carga de múltiplas instâncias e soluções de serviços em nuvem. Para cenários emergentes, organizamos a discussão em torno de tarefas específicas, módulos e métodos auxiliares. Para garantir uma visão holística, também destacamos várias áreas de nicho, porém críticas. Por fim, delineamos possíveis direções de pesquisa para avançar ainda mais o campo de serviços de inferência de LLMs.
A escalabilidade de dados e os benchmarks de avaliação padronizados têm impulsionado avanços significativos no processamento de linguagem natural e na visão computacional. No entanto, a robótica enfrenta desafios únicos na escalabilidade de dados e na criação de protocolos de avaliação. Coletar dados do mundo real é intensivo em recursos e ineficiente, enquanto a avaliação em cenários reais permanece altamente complexa. Dados sintéticos e simulações oferecem alternativas promissoras, mas os esforços existentes frequentemente falham em termos de qualidade dos dados, diversidade e padronização de benchmarks. Para abordar esses desafios, apresentamos o RoboVerse, um framework abrangente que inclui uma plataforma de simulação, um conjunto de dados sintéticos e benchmarks unificados. Nossa plataforma de simulação suporta múltiplos simuladores e configurações robóticas, permitindo transições contínuas entre diferentes ambientes. O conjunto de dados sintéticos, que apresenta física de alta fidelidade e renderização fotorrealista, é construído por meio de múltiplas abordagens. Além disso, propomos benchmarks unificados para aprendizagem por imitação e aprendizagem por reforço, permitindo avaliação em diferentes níveis de generalização. No núcleo da plataforma de simulação está o MetaSim, uma infraestrutura que abstrai diversos ambientes de simulação em uma interface universal. Ele reestrutura ambientes de simulação existentes em um sistema de configuração independente de simulador, bem como uma API que alinha diferentes funcionalidades de simuladores, como iniciar ambientes de simulação, carregar ativos com estados iniciais, avançar o motor de física, entre outros. Essa abstração garante interoperabilidade e extensibilidade. Experimentos abrangentes demonstram que o RoboVerse melhora o desempenho da aprendizagem por imitação, aprendizagem por reforço, aprendizagem de modelos de mundo e transferência sim-para-real. Esses resultados validam a confiabilidade de nosso conjunto de dados e benchmarks, estabelecendo o RoboVerse como uma solução robusta para o avanço do aprendizado de robôs.
A interpretação multimodal de imagens biomédicas abre novas oportunidades na análise de imagens biomédicas. As abordagens convencionais de IA geralmente dependem de treinamentos desconexos, ou seja, modelos de linguagem de grande escala (LLMs) para geração de textos clínicos e modelos de segmentação para extração de alvos, o que resulta em uma implantação inflexível no mundo real e na incapacidade de aproveitar informações biomédicas holísticas. Para isso, apresentamos o UniBiomed, o primeiro modelo de base universal para interpretação fundamentada de imagens biomédicas. O UniBiomed é baseado em uma nova integração de Modelo de Linguagem de Grande Escala Multimodal (MLLM) e Modelo de Segmentação de Qualquer Coisa (SAM), que efetivamente unifica a geração de textos clínicos e a segmentação de objetos biomédicos correspondentes para uma interpretação fundamentada. Dessa forma, o UniBiomed é capaz de lidar com uma ampla gama de tarefas biomédicas em dez modalidades diversas de imagens biomédicas. Para desenvolver o UniBiomed, organizamos um conjunto de dados em grande escala composto por mais de 27 milhões de triplas de imagens, anotações e descrições textuais em dez modalidades de imagem. Uma validação extensa em 84 conjuntos de dados internos e externos demonstrou que o UniBiomed alcança desempenho de ponta em segmentação, reconhecimento de doenças, diagnóstico consciente da região, resposta a perguntas visuais e geração de relatórios. Além disso, ao contrário de modelos anteriores que dependem de especialistas clínicos para pré-diagnosticar imagens e criar manualmente prompts textuais ou visuais precisos, o UniBiomed pode fornecer uma interpretação fundamentada automatizada e de ponta a ponta para análise de imagens biomédicas. Isso representa uma nova mudança de paradigma nos fluxos de trabalho clínicos, que melhorará significativamente a eficiência diagnóstica. Em resumo, o UniBiomed representa um novo avanço na IA biomédica, desbloqueando poderosas capacidades de interpretação fundamentada para uma análise de imagens biomédicas mais precisa e eficiente.
A análise conjunta, uma aplicação do design experimental fatorial, é uma ferramenta popular na pesquisa em ciências sociais para estudar preferências multidimensionais. Nesses experimentos no contexto de análise política, os respondentes são solicitados a escolher entre dois candidatos políticos hipotéticos com características selecionadas aleatoriamente, que podem incluir partidarismo, posições políticas, gênero e raça. Consideramos o problema de identificar perfis de candidatos ótimos. Como o número de combinações únicas de características excede em muito o número total de observações em um experimento conjunto típico, é impossível determinar o perfil ótimo exatamente. Para enfrentar esse desafio de identificação, derivamos uma intervenção estocástica ótima que representa uma distribuição de probabilidade de vários atributos com o objetivo de alcançar o resultado médio mais favorável. Primeiro, consideramos um ambiente em que um partido político otimiza a seleção de seus candidatos. Em seguida, passamos para o caso mais realista em que dois partidos políticos otimizam a seleção de seus próprios candidatos simultaneamente e em oposição um ao outro. Aplicamos a metodologia proposta a um experimento conjunto existente sobre a escolha de candidatos para a presidência dos EUA. Descobrimos que, em contraste com a abordagem não adversarial, os resultados esperados no regime adversarial estão dentro da faixa dos resultados eleitorais históricos, com as estratégias ótimas sugeridas pelo método mais propensas a corresponder aos candidatos observados na realidade em comparação com as estratégias derivadas de uma abordagem não adversarial. Esses achados indicam que a incorporação de dinâmicas adversariais na análise conjunta pode fornecer insights únicos sobre dados de experimentos em ciências sociais.