Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, revisamos os avanços recentes no Aprendizado por Reforço (RL) para raciocínio com Modelos de Linguagem de Grande Escala (LLMs). O RL tem alcançado sucesso notável em expandir as capacidades dos LLMs, particularmente na resolução de tarefas lógicas complexas, como matemática e programação. Como resultado, o RL emergiu como uma metodologia fundamental para transformar LLMs em LRMs. Com o rápido progresso do campo, a escalabilidade do RL para LRMs agora enfrenta desafios fundamentais, não apenas em recursos computacionais, mas também no design de algoritmos, dados de treinamento e infraestrutura. Diante disso, é oportuno revisitar o desenvolvimento dessa área, reavaliar sua trajetória e explorar estratégias para melhorar a escalabilidade do RL em direção à Superinteligência Artificial (ASI). Em particular, examinamos pesquisas que aplicam RL a LLMs e LRMs para habilidades de raciocínio, especialmente desde o lançamento do DeepSeek-R1, incluindo componentes fundamentais, problemas centrais, recursos de treinamento e aplicações subsequentes, com o objetivo de identificar oportunidades e direções futuras para essa área em rápida evolução. Esperamos que esta revisão promova pesquisas futuras sobre RL para modelos de raciocínio mais amplos. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Modelos de Recompensa (RMs) são fundamentais para melhorar modelos de geração por meio de Aprendizado por Reforço (RL), mas o paradigma de escalonamento de RMs na geração visual permanece amplamente inexplorado. Isso se deve principalmente a limitações fundamentais nas abordagens existentes: RMs baseados em CLIP sofrem com restrições arquitetônicas e de modalidade de entrada, enquanto as perdas de Bradley-Terry predominantes estão fundamentalmente desalinhadas com o mecanismo de previsão do próximo token dos Modelos de Visão e Linguagem (VLMs), dificultando o escalonamento eficaz. Mais criticamente, o processo de otimização de RLHF é prejudicado pelo problema de "Reward Hacking", onde os modelos exploram falhas no sinal de recompensa sem melhorar a qualidade real. Para enfrentar esses desafios, introduzimos o RewardDance, uma estrutura escalável de modelagem de recompensa que supera essas barreiras por meio de um novo paradigma de recompensa generativa. Ao reformular a pontuação de recompensa como a probabilidade do modelo prever um token "sim", indicando que a imagem gerada supera uma imagem de referência de acordo com critérios específicos, o RewardDance alinha intrinsecamente os objetivos de recompensa com as arquiteturas de VLMs. Esse alinhamento permite o escalonamento em duas dimensões: (1) Escalonamento de Modelo: Escalonamento sistemático de RMs até 26 bilhões de parâmetros; (2) Escalonamento de Contexto: Integração de instruções específicas da tarefa, exemplos de referência e raciocínio em cadeia (CoT). Experimentos extensivos demonstram que o RewardDance supera significativamente os métodos state-of-the-art em geração de texto para imagem, texto para vídeo e imagem para vídeo. Crucialmente, resolvemos o desafio persistente do "reward hacking": nossos RMs em larga escala exibem e mantêm alta variância de recompensa durante o ajuste fino de RL, comprovando sua resistência ao hacking e capacidade de produzir saídas diversas e de alta qualidade. Isso alivia consideravelmente o problema de colapso de modos que afeta modelos menores.
A modelagem de mundos tornou-se um pilar fundamental na pesquisa de IA, permitindo que agentes compreendam, representem e prevejam os ambientes dinâmicos em que estão inseridos. Embora trabalhos anteriores tenham enfatizado principalmente métodos generativos para dados de imagens e vídeos 2D, eles negligenciam o crescente corpo de trabalhos que utiliza representações nativas 3D e 4D, como imagens RGB-D, grades de ocupação e nuvens de pontos LiDAR, para a modelagem de cenas em grande escala. Ao mesmo tempo, a ausência de uma definição padronizada e de uma taxonomia para "modelos de mundo" resultou em afirmações fragmentadas e, por vezes, inconsistentes na literatura. Esta revisão aborda essas lacunas ao apresentar o primeiro estudo abrangente dedicado explicitamente à modelagem e geração de mundos 3D e 4D. Estabelecemos definições precisas, introduzimos uma taxonomia estruturada que abrange abordagens baseadas em vídeo (VideoGen), ocupação (OccGen) e LiDAR (LiDARGen), e resumimos sistematicamente conjuntos de dados e métricas de avaliação adaptados a cenários 3D/4D. Além disso, discutimos aplicações práticas, identificamos desafios em aberto e destacamos direções de pesquisa promissoras, com o objetivo de fornecer uma referência coerente e fundamental para o avanço do campo. Um resumo sistemático da literatura existente está disponível em https://github.com/worldbench/survey.
O desenvolvimento de agentes de LLM autônomos capazes de tomar uma série de decisões inteligentes para resolver tarefas complexas do mundo real é uma fronteira em rápida evolução. Assim como no desenvolvimento cognitivo humano, espera-se que os agentes adquiram conhecimento e habilidades por meio da exploração e interação com o ambiente. Apesar dos avanços, a comunidade ainda carece de um framework unificado de aprendizado por reforço (RL) interativo que possa treinar efetivamente esses agentes do zero — sem depender de ajuste fino supervisionado (SFT) — em diversos ambientes realistas. Para preencher essa lacuna, introduzimos o AgentGym-RL, um novo framework para treinar agentes de LLM em tomadas de decisão interativas de múltiplos turnos por meio de RL. O framework apresenta uma arquitetura modular e desacoplada, garantindo alta flexibilidade e extensibilidade. Ele abrange uma ampla variedade de cenários do mundo real e suporta algoritmos de RL convencionais. Além disso, propomos o ScalingInter-RL, uma abordagem de treinamento projetada para equilibrar exploração-explotação e otimizar a estabilidade do RL. Nos estágios iniciais, ele enfatiza a exploração ao limitar o número de interações e, gradualmente, passa a priorizar a exploração com horizontes maiores para incentivar estratégias diversificadas de resolução de problemas. Dessa forma, o agente desenvolve comportamentos mais diversos e é menos propenso a falhar em horizontes longos. Realizamos experimentos extensivos para validar a estabilidade e eficácia tanto do framework AgentGym-RL quanto da abordagem ScalingInter-RL. Nossos agentes igualam ou superam modelos comerciais em 27 tarefas em diversos ambientes. Oferecemos insights importantes e disponibilizaremos o framework completo do AgentGym-RL — incluindo código e conjuntos de dados — em código aberto para capacitar a comunidade de pesquisa no desenvolvimento da próxima geração de agentes inteligentes.
Segmentar ativos 3D em suas partes constituintes é crucial para aprimorar a compreensão 3D, facilitar a reutilização de modelos e suportar diversas aplicações, como a geração de partes. No entanto, os métodos atuais enfrentam limitações, como baixa robustez ao lidar com objetos complexos e a incapacidade de automatizar completamente o processo. Neste artigo, propomos um modelo nativo de segmentação de partes em 3D acionável por pontos, denominado P3-SAM, projetado para automatizar totalmente a segmentação de qualquer objeto 3D em componentes. Inspirado pelo SAM, o P3-SAM consiste em um extrator de características, múltiplas cabeças de segmentação e um preditor de IoU, permitindo a segmentação interativa para os usuários. Também propomos um algoritmo para selecionar e mesclar automaticamente as máscaras previstas pelo nosso modelo para a segmentação de instâncias de partes. Nosso modelo é treinado em um novo conjunto de dados contendo quase 3,7 milhões de modelos com rótulos de segmentação razoáveis. Comparações mostram que nosso método alcança resultados de segmentação precisos e forte robustez em qualquer objeto complexo, atingindo desempenho de ponta. Nosso código será liberado em breve.
Neste relatório, apresentamos o Hunyuan-MT-7B, nosso primeiro modelo de tradução multilíngue de código aberto, que suporta tradução bidirecional entre 33 idiomas principais e dá ênfase especial à tradução entre o mandarim e várias línguas minoritárias, bem como dialetos. Além disso, para atender e abordar diversos cenários de tradução e melhorar o desempenho do modelo durante os testes, introduzimos o Hunyuan-MT-Chimera-7B, um modelo de tradução inspirado no modo de pensamento lento. Este modelo integra múltiplas saídas geradas pelo modelo Hunyuan-MT-7B sob diferentes configurações de parâmetros, alcançando assim um desempenho superior ao dos modelos convencionais de pensamento lento baseados em Chain-of-Thought (CoT). O desenvolvimento de nossos modelos segue um processo de treinamento holístico especificamente projetado para tradução multilíngue, que começa com pré-treinamento geral e orientado para MT para construir capacidades fundamentais, prossegue com Ajuste Fino Supervisionado (SFT) para adaptação específica à tarefa e culmina em alinhamento avançado por meio de Aprendizado por Reforço (RL) e RL de fraco para forte. Por meio de experimentação abrangente, demonstramos que tanto o Hunyuan-MT-7B quanto o Hunyuan-MT-Chimera-7B superam significativamente todos os modelos específicos para tradução de tamanho de parâmetro comparável e a maioria dos grandes modelos SOTA, particularmente na tarefa de tradução entre mandarim e línguas minoritárias, bem como dialetos. Na tarefa compartilhada WMT2025 (Tradução Automática Geral), nossos modelos demonstram desempenho de ponta, ocupando o primeiro lugar em 30 dos 31 pares de idiomas. Esse resultado destaca a robustez de nossos modelos em um espectro linguístico diversificado, abrangendo idiomas de alto recurso, como chinês, inglês e japonês, bem como idiomas de baixo recurso, incluindo tcheco, marata, estoniano e islandês.
Modelos de Linguagem de Grande Escala (LLMs) modernos são excelentes na geração de dados sintéticos. No entanto, seu desempenho em domínios sensíveis, como a desintoxicação de texto, não tem recebido a devida atenção da comunidade científica. Este artigo explora a possibilidade de usar dados tóxicos sintéticos gerados por LLMs como uma alternativa aos dados gerados por humanos para treinar modelos de desintoxicação. Utilizando modelos Llama 3 e Qwen com ativação modificada, geramos contrapartes tóxicas sintéticas para textos neutros dos conjuntos de dados ParaDetox e SST-2. Nossos experimentos mostram que modelos ajustados com dados sintéticos consistentemente têm um desempenho inferior aos treinados com dados humanos, com uma queda de até 30% em métricas conjuntas. A causa raiz foi identificada como uma lacuna crítica na diversidade lexical: os LLMs geram conteúdo tóxico usando um vocabulário pequeno e repetitivo de insultos que não captura as nuances e a variedade da toxicidade humana. Esses achados destacam as limitações dos LLMs atuais nesse domínio e enfatizam a importância contínua de dados diversos e anotados por humanos para a construção de sistemas robustos de desintoxicação.
Aumentar o poder computacional no momento do teste, gerando múltiplas soluções independentes e selecionando ou agregando entre elas, tornou-se um paradigma central para melhorar modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio desafiadoras. Embora a maioria dos trabalhos anteriores dependa de votação majoritária simples ou de classificação por modelos de recompensa para agregar soluções, essas abordagens podem oferecer benefícios limitados. Neste trabalho, propomos aprender a agregação como uma habilidade explícita de raciocínio: dado um conjunto de soluções candidatas, treinamos um modelo agregador para revisar, reconciliar e sintetizar uma resposta final correta, utilizando aprendizado por reforço com recompensas verificáveis. Um ingrediente chave é o equilíbrio cuidadoso entre exemplos de treinamento fáceis e difíceis, permitindo que o modelo aprenda tanto a recuperar respostas minoritárias, mas corretas, quanto respostas majoritárias fáceis e corretas. Empiricamente, descobrimos que nosso método, AggLM, supera tanto baselines baseadas em regras quanto modelos de recompensa, em múltiplos benchmarks. Além disso, ele generaliza efetivamente para soluções de modelos diferentes, incluindo aqueles mais fortes do que os contidos nos dados de treinamento, tudo isso enquanto requer substancialmente menos tokens do que a votação majoritária com um número maior de soluções.
A Inteligência Artificial Generativa está emergindo como uma tecnologia importante, prometendo ser transformadora em diversas áreas. Ao mesmo tempo, as técnicas de IA generativa são baseadas em amostragem de modelos probabilísticos e, por padrão, não oferecem garantias sobre correção, segurança, equidade ou outras propriedades. Métodos estatísticos oferecem uma abordagem potencialmente promissora para melhorar a confiabilidade das técnicas de IA generativa. Além disso, métodos estatísticos também são promissores para aprimorar a qualidade e a eficiência da avaliação de IA, bem como para projetar intervenções e experimentos em IA. Neste artigo, revisamos parte do trabalho existente sobre esses tópicos, explicando tanto as técnicas estatísticas gerais utilizadas quanto suas aplicações à IA generativa. Também discutimos limitações e possíveis direções futuras.
A ampla disponibilidade de repositórios de código aberto resultou em uma vasta coleção de componentes de software reutilizáveis, mas sua utilização ainda é manual, propensa a erros e desconectada. Desenvolvedores precisam navegar por documentações, entender APIs e escrever códigos de integração, criando barreiras significativas para a reutilização eficiente de software. Para abordar isso, apresentamos o EnvX, um framework que utiliza Inteligência Artificial Agente (Agentic AI) para transformar repositórios do GitHub em agentes inteligentes e autônomos, capazes de interagir por linguagem natural e colaborar entre si. Diferente das abordagens existentes que tratam repositórios como recursos de código estáticos, o EnvX os reimagina como agentes ativos por meio de um processo de três fases: (1) inicialização do ambiente guiada por TODO, que configura as dependências, dados e conjuntos de validação necessários; (2) automação agente alinhada ao humano, permitindo que agentes específicos do repositório realizem tarefas do mundo real de forma autônoma; e (3) protocolo Agente-para-Agente (A2A), que possibilita a colaboração entre múltiplos agentes. Ao combinar as capacidades de modelos de linguagem de grande escala com a integração estruturada de ferramentas, o EnvX automatiza não apenas a geração de código, mas todo o processo de compreensão, inicialização e operacionalização da funcionalidade do repositório. Avaliamos o EnvX no benchmark GitTaskBench, utilizando 18 repositórios de domínios como processamento de imagens, reconhecimento de fala, análise de documentos e manipulação de vídeo. Nossos resultados mostram que o EnvX alcança uma taxa de conclusão de execução de 74,07% e uma taxa de aprovação de tarefas de 51,85%, superando frameworks existentes. Estudos de caso demonstram ainda a capacidade do EnvX de permitir colaboração entre múltiplos repositórios por meio do protocolo A2A. Este trabalho marca uma mudança de tratar repositórios como recursos de código passivos para agentes inteligentes e interativos, promovendo maior acessibilidade e colaboração dentro do ecossistema de código aberto.
À medida que os humanos delegam mais tarefas e decisões à inteligência artificial (IA), corremos o risco de perder o controle sobre nossos futuros individuais e coletivos. Sistemas algorítmicos relativamente simples já direcionam a tomada de decisões humanas, como os algoritmos de feeds de mídia social que levam as pessoas a rolar, de forma desatenta e involuntária, por conteúdos otimizados para engajamento. Neste artigo, desenvolvemos o conceito de agência humana ao integrar teorias filosóficas e científicas de agência com métodos de avaliação assistidos por IA: utilizando modelos de linguagem de grande escala (LLMs, na sigla em inglês) para simular e validar consultas de usuários e avaliar respostas da IA. Desenvolvemos o HumanAgencyBench (HAB), um benchmark escalável e adaptável com seis dimensões de agência humana baseadas em casos de uso típicos de IA. O HAB mede a tendência de um assistente ou agente de IA de Fazer Perguntas de Esclarecimento, Evitar Manipulação de Valores, Corrigir Desinformação, Adiar Decisões Importantes, Incentivar o Aprendizado e Manter Limites Sociais. Encontramos suporte de agência baixo a moderado em assistentes contemporâneos baseados em LLMs e variação substancial entre desenvolvedores de sistemas e dimensões. Por exemplo, embora os LLMs da Anthropic ofereçam o maior suporte à agência humana no geral, eles são os menos eficazes em termos de Evitar Manipulação de Valores. O suporte à agência não parece resultar consistentemente do aumento das capacidades dos LLMs ou do comportamento de seguir instruções (por exemplo, RLHF), e incentivamos uma mudança em direção a metas de segurança e alinhamento mais robustas.