Artigos de pesquisa em IA selecionados diariamente com traduções
Métodos de aprendizado por reforço sem crítico, particularmente políticas de grupo, têm atraído considerável atenção por sua eficiência em tarefas complexas. No entanto, esses métodos dependem fortemente de múltiplas amostragens e comparações dentro da política para estimar a vantagem, o que pode fazer com que a política caia em um ótimo local e aumente o custo computacional. Para abordar esses problemas, propomos o PVPO, um método eficiente de aprendizado por reforço aprimorado por uma âncora de referência de vantagem e pré-amostragem de dados. Especificamente, usamos o modelo de referência para realizar rollouts antecipadamente e empregamos a pontuação de recompensa calculada como uma âncora de referência. Nossa abordagem corrige efetivamente o viés cumulativo introduzido por comparações intra-grupo e reduz significativamente a dependência do número de rollouts. Enquanto isso, o modelo de referência pode avaliar a dificuldade da amostra durante a pré-amostragem de dados, permitindo a seleção eficaz de dados de alto ganho para melhorar a eficiência do treinamento. Experimentos realizados em nove conjuntos de dados em dois domínios demonstram que o PVPO alcança desempenho State-Of-The-Art (SOTA). Nossa abordagem não apenas demonstra generalização robusta em múltiplas tarefas, mas também exibe desempenho escalável em modelos de diversas escalas.
Extensas pesquisas foram realizadas para explorar as capacidades dos grandes modelos de linguagem (LLMs) no raciocínio sobre tabelas. No entanto, a tarefa essencial de transformar informações de tabelas em relatórios continua sendo um desafio significativo para aplicações industriais. Essa tarefa é afetada por dois problemas críticos: 1) a complexidade e diversidade das tabelas levam a resultados de raciocínio subótimos; e 2) os benchmarks existentes para tabelas não possuem a capacidade de avaliar adequadamente a aplicação prática dessa tarefa. Para preencher essa lacuna, propomos a tarefa de tabela-para-relatório e construímos um benchmark bilíngue chamado T2R-bench, onde o fluxo de informações-chave das tabelas para os relatórios é central para essa tarefa. O benchmark é composto por 457 tabelas industriais, todas derivadas de cenários do mundo real e abrangendo 19 domínios industriais, além de 4 tipos de tabelas industriais. Além disso, propomos critérios de avaliação para medir de forma justa a qualidade da geração de relatórios. Os experimentos com 25 LLMs amplamente utilizados revelam que até mesmo modelos de última geração, como o Deepseek-R1, alcançam um desempenho com pontuação geral de apenas 62,71, indicando que os LLMs ainda têm espaço para melhorias no T2R-bench. O código-fonte e os dados estarão disponíveis após a aceitação.
Os recentes avanços nas capacidades de raciocínio e planejamento de modelos de linguagem de grande escala (LLMs) têm possibilitado seu potencial como agentes autônomos capazes de utilizar ferramentas em ambientes dinâmicos. No entanto, em ambientes conversacionais de múltiplos turnos, como o tau-bench, esses agentes frequentemente enfrentam dificuldades com raciocínio consistente, adesão a políticas específicas do domínio e extração de informações corretas ao longo de um horizonte prolongado de chamadas de ferramentas e conversas. Para capturar e mitigar essas falhas, realizamos uma análise manual abrangente dos erros comuns que ocorrem nas trajetórias de conversação. Em seguida, experimentamos com reformulações das entradas para o agente de chamada de ferramentas, visando melhorar a tomada de decisão do agente. Por fim, propomos o framework Input-Reformulation Multi-Agent (IRMA), que reformula automaticamente as consultas do usuário, aumentadas com regras de domínio relevantes e sugestões de ferramentas, para que o agente de chamada de ferramentas se concentre. Os resultados mostram que o IRMA supera significativamente o ReAct, Function Calling e Self-Reflection em 16,1%, 12,7% e 19,1%, respectivamente, nas pontuações gerais de pass^5. Esses achados destacam a superior confiabilidade e consistência do IRMA em comparação com outros métodos em ambientes dinâmicos.
A detecção de defeitos superficiais é uma tarefa crítica em diversas indústrias, visando identificar e localizar de forma eficiente imperfeições ou irregularidades em componentes manufaturados. Embora diversos métodos tenham sido propostos, muitos não atendem às demandas industriais por alto desempenho, eficiência e adaptabilidade. As abordagens existentes frequentemente se limitam a cenários específicos de supervisão e têm dificuldade em se adaptar às diversas anotações de dados encontradas nos processos de manufatura do mundo real, como configurações não supervisionadas, fracamente supervisionadas, de supervisão mista e totalmente supervisionadas. Para enfrentar esses desafios, propomos o SuperSimpleNet, um modelo discriminativo altamente eficiente e adaptável, construído com base no SimpleNet. O SuperSimpleNet incorpora um novo processo de geração de anomalias sintéticas, um cabeçalho de classificação aprimorado e um procedimento de aprendizado melhorado, permitindo treinamento eficiente em todos os quatro cenários de supervisão, tornando-o o primeiro modelo capaz de aproveitar totalmente todas as anotações de dados disponíveis. O SuperSimpleNet estabelece um novo padrão de desempenho em todos os cenários, conforme demonstrado pelos seus resultados em quatro conjuntos de dados de benchmark desafiadores. Além da precisão, ele é muito rápido, alcançando um tempo de inferência abaixo de 10 ms. Com sua capacidade de unificar diversos paradigmas de supervisão enquanto mantém velocidade e confiabilidade excepcionais, o SuperSimpleNet representa um passo promissor para enfrentar os desafios da manufatura do mundo real e reduzir a lacuna entre a pesquisa acadêmica e as aplicações industriais. Código: https://github.com/blaz-r/SuperSimpleNet
A cognição espacial permite comportamentos adaptativos orientados a objetivos através da construção de modelos internos do espaço. Sistemas biológicos robustos consolidam o conhecimento espacial em três formas interconectadas: marcos para pistas salientes, conhecimento de rotas para trajetórias de movimento e conhecimento de levantamento para representações semelhantes a mapas. Embora avanços recentes em modelos de linguagem multimodal (MLLMs) tenham possibilitado o raciocínio visual-linguístico em agentes corporificados, esses esforços carecem de memória espacial estruturada e operam de forma reativa, limitando sua generalização e adaptabilidade em ambientes complexos do mundo real. Aqui, apresentamos o Brain-inspired Spatial Cognition for Navigation (BSC-Nav), uma estrutura unificada para construir e aproveitar memória espacial estruturada em agentes corporificados. O BSC-Nav constrói mapas cognitivos alocêntricos a partir de trajetórias egocêntricas e pistas contextuais, e recupera dinamicamente o conhecimento espacial alinhado com objetivos semânticos. Integrado a poderosos MLLMs, o BSC-Nav alcança eficácia e eficiência de ponta em diversas tarefas de navegação, demonstra forte generalização zero-shot e suporta comportamentos corporificados versáteis no mundo físico real, oferecendo um caminho escalável e biologicamente fundamentado para a inteligência espacial de propósito geral.
Grandes modelos de linguagem (LLMs) treinados principalmente em corpora em inglês frequentemente têm dificuldade em captar as nuances linguísticas e culturais do árabe. Para abordar essa lacuna, a Autoridade Saudita de Dados e IA (SDAIA) introduziu a família ALLaM de modelos focados no árabe. O mais capaz desses disponível ao público, o ALLaM-34B, foi posteriormente adotado pela HUMAIN, que desenvolveu e implantou o HUMAIN Chat, um serviço web conversacional fechado construído sobre esse modelo. Este artigo apresenta uma avaliação expandida e refinada em nível de interface do usuário (UI) do ALLaM-34B. Utilizando um conjunto de prompts que abrangem o árabe padrão moderno, cinco dialetos regionais, alternância de código, conhecimento factual, raciocínio aritmético e temporal, geração criativa e segurança adversarial, coletamos 115 saídas (23 prompts vezes 5 execuções) e pontuamos cada uma com três juízes de LLM de ponta (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calculamos médias em nível de categoria com intervalos de confiança de 95%, analisamos distribuições de pontuação e visualizamos mapas de calor de métricas por dialeto. A análise atualizada revela um desempenho consistentemente alto em tarefas de geração e alternância de código (ambas com média de 4,92/5), juntamente com resultados fortes no tratamento do árabe padrão moderno (4,74/5), capacidade sólida de raciocínio (4,64/5) e fidelidade aprimorada aos dialetos (4,21/5). Prompts relacionados à segurança mostram um desempenho estável e confiável de (4,54/5). Em conjunto, esses resultados posicionam o ALLaM-34B como um LLM árabe robusto e culturalmente fundamentado, demonstrando tanto força técnica quanto prontidão prática para implantação no mundo real.
Este artigo apresenta o Democracy-in-Silico, uma simulação baseada em agentes onde sociedades de agentes de IA avançados, dotados de personalidades psicológicas complexas, governam-se sob diferentes estruturas institucionais. Exploramos o que significa ser humano em uma era de IA ao atribuir a Modelos de Linguagem de Grande Escala (LLMs) a tarefa de incorporar agentes com memórias traumáticas, agendas ocultas e gatilhos psicológicos. Esses agentes participam de deliberações, legislações e eleições sob vários estressores, como crises orçamentárias e escassez de recursos. Apresentamos uma nova métrica, o Índice de Preservação de Poder (PPI), para quantificar comportamentos desalinhados em que os agentes priorizam seu próprio poder em detrimento do bem-estar público. Nossos resultados demonstram que o design institucional, especificamente a combinação de uma carta de IA Constitucional (CAI) e um protocolo de deliberação mediada, serve como um mecanismo poderoso de alinhamento. Essas estruturas reduzem significativamente comportamentos corruptos de busca de poder, melhoram a estabilidade das políticas e aumentam o bem-estar dos cidadãos em comparação com modelos democráticos menos restritos. A simulação revela que um design institucional pode oferecer uma estrutura para alinhar os comportamentos complexos e emergentes de futuras sociedades de agentes artificiais, levando-nos a reconsiderar quais rituais e responsabilidades humanas são essenciais em uma era de autoria compartilhada com entidades não humanas.