Artigos de pesquisa em IA selecionados diariamente com traduções
O surgimento de agentes de IA introduz desafios complexos de segurança decorrentes do uso autônomo de ferramentas e interações ambientais. Os modelos atuais de proteção carecem de consciência de riscos agentivos e transparência no diagnóstico de ameaças. Para criar um sistema de proteção agentivo que aborde comportamentos de risco complexos e numerosos, propomos primeiro uma taxonomia tridimensional unificada que categoriza ortogonalmente os riscos agentivos por sua fonte (onde), modo de falha (como) e consequência (o quê). Guiados por esta taxonomia estruturada e hierárquica, introduzimos um novo benchmark de segurança agentiva de granularidade fina (ATBench) e uma estrutura de Proteção Diagnóstica para segurança de agentes (AgentDoG). O AgentDoG fornece monitorização contextualizada e detalhada ao longo das trajetórias dos agentes. Crucialmente, o AgentDoG consegue diagnosticar as causas profundas de ações inseguras e de ações aparentemente seguras mas irracionais, oferecendo rastreabilidade e transparência além de classificações binárias para facilitar o alinhamento eficaz de agentes. As variantes do AgentDoG estão disponíveis em três tamanhos (4B, 7B e 8B de parâmetros) nas famílias de modelos Qwen e Llama. Resultados experimentais extensivos demonstram que o AgentDoG alcança desempenho state-of-the-art na moderação de segurança agentiva em cenários interativos diversos e complexos. Todos os modelos e conjuntos de dados são disponibilizados publicamente.
Quando os seres humanos enfrentam problemas que ultrapassam suas capacidades imediatas, eles recorrem a ferramentas, o que oferece um paradigma promissor para melhorar o raciocínio visual em modelos de linguagem multimodal de grande escala (MLLMs). Portanto, um raciocínio eficaz depende de saber quais ferramentas usar, quando invocá-las e como combiná-las ao longo de múltiplas etapas, mesmo quando confrontado com novas ferramentas ou novas tarefas. Apresentamos o AdaReasoner, uma família de modelos multimodais que aprendem o uso de ferramentas como uma habilidade de raciocínio geral, e não como um comportamento específico de uma ferramenta ou explicitamente supervisionado. O AdaReasoner é possibilitado por (i) um *pipeline* escalável de curadoria de dados que expõe os modelos a interações de ferramentas de longo horizonte e multi-etapas; (ii) o Tool-GRPO, um algoritmo de aprendizagem por reforço que otimiza a seleção e sequenciamento de ferramentas com base no sucesso da tarefa final; e (iii) um mecanismo de aprendizagem adaptativa que regula dinamicamente o uso de ferramentas. Juntos, esses componentes permitem que os modelos inferiram a utilidade da ferramenta a partir do contexto da tarefa e dos resultados intermediários, permitindo a coordenação de múltiplas ferramentas e a generalização para ferramentas não vistas. Empiricamente, o AdaReasoner exibe comportamentos fortes de adaptação e generalização de ferramentas: ele adota autonomamente ferramentas benéficas, suprime as irrelevantes e ajusta a frequência de uso da ferramenta com base nas demandas da tarefa, apesar de nunca ter sido explicitamente treinado para isso. Essas capacidades se traduzem em um desempenho de ponta em *benchmarks* desafiadores, melhorando o modelo base de 7B em +24,9% em média e superando sistemas proprietários robustos como o GPT-4V em múltiplas tarefas, incluindo VSP e Jigsaw.
Com grande potencial na manipulação robótica, espera-se que um modelo de base Vision-Language-Action (VLA) capaz generalize fielmente entre tarefas e plataformas, garantindo simultaneamente eficiência de custos (por exemplo, dados e horas de GPU necessárias para adaptação). Para esse fim, desenvolvemos o LingBot-VLA com cerca de 20.000 horas de dados do mundo real provenientes de 9 configurações populares de robôs de braço duplo. Através de uma avaliação sistemática em 3 plataformas robóticas, cada uma completando 100 tarefas com 130 episódios pós-treinamento por tarefa, nosso modelo alcança uma clara superioridade sobre os concorrentes, demonstrando seu forte desempenho e ampla generalizabilidade. Também construímos uma base de código eficiente, que oferece um throughput de 261 amostras por segundo por GPU com uma configuração de treinamento de 8 GPUs, representando uma aceleração de 1,5 a 2,8 vezes (dependendo do modelo base VLM utilizado) em relação às bases de código existentes orientadas a VLA. As características acima garantem que nosso modelo seja adequado para implantação no mundo real. Para avançar o campo da aprendizagem de robôs, disponibilizamos acesso aberto ao código, modelo base e dados de benchmark, com foco em permitir tarefas mais desafiadoras e promover padrões de avaliação sólidos.
Apesar dos avanços significativos representados pelos Modelos de Visão e Linguagem (VLMs), as arquiteturas atuais frequentemente exibem limitações na retenção de informações visuais de alta granularidade, levando a uma compreensão multimodal de granularidade grossa. Atribuímos essa deficiência a um paradigma de treinamento subótimo inerente aos VLMs predominantes, que exibe um viés de otimização dominado pelo texto, conceitualizando os sinais visuais meramente como entradas condicionais passivas, em vez de alvos supervisionados. Para mitigar isso, introduzimos o Youtu-VL, uma estrutura que aproveita o paradigma de Supervisão Autoregressiva Unificada de Visão e Linguagem (VLUAS), que desloca fundamentalmente o objetivo de otimização de "visão como entrada" para "visão como alvo". Ao integrar tokens visuais diretamente no fluxo de previsão, o Youtu-VL aplica uma supervisão autoregressiva unificada tanto aos detalhes visuais quanto ao conteúdo linguístico. Além disso, estendemos esse paradigma para abranger tarefas centradas na visão, permitindo que um VLM padrão execute tarefas centradas na visão sem adições específicas para cada tarefa. Avaliações empíricas extensivas demonstram que o Youtu-VL alcança um desempenho competitivo tanto em tarefas multimodais gerais quanto em tarefas centradas na visão, estabelecendo uma base robusta para o desenvolvimento de agentes visuais generalistas abrangentes.
Os seres humanos constroem modelos internos do mundo e raciocinam manipulando os conceitos dentro desses modelos. Avanços recentes na IA, particularmente o raciocínio de cadeia de pensamento (CoT), aproximam-se de tais capacidades cognitivas humanas, acredita-se que os modelos do mundo estejam incorporados dentro de grandes modelos de linguagem. Desempenhos de nível especialista em domínios formais e abstratos, como matemática e programação, foram alcançados pelos sistemas atuais, dependendo predominantemente do raciocínio verbal. No entanto, eles ainda estão muito atrás dos humanos em domínios como a inteligência física e espacial, que exigem representações e conhecimento prévio mais ricos. O surgimento de modelos multimodais unificados (UMMs) capazes de geração verbal e visual, portanto, despertou interesse em um raciocínio mais semelhante ao humano, fundamentado em vias multimodais complementares, embora seus benefícios permaneçam pouco claros. A partir de uma perspectiva de modelo do mundo, este artigo apresenta o primeiro estudo fundamentado sobre quando e como a geração visual beneficia o raciocínio. Nossa posição central é a hipótese da superioridade visual: para certas tarefas – particularmente aquelas fundamentadas no mundo físico – a geração visual serve mais naturalmente como modelos do mundo, enquanto os modelos do mundo puramente verbais encontram gargalos decorrentes de limitações representacionais ou conhecimento prévio insuficiente. Teoricamente, formalizamos a modelagem interna do mundo como um componente central do raciocínio CoT e analisamos as distinções entre diferentes formas de modelos do mundo. Empiricamente, identificamos tarefas que exigem raciocínio CoT visual-verbal intercalado, construindo um novo conjunto de avaliação, o VisWorld-Eval. Experimentos controlados em um UMM state-of-the-art mostram que o CoT intercalado supera significativamente o CoT puramente verbal em tarefas que favorecem a modelagem visual do mundo, mas não oferece vantagem clara em outros casos. Em conjunto, este trabalho esclarece o potencial da modelagem multimodal do mundo para uma IA multimodal mais poderosa e semelhante à humana.
A aprendizagem contínua, que permite aos modelos adquirir novas competências e conhecimentos sem degradar capacidades existentes, permanece um desafio fundamental para os modelos de base. Embora a aprendizagem por reforço on-policy possa reduzir o esquecimento, esta requer funções de recompensa explícitas que frequentemente não estão disponíveis. A aprendizagem a partir de demonstrações de especialistas, a principal alternativa, é dominada pelo ajuste fino supervisionado (SFT), que é inerentemente off-policy. Apresentamos o Ajuste Fino por Auto-Destilação (SDFT), um método simples que permite a aprendizagem on-policy diretamente a partir de demonstrações. O SDFT aproveita a aprendizagem contextual utilizando um modelo condicionado por demonstrações como seu próprio professor, gerando sinais de treino on-policy que preservam capacidades anteriores enquanto adquire novas competências. Em tarefas de aprendizagem de competências e aquisição de conhecimento, o SDFT supera consistentemente o SFT, alcançando maior precisão em novas tarefas enquanto reduz substancialmente o esquecimento catastrófico. Em experiências de aprendizagem sequencial, o SDFT permite que um único modelo acumule múltiplas competências ao longo do tempo sem regressão de desempenho, estabelecendo a destilação on-policy como um caminho prático para a aprendizagem contínua a partir de demonstrações.
A escalabilidade de grandes modelos de linguagem (LLMs) está a encontrar um limite. Aumentar a largura dos modelos produz retornos decrescentes, e estender o comprimento do contexto não melhora a expressividade fundamental. Em contraste, a escalabilidade em profundidade oferece uma expressividade teoricamente superior, no entanto, as arquiteturas atuais de Transformers têm dificuldade em treinar de forma confiável em profundidades extremas. Revisitamos a formulação Post-LayerNorm (Post-LN), cuja instabilidade em larga escala causou a sua substituição por Pre-LN nos LLMs modernos. Mostramos que o modo de falha central do Post-LN surge do caminho residual no estilo ResNet, que introduz o desaparecimento do gradiente em redes profundas. Apresentamos o Keel, um Transformer Post-LN que substitui este caminho residual por uma conexão no estilo Highway. Esta modificação preserva o fluxo do gradiente através do ramo residual, impedindo o desaparecimento do sinal das camadas superiores para as inferiores. Ao contrário de métodos anteriores, o Keel permite um treino estável em profundidades extremas sem necessitar de inicialização especializada ou truques de otimização complexos. O Keel treina de forma robusta a profundidades superiores a 1000 camadas e melhora consistentemente a perplexidade e as características de escalabilidade em profundidade em relação ao Pre-LN. Estes resultados indicam que o Post-LN, quando emparelhado com uma conexão no estilo Highway, fornece uma base simples e eficaz para a construção de LLMs profundamente escaláveis, abrindo a possibilidade para futuras arquiteturas de profundidade infinita.
Os clipes audiovisuais da Internet transmitem significado por meio de sons e movimentos variáveis no tempo, que vão além do que apenas o texto pode representar. Para examinar se os modelos de IA podem compreender tais sinais em contextos culturais humanos, apresentamos o AVMeme Exam, um benchmark curado por humanos com mais de mil sons e vídeos icônicos da Internet, abrangendo discursos, canções, músicas e efeitos sonoros. Cada meme é emparelhado com uma questão e resposta única que avalia níveis de compreensão, desde o conteúdo superficial até o contexto e emoção, uso e conhecimento mundial, juntamente com metadados como ano original, transcrição, resumo e sensibilidade. Avaliamos sistematicamente modelos de linguagem multimodal de última geração (MLLMs) juntamente com participantes humanos usando este benchmark. Nossos resultados revelam uma limitação consistente: os modelos atuais têm desempenho fraco em músicas e efeitos sonoros sem texto, e lutam para pensar em contexto e cultura em comparação com o conteúdo superficial. Essas descobertas destacam uma lacuna fundamental na inteligência multimodal alinhada ao humano e exigem modelos que possam perceber contextual e culturalmente além da superfície do que ouvem e veem. Página do projeto: avmemeexam.github.io/public
Os Modelos de Linguagem de Grande Porte (LLMs) motivam a simulação de agentes generativos (por exemplo, AI Town) para criar um "mundo dinâmico", detendo imenso valor tanto no entretenimento quanto na pesquisa. No entanto, para não especialistas, especialmente aqueles sem habilidades de programação, é difícil personalizar um ambiente visualizável por conta própria. Neste artigo, apresentamos o World Craft, uma estrutura de criação de mundos agentiva para criar uma AI Town executável e visualizável por meio de descrições textuais do usuário. Ela consiste em dois módulos principais: World Scaffold e World Guild. O World Scaffold é uma padronização estruturada e concisa para desenvolver cenas de jogo interativas, servindo como um andaime eficiente para que os LLMs personalizem um ambiente executável semelhante ao AI Town. O World Guild é uma estrutura multiagente para analisar progressivamente as intenções dos usuários a partir de descrições aproximadas e sintetizar os conteúdos estruturados necessários (por exemplo, layout do ambiente e recursos) para o World Scaffold. Além disso, construímos um conjunto de dados de correção de erros de alta qualidade por meio de engenharia reversa para aprimorar o conhecimento espacial e melhorar a estabilidade e a controlabilidade da geração de layout, ao mesmo tempo que relatamos métricas de avaliação multidimensionais para análises posteriores. Experimentos extensivos demonstram que nossa estrutura supera significativamente os agentes de código comerciais existentes (Cursor e Antigravity) e LLMs (Qwen3 e Gemini-3-Pro) na construção de cenas e na transmissão da intenção narrativa, fornecendo uma solução escalável para a democratização da criação de ambientes.
Apresentamos o SimpleSeg, uma abordagem surpreendentemente simples, porém altamente eficaz, para dotar os Modelos de Linguagem Multimodal de Grande Porte (MLLMs) com percepção nativa a nível de pixel. Nosso método reformula a segmentação como um simples problema de geração de sequência: o modelo prevê diretamente sequências de pontos (coordenadas textuais) que delimitam os contornos dos objetos, inteiramente dentro do seu espaço linguístico. Para alcançar alta fidelidade, introduzimos um *pipeline* de treinamento em dois estágios, SFtoRL, onde o Aprendizado por Reforço com uma recompensa baseada em IoU aprimora as sequências de pontos para corresponder com precisão aos contornos de referência (*ground-truth*). Descobrimos que a arquitetura padrão do MLLM possui uma forte capacidade inerente para percepção de baixo nível que pode ser desbloqueada sem qualquer arquitetura especializada. Em *benchmarks* de segmentação, o SimpleSeg alcança um desempenho comparável e, frequentemente, superior ao de métodos que dependem de projetos complexos e específicos para a tarefa. Este trabalho demonstra que a compreensão espacial precisa pode emergir de uma simples previsão de pontos, desafiando a necessidade predominante de componentes auxiliares e abrindo caminho para Modelos de Linguagem Visual mais unificados e capazes. Página inicial: https://simpleseg.github.io/
A rápida expansão dos modelos de linguagem de grande porte (LLMs) de contexto longo reacendeu o debate sobre se a Geração Aumentada por Recuperação (RAG) ainda é necessária. No entanto, evidências empíricas revelam limitações persistentes da inferência de contexto longo, incluindo o fenômeno "perdido-no-meio", o alto custo computacional e a baixa escalabilidade para o raciocínio com múltiplos documentos. Por outro lado, os sistemas tradicionais de RAG, embora eficientes, são limitados pela recuperação em nível de fragmentos ("chunks"), que introduz ruído semântico e não suporta uma síntese estruturada entre documentos. Apresentamos o FABLE, uma estrutura de recuperação de caminho duplo adaptativa e baseada em floresta, aprimorada por LLM, que integra LLMs tanto na organização quanto na recuperação do conhecimento. O FABLE constrói índices hierárquicos em forma de floresta, aprimorados por LLM, com estruturas semânticas de múltiplas granularidades. Em seguida, emprega uma estratégia de caminho duplo que combina a travessia hierárquica guiada por LLM com a propagação consciente da estrutura para uma aquisição de evidências de granularidade fina, com controle explícito de orçamento para compensações adaptativas de eficiência. Extensos experimentos demonstram que o FABLE supera consistentemente os métodos de RAG estado da arte (SOTA) e alcança uma precisão comparável à inferência de LLM de contexto completo com até 94% de redução de tokens, mostrando que os LLMs de contexto longo amplificam, e não substituem totalmente, a necessidade de recuperação estruturada.
Nos últimos anos, os riscos de segurança associados a grandes modelos de linguagem tornaram-se cada vez mais proeminentes, destacando a necessidade urgente de mitigar a geração de conteúdo tóxico e prejudicial. O paradigma dominante para o alinhamento de segurança de LLM geralmente adota uma estrutura colaborativa envolvendo três papéis: um atacante para geração de prompts adversariais, um defensor para proteção de segurança e um avaliador para análise de respostas. Neste artigo, propomos uma estrutura de aprendizado por reforço em circuito fechado chamada TriPlay-RL que permite uma colaboração iterativa e de melhoria conjunta entre os três papéis com anotação manual quase zero. Resultados experimentais mostram que o atacante preserva alta diversidade de saída enquanto alcança uma melhoria de 20%-50% na eficácia adversarial; o defensor obtém ganhos de 10%-30% no desempenho de segurança sem degradar a capacidade de raciocínio geral; e o avaliador refina continuamente sua capacidade de julgamento granular através de iterações, distinguindo com precisão respostas inseguras, recusas simples e orientações úteis. Globalmente, nossa estrutura estabelece um paradigma eficiente e escalável para o alinhamento de segurança de LLM, permitindo uma coevolução contínua dentro de um ciclo de aprendizado unificado.
O treinamento moderno em paralelismo de dados (DP) favorece a comunicação coletiva em detrimento de servidores de parâmetros (PS) devido à sua simplicidade e eficiência sob cargas de trabalho balanceadas. No entanto, a premissa de carga de trabalho balanceada já não se mantém no pós-treinamento de grandes modelos de linguagem (LLMs) devido à alta variância nos comprimentos das sequências. Sob cargas de trabalho desbalanceadas, a comunicação coletiva cria barreiras de sincronização, levando à subutilização de dispositivos com cargas de trabalho menores. Esta mudança na dinâmica de treinamento justifica uma reavaliação do paradigma PS devido à sua robustez face a tal desequilíbrio. Propomos a Comunicação Sob Demanda (ODC), que adapta o PS ao Paralelismo de Dados Totalmente Fragmentado (FSDP) substituindo as operações coletivas de all-gather e reduce-scatter por comunicação ponto-a-ponto direta. Em comparação com o FSDP, o ODC reduz a barreira de sincronização de uma vez por camada para uma vez por minilote e desacopla a carga de trabalho em cada dispositivo, de modo que os trabalhadores mais rápidos não fiquem bloqueados. Também permite um balanceamento de carga mais simples e eficaz ao nível do minilote. Em diversas tarefas de pós-treinamento de LLMs, o ODC melhora consistentemente a utilização dos dispositivos e a taxa de transferência do treinamento, alcançando uma aceleração de até 36% em relação ao FSDP padrão. Estes resultados demonstram que o ODC é uma opção superior para as cargas de trabalho desbalanceadas prevalecentes no pós-treinamento de LLMs. A nossa implementação do ODC e a sua integração com o FSDP são de código aberto em https://github.com/sail-sg/odc.
Recentemente, temos observado frequentemente citações ou referências alucinadas que não correspondem a nenhum trabalho existente em artigos em processo de revisão, pré-publicações ou artigos publicados. Tais citações alucinadas representam uma séria preocupação para a confiabilidade científica. Quando aparecem em artigos aceitos, podem também afetar negativamente a credibilidade das conferências. Neste estudo, referimo-nos a citações alucinadas como "HalluCitation" e investigamos sistematicamente sua prevalência e impacto. Analisamos todos os artigos publicados na ACL, NAACL e EMNLP em 2024 e 2025, incluindo artigos da conferência principal, da Findings e de workshops. Nossa análise revela que quase 300 artigos contêm pelo menos uma HalluCitation, a maioria dos quais foi publicada em 2025. Notavelmente, metade desses artigos foi identificada na EMNLP 2025, a conferência mais recente, indicando que esse problema está aumentando rapidamente. Além disso, mais de 100 desses artigos foram aceitos como artigos da conferência principal e da Findings na EMNLP 2025, afetando a credibilidade.
Os modelos de difusão alcançam desempenho de última geração, mas frequentemente falham em gerar resultados alinhados com as preferências e intenções humanas, resultando em imagens com baixa qualidade estética e inconsistências semânticas. Os métodos de alinhamento existentes apresentam uma difícil escolha: as abordagens de *fine-tuning* sofrem com perda de diversidade devido à superotimização por recompensa, enquanto os métodos de escalonamento em tempo de teste introduzem uma sobrecarga computacional significativa e tendem a subotimizar. Para superar essas limitações, propomos o HyperAlign, uma nova estrutura que treina uma hiper-rede para um alinhamento eficiente e eficaz em tempo de teste. Em vez de modificar estados latentes, o HyperAlign gera dinamicamente pesos de adaptação de baixo *rank* para modular os operadores de geração do modelo de difusão. Isso permite que a trajetória de remoção de ruído seja ajustada de forma adaptativa com base nos *latents* de entrada, passos de tempo e *prompts* para o alinhamento condicionado por recompensa. Introduzimos múltiplas variantes do HyperAlign que diferem na frequência com que a hiper-rede é aplicada, equilibrando desempenho e eficiência. Além disso, otimizamos a hiper-rede usando um objetivo de pontuação de recompensa regularizado com dados de preferência para reduzir a exploração indevida da recompensa (*reward hacking*). Avaliamos o HyperAlign em múltiplos paradigmas generativos estendidos, incluindo Stable Diffusion e FLUX. Ele supera significativamente as *baselines* existentes de *fine-tuning* e escalonamento em tempo de teste na melhoria da consistência semântica e do apelo visual.
Apesar dos avanços significativos no alinhamento, os grandes modelos de linguagem (LLMs) permanecem vulneráveis a ataques adversariais que provocam comportamentos prejudiciais. As técnicas de direcionamento de ativação oferecem uma abordagem promissora de intervenção em tempo de inferência, mas os métodos existentes sofrem com limitações críticas: a adição de ativação requer um ajuste cuidadoso de coeficientes e é sensível a variações de norma específicas da camada, enquanto a ablação direcional oferece apenas controle binário. Trabalhos recentes sobre Direcionamento Angular introduzem controle contínuo por meio de rotação em um subespaço 2D, mas sua implementação prática viola a preservação da norma, causando deslocamento de distribuição e colapso na geração, particularmente em modelos com menos de 7B de parâmetros. Propomos o Direcionamento Seletivo, que aborda essas limitações por meio de duas inovações principais: (1) uma formulação de rotação matematicamente rigorosa e preservadora de norma que mantém a integridade da distribuição de ativações, e (2) uma seleção discriminativa de camadas que aplica o direcionamento apenas onde as representações de características exibem alinhamento de classe com sinais opostos. Experimentos em nove modelos demonstram que o Direcionamento Seletivo atinge taxas de sucesso de ataque 5,5 vezes superiores aos métodos anteriores, mantendo zero violações de perplexidade e aproximadamente 100% de retenção de capacidade em benchmarks padrão. Nossa abordagem fornece uma estrutura fundamentada e eficiente para modificação de comportamento de LLMs de forma controlável e estável. Código: https://github.com/knoveleng/steering
Os sensores de profundidade são amplamente utilizados em plataformas robóticas, e os avanços na simulação de profundidade rápida e de alta fidelidade permitiram que políticas robóticas treinadas em observações de profundidade alcançassem uma transferência robusta do simulado para o real em uma ampla gama de tarefas. Apesar disso, a aprendizagem de representação para a modalidade de profundidade permanece pouco explorada em comparação com RGB, onde modelos de base de grande escala agora definem o estado da arte. Para preencher esta lacuna, apresentamos o DeFM, um modelo de base auto-supervisionado treinado inteiramente em imagens de profundidade para aplicações robóticas. Utilizando um objetivo de auto-distilação no estilo DINO em um conjunto de dados curado de 60 milhões de imagens de profundidade, o DeFM aprende representações geométricas e semânticas que generalizam para diversos ambientes, tarefas e sensores. Para manter a consciência métrica em múltiplas escalas, introduzimos uma nova estratégia de normalização de entrada. Adicionalmente, destilamos o DeFM em modelos compactos adequados para sistemas robóticos com recursos limitados. Quando avaliado em benchmarks de classificação, segmentação, navegação, locomoção e manipulação baseados em profundidade, o DeFM alcança desempenho de ponta e demonstra forte generalização de ambientes simulados para o mundo real. Disponibilizamos todos os nossos modelos pré-treinados, que podem ser adotados diretamente para aprendizagem robótica baseada em profundidade sem ajuste específico por tarefa. Página web: https://de-fm.github.io/
O ciclo de projeto do Verilog é inerentemente intensivo em mão de obra e exige ampla experiência de domínio. Embora os Grandes Modelos de Linguagem (LLMs) ofereçam um caminho promissor para a automação, seus dados de treinamento limitados e o raciocínio sequencial intrínseco não conseguem capturar a lógica formal estrita e a concorrência inerentes aos sistemas de hardware. Para superar essas barreiras, apresentamos o EvolVE, o primeiro framework para analisar múltiplas estratégias de evolução em tarefas de projeto de *chips*, revelando que a Busca em Árvore de Monte Carlo (MCTS) se destaca em maximizar a correção funcional, enquanto o Refinamento Guiado por Ideia (IGR) se mostra superior para otimização. Aproveitamos ainda a Geração Estruturada de *Testbenches* (STG) para acelerar o processo evolutivo. Para suprir a carência de *benchmarks* complexos de otimização, introduzimos o IC-RTL, focado em problemas de escala industrial derivados do Concurso Nacional de Circuitos Integrados. As avaliações estabelecem o EvolVE como o novo estado da arte, alcançando 98,1% no VerilogEval v2 e 92% no RTLLM v2. Além disso, na suíte industrial IC-RTL, nosso *framework* supera as implementações de referência criadas por participantes do concurso, reduzindo o produto Potência, Desempenho, Área (PPA) em até 66% na Codificação de Huffman e 17% na média geométrica em todos os problemas. O código-fonte do *benchmark* IC-RTL está disponível em https://github.com/weiber2002/ICRTL.
A resolução de conflitos em equipas requer não apenas competência técnica específica, mas também inteligência social para encontrar pontos comuns e construir consenso. À medida que os agentes de IA colaboram cada vez mais em trabalhos complexos, eles devem desenvolver capacidades de coordenação para funcionarem como colegas eficazes. No entanto, hipotetizamos que os agentes atuais carecem dessas capacidades. Para testar isto, introduzimos o CooperBench, um benchmark com mais de 600 tarefas de programação colaborativa em 12 bibliotecas e 4 linguagens de programação. Cada tarefa atribui a dois agentes funcionalidades diferentes que podem ser implementadas de forma independente, mas que podem entrar em conflito sem uma coordenação adequada. As tarefas estão ancoradas em repositórios reais de código aberto com testes escritos por especialistas. Ao avaliar os agentes de programação mais avançados, observamos a *maldição da coordenação*: os agentes atingem, em média, taxas de sucesso 30% mais baixas ao trabalharem em conjunto, em comparação com a execução individual de ambas as tarefas. Este resultado contrasta fortemente com as equipas humanas, onde a adição de membros geralmente aumenta a produtividade. A nossa análise revela três problemas principais: (1) os canais de comunicação ficam congestionados com mensagens vagas, inoportunas e imprecisas; (2) mesmo com comunicação eficaz, os agentes desviam-se dos seus compromissos; e (3) os agentes frequentemente mantêm expetativas incorretas sobre os planos e a comunicação dos outros. Através de simulação em larga escala, também observámos comportamentos emergentes de coordenação raros, mas interessantes, incluindo divisão de funções, divisão de recursos e negociação. A nossa investigação apresenta um novo benchmark para programação colaborativa e apela a uma mudança de foco: da busca pela capacidade individual do agente para o desenvolvimento da inteligência social.
Os recetores acoplados à proteína G (GPCRs) regulam diversos processos fisiológicos e são centrais para a farmacologia moderna. No entanto, a descoberta de moduladores de GPCRs permanece desafiadora porque a ativação do recetor frequentemente surge de efeitos alostéricos complexos em vez de afinidade de ligação direta, e os ensaios convencionais são lentos, dispendiosos e não otimizados para capturar essas dinâmicas. Apresentamos aqui o GPCR-Filter, uma estrutura de aprendizagem profunda desenvolvida especificamente para a descoberta de moduladores de GPCRs. Compilámos um conjunto de dados de alta qualidade com mais de 90.000 pares GPCR-ligando validados experimentalmente, fornecendo uma base robusta para treino e avaliação. O GPCR-Filter integra o modelo de linguagem proteica ESM-3 para representações de sequência de GPCR de alta fidelidade com redes neurais de grafos que codificam estruturas de ligandos, acoplados através de um mecanismo de fusão baseado em atenção que aprende relações funcionais recetor-ligando. Em múltiplos cenários de avaliação, o GPCR-Filter supera consistentemente modelos state-of-the-art de interação composto-proteína e exibe forte generalização para recetores e ligandos não vistos. Notablemente, o modelo identificou com sucesso agonistas de nível micromolar do recetor 5-HT1A com estruturas químicas distintas. Estes resultados estabelecem o GPCR-Filter como uma abordagem computacional escalável e eficaz para a descoberta de moduladores de GPCRs, avançando o desenvolvimento de fármacos assistido por IA para sistemas de sinalização complexos.
Os benchmarks são ferramentas importantes para acompanhar o progresso no desenvolvimento de Grandes Modelos de Linguagem (LLMs), no entanto, imprecisões nos conjuntos de dados e métodos de avaliação comprometem consistentemente sua eficácia. Apresentamos aqui o Omni-MATH-2, uma versão revista manualmente do conjunto de dados Omni-MATH, compreendendo um subconjunto limpo de respostas exatas (n=4181) e um subconjunto marcado com problemas não padronizados (n=247). Cada problema foi auditado para garantir compilabilidade em LaTeX, solubilidade e verificabilidade, o que envolveu adicionar figuras ou informações faltantes, rotular problemas que exigem uma prova, estimativa ou imagem, e remover ruídos. Este processo reduz significativamente o ruído induzido pelo conjunto de dados, fornecendo assim uma avaliação mais precisa do desempenho do modelo. O conjunto de dados anotado também nos permite avaliar o ruído induzido pelo avaliador, comparando o GPT-5 mini com o Omni-Judge original, revelando discrepâncias substanciais entre os avaliadores em ambos os subconjuntos de problemas (limpos e marcados). Anotações de especialistas revelam que o Omni-Judge está errado em 96,4% das discordâncias de avaliação, indicando sua incapacidade de diferenciar as habilidades dos modelos, mesmo muito antes da saturação do benchmark ocorrer. À medida que os problemas se tornam mais desafiadores, descobrimos que avaliadores progressivamente mais competentes tornam-se essenciais para evitar que erros de julgamento mascarem diferenças genuínas entre os modelos. Por fim, nenhum dos avaliadores identifica os modos de falha atuais para o subconjunto de problemas marcados, demonstrando que a qualidade do conjunto de dados e a confiabilidade do avaliador são críticas para desenvolver benchmarks precisos do desempenho do modelo.