Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os sistemas de IA evoluem da geração de texto para a realização de objetivos por meio de interação sustentada, a capacidade de modelar a dinâmica do ambiente torna-se um gargalo central. Agentes que manipulam objetos, navegam em software, coordenam com outros ou projetam experimentos exigem modelos preditivos do ambiente, embora o termo *modelo de mundo* carregue significados diferentes entre comunidades de pesquisa. Introduzimos uma taxonomia "níveis x leis" organizada ao longo de dois eixos. O primeiro define três níveis de capacidade: **Preditivo L1**, que aprende operadores de transição local de um passo; **Simulador L2**, que os compõe em rollouts multi-etapa, condicionados por ações e que respeitam as leis do domínio; e **Evolutivo L3**, que revisa autonomamente seu próprio modelo quando as previsões falham frente a novas evidências. O segundo eixo identifica quatro regimes de leis governantes: **físico**, **digital**, **social** e **científico**. Esses regimes determinam quais restrições um modelo de mundo deve satisfazer e onde é mais provável que falhe. Usando esta estrutura, sintetizamos mais de 400 trabalhos e resumimos mais de 100 sistemas representativos, abrangendo aprendizado por reforço baseado em modelo, geração de vídeo, agentes para web e interface gráfica, simulação social multiagente e descoberta científica impulsionada por IA. Analisamos métodos, modos de falha e práticas de avaliação entre pares nível-regime, propomos princípios de avaliação centrados na decisão e um pacote de avaliação reproduzível mínimo, e delineamos orientações arquiteturais, problemas em aberto e desafios de governança. O roteiro resultante conecta comunidades anteriormente isoladas e traça um caminho desde a predição passiva do próximo passo em direção a modelos de mundo que podem simular e, em última instância, remodelar os ambientes nos quais os agentes operam.
As transformações produzidas por modelos de geração de imagem e vídeo frequentemente evoluem de maneira altamente não linear: longos trechos onde o conteúdo praticamente não se altera são seguidos por saltos semânticos súbitos e abruptos. Para analisar e corrigir este comportamento, introduzimos uma Função de Progressão Semântica, uma representação unidimensional que captura como o significado de uma determinada sequência evolui ao longo do tempo. Para cada quadro, calculamos as distâncias entre *embeddings* semânticos e ajustamos uma curva suave que reflete a mudança semântica cumulativa ao longo da sequência. Os desvios desta curva em relação a uma linha reta revelam um ritmo semântico irregular. Com base nessa perceção, propomos um procedimento de linearização semântica que reparametriza (ou reajusta o *timing* de) a sequência para que a mudança semântica se desdobre a uma taxa constante, resultando em transições mais suaves e coerentes. Para além da linearização, a nossa estrutura fornece uma base independente do modelo para identificar irregularidades temporais, comparar o ritmo semântico entre diferentes geradores e orientar sequências de vídeo geradas e do mundo real em direção a um ritmo de destino arbitrário.
As representações neurais (RNs), como campos neurais e Gaussianas 3D, modelam eficazmente dados volumétricos em tomografia computadorizada (TC), mas sofrem de artefactos severos em configurações de aquisição esparsa. Para resolver isto, propomos o DiffNR, uma nova estrutura que melhora a otimização de RNs com priores de difusão. O seu núcleo é o SliceFixer, um modelo de difusão de passo único concebido para corrigir artefactos em cortes degradados. Integramos camadas de condicionamento especializadas na rede e desenvolvemos estratégias de curadoria de dados personalizadas para suportar o *finetuning* do modelo. Durante a reconstrução, o SliceFixer gera periodicamente volumes de pseudo-referência, fornecendo supervisão perceptual 3D auxiliar para corrigir regiões sub-restritas. Em comparação com métodos anteriores que incorporam solucionadores de TC em processos iterativos de remoção de ruído demorados, a nossa estratégia de reparação e aumento evita consultas frequentes ao modelo de difusão, resultando num melhor desempenho em tempo de execução. Experiências extensivas mostram que o DiffNR melhora o PSNR em 3.99 dB em média, generaliza bem entre domínios e mantém uma otimização eficiente.
Os modelos de guarda são amplamente utilizados para detectar conteúdo nocivo em prompts de usuários e respostas de LLMs. No entanto, os modelos de guarda de última geração dependem exclusivamente de representações da camada final e negligenciam as ricas características relevantes para segurança distribuídas pelas camadas internas. Apresentamos a SIREN, um modelo de guarda leve que aproveita essas características internas. Ao identificar neurônios de segurança por meio de sondagem linear e combiná-los através de uma estratégia adaptativa de ponderação por camadas, a SIREN constrói um detector de nocividade a partir dos estados internos do LLM sem modificar o modelo subjacente. Nossa avaliação abrangente mostra que a SIREN supera substancialmente os modelos de guarda de código aberto mais avançados em múltiplos benchmarks, utilizando 250 vezes menos parâmetros treináveis. Além disso, a SIREN exibe generalização superior para benchmarks não vistos, permite naturalmente a detecção em tempo real em streaming e melhora significativamente a eficiência de inferência em comparação com modelos de guarda generativos. No geral, nossos resultados destacam os estados internos de LLMs como uma base promissora para a detecção prática e de alto desempenho de nocividade.
Propomos o FlowAnchor, uma estrutura livre de treinamento para edição de vídeo baseada em fluxo, estável e eficiente, sem necessidade de inversão. Métodos de edição sem inversão demonstraram recentemente eficiência impressionante e preservação de estrutura em imagens, ao direcionar diretamente a trajetória de amostragem com um sinal de edição. No entanto, estender este paradigma para vídeos permanece desafiador, frequentemente falhando em cenas com múltiplos objetos ou com contagens de quadros aumentadas. Identificamos a causa raiz como a instabilidade do sinal de edição em espaços latentes de vídeo de alta dimensionalidade, que surge do posicionamento espacial impreciso e da atenuação da magnitude induzida pela duração. Para superar este desafio, o FlowAnchor ancora explicitamente tanto onde editar quanto com que intensidade editar. Ele introduz o Refinamento de Atenção com Consciência Espacial, que impõe um alinhamento consistente entre a orientação textual e as regiões espaciais, e a Modulação de Magnitude Adaptativa, que preserva de forma adaptativa uma força de edição suficiente. Juntos, esses mecanismos estabilizam o sinal de edição e guiam a evolução baseada em fluxo em direção à distribuição alvo desejada. Experimentos extensivos demonstram que o FlowAnchor alcança uma edição de vídeo mais fiel, temporalmente coerente e computacionalmente eficiente em cenários desafiadores com múltiplos objetos e movimentos rápidos. A página do projeto está disponível em https://cuc-mipg.github.io/FlowAnchor.github.io/.
A resposta a perguntas em documentos do mundo real é um desafio complexo. Os analistas precisam sintetizar evidências de múltiplos documentos e de diferentes partes de cada documento. No entanto, qualquer janela de contexto fixa de um LLM pode ser excedida à medida que as coleções de documentos crescem. Uma solução comum é decompor os documentos em partes e montar respostas a partir de saídas no nível dessas partes, mas isso introduz um gargalo de agregação: à medida que o número de partes aumenta, os sistemas ainda precisam combinar e raciocinar sobre um volume cada vez maior de evidências extraídas. Apresentamos o SLIDERS, uma estrutura para resposta a perguntas em longas coleções de documentos por meio de raciocínio estruturado. O SLIDERS extrai informações salientes para uma base de dados relacional, permitindo um raciocínio escalável sobre um estado estruturado persistente via SQL, em vez de texto concatenado. Para tornar esta representação extraída localmente coerente globalmente, o SLIDERS introduz uma fase de reconciliação de dados que aproveita a proveniência, as razões de extração e metadados para detetar e reparar registos duplicados, inconsistentes e incompletos. O SLIDERS supera todas as linhas de base em três benchmarks existentes de contexto longo, apesar de todos eles caberem na janela de contexto de LLMs base fortes, excedendo o GPT-4.1 em 6,6 pontos em média. Também melhora em relação à próxima melhor linha de base em aproximadamente 19 e 32 pontos em dois novos benchmarks com 3,9M e 36M de *tokens*, respetivamente.
Os modelos de vídeo-linguagem (VLM) aprendem a raciocinar sobre o mundo visual dinâmico por meio da linguagem natural. Apresentamos um conjunto de conjuntos de dados abertos, benchmarks e metodologias para supervisão escalável que permitem uma legendagem de vídeo precisa. Primeiro, definimos uma especificação estruturada para descrever sujeitos, cenários, movimento, dinâmicas espaciais e de câmera, fundamentada por centenas de primitivas visuais cuidadosamente definidas em colaboração com criadores de vídeo profissionais, como cineastas. Em seguida, para curadoria de legendas de alta qualidade, introduzimos o CHAI (Supervisão Humano-IA baseada em Crítica), um framework no qual especialistas treinados criticam e revisam pré-legendas geradas por modelos, transformando-as em pós-legendas aprimoradas. Esta divisão de trabalho melhora a precisão e eficiência da anotação ao delegar a geração de texto aos modelos, permitindo que humanos se concentrem melhor na verificação. Adicionalmente, essas críticas e preferências entre pré e pós-legendas fornecem supervisão rica para melhorar modelos de código aberto (Qwen3-VL) na geração de legendas, modelagem de recompensa e geração de críticas por meio de SFT, DPO e escalonamento no momento da inferência. Nossas ablações mostram que a qualidade da crítica em precisão, recall e construtividade, garantida pelo nosso framework de supervisão, governa diretamente o desempenho downstream. Com supervisão especializada modesta, o modelo resultante supera modelos de código fechado, como o Gemini-3.1-Pro. Finalmente, aplicamos nossa abordagem para relegendar vídeos profissionais em larga escala (por exemplo, filmes, comerciais, jogos) e ajustamos finamente modelos de geração de vídeo, como o Wan, para seguir melhor instruções detalhadas de até 400 palavras, alcançando um controle mais refinado sobre a cinematografia, incluindo movimento de câmera, ângulo, lente, foco, ponto de vista e enquadramento. Nossos resultados mostram que especificação precisa e supervisão humano-IA são fundamentais para a compreensão e geração de vídeo em nível profissional. Dados e código estão disponíveis em nossa página do projeto: https://linzhiqiu.github.io/papers/chai/
O rápido crescimento dos ecossistemas de agentes de IA está transformando a forma como tarefas complexas são delegadas e executadas, criando um novo desafio: identificar agentes adequados para uma determinada tarefa. Diferente de ferramentas tradicionais, as capacidades dos agentes são frequentemente composicionais e dependentes da execução, tornando-as difíceis de avaliar apenas a partir de descrições textuais. No entanto, pesquisas e benchmarks existentes geralmente assumem funcionalidades bem especificadas, pools de candidatos controlados ou apenas consultas de tarefas executáveis, deixando cenários realistas de busca de agentes insuficientemente estudados. Apresentamos o AgentSearchBench, um benchmark em larga escala para busca de agentes em condições reais, construído a partir de quase 10.000 agentes do mundo real de vários provedores. O benchmark formaliza a busca de agentes como problemas de recuperação e rerranqueamento sob consultas de tarefas executáveis e descrições de tarefas de alto nível, e avalia a relevância usando sinais de desempenho fundamentados na execução. Experimentos revelam uma lacuna consistente entre a similaridade semântica e o desempenho real do agente, expondo as limitações dos métodos de recuperação e rerranqueamento baseados em descrição. Mostramos ainda que sinais comportamentais leves, incluindo sondagem consciente da execução, podem melhorar substancialmente a qualidade do ranqueamento, destacando a importância de incorporar sinais de execução na descoberta de agentes. Nosso código está disponível em https://github.com/Bingo-W/AgentSearchBench.
A transição da inferência de modelos de linguagem sem estado para agentes autónomos persistentes e multi-sessão revelou que a memória é um dos principais estrangulamentos arquitetónicos na implantação de sistemas agentivos de nível produtivo. As metodologias existentes dependem maioritariamente de arquiteturas híbridas de grafos semânticos, que impõem uma sobrecarga computacional substancial durante a ingestão e a recuperação de informação. Estes sistemas normalmente requerem extração de entidades mediada por modelos de linguagem de grande escala, manutenção explícita de esquemas de grafos e pipelines de recuperação com múltiplas consultas. Este artigo introduz o Memanto, uma camada de memória universal para inteligência artificial agentiva que desafia a premissa predominante de que a complexidade de grafos de conhecimento é necessária para alcançar memória de agente de alta fidelidade. O Memanto integra um esquema de memória semântica tipada composto por treze categorias de memória predefinidas, um mecanismo automático de resolução de conflitos e um controlo de versões temporal. Estes componentes são possibilitados pelo Motor de Busca Information Theoretic da Moorcheh, uma base de dados semântica sem indexação que fornece recuperação determinística com latência inferior a noventa milissegundos, eliminando simultaneamente o atraso de ingestão. Através de uma avaliação sistemática nos conjuntos de testes LongMemEval e LoCoMo, o Memanto alcança pontuações de precisão state-of-the-art de 89,8% e 87,1%, respetivamente. Estes resultados superam todos os sistemas híbridos baseados em grafos e vetores avaliados, exigindo apenas uma única consulta de recuperação, não incorrendo em custos de ingestão e mantendo uma complexidade operacional substancialmente inferior. É apresentado um estudo de ablação progressiva de cinco estágios para quantificar a contribuição de cada componente arquitetónico, seguido de uma discussão sobre as implicações para a implantação escalável de sistemas de memória agentivos.
A modelagem moderna de sequências é dominada por duas famílias: os Transformers, cuja auto-atenção pode acessar elementos arbitrários da sequência visível, e os modelos de espaço de estados estruturados, que propagam informações por meio de um estado recorrente explícito. Esses mecanismos enfrentam limitações diferentes em contextos longos: quando a atenção é difusa, a influência de tokens individuais é diluída ao longo do suporte efetivo, enquanto a propagação do estado recorrente pode perder sensibilidade de longo alcance, a menos que a informação seja ativamente preservada. Como resultado, ambos os mecanismos enfrentam desafios para preservar e recuperar seletivamente informações em contextos longos. Propomos Sessa, um decodificador que coloca a atenção dentro de um caminho de realimentação recorrente. Isso cria muitos caminhos baseados em atenção através dos quais tokens passados podem influenciar estados futuros, em vez de depender de uma única leitura de atenção ou de uma única cadeia recorrente. Provamos que, sob premissas explícitas e regimes equivalentes, Sessa admite caudas de memória de lei de potência O(ℓ^{-β}) para 0 < β < 1, com decaimento mais lento do que nos baselines correspondentes de Transformer e estilo Mamba. Além disso, apresentamos uma construção explícita que alcança essa taxa de lei de potência. Sob as mesmas premissas, Sessa é a única classe de modelo entre as consideradas que realiza recuperação seletiva flexível, incluindo perfis cuja influência não decai com a distância. Consistente com esta vantagem teórica, em experimentos equivalentes, Sessa alcança o desempenho mais forte em benchmarks de contexto longo, mantendo-se competitivo com os baselines de Transformer e estilo Mamba na modelagem de linguagem de contexto curto.
Os Modelos Visão-Linguagem-Ação (VLAs) herdam suas capacidades visuais e linguísticas dos Modelos Visão-Linguagem (VLMs), porém a maioria dos VLAs é construída a partir de VLMs padrão não adaptados ao domínio corporificado, limitando seu desempenho em tarefas subsequentes. Neste trabalho, propomos o EmbodiedMidtrain para preencher a lacuna entre VLMs e VLAs. Primeiro, caracterizamos a diferença na distribuição de dados entre eles, demonstrando que os dados de VLA ocupam regiões compactas largamente separadas da distribuição mais ampla de VLM, enquanto o grau de alinhamento varia substancialmente entre e dentro das fontes de dados de VLM. Em seguida, construímos um mecanismo de dados para treinamento intermediário que utiliza um estimador de proximidade leve e adaptável para selecionar os candidatos mais alinhados com VLA de um grande conjunto de VLM, e submete o VLM a um treinamento intermediário nesta mistura curada antes do ajuste fino para VLA. Experimentos em três benchmarks de manipulação robótica mostram que o treinamento intermediário melhora consistentemente o desempenho em diferentes arquiteturas de VLM, alcançando resultados competitivos com VLAs especializados e VLMs padrão treinados com escala de modelo e orçamentos de treinamento maiores. Análises adicionais revelam que o treinamento intermediário fornece uma inicialização mais robusta para o ajuste fino de VLA, com ganhos emergindo desde os primeiros passos e ampliando-se ao longo do treinamento. Além disso, o mecanismo de dados captura sinais de alinhamento tanto em nível de conjunto de dados quanto em nível de amostra, privilegiando o raciocínio espacial em detrimento de tarefas centradas em texto, enquanto preserva a diversidade dos dados de VLM. Disponibilizaremos todo o código, dados e modelos para pesquisas futuras.
A avaliação de políticas de robótica em milhares de ambientes e tarefas é inviável com as abordagens existentes. Isso motiva a necessidade de uma nova metodologia para avaliação escalável de políticas de robótica. Neste artigo, propomos o dWorldEval, que utiliza um modelo de mundo de difusão discreta como um proxy escalável para avaliação de políticas de robótica. Especificamente, o dWorldEval mapeia todas as modalidades - incluindo visão, linguagem e ações robóticas - em um espaço unificado de tokens, modelando-as por meio de uma única rede de desruído baseada em transformer. Com base nesta arquitetura, empregamos uma memória esparsa de *keyframes* para manter a consistência espaço-temporal. Também introduzimos um *token* de progresso que indica o grau de conclusão da tarefa. Na inferência, o modelo prevê conjuntamente observações futuras e o *token* de progresso, permitindo determinar automaticamente o sucesso quando o progresso atinge 1. Experimentos extensivos demonstram que o dWorldEval supera significativamente abordagens anteriores, como WorldEval, Ctrl-World e WorldGym, nos conjuntos LIBERO, RoboTwin e em múltiplas tarefas com robôs reais. Ele abre caminho para um novo paradigma arquitetônico na construção de simuladores de mundo para avaliação de robótica em larga escala.
Os Grandes Modelos de Linguagem (LLMs) raciocinam bem, mas frequentemente deixam escapar evidências decisivas quando estas estão enterradas em contextos longos e ruidosos. Apresentamos o HiLight, uma estrutura de Ênfase em Evidências que desacopla a seleção de evidências do raciocínio para solucionadores LLM congelados. O HiLight evita comprimir ou reescrever a entrada – o que pode descartar ou distorcer evidências – treinando um Ator de Ênfase leve para inserir tags de destaque mínimas em torno de trechos pivô no contexto original e inalterado. Um Solucionador congelado executa então o raciocínio subsequente sobre a entrada enfatizada. Enquadramos o realce como um problema de tomada de decisão com supervisão fraca e otimizamos o Ator com aprendizado por reforço usando apenas a recompensa da tarefa do Solucionador, sem necessidade de rótulos de evidência, acesso ou modificação do Solucionador. Em tarefas de recomendação sequencial e resposta a perguntas de contexto longo, o HiLight melhora consistentemente o desempenho em relação a baselines fortes baseados em prompt e otimização automática de prompt. A política de ênfase aprendida transfere-se de forma zero-shot para famílias de Solucionadores não vistos, tanto menores quanto maiores, incluindo um Solucionador baseado em API, sugerindo que o Ator captura uma estrutura de evidência genuína e reutilizável, em vez de se ajustar excessivamente a uma única arquitetura.
Este artigo apresenta o AgriIR, uma estrutura configurável de Geração Aumentada por Recuperação (RAG) projetada para fornecer respostas fundamentadas e específicas do domínio, mantendo a flexibilidade e um baixo custo computacional. Em vez de depender de modelos monolíticos de grande porte, o AgriIR decompõe o processo de acesso à informação em estágios modulares declarativos: refinamento de consulta, planeamento de subconsultas, recuperação, síntese e avaliação. Este projeto permite que os profissionais adaptem a estrutura a novos eixos de conhecimento sem modificar a arquitetura. A nossa implementação de referência tem como alvo o acesso à informação agrícola na Índia, integrando modelos de linguagem com 1B de parâmetros com recuperadores adaptativos e catálogos de agentes com conhecimento do domínio. O sistema aplica citação determinística, integra telemetria para transparência e inclui recursos de implantação automatizada para garantir uma operação auditável e reproduzível. Ao enfatizar o desenho arquitetónico e o controlo modular, o AgriIR demonstra que pipelines bem projetados podem alcançar uma recuperação precisa no domínio e confiável, mesmo com recursos limitados. Argumentamos que esta abordagem exemplifica "IA para a Agricultura" ao promover a acessibilidade, a sustentabilidade e a responsabilização nos sistemas de geração aumentada por recuperação.
Os recentes avanços em sistemas autónomos de "cientistas de IA" têm demonstrado a capacidade de escrever automaticamente manuscritos científicos e códigos executáveis. No entanto, a produção de um diagrama científico de nível de publicação (por exemplo, uma figura de destaque) continua a ser um grande estrangulamento no processo de geração de artigos "de ponta a ponta". Por exemplo, uma figura de destaque atua como uma interface visual estratégica e tem um propósito diferente dos gráficos de dados derivados. Ela exige uma síntese conceptual e um planeamento para traduzir um fluxo de trabalho lógico complexo numa imagem convincente que oriente a intuição e desperte a curiosidade. Os sistemas existentes de cientistas de IA geralmente omitem este componente ou recorrem a uma alternativa inferior. Para colmatar esta lacuna, apresentamos o DiagramBank, um conjunto de dados em larga escala composto por 89.422 diagramas esquemáticos selecionados de publicações científicas de topo existentes, concebido para recuperação multimodal e geração de figuras científicas baseada em exemplos. O DiagramBank é desenvolvido através do nosso pipeline de curadoria automatizada que extrai figuras e referências correspondentes no texto, e usa um filtro baseado em CLIP para diferenciar diagramas esquemáticos de gráficos padrão ou imagens naturais. Cada instância é emparelhada com um contexto rico, desde o resumo, a legenda, até pares figura-referência, permitindo a recuperação de informação sob diferentes granularidades de consulta. Disponibilizamos o DiagramBank num formato pronto para indexação e fornecemos uma base de código de geração aumentada por recuperação para demonstrar a síntese de figuras de destaque condicionada por exemplos. O DiagramBank está publicamente disponível em https://huggingface.co/datasets/zhangt20/DiagramBank com código em https://github.com/csml-rpi/DiagramBank.
À medida que a capacidade de raciocínio e o escopo de implantação crescem em conjunto, os modelos de linguagem de grande porte (LLMs) adquirem a capacidade de se envolver em comportamentos que servem aos seus próprios objetivos, uma classe de riscos que denominamos Riscos Emergentes de Raciocínio Estratégico (ESRRs, na sigla em inglês). Estes incluem, mas não se limitam a, decepção (enganar intencionalmente utilizadores ou avaliadores), manipulação de avaliação (manipular estrategicamente o desempenho durante testes de segurança) e exploração de recompensas (explorar objetivos mal especificados). Compreender e avaliar sistematicamente estes riscos permanece um desafio em aberto. Para colmatar esta lacuna, introduzimos o ESRRSim, uma estrutura agêntica orientada por taxonomia para avaliação automatizada de riscos comportamentais. Construímos uma taxonomia de riscos extensível de 7 categorias, que é decomposta em 20 subcategorias. O ESRRSim gera cenários de avaliação concebidos para eliciar raciocínio fidedigno, emparelhados com rubricas duais que avaliam tanto as respostas do modelo como os traços de raciocínio, numa arquitetura escalável e independente do juiz. A avaliação em 11 LLMs de raciocínio revela uma variação substancial nos perfis de risco (taxas de deteção variando entre 14,45% e 72,72%), com melhorias geracionais dramáticas a sugerir que os modelos podem reconhecer e adaptar-se cada vez mais aos contextos de avaliação.