Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Tongyi DeepResearch, um modelo de linguagem de grande escala agentivo, especificamente concebido para tarefas de pesquisa profunda e de longo prazo que exigem busca intensiva de informação. Para incentivar a autonomia em pesquisas profundas, o Tongyi DeepResearch foi desenvolvido através de um framework de treinamento de ponta a ponta que combina *mid-training* e *pós-treinamento agentivos*, permitindo raciocínio escalável e busca de informação em tarefas complexas. Projetamos um *pipeline* de síntese de dados altamente escalável, totalmente automático, que não depende de dispendiosas anotações humanas e sustenta todas as etapas de treinamento. Ao construir ambientes personalizados para cada fase, nosso sistema permite interações estáveis e consistentes ao longo de todo o processo. O Tongyi DeepResearch, que possui um total de 30,5 mil milhões de parâmetros, com apenas 3,3 mil milhões ativados por *token*, alcança um desempenho de última geração numa série de *benchmarks* de pesquisa profunda agentiva, incluindo Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES e xbench-DeepSearch-2510. Disponibilizamos como *open-source* o modelo, o *framework* e as soluções completas para capacitar a comunidade.
Os agentes de linguagem têm demonstrado potencial notável na pesquisa na web e recuperação de informações. No entanto, esses agentes de pesquisa assumem que as consultas dos usuários são completas e inequívocas, uma premissa que diverge da realidade, onde os usuários começam com consultas incompletas que exigem esclarecimentos por meio de interação. Ainda assim, a maioria dos agentes carece de mecanismos interativos durante o processo de pesquisa, e os benchmarks existentes não conseguem avaliar essa capacidade. Para preencher essa lacuna, introduzimos o InteractComp, um benchmark projetado para avaliar se os agentes de pesquisa conseguem reconhecer ambiguidades nas consultas e interagir ativamente para resolvê-las durante a pesquisa. Seguindo o princípio de fácil verificação e interação para desambiguar, construímos 210 questões curadas por especialistas em 9 domínios através de uma metodologia de alvo-distrator que cria ambiguidade genuína, resolvível apenas por meio de interação. A avaliação de 17 modelos revela uma falha impressionante: o melhor modelo atinge apenas 13,73% de precisão, apesar de alcançar 71,50% com contexto completo, expondo overconfidence sistemático em vez de déficits de raciocínio. A interação forçada produz ganhos dramáticos, demonstrando capacidade latente que as estratégias atuais não conseguem engajar. A análise longitudinal mostra que as capacidades de interação estagnaram por mais de 15 meses, enquanto o desempenho em pesquisa melhorou sete vezes, revelando um ponto cego crítico. Essa estagnação, aliada ao feedback imediato inerente às tarefas de pesquisa, torna o InteractComp um recurso valioso tanto para avaliar quanto para treinar capacidades de interação em agentes de pesquisa. O código está disponível em https://github.com/FoundationAgents/InteractComp.
Os agentes web baseados em LLM mostram imenso potencial para busca de informações, mas sua eficácia em tarefas de longo horizonte é prejudicada por um trade-off fundamental no gerenciamento de contexto. Agentes predominantes baseados em ReAct sofrem com saturação de contexto à medida que acumulam históricos brutos e ruidosos, enquanto métodos que resumem rigidamente o histórico completo a cada passo arriscam a perda irreversível de detalhes críticos. Para resolver isso, introduzimos o AgentFold, um novo paradigma de agente centrado no gerenciamento proativo de contexto, inspirado no processo cognitivo humano de consolidação retrospectiva. O AgentFold trata seu contexto como um espaço de trabalho cognitivo dinâmico a ser ativamente esculpido, em vez de um log passivo a ser preenchido. A cada passo, ele aprende a executar uma operação de "dobragem" (`folding`), que gerencia sua trajetória histórica em múltiplas escalas: pode realizar condensações granulares para preservar detalhes vitais e refinados, ou consolidações profundas para abstrair sub-tarefas inteiras de múltiplos passos. Os resultados em benchmarks proeminentes são impressionantes: com simples ajuste fino supervisionado (sem pré-treinamento contínuo ou RL), nosso agente AgentFold-30B-A3B alcança 36,2% no BrowseComp e 47,3% no BrowseComp-ZH. Notavelmente, este desempenho não apenas supera ou iguala modelos de código aberto de escala dramaticamente maior, como o DeepSeek-V3.1-671B-A37B, mas também supera agentes proprietários líderes como o o4-mini da OpenAI.
Os recentes avanços nos Modelos de Linguagem Multimodais (MLLMs) têm impulsionado progressos rápidos nos modelos Visão-Linguagem-Ação (VLA) para manipulação robótica. Embora eficazes em muitos cenários, as abordagens atuais dependem amplamente de instruções explícitas, enquanto, nas interações do mundo real, os humanos raramente emitem instruções diretamente. Uma colaboração eficaz exige que os robôs infiram as intenções do usuário de forma proativa. Neste trabalho, introduzimos as instruções contextuais multimodais, uma nova configuração em que a intenção é derivada do diálogo falado, sons ambientais e pistas visuais, em vez de comandos explícitos. Para abordar essa nova configuração, apresentamos o RoboOmni, uma estrutura Perceptor-Pensador-Falador-Executor baseada em LLMs omni-modais de ponta a ponta que unifica o reconhecimento de intenção, a confirmação de interação e a execução de ações. O RoboOmni funde sinais auditivos e visuais espaço-temporalmente para um reconhecimento de intenção robusto, enquanto suporta interação direta por fala. Para lidar com a ausência de dados de treinamento para reconhecimento proativo de intenção na manipulação robótica, construímos o OmniAction, compreendendo 140 mil episódios, mais de 5 mil falantes, 2,4 mil sons de eventos, 640 cenários de fundo e seis tipos de instruções contextuais. Experimentos em ambientes de simulação e do mundo real mostram que o RoboOmni supera as linhas de base baseadas em texto e ASR em taxa de sucesso, velocidade de inferência, reconhecimento de intenção e assistência proativa.
Apresentamos o Game-TARS, um agente de jogos generalista treinado com um espaço de ação unificado e escalável ancorado em entradas nativas de teclado e mouse alinhadas com o uso humano. Diferente de abordagens baseadas em API ou GUI, este paradigma permite o pré-treinamento contínuo em larga escala através de domínios heterogêneos, incluindo sistemas operacionais, web e jogos de simulação. O Game-TARS foi pré-treinado em mais de 500 bilhões de *tokens* com trajectórias diversificadas e dados multimodais. As técnicas-chave incluem uma perda contínua decrescente para reduzir a confusão causal e uma eficiente estratégia de *Pensamento Esparsificado* que equilibra a profundidade do raciocínio com o custo de inferência. Experimentos mostram que o Game-TARS atinge cerca de 2 vezes a taxa de sucesso do modelo estado da arte anterior em tarefas de mundo aberto no Minecraft, aproxima-se da generalidade de humanos novatos em jogos web 3D não vistos, e supera o GPT-5, o Gemini-2.5-Pro e o Claude-4-Sonnet em *benchmarks* de FPS. Resultados de escalabilidade no tempo de treinamento e de teste confirmam que o espaço de ação unificado sustenta melhorias quando escalado para dados entre jogos e multimodais. Nossos resultados demonstram que representações de ação simples e escaláveis, combinadas com pré-treinamento em larga escala, oferecem um caminho promissor para agentes generalistas com amplas habilidades de uso de computador.
A geração de vídeo em espaço contínuo avançou rapidamente, enquanto as abordagens discretas ficam para trás devido ao acúmulo de erros e à inconsistência em contextos longos. Neste trabalho, revisitamos a modelagem generativa discreta e apresentamos o Uniform discRete diffuSion with metric pAth (URSA), uma estrutura simples, mas poderosa, que preenche a lacuna com as abordagens contínuas para a geração escalável de vídeo. Em seu cerne, o URSA formula a tarefa de geração de vídeo como um refinamento global iterativo de tokens espaço-temporais discretos. Ele integra dois projetos-chave: um Caminho Métrico Linearizado e um mecanismo de Deslocamento de Passo de Tempo Dependente da Resolução. Esses projetos permitem que o URSA escale eficientemente para a síntese de imagens de alta resolução e a geração de vídeos de longa duração, exigindo significativamente menos etapas de inferência. Além disso, introduzimos uma estratégia de ajuste fino temporal assíncrona que unifica tarefas versáteis em um único modelo, incluindo interpolação e geração de imagem para vídeo. Experimentos extensos em benchmarks desafiadores de geração de vídeo e imagem demonstram que o URSA supera consistentemente os métodos discretos existentes e alcança um desempenho comparável aos métodos de difusão contínua de última geração. Código e modelos estão disponíveis em https://github.com/baaivision/URSA.
Os resultados de pesquisa pública sobre o ajuste fino supervisionado em larga escala de agentes de IA permanecem relativamente escassos, uma vez que a coleta de dados para treinamento de agentes apresenta desafios únicos. Neste trabalho, argumentamos que o gargalo não é a falta de fontes de dados subjacentes, mas sim que uma grande variedade de dados está fragmentada em formatos, ferramentas e interfaces heterogêneas. Para tanto, introduzimos o protocolo de dados para agentes (ADP), uma linguagem de representação leve que serve como uma "interlíngua" entre conjuntos de dados de agentes em formatos diversos e pipelines unificados de treinamento de agentes a jusante. O design do ADP é suficientemente expressivo para capturar uma grande variedade de tarefas, incluindo uso de APIs/ferramentas, navegação, codificação, engenharia de software e fluxos de trabalho agenticos gerais, mantendo-se simples de analisar e treinar sem necessidade de engenharia em nível de conjunto de dados individual. Em experimentos, unificamos uma ampla coleção de 13 conjuntos de dados existentes para treinamento de agentes no formato ADP e convertemos os dados padronizados do ADP em formatos prontos para treinamento para múltiplas estruturas de agentes. Realizamos SFT nesses dados e demonstramos um ganho médio de desempenho de ~20% sobre os modelos base correspondentes, alcançando desempenho de ponta ou próximo ao estado da arte em benchmarks padrão de codificação, navegação, uso de ferramentas e pesquisa, sem ajustes específicos de domínio. Todo o código e dados são liberados publicamente, na expectativa de que o ADP possa ajudar a reduzir a barreira para o treinamento de agentes padronizado, escalável e reproduzível.
Os modelos visão-linguagem-ação (VLA) existentes atuam no mundo real 3D, mas são tipicamente construídos sobre codificadores 2D, deixando uma lacuna de raciocínio espacial que limita a generalização e adaptabilidade. As técnicas recentes de integração 3D para VLAs ou exigem sensores especializados e transferem mal entre modalidades, ou injetam pistas fracas que carecem de geometria e degradam o alinhamento visão-linguagem. Neste trabalho, introduzimos o FALCON (Do Espacial para a Ação), um novo paradigma que injeta tokens espaciais 3D ricos no cabeçalho de ação. O FALCON aproveita modelos de fundação espacial para fornecer fortes prévias geométricas apenas a partir de RGB, e inclui um Modelo Espacial Corporificado que pode opcionalmente fusionar profundidade ou pose para maior fidelidade quando disponíveis, sem retreino ou alterações arquiteturais. Para preservar o raciocínio linguístico, os tokens espaciais são consumidos por um Cabeçalho de Ação Aprimorado Espacialmente em vez de serem concatenados no backbone visão-linguagem. Esses projetos permitem que o FALCON aborde limitações na representação espacial, transferibilidade de modalidade e alinhamento. Em avaliações abrangentes em três benchmarks de simulação e onze tarefas do mundo real, nosso FALCON proposto alcança desempenho de ponta, supera consistentemente baselines competitivas e mantém-se robusto sob desordem, condicionamento por prompt espacial e variações na escala e altura dos objetos.
Recentemente, a edição de imagens baseada em modelos Diffusion-in-Transformer (DiT) tem passado por um desenvolvimento rápido. No entanto, os métodos de edição existentes frequentemente carecem de um controle efetivo sobre o grau de edição, limitando sua capacidade de alcançar resultados mais personalizados. Para superar esta limitação, investigamos o mecanismo de MM-Atenção dentro do modelo DiT e observamos que os tokens de Consulta (Query) e Chave (Key) compartilham um vetor de viés (bias) que é dependente apenas da camada. Nós interpretamos este viés como representando o comportamento de edição inerente ao modelo, enquanto a diferença (delta) entre cada token e seu viés correspondente codifica os sinais de edição específicos do conteúdo. Com base nesta percepção, propomos o Group Relative Attention Guidance (GRAG), um método simples mas eficaz que repondera os valores delta de diferentes tokens para modular o foco do modelo na imagem de entrada em relação à instrução de edição, permitindo um controle contínuo e de granularidade fina sobre a intensidade da edição sem qualquer ajuste (tuning). Experimentos extensivos conduzidos em frameworks de edição de imagem existentes demonstram que o GRAG pode ser integrado com apenas quatro linhas de código, melhorando consistentemente a qualidade da edição. Além disso, em comparação com o Guia Livre de Classificador (Classifier-Free Guidance), amplamente utilizado, o GRAG alcança um controle mais suave e preciso sobre o grau de edição. Nosso código será liberado em https://github.com/little-misfit/GRAG-Image-Editing.
A descodificação especulativa acelera a inferência de LLMs utilizando um pequeno modelo de rascunho para propor múltiplos tokens que um modelo alvo verifica em paralelo. Estender esta ideia para lotes (batches) é essencial para a produção em servidores, mas introduz o problema do tensor irregular: sequências no mesmo lote aceitam números diferentes de tokens de rascunho, quebrando o alinhamento à direita e corrompendo IDs de posição, máscaras de atenção e o estado da KV-cache. Demonstramos que várias implementações existentes de lotes violam a equivalência de saída – o requisito fundamental de que a descodificação especulativa deve produzir sequências de tokens idênticas à geração autoregressiva padrão. Estas violações ocorrem precisamente devido ao manuseamento inadequado do problema do tensor irregular. Em resposta, nós (1) caracterizamos os requisitos de sincronização que garantem a correção, (2) apresentamos uma descodificação especulativa em lote com prioridade à correção, o EQSPEC, que expõe o realinhamento como consumidor de 40% da sobrecarga, e (3) introduzimos o EXSPEC, que mantém um conjunto deslizante de sequências e forma dinamicamente grupos de mesmo comprimento, para reduzir a sobrecarga de realinhamento, preservando os ganhos de velocidade especulativa por sequência. No conjunto de dados SpecBench, através dos pares alvo/rascunho Vicuna-7B/68M, Qwen3-8B/0.6B e GLM-4-9B/0.6B, a nossa abordagem atinge até 3 vezes a melhoria de throughput no tamanho de lote 8 em comparação com o tamanho de lote 1, com escalagem eficiente até ao tamanho de lote 8, mantendo 95% de equivalência de saída. O nosso método não requer kernels personalizados e integra-se facilmente com as pilhas de inferência existentes. O nosso código está disponível em https://github.com/eBay/spec_dec.
Os agentes de busca baseados em LLM são cada vez mais treinados com dados sintéticos centrados em entidades para resolver tarefas complexas e intensivas em conhecimento. No entanto, métodos de treinamento predominantes como a Otimização de Política Relativa de Grupo (GRPO) descartam essa rica informação de entidades, dependendo instead de recompensas esparsas baseadas em resultados. Esta limitação crítica impede que distingam amostras informativas de "quase acertos" – aquelas com raciocínio substancialmente correto, mas uma resposta final falha – de falhas completas, descartando assim sinais valiosos de aprendizado. Abordamos este problema aproveitando as próprias entidades descartadas durante o treinamento. Nossa análise empírica revela uma forte correlação positiva entre o número de entidades verdadeiras identificadas durante o processo de raciocínio de um agente e a precisão da resposta final. Com base nessa percepção, introduzimos a Otimização de Política Relativa de Grupo com Consciência de Entidades (E-GRPO), uma estrutura inovadora que formula uma função de recompensa densa e consciente de entidades. A E-GRPO atribui recompensas parciais a amostras incorretas proporcionais à sua taxa de correspondência de entidades, permitindo que o modelo aprenda efetivamente com esses "quase acertos". Experimentos em diversos benchmarks de questionamento-resposta (QA) e pesquisa profunda mostram que a E-GRPO supera consistentemente e significativamente a linha de base GRPO. Além disso, nossa análise revela que a E-GRPO não apenas alcança precisão superior, mas também induz políticas de raciocínio mais eficientes que exigem menos chamadas de ferramentas, demonstrando uma abordagem mais eficaz e eficiente em amostras para alinhar agentes de busca.
O treinamento de agentes de modelos de linguagem de grande escala em tarefas na fronteira de suas capacidades é fundamental para desbloquear raciocínio avançado. Apresentamos uma abordagem de síntese de dados inspirada na teoria educacional da Zona de Desenvolvimento Proximal (ZDP), que define essa fronteira como tarefas que um LLM não consegue resolver sozinho, mas pode dominar com orientação. Para operacionalizar isso, apresentamos o AgentFrontier Engine, um *pipeline* automatizado que sintetiza dados multidisciplinares de alta qualidade situados precisamente dentro da ZDP do LLM. Este mecanismo suporta tanto o pré-treinamento contínuo com dados intensivos em conhecimento quanto o pós-treinamento direcionado em tarefas complexas de raciocínio. A partir da mesma estrutura, derivamos o ZPD Exam, um *benchmark* dinâmico e automatizado projetado para avaliar as capacidades dos agentes nessas tarefas de fronteira. Treinamos o modelo AgentFrontier-30B-A3B em nossos dados sintetizados, que atinge resultados de última geração em *benchmarks* exigentes como o Humanity's Last Exam, superando até mesmo alguns agentes proprietários líderes. Nosso trabalho demonstra que uma abordagem guiada pela ZDP para a síntese de dados oferece um caminho escalável e eficaz para a construção de agentes de LLM mais capazes.
Com os avanços nas capacidades de tomada de decisão e raciocínio, os agentes multimodais mostram um forte potencial em cenários de aplicação informática. As avaliações anteriores centraram-se principalmente nas competências de interação com interfaces gráficas (GUI), enquanto as capacidades de invocação de ferramentas, como as possibilitadas pelo Model Context Protocol (MCP), têm sido largamente negligenciadas. Comparar agentes com invocação de ferramentas integrada com outros avaliados apenas na interação com GUI é inerentemente injusto. Apresentamos o OSWorld-MCP, o primeiro benchmark abrangente e justo para avaliar a invocação de ferramentas, a operação de GUI e as capacidades de tomada de decisão de agentes de uso informático num ambiente real. Concebemos um *pipeline* inovador de geração automática de código para criar ferramentas e combinámo-las com uma seleção curada de ferramentas existentes. Uma validação manual rigorosa resultou em 158 ferramentas de alta qualidade (abrangendo 7 aplicações comuns), cada uma verificada quanto à funcionalidade correta, aplicabilidade prática e versatilidade. Avaliações extensivas de agentes multimodais state-of-the-art no OSWorld-MCP mostram que as ferramentas MCP geralmente melhoram as taxas de sucesso das tarefas (por exemplo, de 8,3% para 20,4% para o OpenAI o3 em 15 passos, e de 40,1% para 43,3% para o Claude 4 Sonnet em 50 passos), sublinhando a importância de avaliar as capacidades de invocação de ferramentas. No entanto, mesmo os modelos mais fortes apresentam taxas de invocação de ferramentas relativamente baixas, apenas 36,3%, indicando margem de melhoria e destacando o desafio proposto pelo benchmark. Ao medir explicitamente as competências de utilização de ferramentas MCP, o OSWorld-MCP aprofunda a compreensão dos agentes multimodais e estabelece um novo padrão para avaliar o desempenho em ambientes complexos e assistidos por ferramentas. O nosso código, ambiente e dados estão publicamente disponíveis em https://osworld-mcp.github.io.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na compreensão visual, eles frequentemente têm dificuldades em cenários complexos que exigem planejamento visual e imaginação. Inspirados pela forma como os humanos usam o esboço como uma forma de pensamento visual para desenvolver e comunicar ideias, apresentamos o Latent Sketchpad, uma estrutura que equipa os MLLMs com um bloco de rascunho visual interno. As representações visuais internas dos MLLMs foram tradicionalmente confinadas à compreensão perceptual. Nós as redirecionamos para suportar o pensamento visual generativo sem comprometer a capacidade de raciocínio. Construindo sobre MLLMs de fronteira, nossa abordagem integra a geração visual diretamente em seu processo de raciocínio autoregressivo nativo. Isso permite que o modelo intercale o raciocínio textual com a geração de latentes visuais. Esses latentes orientam o processo de pensamento interno e podem ser traduzidos em imagens de esboço para interpretabilidade. Para concretizar isso, introduzimos dois componentes: um Cabeçalho Visual Consciente do Contexto, que produz representações visuais de forma autoregressiva, e um Decodificador de Esboços pré-treinado, que as converte em imagens interpretáveis por humanos. Avaliamos a estrutura em nosso novo conjunto de dados MazePlanning. Experimentos com vários MLLMs mostram que o Latent Sketchpad oferece um desempenho de raciocínio comparável ou mesmo superior ao de seus modelos base. Ele ainda generaliza-se através de distintos MLLMs de fronteira, incluindo Gemma3 e Qwen2.5-VL. Ao estender o raciocínio textual do modelo para o pensamento visual, nossa estrutura abre novas oportunidades para uma interação humano-computador mais rica e aplicações mais amplas. Mais detalhes e recursos estão disponíveis em nossa página do projeto: https://latent-sketchpad.github.io/.
Os grandes modelos de linguagem (LLMs) permitiram recentemente o desenvolvimento de agentes de codificação capazes de gerar, executar e revisar código de visualização. No entanto, os modelos existes frequentemente falham em fluxos de trabalho práticos devido à cobertura linguística limitada, execução não confiável e falta de mecanismos de correção iterativa. O progresso tem sido limitado por conjuntos de dados e benchmarks restritos que enfatizam a geração em rodada única e tarefas em linguagem única. Para enfrentar esses desafios, introduzimos três recursos complementares para avançar os agentes de codificação de visualização. VisCode-Multi-679K é um conjunto de dados supervisionado em larga escala contendo 679 mil amostras de visualização validadas e executáveis, com diálogos de correção multirrodada em 12 linguagens de programação. VisPlotBench é um benchmark para avaliação sistemática, apresentando tarefas executáveis, resultados renderizados e protocolos para geração inicial e autodepuração multirrodada. Finalmente, apresentamos VisCoder2, uma família de modelos de visualização multilíngue treinados no VisCode-Multi-679K. Experimentos mostram que o VisCoder2 supera significativamente bases de código aberto robustas e aproxima-se do desempenho de modelos proprietários como o GPT-4.1, com ganhos adicionais provenientes da autodepuração iterativa, atingindo uma taxa geral de aprovação na execução de 82,4% na escala de 32B, particularmente em linguagens simbólicas ou dependentes de compilador.
Treinar modelos de linguagem de crítica para avaliar e fornecer feedback sobre as saídas de modelos é uma forma promissora de melhorar os LLMs para tarefas de raciocínio complexo. No entanto, as abordagens existentes geralmente dependem de supervisores mais fortes para anotar dados de crítica. Para resolver isso, propomos o Critique-RL, uma abordagem de RL online para desenvolver modelos de linguagem de crítica sem supervisão mais forte. Nossa abordagem opera em um paradigma de dois jogadores: o ator gera uma resposta, o crítico fornece feedback e o ator refina a resposta de acordo. Primeiro, revelamos que depender apenas de sinais de recompensa indiretos das saídas do ator para otimização de RL frequentemente leva a críticos insatisfatórios: embora sua utilidade (ou seja, fornecer feedback construtivo) melhore, a discriminabilidade (ou seja, determinar se uma resposta é de alta qualidade ou não) permanece baixa, resultando em ganhos de desempenho marginais. Para superar isso, o Critique-RL adota uma estratégia de otimização em dois estágios. No estágio I, ele reforça a discriminabilidade do crítico com sinais de recompensa diretos baseados em regras; no estágio II, introduz recompensas indiretas baseadas no refinamento do ator para melhorar a utilidade do crítico, mantendo sua discriminabilidade por meio de uma regularização apropriada. Experimentos extensos em várias tarefas e modelos mostram que o Critique-RL proporciona melhorias substanciais de desempenho. Por exemplo, ele alcança um ganho de 9,02% em tarefas dentro do domínio e um ganho de 5,70% em tarefas fora do domínio para o Qwen2.5-7B, destacando seu potencial.
O pensamento paralelo expande a amplitude de exploração, complementando a exploração profunda de agentes de busca de informação (IS) para aprimorar ainda mais a capacidade de resolução de problemas. No entanto, o pensamento paralelo convencional enfrenta dois desafios principais nesse contexto: a ineficiência decorrente da repetida execução a partir do zero e a dificuldade de integrar trajetórias de raciocínio de longo horizonte durante a geração de respostas, uma vez que a capacidade limitada de contexto impede a consideração completa do processo de raciocínio. Para resolver essas questões, propomos o ParallelMuse, um paradigma de dois estágios projetado para agentes IS profundos. O primeiro estágio, *Functionality-Specified Partial Rollout* (Rollout Parcial com Funcionalidade Especificada), particiona sequências geradas em regiões funcionais e realiza reutilização e ramificação de caminhos guiadas por incerteza para aumentar a eficiência da exploração. O segundo estágio, *Compressed Reasoning Aggregation* (Agregação de Raciocínio Comprimido), explora a redundância do raciocínio para comprimir sem perdas as informações relevantes para a derivação da resposta e sintetizar uma resposta final coerente. Experimentos realizados com múltiplos agentes de código aberto e benchmarks demonstram uma melhoria de desempenho de até 62% com uma redução de 10 a 30% no consumo de tokens exploratórios.
Os agentes baseados em Modelos de Linguagem de Grande Escala (LLM) emergiram como uma abordagem transformadora para a resolução de problemas abertos, sendo a busca de informação (BI) uma capacidade central que permite o raciocínio autónomo e a tomada de decisões. Embora a investigação prévia se tenha focado maioritariamente em melhorar a profundidade de recuperação, observamos que os atuais agentes de BI sofrem frequentemente de baixa eficiência de pesquisa, o que, por sua vez, restringe o desempenho global. Um fator chave subjacente a esta ineficiência é a esparsidade de entidades-alvo nas tarefas de treino, o que limita as oportunidades para os agentes aprenderem e generalizarem comportamentos de pesquisa eficientes. Para enfrentar estes desafios, propomos o WebLeaper, um quadro para a construção de tarefas de BI de alta cobertura e para a geração de trajetórias de solução eficientes. Formula-mos a BI como um problema de raciocínio com estrutura arbórea, permitindo que um conjunto substancialmente maior de entidades-alvo seja incorporado num contexto restrito. Aproveitando tabelas da Wikipédia curadas, propomos três variantes para sintetizar tarefas de BI — Básica, União e União Reversa — para aumentar sistematicamente tanto a eficiência como a eficácia da BI. Por fim, curamos trajetórias de treino, retendo apenas aquelas que são simultaneamente precisas e eficientes, garantindo que o modelo é otimizado tanto para a correção como para o desempenho de pesquisa. Experiências extensivas em configurações básicas e abrangentes, realizadas em cinco benchmarks de BI — BrowserComp, GAIA, xbench-DeepSearch, WideSearch e Seal-0 — demonstram que o nosso método alcança consistentemente melhorias tanto na eficácia como na eficiência em comparação com linhas de base robustas.
A pesquisa sobre leis de escalonamento tem se concentrado massivamente no inglês — ainda que os modelos de IA mais proeminentes atendam explicitamente a bilhões de usuários internacionais. Neste trabalho, realizamos o maior estudo de leis de escalonamento multilíngue já feito, totalizando 774 experimentos de treinamento multilíngue, abrangendo modelos de 10M a 8B de parâmetros, mais de 400 idiomas de treinamento e 48 idiomas de avaliação. Introduzimos a Lei de Escalonamento por Transferência Adaptativa (ATLAS) para pré-treinamento monolíngue e multilíngue, que supera a generalização fora da amostra das leis de escalonamento existentes frequentemente em mais de 0,3 R². Nossas análises dos experimentos lançam luz sobre a dinâmica de aprendizado multilíngue, as propriedades de transferência entre idiomas e a maldição da multilinguidade. Primeiro, derivamos uma matriz de transferência cross-lingual, medindo empiricamente os escores de benefício mútuo entre 38 x 38 = 1444 pares de idiomas. Segundo, derivamos uma lei de escalonamento independente de idioma que revela como escalar de forma ideal o tamanho do modelo e os dados ao adicionar idiomas sem sacrificar o desempenho. Terceiro, identificamos os pontos de crossover computacionais para quando é melhor pré-treinar do zero versus ajustar a partir de checkpoints multilíngues. Esperamos que essas descobertas forneçam a base científica para democratizar as leis de escalonamento entre idiomas e permitam que os profissionais escalem modelos com eficiência — para além de uma IA centrada no inglês.
A Mistura de Especialistas (MoE) emergiu como um paradigma poderoso para escalar a capacidade do modelo, preservando a eficiência computacional. Apesar do seu notável sucesso em grandes modelos de linguagem (LLMs), as tentativas existentes de aplicar MoE a Transformadores de Difusão (DiTs) têm produzido ganhos limitados. Atribuímos esta lacuna a diferenças fundamentais entre tokens linguísticos e visuais. Os tokens linguísticos são semanticamente densos, com variação pronunciada entre tokens, enquanto os tokens visuais exibem redundância espacial e heterogeneidade funcional, dificultando a especialização de especialistas em MoE visual. Para tal, apresentamos o ProMoE, uma estrutura MoE que apresenta um roteador de duas etapas com orientação de roteamento explícita que promove a especialização de especialistas. Especificamente, esta orientação incentiva o roteador a particionar os tokens de imagem em conjuntos condicionais e incondicionais via *routing* condicional de acordo com as suas funções, e a refinar as atribuições dos tokens de imagem condicionais através de *routing* prototípico com protótipos treináveis baseados no conteúdo semântico. Além disso, a alocação de especialistas baseada em similaridade no espaço latente, possibilitada pelo *routing* prototípico, oferece um mecanismo natural para incorporar orientação semântica explícita, e validamos que tal orientação é crucial para MoE visual. Com base nisto, propomos uma perda de contraste de roteamento que melhora explicitamente o processo de *routing* prototípico, promovendo coerência intra-especialista e diversidade inter-especialista. Extensos experimentos no *benchmark* ImageNet demonstram que o ProMoE supera os métodos mais avançados sob os objetivos de treino de Fluxo Retificado e DDPM. O código e os modelos serão disponibilizados publicamente.
Apesar do rápido progresso nos Modelos de Linguagem Grande Multimodais e nos Modelos Grande Áudio-Linguagem, os benchmarks de áudio existentes testam principalmente semântica que pode ser recuperada a partir de legendas de texto, mascarando deficiências no raciocínio perceptual de granularidade fina. Nós formalizamos a inteligência 4D de áudio, definida como o raciocínio sobre a dinâmica do som no tempo e no espaço 3D, e introduzimos o STAR-Bench para medi-la. O STAR-Bench combina uma configuração de Percepção Acústica Fundamental (seis atributos sob regimes absoluto e relativo) com uma configuração de Raciocínio Espaço-Temporal Holístico que inclui reordenação de segmentos para processos contínuos e discretos e tarefas espaciais abrangendo localização estática, relações multi-fonte e trajetórias dinâmicas. Nosso pipeline de curadoria de dados usa dois métodos para garantir amostras de alta qualidade. Para tarefas fundamentais, usamos áudio sintetizado proceduralmente e simulado por física. Para dados holísticos, seguimos um processo de quatro estágios que inclui anotação humana e seleção final baseada no desempenho humano. Diferente de benchmarks anteriores, onde responder apenas com legendas reduz ligeiramente a precisão, o STAR-Bench induz quedas muito maiores (-31,5% temporal, -35,2% espacial), evidenciando seu foco em pistas linguisticamente difíceis de descrever. A avaliação de 19 modelos revela lacunas substanciais em comparação com humanos e uma hierarquia de capacidades: modelos de código fechado têm como gargalo a percepção de granularidade fina, enquanto modelos de código aberto ficam para trás em percepção, conhecimento e raciocínio. Nosso STAR-Bench fornece insights críticos e um caminho claro para o desenvolvimento de modelos futuros com uma compreensão mais robusta do mundo físico.
Até o momento, existem quase nenhuns benchmarks de avaliação culturalmente específicos para modelos de linguagem de grande escala (LLMs) que cubram um grande número de línguas e culturas. Neste artigo, apresentamos o Global PIQA, um benchmark participativo de raciocínio de senso comum para mais de 100 línguas, construído manualmente por 335 investigadores de 65 países em todo o mundo. As 116 variedades linguísticas no Global PIQA abrangem cinco continentes, 14 famílias linguísticas e 23 sistemas de escrita. Na divisão não paralela do Global PIQA, mais de 50% dos exemplos referenciam comidas locais, costumes, tradições ou outros elementos culturalmente específicos. Constatamos que os LLMs de última geração têm um bom desempenho no Global PIQA no agregado, mas exibem um desempenho mais fraco em línguas com menos recursos (até uma diferença de precisão de 37%, apesar da probabilidade aleatória ser de 50%). Os modelos abertos geralmente têm pior desempenho do que os modelos proprietários. O Global PIQA destaca que, em muitas línguas e culturas, o conhecimento quotidiano permanece uma área para melhoria, juntamente com capacidades mais amplamente discutidas, como o raciocínio complexo e o conhecimento especializado. Para além dos seus usos na avaliação de LLMs, esperamos que o Global PIQA forneça um vislumbre da vasta diversidade de culturas nas quais a linguagem humana está inserida.
Sistemas de autoaperfeiçoamento requerem interação com o ambiente para uma adaptação contínua. Apresentamos o SPICE (Self-Play In Corpus Environments), um arcabouço de aprendizado por reforço no qual um único modelo atua em dois papéis: um Desafiador, que minera documentos de um grande corpus para gerar tarefas de raciocínio diversificadas, e um Raciocinador, que as resolve. Por meio de dinâmicas adversariais, o Desafiador cria um currículo automático na fronteira da capacidade do Raciocinador, enquanto o ancoramento no corpus fornece o sinal externo rico e praticamente inesgotável necessário para uma melhoria sustentada. Diferentemente dos métodos existentes de autojogo não ancorados, que oferecem benefícios mais limitados, o SPICE alcança ganhos consistentes em benchmarks de raciocínio matemático (+8,9%) e de raciocínio geral (+9,8%) em múltiplas famílias de modelos. Nossa análise revela como o ancoramento documental é um ingrediente fundamental no SPICE para gerar continuamente seus próprios objetivos cada vez mais desafiadores e alcançá-los, permitindo um autoaperfeiçoamento sustentado.
O aprendizado por reforço com recompensas verificáveis (RLVR) tem proporcionado ganhos impressionantes no raciocínio matemático e multimodal, tornando-se um paradigma padrão de pós-treinamento para modelos contemporâneos de linguagem e visão-linguagem. No entanto, a abordagem RLVR introduz um risco significativo de regressão de capacidades, em que os modelos esquecem habilidades fundamentais após treinamento prolongado sem a utilização de estratégias de regularização. Confirmamos empiricamente essa preocupação, observando que modelos de raciocínio de código aberto sofrem degradação de desempenho em capacidades centrais, como percepção e fidedignidade. Embora a imposição de termos de regularização, como a divergência KL, possa ajudar a prevenir o desvio do modelo base, esses termos são calculados na tarefa atual, portanto não garantem a preservação do conhecimento mais amplo. Entretanto, a prática comum de replay de experiência em domínios heterogêneos torna não trivial decidir quanto foco de treinamento cada objetivo deve receber. Para resolver isso, propomos o RECAP - uma estratégia de replay com rebalanceamento dinâmico de objetivos para preservação do conhecimento geral. Nosso mecanismo de rebalanceamento adapta-se de forma online usando sinais de convergência e instabilidade de curto prazo, deslocando o foco do pós-treinamento de objetivos saturados para aqueles com desempenho insuficiente ou voláteis. Nosso método é end-to-end e prontamente aplicável a pipelines RLVR existentes sem a necessidade de treinar modelos adicionais ou ajustes complexos. Experimentos extensivos em benchmarks baseados no Qwen2.5-VL-3B e Qwen2.5-VL-7B demonstram a eficácia do nosso método, que não apenas preserva capacidades gerais, mas também melhora o raciocínio ao permitir trade-offs mais flexíveis entre recompensas intrínsecas à tarefa.
A visualização, uma forma de imagética específica de domínio mas amplamente utilizada, é um método eficaz para transformar conjuntos de dados complexos em insights intuitivos, e seu valor depende da representação fiel dos dados, da comunicação clara e do design estético. No entanto, avaliar a qualidade da visualização é desafiador: diferentemente das imagens naturais, exige julgamento simultâneo em precisão de codificação de dados, expressividade informacional e estética visual. Embora os modelos multimodais de linguagem de grande escala (MLLMs) tenham demonstrado desempenho promissor na avaliação estética de imagens naturais, não existe um benchmark sistemático para medir suas capacidades na avaliação de visualizações. Para resolver isso, propomos o VisJudge-Bench, o primeiro benchmark abrangente para avaliar o desempenho de MLLMs na análise da estética e qualidade de visualizações. Ele contém 3.090 amostras anotadas por especialistas de cenários do mundo real, abrangendo visualizações únicas, múltiplas visualizações e painéis em 32 tipos de gráficos. Testes sistemáticos neste benchmark revelam que mesmo os MLLMs mais avançados (como o GPT-5) ainda exibem lacunas significativas em comparação com especialistas humanos no julgamento, com um Erro Absoluto Médio (MAE) de 0,551 e uma correlação com as avaliações humanas de apenas 0,429. Para resolver esta questão, propomos o VisJudge, um modelo especificamente projetado para avaliação de estética e qualidade de visualização. Resultados experimentais demonstram que o VisJudge reduz significativamente a lacuna com o julgamento humano, diminuindo o MAE para 0,442 (uma redução de 19,8%) e aumentando a consistência com especialistas humanos para 0,681 (uma melhoria de 58,7%) em comparação com o GPT-5. O benchmark está disponível em https://github.com/HKUSTDial/VisJudgeBench.
A geração de imagens a partir de texto (T2I) de ultra-alta resolução (UHR) tem registado progressos notáveis. No entanto, dois desafios principais persistem: 1) a ausência de um conjunto de dados T2I UHR em larga escala e de alta qualidade, e 2) a negligência de estratégias de treino personalizadas para a síntese de detalhes de granularidade fina em cenários UHR. Para enfrentar o primeiro desafio, introduzimos o UltraHR-100K, um conjunto de dados de alta qualidade com 100 mil imagens UHR acompanhadas de legendas ricas, oferecendo conteúdo diversificado e forte fidelidade visual. Cada imagem excede a resolução de 3K e é rigorosamente selecionada com base na riqueza de detalhes, complexidade do conteúdo e qualidade estética. Para enfrentar o segundo desafio, propomos um método de pós-treinamento consciente da frequência que melhora a geração de detalhes finos em modelos de difusão T2I. Especificamente, concebemos (i) a Amostragem de *Timestep* Orientada a Detalhes (DOTS) para concentrar a aprendizagem nas etapas de desruído críticas para os detalhes, e (ii) a Regularização de Frequência com Ponderação Suave (SWFR), que aproveita a Transformada Discreta de Fourier (TDF) para restringir suavemente os componentes de frequência, incentivando a preservação de detalhes de alta frequência. Experiências extensivas nos nossos benchmarks propostos, UltraHR-eval4K, demonstram que a nossa abordagem melhora significativamente a qualidade dos detalhes de granularidade fina e a fidelidade global da geração de imagens UHR. O código está disponível em https://github.com/NJU-PCALab/UltraHR-100k.
A chamada de funções (CF) capacita grandes modelos de linguagem (LLMs) e agentes autónomos para interagir com ferramentas externas, uma capacidade crítica para resolver problemas complexos do mundo real. À medida que esta capacidade se torna cada vez mais central para sistemas de IA avançados, a necessidade de dados de treino de alta qualidade e multi-turn (várias interações) para a desenvolver e aperfeiçoar não pode ser exagerada. Os métodos existentes de síntese de dados, como amostragem aleatória de ambientes ou role-playing multi-agente, não são suficientemente poderosos para gerar dados de alta qualidade em ambientes do mundo real. Os desafios práticos apresentam-se em três vertentes: treino de modelos direcionado, isolamento da arquitetura de ferramentas e dependência lógica multi-turn. Para colmatar estas deficiências estruturais, apresentamos o FunReason-MT, um novo quadro de síntese de dados para o uso multi-turn de ferramentas no mundo real. O FunReason-MT resolve a barreira de complexidade nos dados de CF multi-turn empregando 1) Interações de Grafos Ambiente-API para recolher trajetórias variadas e de alta qualidade, 2) Síntese Avançada de Consultas-Ferramenta para simplificar a construção de consultas complexas, e 3) uma Cadeia Iterativa Guiada para a geração sofisticada de CoT (Cadeia de Pensamento). As avaliações no Berkeley Function-Calling Leaderboard (BFCLv3) demonstram o poder do nosso quadro: um modelo de 4B construído com base nos dados gerados pelo FunReason-MT alcança um desempenho state-of-the-art entre modelos de tamanho comparável, superando a maioria dos modelos closed-source. Melhorias adicionais de desempenho no BFCLv4 confirmam que o FunReason-MT fornece uma fonte fiável e robusta para a aprendizagem agentiva.
O raciocínio de cadeia de pensamento (CoT) é fundamental para melhorar a interpretabilidade e a confiabilidade dos Grandes Modelos de Visão e Linguagem (LVLMs). No entanto, os algoritmos de treinamento existentes, como SFT, PPO e GRPO, podem não generalizar bem em tarefas de raciocínio não vistas e dependem fortemente de um modelo de recompensa tendencioso. Para enfrentar este desafio, reformulamos o raciocínio em LVLMs como inferência posterior e propomos um algoritmo de treinamento escalável baseado em inferência variacional amortizada. Ao aproveitar algoritmos de aprendizagem por reforço que buscam diversidade, introduzimos uma nova função de recompensa esparsa para sinais de aprendizagem a nível de token que incentivam CoT latente diversificado e de alta probabilidade, superando as limitações da amostragem determinística e evitando a manipulação de recompensas. Adicionalmente, implementamos uma estratégia de escalonamento de inferência bayesiana que substitui os custosos Best-of-N e Busca em Feixe por uma verossimilhança marginal para classificar eficientemente as racionalidades e respostas ótimas. Demonstramos empiricamente que o método proposto melhora os LVLMs de última geração em sete benchmarks de raciocínio, em termos de eficácia, generalização e interpretabilidade.
À medida que os Grandes Modelos de Visão e Linguagem (LVLMs) são cada vez mais implantados em domínios como compras, saúde e notícias, eles são expostos a conteúdos persuasivos pervasivos. Uma questão crítica é como esses modelos funcionam como persuadidos – como e por que podem ser influenciados por entradas multimodais persuasivas. Compreender tanto a sua suscetibilidade à persuasão quanto a eficácia de diferentes estratégias persuasivas é crucial, uma vez que modelos excessivamente persuadíveis podem adotar crenças enganosas, sobrepor-se às preferências do utilizador ou gerar resultados antiéticos ou inseguros quando expostos a mensagens manipulativas. Apresentamos o MMPersuade, uma estrutura unificada para estudar sistematicamente a dinâmica da persuasão multimodal em LVLMs. O MMPersuade contribui com (i) um conjunto de dados multimodal abrangente que emparelha imagens e vídeos com princípios de persuasão estabelecidos em contextos comerciais, subjetivos e comportamentais, e adversariais, e (ii) uma estrutura de avaliação que quantifica tanto a eficácia da persuasão quanto a suscetibilidade do modelo através de pontuação de concordância de terceiros e probabilidades de tokens autoestimadas em históricos de conversação. O nosso estudo de seis LVLMs líderes como persuadidos produz três conclusões principais: (i) entradas multimodais aumentam substancialmente a eficácia da persuasão – e a suscetibilidade do modelo – em comparação com apenas texto, especialmente em cenários de desinformação; (ii) preferências prévias declaradas diminuem a suscetibilidade, contudo a informação multimodal mantém a sua vantagem persuasiva; e (iii) diferentes estratégias variam em eficácia entre contextos, sendo a reciprocidade mais potente em contextos comerciais e subjetivos, e a credibilidade e a lógica prevalecendo em contextos adversariais. Ao analisar conjuntamente a eficácia da persuasão e a suscetibilidade, o MMPersuade fornece uma base fundamentada para desenvolver modelos que sejam robustos, consistentes com as preferências e alinhados eticamente ao interagir com conteúdos multimodais persuasivos.
Compreender objetos ao nível das suas partes constituintes é fundamental para o avanço da visão computacional, gráficos e robótica. Embora conjuntos de dados como o PartNet tenham impulsionado o progresso na compreensão de partes 3D, a sua dependência de geometrias sem textura e de anotação dependente de especialistas limita a escalabilidade e a usabilidade. Apresentamos o PartNeXt, um conjunto de dados de próxima geração que aborda estas lacunas com mais de 23.000 modelos 3D texturizados de alta qualidade, anotados com etiquetas de partes hierárquicas e de granularidade fina em 50 categorias. Avaliámos o PartNeXt em duas tarefas: (1) segmentação de partes agnóstica à classe, onde os métodos mais avançados (por exemplo, PartField, SAMPart3D) têm dificuldades com partes de granularidade fina e partes folha, e (2) resposta a perguntas centradas em partes 3D, um novo benchmark para LLMs 3D que revela lacunas significativas na fundamentação de vocabulário aberto de partes. Adicionalmente, o treino do Point-SAM no PartNeXt produz ganhos substanciais em relação ao PartNet, sublinhando a qualidade e diversidade superiores do conjunto de dados. Ao combinar anotação escalável, etiquetas conscientes de textura e avaliação multitarefa, o PartNeXt abre novas vias de investigação para a compreensão estruturada de objetos 3D.
Os grandes modelos de linguagem (LLMs) demonstraram que o pré-treinamento em larga escala permite que os sistemas se adaptem rapidamente a novos problemas com pouca supervisão no domínio da linguagem. Esse sucesso, no entanto, não se traduziu de forma tão eficaz para o domínio visual, onde os modelos, incluindo LLMs, continuam a enfrentar dificuldades com compreensão composicional, eficiência amostral e resolução de problemas de propósito geral. Investigamos os Modelos de Difusão de Vídeo (VDMs) como uma direção promissora para preencher essa lacuna. O pré-treinamento em dados espaço-temporais dota esses modelos com fortes vieses indutivos para estrutura e dinâmica, o que hipotetizamos pode suportar uma ampla adaptabilidade a tarefas. Para testar isso, projetamos uma avaliação controlada na qual tanto um LLM pré-treinado quanto um VDM pré-treinado são equipados com adaptadores leves e apresentados a tarefas em suas modalidades naturais. Em benchmarks incluindo ARC-AGI, ConceptARC, jogos visuais, planejamento de rotas e autômatos celulares, os VDMs demonstram maior eficiência de dados do que suas contrapartes de linguagem. Em conjunto, nossos resultados indicam que o pré-treinamento em vídeo oferece vieses indutivos que apoiam o progresso em direção a modelos de fundação visual.
Os modelos generativos têm feito progressos significativos na síntese de áudio de alta fidelidade a partir de breves descrições textuais. No entanto, a edição de áudio existente usando linguagem natural permanece amplamente inexplorada. As abordagens atuais ou exigem a descrição completa do áudio editado ou estão limitadas a instruções de edição predefinidas que carecem de flexibilidade. Neste trabalho, apresentamos o SAO-Instruct, um modelo baseado no Stable Audio Open capaz de editar clipes de áudio usando qualquer instrução em linguagem natural de forma livre. Para treinar nosso modelo, criamos um conjunto de dados de triplas de edição de áudio (áudio de entrada, instrução de edição, áudio de saída) usando Prompt-to-Prompt, inversão DDPM e um pipeline de edição manual. Embora parcialmente treinado com dados sintéticos, nosso modelo generaliza bem para clipes de áudio reais do mundo real e instruções de edição não vistas. Demonstramos que o SAO-Instruct alcança desempenho competitivo em métricas objetivas e supera outras abordagens de edição de áudio em um estudo de escuta subjetiva. Para incentivar pesquisas futuras, disponibilizamos nosso código e os pesos do modelo.
No atual cenário de rápida expansão de dados, a extração de conhecimento a partir de textos não estruturados é vital para análises em tempo real, inferência temporal e estruturas de memória dinâmica. No entanto, a construção tradicional de grafos de conhecimento (KG) estáticos frequentemente ignora a natureza dinâmica e sensível ao tempo dos dados do mundo real, limitando a adaptabilidade a mudanças contínuas. Além disso, abordagens recentes *zero-shot* ou *few-shot* que evitam ajuste fino específico de domínio ou dependência de ontologias pré-construídas frequentemente sofrem com instabilidade em múltiplas execuções, bem como cobertura incompleta de fatos-chave. Para enfrentar esses desafios, apresentamos o ATOM (AdapTive and OptiMized), uma abordagem *few-shot* e escalável que constrói e atualiza continuamente Grafos de Conhecimento Temporais (TKGs) a partir de textos não estruturados. O ATOM divide documentos de entrada em fatos mínimos e autônomos ("atômicos"), melhorando a exaustividade e a estabilidade da extração. Em seguida, constrói TKGs atômicos a partir desses fatos, empregando uma modelagem de tempo dual que distingue quando a informação é observada de quando ela é válida. Os TKGs atômicos resultantes são subsequentemente fundidos em paralelo. Avaliações empíricas demonstram que o ATOM alcança aproximadamente 18% maior exaustividade, cerca de 17% melhor estabilidade e redução de latência superior a 90% em comparação com métodos de referência, demonstrando um forte potencial de escalabilidade para a construção dinâmica de TKGs.
Os agentes de IA de fronteira demonstram potencial crescente como assistentes de pesquisa científica, podendo eventualmente ser úteis para fluxos de trabalho de pesquisa estendidos e abertos. No entanto, para utilizar agentes em pesquisas inovadoras, devemos primeiro avaliar a fidelidade e a correção subjacentes de seu trabalho. Para avaliar agentes como assistentes de pesquisa, apresentamos o ReplicationBench, uma estrutura de avaliação que testa se os agentes conseguem replicar artigos de pesquisa inteiros extraídos da literatura da astrofísica. A astrofísica, onde a pesquisa depende fortemente de dados de arquivo e estudos computacionais, exigindo pouca experimentação no mundo real, é um campo de teste particularmente útil para agentes de IA na pesquisa científica. Dividimos cada artigo em tarefas que exigem que os agentes repliquem as contribuições centrais do artigo, incluindo a configuração experimental, derivações, análise de dados e base de código. Cada tarefa é codesenvolvida com os autores originais do artigo e visa um resultado científico chave, permitindo a avaliação objetiva tanto da fidelidade (adesão aos métodos originais) quanto da correção (precisão técnica dos resultados). O ReplicationBench é extremamente desafiador para os atuais modelos de linguagem de fronteira: mesmo os modelos de linguagem com melhor desempenho pontuam abaixo de 20%. Analisamos as trajetórias do ReplicationBench em colaboração com especialistas do domínio e encontramos um conjunto rico e diversificado de modos de falha para agentes na pesquisa científica. O ReplicationBench estabelece o primeiro benchmark de tarefas de pesquisa em astrofísica em escala de artigo, validadas por especialistas, revela insights sobre o desempenho de agentes generalizáveis para outros domínios da ciência orientada por dados e fornece uma estrutura escalável para medir a confiabilidade de agentes de IA na pesquisa científica.
Os Grandes Modelos de Linguagem (LLMs) exibem uma dualidade preocupante, sendo capazes tanto de generalização notável quanto de memorização literal e frágil dos seus dados de treinamento. Esta imprevisibilidade compromete a sua confiabilidade em aplicações de alto risco. Neste trabalho, propomos um quadro unificado para compreender, identificar e controlar estes modos distintos de raciocínio. Primeiro, introduzimos um modelo teórico baseado no princípio do *Information Bottleneck* (IB), formalizando a generalização como a aprendizagem de uma representação comprimida e relevante para a tarefa, e a memorização como uma falha em comprimir. Com base nesta teoria, desenvolvemos o *Dynamic Mode Steering* (DMS), um algoritmo novo aplicado no momento da inferência que compreende dois componentes: (1) uma sonda linear leve e causalmente fundamentada que identifica a dependência instantânea do modelo na memorização, e (2) um mecanismo de orientação dinâmica de ativações que direciona a computação do modelo para circuitos de generalização pré-identificados. Enquadramos o DMS como uma forma de decodagem adaptativa e autocontrastiva. Experiências em tarefas de raciocínio e fidedignidade demonstram que o DMS melhora significativamente a consistência lógica e a precisão factual, oferecendo assim uma abordagem fundamentada para aumentar a confiabilidade dos LLMs.
O alinhamento das representações visão-linguagem confere aos atuais Modelos de Visão-Linguagem (VLMs) fortes capacidades de raciocínio multimodal. No entanto, a interpretabilidade do componente de alinhamento permanece inexplorada devido à dificuldade de mapear a semântica das representações multimodais para um conjunto unificado de conceitos. Para resolver este problema, propomos o VL-SAE, um autoencoder esparso que codifica as representações visão-linguagem nas suas ativações ocultas. Cada neurônio na sua camada oculta correlaciona-se com um conceito representado por imagens e textos semanticamente semelhantes, interpretando assim estas representações com um conjunto unificado de conceitos. Para estabelecer a correlação neurônio-conceito, incentivamos que representações semanticamente semelhantes exibam ativações neuronais consistentes durante o treino auto supervisionado. Primeiro, para medir a similaridade semântica das representações multimodais, realizamos o seu alinhamento de forma explícita com base na similaridade de cosseno. Segundo, construímos o VL-SAE com um codificador baseado em distância e dois descodificadores específicos por modalidade para garantir a consistência de ativação de representações semanticamente semelhantes. Experiências com vários VLMs (por exemplo, CLIP, LLaVA) demonstram a capacidade superior do VL-SAE em interpretar e melhorar o alinhamento visão-linguagem. Para interpretação, o alinhamento entre as representações visão e linguagem pode ser compreendido comparando as suas semânticas com conceitos. Para melhoria, o alinhamento pode ser fortalecido alinhando as representações visão-linguagem ao nível conceptual, contribuindo para melhorias de desempenho em tarefas downstream, incluindo classificação de imagens *zero-shot* e eliminação de alucinações. Os códigos estão disponíveis em https://github.com/ssfgunner/VL-SAE.
O raciocínio fidedigno em modelos visiolinguísticos (VLMs) médicos exige não apenas previsões precisas, mas também um alinhamento transparente entre as justificativas textuais e as evidências visuais. Embora o *prompting* de Cadeia de Pensamento (CoT) tenha mostrado potencial na resposta a perguntas visuais (VQA) médicas, nenhum conjunto de dados em larga escala e de nível especialista capturou o raciocínio passo a passo com fundamentação visual precisa. Apresentamos o S-Chain, o primeiro conjunto de dados em larga escala com 12.000 imagens médicas anotadas por especialistas, contendo caixas delimitadoras e uma CoT Visual Estruturada (SV-CoT), que liga explicitamente regiões visuais a etapas de raciocínio. O conjunto de dados suporta ainda 16 idiomas, totalizando mais de 700 mil pares VQA para uma ampla aplicabilidade multilingue. Utilizando o S-Chain, avaliamos VLMs médicos state-of-the-art (ExGra-Med, LLaVA-Med) e VLMs de propósito geral (Qwen2.5-VL, InternVL2.5), demonstrando que a supervisão com SV-CoT melhora significativamente a interpretabilidade, a fidelidade da fundamentação e a robustez. Para além da avaliação comparativa, estudamos a sua sinergia com a geração aumentada por recuperação de informação, revelando como o conhecimento de domínio e a fundamentação visual interagem durante o raciocínio autoregressivo. Por fim, propomos um novo mecanismo que reforça o alinhamento entre a evidência visual e o raciocínio, melhorando tanto a confiabilidade como a eficiência. O S-Chain estabelece um novo referencial para o raciocínio médico fundamentado e abre caminho para VLMs médicos mais confiáveis e explicáveis.
A otimização topológica (OT) é fundamental para o projeto de engenharia, mas permanece computacionalmente intensiva devido à física complexa e a restrições rígidas. Os métodos existentes de aprendizagem profunda estão limitados a malhas quadradas fixas, algumas condições de contorno codificadas manualmente e otimização a posteriori, impedindo uma implantação generalizada. Apresentamos o Optimize Any Topology (OAT), uma arquitetura de modelo de base que prevê diretamente layouts de compliância mínima para relações de aspecto, resoluções, frações de volume, cargas e fixações arbitrárias. O OAT combina um autoencoder agnóstico à resolução e à forma com um decodificador de campo neural implícito e um modelo de difusão latente condicional treinado no OpenTO, um novo corpus de 2,2 milhões de estruturas otimizadas abrangendo 2 milhões de configurações únicas de condições de contorno. Em quatro benchmarks públicos e dois testes desafiadores não vistos, o OAT reduz a compliância média em até 90% em relação aos melhores modelos anteriores e fornece inferência em menos de 1 segundo em uma única GPU, para resoluções de 64 x 64 a 256 x 256 e relações de aspecto de até 10:1. Esses resultados estabelecem o OAT como uma arquitetura geral, rápida e livre de resolução para otimização topológica com consciência física e fornecem um conjunto de dados em larga escala para estimular mais pesquisas em modelagem generativa para projeto inverso. Código e dados podem ser encontrados em https://github.com/ahnobari/OptimizeAnyTopology.
Recentemente, a aprendizagem por reforço baseada em GRPO (Guided Reward Policy Optimization) tem demonstrado progressos notáveis na otimização de modelos de correspondência de fluxo (flow-matching), melhorando eficazmente o seu alinhamento com recompensas específicas da tarefa. Nestas arquiteturas, a atualização da política depende do corte (clipping) da razão de importância para restringir gradientes positivos e negativos excessivamente confiantes. No entanto, na prática, observa-se uma mudança sistemática na distribuição da razão de importância: a sua média fica abaixo de 1 e a sua variância difere substancialmente ao longo dos passos de tempo. Esta distribuição deslocada para a esquerda e inconsistente impede que amostras com vantagem positiva entrem na região de corte, fazendo com que o mecanismo falhe em restringir atualizações positivas excessivamente confiantes. Como resultado, o modelo de política entra inevitavelmente numa fase de sobre-otimização implícita: enquanto a recompensa proxy continua a aumentar, métricas essenciais, como a qualidade da imagem e o alinhamento com o prompt de texto, deterioram-se acentuadamente, tornando a política aprendida impraticável para uso real. Para resolver este problema, introduzimos o GRPO-Guard, uma melhoria simples mas eficaz para as arquiteturas GRPO existentes. O nosso método incorpora uma normalização da razão, que restaura uma razão de importância equilibrada e consistente entre os passos, garantindo que o corte do PPO restringe adequadamente as atualizações prejudiciais ao longo dos passos de desruído. Adicionalmente, uma estratégia de reponderação do gradiente equaliza os gradientes da política sobre as condições de ruído, impedindo atualizações excessivas de regiões específicas de passos de tempo. Em conjunto, estes elementos funcionam como um mecanismo de corte regulado, estabilizando a otimização e mitigando substancialmente a sobre-otimização implícita sem depender de uma pesada regularização de KL. Experiências extensas em múltiplos modelos base de difusão (por exemplo, SD3.5M, Flux.1-dev) e diversas tarefas proxy demonstram que o GRPO-Guard reduz significativamente a sobre-otimização, mantendo ou mesmo melhorando a qualidade da geração.
As incorporações de texto de patentes permitem busca de arte anterior, mapeamento tecnológico e análise de patentes, porém os benchmarks existentes capturam inadequadamente os desafios específicos de patentes. Apresentamos o PatenTEB, um benchmark abrangente compreendendo 15 tarefas de recuperação, classificação, paráfrase e agrupamento, com 2,06 milhões de exemplos. O PatenTEB emprega divisões estratificadas por domínio, mineração de negativos difíceis específicos do domínio e cobertura sistemática de cenários assimétricos de correspondência fragmento-documento ausentes em benchmarks gerais de incorporação. Desenvolvemos a família de modelos patembed através de treinamento multitarefa, abrangendo de 67M a 344M de parâmetros com comprimentos de contexto de até 4096 tokens. A validação externa mostra forte generalização: o patembed-base alcança estado da arte no MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 do melhor anterior), enquanto o patembed-large alcança 0,377 NDCG@100 no DAPFAM. Ablações sistemáticas revelam que o treinamento multitarefa melhora a generalização externa apesar de custos menores no benchmark, e que a inicialização com pré-treinamento de domínio fornece vantagens consistentes entre famílias de tarefas. Todos os recursos estarão disponíveis em https://github.com/iliass-y/patenteb. Palavras-chave: recuperação de patentes, incorporações de sentenças, aprendizado multitarefa, recuperação assimétrica, avaliação de benchmark, aprendizado contrastivo.
Apresentamos uma avaliação abrangente da capacidade de modelos de linguagem de grande porte (LLMs) para processar linguagem culturalmente fundamentada, especificamente para compreender e usar pragmaticamente expressões figurativas que codificam conhecimento local e nuances culturais. Utilizando a linguagem figurativa como um *proxy* para nuances culturais e conhecimento local, projetamos tarefas de avaliação para compreensão contextual, uso pragmático e interpretação de conotações em Árabe e Inglês. Avaliamos 22 LLMs de código aberto e proprietários em expressões idiomáticas do Árabe Egípcio, provérbios árabes multidialetais e provérbios ingleses. Nossos resultados mostram uma hierarquia consistente: a precisão média para provérbios árabes é 4,29% menor do que para provérbios ingleses, e o desempenho para expressões idiomáticas egípcias é 10,28% menor do que para provérbios árabes. Para a tarefa de uso pragmático, a precisão cai 14,07% em relação à compreensão, embora fornecer frases contextuais idiomáticas aumente a precisão em 10,66%. Os modelos também lutam com o significado conotativo, alcançando no máximo 85,58% de concordância com anotadores humanos em expressões idiomáticas com 100% de concordância entre anotadores. Essas descobertas demonstram que a linguagem figurativa serve como um diagnóstico eficaz para o raciocínio cultural: embora os LLMs possam frequentemente interpretar o significado figurativo, eles enfrentam desafios em usá-lo adequadamente. Para apoiar pesquisas futuras, disponibilizamos o Kinayat, o primeiro conjunto de dados de expressões idiomáticas do Árabe Egípcio projetado para avaliação tanto da compreensão figurativa quanto do uso pragmático.