Artigos de pesquisa em IA selecionados diariamente com traduções
Em configurações de pré-treinamento estritamente controladas, observamos um Ponto de Cruzamento: quando os dados únicos são limitados, os modelos de linguagem de difusão (DLMs) superam consistentemente os modelos autorregressivos (AR) ao serem treinados por mais épocas. O ponto de cruzamento desloca-se para mais tarde com mais dados ou dados de maior qualidade, para mais cedo com modelos maiores, e persiste em arquiteturas densas e esparsas. Atribuímos os ganhos a três fatores que se combinam: (1) modelagem de qualquer ordem, (2) computação superdensa proveniente da desbidirecionalização iterativa, e (3) aumento de Monte Carlo incorporado; o ruído de entrada ou de parâmetro melhora os modelos AR sob restrição de dados, mas não consegue fechar a lacuna. Em escala, um DLM de 1.7B treinado com um orçamento computacional de ~1.5T de tokens em 10B de tokens únicos de Python supera um codificador AR treinado com configurações estritamente equivalentes. Além disso, um DLM com 1B de parâmetros atinge mais de 56% de precisão no HellaSwag e mais de 33% no MMLU usando apenas 1B de tokens, sem quaisquer truques especiais, apenas repetindo dados padrão de pré-treinamento. Também mostramos que o aumento da entropia cruzada de validação não implica desempenho degradado em tarefas downstream neste regime.
Devido à falta de modelagem multimodal eficaz, os métodos existentes de geração áudio-vídeo de código aberto frequentemente apresentam sincronização labial comprometida e consistência semântica insuficiente. Para mitigar essas limitações, propomos o UniAVGen, uma estrutura unificada para geração conjunta de áudio e vídeo. O UniAVGen está ancorado em uma arquitetura de síntese conjunta de ramificação dupla, incorporando dois Transformadores de Difusão (DiTs) paralelos para construir um espaço latente multimodal coeso. Em seu núcleo reside um mecanismo de Interação Multimodal Assimétrica, que permite atenção cruzada bidirecional e temporalmente alinhada, garantindo assim sincronização espaço-temporal precisa e consistência semântica. Além disso, essa interação multimodal é ampliada por um módulo de Modulação com Consciência Facial, que prioriza dinamicamente regiões salientes no processo de interação. Para melhorar a fidelidade generativa durante a inferência, introduzimos adicionalmente a Orientação Livre de Classificador com Consciência de Modalidade, uma nova estratégia que amplifica explicitamente os sinais de correlação multimodal. Notavelmente, o projeto robusto de síntese conjunta do UniAVGen permite a unificação perfeita de tarefas áudio-vídeo cruciais em um único modelo, como geração e continuação conjunta de áudio-vídeo, dublagem de vídeo para áudio e síntese de vídeo conduzida por áudio. Experimentos abrangentes validam que, com muito menos amostras de treinamento (1,3M vs. 30,1M), o UniAVGen oferece vantagens gerais em sincronização áudio-vídeo, consistência de timbre e consistência emocional.
Apesar dos recentes avanços na utilização de Modelos de Linguagem de Grande Porte (LLMs) para a geração automática de cenas 3D, as cenas geradas frequentemente carecem de layouts espaciais realistas e atributos de objetos encontrados em ambientes do mundo real. Como este problema decorre de instruções insuficientemente detalhadas e de granularidade grossa, torna-se crucial avançar a síntese de cenas 3D guiada por instruções mais detalhadas e de granularidade fina que reflitam ambientes reais. Sem tais cenas realistas, o treinamento de agentes incorporados em ambientes não realistas pode levá-los a aprender priores que divergem significativamente da física e da semântica do mundo real, degradando o seu desempenho quando implantados. Assim, verificar o alinhamento entre a instrução de granularidade fina e a cena gerada é essencial para uma aprendizagem eficaz. No entanto, os métodos de avaliação atuais, como o CLIPScore e os modelos de visão e linguagem (VLMs), frequentemente falham em avaliar de forma confiável esse alinhamento. Esta deficiência surge principalmente da sua compreensão superficial de cenas 3D, o que muitas vezes leva a componentes da cena incorretamente fundamentados. Para resolver isto, introduzimos o LEGO-Eval, uma estrutura de avaliação equipada com diversas ferramentas concebidas para fundamentar explicitamente os componentes da cena, permitindo avaliações de alinhamento mais precisas. Apresentamos também o LEGO-Bench, um benchmark de instruções detalhadas que especificam layouts complexos e atributos de ambientes do mundo real. Experiências demonstram que o LEGO-Eval supera o VLM-como-juiz por 0,41 no F1-score na avaliação do alinhamento cena-instrução. A avaliação comparativa com o LEGO-Bench revela limitações significativas nos métodos de geração atuais. Em todas as abordagens avaliadas, as taxas de sucesso atingiram no máximo 10% na geração de cenas que se alinham totalmente com instruções de granularidade fina.
As avaliações atuais de agentes de Large Language Model (LLM) enfatizam principalmente a conclusão de tarefas, frequentemente negligenciando a eficiência de recursos e a adaptabilidade. Esta negligência ignora uma capacidade crucial: a habilidade dos agentes de conceber e ajustar planos de custo ótimo em resposta a ambientes em mudança. Para preencher esta lacuna, introduzimos o CostBench, um *benchmark* escalável e centrado em custos, projetado para avaliar o raciocínio econômico e as capacidades de replanejamento dos agentes. Situado no domínio do planejamento de viagens, o CostBench compreende tarefas solucionáveis por meio de múltiplas sequências de ferramentas atômicas e compostas com custos diversos e personalizáveis. Ele também suporta quatro tipos de eventos dinâmicos de bloqueio, como falhas de ferramentas e mudanças de custos, para simular a imprevisibilidade do mundo real e exigir que os agentes se adaptem em tempo real. A avaliação dos principais modelos proprietários e de código aberto no CostBench revela uma lacuna substancial no planejamento com consciência de custo: os agentes frequentemente falham em identificar soluções de custo ótimo em ambientes estáticos, com até mesmo o GPT-5 atingindo menos de 75% de taxa de correspondência exata nas tarefas mais difíceis, e o desempenho caindo ainda mais cerca de 40% sob condições dinâmicas. Ao diagnosticar essas fraquezas, o CostBench estabelece as bases para o desenvolvimento de futuros agentes que sejam economicamente racionais e robustos.
Os dados tabulares continuam a ser o formato predominante em aplicações do mundo real. No entanto, o desenvolvimento de modelos neurais eficazes para dados tabulares permanece um desafio devido a tipos de características heterogéneas e interações complexas que ocorrem em múltiplas escalas. Avanços recentes na aprendizagem in-contextual (ICL) para dados tabulares, como o TabPFN e o TabICL, alcançaram um desempenho de ponta comparável a árvores impulsionadas por gradiente (GBTs) sem afinação específica para cada tarefa. Contudo, as arquiteturas atuais apresentam limitações fundamentais: (1) processamento de características em escala única que ignora dependências hierárquicas, (2) atenção densa com escalabilidade quadrática na largura da tabela, e (3) processamento de componentes estritamente sequencial que impede o refinamento iterativo de representações e a comunicação entre componentes. Para enfrentar estes desafios, introduzimos a Orion-MSP, uma arquitetura de ICL tabular que apresenta três inovações principais: (1) processamento multi-escala para capturar interações hierárquicas de características; (2) atenção esparsa por blocos que combina padrões de janela, globais e aleatórios para eficiência escalável e conectividade de longo alcance; e (3) uma memória no estilo Perceiver que permite um fluxo de informação bidirecional seguro entre componentes. Em diversos benchmarks, a Orion-MSP iguala ou supera o desempenho do estado da arte, escalando eficazmente para tabelas de alta dimensionalidade e estabelecendo um novo padrão para a aprendizagem in-contextual tabular eficiente. O modelo está publicamente disponível em https://github.com/Lexsi-Labs/Orion-MSP.
Os modelos de fundação tabulares representam um paradigma crescente na aprendizagem de dados estruturados, estendendo os benefícios do pré-treinamento em larga escala para domínios tabulares. No entanto, sua adoção permanece limitada devido a pipelines de pré-processamento heterogêneos, APIs fragmentadas, procedimentos de ajuste fino inconsistentes e a ausência de avaliação padronizada para métricas orientadas à implantação, como calibração e justiça. Apresentamos o TabTune, uma biblioteca unificada que padroniza o fluxo de trabalho completo para modelos de fundação tabulares por meio de uma única interface. O TabTune fornece acesso consistente a sete modelos state-of-the-art que suportam múltiplas estratégias de adaptação, incluindo inferência zero-shot, meta-aprendizagem, ajuste fino supervisionado (SFT) e ajuste fino eficiente em parâmetros (PEFT). A estrutura automatiza o pré-processamento consciente do modelo, gerencia internamente a heterogeneidade arquitetônica e integra módulos de avaliação para desempenho, calibração e justiça. Projetado para extensibilidade e reprodutibilidade, o TabTune permite a comparação consistente de estratégias de adaptação de modelos de fundação tabulares. A biblioteca é de código aberto e está disponível em https://github.com/Lexsi-Labs/TabTune.
Uma compreensão profunda das estruturas cinemáticas e componentes móveis é essencial para capacitar robôs a manipular objetos e modelar suas próprias formas articuladas. Tal compreensão é capturada por meio de objetos articulados, que são fundamentais para tarefas como simulação física, planejamento de movimento e aprendizado de políticas. No entanto, a criação desses modelos, particularmente para objetos com alto número de graus de liberdade (GdL), permanece um desafio significativo. Os métodos existentes geralmente dependem de sequências de movimento ou de pressupostos fortes provenientes de conjuntos de dados curados manualmente, o que dificulta a escalabilidade. Neste artigo, apresentamos o Kinematify, uma estrutura automatizada que sintetiza objetos articulados diretamente a partir de imagens RGB arbitrárias ou descrições textuais. Nosso método aborda dois desafios centrais: (i) inferir topologias cinemáticas para objetos de alto GdL e (ii) estimar parâmetros de junta a partir de geometria estática. Para isso, combinamos uma busca por MCTS para inferência estrutural com uma otimização orientada por geometria para raciocínio sobre juntas, produzindo descrições fisicamente consistentes e funcionalmente válidas. Avaliamos o Kinematify em diversas entradas de ambientes sintéticos e do mundo real, demonstrando melhorias na precisão de registro e topologia cinemática em relação a trabalhos anteriores.
Os modelos de linguagem de grande escala (LLMs) demonstram alto desempenho em diversos *benchmarks* – desde questionários de conhecimento e raciocínio matemático até tarefas de agentes web – mas esses testes ocorrem em ambientes estáticos, carecendo de dinâmica real e incerteza. Consequentemente, eles avaliam o raciocínio ou a resolução de problemas de forma isolada, em vez da tomada de decisão sob incerteza. Para resolver isso, apresentamos o LiveTradeBench, um ambiente de negociação em tempo real para avaliar agentes de LLM em mercados realistas e em evolução. O LiveTradeBench segue três princípios de design: (i) Transmissão de dados em tempo real de preços de mercado e notícias, eliminando a dependência de *backtesting* offline e prevenindo o vazamento de informações, ao mesmo tempo que captura a incerteza em tempo real; (ii) uma abstração de gestão de carteira que estende o controle de ações com um único ativo para a alocação de múltiplos ativos, integrando a gestão de risco e o raciocínio entre ativos; e (iii) avaliação multi-mercado em ambientes estruturalmente distintos – ações norte-americanas e mercados de previsão Polymarket – que diferem em volatilidade, liquidez e fluxo de informações. A cada passo, um agente observa os preços, as notícias e sua carteira, e depois produz alocações percentuais que equilibram risco e retorno. Usando o LiveTradeBench, realizamos avaliações em tempo real de 50 dias com 21 LLMs de diferentes famílias. Os resultados mostram que (1) altas pontuações no LMArena não implicam resultados comerciais superiores; (2) os modelos exibem estilos de carteira distintos que refletem a apetite ao risco e a dinâmica de raciocínio; e (3) alguns LLMs aproveitam efetivamente os sinais em tempo real para adaptar as decisões. Essas descobertas expõem uma lacuna entre a avaliação estática e a competência no mundo real, motivando *benchmarks* que testam a tomada de decisão sequencial e a consistência sob incerteza em tempo real.
À medida que os modelos de raciocínio evoluem rapidamente, o papel essencial da multimodalidade na cognição humana tornou-se evidente, impulsionando uma necessidade crescente de investigar comportamentos cognitivos centrados na visão. No entanto, os benchmarks multimodais existentes ou supervalorizam o raciocínio textual ou ficam aquém na captura sistemática de comportamentos cognitivos centrados na visão, deixando a capacidade cognitiva dos MLLMs insuficientemente avaliada. Para superar esta limitação, introduzimos o MME-CC (Benchmark de Avaliação Multimodal de Capacidade Cognitiva), uma ferramenta de avaliação ancorada na visão que organiza 11 tarefas de raciocínio representativas em três categorias fundamentais de informação visual: raciocínio espacial, geométrico e baseado em conhecimento, fornecendo análises detalhadas da capacidade cognitiva dos MLLMs nessas dimensões. Com base no MME-CC, conduzimos experimentos extensivos com 16 MLLMs representativos. Nosso estudo revela que os modelos de código fechado atualmente lideram no desempenho geral (por exemplo, 42,66 para o Gemini-2.5-Pro versus 30,45 para o GLM-4.5V), enquanto o raciocínio espacial e geométrico permanecem amplamente frágeis (menor ou igual a 30%). Identificamos ainda padrões comuns de erro, incluindo equívocos de orientação, persistência frágil de identidade entre vistas e baixa aderência a instruções contrafactuais, e observamos que o Chain-of-Thought geralmente segue um processo de três etapas (extrair -> raciocinar -> verificar) com forte dependência da extração visual. Esperamos que este trabalho catalise uma mudança rumo ao tratamento da capacidade cognitiva dos MLLMs como elemento central tanto para avaliação quanto para o design de modelos.
Revisitamos o dimensionamento durante o teste para o raciocínio de modelos de linguagem e colocamos uma questão fundamental: com orçamento igual de tokens e computação, é melhor executar múltiplas cadeias independentes em paralelo ou executar menos cadeias que refinam iterativamente através de etapas sequenciais? Através de uma avaliação abrangente em 5 modelos de código aberto de última geração e 3 benchmarks de raciocínio desafiadores, descobrimos que o dimensionamento sequencial, onde as cadeias constroem explicitamente sobre tentativas anteriores, supera consistentemente o paradigma dominante de autoconsistência paralela em 95,6% das configurações, com ganhos de precisão de até 46,7%. Além disso, introduzimos a votação ponderada por entropia inversa, um novo método livre de treinamento para impulsionar ainda mais a precisão do dimensionamento sequencial. Ao ponderar as respostas em proporção à entropia inversa de suas cadeias de raciocínio, aumentamos nossa taxa de sucesso em relação à maioria paralela e a estabelecemos como a estratégia ótima de dimensionamento durante o teste. Nossas descobertas desafiam fundamentalmente a ortodoxia do raciocínio paralelo que dominou o dimensionamento durante o teste desde a decodificação por autoconsistência de Wang et al. (2022), posicionando o refinamento sequencial como o padrão robusto para o raciocínio de LLMs modernos e exigindo uma mudança de paradigma em como abordamos a otimização durante a inferência.
O diálogo colaborativo depende da construção incremental de terreno comum pelos participantes, contudo, em contextos assimétricos, estes podem acreditar que estão de acordo enquanto se referem a entidades diferentes. Introduzimos um esquema de anotação perspectivista para o corpus HCRC MapTask (Anderson et al., 1991) que captura separadamente as interpretações aterradas do falante e do ouvinte para cada expressão referencial, permitindo-nos rastrear como a compreensão emerge, diverge e é reparada ao longo do tempo. Utilizando um *pipeline* de anotação com LLM restrito ao esquema, obtivemos 13 mil expressões referenciais anotadas com estimativas de confiabilidade e analisámos os estados de compreensão resultantes. Os resultados mostram que os mal-entendidos completos são raros após a unificação de variantes lexicais, mas discrepâncias de multiplicidade induzem sistematicamente divergências, revelando como um aparente alinhamento pode mascarar um desacordo referencial. A nossa estrutura fornece tanto um recurso como uma lente analítica para estudar mal-entendidos no terreno comum e para avaliar a capacidade dos (V)LLMs em modelar o alinhamento dependente da perspetiva no diálogo colaborativo.
A ampliação de consultas torna as consultas mais significativas através do acréscimo de informações adicionais para encontrar documentos relevantes. Estudos recentes propuseram sistemas de incorporação baseados em Modelos de Linguagem de Grande Porte (LLM), que aprendem representações para incorporação e geração para ampliação de consultas de forma multitarefa, aproveitando as capacidades generativas dos LLMs. Durante a inferência, esses sistemas de incorporação treinados conjuntamente realizaram ampliação de consultas seguida de incorporação, demonstrando resultados eficazes. No entanto, ampliar todas as consultas resulta em latência de incorporação substancial, e a ampliação de consultas pode ser prejudicial ao desempenho para algumas consultas. Além disso, métodos anteriores não foram explorados em ambientes multimodais. Para enfrentar esses problemas, propomos o M-Solomon, um sistema de incorporação multimodal universal que pode determinar adaptativamente quando ampliar consultas. Nossa abordagem primeiro divide as consultas dos conjuntos de dados de treinamento em dois grupos a nível de conjunto de dados. Um inclui consultas que requerem ampliação e o outro inclui consultas que não requerem. Em seguida, introduzimos um processo de síntese que gera ampliações apropriadas para consultas que as necessitam, aproveitando um poderoso Modelo de Linguagem Multimodal (MLLM). Depois, apresentamos a ampliação adaptativa de consultas. Através desta etapa, o M-Solomon pode realizar ampliação de consultas apenas quando necessário, aprendendo a gerar ampliações sintéticas com o prefixo /augment para consultas que as demandam e a gerar a string simples /embed para as demais. Resultados experimentais mostraram que o M-Solomon não apenas superou a linha de base sem ampliação por uma grande margem, mas também superou a linha de base que sempre usava ampliação, fornecendo uma latência de incorporação muito mais rápida.
Compreender as capacidades e riscos atuais dos sistemas de Cientista de IA é essencial para garantir um progresso científico impulsionado por IA confiável e sustentável, preservando a integridade do ecossistema acadêmico. Para tanto, desenvolvemos o Jr. AI Scientist, um sistema autónomo de cientista de IA state-of-the-art que imita o fluxo de trabalho central de pesquisa de um estudante investigador iniciante: Dado o artigo de referência do mentor humano, o sistema analisa as suas limitações, formula hipóteses novas para melhorias, valida-as através de experimentação rigorosa e redige um artigo com os resultados. Diferente de abordagens anteriores que pressupõem automação total ou operam em código de pequena escala, o Jr. AI Scientist segue um fluxo de trabalho de pesquisa bem definido e aproveita agentes de codificação modernos para lidar com implementações complexas e multiarquivo, resultando em contribuições cientificamente valiosas. Para avaliação, realizamos avaliações automatizadas usando Revisores de IA, avaliações conduzidas pelos autores e submissões ao Agents4Science, um evento dedicado a contribuições científicas orientadas por IA. Os resultados demonstram que o Jr. AI Scientist gera artigos que recebem pontuações de revisão mais altas do que os sistemas totalmente automatizados existentes. No entanto, identificamos limitações importantes tanto na avaliação dos autores quanto nas revisões do Agents4Science, indicando os riscos potenciais da aplicação direta dos sistemas atuais de Cientista de IA e os principais desafios para pesquisas futuras. Por fim, relatamos de forma abrangente vários riscos identificados durante o desenvolvimento. Esperamos que estes insights aprofundem a compreensão sobre o progresso atual e os riscos no desenvolvimento de Cientistas de IA.