Artigos de pesquisa em IA selecionados diariamente com traduções
O desenvolvimento de agentes nativos de uso de computador (CUA, na sigla em inglês) representa um salto significativo na IA multimodal. No entanto, seu potencial está atualmente limitado pelas restrições da escalabilidade de dados estáticos. Os paradigmas existentes, que dependem principalmente da imitação passiva de conjuntos de dados estáticos, lutam para capturar a dinâmica causal intrincada inerente a tarefas computacionais de longo prazo. Neste trabalho, apresentamos o EvoCUA, um modelo de agente nativo para uso de computador. Diferente da imitação estática, o EvoCUA integra a geração de dados e a otimização de políticas em um ciclo evolutivo autossustentável. Para mitigar a escassez de dados, desenvolvemos um motor de síntese verificável que gera autonomamente tarefas diversificadas em conjunto com validadores executáveis. Para permitir a aquisição de experiência em larga escala, projetamos uma infraestrutura escalável que orquestra dezenas de milhares de execuções assíncronas em ambientes de sandbox. Com base nessas trajetórias massivas, propomos uma estratégia de aprendizado evolutivo iterativo para internalizar essa experiência de forma eficiente. Este mecanismo regula dinamicamente as atualizações de política identificando os limites de capacidade – reforçando rotinas bem-sucedidas enquanto transforma trajetórias de falha em supervisão rica por meio de análise de erro e autocorreção. Avaliações empíricas no benchmark OSWorld demonstram que o EvoCUA atinge uma taxa de sucesso de 56,7%, estabelecendo um novo estado da arte em código aberto. Notavelmente, o EvoCUA supera significativamente o melhor modelo de código aberto anterior, o OpenCUA-72B (45,0%), e ultrapassa modelos de pesos fechados líderes, como o UI-TARS-2 (53,1%). Crucialmente, nossos resultados ressaltam a generalizabilidade desta abordagem: o paradigma evolutivo, orientado pela aprendizagem a partir da experiência, produz ganhos de desempenho consistentes em modelos de base de várias escalas, estabelecendo um caminho robusto e escalável para o avanço das capacidades dos agentes nativos.
Apresentamos o LLM-in-Sandbox, uma abordagem que permite que LLMs explorem dentro de um sandbox de código (ou seja, um computador virtual) para eliciar inteligência geral em domínios que não são de código. Primeiro, demonstramos que LLMs robustos, sem treinamento adicional, exibem capacidades de generalização para alavancar o sandbox de código em tarefas não relacionadas a código. Por exemplo, os LLMs acessam espontaneamente recursos externos para adquirir novos conhecimentos, utilizam o sistema de arquivos para lidar com contextos longos e executam scripts para atender a requisitos de formatação. Mostramos ainda que essas capacidades agentivas podem ser aprimoradas por meio do Reforço de Aprendizado LLM-in-Sandbox (LLM-in-Sandbox-RL), que utiliza apenas dados não agentivos para treinar modelos para exploração do sandbox. Experimentos demonstram que o LLM-in-Sandbox, tanto em configurações livres de treinamento quanto pós-treinadas, alcança generalização robusta abrangendo matemática, física, química, biomedicina, compreensão de contexto longo e seguimento de instruções. Por fim, analisamos a eficiência do LLM-in-Sandbox sob as perspectivas computacional e de sistema, e disponibilizamos o código aberto como um pacote Python para facilitar a implantação no mundo real.
Os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram uma melhoria significativa na compreensão de vídeos offline. No entanto, estender essas capacidades para entradas de vídeo em *streaming* continua a ser um desafio, uma vez que os modelos existentes lutam para manter simultaneamente um desempenho de compreensão estável, respostas em tempo real e uma baixa sobrecarga de memória da GPU. Para enfrentar este desafio, propomos o HERMES, uma nova arquitetura sem necessidade de treino para a compreensão precisa e em tempo real de fluxos de vídeo. Com base numa investigação mecanicista da atenção, conceptualizamos a *cache* de Chaves-Valores (KV) como uma estrutura de memória hierárquica que encapsula informações de vídeo em múltiplas granularidades. Durante a inferência, o HERMES reutiliza uma *cache* KV compacta, permitindo uma compreensão eficiente de *streaming* sob restrições de recursos. Notavelmente, o HERMES não requer cálculos auxiliares após a chegada de consultas do utilizador, garantindo assim respostas em tempo real para interações contínuas com fluxos de vídeo, o que alcança um Tempo para o Primeiro Token (TTFT) 10 vezes mais rápido em comparação com o SOTA anterior. Mesmo ao reduzir os *tokens* de vídeo em até 68% em comparação com a amostragem uniforme, o HERMES alcança uma precisão superior ou comparável em todos os *benchmarks*, com ganhos de até 11,4% em conjuntos de dados de *streaming*.
Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) quebram a restrição rígida de geração da esquerda para a direita dos LLMs tradicionais, permitindo a geração de tokens em ordens arbitrárias. Intuitivamente, essa flexibilidade implica um espaço de solução que é um superconjunto estrito da trajetória autoregressiva fixa, teoricamente desbloqueando um potencial de raciocínio superior para tarefas gerais como matemática e programação. Consequentemente, numerosos trabalhos utilizaram aprendizagem por reforço (RL) para eliciar a capacidade de raciocínio dos dLLMs. Neste artigo, revelamos uma realidade contraintuitiva: a geração em ordem arbitrária, em sua forma atual, estreita em vez de expandir a fronteira de raciocínio dos dLLMs. Descobrimos que os dLLMs tendem a explorar essa flexibilidade de ordem para contornar tokens de alta incerteza que são cruciais para a exploração, levando a um colapso prematuro do espaço de solução. Esta observação desafia a premissa das abordagens de RL existentes para dLLMs, onde complexidades consideráveis, como o tratamento de trajetórias combinatórias e verossimilhanças intratáveis, são frequentemente dedicadas a preservar essa flexibilidade. Demonstramos que o raciocínio eficaz é melhor eliciado ao intencionalmente abdicar da ordem arbitrária e aplicar a Otimização de Política Relativa de Grupo (GRPO) padrão. Nossa abordagem, JustGRPO, é minimalista, mas surpreendentemente eficaz (por exemplo, 89,1% de precisão no GSM8K), mantendo totalmente a capacidade de decodificação paralela dos dLLMs. Página do projeto: https://nzl-thu.github.io/the-flexibility-trap
Neste relatório, apresentamos a série Qwen3-TTS, uma família de modelos avançados de conversão de texto em fala (TTS) multilingues, controláveis, robustos e com capacidade de streaming. O Qwen3-TTS suporta a clonagem de voz de última geração em 3 segundos e o controle baseado em descrição, permitindo tanto a criação de vozes totalmente novas quanto a manipulação de granularidade fina da fala gerada. Treinado com mais de 5 milhões de horas de dados de fala abrangendo 10 idiomas, o Qwen3-TTS adota uma arquitetura de Modelo de Linguagem (LM) de via dupla para síntese em tempo real, acoplada a dois tokenizadores de fala: 1) O Qwen-TTS-Tokenizer-25Hz é um codec de livro de códigos único que prioriza o conteúdo semântico, oferecendo integração perfeita com o Qwen-Audio e permitindo a reconstrução da forma de onda em streaming por meio de um DiT (Transformer de Difusão) baseado em blocos. 2) O Qwen-TTS-Tokenizer-12Hz alcança uma redução extrema de taxa de bits e streaming de latência ultrabaixa, permitindo a emissão imediata do primeiro pacote (97 ms) através de seu design multicodebook de 12,5 Hz e 16 camadas e de uma ConvNet causal leve. Experimentos extensivos indicam desempenho de última geração em diversas avaliações objetivas e subjetivas (por exemplo, conjunto de testes multilingue para TTS, InstructTTSEval e nosso conjunto de testes de fala longa). Para facilitar a pesquisa e o desenvolvimento da comunidade, disponibilizamos tanto os tokenizadores quanto os modelos sob a licença Apache 2.0.
Os modelos Visão-Linguagem-Ação (VLA) têm mostrado potencial na manipulação robótica, mas frequentemente lutam para generalizar para novas instruções ou cenários complexos de múltiplas tarefas. Identificamos uma patologia crítica nos paradigmas de treinamento atuais, onde a coleta de dados orientada por objetivos cria um viés no conjunto de dados. Nesses conjuntos, as instruções linguísticas são altamente previsíveis apenas a partir de observações visuais, fazendo com que a informação mútua condicional entre instruções e ações desapareça, um fenômeno que denominamos Colapso de Informação. Consequentemente, os modelos degeneram em políticas puramente visuais que ignoram as restrições linguísticas e falham em configurações fora da distribuição (OOD). Para resolver isso, propomos o BayesianVLA, uma nova estrutura que impõe o seguimento de instruções via decomposição bayesiana. Ao introduzir Consultas de Ação Latente aprendíveis, construímos uma arquitetura de ramo duplo para estimar tanto um prior puramente visual p(a | v) quanto um posterior condicionado à linguagem π(a | v, l). Em seguida, otimizamos a política para maximizar a Informação Mútua Pontual Condicional (PMI) entre ações e instruções. Este objetivo penaliza efetivamente o atalho visual e recompensa ações que explicam explicitamente o comando linguístico. Sem exigir novos dados, o BayesianVLA melhora significativamente a generalização. Extensivos experimentos no SimplerEnv e RoboCasa demonstram ganhos substanciais, incluindo uma melhoria de 11,3% no desafiador benchmark OOD do SimplerEnv, validando a capacidade da nossa abordagem de fundamentar a linguagem na ação de forma robusta.
Os modelos de linguagem baseados em difusão (DLLMs) oferecem geração não sequencial, bloco a bloco, e reutilização de dados mais rica em comparação com modelos autoregressivos (AR), mas os DLLMs de código existentes ainda ficam atrás de fortes modelos AR de referência sob orçamentos comparáveis. Revisitamos este cenário num estudo controlado e introduzimos o Stable-DiffCoder, um modelo de difusão de blocos para código que reutiliza a arquitetura, os dados e o *pipeline* de treino do Seed-Coder. Para permitir uma aprendizagem de conhecimento eficiente e um treino estável, incorporamos uma fase de pré-treinamento contínuo (CPT) por difusão de blocos, aprimorada por um aquecimento personalizado e um cronograma de ruído cortado por blocos. Sob os mesmos dados e arquitetura, o Stable-DiffCoder supera globalmente a sua contraparte AR num vasto conjunto de *benchmarks* de código. Além disso, dependendo apenas das fases de CPT e *fine-tuning* supervisionado, o Stable-DiffCoder atinge um desempenho superior ao de uma ampla gama de modelos AR e DLLMs de ~8B, demonstrando que o treino baseado em difusão pode melhorar a qualidade da modelação de código para além do treino AR isolado. Adicionalmente, a modelação de ordem arbitrária baseada em difusão melhora a modelação estruturada de código para edição e raciocínio e, através da ampliação de dados, beneficia linguagens de programação com poucos recursos.
Os Autoencoders de Representação (RAEs) demonstraram vantagens distintas na modelagem de difusão no ImageNet ao treinar em espaços latentes semânticos de alta dimensão. Neste trabalho, investigamos se esta estrutura pode ser dimensionada para a geração de texto para imagem (T2I) em larga escala e de forma livre. Primeiro, dimensionamos os decodificadores RAE no codificador de representação congelado (SigLIP-2) para além do ImageNet, treinando com dados da web, sintéticos e de renderização de texto, concluindo que, embora a escala melhore a fidelidade geral, a composição de dados direcionada é essencial para domínios específicos como texto. Em seguida, submetemos rigorosamente a teste as opções de design do RAE originalmente propostas para o ImageNet. Nossa análise revela que o dimensionamento simplifica a estrutura: embora o agendamento de ruído dependente da dimensão permaneça crítico, complexidades arquiteturais como cabeças de difusão amplas e decodificação com aumento de ruído oferecem benefícios negligenciáveis em escala. Com base nesta estrutura simplificada, realizamos uma comparação controlada do RAE contra o FLUX VAE, o estado da arte, através de escalas de transformadores de difusão de 0,5B a 9,8B de parâmetros. Os RAEs superam consistentemente os VAEs durante o pré-treinamento em todas as escalas de modelo. Além disso, durante o ajuste fino em conjuntos de dados de alta qualidade, os modelos baseados em VAE sofrem sobreajuste catastrófico após 64 épocas, enquanto os modelos RAE permanecem estáveis por 256 épocas e alcançam desempenho consistentemente melhor. Em todos os experimentos, os modelos de difusão baseados em RAE demonstram convergência mais rápida e melhor qualidade de geração, estabelecendo os RAEs como uma base mais simples e robusta do que os VAEs para a geração de T2I em larga escala. Adicionalmente, como tanto a compreensão quanto a geração visual podem operar em um espaço de representação compartilhado, o modelo multimodal pode raciocinar diretamente sobre os latentes gerados, abrindo novas possibilidades para modelos unificados.
Como podemos usar a IA para descobrir um novo estado da arte para um problema científico? Trabalhos anteriores em escalonamento no momento do teste, como o AlphaEvolve, realizam a busca através do *prompting* de um LLM congelado. Nós realizamos aprendizado por reforço no momento do teste, permitindo que o LLM continue a treinar, mas agora com experiência específica para o problema de teste. Esta forma de aprendizado contínuo é bastante especial, porque seu objetivo é produzir uma grande solução em vez de muitas boas soluções em média, e resolver este problema específico em vez de generalizar para outros problemas. Portanto, nossa função objetivo e nossa sub-rotina de busca são projetadas para priorizar as soluções mais promissoras. Chamamos este método de *Test-Time Training to Discover* (TTT-Discover). Seguindo trabalhos anteriores, focamos em problemas com recompensas contínuas. Relatamos resultados para todos os problemas que tentamos, abrangendo matemática, engenharia de *kernels* para GPU, projeto de algoritmos e biologia. O TTT-Discover estabelece o novo estado da arte em quase todos eles: (i) o problema de sobreposição mínima de Erdős e uma desigualdade de autocorrelação; (ii) uma competição de *kernels* GPUMode (até 2 vezes mais rápido que o estado da arte anterior); (iii) competições passadas de algoritmos AtCoder; e (iv) problema de remoção de ruído na análise de célula única. Nossas soluções são revisadas por especialistas ou pelos organizadores. Todos os nossos resultados são alcançados com um modelo aberto, o OpenAI gpt-oss-120b, e podem ser reproduzidos com nosso código publicamente disponível, em contraste com os melhores resultados anteriores que exigiam modelos *frontier* fechados. Nossas execuções de treinamento no momento do teste são realizadas usando o Tinker, uma API da Thinking Machines, com um custo de apenas algumas centenas de dólares por problema.
As capacidades de processamento pixel a pixel são essenciais para a construção de sistemas inteligentes interativos. No entanto, os MLLMs (Large Language Models Multimodais) com capacidades pixel a pixel permanecem difíceis de escalar devido a codificadores complexos a nível de região, decodificadores especializados em segmentação e objetivos de treinamento incompatíveis. Para enfrentar esses desafios, apresentamos o SAMTok, um tokenizador discreto de máscaras que converte qualquer máscara de região em dois tokens especiais e reconstrói a máscara usando esses tokens com alta fidelidade. Ao tratar máscaras como novos tokens de linguagem, o SAMTok permite que MLLMs base (como a série QwenVL) aprendam capacidades pixel a pixel através da previsão padrão do próximo token e de um simples aprendizado por reforço, sem modificações arquiteturais ou projetos de perda especializados. O SAMTok é construído com base no SAM2 e é treinado em 209 milhões de máscaras diversas usando um codificador de máscaras e um quantizador vetorial residual para produzir tokens discretos, compactos e ricos em informação. Com 5 milhões de amostras de dados de compreensão e geração de máscaras no formato SAMTok, o QwenVL-SAMTok alcança resultados de ponta ou comparáveis em legendagem de regiões, VQA de regiões, conversa fundamentada, segmentação por referência, análise de grafos de cena e segmentação interativa multi-turno. Introduzimos ainda uma recompensa de correspondência de resposta textual que permite um aprendizado por reforço eficiente para a geração de máscaras, proporcionando melhorias substanciais nos benchmarks GRES e GCG. Nossos resultados demonstram um paradigma escalável e direto para equipar MLLMs com fortes capacidades pixel a pixel. Nosso código e modelos estão disponíveis.
Os agentes de IA poderão em breve tornar-se capazes de concluir de forma autónoma tarefas valiosas de longo horizonte em diversos domínios. Os benchmarks atuais ou não medem tarefas do mundo real, ou não são suficientemente difíceis para avaliar significativamente os modelos de fronteira. Para tal, apresentamos o Terminal-Bench 2.0: um benchmark rigoroso cuidadosamente selecionado, composto por 89 tarefas em ambientes de terminal de computador inspiradas em problemas de fluxos de trabalho reais. Cada tarefa apresenta um ambiente único, uma solução escrita por humanos e testes abrangentes para verificação. Demonstramos que os modelos e agentes de fronteira obtêm pontuações inferiores a 65% no benchmark e realizamos uma análise de erros para identificar áreas de melhoria para modelos e agentes. Publicamos o conjunto de dados e o sistema de avaliação para auxiliar desenvolvedores e investigadores em trabalhos futuros em https://www.tbench.ai/.
Este artigo apresenta uma família de codificadores visuais avançados, denominada OpenVision 3, que aprende uma representação visual única e unificada capaz de servir tanto para a compreensão quanto para a geração de imagens. Nossa arquitetura central é simples: alimentamos *latents* de imagem comprimidos por VAE em um codificador ViT e treinamos sua saída para suportar duas funções complementares. Primeiro, a saída do codificador é passada para o decodificador ViT-VAE para reconstruir a imagem original, incentivando a representação a capturar estrutura generativa. Segundo, a mesma representação é otimizada com objetivos de aprendizado contrastivo e de legendagem de imagens, fortalecendo as características semânticas. Ao otimizar conjuntamente sinais orientados por reconstrução e semântica em um espaço latente compartilhado, o codificador aprende representações que sinergizam e generalizam bem em ambos os regimes. Validamos este projeto unificado por meio de extensas avaliações *downstream* com o codificador congelado. Para compreensão multimodal, integramos o codificador na estrutura LLaVA-1.5: ele tem um desempenho comparável a um codificador visual CLIP padrão (por exemplo, 62,4 vs 62,2 no SeedBench e 83,7 vs 82,9 no POPE). Para geração, nós o testamos na estrutura RAE: o nosso supera substancialmente o codificador baseado em CLIP padrão (por exemplo, gFID: 1,89 vs 2,54 no ImageNet). Esperamos que este trabalho possa estimular pesquisas futuras sobre modelagem unificada.
O desempenho dos sistemas modernos de IA é fundamentalmente limitado pela qualidade dos seus núcleos (kernels) subjacentes, que traduzem a semântica algorítmica de alto nível em operações de hardware de baixo nível. A obtenção de núcleos quase ótimos exige um entendimento de nível especialista das arquiteturas de hardware e dos modelos de programação, tornando a engenharia de kernels um processo crítico, mas notoriamente demorado e não escalável. Os avanços recentes em modelos de linguagem grande (LLMs) e agentes baseados em LLMs abriram novas possibilidades para automatizar a geração e otimização de kernels. Os LLMs são adequados para comprimir o conhecimento especializado sobre kernels que é difícil de formalizar, enquanto os sistemas agentes permitem ainda uma otimização escalável ao transformar o desenvolvimento de kernels num ciclo iterativo orientado por feedback. Tem havido progressos rápidos nesta área. No entanto, o campo permanece fragmentado, carecendo de uma perspetiva sistemática para a geração de kernels orientada por LLMs. Este estudo aborda esta lacuna ao fornecer uma visão geral estruturada das abordagens existentes, abrangendo métodos baseados em LLMs e fluxos de trabalho de otimização agentes, e compilando sistematicamente os conjuntos de dados e benchmarks que suportam a aprendizagem e avaliação neste domínio. Além disso, são delineados os principais desafios em aberto e futuras direções de investigação, visando estabelecer uma referência abrangente para a próxima geração de otimização automatizada de kernels. Para acompanhar este campo, mantemos um repositório GitHub de código aberto em https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
A generalização de modelos de matte de vídeo para vídeos do mundo real continua a ser um desafio significativo devido à escassez de dados rotulados. Para resolver isso, apresentamos o Video Mask-to-Matte Model (VideoMaMa), que converte máscaras de segmentação grosseiras em mattes alfa com precisão de pixel, aproveitando modelos de difusão de vídeo pré-treinados. O VideoMaMa demonstra uma forte generalização de *zero-shot* para filmagens do mundo real, embora seja treinado apenas com dados sintéticos. Com base nessa capacidade, desenvolvemos um *pipeline* escalável de pseudo-rotulagem para matte de vídeo em larga escala e construímos o conjunto de dados Matting Anything in Video (MA-V), que oferece anotações de matte de alta qualidade para mais de 50 mil vídeos do mundo real, abrangendo diversas cenas e movimentos. Para validar a eficácia deste conjunto de dados, afinamos o modelo SAM2 no MA-V para obter o SAM2-Matte, que supera o mesmo modelo treinado em conjuntos de dados de matte existentes em termos de robustez em vídeos do mundo real. Essas descobertas enfatizam a importância do pseudo-rotulagem em larga escala para matte de vídeo e demonstram como *priors* generativos e pistas de segmentação acessíveis podem impulsionar progressos escaláveis na pesquisa de matte de vídeo.
Os modelos recentes de geração de vídeo demonstram capacidade notável para capturar interações físicas complexas e a evolução de cenas ao longo do tempo. Para aproveitar seus *priors* espaço-temporais, trabalhos em robótica adaptaram modelos de vídeo para aprendizado de políticas, mas introduzem complexidade ao exigir múltiplos estágios de pós-treinamento e novos componentes arquiteturais para geração de ações. Neste trabalho, introduzimos o Cosmos Policy, uma abordagem simples para adaptar um grande modelo de vídeo pré-treinado (Cosmos-Predict2) em uma política robótica eficaz por meio de um único estágio de pós-treinamento nos dados de demonstração robótica coletados na plataforma alvo, sem modificações arquiteturais. O Cosmos Policy aprende a gerar diretamente ações robóticas codificadas como quadros latentes dentro do processo de difusão latente do modelo de vídeo, aproveitando os *priors* pré-treinados do modelo e seu algoritmo central de aprendizado para capturar distribuições complexas de ações. Adicionalmente, o Cosmos Policy gera imagens de estados futuros e valores (recompensas cumulativas esperadas), que são similarmente codificados como quadros latentes, permitindo o planejamento em tempo de teste de trajetórias de ação com maior probabilidade de sucesso. Em nossas avaliações, o Cosmos Policy alcança desempenho de ponta nos benchmarks de simulação LIBERO e RoboCasa (taxas médias de sucesso de 98,5% e 67,1%, respectivamente) e a maior pontuação média em tarefas desafiadoras de manipulação bimanual no mundo real, superando políticas de difusão fortes treinadas do zero, políticas baseadas em modelos de vídeo e modelos visão-linguagem-ação de última geração ajustados nas mesmas demonstrações robóticas. Além disso, dados os dados de execução da política, o Cosmos Policy pode aprender com a experiência para refinar seu modelo mundial e função de valor e aproveitar o planejamento baseado em modelo para alcançar taxas de sucesso ainda maiores em tarefas desafiadoras. Disponibilizamos código, modelos e dados de treinamento em https://research.nvidia.com/labs/dir/cosmos-policy/.
A Recuperação de Imagens Compostas (CIR) é uma tarefa fundamental e complexa na compreensão multimodal. Os benchmarks atuais de CIR geralmente apresentam categorias de consulta limitadas e não conseguem capturar os diversos requisitos de cenários do mundo real. Para preencher esta lacuna de avaliação, utilizamos a edição de imagens para obter um controlo preciso sobre os tipos e conteúdo das modificações, permitindo um *pipeline* para sintetizar consultas numa ampla gama de categorias. Usando este *pipeline*, construímos o EDIR, um novo *benchmark* de CIR de granularidade fina. O EDIR abrange 5.000 consultas de alta qualidade estruturadas em cinco categorias principais e quinze subcategorias. A nossa avaliação abrangente de 13 modelos de incorporação multimodal revela uma lacuna significativa de capacidade; mesmo os modelos mais avançados (por exemplo, RzenEmbed e GME) lutam para ter um desempenho consistente em todas as subcategorias, destacando a natureza rigorosa do nosso *benchmark*. Através de uma análise comparativa, descobrimos ainda limitações inerentes nos *benchmarks* existentes, como vieses de modalidade e cobertura categorial insuficiente. Além disso, uma experiência de treino no domínio demonstra a viabilidade do nosso *benchmark*. Esta experiência esclarece os desafios da tarefa, distinguindo entre categorias que são solucionáveis com dados direcionados e aquelas que expõem limitações intrínsecas das arquiteturas de modelos atuais.
A geração de objetos 3D animados está no cerne de muitas aplicações, mas a maioria dos trabalhos avançados é geralmente difícil de aplicar na prática devido à sua configuração limitada, ao seu longo tempo de execução ou à sua qualidade limitada. Apresentamos o ActionMesh, um modelo generativo que prevê malhas 3D prontas para produção "em ação" de maneira direta (feed-forward). Inspirados pelos primeiros modelos de vídeo, nossa ideia principal é modificar os modelos de difusão 3D existentes para incluir um eixo temporal, resultando em uma estrutura que denominamos "difusão 3D temporal". Especificamente, primeiro adaptamos o estágio de difusão 3D para gerar uma sequência de latentes sincronizados que representam formas 3D independentes e variantes no tempo. Em segundo lugar, projetamos um autoencoder 3D temporal que traduz uma sequência de formas independentes nas deformações correspondentes de uma forma de referência pré-definida, permitindo-nos construir uma animação. Combinando esses dois componentes, o ActionMesh gera malhas 3D animadas a partir de diferentes entradas, como um vídeo monocul
A estimativa do progresso de uma tarefa requer raciocínio sobre dinâmicas de longo prazo, e não apenas o reconhecimento de conteúdo visual estático. Embora os Modelos de Visão e Linguagem (VLMs) modernos se destaquem em descrever o que é visível, permanece incerto se eles podem inferir o quanto uma tarefa progrediu a partir de observações parciais. Para isso, apresentamos o Progress-Bench, um benchmark para avaliar sistematicamente o raciocínio sobre progresso em VLMs. Além da avaliação comparativa, exploramos ainda um paradigma de raciocínio sobre progresso em duas etapas, inspirado no humano, por meio tanto de *prompting* sem treinamento quanto de uma abordagem baseada em treinamento utilizando o conjunto de dados curado ProgressLM-45K. Experimentos com 14 VLMs mostram que a maioria dos modelos ainda não está preparada para a estimativa de progresso de tarefas, exibindo sensibilidade à modalidade de demonstração e a mudanças de ponto de vista, além de um desempenho fraco no tratamento de casos sem resposta. Embora o *prompting* sem treinamento que impõe um raciocínio estruturado sobre o progresso produza ganhos limitados e dependentes do modelo, o ProgressLM-3B, baseado em treinamento, alcança melhorias consistentes mesmo em uma escala de modelo pequena, apesar de ter sido treinado em um conjunto de tarefas completamente disjunto das tarefas de avaliação. Análises adicionais revelam padrões característicos de erro e esclarecem quando e por que o raciocínio sobre o progresso tem sucesso ou falha.
Embora os agentes de IA tenham demonstrado capacidades impressionantes em raciocínio de longo prazo, sua confiabilidade é severamente comprometida pela "Espiral de Alucinação", onde erros epistêmicos iniciais propagam-se de forma irreversível. Os métodos existentes enfrentam um dilema: as técnicas de quantificação de incerteza (UQ) geralmente atuam como sensores passivos, apenas diagnosticando riscos sem resolvê-los, enquanto os mecanismos de autorreflexão sofrem com correções contínuas ou sem direção. Para preencher essa lacuna, propomos um framework unificado de Quantificação de Incerteza Agêntica de Processo Duplo (AUQ) que transforma a incerteza verbalizada em sinais de controle ativos e bidirecionais. Nossa arquitetura compreende dois mecanismos complementares: o Sistema 1 (Memória Consciente da Incerteza, UAM), que propaga implicitamente a confiança verbalizada e explicações semânticas para evitar a tomada de decisão cega; e o Sistema 2 (Reflexão Consciente da Incerteza, UAR), que utiliza essas explicações como pistas racionais para acionar uma resolução direcionada no momento da inferência, apenas quando necessário. Isso permite ao agente equilibrar dinamicamente a execução eficiente e a deliberação profunda. Experimentos extensivos em benchmarks de circuito fechado e tarefas abertas de pesquisa profunda demonstram que nossa abordagem *training-free* alcança desempenho superior e calibração a nível de trajetória. Acreditamos que este framework fundamentado, AUQ, representa um passo significativo em direção a agentes confiáveis.
A elevação de imagens e vídeos em perspectiva para panoramas 360° permite a geração de mundos 3D imersivos. As abordagens existentes frequentemente dependem do alinhamento geométrico explícito entre o espaço de projeção perspectiva e o equirretangular (ERP). No entanto, isso requer metadados da câmara conhecidos, obscurecendo a aplicação a dados do mundo real, onde essa calibração tipicamente está ausente ou é ruidosa. Propomos o 360Anything, uma estrutura livre de geometria construída sobre transformers de difusão pré-treinados. Ao tratar a entrada em perspectiva e o panorama alvo simplesmente como sequências de *tokens*, o 360Anything aprende o mapeamento perspectiva-para-equirretangular de uma forma puramente orientada por dados, eliminando a necessidade de informações da câmara. A nossa abordagem atinge um desempenho de última geração na geração de perspectiva-para-360° tanto para imagem como para vídeo, superando trabalhos anteriores que utilizam informações de câmara de verdade terrestre. Também identificamos a causa principal dos artefactos de costura nos limites do ERP como sendo o preenchimento com zeros no codificador VAE e introduzimos a Codificação Latente Circular para facilitar uma geração sem costuras. Por fim, mostramos resultados competitivos em benchmarks de estimativa de campo de visão e orientação da câmara por *zero-shot*, demonstrando a compreensão geométrica profunda do 360Anything e a sua utilidade mais ampla em tarefas de visão computacional. Resultados adicionais estão disponíveis em https://360anything.github.io/.
Os agentes de IA estão a evoluir rapidamente de modelos de linguagem passivos para sistemas autónomos que executam tarefas complexas e multi-etapas. No entanto, a sua excessiva confiança perante falhas continua a ser uma barreira fundamental à sua implementação em contextos de alto risco. Os métodos de calibração existentes, concebidos para saídas estáticas de turno único, não conseguem abordar os desafios únicos dos sistemas agentivos, como erros compostos ao longo de trajetórias, incerteza de ferramentas externas e modos de falha opacos. Para enfrentar estes desafios, introduzimos, pela primeira vez, o problema da Calibração de Confiança Agentiva e propomos a Calibração Holística de Trajetória (HTC), uma nova estrutura de diagnóstico que extrai características ricas a nível de processo, desde dinâmicas macro até à estabilidade micro, ao longo de toda a trajetória de um agente. Alimentado por um modelo simples e interpretável, o HTC supera consistentemente fortes linhas de base tanto em calibração como em discriminação, através de oito benchmarks, múltiplos LLMs e diversas estruturas de agentes. Para além do desempenho, o HTC oferece três avanços essenciais: fornece interpretabilidade ao revelar os sinais por trás das falhas, permite transferibilidade ao aplicar-se em vários domínios sem necessidade de retreino e alcança generalização através de um Calibrador de Agente Geral (GAC) que atinge a melhor calibração (ECE mais baixo) no benchmark GAIA fora do domínio. Em conjunto, estas contribuições estabelecem um novo paradigma de calibração de confiança centrado no processo, fornecendo uma estrutura para diagnosticar e melhorar a fiabilidade dos agentes de IA.
A generalização de Modelos de Linguagem Multimodais de Grande Porte (MLLMs) para novos domínios de vídeo é essencial para a implantação no mundo real, mas permanece um desafio devido à escassez de dados rotulados. Embora a Aprendizagem em Contexto (ICL) ofereça um caminho de adaptação sem treinamento, os métodos padrão dependem de grandes conjuntos de dados anotados, que muitas vezes são impraticáveis em ambientes especializados, como configurações industriais ou cirúrgicas, uma vez que exigem anotações de especialistas. Para preencher essa lacuna, apresentamos o VIOLA (Video In-cOntext Learning with minimal Annotation), um framework eficiente em termos de rótulos que sinergiza a supervisão mínima de especialistas com a abundância de dados não rotulados. Primeiro, para maximizar a eficiência de um orçamento estrito de anotação, propomos uma amostragem ponderada por densidade e incerteza. Diferente de estratégias padrão de diversidade ou incerteza que arriscam selecionar valores atípicos visuais, nosso método aproveita a estimativa de densidade para identificar amostras que são simultaneamente diversificadas, representativas e informativas. Segundo, para utilizar os dados não rotulados restantes sem propagação de ruído, construímos um conjunto híbrido e introduzimos a recuperação consciente da confiança e a promptagem consciente da confiança. Esses mecanismos modelam explicitamente a confiabilidade do rótulo, recuperando demonstrações com base em uma pontuação composta de similaridade e confiança, permitindo que o MLLM distinga adaptativamente entre verdades fundamentais verificadas e pseudo-rótulos ruidosos. Experimentos extensos em nove benchmarks diversos usando quatro MLLMs demonstram que nosso framework supera significativamente várias linhas de base em configurações de baixos recursos, alcançando uma adaptação robusta com custos mínimos de anotação.
Embora os Modelos de Língua Grande (LLMs) demonstrem capacidades notáveis, sua falta de confiabilidade permanece uma barreira crítica para a implantação em domínios de alto risco. Este estudo traça uma evolução funcional no enfrentamento desse desafio: a evolução da incerteza de uma métrica de diagnóstico passiva para um sinal de controle ativo que orienta o comportamento do modelo em tempo real. Demonstramos como a incerteza é aproveitada como um sinal de controle ativo em três frentes: no raciocínio avançado para otimizar a computação e acionar a autocorreção; em agentes autônomos para governar decisões metacognitivas sobre o uso de ferramentas e a busca de informação; e no aprendizado por reforço para mitigar a manipulação de recompensas e permitir a autoaprimoração por meio de recompensas intrínsecas. Ao fundamentar esses avanços em estruturas teóricas emergentes, como métodos Bayesianos e Predição Conformal, oferecemos uma perspectiva unificada sobre essa tendência transformadora. Este estudo fornece uma visão geral abrangente, uma análise crítica e padrões de projeto práticos, argumentando que dominar a nova tendência da incerteza é essencial para construir a próxima geração de IA escalável, confiável e segura.
Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados como simuladores humanos, tanto para avaliar sistemas conversacionais quanto para gerar dados de fine-tuning. No entanto, a abordagem ingênua de instrução "aja-como-um-utilizador" frequentemente produz enunciados verbosos e irreais, salientando a necessidade de uma avaliação fundamentada dos chamados agentes proxy de utilizador. Apresentamos o MIRRORBENCH, uma estrutura de benchmarking reproduzível e extensível que avalia os proxies de utilizador unicamente pela sua capacidade de produzir enunciados de utilizador semelhantes aos humanos em diversas tarefas conversacionais, explicitamente dissociada do sucesso da tarefa subsequente. O MIRRORBENCH possui um motor de execução modular com interfaces tipadas, registos orientados por metadados, suporte multi-backend, cache e observabilidade robusta. O sistema suporta proxies de utilizador plugáveis, conjuntos de dados, tarefas e métricas, permitindo que os investigadores avaliem simuladores arbitrários sob uma estrutura uniforme e consciente da variância. Incluímos três métricas de diversidade lexical (MATTR, K de YULE e HD-D) e três métricas baseadas em juízos de LLM (GTEval, Indistinguibilidade Par a Par e Rubrica e Raciocínio). Em quatro conjuntos de dados abertos, o MIRRORBENCH produz resultados conscientes da variância e revela lacunas sistemáticas entre os proxies de utilizador e os utilizadores humanos reais. A estrutura é de código aberto e inclui uma interface simples de linha de comando para executar experiências, gerir configurações e cache, e gerar relatórios. A estrutura pode ser acedida em https://github.com/SAP/mirrorbench.
Apresentamos o dla-ideal-solver, uma estrutura de alto desempenho para simular Agregação Limitada por Difusão (DLA) bidimensional usando Python acelerado por Numba. Ao aproveitar a compilação just-in-time (JIT), alcançamos um rendimento computacional comparável a implementações estáticas legadas, mantendo a flexibilidade de alto nível. Investigamos a instabilidade de crescimento Laplaciano em várias geometrias de injeção e concentrações de partículas. Nossa análise confirma a robustez da dimensão fractal padrão D_f ≈ 1,71 para regimes diluídos, consistente com a classe de universalidade de Witten-Sander. No entanto, relatamos uma transição distinta para um crescimento compacto do tipo Eden (D_f ≈ 1,87) em ambientes de alta densidade, atribuída à saturação do comprimento de screening. Além da escala padrão massa-raio, empregamos dimensões generalizadas de Rényi e métricas de lacunaridade para quantificar o caráter monofractal e a heterogeneidade espacial dos agregados. Este trabalho estabelece um banco de testes reproduzível e de código aberto para explorar transições de fase na mecânica estatística de não equilíbrio.
Implementamos e avaliamos em hardware quântico da IBM a família de circuitos proposta por Violaris para estimar testemunhas operacionais de comunicação inter-ramos, definidas como correlações em registros clássicos de medição produzidos por circuitos compilados no estilo do amigo de Wigner. Realizamos uma instância de cinco qubits do protocolo como um padrão de transferência de mensagens entre registradores dentro de um único circuito, em vez de sinalização física, e avaliamos seu comportamento sob ruído realista do dispositivo e restrições de compilação. O circuito codifica a evolução condicionada ao ramo de um subsistema observador cuja dinâmica depende de um qubit de controle, seguida por uma operação de transferência controlada que investiga correlações entre contextos de medição condicionais. Executando no *backend* ibm_fez com 20.000 *shots*, observamos uma visibilidade baseada em população de 0,877, testemunhas de coerência de 0,840 e -0,811 ao longo de eixos ortogonais, e uma magnitude sensível à fase de aproximadamente 1,17. Embora a métrica de visibilidade seja insensível a algumas classes de desfaseamento, as testemunhas de coerência fornecem sensibilidade complementar ao ruído fora da diagonal. Este trabalho não testa ou discrimina entre interpretações da mecânica quântica. Em vez disso, fornece um *pipeline* operacional de restrições reproduzível para avaliar a detectabilidade de canais não ideais em relação ao ruído calibrado do dispositivo.
À medida que os modelos de linguagem de grande porte (LLMs) se tornam cada vez mais comuns em aplicações educacionais, surge uma necessidade crescente de métodos baseados em evidências para projetar e avaliar prompts de LLM que produzam resultados personalizados e pedagogicamente alinhados. Este estudo apresenta uma abordagem sistemática e generalizável para avaliar prompts, demonstrada por meio de uma análise de perguntas de acompanhamento geradas por LLM em uma atividade de diálogo estruturado. Seis modelos de prompt foram projetados e testados. Os modelos incorporaram padrões estabelecidos de engenharia de prompts, com cada prompt enfatizando estratégias pedagógicas distintas. Os modelos de prompt foram comparados por meio de uma estrutura de avaliação em estilo de torneio que pode ser adaptada para outras aplicações educacionais. O torneio empregou o sistema de classificação Glicko2, com oito juízes avaliando pares de perguntas em três dimensões: formato, suporte ao diálogo e adequação para os aprendizes. Os dados foram obtidos de 120 interações autênticas de usuários em três implantações educacionais distintas. Os resultados mostraram que um único prompt relacionado à leitura estratégica superou outros modelos, com probabilidades de vitória variando de 81% a 100% em comparações pareadas. Este prompt combinou os padrões de persona e gerenciador de contexto e foi projetado para apoiar estratégias de aprendizagem metacognitivas, como a aprendizagem autodirigida. A metodologia demonstra como os pesquisadores em tecnologia educacional podem avaliar e melhorar sistematicamente os projetos de prompt, passando da engenharia de prompts ad hoc para o desenvolvimento de prompts baseado em evidências para aplicações educacionais.