Artigos de pesquisa em IA selecionados diariamente com traduções
O treinamento centrado em dados emergiu como uma direção promissora para melhorar os grandes modelos de linguagem (LLMs), otimizando não apenas os parâmetros do modelo, mas também a seleção, composição e ponderação dos dados de treinamento durante a otimização. No entanto, as abordagens existentes para seleção de dados, otimização de mistura de dados e reponderação de dados são frequentemente desenvolvidas em bases de código isoladas com interfaces inconsistentes, dificultando a reprodutibilidade, a comparação justa e a integração prática. Neste artigo, apresentamos o DataFlex, um framework unificado e dinâmico de treinamento centrado em dados construído sobre o LLaMA-Factory. O DataFlex suporta três paradigmas principais de otimização dinâmica de dados: seleção de amostras, ajuste de mistura de domínios e reponderação de amostras, mantendo-se totalmente compatível com o fluxo de trabalho de treinamento original. Ele fornece abstrações de treinador extensíveis e componentes modulares, permitindo uma substituição direta do treinamento padrão de LLMs, e unifica operações-chave dependentes do modelo, como extração de embeddings, inferência e cálculo de gradiente, com suporte para configurações de larga escala, incluindo DeepSpeed ZeRO-3. Realizamos experimentos abrangentes com vários métodos centrados em dados. A seleção dinâmica de dados supera consistentemente o treinamento estático com dados completos no MMLU, tanto para o Mistral-7B quanto para o Llama-3.2-3B. Para a mistura de dados, DoReMi e ODM melhoram a precisão no MMLU e a perplexidade a nível de corpus sobre as proporções padrão ao pré-treinar o Qwen2.5-1.5B no SlimPajama nas escalas de 6B e 30B de tokens. O DataFlex também alcança melhorias consistentes no tempo de execução em relação às implementações originais. Estes resultados demonstram que o DataFlex fornece uma infraestrutura eficaz, eficiente e reprodutível para o treinamento dinâmico centrado em dados de LLMs.
O espaço latente está rapidamente emergindo como um substrato nativo para modelos baseados em linguagem. Embora os sistemas modernos ainda sejam comumente compreendidos por meio da geração explícita em nível de token, um corpo crescente de trabalho demonstra que muitos processos internos críticos são realizados mais naturalmente no espaço latente contínuo do que em traços verbais legíveis por humanos. Essa mudança é impulsionada pelas limitações estruturais da computação no espaço explícito, incluindo redundância linguística, gargalos de discretização, ineficiência sequencial e perda semântica. Esta revisão tem como objetivo fornecer um panorama unificado e atualizado do espaço latente em modelos baseados em linguagem. Organizamos a revisão em cinco perspectivas sequenciais: Fundação, Evolução, Mecanismo, Capacidade e Perspetivas. Começamos por delinear o âmbito do espaço latente, distinguindo-o do espaço explícito ou verbal e dos espaços latentes comumente estudados em modelos visuais generativos. Em seguida, traçamos a evolução do campo, desde os primeiros esforços exploratórios até a atual expansão em larga escala. Para organizar o panorama técnico, examinamos o trabalho existente através das lentes complementares de mecanismo e capacidade. Da perspetiva do Mecanismo, identificamos quatro grandes linhas de desenvolvimento: Arquitetura, Representação, Computação e Otimização. Da perspetiva da Capacidade, mostramos como o espaço latente suporta um amplo espectro de capacidades que abrange Raciocínio, Planeamento, Modelagem, Perceção, Memória, Colaboração e Corporificação. Para além da consolidação, discutimos os principais desafios em aberto e delineamos direções promissoras para pesquisas futuras. Esperamos que esta revisão sirva não apenas como referência para o trabalho existente, mas também como base para compreender o espaço latente como um paradigma computacional e de sistemas geral para a inteligência de próxima geração.
A escalabilidade da renderização generativa inversa e direta para cenários do mundo real é limitada pelo realismo e coerência temporal insuficientes dos conjuntos de dados sintéticos existentes. Para superar esta lacuna de domínio persistente, introduzimos um conjunto de dados dinâmico e em larga escala, curado a partir de jogos AAA visualmente complexos. Utilizando um método inédito de captura com dupla tela e costura de imagens, extraímos 4 milhões de quadros contínuos (720p/30 FPS) de canais RGB sincronizados e cinco canais de G-buffer em diversas cenas, efeitos visuais e ambientes, incluindo variantes de condições climáticas adversas e motion blur. Este conjunto de dados avança singularmente a renderização bidirecional: permitindo uma decomposição robusta de geometria e materiais em ambientes não controlados e facilitando a geração de vídeos de alta fidelidade guiada por G-buffer. Adicionalmente, para avaliar o desempenho no mundo real da renderização inversa sem dados de referência (ground truth), propomos um novo protocolo de avaliação baseado em Modelos de Linguagem Visual (VLM) que mede a consistência semântica, espacial e temporal. Experimentos demonstram que os modelos de renderização inversa ajustados com nossos dados alcançam uma generalização superior entre conjuntos de dados e uma geração controlável, enquanto nossa avaliação por VLM apresenta forte correlação com o julgamento humano. Combinado com nosso kit de ferramentas, nosso renderizador direto permite que os usuários editem estilos de jogos AAA a partir de G-buffers usando prompts de texto.
Habilidades de agente, pacotes estruturados de conhecimento procedural e recursos executáveis que os agentes carregam dinamicamente durante a inferência, tornaram-se um mecanismo confiável para aumentar agentes de LLM. No entanto, a ampliação de habilidades em tempo de inferência é fundamentalmente limitada: o ruído na recuperação introduz orientação irrelevante, o conteúdo injetado de habilidades impõe uma sobrecarga substancial de tokens, e o modelo nunca adquire verdadeiramente o conhecimento que meramente segue. Perguntamo-nos se as habilidades podem, em vez disso, ser internalizadas nos parâmetros do modelo, permitindo comportamento autónomo de zero-shot sem qualquer recuperação de habilidades em tempo de execução. Apresentamos o SKILL0, uma estrutura de aprendizagem por reforço in-context concebida para internalização de habilidades. O SKILL0 introduz um currículo de treino que começa com contexto completo de habilidades e progressivamente o retira. As habilidades são agrupadas offline por categoria e transformadas com histórico de interação num contexto visual compacto, ensinando ao modelo a invocação de ferramentas e a conclusão de tarefas multi-turno. Um Currículo Dinâmico avalia depois a utilidade on-policy de cada ficheiro de habilidade, retendo apenas aqueles de que a política atual ainda beneficia dentro de um orçamento com decaimento linear, até que o agente opera num ambiente totalmente zero-shot. Experiências agentivas extensivas demonstram que o SKILL0 alcança melhorias substanciais sobre a linha de base padrão de RL (+9,7% para ALFWorld e +6,6% para Search-QA), mantendo um contexto altamente eficiente de menos de 0,5k tokens por passo. O nosso código está disponível em https://github.com/ZJU-REAL/SkillZero.
Apresentamos o EgoSim, um simulador egocêntrico de mundo em circuito fechado que gera vídeos de interação espacialmente consistentes e atualiza persistentemente o estado subjacente da cena 3D para simulação contínua. Os simuladores egocêntricos existentes ou carecem de fundamentação 3D explícita, causando deriva estrutural sob mudanças de ponto de vista, ou tratam a cena como estática, falhando em atualizar os estados do mundo através de interações multiestágio. O EgoSim aborda ambas as limitações modelando cenas 3D como estados do mundo atualizáveis. Geramos interações de embodiamento por meio de um modelo de Simulação de Observação com Consciência Geométrica e de Ação, com consistência espacial proveniente de um módulo de Atualização de Estado com Consciência da Interação. Para superar o crítico gargalo de dados representado pela dificuldade em adquirir pares de treinamento cena-interação densamente alinhados, projetamos um *pipeline* escalável que extrai nuvens de pontos estáticas, trajetórias de câmera e ações de embodiamento de vídeos egocêntricos monoculares em larga escala capturados "*in-the-wild*". Introduzimos ainda o EgoCap, um sistema de captura que permite a coleta de dados do mundo real de baixo custo com *smartphones* não calibrados. Experimentos extensivos demonstram que o EgoSim supera significativamente os métodos existentes em termos de qualidade visual, consistência espacial e generalização para cenas complexas e interações destras "in-the-wild", ao mesmo tempo que suporta transferência de *cross-embodiament* para manipulação robótica. Códigos e conjuntos de dados serão abertos em breve. A página do projeto está em egosimulator.github.io.
Os Vision Transformers (ViTs) pré-treinados, como DINOv2 e MAE, fornecem características visuais genéricas que podem ser aplicadas a diversas tarefas subsequentes, como recuperação, classificação e segmentação. No entanto, tais representações tendem a focar-se nas pistas visuais mais salientes da imagem, sem possibilidade de direcioná-las para conceitos de interesse menos proeminentes. Em contraste, os MLLMs (Multimodal Large Language Models) podem ser orientados por instruções textuais, mas as representações resultantes tendem a ser centradas na linguagem e perdem eficácia para tarefas visuais genéricas. Para resolver isto, introduzimos Representações Visuais Orientáveis, uma nova classe de representações visuais cujas características globais e locais podem ser direcionadas com linguagem natural. Enquanto a maioria dos modelos visão-linguagem (por exemplo, CLIP) funde texto com características visuais após a codificação (fusão tardia), nós injetamos texto diretamente nas camadas do codificador visual (fusão precoce) através de atenção cruzada leve. Introduzimos benchmarks para medir a orientabilidade representacional e demonstramos que as nossas características visuais orientáveis podem focar-se em quaisquer objetos desejados numa imagem, preservando a qualidade da representação subjacente. O nosso método também iguala ou supera abordagens dedicadas na deteção de anomalias e discriminação personalizada de objetos, exibindo generalização zero-shot para tarefas fora da distribuição.
Ao avaliar tarefas centradas na identidade, como geração personalizada e edição de imagens, os codificadores de visão existentes emaranham a identidade do objeto com o contexto de fundo, levando a representações e métricas não confiáveis. Introduzimos o primeiro framework fundamentado para abordar essa vulnerabilidade usando distratores de Quase-identidade (NearID), nos quais instâncias semanticamente similares, mas distintas, são colocadas exatamente no mesmo fundo de uma imagem de referência, eliminando atalhos contextuais e isolando a identidade como o único sinal discriminativo. Com base neste princípio, apresentamos o conjunto de dados NearID (19K identidades, 316K distratores com contexto correspondente) juntamente com um protocolo de avaliação rigoroso baseado em margem. Nesta configuração, os codificadores pré-treinados têm um desempenho fraco, alcançando Taxas de Sucesso por Amostra (SSR), uma métrica estrita de discriminação de identidade baseada em margem, tão baixas quanto 30,7%, frequentemente classificando os distratores acima de correspondências verdadeiras entre diferentes vistas. Solucionamos isso aprendendo representações conscientes da identidade em um *backbone* congelado usando um objetivo contrastivo de dois níveis que impõe a hierarquia: mesma identidade > distrator NearID > negativo aleatório. Isso melhora a SSR para 99,2%, aumenta a discriminação a nível de partes em 28,0% e resulta em um alinhamento mais forte com os julgamentos humanos no DreamBench++, um *benchmark* alinhado com humanos para personalização. Página do projeto: https://gorluxor.github.io/NearID/
Os modelos unificados (MUs) demonstram potencial devido à sua capacidade de compreender e gerar conteúdo em múltiplas modalidades heterogéneas. Em comparação com a mera geração de conteúdo visual, a utilização de MUs para raciocínio cruzado intercalado é mais promissora e valiosa, por exemplo, para resolver problemas de compreensão que exigem pensamento visual denso, melhorar a geração visual através da autorreflexão ou modelar a dinâmica visual do mundo físico orientada por intervenções de ação sequenciais. No entanto, os MUs existentes exigem a descodificação de píxeis como ponte, devido às suas representações visuais dissociadas para compreensão e geração, o que é ineficaz e ineficiente. Neste artigo, apresentamos o LatentUM, um novo modelo unificado que representa todas as modalidades num espaço latente semântico partilhado, eliminando a necessidade de mediação no espaço de píxeis entre a compreensão e a geração visual. Este design permite naturalmente um raciocínio e geração cruzada intercalados e flexíveis. Para além de uma melhor eficiência computacional, a representação partilhada alivia substancialmente o viés do codec e reforça o alinhamento entre modalidades, permitindo ao LatentUM alcançar um desempenho de ponta no benchmark de Planeamento Espacial Visual, expandir os limites da geração visual através da autorreflexão e suportar a modelação do mundo através da previsão de estados visuais futuros dentro do espaço latente semântico partilhado.
Os agentes de IA operam cada vez mais em horizontes temporais estendidos, mas a sua capacidade de reter, organizar e recuperar experiências multimodais continua a ser um gargalo crítico. A construção de uma memória vitalícia eficaz requer a navegação por um vasto espaço de projeto que abrange arquitetura, estratégias de recuperação, engenharia de *prompts* e fluxos de dados; este espaço é demasiado amplo e interligado para ser explorado eficazmente através de métodos manuais ou de AutoML tradicional. Implementamos um *pipeline* de pesquisa autónomo para descobrir o Omni-SimpleMem, um quadro unificado de memória multimodal para agentes de IA vitalícios. Partindo de uma base ingénua (F1=0,117 no LoCoMo), o *pipeline* executa de forma autónoma {sim}50 experiências em dois *benchmarks*, diagnosticando modos de falha, propondo modificações arquitetónicas e corrigindo erros nos fluxos de dados, tudo sem intervenção humana no ciclo interno. O sistema resultante atinge o estado da arte em ambos os *benchmarks*, melhorando o F1 em +411% no LoCoMo (0,117 para 0,598) e +214% no Mem-Gallery (0,254 para 0,797) em relação às configurações iniciais. Criticamente, as descobertas mais impactantes não são ajustes de hiperparâmetros: correções de erros (+175%), alterações arquitetónicas (+44%) e engenharia de *prompts* (+188% em categorias específicas) excedem individualmente a contribuição cumulativa de todo o ajuste de hiperparâmetros, demonstrando capacidades fundamentalmente além do alcance do AutoML tradicional. Fornecemos uma taxonomia de seis tipos de descoberta e identificamos quatro propriedades que tornam a memória multimodal particularmente adequada para a autorresearch, oferecendo orientações para aplicar *pipelines* de pesquisa autónomos a outros domínios de sistemas de IA. O código está disponível em https://github.com/aiming-lab/SimpleMem.
Os métodos existentes de remoção de objetos em vídeo destacam-se na reconstrução de conteúdo "atrás" do objeto e na correção de artefatos de aparência, como sombras e reflexos. No entanto, quando o objeto removido possui interações mais significativas, como colisões com outros objetos, os modelos atuais falham em corrigi-las e produzem resultados implausíveis. Apresentamos o VOID, uma estrutura de remoção de objetos em vídeo projetada para realizar reconstrução fisicamente plausível nesses cenários complexos. Para treinar o modelo, geramos um novo conjunto de dados pareados de remoções contrafactuais de objetos usando Kubric e HUMOTO, onde a remoção de um objeto requer a alteração de interações físicas subsequentes. Durante a inferência, um modelo de visão e linguagem identifica as regiões da cena afetadas pelo objeto removido. Essas regiões são então usadas para orientar um modelo de difusão de vídeo que gera resultados contrafactuais fisicamente consistentes. Experimentos com dados sintéticos e reais mostram que nossa abordagem preserva melhor a dinâmica consistente da cena após a remoção do objeto em comparação com métodos anteriores de remoção de objetos em vídeo. Esperamos que esta estrutura esclareça como tornar os modelos de edição de vídeo melhores simuladores do mundo por meio do raciocínio causal de alto nível.
Consideramos a questão: quando um modelo de raciocínio de linguagem grande faz uma escolha, ele pensa primeiro e depois decide, ou decide primeiro e depois pensa? Neste artigo, apresentamos evidências de que decisões detectáveis, codificadas precocemente, moldam a cadeia de raciocínio (chain-of-thought) em modelos de raciocínio. Especificamente, mostramos que uma sonda linear simples decodifica com sucesso decisões de chamada de ferramentas a partir de ativações pré-geração com confiança muito alta e, em alguns casos, mesmo antes que um único token de raciocínio seja produzido. O direcionamento de ativações (activation steering) apoia isso causalmente: perturbar a direção da decisão leva a uma deliberação inflada e inverte o comportamento em muitos exemplos (entre 7% e 79%, dependendo do modelo e do benchmark). Também mostramos através de análise comportamental que, quando o direcionamento altera a decisão, o processo de cadeia de raciocínio frequentemente racionaliza a inversão em vez de resistir a ela. Juntos, esses resultados sugerem que os modelos de raciocínio podem codificar escolhas de ação antes de começarem a deliberar em texto.
Os modelos Visão-Linguagem-Ação (VLA) surgiram recentemente na condução autónoma, com a promessa de aproveitar o conhecimento rico do mundo para melhorar as capacidades cognitivas dos sistemas de condução. No entanto, a adaptação de tais modelos para tarefas de condução enfrenta atualmente um dilema crítico entre a perceção espacial e o raciocínio semântico. Consequentemente, os sistemas VLA existentes são forçados a compromissos subótimos: a adoção direta de Modelos de Linguagem Visual 2D produz uma perceção espacial limitada, enquanto a sua melhoria com representações espaciais 3D prejudica frequentemente a capacidade de raciocínio nativa dos VLMs. Argumentamos que este dilema deriva em grande parte da otimização acoplada da perceção espacial e do raciocínio semântico dentro de parâmetros de modelo partilhados. Para superar isto, propomos o UniDriveVLA, um modelo Unificado de Condução Visão-Linguagem-Ação baseado em Mistura de Transformadores que aborda o conflito perceção-raciocínio através do desacoplamento de especialistas. Especificamente, compreende três especialistas para compreensão da condução, perceção da cena e planeamento de ação, que são coordenados através de atenção conjunta mascarada. Além disso, combinamos um paradigma de perceção esparsa com uma estratégia de treino progressivo em três fases para melhorar a perceção espacial, mantendo a capacidade de raciocínio semântico. Experiências extensivas mostram que o UniDriveVLA alcança um desempenho state-of-the-art na avaliação de ciclo aberto no nuScenes e na avaliação de ciclo fechado no Bench2Drive. Além disso, demonstra um forte desempenho numa vasta gama de tarefas de perceção, previsão e compreensão, incluindo deteção 3D, mapeamento online, previsão de movimento e VQA orientado para a condução, destacando a sua ampla aplicabilidade como um modelo unificado para condução autónoma. O código e o modelo foram disponibilizados em https://github.com/xiaomi-research/unidrivevla.
A IA pode acelerar o desenvolvimento da própria IA? Embora sistemas agentes recentes tenham demonstrado alto desempenho em tarefas bem delimitadas com *feedback* rápido, ainda não está claro se eles podem lidar com os ciclos de pesquisa custosos, de longo prazo e com supervisão fraca que impulsionam o progresso real da IA. Apresentamos o ASI-Evolve, uma estrutura agente para pesquisa de IA-para-IA que fecha esse ciclo por meio de um processo de aprender-projetar-experimentar-analisar. O ASI-Evolve amplia os agentes evolutivos padrão com dois componentes principais: uma base de cognição que injeta *priors* humanos acumulados em cada rodada de exploração e um analisador dedicado que destila resultados experimentais complexos em *insights* reutilizáveis para iterações futuras. Até onde sabemos, o ASI-Evolve é a primeira estrutura unificada a demonstrar a descoberta dirigida por IA em três componentes centrais do desenvolvimento de IA: dados, arquiteturas e algoritmos de aprendizado. No projeto de arquiteturas neurais, ele descobriu 105 arquiteturas de atenção linear *state-of-the-art* (SOTA), com o melhor modelo descoberto superando o DeltaNet em +0,97 pontos, um ganho quase 3 vezes maior que as melhorias recentes projetadas por humanos. Na curadoria de dados de pré-treinamento, o *pipeline* evoluído melhora o desempenho médio em *benchmarks* em +3,96 pontos, com ganhos superiores a 18 pontos no MMLU. No projeto de algoritmos de aprendizado por reforço, os algoritmos descobertos superam o GRPO em até +12,5 pontos no AMC32, +11,67 pontos no AIME24 e +5,04 pontos no OlympiadBench. Adicionalmente, fornecemos evidências iniciais de que esse paradigma de IA-para-IA pode ser transferido para além da pilha de IA por meio de experimentos em matemática e biomedicina. Juntos, esses resultados sugerem que o ASI-Evolve representa um passo promissor em direção à capacitação da IA para acelerar a IA através dos estágios fundamentais de desenvolvimento, oferecendo evidências preliminares sobre a viabilidade da pesquisa em IA de ciclo fechado.
O surgimento de grandes modelos de linguagem para código revolucionou o desenvolvimento de software. Agentes de codificação autónomos, capazes de criar ramificações, abrir pedidos de *pull request* e realizar revisões de código, contribuem agora ativamente para projetos do mundo real. O seu papel crescente oferece uma oportunidade única e oportuna para investigar as contribuições orientadas por IA e os seus efeitos na qualidade do código, na dinâmica das equipas e na capacidade de manutenção do software. Neste trabalho, construímos um novo conjunto de dados de aproximadamente 110.000 pedidos de *pull request* de código aberto, incluindo os respetivos *commits*, comentários, revisões, problemas e alterações de ficheiros, representando coletivamente milhões de linhas de código fonte. Comparamos cinco agentes de codificação populares, incluindo o OpenAI Codex, Claude Code, GitHub Copilot, Google Jules e Devin, examinando como o seu uso difere em vários aspetos do desenvolvimento, como a frequência de fusão (*merge*), os tipos de ficheiros editados e os sinais de interação dos programadores, incluindo comentários e revisões. Além disso, salientamos que a autoria e a revisão de código são apenas uma pequena parte do processo mais amplo de engenharia de software, uma vez que o código resultante também deve ser mantido e atualizado ao longo do tempo. Por conseguinte, oferecemos várias estimativas longitudinais de taxas de sobrevivência e de rotatividade (*churn*) para código gerado por agentes versus código escrito por humanos. Em última análise, as nossas conclusões indicam uma atividade crescente de agentes em projetos de código aberto, embora as suas contribuições estejam associadas a uma maior rotatividade ao longo do tempo em comparação com o código de autoria humana.
A evolução baseada em modelos de linguagem de grande escala (LLM) é uma abordagem promissora para a descoberta de mente aberta, na qual o progresso requer uma busca sustentada e acumulação de conhecimento. Os métodos existentes ainda dependem fortemente de heurísticas fixas e regras de exploração codificadas, o que limita a autonomia dos agentes de LLM. Apresentamos o CORAL, o primeiro framework para evolução multiagente autónoma em problemas de mente aberta. O CORAL substitui o controlo rígido por agentes de longa duração que exploram, refletem e colaboram através de memória persistente partilhada, execução multiagente assíncrona e intervenções baseadas em batimentos cardíacos. Também fornece salvaguardas práticas, incluindo espaços de trabalho isolados, separação de avaliadores, gestão de recursos e gestão de sessões e saúde dos agentes. Avaliado em diversas tarefas matemáticas, algorítmicas e de otimização de sistemas, o CORAL estabelece novos resultados state-of-the-art em 10 tarefas, alcançando taxas de melhoria 3 a 10 vezes superiores com muito menos avaliações do que as linhas de base de busca evolutiva fixa em várias tarefas. Na tarefa de engenharia de *kernel* da Anthropic, quatro agentes em co-evolução melhoraram a melhor pontuação conhecida de 1363 para 1103 ciclos. Análises mecanicistas mostram ainda como esses ganhos surgem da reutilização de conhecimento e da exploração e comunicação multiagente. Em conjunto, estes resultados sugerem que uma maior autonomia do agente e a evolução multiagente podem melhorar substancialmente a descoberta de mente aberta. O código está disponível em https://github.com/Human-Agent-Society/CORAL.
A Automação de Processos via Interface Gráfica (GPA) é uma forma de Automação Robótica de Processos (RPA) leve mas geral, baseada em visão computacional, que permite uma reprodução de processos rápida e estável com apenas uma única demonstração. Para resolver a fragilidade da RPA tradicional e os riscos não determinísticos dos agentes de interface gráfica baseados em modelos de linguagem visual atuais, a GPA introduz três benefícios principais: (1) Robustez através de localização baseada em Sequential Monte Carlo para lidar com redimensionamento e incerteza de deteção; (2) Determinismo e Confiabilidade garantidos por calibração de prontidão; e (3) Privacidade através de execução totalmente local e rápida. Esta abordagem oferece a adaptabilidade, robustez e segurança necessárias para fluxos de trabalho empresariais. Também pode ser utilizada como uma ferramenta MCP/CLI por outros agentes com capacidades de codificação, de modo que o agente apenas raciocine e orquestre, enquanto a GPA trata da execução na interface gráfica. Realizámos uma experiência piloto para comparar a GPA com o Gemini 3 Pro (com ferramentas CUA) e verificámos que a GPA atinge uma taxa de sucesso superior com uma velocidade de execução 10 vezes maior na conclusão de tarefas de interface gráfica de longo prazo.
Os modelos visão-linguagem-ação (VLA) têm demonstrado forte desempenho na manipulação robótica, mas sua robustez contra ataques adversários fisicamente realizáveis permanece pouco explorada. Estudos existentes revelam vulnerabilidades por meio de perturbações linguísticas e ataques visuais 2D, porém essas superfícies de ataque são menos representativas de implantações reais ou limitadas em realismo físico. Em contraste, texturas adversárias 3D representam uma ameaça mais plausível fisicamente e mais danosa, uma vez que são naturalmente acopladas a objetos manipulados e mais fáceis de implantar em ambientes físicos. No entanto, trazer texturas adversárias 3D para sistemas VLA não é trivial. Um obstáculo central é que simuladores 3D padrão não fornecem um caminho de otimização diferenciável da função objetivo do VLA de volta à aparência do objeto, dificultando a otimização de maneira end-to-end. Para resolver isso, introduzimos o Desacoplamento Primeiro Plano-Fundo (FBD), que permite a otimização diferenciável de texturas por meio do alinhamento de renderizadores duplos, preservando o ambiente de simulação original. Para garantir ainda que o ataque permaneça eficaz em horizontes temporais longos e diversos pontos de vista no mundo físico, propomos a Otimização Adversária Consciente da Trajetória (TAAO), que prioriza quadros criticamente comportamentais e estabiliza a otimização com uma parametrização baseada em vértices. Com base nesses projetos, apresentamos o Tex3D, o primeiro framework para otimização end-to-end de texturas adversárias 3D diretamente no ambiente de simulação VLA. Experimentos em ambientes de simulação e robótica real mostram que o Tex3D degrada significativamente o desempenho do VLA em múltiplas tarefas de manipulação, atingindo taxas de falha de tarefa de até 96,7%. Nossos resultados empíricos expõem vulnerabilidades críticas dos sistemas VLA a ataques adversários 3D fisicamente fundamentados e destacam a necessidade de treinamento consciente da robustez.
Os modelos de difusão de vídeo exibem capacidades emergentes de raciocínio, como resolver labirintos e quebra-cabeças, mas ainda se compreende pouco sobre como eles raciocinam durante a geração. Damos um primeiro passo para compreender este fenómeno e estudamos a dinâmica interna de planeamento dos modelos de vídeo, utilizando a resolução de labirintos 2D como um banco de testes controlado. As nossas investigações revelam duas descobertas. A nossa primeira descoberta é o **comprometimento precoce do plano**: os modelos de difusão de vídeo comprometem-se com um plano de movimento de alto nível nos primeiros passos de remoção de ruído, após os quais a continuação deste processo altera os detalhes visuais, mas não a trajetória subjacente. A nossa segunda descoberta é que o **comprimento do caminho, e não a densidade de obstáculos, é o principal preditor da dificuldade do labirinto**, com um limiar de falha acentuado em 12 passos. Isto significa que os modelos de vídeo só podem raciocinar sobre labirintos longos encadeando várias gerações sequenciais. Para demonstrar os benefícios práticos das nossas descobertas, introduzimos o **Encadeamento com Planeamento Precoce (ChEaP)**, que gasta recursos computacionais apenas em sementes com planos iniciais promissores e os encadeia para lidar com labirintos complexos. Esta abordagem melhora a precisão de 7% para 67% em labirintos de longo horizonte e em 2,5 vezes no geral em tarefas difíceis no Frozen Lake e no VR-Bench, através dos modelos Wan2.2-14B e HunyuanVideo-1.5. A nossa análise revela que os modelos de vídeo atuais possuem capacidades de raciocínio mais profundas do que as previamente reconhecidas, as quais podem ser eliciadas de forma mais fiável com uma melhor escala no momento da inferência.
Embora a geração de imagens tenha impulsionado diversas aplicações por meio de sua rápida evolução, a capacidade dos modelos mais avançados em produzir ilustrações acadêmicas prontas para uso em artigos ainda é amplamente inexplorada. Comparar ou avaliar diretamente a ilustração com modelos de linguagem visual (VLM) é uma abordagem ingênua, mas exige uma capacidade oráculo de compreensão multimodal, que é pouco confiável para textos e ilustrações longos e complexos. Para resolver isso, propomos o AIBench, o primeiro benchmark que utiliza VQA (Visual Question Answering) para avaliar a correção lógica das ilustrações acadêmicas e VLMs para avaliar a estética. Em detalhes, projetamos quatro níveis de questões propostas a partir de um diagrama lógico resumido da seção de metodologia do artigo, que questionam se a ilustração gerada está alinhada com o artigo em diferentes escalas. Nossa abordagem baseada em VQA oferece avaliações mais precisas e detalhadas sobre a consistência visual-lógica, dependendo menos da capacidade do VLM avaliador. Com nosso AIBench de alta qualidade, realizamos extensivos experimentos e concluímos que a diferença de desempenho entre os modelos nesta tarefa é significativamente maior do que em tarefas gerais, refletindo suas diversas capacidades de raciocínio complexo e geração de alta densidade. Além disso, a lógica e a estética são difíceis de otimizar simultaneamente, como ocorre em ilustrações artesanais. Experimentos adicionais indicam ainda que o escalonamento em tempo de teste em ambas as habilidades aumenta significativamente o desempenho nesta tarefa.
Os modelos multimodais de grande capacidade linguística para vídeo recentes alcançam resultados impressionantes em várias benchmarks. No entanto, as avaliações atuais sofrem de duas limitações críticas: (1) pontuações infladas podem mascarar deficiências na compreensão visual e no raciocínio de granularidade fina, e (2) a correção das respostas é frequentemente medida sem verificar se os modelos identificam a evidência espaço-temporal precisa que suporta as suas previsões. Para resolver isto, apresentamos o VideoZeroBench, uma benchmark hierárquica concebida para questionamento de resposta sobre vídeos longos e desafiante, que verifica rigorosamente a evidência espaço-temporal. Este compreende 500 questões anotadas manualmente em 13 domínios, emparelhadas com intervalos temporais e caixas delimitadoras espaciais como evidência. Para separar a geração de respostas, a localização temporal e a localização espacial, introduzimos um protocolo de avaliação de cinco níveis que progressivamente aperta os requisitos de evidência. Experiências mostram que mesmo o Gemini-3-Pro responde corretamente a menos de 17% das questões no cenário padrão de QA de ponta a ponta (Nível 3). Quando são impostas restrições de localização, o desempenho cai abruptamente: nenhum modelo excede 1% de precisão quando são necessárias tanto a resposta correta como a localização espaço-temporal precisa (Nível 5), com a maioria a falhar na obtenção de quaisquer previsões corretas e fundamentadas. Estes resultados expõem uma lacuna significativa entre a correção superficial da resposta e o genuíno raciocínio baseado em evidências, revelando que a compreensão fundamentada de vídeo permanece um estrangulamento para o questionamento de resposta em vídeos longos. Analisamos ainda o desempenho através de intervalos de evidência mínimos, capacidades atómicas e paradigmas de inferência, fornecendo perspetivas para futuras pesquisas em raciocínio vídeo fundamentado. A benchmark e o código serão disponibilizados publicamente.
Os Ataques de Inferência de Associação (MIAs) servem como uma ferramenta fundamental de auditoria para avaliar o vazamento de dados de treinamento em modelos de aprendizado de máquina. No entanto, as metodologias existentes dependem predominantemente de heurísticas estáticas e manuais que carecem de adaptabilidade, frequentemente resultando em desempenho abaixo do ideal quando transferidas entre diferentes modelos de grande escala. Neste trabalho, propomos o AutoMIA, uma estrutura agentiva que reformula a inferência de associação como um processo automatizado de autoexploração e evolução de estratégias. Dadas especificações de cenário de alto nível, o AutoMIA autoexplora o espaço de ataque gerando estratégias executáveis a nível de *logits* e refinando-as progressivamente por meio de *feedback* de avaliação em circuito fechado. Ao desacoplar o raciocínio de estratégia abstrata da execução de baixo nível, nossa estrutura permite uma travessia sistemática e agnóstica ao modelo no espaço de busca de ataques. Experimentos extensivos demonstram que o AutoMIA corresponde ou supera consistentemente os métodos state-of-the-art, eliminando a necessidade de engenharia de características manual.
A adaptação de modelos de linguagem pré-treinados (LMs) em modelos visão-linguagem (VLMs) pode degradar a sua capacidade linguística nativa devido ao desvio de representação e à interferência intermodal introduzidos durante a adaptação multimodal. Essa perda é difícil de recuperar, mesmo com um ajuste fino específico para a tarefa utilizando objetivos padrão. As abordagens anteriores de recuperação normalmente introduzem módulos adicionais que atuam como camadas de alinhamento intermediárias para manter ou isolar subes-paços modais específicos, o que aumenta a complexidade arquitetônica, adiciona parâmetros no tempo de inferência e limita a flexibilidade entre modelos e configurações. Propomos o LinguDistill, um método de destilação livre de adaptadores que restaura a capacidade linguística utilizando o LM original congelado como professor. Superamos o desafio fundamental de permitir a supervisão do professor condicionada pela visão através da introdução do compartilhamento hierárquico de cache KV, que expõe o professor às representações multimodais do estudante sem modificar a arquitetura de nenhum dos modelos. Em seguida, destilamos seletivamente o forte sinal linguístico do professor em dados linguisticamente intensivos para recuperar a capacidade de linguagem, preservando ao mesmo tempo a fundamentação visual do estudante em tarefas multimodais. Como resultado, o LinguDistill recupera aproximadamente 10% do desempenho perdido em benchmarks de linguagem e conhecimento, mantendo um desempenho comparável em tarefas com forte componente visual. As nossas descobertas demonstram que a capacidade linguística pode ser recuperada sem módulos adicionais, fornecendo uma solução eficiente e prática para a degradação modal específica em modelos multimodais.
Antecipar interrupções na cadeia de suprimentos antes que elas se materializem é um desafio central para empresas e formuladores de políticas. Uma dificuldade fundamental é aprender a raciocinar de forma confiável sobre eventos infrequentes, mas de alto impacto, a partir de dados ruidosos e não estruturados – um cenário no qual modelos de propósito geral têm dificuldades sem adaptação específica para a tarefa. Apresentamos uma estrutura de trabalho de ponta a ponta que treina LLMs para produzir previsões probabilísticas calibradas, usando resultados de interrupções realizadas como supervisão. O modelo resultante supera significativamente bases de comparação robustas – incluindo o GPT-5 – em precisão, calibração e acurácia. Também demonstramos que o treinamento induz um raciocínio probabilístico mais estruturado e confiável sem a necessidade de instruções explícitas. Esses resultados sugerem um caminho geral para o treinamento de modelos de previsão específicos de domínio que produzam sinais prontos para a tomada de decisão. Para apoiar a transparência, disponibilizamos publicamente o conjunto de dados de avaliação utilizado neste estudo. Conjunto de dados: https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions
Apresentamos o Multilingual Document Parsing Benchmark, o primeiro benchmark para análise de documentos digitais e fotografados em múltiplos idiomas. A análise de documentos fez progressos notáveis, mas quase que exclusivamente em páginas limpas, digitais e bem formatadas em um punhado de idiomas dominantes. Não existe um benchmark sistemático para avaliar o desempenho dos modelos em documentos digitais e fotografados abrangendo diversos sistemas de escrita e idiomas de baixos recursos. O MDPBench compreende 3.400 imagens de documentos abrangendo 17 idiomas, diversos sistemas de escrita e variadas condições fotográficas, com anotações de alta qualidade produzidas por meio de um rigoroso pipeline de rotulagem por modelo especialista, correção manual e verificação humana. Para garantir uma comparação justa e evitar vazamento de dados, mantemos divisões de avaliação públicas e privadas separadas. Nossa avaliação abrangente de modelos de código aberto e proprietários revela uma descoberta marcante: enquanto os modelos proprietários (notavelmente o Gemini3-Pro) mostram-se relativamente robustos, as alternativas de código aberto sofrem um colapso dramático de desempenho, particularmente em sistemas de escrita não latinos e em documentos fotografados do mundo real, com uma queda média de 17,8% em documentos fotografados e 14,0% em sistemas de escrita não latinos. Esses resultados revelam desequilíbrios significativos de desempenho entre idiomas e condições, e apontam direções concretas para a construção de sistemas de análise mais inclusivos e prontos para implantação. Fonte disponível em https://github.com/Yuliang-Liu/MultimodalOCR.
A construção de modelos de raciocínio de propósito geral utilizando aprendizagem por reforço com recompensas verificáveis (RLVR) em diversos domínios tem sido amplamente adotada por modelos de peso aberto de ponta. No entanto, as suas receitas de treino e misturas de domínios frequentemente não são divulgadas. A otimização conjunta através de domínios apresenta desafios significativos: os domínios variam amplamente em comprimento de *rollout*, dificuldade do problema e eficiência amostral. Adicionalmente, modelos com longos traços de *chain-of-thought* aumentam o custo e a latência de inferência, tornando a eficiência crítica para uma implantação prática. Apresentamos o Apriel-Reasoner, treinado com uma receita de pós-treino totalmente reproduzível de RL multi-domínio no Apriel-Base, um LLM de peso aberto com 15B de parâmetros, em cinco domínios utilizando conjuntos de dados públicos: matemática, geração de código, seguimento de instruções, quebra-cabeças lógicos e chamada de funções. Introduzimos um mecanismo de amostragem de domínio adaptativo que preserva as proporções do domínio-alvo apesar de dinâmicas de *rollout* heterogéneas, e uma extensão do *penalty* de comprimento padrão, sensível à dificuldade, que, sem sobrecarga de treino adicional, incentiva raciocínios mais longos para problemas difíceis e traços mais curtos para os fáceis. Treinado com um rigoroso orçamento de 16K *tokens* de saída, o Apriel-Reasoner generaliza para 32K *tokens* na inferência e supera o Apriel-Base no AIME 2025, GPQA, MMLU-Pro e LiveCodeBench, produzindo simultaneamente traços de raciocínio 30-50% mais curtos. Iguala modelos de peso aberto fortes de tamanho similar a um custo inferior de *tokens*, empurrando assim a fronteira de Pareto da precisão versus orçamento de *tokens*.
A edição contínua de imagens visa fornecer controle deslizante da intensidade da edição, preservando a fidelidade da imagem original e mantendo uma direção de edição consistente. Os métodos de controle deslizante baseados em aprendizado existentes geralmente dependem de módulos auxiliares treinados com supervisão sintética ou proxy. Isso introduz sobrecarga adicional de treinamento e acopla o comportamento do controle à distribuição de treinamento, o que pode reduzir a confiabilidade sob mudanças de distribuição em edições ou domínios. Propomos o FlowSlider, um método sem treinamento para edição contínua em Fluxo Retificado que não requer pós-treinamento. O FlowSlider decompõe a atualização do FlowEdit em (i) um termo de fidelidade, que atua como um estabilizador condicionado à fonte que preserva identidade e estrutura, e (ii) um termo de direcionamento que impulsiona a transição semântica em direção à edição desejada. Análises geométricas e medições empíricas mostram que esses termos são aproximadamente ortogonais, permitindo controle estável da intensidade ao dimensionar apenas o termo de direcionamento enquanto mantém o termo de fidelidade inalterado. Como resultado, o FlowSlider fornece controle suave e confiável sem pós-treinamento, melhorando a qualidade da edição contínua em diversas tarefas.
Os modelos de linguagem codec neurais autoregressivos demonstraram forte capacidade de clonagem de voz zero-shot, mas as arquiteturas somente-decodificador tratam o texto de entrada como um prefixo que compete com a sequência de áudio crescente pela capacidade posicional, enfraquecendo o condicionamento textual em enunciados longos. Apresentamos o T5Gemma-TTS, um modelo de linguagem codec codificador-decodificador que mantém um condicionamento textual persistente ao rotear representações textuais bidirecionais por meio de atenção cruzada em cada camada do decodificador. Construído sobre a estrutura pré-treinada codificador-decodificador T5Gemma (codificador de 2B + decodificador de 2B; 4B parâmetros), ele herda conhecimento linguístico rico sem conversão para fonemas e processa o texto diretamente ao nível de subpalavras. Para melhorar o controle de duração, introduzimos o *Progress-Monitoring Rotary Position Embedding* (PM-RoPE) em todas as 26 camadas de atenção cruzada, injetando sinais de progresso normalizados que ajudam o decodificador a rastrear o comprimento da fala alvo. Treinado em 170.000 horas de fala multilíngue em inglês, chinês e japonês, o T5Gemma-TTS alcança um ganho estatisticamente significativo em similaridade do locutor no japonês em relação ao XTTSv2 (0,677 vs. 0,622; intervalos de confiança de 95% não sobrepostos) e a maior similaridade numérica para locutor coreano (0,747), apesar do coreano não estar incluído no treinamento, embora esta margem sobre o XTTSv2 (0,741) não seja estatisticamente conclusiva. Ele também atinge a menor taxa de erro de caracteres japoneses numérica entre cinco modelos de referência (0,126), embora esta classificação deva ser interpretada com cautela devido à sobreposição parcial do intervalo de confiança com o Kokoro. Os resultados em inglês no LibriSpeech devem ser vistos como uma estimativa do limite superior, pois o LibriHeavy é um superconjunto do LibriSpeech. Usando o mesmo *checkpoint*, desabilitar o PM-RoPE na inferência causa uma falha quase completa na síntese: o CER se degrada de 0,129 para 0,982 e a precisão da duração cai de 79% para 46%. O código e os pesos estão disponíveis em https://github.com/Aratako/T5Gemma-TTS.
Apesar dos recentes avanços, os modelos de difusão para vídeo ainda lutam para sintetizar vídeos realistas que envolvam movimentos altamente dinâmicos ou que exijam uma controlabilidade de movimento de alto nível. Uma limitação central reside na escassez de tais exemplos nos conjuntos de dados de treinamento comumente utilizados. Para resolver isso, apresentamos o DynaVid, uma estrutura de síntese de vídeo que aproveita dados de movimento sintéticos no treinamento, os quais são representados como fluxo óptico e renderizados usando *pipelines* de computação gráfica. Esta abordagem oferece duas vantagens principais. Primeiro, o movimento sintético oferece padrões de movimento diversificados e sinais de controle precisos que são difíceis de obter a partir de dados reais. Segundo, ao contrário de vídeos renderizados com aparências artificiais, o fluxo óptico renderizado codifica apenas o movimento e está desacoplado da aparência, impedindo assim que os modelos reproduzam a aparência não natural dos vídeos sintéticos. Com base nesta ideia, o DynaVid adota uma estrutura de geração em dois estágios: um gerador de movimento sintetiza primeiro o movimento, e depois um gerador de vídeo guiado por movimento produz os *frames* do vídeo condicionados a esse movimento. Esta formulação desacoplada permite que o modelo aprenda padrões de movimento dinâmicos a partir de dados sintéticos, preservando ao mesmo tempo o realismo visual de vídeos do mundo real. Validamos a nossa estrutura em dois cenários desafiadores, geração de movimento humano vigoroso e controle extremo de movimento de câmera, onde os conjuntos de dados existentes são particularmente limitados. Experimentos extensivos demonstram que o DynaVid melhora o realismo e a controlabilidade na geração de movimento dinâmico e no controle de movimento de câmera.
Os modelos linguísticos grandes multimodais recentes alcançaram um forte desempenho na compreensão e geração unificada de texto e imagem, mas a extensão dessa capacidade nativa para o 3D permanece um desafio devido à limitação de dados. Em comparação com a abundante imagens 2D, os recursos 3D de alta qualidade são escassos, tornando a síntese 3D sub-restrita. Os métodos existentes frequentemente dependem de pipelines indiretos que editam em 2D e elevam os resultados para 3D via otimização, sacrificando a consistência geométrica. Apresentamos o Omni123, um modelo de base nativo em 3D que unifica a geração de texto-para-2D e texto-para-3D dentro de uma única estrutura autoregressiva. Nossa principal percepção é que a consistência cross-modal entre imagens e 3D pode servir como uma restrição estrutural implícita. Ao representar texto, imagens e 3D como tokens discretos em um espaço de sequência compartilhado, o modelo aproveita os abundantes dados 2D como um pré-requisito geométrico para melhorar as representações 3D. Introduzimos um paradigma de treinamento X-para-X intercalado que coordena diversas tarefas cross-modal sobre conjuntos de dados pareados heterogêneos, sem exigir tripletos de texto-imagem-3D totalmente alinhados. Ao percorrer ciclos semântico-visual-geométricos (por exemplo, texto para imagem para 3D para imagem) dentro de sequências autoregressivas, o modelo aplica conjuntamente o alinhamento semântico, a fidelidade de aparência e a consistência geométrica multi-visão. Experimentos mostram que o Omni123 melhora significativamente a geração e edição 3D guiada por texto, demonstrando um caminho escalável em direção a modelos de mundo 3D multimodais.
A descoberta científica tradicional baseia-se num ciclo iterativo de hipótese-experimentação-refinamento que impulsionou o progresso durante séculos. Contudo, a sua implementação intuitiva e ad hoc frequentemente desperdiça recursos, produz designs ineficientes e omite insights críticos. Este tutorial apresenta a Otimização Bayesiana (OB), uma estrutura probabilística e fundamentada que formaliza e automatiza este ciclo científico central. A OB utiliza modelos substitutos (por exemplo, processos gaussianos) para modelar observações empíricas como hipóteses em evolução, e funções de aquisição para orientar a seleção de experiências, equilibrando a exploração do conhecimento conhecido e a exploração de domínios inexplorados, eliminando assim o trabalho de adivinhação e a tentativa e erro manual. Começamos por enquadrar a descoberta científica como um problema de otimização, depois desconstruímos os componentes centrais da OB, os fluxos de trabalho de ponta a ponta e a sua eficácia no mundo real através de estudos de caso em catálise, ciência dos materiais, síntese orgânica e descoberta de moléculas. Abordamos também extensões técnicas críticas para aplicações científicas, incluindo experimentação em lote, heteroscedasticidade, otimização contextual e integração humana no ciclo. Concebido para um público amplo, este tutorial estabelece uma ponte entre os avanços da IA em OB e as aplicações práticas nas ciências naturais, oferecendo conteúdo escalonado para capacitar investigadores interdisciplinares a projetar experiências mais eficientes e a acelerar a descoberta científica fundamentada.
Os recentes avanços na geração visual controlável baseada em difusão levaram a melhorias notáveis na qualidade da imagem. No entanto, estes modelos poderosos são normalmente implantados em servidores na nuvem devido às suas grandes exigências computacionais, levantando sérias preocupações sobre a privacidade dos dados do utilizador. Para permitir uma geração segura e eficiente no dispositivo, exploramos neste artigo modelos de difusão controláveis construídos sobre arquiteturas de atenção linear, que oferecem escalabilidade e eficiência superiores, mesmo em dispositivos de ponta. Contudo, as nossas experiências revelam que as estruturas de geração controlável existentes, como ControlNet e OminiControl, ou carecem da flexibilidade para suportar múltiplos tipos de condições heterogéneas ou sofrem de convergência lenta em tais modelos de atenção linear. Para superar estas limitações, propomos uma nova estrutura de difusão controlável adaptada para *backbones* de atenção linear, como o SANA. O cerne do nosso método reside num módulo de condicionamento unificado com porta, que opera num *pipeline* de duplo caminho, integrando eficazmente entradas condicionais de múltiplos tipos, como pistas espacialmente alinhadas e não alinhadas. Experiências extensas em múltiplas tarefas e *benchmarks* demonstram que a nossa abordagem atinge um estado da arte no desempenho de geração controlável baseada em modelos de atenção linear, superando os métodos existentes em termos de fidelidade e controlabilidade.
Embora os modelos de Interação Tardia exibam forte desempenho em recuperação de informação, muitas de suas dinâmicas subjacentes permanecem pouco estudadas, potencialmente ocultando gargalos de desempenho. Neste trabalho, focamos em dois tópicos na recuperação por Interação Tardia: um viés de comprimento que surge ao usar a pontuação multivectorial e a distribuição de similaridade além das melhores pontuações agregadas pelo operador MaxSim. Analisamos esses comportamentos para modelos state-of-the-art no benchmark NanoBEIR. Os resultados mostram que, embora o viés de comprimento teórico dos modelos de Interação Tardia causais se mantenha na prática, modelos bidirecionais também podem sofrer com ele em casos extremos. Também observamos que não há uma tendência significativa de similaridade além do token de documento top-1, validando que o operador MaxSim explora eficientemente as pontuações de similaridade em nível de token.
Os Modelos de Visão-Linguagem (VLMs) frequentemente produzem descrições inconsistentes do mesmo objeto em diferentes pontos de vista, dificultando a capacidade de agentes incorporados de construir representações semânticas consistentes ao longo do tempo. Métodos anteriores resolviam inconsistências usando agregação offline de múltiplas vistas ou pipelines multiestágio que desacoplam exploração, associação de dados e aprendizado de legendas, com capacidade limitada de raciocínio sobre objetos previamente observados. Neste artigo, introduzimos um agente unificado de Visão-Linguagem, aumentado por memória, que lida simultaneamente com associação de dados, legendagem de objetos e política de exploração dentro de uma única estrutura autoregressiva. O modelo processa a observação RGB atual, um mapa explorado de cima para baixo e uma memória episódica em nível de objeto serializada em tokens de nível de objeto, garantindo identidade persistente do objeto e consistência semântica em sequências estendidas. Para treinar o modelo de forma autossupervisionada, coletamos um conjunto de dados em ambientes 3D fotorrealistas usando uma política baseada em discordância e um modelo de pseudo-legenda que impõe consistência entre históricos de legendas de múltiplas vistas. A avaliação extensiva em um conjunto de teste anotado manualmente em nível de objeto demonstra melhorias de até +11,86% em pontuações padrão de legendagem e +7,39% em auto-similaridade de legendas em relação aos modelos de base, enquanto permite desempenho escalável através de uma representação compacta da cena. Código, pesos do modelo e dados estão disponíveis em https://hsp-iit.github.io/epos-vlm/.
A modelagem 3D com vistas esparsas representa uma tensão fundamental entre a fidelidade de reconstrução e a plausibilidade generativa. Embora a reconstrução *feed-forward* se destaque em eficiência e alinhamento com a entrada, frequentemente carece dos *priors* globais necessários para a completude estrutural. Por outro lado, a geração baseada em difusão fornece detalhes geométricos ricos, mas luta com a consistência multi-vista. Apresentamos o UniRecGen, uma estrutura unificada que integra esses dois paradigmas em um único sistema cooperativo. Para superar os conflitos inerentes nos espaços de coordenadas, representações 3D e objetivos de treinamento, alinhamos ambos os modelos dentro de um espaço canônico compartilhado. Empregamos um aprendizado cooperativo desacoplado, que mantém o treinamento estável enquanto permite uma colaboração perfeita durante a inferência. Especificamente, o módulo de reconstrução é adaptado para fornecer âncoras geométricas canônicas, enquanto o gerador de difusão aproveita o condicionamento com aumento latente para refinar e completar a estrutura geométrica. Resultados experimentais demonstram que o UniRecGen alcança uma fidelidade e robustez superiores, superando os métodos existentes na criação de modelos 3D completos e consistentes a partir de observações esparsas.
Os agentes de codificação baseados em LLM atuais seguem um paradigma de execução serial: o modelo primeiro gera o código completo e, em seguida, invoca um interpretador para executá-lo. Este fluxo de trabalho sequencial deixa o executor inativo durante a geração e o gerador inativo durante a execução, resultando em latência de ponta a ponta desnecessária. Observamos que, ao contrário dos desenvolvedores humanos, os LLMs produzem tokens de código sequencialmente sem revisão, tornando possível executar o código à medida que ele é gerado. Formalizamos este paradigma de execução paralela, modelando-o como um pipeline de três estágios de geração, detecção e execução, e derivamos limites de latência de forma fechada que caracterizam seu potencial de aceleração e regimes de operação. Em seguida, apresentamos o Eager, uma implementação concreta que apresenta fragmentação baseada em AST, lotação dinâmica com execução controlada e interrupção antecipada de erros. Avaliamos o Eager em quatro benchmarks, sete LLMs e três ambientes de execução. Os resultados mostram que o Eager reduz a latência de execução não sobreposta em até 99,9% e a latência de ponta a ponta em até 55% em sete LLMs e quatro benchmarks.
A comunidade de pesquisa em áudio depende de modelos generativos abertos como ferramentas fundamentais para desenvolver novas abordagens e estabelecer benchmarks. Neste relatório, apresentamos o Woosh, modelo de base para efeitos sonoros lançado publicamente pela Sony AI, detalhando sua arquitetura, processo de treinamento e uma avaliação comparativa com outros modelos abertos populares. Otimizado para efeitos sonoros, fornecemos (1) um modelo codificador/decodificador de áudio de alta qualidade e (2) um modelo de alinhamento texto-áudio para condicionamento, juntamente com (3) modelos generativos de texto-para-áudio e (4) vídeo-para-áudio. Modelos destilados de texto-para-áudio e vídeo-para-áudio também estão incluídos no lançamento, permitindo operação com recursos limitados e inferência rápida. Nossa avaliação em dados públicos e privados mostra desempenho competitivo ou superior para cada módulo quando comparado a alternativas abertas existentes como StableAudio-Open e TangoFlux. O código de inferência e os pesos dos modelos estão disponíveis em https://github.com/SonyResearch/Woosh. Amostras de demonstração podem ser encontradas em https://sonyresearch.github.io/Woosh/.
Os recentes avanços na difusão de vídeo permitiram o desenvolvimento de "modelos de mundo" capazes de simular ambientes interativos. No entanto, esses modelos estão amplamente restritos a configurações de agente único, falhando em controlar múltiplos agentes simultaneamente em uma cena. Neste trabalho, abordamos um problema fundamental de vinculação de ações nos modelos de difusão de vídeo existentes, que lutam para associar ações específicas aos seus sujeitos correspondentes. Para esse fim, propomos o ActionParty, um modelo de mundo multi-sujeito com controle de ação para jogos de vídeo generativos. Ele introduz *tokens* de estado do sujeito, ou seja, variáveis latentes que capturam persistentemente o estado de cada sujeito na cena. Ao modelar conjuntamente os *tokens* de estado e os latentes de vídeo com um mecanismo de viés espacial, separamos a renderização global do *frame* de vídeo das atualizações individuais dos sujeitos controlados por ação. Avaliamos o ActionParty no *benchmark* Melting Pot, demonstrando o primeiro modelo de mundo de vídeo capaz de controlar até sete jogadores simultaneamente em 46 ambientes diversos. Nossos resultados mostram melhorias significativas na precisão de seguimento de ação e na consistência de identidade, ao mesmo tempo que permitem o rastreamento autoregressivo robusto de sujeitos através de interações complexas.
À medida que os agentes de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implantados em domínios abertos, como a engenharia de software, eles frequentemente encontram instruções subespecificadas que carecem de contexto crucial. Enquanto desenvolvedores humanos resolvem naturalmente a subespecificação fazendo perguntas de esclarecimento, os agentes atuais são amplamente otimizados para execução autônoma. Neste trabalho, avaliamos sistematicamente as capacidades de busca de esclarecimento de agentes LLM em uma variante subespecificada do SWE-bench Verified. Propomos um arcabouço multiagente consciente da incerteza que desacopla explicitamente a detecção de subespecificação da execução de código. Nossos resultados demonstram que este sistema multiagente usando OpenHands + Claude Sonnet 4.5 atinge uma taxa de resolução de tarefas de 69,40%, superando significativamente uma configuração padrão de agente único (61,20%) e reduzindo a lacuna de desempenho com agentes que operam em instruções totalmente especificadas. Além disso, descobrimos que o sistema multiagente exibe incerteza bem calibrada, conservando consultas em tarefas simples enquanto busca proativamente informações em questões mais complexas. Essas descobertas indicam que os modelos atuais podem ser transformados em colaboradores proativos, onde os agentes reconhecem independentemente quando fazer perguntas para eliciar informações faltantes em tarefas reais e subespecificadas.
As aplicações agentes baseadas em modelos de linguagem de grande escala dependem cada vez mais de ciclos de interação multi-etapas que envolvem planejamento, execução de ações e feedback do ambiente. Embora tais sistemas já estejam implantados em escala, melhorá-los após a implantação permanece um desafio. As trajetórias dos agentes são volumosas e não determinísticas, e revisar cada uma delas, seja através de revisão humana ou de LLMs auxiliares, é lento e economicamente inviável. Propomos uma estrutura leve baseada em sinais para triagem de trajetórias de interação agentes. Nossa abordagem calcula sinais baratos e amplamente aplicáveis a partir de interações em tempo real e os anexa como atributos estruturados para triagem de trajetórias, identificando interações potencialmente informativas sem afetar o comportamento online do agente. Organizamos os sinais em uma taxonomia de granularidade grossa abrangendo interação (desalinhamento, estagnação, desengajamento, satisfação), execução (falha, loop) e ambiente (esgotamento), projetada para cálculo sem chamadas de modelo. Em um estudo de anotação controlado no τ-bench, um benchmark amplamente utilizado para avaliação de agentes com ferramentas, mostramos que a amostragem baseada em sinais alcança uma taxa de informatividade de 82\% em comparação com 74\% para filtragem heurística e 54\% para amostragem aleatória, com um ganho de eficiência de 1,52x por trajetória informativa. A vantagem é robusta entre estratos de recompensa e domínios de tarefa, confirmando que os sinais proporcionam ganhos genuínos de informatividade por trajetória, em vez de apenas superamostrar falhas óbvias. Esses resultados mostram que sinais leves podem servir como infraestrutura prática de amostragem para sistemas agentes e sugerem um caminho para a construção de dados de preferência e otimização pós-implantação.
Os modelos de linguagem podem responder a muitas questões factuais centradas em entidades, mas permanece incerto quais mecanismos internos estão envolvidos nesse processo. Investigamos esta questão em vários modelos de linguagem. Localizamos neurónios MLP seletivos de entidades utilizando *prompts* modelados sobre cada entidade e, em seguida, validamo-los com intervenções causais em exemplos de perguntas e respostas baseados no PopQA. Num conjunto curado de 200 entidades extraídas do PopQA, os neurónios localizados concentram-se nas camadas iniciais. A ablação negativa produz amnésia específica da entidade, enquanto a injeção controlada num *token* de marcador de posição melhora a recuperação da resposta em relação aos controlos de entidade média e de célula incorreta. Para muitas entidades, ativar um único neurónio localizado é suficiente para recuperar previsões consistentes com a entidade, uma vez que o contexto é inicializado, o que é consistente com uma recuperação compacta de entidades em vez de um enriquecimento puramente gradual ao longo da profundidade. A robustez a pseudónimos, acrónimos, erros ortográficos e formas multilingues apoia uma interpretação de canonização. O efeito é forte, mas não universal: nem todas as entidades admitem um único neurónio controlador fiável, e a cobertura é maior para entidades populares. Globalmente, estes resultados identificam pontos de acesso esparsos e causalmente acionáveis para analisar e modular o comportamento factual condicionado por entidades.
Os traços morfológicos são características físicas dos organismos biológicos que fornecem pistas vitais sobre como os organismos interagem com o seu ambiente. No entanto, a extração destes traços continua a ser um processo lento e conduzido por especialistas, limitando a sua utilização em estudos ecológicos em larga escala. Um grande obstáculo é a ausência de conjuntos de dados de alta qualidade que liguem imagens biológicas a anotações ao nível dos traços. Neste trabalho, demonstramos que auto codificadores esparsos treinados com características de modelos de base produzem neurónios monossemânticos e espacialmente fundamentados que ativam consistentemente em partes morfológicas significativas. Aproveitando esta propriedade, introduzimos um *pipeline* de anotação de traços que localiza regiões salientes e utiliza *prompting* de visão e linguagem para gerar descrições de traços interpretáveis. Utilizando esta abordagem, construímos o Bioscan-Traits, um conjunto de dados de 80 mil anotações de traços abrangendo 19 mil imagens de insetos do BIOSCAN-5M. A avaliação humana confirma a plausibilidade biológica das descrições morfológicas geradas. Avaliamos a sensibilidade do desenho através de um estudo de ablação abrangente, variando sistematicamente escolhas-chave de desenho e medindo o seu impacto na qualidade das descrições de traços resultantes. Ao anotar traços com um *pipeline* modular em vez de esforços manuais proibitivamente dispendiosos, oferecemos uma forma escalável de injetar supervisão biologicamente significativa em modelos de base, permitir análises morfológicas em larga escala e colmatar o fosso entre a relevância ecológica e a praticidade da aprendizagem automática.
Apresentamos o Brainstacks, uma arquitetura modular para *fine-tuning* contínuo e multidomínio de grandes modelos de linguagem que empacota a expertise de domínio como pilhas de *adapters* congeladas que se compõem de forma aditiva sobre uma base compartilhada e congelada durante a inferência. Cinco componentes interligados: (1) MoE-LoRA com roteamento do tipo Shazeer (*noisy top-2*) em todas as sete projeções do *transformer* sob quantização QLoRA de 4 bits com escala rsLoRA; (2) um loop interno que realiza *residual boosting* ao congelar pilhas treinadas e adicionar novas; (3) um loop externo que treina pilhas sequenciais específicas por domínio com dependências ordenadas por currículo; (4) projeção no espaço nulo via SVD randomizada, restringindo novas pilhas a subespaços ortogonais a direções anteriores, alcançando esquecimento zero em isolamento; (5) um *meta-roteador* sigmoide baseado em resultados, treinado em alvos de combinação de domínios descobertos empiricamente, que pondera seletivamente as pilhas, permitindo a composição cruzada de domínios. Dois experimentos de fronteira: (6) Pré-treinamento PSN em um modelo inicializado aleatoriamente; (7) RL por domínio (DPO/GRPO) validando a compatibilidade com o alinhamento pós-SFT. Validado em TinyLlama-1.1B (4 domínios, 9 pilhas) e Gemma 3 12B IT (5 domínios, 10 pilhas), o MoE-LoRA alcança convergência 2,5x mais rápida que um único LoRA com correspondência de parâmetros, o *residual boosting* supera o limite de pilha única, e o sistema roteado recupera a qualidade de geração destruída pelo acúmulo não controlado de pilhas. A descoberta central: o roteador baseado em resultados revela que as pilhas de domínio codificam primitivas cognitivas transferíveis (clareza na execução de instruções, raciocínio numérico, lógica procedural, estrutura de *chain-of-thought*) em vez de conhecimento específico do domínio, com *prompts* médicos sendo roteados para pilhas de chat+matemática em 97% dos casos, apesar da ausência de dados médicos nessas pilhas.
Os modelos de mundo em vídeo demonstraram imenso potencial para simulação interativa e entretenimento, mas os sistemas atuais ainda lutam com dois aspectos importantes da interatividade: o controle do usuário sobre o ambiente para experiências reproduzíveis e editáveis, e a inferência compartilhada, onde os jogadores exercem influência sobre um mundo comum. Para superar essas limitações, introduzimos uma memória externa explícita no sistema, um estado persistente que opera independentemente da janela de contexto do modelo, sendo continuamente atualizado pelas ações do usuário e consultado durante todo o processo de geração. Diferente dos mecanismos de jogo baseados em difusão convencionais, que funcionam como preditores do próximo quadro, nossa abordagem decompõe a geração em módulos de Memória, Observação e Dinâmica. Este projeto oferece aos usuários controle direto e editável sobre a estrutura do ambiente por meio de uma representação de memória editável e se estende naturalmente para execuções em tempo real multijogador com perspectivas coerentes e interações consistentes entre jogadores.
A reconhecção fonética (RF) é um facilitador crucial para tarefas de processamento de fala multilingue e de baixos recursos, contudo, um desempenho robusto permanece difícil de alcançar. Modelos de alto desempenho focados no inglês não generalizam entre línguas, enquanto os modelos multilingues subutilizam representações pré-treinadas. Também permanece pouco claro como a escala de dados, a arquitetura e o objetivo de treino contribuem para a RF multilingue. Apresentamos o PhoneticXEUS -- treinado com dados multilingues em larga escala e alcançando desempenho de última geração tanto em fala multilingue (17,7% TEF) quanto em fala inglesa com sotaque (10,6% TEF). Através de ablações controladas com avaliações em mais de 100 línguas sob um esquema unificado, estabelecemos empiricamente a nossa receita de treino e quantificamos o impacto das representações de autoaprendizagem, da escala de dados e dos objetivos de perda. Adicionalmente, analisamos padrões de erro entre famílias linguísticas, fala com sotaque e características articulatórias. Todos os dados e código são disponibilizados abertamente.