HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

44 papers found

DataFlex: Um Framework Unificado para o Treinamento Dinâmico Centrado em Dados de Modelos de Linguagem de Grande Porte
DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Mar 27

ByHao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen, Lu Ma, Rongyi Yu, Hengyi Feng, Shixuan Sun, Zimo Meng, Xiaochen Ma, Xuanlin Yang, Qifeng Cai, Ruichuan An, Bohan Zeng, Zhen Hao Wong, Chengyu Shen, Runming He, Zhaoyang Han, Yaowei Zheng, Fangcheng Fu, Conghui He, Bin Cui, Zhiyu Li, Weinan E, Wentao Zhang

139

O treinamento centrado em dados emergiu como uma direção promissora para melhorar os grandes modelos de linguagem (LLMs), otimizando não apenas os parâmetros do modelo, mas também a seleção, composição e ponderação dos dados de treinamento durante a otimização. No entanto, as abordagens existentes para seleção de dados, otimização de mistura de dados e reponderação de dados são frequentemente desenvolvidas em bases de código isoladas com interfaces inconsistentes, dificultando a reprodutibilidade, a comparação justa e a integração prática. Neste artigo, apresentamos o DataFlex, um framework unificado e dinâmico de treinamento centrado em dados construído sobre o LLaMA-Factory. O DataFlex suporta três paradigmas principais de otimização dinâmica de dados: seleção de amostras, ajuste de mistura de domínios e reponderação de amostras, mantendo-se totalmente compatível com o fluxo de trabalho de treinamento original. Ele fornece abstrações de treinador extensíveis e componentes modulares, permitindo uma substituição direta do treinamento padrão de LLMs, e unifica operações-chave dependentes do modelo, como extração de embeddings, inferência e cálculo de gradiente, com suporte para configurações de larga escala, incluindo DeepSpeed ZeRO-3. Realizamos experimentos abrangentes com vários métodos centrados em dados. A seleção dinâmica de dados supera consistentemente o treinamento estático com dados completos no MMLU, tanto para o Mistral-7B quanto para o Llama-3.2-3B. Para a mistura de dados, DoReMi e ODM melhoram a precisão no MMLU e a perplexidade a nível de corpus sobre as proporções padrão ao pré-treinar o Qwen2.5-1.5B no SlimPajama nas escalas de 6B e 30B de tokens. O DataFlex também alcança melhorias consistentes no tempo de execução em relação às implementações originais. Estes resultados demonstram que o DataFlex fornece uma infraestrutura eficaz, eficiente e reprodutível para o treinamento dinâmico centrado em dados de LLMs.

O Espaço Latente: Fundamentos, Evolução, Mecanismo, Capacidades e Perspectivas
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Apr 2

ByXinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan

O espaço latente está rapidamente emergindo como um substrato nativo para modelos baseados em linguagem. Embora os sistemas modernos ainda sejam comumente compreendidos por meio da geração explícita em nível de token, um corpo crescente de trabalho demonstra que muitos processos internos críticos são realizados mais naturalmente no espaço latente contínuo do que em traços verbais legíveis por humanos. Essa mudança é impulsionada pelas limitações estruturais da computação no espaço explícito, incluindo redundância linguística, gargalos de discretização, ineficiência sequencial e perda semântica. Esta revisão tem como objetivo fornecer um panorama unificado e atualizado do espaço latente em modelos baseados em linguagem. Organizamos a revisão em cinco perspectivas sequenciais: Fundação, Evolução, Mecanismo, Capacidade e Perspetivas. Começamos por delinear o âmbito do espaço latente, distinguindo-o do espaço explícito ou verbal e dos espaços latentes comumente estudados em modelos visuais generativos. Em seguida, traçamos a evolução do campo, desde os primeiros esforços exploratórios até a atual expansão em larga escala. Para organizar o panorama técnico, examinamos o trabalho existente através das lentes complementares de mecanismo e capacidade. Da perspetiva do Mecanismo, identificamos quatro grandes linhas de desenvolvimento: Arquitetura, Representação, Computação e Otimização. Da perspetiva da Capacidade, mostramos como o espaço latente suporta um amplo espectro de capacidades que abrange Raciocínio, Planeamento, Modelagem, Perceção, Memória, Colaboração e Corporificação. Para além da consolidação, discutimos os principais desafios em aberto e delineamos direções promissoras para pesquisas futuras. Esperamos que esta revisão sirva não apenas como referência para o trabalho existente, mas também como base para compreender o espaço latente como um paradigma computacional e de sistemas geral para a inteligência de próxima geração.

Renderizador de Mundos Generativo
Generative World Renderer

Apr 2

ByZheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang

A escalabilidade da renderização generativa inversa e direta para cenários do mundo real é limitada pelo realismo e coerência temporal insuficientes dos conjuntos de dados sintéticos existentes. Para superar esta lacuna de domínio persistente, introduzimos um conjunto de dados dinâmico e em larga escala, curado a partir de jogos AAA visualmente complexos. Utilizando um método inédito de captura com dupla tela e costura de imagens, extraímos 4 milhões de quadros contínuos (720p/30 FPS) de canais RGB sincronizados e cinco canais de G-buffer em diversas cenas, efeitos visuais e ambientes, incluindo variantes de condições climáticas adversas e motion blur. Este conjunto de dados avança singularmente a renderização bidirecional: permitindo uma decomposição robusta de geometria e materiais em ambientes não controlados e facilitando a geração de vídeos de alta fidelidade guiada por G-buffer. Adicionalmente, para avaliar o desempenho no mundo real da renderização inversa sem dados de referência (ground truth), propomos um novo protocolo de avaliação baseado em Modelos de Linguagem Visual (VLM) que mede a consistência semântica, espacial e temporal. Experimentos demonstram que os modelos de renderização inversa ajustados com nossos dados alcançam uma generalização superior entre conjuntos de dados e uma geração controlável, enquanto nossa avaliação por VLM apresenta forte correlação com o julgamento humano. Combinado com nosso kit de ferramentas, nosso renderizador direto permite que os usuários editem estilos de jogos AAA a partir de G-buffers usando prompts de texto.

HABILIDADE0: Aprendizagem por Reforço Agêntica em Contexto para Internalização de Habilidades
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Apr 2

ByZhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

Habilidades de agente, pacotes estruturados de conhecimento procedural e recursos executáveis que os agentes carregam dinamicamente durante a inferência, tornaram-se um mecanismo confiável para aumentar agentes de LLM. No entanto, a ampliação de habilidades em tempo de inferência é fundamentalmente limitada: o ruído na recuperação introduz orientação irrelevante, o conteúdo injetado de habilidades impõe uma sobrecarga substancial de tokens, e o modelo nunca adquire verdadeiramente o conhecimento que meramente segue. Perguntamo-nos se as habilidades podem, em vez disso, ser internalizadas nos parâmetros do modelo, permitindo comportamento autónomo de zero-shot sem qualquer recuperação de habilidades em tempo de execução. Apresentamos o SKILL0, uma estrutura de aprendizagem por reforço in-context concebida para internalização de habilidades. O SKILL0 introduz um currículo de treino que começa com contexto completo de habilidades e progressivamente o retira. As habilidades são agrupadas offline por categoria e transformadas com histórico de interação num contexto visual compacto, ensinando ao modelo a invocação de ferramentas e a conclusão de tarefas multi-turno. Um Currículo Dinâmico avalia depois a utilidade on-policy de cada ficheiro de habilidade, retendo apenas aqueles de que a política atual ainda beneficia dentro de um orçamento com decaimento linear, até que o agente opera num ambiente totalmente zero-shot. Experiências agentivas extensivas demonstram que o SKILL0 alcança melhorias substanciais sobre a linha de base padrão de RL (+9,7% para ALFWorld e +6,6% para Search-QA), mantendo um contexto altamente eficiente de menos de 0,5k tokens por passo. O nosso código está disponível em https://github.com/ZJU-REAL/SkillZero.

EgoSim: Simulador de Mundos Egocêntricos para Geração de Interação Corporificada
EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Apr 1

ByJinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu

Apresentamos o EgoSim, um simulador egocêntrico de mundo em circuito fechado que gera vídeos de interação espacialmente consistentes e atualiza persistentemente o estado subjacente da cena 3D para simulação contínua. Os simuladores egocêntricos existentes ou carecem de fundamentação 3D explícita, causando deriva estrutural sob mudanças de ponto de vista, ou tratam a cena como estática, falhando em atualizar os estados do mundo através de interações multiestágio. O EgoSim aborda ambas as limitações modelando cenas 3D como estados do mundo atualizáveis. Geramos interações de embodiamento por meio de um modelo de Simulação de Observação com Consciência Geométrica e de Ação, com consistência espacial proveniente de um módulo de Atualização de Estado com Consciência da Interação. Para superar o crítico gargalo de dados representado pela dificuldade em adquirir pares de treinamento cena-interação densamente alinhados, projetamos um *pipeline* escalável que extrai nuvens de pontos estáticas, trajetórias de câmera e ações de embodiamento de vídeos egocêntricos monoculares em larga escala capturados "*in-the-wild*". Introduzimos ainda o EgoCap, um sistema de captura que permite a coleta de dados do mundo real de baixo custo com *smartphones* não calibrados. Experimentos extensivos demonstram que o EgoSim supera significativamente os métodos existentes em termos de qualidade visual, consistência espacial e generalização para cenas complexas e interações destras "in-the-wild", ao mesmo tempo que suporta transferência de *cross-embodiament* para manipulação robótica. Códigos e conjuntos de dados serão abertos em breve. A página do projeto está em egosimulator.github.io.

Representações Visuais Direcionáveis
Steerable Visual Representations

Apr 2

ByJona Ruthardt, Manu Gaur, Deva Ramanan, Makarand Tapaswi, Yuki M. Asano

Os Vision Transformers (ViTs) pré-treinados, como DINOv2 e MAE, fornecem características visuais genéricas que podem ser aplicadas a diversas tarefas subsequentes, como recuperação, classificação e segmentação. No entanto, tais representações tendem a focar-se nas pistas visuais mais salientes da imagem, sem possibilidade de direcioná-las para conceitos de interesse menos proeminentes. Em contraste, os MLLMs (Multimodal Large Language Models) podem ser orientados por instruções textuais, mas as representações resultantes tendem a ser centradas na linguagem e perdem eficácia para tarefas visuais genéricas. Para resolver isto, introduzimos Representações Visuais Orientáveis, uma nova classe de representações visuais cujas características globais e locais podem ser direcionadas com linguagem natural. Enquanto a maioria dos modelos visão-linguagem (por exemplo, CLIP) funde texto com características visuais após a codificação (fusão tardia), nós injetamos texto diretamente nas camadas do codificador visual (fusão precoce) através de atenção cruzada leve. Introduzimos benchmarks para medir a orientabilidade representacional e demonstramos que as nossas características visuais orientáveis podem focar-se em quaisquer objetos desejados numa imagem, preservando a qualidade da representação subjacente. O nosso método também iguala ou supera abordagens dedicadas na deteção de anomalias e discriminação personalizada de objetos, exibindo generalização zero-shot para tarefas fora da distribuição.

NearID: Aprendizagem de Representação de Identidade por meio de Distratores de Quase-identidade
NearID: Identity Representation Learning via Near-identity Distractors

Apr 2

ByAleksandar Cvejic, Rameen Abdal, Abdelrahman Eldesokey, Bernard Ghanem, Peter Wonka

Ao avaliar tarefas centradas na identidade, como geração personalizada e edição de imagens, os codificadores de visão existentes emaranham a identidade do objeto com o contexto de fundo, levando a representações e métricas não confiáveis. Introduzimos o primeiro framework fundamentado para abordar essa vulnerabilidade usando distratores de Quase-identidade (NearID), nos quais instâncias semanticamente similares, mas distintas, são colocadas exatamente no mesmo fundo de uma imagem de referência, eliminando atalhos contextuais e isolando a identidade como o único sinal discriminativo. Com base neste princípio, apresentamos o conjunto de dados NearID (19K identidades, 316K distratores com contexto correspondente) juntamente com um protocolo de avaliação rigoroso baseado em margem. Nesta configuração, os codificadores pré-treinados têm um desempenho fraco, alcançando Taxas de Sucesso por Amostra (SSR), uma métrica estrita de discriminação de identidade baseada em margem, tão baixas quanto 30,7%, frequentemente classificando os distratores acima de correspondências verdadeiras entre diferentes vistas. Solucionamos isso aprendendo representações conscientes da identidade em um *backbone* congelado usando um objetivo contrastivo de dois níveis que impõe a hierarquia: mesma identidade > distrator NearID > negativo aleatório. Isso melhora a SSR para 99,2%, aumenta a discriminação a nível de partes em 28,0% e resulta em um alinhamento mais forte com os julgamentos humanos no DreamBench++, um *benchmark* alinhado com humanos para personalização. Página do projeto: https://gorluxor.github.io/NearID/

LatentUM: Liberando o Potencial do Raciocínio Intercalado Multimodal por meio de um Modelo Unificado no Espaço Latente
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Apr 2

ByJiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng

Os modelos unificados (MUs) demonstram potencial devido à sua capacidade de compreender e gerar conteúdo em múltiplas modalidades heterogéneas. Em comparação com a mera geração de conteúdo visual, a utilização de MUs para raciocínio cruzado intercalado é mais promissora e valiosa, por exemplo, para resolver problemas de compreensão que exigem pensamento visual denso, melhorar a geração visual através da autorreflexão ou modelar a dinâmica visual do mundo físico orientada por intervenções de ação sequenciais. No entanto, os MUs existentes exigem a descodificação de píxeis como ponte, devido às suas representações visuais dissociadas para compreensão e geração, o que é ineficaz e ineficiente. Neste artigo, apresentamos o LatentUM, um novo modelo unificado que representa todas as modalidades num espaço latente semântico partilhado, eliminando a necessidade de mediação no espaço de píxeis entre a compreensão e a geração visual. Este design permite naturalmente um raciocínio e geração cruzada intercalados e flexíveis. Para além de uma melhor eficiência computacional, a representação partilhada alivia substancialmente o viés do codec e reforça o alinhamento entre modalidades, permitindo ao LatentUM alcançar um desempenho de ponta no benchmark de Planeamento Espacial Visual, expandir os limites da geração visual através da autorreflexão e suportar a modelação do mundo através da previsão de estados visuais futuros dentro do espaço latente semântico partilhado.

Omni-SimpleMem: Descoberta Orientada por Auto-Pesquisa de Memória de Agente Multimodal ao Longo da Vida
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Apr 2

ByJiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao

Os agentes de IA operam cada vez mais em horizontes temporais estendidos, mas a sua capacidade de reter, organizar e recuperar experiências multimodais continua a ser um gargalo crítico. A construção de uma memória vitalícia eficaz requer a navegação por um vasto espaço de projeto que abrange arquitetura, estratégias de recuperação, engenharia de *prompts* e fluxos de dados; este espaço é demasiado amplo e interligado para ser explorado eficazmente através de métodos manuais ou de AutoML tradicional. Implementamos um *pipeline* de pesquisa autónomo para descobrir o Omni-SimpleMem, um quadro unificado de memória multimodal para agentes de IA vitalícios. Partindo de uma base ingénua (F1=0,117 no LoCoMo), o *pipeline* executa de forma autónoma {sim}50 experiências em dois *benchmarks*, diagnosticando modos de falha, propondo modificações arquitetónicas e corrigindo erros nos fluxos de dados, tudo sem intervenção humana no ciclo interno. O sistema resultante atinge o estado da arte em ambos os *benchmarks*, melhorando o F1 em +411% no LoCoMo (0,117 para 0,598) e +214% no Mem-Gallery (0,254 para 0,797) em relação às configurações iniciais. Criticamente, as descobertas mais impactantes não são ajustes de hiperparâmetros: correções de erros (+175%), alterações arquitetónicas (+44%) e engenharia de *prompts* (+188% em categorias específicas) excedem individualmente a contribuição cumulativa de todo o ajuste de hiperparâmetros, demonstrando capacidades fundamentalmente além do alcance do AutoML tradicional. Fornecemos uma taxonomia de seis tipos de descoberta e identificamos quatro propriedades que tornam a memória multimodal particularmente adequada para a autorresearch, oferecendo orientações para aplicar *pipelines* de pesquisa autónomos a outros domínios de sistemas de IA. O código está disponível em https://github.com/aiming-lab/SimpleMem.

VOID: Exclusão de Objetos e Interações em Vídeo
VOID: Video Object and Interaction Deletion

Apr 2

BySaman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng

Os métodos existentes de remoção de objetos em vídeo destacam-se na reconstrução de conteúdo "atrás" do objeto e na correção de artefatos de aparência, como sombras e reflexos. No entanto, quando o objeto removido possui interações mais significativas, como colisões com outros objetos, os modelos atuais falham em corrigi-las e produzem resultados implausíveis. Apresentamos o VOID, uma estrutura de remoção de objetos em vídeo projetada para realizar reconstrução fisicamente plausível nesses cenários complexos. Para treinar o modelo, geramos um novo conjunto de dados pareados de remoções contrafactuais de objetos usando Kubric e HUMOTO, onde a remoção de um objeto requer a alteração de interações físicas subsequentes. Durante a inferência, um modelo de visão e linguagem identifica as regiões da cena afetadas pelo objeto removido. Essas regiões são então usadas para orientar um modelo de difusão de vídeo que gera resultados contrafactuais fisicamente consistentes. Experimentos com dados sintéticos e reais mostram que nossa abordagem preserva melhor a dinâmica consistente da cena após a remoção do objeto em comparação com métodos anteriores de remoção de objetos em vídeo. Esperamos que esta estrutura esclareça como tornar os modelos de edição de vídeo melhores simuladores do mundo por meio do raciocínio causal de alto nível.

Portanto, existo. Penso.
Therefore I am. I Think

Apr 2

ByEsakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani

Consideramos a questão: quando um modelo de raciocínio de linguagem grande faz uma escolha, ele pensa primeiro e depois decide, ou decide primeiro e depois pensa? Neste artigo, apresentamos evidências de que decisões detectáveis, codificadas precocemente, moldam a cadeia de raciocínio (chain-of-thought) em modelos de raciocínio. Especificamente, mostramos que uma sonda linear simples decodifica com sucesso decisões de chamada de ferramentas a partir de ativações pré-geração com confiança muito alta e, em alguns casos, mesmo antes que um único token de raciocínio seja produzido. O direcionamento de ativações (activation steering) apoia isso causalmente: perturbar a direção da decisão leva a uma deliberação inflada e inverte o comportamento em muitos exemplos (entre 7% e 79%, dependendo do modelo e do benchmark). Também mostramos através de análise comportamental que, quando o direcionamento altera a decisão, o processo de cadeia de raciocínio frequentemente racionaliza a inversão em vez de resistir a ela. Juntos, esses resultados sugerem que os modelos de raciocínio podem codificar escolhas de ação antes de começarem a deliberar em texto.

UniDriveVLA: Unificação da Compreensão, Percepção e Planejamento de Ações para Condução Autônoma
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Apr 2

ByYongkang Li, Lijun Zhou, Sixu Yan, Bencheng Liao, Tianyi Yan, Kaixin Xiong, Long Chen, Hongwei Xie, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Haiyang Sun, Xinggang Wang

Os modelos Visão-Linguagem-Ação (VLA) surgiram recentemente na condução autónoma, com a promessa de aproveitar o conhecimento rico do mundo para melhorar as capacidades cognitivas dos sistemas de condução. No entanto, a adaptação de tais modelos para tarefas de condução enfrenta atualmente um dilema crítico entre a perceção espacial e o raciocínio semântico. Consequentemente, os sistemas VLA existentes são forçados a compromissos subótimos: a adoção direta de Modelos de Linguagem Visual 2D produz uma perceção espacial limitada, enquanto a sua melhoria com representações espaciais 3D prejudica frequentemente a capacidade de raciocínio nativa dos VLMs. Argumentamos que este dilema deriva em grande parte da otimização acoplada da perceção espacial e do raciocínio semântico dentro de parâmetros de modelo partilhados. Para superar isto, propomos o UniDriveVLA, um modelo Unificado de Condução Visão-Linguagem-Ação baseado em Mistura de Transformadores que aborda o conflito perceção-raciocínio através do desacoplamento de especialistas. Especificamente, compreende três especialistas para compreensão da condução, perceção da cena e planeamento de ação, que são coordenados através de atenção conjunta mascarada. Além disso, combinamos um paradigma de perceção esparsa com uma estratégia de treino progressivo em três fases para melhorar a perceção espacial, mantendo a capacidade de raciocínio semântico. Experiências extensivas mostram que o UniDriveVLA alcança um desempenho state-of-the-art na avaliação de ciclo aberto no nuScenes e na avaliação de ciclo fechado no Bench2Drive. Além disso, demonstra um forte desempenho numa vasta gama de tarefas de perceção, previsão e compreensão, incluindo deteção 3D, mapeamento online, previsão de movimento e VQA orientado para a condução, destacando a sua ampla aplicabilidade como um modelo unificado para condução autónoma. O código e o modelo foram disponibilizados em https://github.com/xiaomi-research/unidrivevla.

ASI-Evolve: A IA Acelera a IA
ASI-Evolve: AI Accelerates AI

Mar 31

ByWeixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao, Pengfei Liu

A IA pode acelerar o desenvolvimento da própria IA? Embora sistemas agentes recentes tenham demonstrado alto desempenho em tarefas bem delimitadas com *feedback* rápido, ainda não está claro se eles podem lidar com os ciclos de pesquisa custosos, de longo prazo e com supervisão fraca que impulsionam o progresso real da IA. Apresentamos o ASI-Evolve, uma estrutura agente para pesquisa de IA-para-IA que fecha esse ciclo por meio de um processo de aprender-projetar-experimentar-analisar. O ASI-Evolve amplia os agentes evolutivos padrão com dois componentes principais: uma base de cognição que injeta *priors* humanos acumulados em cada rodada de exploração e um analisador dedicado que destila resultados experimentais complexos em *insights* reutilizáveis para iterações futuras. Até onde sabemos, o ASI-Evolve é a primeira estrutura unificada a demonstrar a descoberta dirigida por IA em três componentes centrais do desenvolvimento de IA: dados, arquiteturas e algoritmos de aprendizado. No projeto de arquiteturas neurais, ele descobriu 105 arquiteturas de atenção linear *state-of-the-art* (SOTA), com o melhor modelo descoberto superando o DeltaNet em +0,97 pontos, um ganho quase 3 vezes maior que as melhorias recentes projetadas por humanos. Na curadoria de dados de pré-treinamento, o *pipeline* evoluído melhora o desempenho médio em *benchmarks* em +3,96 pontos, com ganhos superiores a 18 pontos no MMLU. No projeto de algoritmos de aprendizado por reforço, os algoritmos descobertos superam o GRPO em até +12,5 pontos no AMC32, +11,67 pontos no AIME24 e +5,04 pontos no OlympiadBench. Adicionalmente, fornecemos evidências iniciais de que esse paradigma de IA-para-IA pode ser transferido para além da pilha de IA por meio de experimentos em matemática e biomedicina. Juntos, esses resultados sugerem que o ASI-Evolve representa um passo promissor em direção à capacitação da IA para acelerar a IA através dos estágios fundamentais de desenvolvimento, oferecendo evidências preliminares sobre a viabilidade da pesquisa em IA de ciclo fechado.

Investigando as Contribuições de Agentes Autônomos em Ambientes Reais: Padrões de Atividade e Alterações de Código ao Longo do Tempo
Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Apr 1

ByRazvan Mihai Popescu, David Gros, Andrei Botocan, Rahul Pandita, Prem Devanbu, Maliheh Izadi

O surgimento de grandes modelos de linguagem para código revolucionou o desenvolvimento de software. Agentes de codificação autónomos, capazes de criar ramificações, abrir pedidos de *pull request* e realizar revisões de código, contribuem agora ativamente para projetos do mundo real. O seu papel crescente oferece uma oportunidade única e oportuna para investigar as contribuições orientadas por IA e os seus efeitos na qualidade do código, na dinâmica das equipas e na capacidade de manutenção do software. Neste trabalho, construímos um novo conjunto de dados de aproximadamente 110.000 pedidos de *pull request* de código aberto, incluindo os respetivos *commits*, comentários, revisões, problemas e alterações de ficheiros, representando coletivamente milhões de linhas de código fonte. Comparamos cinco agentes de codificação populares, incluindo o OpenAI Codex, Claude Code, GitHub Copilot, Google Jules e Devin, examinando como o seu uso difere em vários aspetos do desenvolvimento, como a frequência de fusão (*merge*), os tipos de ficheiros editados e os sinais de interação dos programadores, incluindo comentários e revisões. Além disso, salientamos que a autoria e a revisão de código são apenas uma pequena parte do processo mais amplo de engenharia de software, uma vez que o código resultante também deve ser mantido e atualizado ao longo do tempo. Por conseguinte, oferecemos várias estimativas longitudinais de taxas de sobrevivência e de rotatividade (*churn*) para código gerado por agentes versus código escrito por humanos. Em última análise, as nossas conclusões indicam uma atividade crescente de agentes em projetos de código aberto, embora as suas contribuições estejam associadas a uma maior rotatividade ao longo do tempo em comparação com o código de autoria humana.

CORAL: Rumo à Evolução Autônoma de Múltiplos Agentes para Descoberta de Largo Espectro
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Apr 2

ByAo Qu, Han Zheng, Zijian Zhou, Yihao Yan, Yihong Tang, Shao Yong Ong, Fenglu Hong, Kaichen Zhou, Chonghe Jiang, Minwei Kong, Jiacheng Zhu, Xuan Jiang, Sirui Li, Cathy Wu, Bryan Kian Hsiang Low, Jinhua Zhao, Paul Pu Liang

A evolução baseada em modelos de linguagem de grande escala (LLM) é uma abordagem promissora para a descoberta de mente aberta, na qual o progresso requer uma busca sustentada e acumulação de conhecimento. Os métodos existentes ainda dependem fortemente de heurísticas fixas e regras de exploração codificadas, o que limita a autonomia dos agentes de LLM. Apresentamos o CORAL, o primeiro framework para evolução multiagente autónoma em problemas de mente aberta. O CORAL substitui o controlo rígido por agentes de longa duração que exploram, refletem e colaboram através de memória persistente partilhada, execução multiagente assíncrona e intervenções baseadas em batimentos cardíacos. Também fornece salvaguardas práticas, incluindo espaços de trabalho isolados, separação de avaliadores, gestão de recursos e gestão de sessões e saúde dos agentes. Avaliado em diversas tarefas matemáticas, algorítmicas e de otimização de sistemas, o CORAL estabelece novos resultados state-of-the-art em 10 tarefas, alcançando taxas de melhoria 3 a 10 vezes superiores com muito menos avaliações do que as linhas de base de busca evolutiva fixa em várias tarefas. Na tarefa de engenharia de *kernel* da Anthropic, quatro agentes em co-evolução melhoraram a melhor pontuação conhecida de 1363 para 1103 ciclos. Análises mecanicistas mostram ainda como esses ganhos surgem da reutilização de conhecimento e da exploração e comunicação multiagente. Em conjunto, estes resultados sugerem que uma maior autonomia do agente e a evolução multiagente podem melhorar substancialmente a descoberta de mente aberta. O código está disponível em https://github.com/Human-Agent-Society/CORAL.

GPA: Aprendizado de Automação de Processos de Interface Gráfica a Partir de Demonstrações
GPA: Learning GUI Process Automation from Demonstrations

Apr 2

ByZirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li

A Automação de Processos via Interface Gráfica (GPA) é uma forma de Automação Robótica de Processos (RPA) leve mas geral, baseada em visão computacional, que permite uma reprodução de processos rápida e estável com apenas uma única demonstração. Para resolver a fragilidade da RPA tradicional e os riscos não determinísticos dos agentes de interface gráfica baseados em modelos de linguagem visual atuais, a GPA introduz três benefícios principais: (1) Robustez através de localização baseada em Sequential Monte Carlo para lidar com redimensionamento e incerteza de deteção; (2) Determinismo e Confiabilidade garantidos por calibração de prontidão; e (3) Privacidade através de execução totalmente local e rápida. Esta abordagem oferece a adaptabilidade, robustez e segurança necessárias para fluxos de trabalho empresariais. Também pode ser utilizada como uma ferramenta MCP/CLI por outros agentes com capacidades de codificação, de modo que o agente apenas raciocine e orquestre, enquanto a GPA trata da execução na interface gráfica. Realizámos uma experiência piloto para comparar a GPA com o Gemini 3 Pro (com ferramentas CUA) e verificámos que a GPA atinge uma taxa de sucesso superior com uma velocidade de execução 10 vezes maior na conclusão de tarefas de interface gráfica de longo prazo.

Tex3D: Objetos como Superfícies de Ataque via Texturas 3D Adversariais para Modelos Visão-Linguagem-Ação
Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Apr 2

ByJiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin

Os modelos visão-linguagem-ação (VLA) têm demonstrado forte desempenho na manipulação robótica, mas sua robustez contra ataques adversários fisicamente realizáveis permanece pouco explorada. Estudos existentes revelam vulnerabilidades por meio de perturbações linguísticas e ataques visuais 2D, porém essas superfícies de ataque são menos representativas de implantações reais ou limitadas em realismo físico. Em contraste, texturas adversárias 3D representam uma ameaça mais plausível fisicamente e mais danosa, uma vez que são naturalmente acopladas a objetos manipulados e mais fáceis de implantar em ambientes físicos. No entanto, trazer texturas adversárias 3D para sistemas VLA não é trivial. Um obstáculo central é que simuladores 3D padrão não fornecem um caminho de otimização diferenciável da função objetivo do VLA de volta à aparência do objeto, dificultando a otimização de maneira end-to-end. Para resolver isso, introduzimos o Desacoplamento Primeiro Plano-Fundo (FBD), que permite a otimização diferenciável de texturas por meio do alinhamento de renderizadores duplos, preservando o ambiente de simulação original. Para garantir ainda que o ataque permaneça eficaz em horizontes temporais longos e diversos pontos de vista no mundo físico, propomos a Otimização Adversária Consciente da Trajetória (TAAO), que prioriza quadros criticamente comportamentais e estabiliza a otimização com uma parametrização baseada em vértices. Com base nesses projetos, apresentamos o Tex3D, o primeiro framework para otimização end-to-end de texturas adversárias 3D diretamente no ambiente de simulação VLA. Experimentos em ambientes de simulação e robótica real mostram que o Tex3D degrada significativamente o desempenho do VLA em múltiplas tarefas de manipulação, atingindo taxas de falha de tarefa de até 96,7%. Nossos resultados empíricos expõem vulnerabilidades críticas dos sistemas VLA a ataques adversários 3D fisicamente fundamentados e destacam a necessidade de treinamento consciente da robustez.

Modelos de Vídeo Raciocinam Precocemente: Explorando o Comprometimento com Planos para Resolução de Labirintos
Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Mar 31

ByKaleb Newman, Tyler Zhu, Olga Russakovsky

Os modelos de difusão de vídeo exibem capacidades emergentes de raciocínio, como resolver labirintos e quebra-cabeças, mas ainda se compreende pouco sobre como eles raciocinam durante a geração. Damos um primeiro passo para compreender este fenómeno e estudamos a dinâmica interna de planeamento dos modelos de vídeo, utilizando a resolução de labirintos 2D como um banco de testes controlado. As nossas investigações revelam duas descobertas. A nossa primeira descoberta é o **comprometimento precoce do plano**: os modelos de difusão de vídeo comprometem-se com um plano de movimento de alto nível nos primeiros passos de remoção de ruído, após os quais a continuação deste processo altera os detalhes visuais, mas não a trajetória subjacente. A nossa segunda descoberta é que o **comprimento do caminho, e não a densidade de obstáculos, é o principal preditor da dificuldade do labirinto**, com um limiar de falha acentuado em 12 passos. Isto significa que os modelos de vídeo só podem raciocinar sobre labirintos longos encadeando várias gerações sequenciais. Para demonstrar os benefícios práticos das nossas descobertas, introduzimos o **Encadeamento com Planeamento Precoce (ChEaP)**, que gasta recursos computacionais apenas em sementes com planos iniciais promissores e os encadeia para lidar com labirintos complexos. Esta abordagem melhora a precisão de 7% para 67% em labirintos de longo horizonte e em 2,5 vezes no geral em tarefas difíceis no Frozen Lake e no VR-Bench, através dos modelos Wan2.2-14B e HunyuanVideo-1.5. A nossa análise revela que os modelos de vídeo atuais possuem capacidades de raciocínio mais profundas do que as previamente reconhecidas, as quais podem ser eliciadas de forma mais fiável com uma melhor escala no momento da inferência.

AIBench: Avaliação da Consistência Visual-Lógica na Geração de Ilustrações Acadêmicas
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Mar 31

ByZhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu

Embora a geração de imagens tenha impulsionado diversas aplicações por meio de sua rápida evolução, a capacidade dos modelos mais avançados em produzir ilustrações acadêmicas prontas para uso em artigos ainda é amplamente inexplorada. Comparar ou avaliar diretamente a ilustração com modelos de linguagem visual (VLM) é uma abordagem ingênua, mas exige uma capacidade oráculo de compreensão multimodal, que é pouco confiável para textos e ilustrações longos e complexos. Para resolver isso, propomos o AIBench, o primeiro benchmark que utiliza VQA (Visual Question Answering) para avaliar a correção lógica das ilustrações acadêmicas e VLMs para avaliar a estética. Em detalhes, projetamos quatro níveis de questões propostas a partir de um diagrama lógico resumido da seção de metodologia do artigo, que questionam se a ilustração gerada está alinhada com o artigo em diferentes escalas. Nossa abordagem baseada em VQA oferece avaliações mais precisas e detalhadas sobre a consistência visual-lógica, dependendo menos da capacidade do VLM avaliador. Com nosso AIBench de alta qualidade, realizamos extensivos experimentos e concluímos que a diferença de desempenho entre os modelos nesta tarefa é significativamente maior do que em tarefas gerais, refletindo suas diversas capacidades de raciocínio complexo e geração de alta densidade. Além disso, a lógica e a estética são difíceis de otimizar simultaneamente, como ocorre em ilustrações artesanais. Experimentos adicionais indicam ainda que o escalonamento em tempo de teste em ambas as habilidades aumenta significativamente o desempenho nesta tarefa.

VideoZeroBench: Investigando os Limites dos MLLMs de Vídeo com Verificação de Evidências Espaço-Temporais
VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Apr 2

ByJiahao Meng, Tan Yue, Qi Xu, Haochen Wang, Zhongwei Ren, Weisong Liu, Yuhao Wang, Renrui Zhang, Yunhai Tong, Haodong Duan

Os modelos multimodais de grande capacidade linguística para vídeo recentes alcançam resultados impressionantes em várias benchmarks. No entanto, as avaliações atuais sofrem de duas limitações críticas: (1) pontuações infladas podem mascarar deficiências na compreensão visual e no raciocínio de granularidade fina, e (2) a correção das respostas é frequentemente medida sem verificar se os modelos identificam a evidência espaço-temporal precisa que suporta as suas previsões. Para resolver isto, apresentamos o VideoZeroBench, uma benchmark hierárquica concebida para questionamento de resposta sobre vídeos longos e desafiante, que verifica rigorosamente a evidência espaço-temporal. Este compreende 500 questões anotadas manualmente em 13 domínios, emparelhadas com intervalos temporais e caixas delimitadoras espaciais como evidência. Para separar a geração de respostas, a localização temporal e a localização espacial, introduzimos um protocolo de avaliação de cinco níveis que progressivamente aperta os requisitos de evidência. Experiências mostram que mesmo o Gemini-3-Pro responde corretamente a menos de 17% das questões no cenário padrão de QA de ponta a ponta (Nível 3). Quando são impostas restrições de localização, o desempenho cai abruptamente: nenhum modelo excede 1% de precisão quando são necessárias tanto a resposta correta como a localização espaço-temporal precisa (Nível 5), com a maioria a falhar na obtenção de quaisquer previsões corretas e fundamentadas. Estes resultados expõem uma lacuna significativa entre a correção superficial da resposta e o genuíno raciocínio baseado em evidências, revelando que a compreensão fundamentada de vídeo permanece um estrangulamento para o questionamento de resposta em vídeos longos. Analisamos ainda o desempenho através de intervalos de evidência mínimos, capacidades atómicas e paradigmas de inferência, fornecendo perspetivas para futuras pesquisas em raciocínio vídeo fundamentado. A benchmark e o código serão disponibilizados publicamente.

AutoMIA: Melhorias nas Linhas de Base para Ataques de Inferência de Associação via Autoexploração Agente
AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

Apr 1

ByRuhao Liu, Weiqi Huang, Qi Li, Xinchao Wang

Os Ataques de Inferência de Associação (MIAs) servem como uma ferramenta fundamental de auditoria para avaliar o vazamento de dados de treinamento em modelos de aprendizado de máquina. No entanto, as metodologias existentes dependem predominantemente de heurísticas estáticas e manuais que carecem de adaptabilidade, frequentemente resultando em desempenho abaixo do ideal quando transferidas entre diferentes modelos de grande escala. Neste trabalho, propomos o AutoMIA, uma estrutura agentiva que reformula a inferência de associação como um processo automatizado de autoexploração e evolução de estratégias. Dadas especificações de cenário de alto nível, o AutoMIA autoexplora o espaço de ataque gerando estratégias executáveis a nível de *logits* e refinando-as progressivamente por meio de *feedback* de avaliação em circuito fechado. Ao desacoplar o raciocínio de estratégia abstrata da execução de baixo nível, nossa estrutura permite uma travessia sistemática e agnóstica ao modelo no espaço de busca de ataques. Experimentos extensivos demonstram que o AutoMIA corresponde ou supera consistentemente os métodos state-of-the-art, eliminando a necessidade de engenharia de características manual.

LinguDistill: Recuperação da Capacidade Linguística em Modelos de Visão e Linguagem por meio de Distilação Cross-Modal Seletiva
LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Apr 1

ByPatrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva

A adaptação de modelos de linguagem pré-treinados (LMs) em modelos visão-linguagem (VLMs) pode degradar a sua capacidade linguística nativa devido ao desvio de representação e à interferência intermodal introduzidos durante a adaptação multimodal. Essa perda é difícil de recuperar, mesmo com um ajuste fino específico para a tarefa utilizando objetivos padrão. As abordagens anteriores de recuperação normalmente introduzem módulos adicionais que atuam como camadas de alinhamento intermediárias para manter ou isolar subes-paços modais específicos, o que aumenta a complexidade arquitetônica, adiciona parâmetros no tempo de inferência e limita a flexibilidade entre modelos e configurações. Propomos o LinguDistill, um método de destilação livre de adaptadores que restaura a capacidade linguística utilizando o LM original congelado como professor. Superamos o desafio fundamental de permitir a supervisão do professor condicionada pela visão através da introdução do compartilhamento hierárquico de cache KV, que expõe o professor às representações multimodais do estudante sem modificar a arquitetura de nenhum dos modelos. Em seguida, destilamos seletivamente o forte sinal linguístico do professor em dados linguisticamente intensivos para recuperar a capacidade de linguagem, preservando ao mesmo tempo a fundamentação visual do estudante em tarefas multimodais. Como resultado, o LinguDistill recupera aproximadamente 10% do desempenho perdido em benchmarks de linguagem e conhecimento, mantendo um desempenho comparável em tarefas com forte componente visual. As nossas descobertas demonstram que a capacidade linguística pode ser recuperada sem módulos adicionais, fornecendo uma solução eficiente e prática para a degradação modal específica em modelos multimodais.

Previsão de Interrupções na Cadeia de Suprimentos com Aprendizado de Prospecção
Forecasting Supply Chain Disruptions with Foresight Learning

Apr 1

ByBenjamin Turtel, Paul Wilczewski, Kris Skotheim

Antecipar interrupções na cadeia de suprimentos antes que elas se materializem é um desafio central para empresas e formuladores de políticas. Uma dificuldade fundamental é aprender a raciocinar de forma confiável sobre eventos infrequentes, mas de alto impacto, a partir de dados ruidosos e não estruturados – um cenário no qual modelos de propósito geral têm dificuldades sem adaptação específica para a tarefa. Apresentamos uma estrutura de trabalho de ponta a ponta que treina LLMs para produzir previsões probabilísticas calibradas, usando resultados de interrupções realizadas como supervisão. O modelo resultante supera significativamente bases de comparação robustas – incluindo o GPT-5 – em precisão, calibração e acurácia. Também demonstramos que o treinamento induz um raciocínio probabilístico mais estruturado e confiável sem a necessidade de instruções explícitas. Esses resultados sugerem um caminho geral para o treinamento de modelos de previsão específicos de domínio que produzam sinais prontos para a tomada de decisão. Para apoiar a transparência, disponibilizamos publicamente o conjunto de dados de avaliação utilizado neste estudo. Conjunto de dados: https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions

MDPBench: Um Benchmark para Análise de Documentos Multilíngues em Cenários do Mundo Real
MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Mar 30

ByZhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu

Apresentamos o Multilingual Document Parsing Benchmark, o primeiro benchmark para análise de documentos digitais e fotografados em múltiplos idiomas. A análise de documentos fez progressos notáveis, mas quase que exclusivamente em páginas limpas, digitais e bem formatadas em um punhado de idiomas dominantes. Não existe um benchmark sistemático para avaliar o desempenho dos modelos em documentos digitais e fotografados abrangendo diversos sistemas de escrita e idiomas de baixos recursos. O MDPBench compreende 3.400 imagens de documentos abrangendo 17 idiomas, diversos sistemas de escrita e variadas condições fotográficas, com anotações de alta qualidade produzidas por meio de um rigoroso pipeline de rotulagem por modelo especialista, correção manual e verificação humana. Para garantir uma comparação justa e evitar vazamento de dados, mantemos divisões de avaliação públicas e privadas separadas. Nossa avaliação abrangente de modelos de código aberto e proprietários revela uma descoberta marcante: enquanto os modelos proprietários (notavelmente o Gemini3-Pro) mostram-se relativamente robustos, as alternativas de código aberto sofrem um colapso dramático de desempenho, particularmente em sistemas de escrita não latinos e em documentos fotografados do mundo real, com uma queda média de 17,8% em documentos fotografados e 14,0% em sistemas de escrita não latinos. Esses resultados revelam desequilíbrios significativos de desempenho entre idiomas e condições, e apontam direções concretas para a construção de sistemas de análise mais inclusivos e prontos para implantação. Fonte disponível em https://github.com/Yuliang-Liu/MultimodalOCR.

Apriel-Reasoner: Pós-treinamento por RL para Raciocínio de Propósito Geral e Eficiente
Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Apr 2

ByRafael Pardinas, Ehsan Kamalloo, David Vazquez, Alexandre Drouin

A construção de modelos de raciocínio de propósito geral utilizando aprendizagem por reforço com recompensas verificáveis (RLVR) em diversos domínios tem sido amplamente adotada por modelos de peso aberto de ponta. No entanto, as suas receitas de treino e misturas de domínios frequentemente não são divulgadas. A otimização conjunta através de domínios apresenta desafios significativos: os domínios variam amplamente em comprimento de *rollout*, dificuldade do problema e eficiência amostral. Adicionalmente, modelos com longos traços de *chain-of-thought* aumentam o custo e a latência de inferência, tornando a eficiência crítica para uma implantação prática. Apresentamos o Apriel-Reasoner, treinado com uma receita de pós-treino totalmente reproduzível de RL multi-domínio no Apriel-Base, um LLM de peso aberto com 15B de parâmetros, em cinco domínios utilizando conjuntos de dados públicos: matemática, geração de código, seguimento de instruções, quebra-cabeças lógicos e chamada de funções. Introduzimos um mecanismo de amostragem de domínio adaptativo que preserva as proporções do domínio-alvo apesar de dinâmicas de *rollout* heterogéneas, e uma extensão do *penalty* de comprimento padrão, sensível à dificuldade, que, sem sobrecarga de treino adicional, incentiva raciocínios mais longos para problemas difíceis e traços mais curtos para os fáceis. Treinado com um rigoroso orçamento de 16K *tokens* de saída, o Apriel-Reasoner generaliza para 32K *tokens* na inferência e supera o Apriel-Base no AIME 2025, GPQA, MMLU-Pro e LiveCodeBench, produzindo simultaneamente traços de raciocínio 30-50% mais curtos. Iguala modelos de peso aberto fortes de tamanho similar a um custo inferior de *tokens*, empurrando assim a fronteira de Pareto da precisão versus orçamento de *tokens*.

FlowSlider: Edição Contínua de Imagens sem Treinamento via Decomposição de Fidelidade e Direcionamento
FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

Apr 2

ByTaichi Endo, Guoqing Hao, Kazuhiko Sumi

A edição contínua de imagens visa fornecer controle deslizante da intensidade da edição, preservando a fidelidade da imagem original e mantendo uma direção de edição consistente. Os métodos de controle deslizante baseados em aprendizado existentes geralmente dependem de módulos auxiliares treinados com supervisão sintética ou proxy. Isso introduz sobrecarga adicional de treinamento e acopla o comportamento do controle à distribuição de treinamento, o que pode reduzir a confiabilidade sob mudanças de distribuição em edições ou domínios. Propomos o FlowSlider, um método sem treinamento para edição contínua em Fluxo Retificado que não requer pós-treinamento. O FlowSlider decompõe a atualização do FlowEdit em (i) um termo de fidelidade, que atua como um estabilizador condicionado à fonte que preserva identidade e estrutura, e (ii) um termo de direcionamento que impulsiona a transição semântica em direção à edição desejada. Análises geométricas e medições empíricas mostram que esses termos são aproximadamente ortogonais, permitindo controle estável da intensidade ao dimensionar apenas o termo de direcionamento enquanto mantém o termo de fidelidade inalterado. Como resultado, o FlowSlider fornece controle suave e confiável sem pós-treinamento, melhorando a qualidade da edição contínua em diversas tarefas.

Relatório Técnico do T5Gemma-TTS
T5Gemma-TTS Technical Report

Apr 2

ByChihiro Arata, Kiyoshi Kurihara

Os modelos de linguagem codec neurais autoregressivos demonstraram forte capacidade de clonagem de voz zero-shot, mas as arquiteturas somente-decodificador tratam o texto de entrada como um prefixo que compete com a sequência de áudio crescente pela capacidade posicional, enfraquecendo o condicionamento textual em enunciados longos. Apresentamos o T5Gemma-TTS, um modelo de linguagem codec codificador-decodificador que mantém um condicionamento textual persistente ao rotear representações textuais bidirecionais por meio de atenção cruzada em cada camada do decodificador. Construído sobre a estrutura pré-treinada codificador-decodificador T5Gemma (codificador de 2B + decodificador de 2B; 4B parâmetros), ele herda conhecimento linguístico rico sem conversão para fonemas e processa o texto diretamente ao nível de subpalavras. Para melhorar o controle de duração, introduzimos o *Progress-Monitoring Rotary Position Embedding* (PM-RoPE) em todas as 26 camadas de atenção cruzada, injetando sinais de progresso normalizados que ajudam o decodificador a rastrear o comprimento da fala alvo. Treinado em 170.000 horas de fala multilíngue em inglês, chinês e japonês, o T5Gemma-TTS alcança um ganho estatisticamente significativo em similaridade do locutor no japonês em relação ao XTTSv2 (0,677 vs. 0,622; intervalos de confiança de 95% não sobrepostos) e a maior similaridade numérica para locutor coreano (0,747), apesar do coreano não estar incluído no treinamento, embora esta margem sobre o XTTSv2 (0,741) não seja estatisticamente conclusiva. Ele também atinge a menor taxa de erro de caracteres japoneses numérica entre cinco modelos de referência (0,126), embora esta classificação deva ser interpretada com cautela devido à sobreposição parcial do intervalo de confiança com o Kokoro. Os resultados em inglês no LibriSpeech devem ser vistos como uma estimativa do limite superior, pois o LibriHeavy é um superconjunto do LibriSpeech. Usando o mesmo *checkpoint*, desabilitar o PM-RoPE na inferência causa uma falha quase completa na síntese: o CER se degrada de 0,129 para 0,982 e a precisão da duração cai de 79% para 46%. O código e os pesos estão disponíveis em https://github.com/Aratako/T5Gemma-TTS.

DynaVid: Aprendendo a Gerar Vídeos Altamente Dinâmicos usando Dados de Movimento Sintéticos
DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Apr 2

ByWonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho

Apesar dos recentes avanços, os modelos de difusão para vídeo ainda lutam para sintetizar vídeos realistas que envolvam movimentos altamente dinâmicos ou que exijam uma controlabilidade de movimento de alto nível. Uma limitação central reside na escassez de tais exemplos nos conjuntos de dados de treinamento comumente utilizados. Para resolver isso, apresentamos o DynaVid, uma estrutura de síntese de vídeo que aproveita dados de movimento sintéticos no treinamento, os quais são representados como fluxo óptico e renderizados usando *pipelines* de computação gráfica. Esta abordagem oferece duas vantagens principais. Primeiro, o movimento sintético oferece padrões de movimento diversificados e sinais de controle precisos que são difíceis de obter a partir de dados reais. Segundo, ao contrário de vídeos renderizados com aparências artificiais, o fluxo óptico renderizado codifica apenas o movimento e está desacoplado da aparência, impedindo assim que os modelos reproduzam a aparência não natural dos vídeos sintéticos. Com base nesta ideia, o DynaVid adota uma estrutura de geração em dois estágios: um gerador de movimento sintetiza primeiro o movimento, e depois um gerador de vídeo guiado por movimento produz os *frames* do vídeo condicionados a esse movimento. Esta formulação desacoplada permite que o modelo aprenda padrões de movimento dinâmicos a partir de dados sintéticos, preservando ao mesmo tempo o realismo visual de vídeos do mundo real. Validamos a nossa estrutura em dois cenários desafiadores, geração de movimento humano vigoroso e controle extremo de movimento de câmera, onde os conjuntos de dados existentes são particularmente limitados. Experimentos extensivos demonstram que o DynaVid melhora o realismo e a controlabilidade na geração de movimento dinâmico e no controle de movimento de câmera.

Omni123: Explorando Modelos de Fundação 3D Nativos com Dados 3D Limitados por meio da Unificação da Geração de Texto para 2D e 3D
Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Apr 2

ByChongjie Ye, Cheng Cao, Chuanyu Pan, Yiming Hao, Yihao Zhi, Yuanming Hu, Xiaoguang Han

Os modelos linguísticos grandes multimodais recentes alcançaram um forte desempenho na compreensão e geração unificada de texto e imagem, mas a extensão dessa capacidade nativa para o 3D permanece um desafio devido à limitação de dados. Em comparação com a abundante imagens 2D, os recursos 3D de alta qualidade são escassos, tornando a síntese 3D sub-restrita. Os métodos existentes frequentemente dependem de pipelines indiretos que editam em 2D e elevam os resultados para 3D via otimização, sacrificando a consistência geométrica. Apresentamos o Omni123, um modelo de base nativo em 3D que unifica a geração de texto-para-2D e texto-para-3D dentro de uma única estrutura autoregressiva. Nossa principal percepção é que a consistência cross-modal entre imagens e 3D pode servir como uma restrição estrutural implícita. Ao representar texto, imagens e 3D como tokens discretos em um espaço de sequência compartilhado, o modelo aproveita os abundantes dados 2D como um pré-requisito geométrico para melhorar as representações 3D. Introduzimos um paradigma de treinamento X-para-X intercalado que coordena diversas tarefas cross-modal sobre conjuntos de dados pareados heterogêneos, sem exigir tripletos de texto-imagem-3D totalmente alinhados. Ao percorrer ciclos semântico-visual-geométricos (por exemplo, texto para imagem para 3D para imagem) dentro de sequências autoregressivas, o modelo aplica conjuntamente o alinhamento semântico, a fidelidade de aparência e a consistência geométrica multi-visão. Experimentos mostram que o Omni123 melhora significativamente a geração e edição 3D guiada por texto, demonstrando um caminho escalável em direção a modelos de mundo 3D multimodais.

Otimização Bayesiana para a Descoberta Científica Eficiente e Fundamentada: Um Tutorial
Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

Apr 1

ByZhongwei Yu, Rasul Tutunov, Alexandre Max Maraval, Zikai Xie, Zhenzhi Tan, Jiankang Wang, Zijing Li, Liangliang Xu, Qi Yang, Jun Jiang, Sanzhong Luo, Zhenxiao Guo, Haitham Bou-Ammar, Jun Wang

A descoberta científica tradicional baseia-se num ciclo iterativo de hipótese-experimentação-refinamento que impulsionou o progresso durante séculos. Contudo, a sua implementação intuitiva e ad hoc frequentemente desperdiça recursos, produz designs ineficientes e omite insights críticos. Este tutorial apresenta a Otimização Bayesiana (OB), uma estrutura probabilística e fundamentada que formaliza e automatiza este ciclo científico central. A OB utiliza modelos substitutos (por exemplo, processos gaussianos) para modelar observações empíricas como hipóteses em evolução, e funções de aquisição para orientar a seleção de experiências, equilibrando a exploração do conhecimento conhecido e a exploração de domínios inexplorados, eliminando assim o trabalho de adivinhação e a tentativa e erro manual. Começamos por enquadrar a descoberta científica como um problema de otimização, depois desconstruímos os componentes centrais da OB, os fluxos de trabalho de ponta a ponta e a sua eficácia no mundo real através de estudos de caso em catálise, ciência dos materiais, síntese orgânica e descoberta de moléculas. Abordamos também extensões técnicas críticas para aplicações científicas, incluindo experimentação em lote, heteroscedasticidade, otimização contextual e integração humana no ciclo. Concebido para um público amplo, este tutorial estabelece uma ponte entre os avanços da IA em OB e as aplicações práticas nas ciências naturais, oferecendo conteúdo escalonado para capacitar investigadores interdisciplinares a projetar experiências mais eficientes e a acelerar a descoberta científica fundamentada.

Injeção Condicional Controlada sem Atenção Multimodal: Rumo a Transformadores de Atenção Linear Controláveis
Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

Mar 29

ByYuhe Liu, Zhenxiong Tan, Yujia Hu, Songhua Liu, Xinchao Wang

Os recentes avanços na geração visual controlável baseada em difusão levaram a melhorias notáveis na qualidade da imagem. No entanto, estes modelos poderosos são normalmente implantados em servidores na nuvem devido às suas grandes exigências computacionais, levantando sérias preocupações sobre a privacidade dos dados do utilizador. Para permitir uma geração segura e eficiente no dispositivo, exploramos neste artigo modelos de difusão controláveis construídos sobre arquiteturas de atenção linear, que oferecem escalabilidade e eficiência superiores, mesmo em dispositivos de ponta. Contudo, as nossas experiências revelam que as estruturas de geração controlável existentes, como ControlNet e OminiControl, ou carecem da flexibilidade para suportar múltiplos tipos de condições heterogéneas ou sofrem de convergência lenta em tais modelos de atenção linear. Para superar estas limitações, propomos uma nova estrutura de difusão controlável adaptada para *backbones* de atenção linear, como o SANA. O cerne do nosso método reside num módulo de condicionamento unificado com porta, que opera num *pipeline* de duplo caminho, integrando eficazmente entradas condicionais de múltiplos tipos, como pistas espacialmente alinhadas e não alinhadas. Experiências extensas em múltiplas tarefas e *benchmarks* demonstram que a nossa abordagem atinge um estado da arte no desempenho de geração controlável baseada em modelos de atenção linear, superando os métodos existentes em termos de fidelidade e controlabilidade.

Notas de Trabalho sobre Dinâmicas de Interação Tardia: Análise de Comportamentos Direcionados em Modelos de Interação Tardia
Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

Mar 27

ByAntoine Edy, Max Conti, Quentin Macé

Embora os modelos de Interação Tardia exibam forte desempenho em recuperação de informação, muitas de suas dinâmicas subjacentes permanecem pouco estudadas, potencialmente ocultando gargalos de desempenho. Neste trabalho, focamos em dois tópicos na recuperação por Interação Tardia: um viés de comprimento que surge ao usar a pontuação multivectorial e a distribuição de similaridade além das melhores pontuações agregadas pelo operador MaxSim. Analisamos esses comportamentos para modelos state-of-the-art no benchmark NanoBEIR. Os resultados mostram que, embora o viés de comprimento teórico dos modelos de Interação Tardia causais se mantenha na prática, modelos bidirecionais também podem sofrer com ele em casos extremos. Também observamos que não há uma tendência significativa de similaridade além do token de documento top-1, validando que o operador MaxSim explora eficientemente as pontuações de similaridade em nível de token.

Agentes Visuais e de Linguagem Aumentados por Memória para Legendagem de Objetos Persistente e Semanticamente Consistente
Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

Mar 30

ByTommaso Galliena, Stefano Rosa, Tommaso Apicella, Pietro Morerio, Alessio Del Bue, Lorenzo Natale

Os Modelos de Visão-Linguagem (VLMs) frequentemente produzem descrições inconsistentes do mesmo objeto em diferentes pontos de vista, dificultando a capacidade de agentes incorporados de construir representações semânticas consistentes ao longo do tempo. Métodos anteriores resolviam inconsistências usando agregação offline de múltiplas vistas ou pipelines multiestágio que desacoplam exploração, associação de dados e aprendizado de legendas, com capacidade limitada de raciocínio sobre objetos previamente observados. Neste artigo, introduzimos um agente unificado de Visão-Linguagem, aumentado por memória, que lida simultaneamente com associação de dados, legendagem de objetos e política de exploração dentro de uma única estrutura autoregressiva. O modelo processa a observação RGB atual, um mapa explorado de cima para baixo e uma memória episódica em nível de objeto serializada em tokens de nível de objeto, garantindo identidade persistente do objeto e consistência semântica em sequências estendidas. Para treinar o modelo de forma autossupervisionada, coletamos um conjunto de dados em ambientes 3D fotorrealistas usando uma política baseada em discordância e um modelo de pseudo-legenda que impõe consistência entre históricos de legendas de múltiplas vistas. A avaliação extensiva em um conjunto de teste anotado manualmente em nível de objeto demonstra melhorias de até +11,86% em pontuações padrão de legendagem e +7,39% em auto-similaridade de legendas em relação aos modelos de base, enquanto permite desempenho escalável através de uma representação compacta da cena. Código, pesos do modelo e dados estão disponíveis em https://hsp-iit.github.io/epos-vlm/.

UniRecGen: Unificação de Reconstrução e Geração 3D Multivisão
UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

Apr 1

ByZhisheng Huang, Jiahao Chen, Cheng Lin, Chenyu Hu, Hanzhuo Huang, Zhengming Yu, Mengfei Li, Yuheng Liu, Zekai Gu, Zibo Zhao, Yuan Liu, Xin Li, Wenping Wang

A modelagem 3D com vistas esparsas representa uma tensão fundamental entre a fidelidade de reconstrução e a plausibilidade generativa. Embora a reconstrução *feed-forward* se destaque em eficiência e alinhamento com a entrada, frequentemente carece dos *priors* globais necessários para a completude estrutural. Por outro lado, a geração baseada em difusão fornece detalhes geométricos ricos, mas luta com a consistência multi-vista. Apresentamos o UniRecGen, uma estrutura unificada que integra esses dois paradigmas em um único sistema cooperativo. Para superar os conflitos inerentes nos espaços de coordenadas, representações 3D e objetivos de treinamento, alinhamos ambos os modelos dentro de um espaço canônico compartilhado. Empregamos um aprendizado cooperativo desacoplado, que mantém o treinamento estável enquanto permite uma colaboração perfeita durante a inferência. Especificamente, o módulo de reconstrução é adaptado para fornecer âncoras geométricas canônicas, enquanto o gerador de difusão aproveita o condicionamento com aumento latente para refinar e completar a estrutura geométrica. Resultados experimentais demonstram que o UniRecGen alcança uma fidelidade e robustez superiores, superando os métodos existentes na criação de modelos 3D completos e consistentes a partir de observações esparsas.

Executar à Medida que Gera: Ocultando a Latência de Execução na Geração de Código por LLMs
Executing as You Generate: Hiding Execution Latency in LLM Code Generation

Apr 1

ByZhensu Sun, Zhihao Lin, Zhi Chen, Chengran Yang, Mingyi Zhou, Li Li, David Lo

Os agentes de codificação baseados em LLM atuais seguem um paradigma de execução serial: o modelo primeiro gera o código completo e, em seguida, invoca um interpretador para executá-lo. Este fluxo de trabalho sequencial deixa o executor inativo durante a geração e o gerador inativo durante a execução, resultando em latência de ponta a ponta desnecessária. Observamos que, ao contrário dos desenvolvedores humanos, os LLMs produzem tokens de código sequencialmente sem revisão, tornando possível executar o código à medida que ele é gerado. Formalizamos este paradigma de execução paralela, modelando-o como um pipeline de três estágios de geração, detecção e execução, e derivamos limites de latência de forma fechada que caracterizam seu potencial de aceleração e regimes de operação. Em seguida, apresentamos o Eager, uma implementação concreta que apresenta fragmentação baseada em AST, lotação dinâmica com execução controlada e interrupção antecipada de erros. Avaliamos o Eager em quatro benchmarks, sete LLMs e três ambientes de execução. Os resultados mostram que o Eager reduz a latência de execução não sobreposta em até 99,9% e a latência de ponta a ponta em até 55% em sete LLMs e quatro benchmarks.

Woosh: Um Modelo de Base para Efeitos Sonoros
Woosh: A Sound Effects Foundation Model

Apr 2

ByGaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji

A comunidade de pesquisa em áudio depende de modelos generativos abertos como ferramentas fundamentais para desenvolver novas abordagens e estabelecer benchmarks. Neste relatório, apresentamos o Woosh, modelo de base para efeitos sonoros lançado publicamente pela Sony AI, detalhando sua arquitetura, processo de treinamento e uma avaliação comparativa com outros modelos abertos populares. Otimizado para efeitos sonoros, fornecemos (1) um modelo codificador/decodificador de áudio de alta qualidade e (2) um modelo de alinhamento texto-áudio para condicionamento, juntamente com (3) modelos generativos de texto-para-áudio e (4) vídeo-para-áudio. Modelos destilados de texto-para-áudio e vídeo-para-áudio também estão incluídos no lançamento, permitindo operação com recursos limitados e inferência rápida. Nossa avaliação em dados públicos e privados mostra desempenho competitivo ou superior para cada módulo quando comparado a alternativas abertas existentes como StableAudio-Open e TangoFlux. O código de inferência e os pesos dos modelos estão disponíveis em https://github.com/SonyResearch/Woosh. Amostras de demonstração podem ser encontradas em https://sonyresearch.github.io/Woosh/.

ActionParty: Vinculação de Ação Multi-Sujeito em Jogos de Vídeo Generativos
ActionParty: Multi-Subject Action Binding in Generative Video Games

Apr 2

ByAlexander Pondaven, Ziyi Wu, Igor Gilitschenski, Philip Torr, Sergey Tulyakov, Fabio Pizzati, Aliaksandr Siarohin

Os recentes avanços na difusão de vídeo permitiram o desenvolvimento de "modelos de mundo" capazes de simular ambientes interativos. No entanto, esses modelos estão amplamente restritos a configurações de agente único, falhando em controlar múltiplos agentes simultaneamente em uma cena. Neste trabalho, abordamos um problema fundamental de vinculação de ações nos modelos de difusão de vídeo existentes, que lutam para associar ações específicas aos seus sujeitos correspondentes. Para esse fim, propomos o ActionParty, um modelo de mundo multi-sujeito com controle de ação para jogos de vídeo generativos. Ele introduz *tokens* de estado do sujeito, ou seja, variáveis latentes que capturam persistentemente o estado de cada sujeito na cena. Ao modelar conjuntamente os *tokens* de estado e os latentes de vídeo com um mecanismo de viés espacial, separamos a renderização global do *frame* de vídeo das atualizações individuais dos sujeitos controlados por ação. Avaliamos o ActionParty no *benchmark* Melting Pot, demonstrando o primeiro modelo de mundo de vídeo capaz de controlar até sete jogadores simultaneamente em 46 ambientes diversos. Nossos resultados mostram melhorias significativas na precisão de seguimento de ação e na consistência de identidade, ao mesmo tempo que permitem o rastreamento autoregressivo robusto de sujeitos através de interações complexas.

Perguntar ou Assumir? Busca de Esclarecimentos Consciente da Incerteza em Agentes de Programação
Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Mar 27

ByNicholas Edwards, Sebastian Schuster

À medida que os agentes de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implantados em domínios abertos, como a engenharia de software, eles frequentemente encontram instruções subespecificadas que carecem de contexto crucial. Enquanto desenvolvedores humanos resolvem naturalmente a subespecificação fazendo perguntas de esclarecimento, os agentes atuais são amplamente otimizados para execução autônoma. Neste trabalho, avaliamos sistematicamente as capacidades de busca de esclarecimento de agentes LLM em uma variante subespecificada do SWE-bench Verified. Propomos um arcabouço multiagente consciente da incerteza que desacopla explicitamente a detecção de subespecificação da execução de código. Nossos resultados demonstram que este sistema multiagente usando OpenHands + Claude Sonnet 4.5 atinge uma taxa de resolução de tarefas de 69,40%, superando significativamente uma configuração padrão de agente único (61,20%) e reduzindo a lacuna de desempenho com agentes que operam em instruções totalmente especificadas. Além disso, descobrimos que o sistema multiagente exibe incerteza bem calibrada, conservando consultas em tarefas simples enquanto busca proativamente informações em questões mais complexas. Essas descobertas indicam que os modelos atuais podem ser transformados em colaboradores proativos, onde os agentes reconhecem independentemente quando fazer perguntas para eliciar informações faltantes em tarefas reais e subespecificadas.

Sinais: Amostragem de Trajetória e Triagem para Interações Agênticas
Signals: Trajectory Sampling and Triage for Agentic Interactions

Apr 1

ByShuguang Chen, Adil Hafeez, Salman Paracha

As aplicações agentes baseadas em modelos de linguagem de grande escala dependem cada vez mais de ciclos de interação multi-etapas que envolvem planejamento, execução de ações e feedback do ambiente. Embora tais sistemas já estejam implantados em escala, melhorá-los após a implantação permanece um desafio. As trajetórias dos agentes são volumosas e não determinísticas, e revisar cada uma delas, seja através de revisão humana ou de LLMs auxiliares, é lento e economicamente inviável. Propomos uma estrutura leve baseada em sinais para triagem de trajetórias de interação agentes. Nossa abordagem calcula sinais baratos e amplamente aplicáveis a partir de interações em tempo real e os anexa como atributos estruturados para triagem de trajetórias, identificando interações potencialmente informativas sem afetar o comportamento online do agente. Organizamos os sinais em uma taxonomia de granularidade grossa abrangendo interação (desalinhamento, estagnação, desengajamento, satisfação), execução (falha, loop) e ambiente (esgotamento), projetada para cálculo sem chamadas de modelo. Em um estudo de anotação controlado no τ-bench, um benchmark amplamente utilizado para avaliação de agentes com ferramentas, mostramos que a amostragem baseada em sinais alcança uma taxa de informatividade de 82\% em comparação com 74\% para filtragem heurística e 54\% para amostragem aleatória, com um ganho de eficiência de 1,52x por trajetória informativa. A vantagem é robusta entre estratos de recompensa e domínios de tarefa, confirmando que os sinais proporcionam ganhos genuínos de informatividade por trajetória, em vez de apenas superamostrar falhas óbvias. Esses resultados mostram que sinais leves podem servir como infraestrutura prática de amostragem para sistemas agentes e sugerem um caminho para a construção de dados de preferência e otimização pós-implantação.

Amigos e Avós In Silico: Localizando Células de Entidades em Modelos de Linguagem
Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Apr 1

ByItay Yona, Dan Barzilay, Michael Karasik, Mor Geva

Os modelos de linguagem podem responder a muitas questões factuais centradas em entidades, mas permanece incerto quais mecanismos internos estão envolvidos nesse processo. Investigamos esta questão em vários modelos de linguagem. Localizamos neurónios MLP seletivos de entidades utilizando *prompts* modelados sobre cada entidade e, em seguida, validamo-los com intervenções causais em exemplos de perguntas e respostas baseados no PopQA. Num conjunto curado de 200 entidades extraídas do PopQA, os neurónios localizados concentram-se nas camadas iniciais. A ablação negativa produz amnésia específica da entidade, enquanto a injeção controlada num *token* de marcador de posição melhora a recuperação da resposta em relação aos controlos de entidade média e de célula incorreta. Para muitas entidades, ativar um único neurónio localizado é suficiente para recuperar previsões consistentes com a entidade, uma vez que o contexto é inicializado, o que é consistente com uma recuperação compacta de entidades em vez de um enriquecimento puramente gradual ao longo da profundidade. A robustez a pseudónimos, acrónimos, erros ortográficos e formas multilingues apoia uma interpretação de canonização. O efeito é forte, mas não universal: nem todas as entidades admitem um único neurónio controlador fiável, e a cobertura é maior para entidades populares. Globalmente, estes resultados identificam pontos de acesso esparsos e causalmente acionáveis para analisar e modular o comportamento factual condicionado por entidades.

Anotação Automática de Características Morfológicas a Nível de Imagem para Imagens de Organismos
Automatic Image-Level Morphological Trait Annotation for Organismal Images

Apr 2

ByVardaan Pahuja, Samuel Stevens, Alyson East, Sydne Record, Yu Su

Os traços morfológicos são características físicas dos organismos biológicos que fornecem pistas vitais sobre como os organismos interagem com o seu ambiente. No entanto, a extração destes traços continua a ser um processo lento e conduzido por especialistas, limitando a sua utilização em estudos ecológicos em larga escala. Um grande obstáculo é a ausência de conjuntos de dados de alta qualidade que liguem imagens biológicas a anotações ao nível dos traços. Neste trabalho, demonstramos que auto codificadores esparsos treinados com características de modelos de base produzem neurónios monossemânticos e espacialmente fundamentados que ativam consistentemente em partes morfológicas significativas. Aproveitando esta propriedade, introduzimos um *pipeline* de anotação de traços que localiza regiões salientes e utiliza *prompting* de visão e linguagem para gerar descrições de traços interpretáveis. Utilizando esta abordagem, construímos o Bioscan-Traits, um conjunto de dados de 80 mil anotações de traços abrangendo 19 mil imagens de insetos do BIOSCAN-5M. A avaliação humana confirma a plausibilidade biológica das descrições morfológicas geradas. Avaliamos a sensibilidade do desenho através de um estudo de ablação abrangente, variando sistematicamente escolhas-chave de desenho e medindo o seu impacto na qualidade das descrições de traços resultantes. Ao anotar traços com um *pipeline* modular em vez de esforços manuais proibitivamente dispendiosos, oferecemos uma forma escalável de injetar supervisão biologicamente significativa em modelos de base, permitir análises morfológicas em larga escala e colmatar o fosso entre a relevância ecológica e a praticidade da aprendizagem automática.

Brainstacks: Capacidades Cognitivas Transdomínio via Pilhas Congeladas MoE-LoRA para Aprendizagem Contínua de LLM
Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Apr 1

ByMohammad R. Abu Ayyash

Apresentamos o Brainstacks, uma arquitetura modular para *fine-tuning* contínuo e multidomínio de grandes modelos de linguagem que empacota a expertise de domínio como pilhas de *adapters* congeladas que se compõem de forma aditiva sobre uma base compartilhada e congelada durante a inferência. Cinco componentes interligados: (1) MoE-LoRA com roteamento do tipo Shazeer (*noisy top-2*) em todas as sete projeções do *transformer* sob quantização QLoRA de 4 bits com escala rsLoRA; (2) um loop interno que realiza *residual boosting* ao congelar pilhas treinadas e adicionar novas; (3) um loop externo que treina pilhas sequenciais específicas por domínio com dependências ordenadas por currículo; (4) projeção no espaço nulo via SVD randomizada, restringindo novas pilhas a subespaços ortogonais a direções anteriores, alcançando esquecimento zero em isolamento; (5) um *meta-roteador* sigmoide baseado em resultados, treinado em alvos de combinação de domínios descobertos empiricamente, que pondera seletivamente as pilhas, permitindo a composição cruzada de domínios. Dois experimentos de fronteira: (6) Pré-treinamento PSN em um modelo inicializado aleatoriamente; (7) RL por domínio (DPO/GRPO) validando a compatibilidade com o alinhamento pós-SFT. Validado em TinyLlama-1.1B (4 domínios, 9 pilhas) e Gemma 3 12B IT (5 domínios, 10 pilhas), o MoE-LoRA alcança convergência 2,5x mais rápida que um único LoRA com correspondência de parâmetros, o *residual boosting* supera o limite de pilha única, e o sistema roteado recupera a qualidade de geração destruída pelo acúmulo não controlado de pilhas. A descoberta central: o roteador baseado em resultados revela que as pilhas de domínio codificam primitivas cognitivas transferíveis (clareza na execução de instruções, raciocínio numérico, lógica procedural, estrutura de *chain-of-thought*) em vez de conhecimento específico do domínio, com *prompts* médicos sendo roteados para pilhas de chat+matemática em 97% dos casos, apesar da ausência de dados médicos nessas pilhas.

MultiGen: Design de Níveis para Mundos Multiplayer Editáveis em Motores de Jogo de Difusão
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Mar 30

ByRyan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz

Os modelos de mundo em vídeo demonstraram imenso potencial para simulação interativa e entretenimento, mas os sistemas atuais ainda lutam com dois aspectos importantes da interatividade: o controle do usuário sobre o ambiente para experiências reproduzíveis e editáveis, e a inferência compartilhada, onde os jogadores exercem influência sobre um mundo comum. Para superar essas limitações, introduzimos uma memória externa explícita no sistema, um estado persistente que opera independentemente da janela de contexto do modelo, sendo continuamente atualizado pelas ações do usuário e consultado durante todo o processo de geração. Diferente dos mecanismos de jogo baseados em difusão convencionais, que funcionam como preditores do próximo quadro, nossa abordagem decompõe a geração em módulos de Memória, Observação e Dinâmica. Este projeto oferece aos usuários controle direto e editável sobre a estrutura do ambiente por meio de uma representação de memória editável e se estende naturalmente para execuções em tempo real multijogador com perspectivas coerentes e interações consistentes entre jogadores.

Uma Receita Empírica para o Reconhecimento Universal de Fonemas
An Empirical Recipe for Universal Phone Recognition

Mar 30

ByShikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen

A reconhecção fonética (RF) é um facilitador crucial para tarefas de processamento de fala multilingue e de baixos recursos, contudo, um desempenho robusto permanece difícil de alcançar. Modelos de alto desempenho focados no inglês não generalizam entre línguas, enquanto os modelos multilingues subutilizam representações pré-treinadas. Também permanece pouco claro como a escala de dados, a arquitetura e o objetivo de treino contribuem para a RF multilingue. Apresentamos o PhoneticXEUS -- treinado com dados multilingues em larga escala e alcançando desempenho de última geração tanto em fala multilingue (17,7% TEF) quanto em fala inglesa com sotaque (10,6% TEF). Através de ablações controladas com avaliações em mais de 100 línguas sob um esquema unificado, estabelecemos empiricamente a nossa receita de treino e quantificamos o impacto das representações de autoaprendizagem, da escala de dados e dos objetivos de perda. Adicionalmente, analisamos padrões de erro entre famílias linguísticas, fala com sotaque e características articulatórias. Todos os dados e código são disponibilizados abertamente.