Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Qwen-Image, um modelo base de geração de imagens da série Qwen que alcança avanços significativos na renderização de textos complexos e na edição precisa de imagens. Para enfrentar os desafios da renderização de textos complexos, projetamos um pipeline de dados abrangente que inclui coleta de dados em larga escala, filtragem, anotação, síntese e balanceamento. Além disso, adotamos uma estratégia de treinamento progressivo que começa com a renderização de não-texto para texto, evolui de entradas textuais simples para complexas e gradualmente escala para descrições em nível de parágrafo. Essa abordagem de aprendizado curricular aprimora substancialmente as capacidades nativas de renderização de texto do modelo. Como resultado, o Qwen-Image não apenas se destaca em idiomas alfabéticos como o inglês, mas também alcança progressos notáveis em idiomas logográficos mais desafiadores, como o chinês. Para melhorar a consistência na edição de imagens, introduzimos um paradigma de treinamento multitarefa aprimorado que incorpora não apenas as tarefas tradicionais de texto para imagem (T2I) e texto-imagem para imagem (TI2I), mas também a reconstrução de imagem para imagem (I2I), alinhando efetivamente as representações latentes entre o Qwen2.5-VL e o MMDiT. Além disso, alimentamos separadamente a imagem original no Qwen2.5-VL e no codificador VAE para obter representações semânticas e reconstrutivas, respectivamente. Esse mecanismo de codificação dupla permite que o módulo de edição equilibre a preservação da consistência semântica e a manutenção da fidelidade visual. O Qwen-Image alcança desempenho de ponta, demonstrando suas fortes capacidades tanto na geração quanto na edição de imagens em diversos benchmarks.
A geração aumentada por recuperação (RAG) em documentos longos geralmente envolve dividir o texto em partes menores, que servem como unidades básicas para a recuperação. No entanto, devido às dependências ao longo do documento original, informações contextuais são frequentemente essenciais para interpretar cada parte com precisão. Para abordar isso, trabalhos anteriores exploraram a codificação de janelas de contexto mais longas para produzir embeddings de partes maiores. Apesar desses esforços, os ganhos em recuperação e tarefas subsequentes permanecem limitados. Isso ocorre porque (1) partes maiores sobrecarregam a capacidade dos modelos de embedding devido ao aumento da quantidade de informações que devem codificar, e (2) muitas aplicações do mundo real ainda exigem a devolução de evidências localizadas devido a limitações na capacidade do modelo ou da largura de banda humana. Propomos uma abordagem alternativa para esse desafio, representando partes curtas de uma forma condicionada a uma janela de contexto mais ampla para melhorar o desempenho da recuperação — ou seja, situando o significado de uma parte dentro de seu contexto. Além disso, mostramos que os modelos de embedding existentes não são bem equipados para codificar tal contexto situado de forma eficaz e, portanto, introduzimos um novo paradigma de treinamento e desenvolvemos os modelos de embedding situado (SitEmb). Para avaliar nosso método, criamos um conjunto de dados de recuperação de enredo de livros especificamente projetado para avaliar capacidades de recuperação situada. Nesse benchmark, nosso modelo SitEmb-v1, baseado no BGE-M3, supera substancialmente os modelos de embedding state-of-the-art, incluindo vários com até 7-8 bilhões de parâmetros, com apenas 1 bilhão de parâmetros. Nosso modelo SitEmb-v1.5 de 8 bilhões de parâmetros melhora ainda mais o desempenho em mais de 10% e mostra resultados robustos em diferentes idiomas e várias aplicações subsequentes.
A modelagem de células virtuais representa uma fronteira emergente na interseção entre inteligência artificial e biologia, visando prever quantidades como respostas a diversas perturbações de forma quantitativa. No entanto, a construção autônoma de modelos computacionais para células virtuais é desafiadora devido à complexidade dos sistemas biológicos, à heterogeneidade das modalidades de dados e à necessidade de expertise específica em múltiplas disciplinas. Aqui, apresentamos o CellForge, um sistema agentivo que utiliza uma estrutura multiagente para transformar diretamente conjuntos de dados biológicos e objetivos de pesquisa em modelos computacionais otimizados para células virtuais. Mais especificamente, dado apenas dados brutos de multi-ômicas de célula única e descrições de tarefas como entrada, o CellForge produz tanto uma arquitetura de modelo otimizada quanto código executável para treinar modelos de células virtuais e realizar inferências. O framework integra três módulos principais: Análise de Tarefas, para caracterização do conjunto de dados apresentado e recuperação de literatura relevante; Design de Métodos, onde agentes especializados colaboram no desenvolvimento de estratégias de modelagem otimizadas; e Execução de Experimentos, para geração automatizada de código. Os agentes no módulo de Design são separados em especialistas com perspectivas diferentes e um moderador central, e devem colaborativamente trocar soluções até alcançarem um consenso razoável. Demonstramos as capacidades do CellForge na previsão de perturbações em células únicas, utilizando seis conjuntos de dados diversos que abrangem knockouts de genes, tratamentos com drogas e estimulações com citocinas em múltiplas modalidades. O CellForge consistentemente supera métodos state-of-the-art específicos para cada tarefa. No geral, o CellForge demonstra como a interação iterativa entre agentes de LLM com perspectivas diferentes fornece soluções melhores do que abordar diretamente um desafio de modelagem. Nosso código está disponível publicamente em https://github.com/gersteinlab/CellForge.
Modelos de raciocínio se destacam na resolução de problemas complexos, mas apresentam uma troca preocupante entre capacidades de raciocínio e habilidades de seguir instruções. As abordagens existentes para melhorar o seguimento de instruções dependem de modelos externos mais robustos, criando gargalos metodológicos e limitações práticas, incluindo custos elevados e restrições de acessibilidade. Propomos uma estrutura de RL (Reinforcement Learning) auto-supervisionada que aproveita os sinais internos dos próprios modelos de raciocínio para melhorar as habilidades de seguir instruções sem supervisão externa. Experimentos extensivos demonstram que nossa estrutura melhora significativamente as capacidades de seguir instruções enquanto mantém o desempenho de raciocínio, oferecendo uma abordagem escalável e econômica para aprimorar o seguimento de instruções em modelos de raciocínio. Os dados e o código estão disponíveis publicamente em https://github.com/Rainier-rq/verl-if.
Os grandes modelos de linguagem (LLMs) têm demonstrado sucesso notável em muitos domínios, mas sua integração em aplicações de cibersegurança ainda é limitada devido à falta de dados de cibersegurança de propósito geral, complexidade representacional e preocupações de segurança e regulatórias. Para abordar essa lacuna, introduzimos anteriormente o Foundation-Sec-8B, um LLM focado em cibersegurança adequado para ajuste fino em tarefas subsequentes. Esse modelo, no entanto, não foi projetado para interações no estilo de chat ou para seguir instruções. Neste relatório, lançamos o Foundation-Sec-8B-Instruct: um modelo especificamente treinado para diálogo de cibersegurança de propósito geral. Construído sobre o Foundation-Sec-8B, ele combina conhecimento específico do domínio com a capacidade de seguir instruções, habilidades conversacionais e alinhamento com preferências humanas para produzir respostas de alta qualidade e relevantes. Avaliações abrangentes mostram que o Foundation-Sec-8B-Instruct supera o Llama 3.1-8B-Instruct em uma variedade de tarefas de cibersegurança, enquanto iguala seu desempenho em seguir instruções. Ele também é competitivo com o GPT-4o-mini em tarefas de inteligência de ameaças cibernéticas e de seguir instruções. Envisionamos que o Foundation-Sec-8B-Instruct se torne um assistente indispensável nos fluxos de trabalho diários dos profissionais de cibersegurança. Lançamos o modelo publicamente em https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
A maioria das proteínas humanas permanece sem medicamentos, com mais de 96% das proteínas humanas não sendo exploradas por terapêuticas aprovadas. Embora a triagem virtual baseada em estrutura prometa expandir o proteoma farmacologicamente explorável, os métodos existentes carecem de precisão em nível atômico e falham em prever a aptidão de ligação, limitando o impacto translacional. Apresentamos o AuroBind, uma estrutura escalável de triagem virtual que ajusta um modelo estrutural personalizado em nível atômico em dados quimiogenômicos em escala de milhões. O AuroBind integra otimização direta de preferência, auto-distilação a partir de complexos de alta confiança e uma estratégia de aceleração professor-aluno para prever conjuntamente estruturas ligadas a ligantes e aptidão de ligação. Os modelos propostos superam os modelos de última geração em benchmarks estruturais e funcionais, permitindo uma triagem 100.000 vezes mais rápida em bibliotecas de compostos ultra-grandes. Em uma triagem prospectiva em dez alvos relevantes para doenças, o AuroBind alcançou taxas de acerto experimental de 7-69%, com os compostos principais atingindo potências de sub-nanomolar a picomolar. Para os GPCRs órfãos GPR151 e GPR160, o AuroBind identificou tanto agonistas quanto antagonistas com taxas de sucesso de 16-30%, e ensaios funcionais confirmaram a modulação do GPR160 em modelos de câncer de fígado e próstata. O AuroBind oferece uma estrutura generalizável para aprendizado de estrutura-função e triagem molecular de alto rendimento, preenchendo a lacuna entre a previsão de estrutura e a descoberta terapêutica.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm impulsionado progressos impressionantes na compreensão e geração omni-modal. No entanto, o treinamento de LLMs omni-modais continua sendo um desafio significativo devido às arquiteturas de modelo heterogêneas necessárias para processar diversas modalidades, exigindo um design de sistema sofisticado para treinamento em larga escala eficiente. Os frameworks existentes geralmente entrelaçam a definição do modelo com a lógica paralela, resultando em escalabilidade limitada e sobrecarga substancial de engenharia para o treinamento omni-modal de ponta a ponta. % Apresentamos o \veomni, um framework de treinamento modular e eficiente para acelerar o desenvolvimento de LLMs omni-modais. O \veomni introduz receitas distribuídas centradas no modelo que desacoplam a comunicação da computação, permitindo paralelismo 3D eficiente em LLMs omni-modais. O \veomni também apresenta uma interface de configuração flexível que suporta a integração contínua de novas modalidades com alterações mínimas de código. % Utilizando o \veomni, um modelo omni-modal de mistura de especialistas (MoE) com 30 bilhões de parâmetros pode ser treinado com uma taxa de transferência superior a 2.800 tokens/segundo/GPU e escalar para comprimentos de contexto de 160K via paralelismo 3D em 128 GPUs, demonstrando sua eficiência e escalabilidade superiores para o treinamento de grandes LLMs omni-modais.
Conjuntos de dados em grande escala são fundamentais para pesquisa e desenvolvimento em processamento de linguagem natural. No entanto, as abordagens atuais enfrentam três desafios principais: (1) dependência de fontes com licenciamento ambíguo, o que restringe o uso, compartilhamento e obras derivadas; (2) lançamentos estáticos de conjuntos de dados que impedem contribuições da comunidade e reduzem a longevidade; e (3) processos de garantia de qualidade restritos às equipes de publicação, em vez de aproveitar a expertise da comunidade. Para abordar essas limitações, introduzimos duas contribuições: a abordagem Dynaword e o Danish Dynaword. A abordagem Dynaword é um framework para criar conjuntos de dados em grande escala e abertos que podem ser continuamente atualizados por meio de colaboração comunitária. O Danish Dynaword é uma implementação concreta que valida essa abordagem e demonstra seu potencial. O Danish Dynaword contém mais de quatro vezes o número de tokens em comparação com lançamentos similares, é exclusivamente licenciado de forma aberta e recebeu múltiplas contribuições da indústria e da pesquisa. O repositório inclui testes leves para garantir formatação, qualidade e documentação dos dados, estabelecendo um framework sustentável para contribuições contínuas da comunidade e evolução do conjunto de dados.
Para operar de forma eficaz no mundo real, os robôs devem integrar raciocínio multimodal com geração precisa de ações. No entanto, os modelos existentes de visão-linguagem-ação (VLA) frequentemente sacrificam um pelo outro, limitam suas habilidades a dados de manipulação específicos de tarefas e sofrem de esquecimento catastrófico das capacidades pré-treinadas de visão-linguagem. Para preencher essa lacuna, introduzimos o InstructVLA, um modelo VLA de ponta a ponta que preserva o raciocínio flexível de grandes modelos de visão-linguagem (VLMs) enquanto oferece desempenho líder em manipulação. O InstructVLA introduz um novo paradigma de treinamento, o Ajuste de Instrução de Visão-Linguagem-Ação (VLA-IT), que emprega treinamento multimodal com adaptação de mistura de especialistas para otimizar conjuntamente o raciocínio textual e a geração de ações em corpora padrão de VLMs e em um conjunto de dados VLA-IT curado com 650 mil amostras. Nas tarefas in-domain do SimplerEnv, o InstructVLA alcança uma melhoria de 30,5% em relação ao SpatialVLA. Para avaliar a generalização, introduzimos o SimplerEnv-Instruct, um benchmark de 80 tarefas que requer controle em malha fechada e compreensão de instruções de alto nível, onde ele supera um OpenVLA ajustado em 92% e um especialista em ação auxiliado por GPT-4o em 29%. Além disso, o InstructVLA supera os VLMs de linha de base em tarefas multimodais e exibe escalabilidade em tempo de inferência ao aproveitar o raciocínio textual para impulsionar o desempenho de manipulação tanto em ambientes simulados quanto no mundo real. Esses resultados demonstram o potencial do InstructVLA para unir interação humano-robô intuitiva e controlável com aprendizado eficiente de políticas.
A compressão de tokens visuais é crucial para os Grandes Modelos de Visão e Linguagem (LVLMs) processarem de forma eficiente entradas de alta resolução. Os métodos existentes, que geralmente adotam taxas de compressão fixas, não conseguem se adaptar a cenas de complexidade variável, frequentemente causando poda imprecisa que descarta tokens visuais informativos e resulta em degradação do desempenho do modelo. Para resolver esse problema, introduzimos um framework de poda dinâmica, o GlimpsePrune, inspirado na cognição humana. Ele realiza uma "olhada" orientada por dados e poda tokens visuais irrelevantes em uma única passagem direta antes da geração da resposta. Essa abordagem poda 92,6% dos tokens visuais enquanto, em média, mantém integralmente o desempenho de referência em tarefas de VQA de forma livre. O custo computacional reduzido também permite um ajuste fino mais eficaz: uma versão aprimorada, o GlimpsePrune+, alcança 110% do desempenho de referência enquanto mantém uma taxa de poda igualmente alta. Nosso trabalho abre um novo caminho para a construção de LVLMs mais poderosos e eficientes.
Modelos de Linguagem de Grande Escala baseados em Difusão (dLLMs) permitem avanços no raciocínio e decodificação paralela, mas sofrem com a complexidade computacional quadrática proibitiva e a sobrecarga de memória durante a inferência. As técnicas atuais de cache aceleram a decodificação armazenando estados completos das camadas, mas impõem um uso substancial de memória que limita aplicações de contexto longo. Nossa análise dos padrões de atenção em dLLMs revela esparsidade persistente entre camadas, com tokens pivôs mantendo-se salientes ao longo das etapas de decodificação e tokens de baixa relevância permanecendo sem importância, motivando a evicção seletiva do cache. Propomos o Sparse-dLLM, o primeiro framework sem necessidade de treinamento que integra evicção dinâmica de cache com atenção esparsa por meio de cache bidirecional esparso atrasado. Ao aproveitar a estabilidade da saliência dos tokens ao longo das etapas, ele retém tokens críticos e evita dinamicamente entradas de prefixo/sufixo irrelevantes usando uma estratégia guiada por atenção. Experimentos extensivos nas séries LLaDA e Dream demonstram que o Sparse-dLLM alcança até 10 vezes mais taxa de transferência do que dLLMs convencionais, com desempenho comparável e custos de memória máxima semelhantes, superando métodos anteriores em eficiência e eficácia.
Apresentamos o Voxlect, um novo benchmark para modelagem de dialetos e línguas regionais em todo o mundo utilizando modelos de base de fala. Especificamente, relatamos avaliações abrangentes de benchmark em variedades de dialetos e línguas regionais em inglês, árabe, mandarim e cantonês, tibetano, línguas indianas, tailandês, espanhol, francês, alemão, português brasileiro e italiano. Nosso estudo utilizou mais de 2 milhões de enunciados de treinamento provenientes de 30 corpora de fala publicamente disponíveis que são fornecidos com informações dialetais. Avaliamos o desempenho de vários modelos de base de fala amplamente utilizados na classificação de dialetos de fala. Avaliamos a robustez dos modelos dialetais em condições ruidosas e apresentamos uma análise de erros que destaca resultados de modelagem alinhados com a continuidade geográfica. Além de avaliar a classificação de dialetos, demonstramos várias aplicações subsequentes possibilitadas pelo Voxlect. Especificamente, mostramos que o Voxlect pode ser aplicado para aumentar conjuntos de dados existentes de reconhecimento de fala com informações dialetais, permitindo uma análise mais detalhada do desempenho de ASR em variações dialetais. O Voxlect também é utilizado como uma ferramenta para avaliar o desempenho de sistemas de geração de fala. O Voxlect está publicamente disponível com a licença da família RAIL em: https://github.com/tiantiaf0627/voxlect.
A atribuição de obras de arte em geral e de pinturas em particular sempre foi uma questão relevante no mundo da arte. O surgimento de modelos poderosos de inteligência artificial capazes de gerar e analisar imagens cria novos desafios para a atribuição de pinturas. Por um lado, modelos de IA podem criar imagens que imitam o estilo de um pintor, as quais podem ser incorretamente atribuídas, por exemplo, por outros modelos de IA. Por outro lado, modelos de IA podem não ser capazes de identificar corretamente o artista de pinturas reais, levando os usuários a atribuí-las de forma incorreta. Neste artigo, ambos os problemas são estudados experimentalmente utilizando modelos de IA state-of-the-art para geração e análise de imagens em um grande conjunto de dados com cerca de 40.000 pinturas de 128 artistas. Os resultados mostram que os modelos de linguagem visual têm capacidades limitadas para: 1) realizar a atribuição de telas e 2) identificar imagens geradas por IA. À medida que os usuários dependem cada vez mais de consultas a modelos de IA para obter informações, esses resultados evidenciam a necessidade de melhorar as capacidades dos VLMs para realizar de forma confiável a atribuição de artistas e a detecção de imagens geradas por IA, a fim de evitar a disseminação de informações incorretas.
Os modelos de difusão texto-imagem revolucionaram a geração de conteúdo visual, mas os mecanismos de segurança atuais aplicam padrões uniformes que frequentemente falham em considerar as preferências individuais dos usuários. Esses modelos ignoram os diversos limites de segurança moldados por fatores como idade, saúde mental e crenças pessoais. Para abordar essa questão, propomos o Alinhamento de Segurança Personalizado (PSA), uma estrutura que permite o controle específico do usuário sobre os comportamentos de segurança em modelos generativos. O PSA integra perfis de usuários personalizados no processo de difusão, ajustando o comportamento do modelo para corresponder às preferências de segurança individuais, preservando a qualidade da imagem. Introduzimos um novo conjunto de dados, Sage, que captura as preferências de segurança específicas do usuário e incorpora esses perfis por meio de um mecanismo de atenção cruzada. Experimentos mostram que o PSA supera os métodos existentes na supressão de conteúdo prejudicial e alinha melhor o conteúdo gerado com as restrições do usuário, alcançando pontuações mais altas em Taxa de Vitória e Taxa de Aprovação. Nosso código, dados e modelos estão publicamente disponíveis em https://torpedo2648.github.io/PSAlign/.
Modelos de Linguagem de Grande Escala (LLMs) têm alcançado sucesso notável em tarefas de engenharia de software quando treinados com ambientes de execução executáveis, particularmente na resolução de problemas do GitHub. No entanto, tais ambientes de execução frequentemente não estão disponíveis em outros domínios, especialmente em cibersegurança, onde as configurações de desafios e contextos de execução são efêmeros ou restritos. Apresentamos o Cyber-Zero, o primeiro framework livre de execução para sintetizar trajetórias de agentes de alta qualidade para treinar LLMs de cibersegurança. O Cyber-Zero aproveita writeups de CTFs disponíveis publicamente e emprega simulação de LLMs baseada em personas para engenharia reversa de comportamentos de execução e geração de sequências de interação realistas e de longo horizonte sem ambientes reais. Utilizando trajetórias sintetizadas pelo Cyber-Zero, treinamos agentes baseados em LLMs que alcançam ganhos de desempenho absoluto de até 13,1% sobre modelos de linha de base em três benchmarks proeminentes de CTF: InterCode-CTF, NYU CTF Bench e Cybench. Nosso melhor modelo, o Cyber-Zero-32B, estabelece um novo estado da arte em desempenho entre modelos de peso aberto, equiparando-se às capacidades de sistemas proprietários como DeepSeek-V3-0324 e Claude-3.5-Sonnet, ao mesmo tempo que oferece superior custo-benefício, demonstrando que a síntese de trajetórias livre de execução pode efetivamente democratizar o desenvolvimento de agentes de cibersegurança de última geração.
Avanços recentes na reconstrução densa 3D levaram a progressos significativos, mas alcançar uma previsão geométrica unificada e precisa continua sendo um grande desafio. A maioria dos métodos existentes se limita a prever uma única quantidade geométrica a partir de imagens de entrada. No entanto, quantidades geométricas como profundidade, normais de superfície e mapas de pontos são inerentemente correlacionadas, e estimá-las isoladamente frequentemente falha em garantir consistência, limitando tanto a precisão quanto a aplicabilidade prática. Isso nos motiva a explorar uma estrutura unificada que modela explicitamente o acoplamento estrutural entre diferentes propriedades geométricas para permitir regressão conjunta. Neste artigo, apresentamos o Dens3R, um modelo de base 3D projetado para previsão densa geométrica conjunta e adaptável a uma ampla gama de tarefas subsequentes. O Dens3R adota uma estrutura de treinamento em duas etapas para construir progressivamente uma representação de mapa de pontos que é tanto generalizável quanto intrinsecamente invariante. Especificamente, projetamos uma estrutura leve compartilhada de codificador-decodificador e introduzimos codificação posicional rotacional interpolada por posição para manter o poder expressivo enquanto aumenta a robustez a entradas de alta resolução. Ao integrar características de correspondência de pares de imagens com modelagem de invariância intrínseca, o Dens3R regride com precisão múltiplas quantidades geométricas, como normais de superfície e profundidade, alcançando percepção geométrica consistente de entradas de visão única para visão múltipla. Além disso, propomos um pipeline de pós-processamento que suporta inferência de visão múltipla geometricamente consistente. Experimentos extensivos demonstram o desempenho superior do Dens3R em várias tarefas de previsão densa 3D e destacam seu potencial para aplicações mais amplas.
Apresentamos o RoboMemory, uma estrutura de memória múltipla inspirada no cérebro para aprendizado contínuo em sistemas físicos incorporados, abordando desafios críticos em ambientes do mundo real: aprendizado contínuo, latência de memória multi-módulo, captura de correlação de tarefas e mitigação de loops infinitos no planejamento em circuito fechado. Baseado na neurociência cognitiva, ele integra quatro módulos principais: o Pré-processador de Informações (semelhante ao tálamo), o Sistema de Memória Incorporada Contínua (semelhante ao hipocampo), o Módulo de Planejamento em Circuito Fechado (semelhante ao lobo pré-frontal) e o Executor de Baixo Nível (semelhante ao cerebelo) para permitir planejamento de longo prazo e aprendizado cumulativo. O Sistema de Memória Incorporada Contínua, central na estrutura, alivia problemas de velocidade de inferência em estruturas de memória complexas por meio de atualizações/recuperações paralelizadas entre sub-módulos Espacial, Temporal, Episódico e Semântico. Ele incorpora um Grafo de Conhecimento (KG) dinâmico e um design arquitetônico consistente para melhorar a consistência e escalabilidade da memória. Avaliações no EmbodiedBench mostram que o RoboMemory supera a linha de base de código aberto (Qwen2.5-VL-72B-Ins) em 25% na taxa média de sucesso e ultrapassa o State-of-the-Art (SOTA) de código fechado (Claude3.5-Sonnet) em 5%, estabelecendo um novo SOTA. Estudos de ablação validam componentes-chave (crítico, memória espacial, memória de longo prazo), enquanto a implantação no mundo real confirma sua capacidade de aprendizado contínuo com taxas de sucesso significativamente melhoradas em tarefas repetidas. O RoboMemory alivia desafios de alta latência com escalabilidade, servindo como uma referência fundamental para a integração de sistemas de memória multimodal em robôs físicos.
Garantir uma exploração suficiente é um desafio central ao treinar agentes de meta-aprendizado por reforço (meta-RL) para resolver novos ambientes. Soluções convencionais para o dilema exploração-exploração injetam incentivos explícitos, como randomização, bônus de incerteza ou recompensas intrínsecas, para encorajar a exploração. Neste trabalho, hipotetizamos que um agente treinado exclusivamente para maximizar um objetivo ganancioso (apenas exploração) pode, ainda assim, exibir comportamento exploratório emergente, desde que três condições sejam atendidas: (1) Estrutura Ambiental Recorrente, onde o ambiente apresenta regularidades repetíveis que permitem que experiências passadas informem escolhas futuras; (2) Memória do Agente, permitindo que o agente retenha e utilize dados históricos de interação; e (3) Atribuição de Crédito de Longo Prazo, onde o aprendizado propaga retornos em um período de tempo suficiente para que os benefícios atrasados da exploração informem decisões atuais. Por meio de experimentos em bandidos multi-armados estocásticos e mundos de grade temporalmente estendidos, observamos que, quando tanto a estrutura quanto a memória estão presentes, uma política treinada com um objetivo estritamente ganancioso exibe comportamento exploratório de busca por informação. Além disso, demonstramos, por meio de ablações controladas, que a exploração emergente desaparece se a estrutura ambiental ou a memória do agente estiver ausente (Condições 1 e 2). Surpreendentemente, a remoção da atribuição de crédito de longo prazo (Condição 3) nem sempre impede a exploração emergente - um resultado que atribuímos ao efeito pseudo-Thompson Sampling. Esses achados sugerem que, sob os pré-requisitos corretos, exploração e exploração não precisam ser tratadas como objetivos ortogonais, mas podem emergir de um processo unificado de maximização de recompensa.
O escalonamento em tempo de teste (TTS) melhora o desempenho de grandes modelos de linguagem (LLMs) ao alocar recursos computacionais adicionais durante a inferência. No entanto, pesquisas existentes investigam principalmente o TTS em tarefas de estágio único; enquanto muitos problemas do mundo real são tarefas complexas de múltiplos estágios, compostas por uma sequência de subtarefas heterogêneas, onde cada subtarefa exige um LLM com capacidade específica. Portanto, estudamos um novo problema: o escalonamento computacionalmente ótimo em tempo de teste para tarefas complexas de múltiplos estágios, visando selecionar modelos adequados e alocar orçamentos por subtarefa para maximizar o desempenho geral. O TTS em tarefas de múltiplos estágios introduz dois desafios fundamentais: (i) O espaço de busca combinatório de alocações de modelos e orçamentos, combinado com o alto custo da inferência, torna a busca por força bruta impraticável. (ii) As alocações ótimas de modelos e orçamentos entre as subtarefas são interdependentes, aumentando a complexidade da busca computacionalmente ótima. Para abordar essa lacuna, conduzimos extensos experimentos piloto em quatro tarefas em seis conjuntos de dados, derivando três insights empíricos que caracterizam o comportamento dos LLMs em tarefas complexas de múltiplos estágios. Com base nesses insights, propomos o AgentTTS, um framework baseado em agentes LLM que busca autonomamente alocações computacionalmente ótimas por meio de interações iterativas orientadas por feedback com o ambiente de execução. Resultados experimentais demonstram que o AgentTTS supera significativamente as abordagens tradicionais e outras baseadas em LLMs em eficiência de busca, além de mostrar maior robustez a diferentes tamanhos de conjuntos de treinamento e maior interpretabilidade.
Em modelos de linguagem de grande escala, a demanda por modelagem de contextos longos está constantemente aumentando, mas a complexidade quadrática do mecanismo padrão de autoatenção frequentemente se torna um gargalo. Embora os mecanismos existentes de atenção esparsa tenham melhorado a eficiência, eles ainda podem enfrentar problemas como padrões estáticos ou perda de informação. Introduzimos um mecanismo de atenção esparsa com máscara dinâmica treinável, chamado Dynamic Mask Attention (DMA), que utiliza efetivamente a esparsidade consciente do conteúdo e da posição. O DMA alcança isso por meio de duas inovações principais: Primeiro, ele gera dinamicamente máscaras esparsas conscientes do conteúdo a partir das representações de valor, permitindo que o modelo identifique e foque em informações críticas de forma adaptativa. Segundo, ele implementa um cálculo de atenção esparsa consciente da posição que efetivamente ignora regiões de cálculo desnecessárias. Esse design de dupla esparsidade permite que o modelo reduza significativamente a complexidade computacional de informações importantes enquanto retém a informação completa, alcançando um excelente equilíbrio entre fidelidade da informação e eficiência computacional. Verificamos o desempenho do DMA por meio de experimentos abrangentes. Estudos comparativos mostram que o DMA supera a atenção multi-head, a atenção de janela deslizante, a atenção latente multi-head e a atenção esparsa nativa em termos de perplexidade sob as configurações da Lei de Escalonamento Chinchilla. Além disso, em tarefas desafiadoras de recall associativo multi-query, o DMA também demonstra desempenho e eficiência superiores em comparação com esses métodos. Crucialmente, na avaliação de um modelo com 1,7 bilhão de parâmetros, o DMA supera significativamente a atenção multi-head tanto no desempenho de benchmarks padrão quanto na tarefa desafiadora de "agulha no palheiro". Esses resultados experimentais destacam sua capacidade de equilibrar eficiência do modelo e habilidade de modelagem de contextos longos de forma eficaz.
A geração de Texto-para-Movimento (T2M) visa sintetizar sequências de movimento humano realistas e semanticamente alinhadas a partir de descrições em linguagem natural. No entanto, as abordagens atuais enfrentam desafios duplos: modelos generativos (por exemplo, modelos de difusão) sofrem com diversidade limitada, acúmulo de erros e implausibilidade física, enquanto métodos de Geração Aumentada por Recuperação (RAG) exibem inércia de difusão, colapso parcial de modos e artefatos assíncronos. Para abordar essas limitações, propomos o ReMoMask, um framework unificado que integra três inovações principais: 1) Um Modelo de Texto-Movimento com Momento Bidirecional desacopla a escala de amostras negativas do tamanho do lote por meio de filas de momento, melhorando substancialmente a precisão da recuperação cross-modal; 2) Um Mecanismo de Atenção Espaço-temporal Semântico impõe restrições biomecânicas durante a fusão em nível de partes para eliminar artefatos assíncronos; 3) A Orientação Livre de Classificador RAG incorpora geração incondicional menor para aprimorar a generalização. Construído sobre o RVQ-VAE do MoMask, o ReMoMask gera eficientemente movimentos temporalmente coerentes em etapas mínimas. Experimentos extensos em benchmarks padrão demonstram o desempenho state-of-the-art do ReMoMask, alcançando uma melhoria de 3,88% e 10,97% nos escores FID no HumanML3D e KIT-ML, respectivamente, em comparação com o método SOTA anterior, RAG-T2M. Código: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
As Máquinas de Vetores de Suporte Quânticas enfrentam desafios de escalabilidade devido a estados quânticos de alta dimensionalidade e limitações de hardware. Propomos um pipeline quântico-clássico consciente de embeddings, combinando destilação k-means balanceada por classe com embeddings pré-treinados de Vision Transformers. Nossa principal descoberta: embeddings de ViT permitem de forma única vantagem quântica, alcançando melhorias de até 8,02% na acurácia sobre SVMs clássicos no Fashion-MNIST e 4,42% no MNIST, enquanto características de CNNs mostram degradação de desempenho. Utilizando simulação de rede tensorial de 16 qubits via cuTensorNet, fornecemos a primeira evidência sistemática de que a vantagem do kernel quântico depende criticamente da escolha do embedding, revelando uma sinergia fundamental entre a atenção dos transformers e os espaços de características quânticos. Isso oferece um caminho prático para o aprendizado de máquina quântico escalável que aproveita arquiteturas neurais modernas.
Investigamos se indicadores socioeconômicos, como a riqueza familiar, deixam impressões recuperáveis em imagens de satélite (capturando características físicas) e em textos obtidos da Internet (refletindo narrativas históricas/econômicas). Utilizando dados do Demographic and Health Survey (DHS) de bairros africanos, emparelhamos imagens do Landsat com descrições textuais geradas por modelos de linguagem (LLM) condicionadas por localização/ano e textos recuperados por um agente de busca de IA a partir de fontes da web. Desenvolvemos um framework multimodal para prever a riqueza familiar (International Wealth Index) por meio de cinco pipelines: (i) modelo de visão em imagens de satélite, (ii) LLM usando apenas localização/ano, (iii) agente de IA buscando/sintetizando textos da web, (iv) codificador conjunto de imagem-texto, (v) ensemble de todos os sinais. Nosso framework traz três contribuições. Primeiro, a fusão de visão e texto de agente/LLM supera as baselines apenas de visão na previsão de riqueza (por exemplo, R-quadrado de 0,77 vs. 0,63 em divisões fora da amostra), com o conhecimento interno do LLM provando-se mais eficaz do que o texto recuperado pelo agente, melhorando a robustez para generalização fora do país e do tempo. Segundo, encontramos convergência representacional parcial: embeddings fundidos das modalidades de visão/linguagem correlacionam-se moderadamente (similaridade de cosseno mediana de 0,60 após alinhamento), sugerindo um código latente compartilhado de bem-estar material enquanto retêm detalhes complementares, consistente com a Hipótese de Representação Platônica. Embora o texto apenas do LLM supere os dados recuperados pelo agente, desafiando nossa Hipótese de Novidade Induzida pelo Agente, ganhos modestos ao combinar dados do agente em algumas divisões apoiam fracamente a noção de que as informações coletadas pelo agente introduzem estruturas representacionais únicas não totalmente capturadas pelo conhecimento estático do LLM. Terceiro, disponibilizamos um conjunto de dados multimodal em larga escala, compreendendo mais de 60.000 clusters do DHS vinculados a imagens de satélite, descrições geradas por LLM e textos recuperados pelo agente.
O rico panorama linguístico do mundo árabe é caracterizado por uma lacuna significativa entre o Árabe Padrão Moderno (MSA), a linguagem da comunicação formal, e os diversos dialetos regionais usados no cotidiano. Essa diglossia apresenta um desafio formidável para o processamento de linguagem natural, particularmente para a tradução automática. Este artigo apresenta o SHAMI-MT, um sistema de tradução automática bidirecional especificamente projetado para preencher a lacuna de comunicação entre o MSA e o dialeto sírio. Apresentamos dois modelos especializados, um para tradução de MSA para Shami e outro para Shami para MSA, ambos construídos sobre a arquitetura de última geração AraT5v2-base-1024. Os modelos foram ajustados no abrangente conjunto de dados Nabra e rigorosamente avaliados em dados não vistos do corpus MADAR. Nosso modelo MSA-para-Shami alcançou uma pontuação média de qualidade excepcional de 4,01 em 5,0 quando avaliado pelo modelo OPENAI GPT-4.1, demonstrando sua capacidade de produzir traduções que não são apenas precisas, mas também autenticamente dialetais. Este trabalho fornece uma ferramenta crucial e de alta fidelidade para um par de idiomas anteriormente pouco atendido, avançando o campo da tradução do árabe dialetal e oferecendo aplicações significativas na localização de conteúdo, patrimônio cultural e comunicação intercultural.
Modelos de linguagem de grande escala têm demonstrado capacidades notáveis em tarefas complexas de raciocínio matemático, mas inevitavelmente geram erros ao longo de soluções com múltiplos passos. Modelos de Recompensa em Nível de Processo (PRMs, na sigla em inglês) têm mostrado grande potencial ao fornecer supervisão e avaliação em cada etapa intermediária, melhorando efetivamente as habilidades de raciocínio dos modelos. No entanto, treinar PRMs eficazes requer dados de recompensa de processo de alta qualidade, e os métodos existentes para construir esses dados são frequentemente trabalhosos ou ineficientes. Neste artigo, propomos uma estrutura orientada por incerteza para a construção automatizada de dados de recompensa de processo, abrangendo tanto a geração quanto a anotação de dados para PRMs. Além disso, identificamos as limitações tanto do voto majoritário quanto dos PRMs e introduzimos dois métodos genéricos de agregação de saída conscientes da incerteza: Voto Híbrido de Recompensa Majoritária e Voto Ponderado de Frequência de Recompensa, que combinam os pontos fortes do voto majoritário com os PRMs. Experimentos extensivos no ProcessBench, MATH e GSMPlus mostram a eficácia e eficiência da estrutura proposta para construção de dados de PRM e demonstram que os dois métodos de agregação de saída melhoram ainda mais as habilidades de raciocínio matemático em diversos PRMs. O código e os dados estarão publicamente disponíveis em https://github.com/Jiuzhouh/UnPRM.