Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o 4KAgent, um sistema generalista unificado de super-resolução agentivo projetado para universalmente ampliar qualquer imagem para resolução 4K (e até mesmo maior, se aplicado iterativamente). Nosso sistema pode transformar imagens de resoluções extremamente baixas com degradações severas, por exemplo, entradas altamente distorcidas em 256x256, em saídas 4K nítidas e foto-realistas. O 4KAgent compreende três componentes principais: (1) Perfilamento, um módulo que personaliza o pipeline do 4KAgent com base em casos de uso específicos; (2) Um Agente de Percepção, que aproveita modelos visão-linguagem juntamente com especialistas em avaliação de qualidade de imagem para analisar a imagem de entrada e criar um plano de restauração personalizado; e (3) Um Agente de Restauração, que executa o plano, seguindo um paradigma de execução-reflexão recursiva, orientado por uma política de mistura de especialistas baseada em qualidade para selecionar a saída ideal em cada etapa. Além disso, o 4KAgent incorpora um pipeline especializado de restauração facial, aprimorando significativamente os detalhes faciais em fotos de retrato e selfies. Avaliamos rigorosamente nosso 4KAgent em 11 categorias distintas de tarefas, abrangendo um total de 26 benchmarks diversos, estabelecendo novos estados da arte em um amplo espectro de domínios de imagem. Nossas avaliações cobrem imagens naturais, fotos de retrato, conteúdo gerado por IA, imagens de satélite, microscopia de fluorescência e imagens médicas como fundoscopia, ultrassom e raio-X, demonstrando desempenho superior tanto em termos de métricas perceptuais (por exemplo, NIQE, MUSIQ) quanto de fidelidade (por exemplo, PSNR). Ao estabelecer um novo paradigma agentivo para tarefas de visão de baixo nível, visamos catalisar um interesse mais amplo e inovação em agentes autônomos centrados em visão em diversas comunidades de pesquisa. Liberaremos todo o código, modelos e resultados em: https://4kagent.github.io.
Apresentamos o Skywork-R1V3, um modelo avançado e de código aberto de linguagem-visão (VLM) que introduz uma nova abordagem para o raciocínio visual. Sua principal inovação reside na transferência eficaz de habilidades de raciocínio de modelos de linguagem de grande escala (LLMs) baseados apenas em texto para tarefas visuais. O forte desempenho do Skywork-R1V3 decorre principalmente de nosso elaborado framework de pós-treinamento com RL (Reinforcement Learning), que ativa e aprimora efetivamente a capacidade de raciocínio do modelo, sem a necessidade de pré-treinamento adicional contínuo. Por meio desse framework, descobrimos ainda o papel fundamental do módulo conector na obtenção de um alinhamento multimodal robusto para modelos de raciocínio multimodal. Além disso, introduzimos um indicador único de capacidade de raciocínio, a entropia dos tokens críticos de raciocínio, que se mostrou altamente eficaz para a seleção de checkpoints durante o treinamento com RL. O Skywork-R1V3 alcança resultados de ponta no MMMU, melhorando significativamente de 64,3% para 76,0%. Esse desempenho equipara-se às capacidades humanas de nível básico. Notavelmente, nossa abordagem de pós-treinamento com RL permite que até mesmo o modelo de 38B de parâmetros rivalize com os principais VLMs proprietários. A implementação transfere com sucesso o raciocínio matemático para outras tarefas de raciocínio relacionadas a disciplinas. Também incluímos uma análise das estratégias de aprendizado curricular e ajuste fino com reforço, juntamente com uma discussão mais ampla sobre raciocínio multimodal. O Skywork-R1V3 representa um salto significativo no raciocínio multimodal, demonstrando o RL como um motor poderoso para avançar as capacidades de VLMs de código aberto.
Embora as capacidades de memória dos agentes de IA estejam recebendo atenção crescente, as soluções existentes permanecem fundamentalmente limitadas. A maioria depende de componentes de memória planos e de escopo restrito, o que restringe sua capacidade de personalizar, abstrair e recuperar de forma confiável informações específicas do usuário ao longo do tempo. Para isso, apresentamos o MIRIX, um sistema de memória modular e multiagente que redefine o futuro da memória de IA ao resolver o desafio mais crítico do campo: permitir que os modelos de linguagem realmente se lembrem. Diferente das abordagens anteriores, o MIRIX transcende o texto para abraçar experiências visuais e multimodais ricas, tornando a memória genuinamente útil em cenários do mundo real. O MIRIX consiste em seis tipos de memória distintos e cuidadosamente estruturados: Memória Central, Episódica, Semântica, Procedimental, de Recursos e o Cofre de Conhecimento, acoplados a um framework multiagente que controla e coordena dinamicamente atualizações e recuperações. Esse design permite que os agentes persistam, raciocinem e recuperem com precisão dados diversos e de longo prazo do usuário em escala. Validamos o MIRIX em dois cenários exigentes. Primeiro, no ScreenshotVQA, um benchmark multimodal desafiador composto por quase 20.000 capturas de tela de alta resolução por sequência, que requer um profundo entendimento contextual e onde nenhum sistema de memória existente pode ser aplicado, o MIRIX alcança uma precisão 35% maior que a linha de base RAG, enquanto reduz os requisitos de armazenamento em 99,9%. Segundo, no LOCOMO, um benchmark de conversação de longa duração com entrada textual unimodal, o MIRIX atinge um desempenho de ponta de 85,4%, superando amplamente as linhas de base existentes. Esses resultados mostram que o MIRIX estabelece um novo padrão de desempenho para agentes de LLM aumentados por memória. Para permitir que os usuários experimentem nosso sistema de memória, fornecemos um aplicativo empacotado alimentado pelo MIRIX. Ele monitora a tela em tempo real, constrói uma base de memória personalizada e oferece visualização intuitiva e armazenamento local seguro para garantir a privacidade.
A geração de sequências de movimento humano diversas e naturais com base em descrições textuais constitui uma área de pesquisa fundamental e desafiadora nos domínios da visão computacional, gráficos e robótica. Apesar dos avanços significativos nesse campo, as metodologias atuais frequentemente enfrentam desafios relacionados às capacidades de generalização zero-shot, em grande parte atribuíveis ao tamanho limitado dos conjuntos de dados de treinamento. Além disso, a falta de uma estrutura de avaliação abrangente impede o avanço dessa tarefa ao não identificar direções para melhorias. Neste trabalho, buscamos levar a geração de movimento a partir de texto para uma nova era, ou seja, alcançar a capacidade de generalização zero-shot. Para isso, em primeiro lugar, desenvolvemos um pipeline eficiente de anotação e introduzimos o MotionMillion — o maior conjunto de dados de movimento humano até o momento, contendo mais de 2.000 horas e 2 milhões de sequências de movimento de alta qualidade. Adicionalmente, propomos o MotionMillion-Eval, o benchmark mais abrangente para avaliar a geração de movimento zero-shot. Aproveitando uma arquitetura escalável, dimensionamos nosso modelo para 7 bilhões de parâmetros e validamos seu desempenho no MotionMillion-Eval. Nossos resultados demonstram uma forte generalização para movimentos fora do domínio e composicionais complexos, marcando um passo significativo em direção à geração de movimento humano zero-shot. O código está disponível em https://github.com/VankouF/MotionMillion-Codes.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) provou ser uma estratégia altamente eficaz para dotar Modelos de Linguagem de Grande Escala (LLMs) de habilidades robustas de raciocínio em múltiplos passos. No entanto, seu design e otimizações permanecem adaptados a domínios puramente textuais, resultando em desempenho subótimo quando aplicados a tarefas de raciocínio multimodal. Em particular, observamos que uma das principais fontes de erro no raciocínio multimodal atual reside na percepção de entradas visuais. Para abordar esse gargalo, propomos a Otimização de Polícia com Consciência de Percepção (PAPO), uma extensão simples, mas eficaz, do GRPO que incentiva o modelo a aprender a perceber enquanto aprende a raciocinar, inteiramente a partir de sinais de supervisão internos. Notavelmente, o PAPO não depende de curadoria adicional de dados, modelos de recompensa externos ou modelos proprietários. Especificamente, introduzimos a Perda de Percepção Implícita na forma de um termo de divergência KL ao objetivo do GRPO, que, apesar de sua simplicidade, produz melhorias gerais significativas (4,4%) em diversos benchmarks multimodais. As melhorias são mais pronunciadas, aproximando-se de 8,0%, em tarefas com alta dependência visual. Também observamos uma redução substancial (30,5%) nos erros de percepção, indicando capacidades perceptuais aprimoradas com o PAPO. Realizamos uma análise abrangente do PAPO e identificamos um problema único de manipulação de perda, que analisamos e mitigamos rigorosamente por meio de uma Perda de Entropia Dupla. No geral, nosso trabalho introduz uma integração mais profunda de supervisão com consciência de percepção nos objetivos de aprendizado do RLVR e estabelece as bases para um novo framework de RL que incentiva o raciocínio fundamentado visualmente. Página do projeto: https://mikewangwzhl.github.io/PAPO.
Modelos de linguagem de grande escala (LLMs) recentemente alcançaram sucesso notável em benchmarks de geração de código, como HumanEval e LiveCodeBench. No entanto, um exame detalhado revela que essas suítes de avaliação frequentemente compreendem apenas um número limitado de casos de teste homogêneos, resultando em falhas sutis que passam despercebidas. Isso não apenas infla artificialmente o desempenho medido, mas também compromete a estimativa precisa de recompensa em frameworks de aprendizado por reforço que utilizam recompensas verificáveis (RLVR). Para abordar essas deficiências críticas, investigamos sistematicamente a tarefa de geração de casos de teste (TCG) propondo métricas multidimensionais projetadas para quantificar rigorosamente a abrangência das suítes de teste. Além disso, introduzimos um método colaborativo humano-LLM (SAGA), que aproveita a expertise de programação humana com a capacidade de raciocínio dos LLMs, visando melhorar significativamente tanto a cobertura quanto a qualidade dos casos de teste gerados. Adicionalmente, desenvolvemos um TCGBench para facilitar o estudo da tarefa TCG. Experimentos mostram que o SAGA alcança uma taxa de detecção de 90,62% e uma precisão do verificador de 32,58% no TCGBench. A Precisão do Verificador (Verifier Acc) do benchmark de avaliação de geração de código sintetizado pelo SAGA é 10,78% maior do que a do LiveCodeBench-v6. Esses resultados demonstram a eficácia do método proposto. Esperamos que este trabalho contribua para a construção de uma base escalável para a avaliação confiável de código gerado por LLMs, avançando ainda mais o RLVR na geração de código e pavimentando o caminho para a síntese automatizada de testes adversariais e a integração adaptativa de benchmarks.
O desenvolvimento de kernels em aprendizado profundo requer a otimização de unidades computacionais em hardware, equilibrando o gerenciamento de memória, paralelismo e otimizações específicas de hardware por meio de ajustes empíricos extensivos. Embora linguagens específicas de domínio, como Triton, simplifiquem a programação de GPUs ao abstrair detalhes de baixo nível, os desenvolvedores ainda precisam ajustar manualmente parâmetros críticos, como tamanhos de blocos e padrões de acesso à memória, por meio de experimentação iterativa, criando barreiras significativas para o desempenho ideal e uma adoção mais ampla. Neste trabalho, apresentamos o AutoTriton, o primeiro modelo dedicado à programação Triton impulsionado por aprendizado por reforço (RL). O AutoTriton realiza ajuste fino supervisionado (SFT) para ser equipado com conhecimentos essenciais de programação Triton usando um pipeline de coleta de dados de alta qualidade, e conduz RL com o algoritmo Group Relative Policy Optimization (GRPO), combinando uma recompensa baseada em regras e uma recompensa baseada em execução para melhorar sequencialmente a capacidade de programação Triton. Experimentos em cinco canais de avaliação do TritonBench e KernelBench ilustram que nosso modelo de 8B, AutoTriton, alcança desempenho comparável a modelos grandes mainstream, incluindo Claude-4-Sonnet e DeepSeek-R1-0528. Análises experimentais adicionais demonstram o papel crucial de cada módulo dentro do AutoTriton, incluindo a etapa de SFT, a etapa de RL e a estratégia de design de recompensa. Esses achados destacam a promessa do RL para a geração automática de kernels de alto desempenho, e como kernels de alto desempenho são componentes centrais de sistemas de IA, esse avanço estabelece uma base importante para a construção de sistemas de IA mais eficientes. O modelo e o código estarão disponíveis em https://github.com/AI9Stars/AutoTriton.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs), mas enfrenta dificuldades com exploração instável. Propomos o FR3E (First Return, Entropy-Eliciting Explore), uma estrutura de exploração estruturada que identifica pontos de decisão de alta incerteza em trajetórias de raciocínio e realiza rollouts direcionados para construir feedback intermediário semanticamente fundamentado. Nosso método oferece orientação direcionada sem depender de supervisão densa. Resultados empíricos em benchmarks de raciocínio matemático (AIME24) mostram que o FR3E promove um treinamento mais estável, produz respostas mais longas e coerentes, e aumenta a proporção de trajetórias totalmente corretas. Esses resultados destacam a eficácia da estrutura em melhorar o raciocínio de LLMs por meio de uma exploração mais robusta e estruturada.
Os Transformers enfrentam complexidade quadrática e problemas de memória com sequências longas, levando à adoção de mecanismos de atenção linear que utilizam estados ocultos de tamanho fixo. No entanto, os modelos lineares frequentemente apresentam desempenho limitado em tarefas de recuperação, o que resultou em arquiteturas híbridas que combinam camadas de atenção linear e completa. Apesar da extensa pesquisa em arquiteturas híbridas, a escolha do componente de atenção linear não foi profundamente explorada. Avaliamos sistematicamente diversos modelos de atenção linear ao longo de gerações — desde recorrências vetoriais até mecanismos avançados de gating — tanto de forma isolada quanto hibridizada. Para possibilitar essa análise abrangente, treinamos e disponibilizamos publicamente 72 modelos: 36 com 340M de parâmetros (20B tokens) e 36 com 1,3B de parâmetros (100B tokens), abrangendo seis variantes de atenção linear em cinco proporções de hibridização. A avaliação em tarefas padrão de modelagem de linguagem e recuperação revela que modelos lineares superiores de forma isolada não necessariamente se destacam em híbridos. Enquanto a modelagem de linguagem permanece estável em diferentes proporções de atenção linear para completa, a recuperação melhora significativamente com o aumento de camadas de atenção completa, especialmente abaixo de uma proporção de 3:1. Nosso estudo destaca o gating seletivo, a recorrência hierárquica e o esquecimento controlado como elementos críticos para modelos híbridos eficazes. Recomendamos arquiteturas como HGRN-2 ou GatedDeltaNet com uma proporção linear para completa entre 3:1 e 6:1 para alcançar recuperação no nível de Transformers de forma eficiente. Nossos modelos estão disponíveis publicamente em https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
A Prova Automática de Teoremas (ATP) em linguagens formais é um desafio fundamental para a IA. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham impulsionado avanços notáveis, ainda existe uma lacuna significativa entre suas poderosas capacidades de raciocínio informal e seu fraco desempenho em provas formais. Estudos recentes mostram que a precisão informal excede 80%, enquanto o sucesso formal permanece abaixo de 8% em benchmarks como o PutnamBench. Argumentamos que essa lacuna persiste porque os provadores atuais de última geração, ao acoplarem fortemente o raciocínio e a prova, são treinados com paradigmas que inadvertidamente punem o raciocínio profundo em favor de estratégias superficiais baseadas em táticas. Para superar essa lacuna fundamental, propomos uma nova estrutura que desacopla o raciocínio de alto nível da geração de provas de baixo nível. Nossa abordagem utiliza dois modelos distintos e especializados: um Reasoner poderoso e de propósito geral para gerar lemas de subobjetivos estratégicos e diversos, e um Prover eficiente para verificá-los rigorosamente. Esse design modular libera todo o potencial de raciocínio do modelo e contorna as armadilhas do treinamento de ponta a ponta. Avaliamos nosso método em um conjunto desafiador de problemas da Olimpíada Internacional de Matemática (IMO) pós-2000, um conjunto de problemas no qual nenhum provador de código aberto anterior relatou sucesso. Nossa estrutura desacoplada resolve com sucesso 5 desses problemas, demonstrando um passo significativo em direção ao raciocínio automatizado em desafios matemáticos excepcionalmente difíceis. Para promover pesquisas futuras, disponibilizamos nosso conjunto completo de dados de lemas gerados e verificados para uma ampla gama de problemas da IMO, disponível em https://tencent-imo.github.io/.
O rápido progresso dos modelos de linguagem multimodal de grande escala (MLLM) abriu caminho para os paradigmas Visão-Linguagem-Ação (VLA), que integram percepção visual, compreensão de linguagem natural e controle em uma única política. Pesquisadores em direção autônoma estão ativamente adaptando esses métodos ao domínio veicular. Tais modelos prometem veículos autônomos capazes de interpretar instruções de alto nível, raciocinar sobre cenas de tráfego complexas e tomar suas próprias decisões. No entanto, a literatura permanece fragmentada e está se expandindo rapidamente. Esta pesquisa oferece a primeira visão abrangente de VLA para Direção Autônoma (VLA4AD). Nós (i) formalizamos os blocos de construção arquitetônicos compartilhados entre trabalhos recentes, (ii) traçamos a evolução desde os primeiros modelos explicativos até os modelos VLA centrados no raciocínio, e (iii) comparamos mais de 20 modelos representativos de acordo com o progresso do VLA no domínio da direção autônoma. Também consolidamos os conjuntos de dados e benchmarks existentes, destacando protocolos que medem conjuntamente a segurança na direção, a precisão e a qualidade da explicação. Por fim, detalhamos desafios em aberto - robustez, eficiência em tempo real e verificação formal - e delineamos direções futuras para o VLA4AD. Esta pesquisa fornece uma referência concisa, porém completa, para o avanço de veículos autônomos interpretáveis e socialmente alinhados. O repositório Github está disponível em https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
Avanços recentes em modelagem de linguagem têm demonstrado a eficácia dos Modelos de Espaço de Estados (SSMs) para a modelagem eficiente de sequências. Embora arquiteturas híbridas, como Samba e a arquitetura decodificador-decodificador, YOCO, tenham mostrado ganhos promissores de desempenho em relação aos Transformers, trabalhos anteriores não investigaram o potencial de eficiência do compartilhamento de representações entre camadas de SSM. Neste artigo, introduzimos a Unidade de Memória Controlada (GMU), um mecanismo simples, porém eficaz, para o compartilhamento eficiente de memória entre camadas. Aplicamos isso para criar o SambaY, uma arquitetura decodificador-híbrido-decodificador que incorpora GMUs no decodificador cruzado para compartilhar estados de leitura de memória de um auto-decodificador baseado em Samba. O SambaY melhora significativamente a eficiência de decodificação, preserva a complexidade de tempo linear de pré-preenchimento e aumenta o desempenho em contextos longos, tudo isso enquanto elimina a necessidade de codificação posicional explícita. Por meio de extensos experimentos de escalonamento, demonstramos que nosso modelo exibe uma perda irredutível significativamente menor em comparação com uma linha de base forte do YOCO, indicando uma escalabilidade de desempenho superior em regimes de computação em larga escala. Nosso maior modelo, aprimorado com Atenção Diferencial, Phi4-mini-Flash-Reasoning, alcança um desempenho significativamente melhor do que o Phi4-mini-Reasoning em tarefas de raciocínio, como Math500, AIME24/25 e GPQA Diamond, sem qualquer aprendizado por reforço, enquanto oferece até 10x maior taxa de decodificação em prompts de 2K de comprimento com geração de 32K de comprimento sob o framework de inferência vLLM. Disponibilizamos nossa base de código de treinamento em dados de código aberto em https://github.com/microsoft/ArchScale.
A elucidação da estrutura molecular a partir de espectros é um problema fundamental na química, com implicações profundas para a identificação de compostos, síntese e desenvolvimento de fármacos. Os métodos tradicionais dependem fortemente da interpretação de especialistas e carecem de escalabilidade. Métodos pioneiros de aprendizado de máquina introduziram estratégias baseadas em recuperação, mas sua dependência de bibliotecas finitas limita a generalização para moléculas novas. Modelos generativos oferecem uma alternativa promissora, porém a maioria adota arquiteturas autoregressivas baseadas em SMILES que ignoram a geometria 3D e lutam para integrar modalidades espectrais diversas. Neste trabalho, apresentamos o DiffSpectra, um framework generativo que infere diretamente estruturas moleculares 2D e 3D a partir de dados espectrais multimodais usando modelos de difusão. O DiffSpectra formula a elucidação de estruturas como um processo de geração condicional. Sua rede de remoção de ruído é parametrizada pelo Diffusion Molecule Transformer, uma arquitetura SE(3)-equivariante que integra informações topológicas e geométricas. O condicionamento é fornecido pelo SpecFormer, um codificador espectral baseado em transformers que captura dependências intra e inter-espectrais de espectros multimodais. Experimentos extensivos demonstram que o DiffSpectra alcança alta precisão na elucidação de estruturas, recuperando estruturas exatas com 16,01% de precisão top-1 e 96,86% de precisão top-20 por meio de amostragem. O modelo se beneficia significativamente da modelagem geométrica 3D, pré-treinamento do SpecFormer e condicionamento multimodal. Esses resultados destacam a eficácia da modelagem de difusão condicionada por espectro ao abordar o desafio da elucidação de estruturas moleculares. Até onde sabemos, o DiffSpectra é o primeiro framework a unificar o raciocínio espectral multimodal e a modelagem generativa conjunta 2D/3D para a elucidação de estruturas moleculares de novo.
O raciocínio de contexto longo requer a identificação precisa de informações relevantes em contextos de entrada extensos e ruidosos. Pesquisas anteriores mostram que o uso de aprendizado no momento do teste para codificar o contexto diretamente nos parâmetros do modelo pode efetivamente habilitar o raciocínio sobre informações ruidosas. No entanto, métodos de meta-aprendizado para habilitar o aprendizado no momento do teste são proibitivamente intensivos em memória, impedindo sua aplicação em configurações de contexto longo. Neste trabalho, propomos o PERK (Parameter Efficient Reasoning over Knowledge), uma abordagem escalável para aprender a codificar contextos de entrada longos usando atualizações de gradiente em um adaptador leve no momento do teste. Especificamente, o PERK emprega dois loops de otimização aninhados em uma fase de meta-treinamento. O loop interno codifica rapidamente contextos em um adaptador de baixa classificação (LoRA) que serve como um módulo de memória eficiente em parâmetros para o modelo base. Simultaneamente, o loop externo aprende a usar o adaptador atualizado para recordar e raciocinar com precisão sobre informações relevantes do contexto longo codificado. Nossas avaliações em várias tarefas de raciocínio de contexto longo mostram que o PERK supera significativamente a linha de base padrão de contexto longo baseada em prompt, alcançando ganhos absolutos médios de desempenho de até 90% para modelos menores (GPT-2) e até 27% para nosso maior modelo avaliado, o Qwen-2.5-0.5B. Em geral, o PERK é mais robusto em relação à complexidade do raciocínio, extrapolação de comprimento e às localizações das informações relevantes nos contextos. Por fim, mostramos que, embora o PERK seja intensivo em memória durante o treinamento, ele escala de forma mais eficiente no momento da inferência do que a inferência de contexto longo baseada em prompt.
Apresentamos o FlexOlmo, uma nova classe de modelos de linguagem (LMs) que suporta (1) treinamento distribuído sem compartilhamento de dados, onde diferentes parâmetros do modelo são treinados independentemente em conjuntos de dados fechados, e (2) inferência flexível em relação aos dados, onde esses parâmetros, juntamente com seus dados associados, podem ser incluídos ou excluídos de forma flexível das inferências do modelo sem necessidade de treinamento adicional. O FlexOlmo emprega uma arquitetura de mistura de especialistas (MoE), na qual cada especialista é treinado independentemente em conjuntos de dados fechados e posteriormente integrado por meio de um novo roteamento informado por domínio, sem qualquer treinamento conjunto. O FlexOlmo é treinado no FlexMix, um corpus que criamos composto por conjuntos de dados publicamente disponíveis, juntamente com sete conjuntos específicos de domínios, representando aproximações realistas de conjuntos fechados. Avaliamos modelos com até 37 bilhões de parâmetros (20 bilhões ativos) em 31 tarefas diversas de downstream. Demonstramos que um especialista geral treinado em dados públicos pode ser efetivamente combinado com especialistas treinados independentemente por outros proprietários de dados, resultando em uma melhoria relativa média de 41%, ao mesmo tempo que permite que os usuários optem por não utilizar determinados dados com base em requisitos de licenciamento ou permissão. Nossa abordagem também supera métodos anteriores de fusão de modelos em 10,1%, em média, e ultrapassa o MoE padrão treinado sem restrições de dados, utilizando o mesmo número de FLOPs de treinamento. Em suma, esta pesquisa apresenta uma solução tanto para proprietários de dados quanto para pesquisadores em indústrias regulamentadas com dados sensíveis ou protegidos. O FlexOlmo permite beneficiar-se de dados fechados, respeitando as preferências dos proprietários de dados, mantendo seus dados locais e oferecendo controle refinado do acesso aos dados durante a inferência.
Apesar dos avanços no raciocínio em vídeo baseado em aprendizado por reforço (RL) com modelos de linguagem de grande escala (LLMs), a coleta de dados e o ajuste fino continuam sendo desafios significativos. Esses métodos frequentemente dependem de ajuste fino supervisionado (SFT) em larga escala com extensos dados de vídeo e longas anotações de Cadeia de Pensamento (CoT), tornando-os caros e difíceis de escalar. Para resolver isso, apresentamos o Video-RTS, uma nova abordagem para melhorar a capacidade de raciocínio em vídeo com uma eficiência de dados drasticamente aprimorada, combinando RL eficiente em dados com uma estratégia de escalonamento adaptativo em tempo de teste (TTS) para vídeos. Com base em observações sobre o escalonamento de dados de amostras de RL, pulamos a etapa de SFT intensiva em recursos e empregamos treinamento puro de RL com recompensas baseadas em saída, sem a necessidade de anotações adicionais ou ajuste fino extensivo. Além disso, para utilizar os recursos computacionais de forma mais eficiente, introduzimos uma estratégia de TTS de vídeo esparsa para densa que melhora a inferência ao adicionar iterativamente quadros com base na consistência da saída. Validamos nossa abordagem em vários benchmarks de raciocínio em vídeo, mostrando que o Video-RTS supera os modelos existentes de raciocínio em vídeo em uma média de 2,4% em precisão, utilizando apenas 3,6% das amostras de treinamento. Por exemplo, o Video-RTS alcança uma melhoria de 4,2% no Video-Holmes, um benchmark recente e desafiador de raciocínio em vídeo, e uma melhoria de 2,6% no MMVU. Notavelmente, nosso treinamento puro de RL e o TTS adaptativo para vídeo oferecem pontos fortes complementares, permitindo o forte desempenho de raciocínio do Video-RTS.
A detecção automática de linguagem tóxica é crucial para criar espaços online seguros e inclusivos. No entanto, essa é uma tarefa altamente subjetiva, com percepções de linguagem tóxica moldadas por normas comunitárias e experiências vividas. Os modelos existentes de detecção de toxicidade são normalmente treinados em anotações que condensam diversas perspectivas de anotadores em uma única verdade absoluta, apagando noções importantes de toxicidade específicas ao contexto, como a linguagem reivindicada. Para abordar isso, apresentamos o MODELCITIZENS, um conjunto de dados com 6,8 mil postagens de mídia social e 40 mil anotações de toxicidade em diversos grupos de identidade. Para capturar o papel do contexto conversacional na toxicidade, típico de postagens em mídias sociais, aumentamos as postagens do MODELCITIZENS com cenários conversacionais gerados por LLMs. Ferramentas de detecção de toxicidade de última geração (por exemplo, OpenAI Moderation API, GPT-o4-mini) têm desempenho inferior no MODELCITIZENS, com degradação adicional em postagens aumentadas com contexto. Por fim, lançamos o LLAMACITIZEN-8B e o GEMMACITIZEN-12B, modelos baseados em LLaMA e Gemma ajustados no MODELCITIZENS, que superam o GPT-o4-mini em 5,5% em avaliações dentro da distribuição. Nossas descobertas destacam a importância de anotações e modelagem informadas pela comunidade para uma moderação de conteúdo inclusiva. Os dados, modelos e código estão disponíveis em https://github.com/asuvarna31/modelcitizens.
A Nova Premier é o modelo de base multimodal mais avançado da Amazon e serve como referência para a destilação de modelos. Ela processa texto, imagens e vídeos com uma janela de contexto de um milhão de tokens, permitindo a análise de grandes bases de código, documentos de 400 páginas e vídeos de 90 minutos em um único prompt. Apresentamos a primeira avaliação abrangente do perfil de risco crítico da Nova Premier sob o Framework de Segurança de Modelos de Fronteira. As avaliações focam em três domínios de alto risco — Químico, Biológico, Radiológico e Nuclear (QBRN), Operações Cibernéticas Ofensivas e Desenvolvimento Automatizado de IA — e combinam benchmarks automatizados, red-teaming com especialistas e estudos de impacto para determinar se o modelo excede os limites de lançamento. Resumimos nossa metodologia e relatamos as principais descobertas. Com base nessa avaliação, concluímos que a Nova Premier é segura para lançamento público, conforme nossos compromissos assumidos na Cúpula de Segurança de IA de Paris em 2025. Continuaremos a aprimorar nossos pipelines de avaliação de segurança e mitigação à medida que novos riscos e capacidades associados a modelos de fronteira forem identificados.
A pesquisa em cirurgia autônoma tem se concentrado principalmente na automação de tarefas simples em ambientes controlados. No entanto, aplicações cirúrgicas no mundo real exigem manipulação hábil durante períodos prolongados e generalização para a variabilidade inerente dos tecidos humanos. Esses desafios permanecem difíceis de abordar usando abordagens baseadas em lógica convencional ou aprendizado de ponta a ponta tradicional. Para preencher essa lacuna, propomos uma estrutura hierárquica para a execução de etapas cirúrgicas hábeis e de longo prazo. Nossa abordagem utiliza uma política de alto nível para planejamento de tarefas e uma política de baixo nível para gerar trajetórias do robô. O planejador de alto nível opera no espaço da linguagem, gerando instruções em nível de tarefa ou corretivas que guiam o robô através das etapas de longo prazo e corrigem os erros da política de baixo nível. Validamos nossa estrutura por meio de experimentos ex vivo em colecistectomia, um procedimento minimamente invasivo comumente praticado, e realizamos estudos de ablação para avaliar componentes-chave do sistema. Nosso método alcança uma taxa de sucesso de 100% em oito vesículas biliares ex vivo não vistas, operando de forma totalmente autônoma sem intervenção humana. Este trabalho demonstra autonomia em nível de etapa em um procedimento cirúrgico, marcando um marco em direção à implantação clínica de sistemas cirúrgicos autônomos.
Avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) têm possibilitado capacidades de resposta a perguntas baseadas em imagens. No entanto, uma limitação significativa é o uso do CLIP como codificador visual; embora ele possa capturar informações globais gerais, frequentemente perde detalhes refinados que são relevantes para a consulta de entrada. Para abordar essas deficiências, este trabalho investiga se modelos de difusão pré-treinados de texto para imagem podem servir como codificadores visuais conscientes de instruções. Através de uma análise de suas representações internas, descobrimos que as características de difusão são ricas em semântica e podem codificar um forte alinhamento entre imagem e texto. Além disso, observamos que é possível aproveitar o condicionamento de texto para focar o modelo em regiões relevantes à pergunta de entrada. Em seguida, investigamos como alinhar essas características com modelos de linguagem de grande escala e descobrimos um fenômeno de vazamento, onde o LLM pode recuperar inadvertidamente informações do prompt original de difusão. Analisamos as causas desse vazamento e propomos uma estratégia de mitigação. Com base nessas percepções, exploramos uma estratégia simples de fusão que utiliza tanto características do CLIP quanto de difusão condicional. Avaliamos nossa abordagem em benchmarks gerais de VQA e especializados de MLLM, demonstrando o potencial dos modelos de difusão para compreensão visual, particularmente em tarefas centradas na visão que exigem raciocínio espacial e composicional. Nossa página do projeto pode ser encontrada em https://vatsalag99.github.io/mustafar/.
Modelos de linguagem de grande escala (LLMs) e seus classificadores de segurança frequentemente apresentam desempenho insatisfatório em idiomas de baixos recursos devido à escassez de dados de treinamento e benchmarks de avaliação. Este artigo apresenta o RabakBench, um novo benchmark de segurança multilíngue localizado no contexto linguístico único de Singapura, abrangendo Singlish, Chinês, Malaio e Tâmil. O RabakBench é construído por meio de um pipeline escalável em três estágios: (i) Geração - criação de exemplos adversariais por meio da ampliação de conteúdo real da web em Singlish com red teaming impulsionado por LLMs; (ii) Rotulação - anotação semi-automatizada de segurança com múltiplos rótulos utilizando classificadores LLMs com voto majoritário alinhados com julgamentos humanos; e (iii) Tradução - tradução de alta fidelidade que preserva nuances linguísticas e toxicidade entre idiomas. O conjunto de dados final compreende mais de 5.000 exemplos rotulados por segurança em quatro idiomas e seis categorias de segurança detalhadas com níveis de gravidade. Avaliações de 11 classificadores de segurança populares, tanto de código aberto quanto proprietários, revelam uma degradação significativa no desempenho. O RabakBench não apenas permite uma avaliação robusta de segurança em contextos multilíngues do Sudeste Asiático, mas também oferece um framework reproduzível para a construção de conjuntos de dados de segurança localizados em ambientes de baixos recursos. O benchmark, incluindo as traduções verificadas por humanos e o código de avaliação, está disponível publicamente.
A proliferação de memes multimodais na era das mídias sociais exige que os Modelos de Linguagem Multimodais de Grande Escala (mLLMs) compreendam efetivamente a nocividade dos memes. Os benchmarks existentes para avaliar mLLMs na compreensão de memes nocivos dependem de avaliações baseadas em precisão e agnósticas ao modelo, utilizando conjuntos de dados estáticos. Esses benchmarks são limitados em sua capacidade de fornecer avaliações atualizadas e abrangentes, uma vez que os memes online evoluem dinamicamente. Para resolver isso, propomos o AdamMeme, um framework de avaliação flexível e baseado em agentes que investiga de forma adaptativa as capacidades de raciocínio dos mLLMs na decifração da nocividade dos memes. Por meio da colaboração multiagente, o AdamMeme fornece avaliações abrangentes ao atualizar iterativamente os dados de memes com amostras desafiadoras, expondo assim limitações específicas na forma como os mLLMs interpretam a nocividade. Experimentos extensivos mostram que nosso framework revela sistematicamente o desempenho variável de diferentes mLLMs alvo, oferecendo análises detalhadas e refinadas das fraquezas específicas de cada modelo. Nosso código está disponível em https://github.com/Lbotirx/AdamMeme.