Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos visão-linguagem-ação (VLA) têm demonstrado recentemente um forte potencial em capacitar robôs a seguir instruções linguísticas e executar ações precisas. No entanto, a maioria dos VLAs é construída sobre modelos visão-linguagem pré-treinados exclusivamente em dados 2D, que carecem de consciência espacial precisa e prejudicam sua capacidade de operar no mundo físico 3D. Soluções existentes tentam incorporar entradas explícitas de sensores 3D, como mapas de profundidade ou nuvens de pontos, mas essas abordagens enfrentam desafios devido ao ruído dos sensores, heterogeneidade de hardware e cobertura incompleta de profundidade nos conjuntos de dados existentes. Métodos alternativos que estimam pistas 3D a partir de imagens 2D também sofrem com o desempenho limitado dos estimadores de profundidade. Propomos o Spatial Forcing (SF), uma estratégia de alinhamento simples, porém eficaz, que implicitamente força os modelos VLA a desenvolver capacidades de compreensão espacial sem depender de entradas 3D explícitas ou estimadores de profundidade. O SF alinha embeddings visuais intermediários dos VLAs com representações geométricas produzidas por modelos de fundação 3D pré-treinados. Ao impor o alinhamento em camadas intermediárias, o SF orienta os VLAs a codificar representações espaciais mais ricas que melhoram a precisão das ações. Experimentos extensivos em ambientes de simulação e do mundo real demonstram que o SF alcança resultados de ponta, superando tanto VLAs baseados em 2D quanto em 3D. O SF ainda acelera o treinamento em até 3,8 vezes e melhora a eficiência de dados em diversas tarefas robóticas. A página do projeto está em https://spatial-forcing.github.io/.
Modelos generativos no espaço de pixels geralmente são mais difíceis de treinar e tendem a ter desempenho inferior em comparação com suas contrapartes no espaço latente, resultando em uma lacuna persistente de desempenho e eficiência. Neste artigo, introduzimos uma nova estrutura de treinamento em duas etapas que fecha essa lacuna para modelos de difusão e de consistência no espaço de pixels. Na primeira etapa, pré-treinamos codificadores para capturar semânticas significativas de imagens limpas, alinhando-as com pontos ao longo da mesma trajetória determinística de amostragem, que evolui pontos da distribuição anterior para a distribuição de dados. Na segunda etapa, integramos o codificador com um decodificador inicializado aleatoriamente e ajustamos o modelo completo de ponta a ponta para ambos os modelos de difusão e de consistência. Nossa estrutura de treinamento demonstra um forte desempenho empírico no conjunto de dados ImageNet. Especificamente, nosso modelo de difusão alcança um FID de 2,04 no ImageNet-256 e 2,35 no ImageNet-512 com 75 avaliações de função (NFE), superando métodos anteriores no espaço de pixels por uma grande margem tanto em qualidade de geração quanto em eficiência, rivalizando com os principais modelos baseados em VAE em custo de treinamento comparável. Além disso, no ImageNet-256, nosso modelo de consistência alcança um FID impressionante de 8,82 em uma única etapa de amostragem, superando significativamente sua contraparte no espaço latente. Até onde sabemos, este é o primeiro treinamento bem-sucedido de um modelo de consistência diretamente em imagens de alta resolução sem depender de VAEs ou modelos de difusão pré-treinados.
Modelos de linguagem de grande escala (LLMs) avançaram substancialmente a tradução automática (MT), mas sua eficácia na tradução de web novels ainda não é clara. Os benchmarks existentes dependem de métricas superficiais que não capturam as características distintivas desse gênero. Para abordar essas lacunas, introduzimos o DITING, o primeiro framework de avaliação abrangente para tradução de web novels, avaliando a fidelidade narrativa e cultural em seis dimensões: tradução de expressões idiomáticas, ambiguidade lexical, localização de terminologia, consistência de tempo verbal, resolução de pronomes zero e segurança cultural, apoiado por mais de 18 mil pares de frases chinês-inglês anotados por especialistas. Propomos ainda o AgentEval, um framework de avaliação multiagente orientado por raciocínio que simula a deliberação de especialistas para avaliar a qualidade da tradução além da sobreposição lexical, alcançando a maior correlação com julgamentos humanos entre sete métricas automáticas testadas. Para permitir a comparação de métricas, desenvolvemos o MetricAlign, um conjunto de dados de meta-avaliação com 300 pares de frases anotados com rótulos de erro e pontuações escalares de qualidade. A avaliação abrangente de quatorze modelos abertos, fechados e comerciais revela que os LLMs treinados em chinês superam contrapartes estrangeiras maiores, e que o DeepSeek-V3 oferece as traduções mais fiéis e estilisticamente coerentes. Nosso trabalho estabelece um novo paradigma para explorar a tradução de web novels baseada em LLMs e fornece recursos públicos para impulsionar pesquisas futuras.
Abordagens recentes de incorporação multimodal que utilizam modelos de linguagem multimodal de grande escala (MLLMs) ajustados com aprendizado contrastivo (CL) têm mostrado resultados promissores, mas as razões subjacentes por trás de sua superioridade permanecem pouco exploradas. Este trabalho argumenta que uma vantagem crucial das abordagens baseadas em MLLMs decorre do alinhamento cruzado implícito alcançado durante o pré-treinamento generativo, onde o decodificador de linguagem aprende a explorar sinais multimodais dentro de um espaço de representação compartilhado para gerar saídas unimodais. Através da análise da anisotropia e da estrutura de similaridade do kernel, confirmamos empiricamente que o alinhamento latente emerge dentro das representações dos MLLMs, permitindo que o CL sirva como uma etapa de refinamento leve. Aproveitando essa percepção, propomos uma estrutura de Incorporação Omnimodal Centrada na Linguagem, denominada LCO-Emb. Experimentos extensos em diversas arquiteturas e benchmarks demonstram sua eficácia, alcançando desempenho de ponta em várias modalidades. Além disso, identificamos uma Lei de Escalonamento Geração-Representação (GRSL), mostrando que as capacidades representacionais obtidas através do refinamento contrastivo escalam positivamente com as capacidades generativas do MLLM. Isso sugere que a melhoria das habilidades generativas evolui como um paradigma eficaz para aprimorar a qualidade da representação. Fornecemos uma explicação teórica da GRSL, que formalmente vincula a qualidade generativa do MLLM ao limite superior de seu desempenho representacional, e a validamos em uma tarefa desafiadora de recuperação visual-documental de baixo recurso, mostrando que o pré-treinamento generativo contínuo antes do CL pode aprimorar ainda mais o potencial das capacidades de incorporação de um modelo. Códigos, modelos e recursos estão disponíveis em https://github.com/LCO-Embedding/LCO-Embedding.
O aprendizado de robôs está em um ponto de inflexão, impulsionado pelos rápidos avanços em aprendizado de máquina e pela crescente disponibilidade de dados robóticos em larga escala. Essa mudança dos métodos clássicos baseados em modelos para paradigmas orientados por dados e baseados em aprendizado está desbloqueando capacidades sem precedentes em sistemas autônomos. Este tutorial explora o cenário do aprendizado de robôs moderno, traçando um caminho desde os princípios fundamentais de Aprendizado por Reforço e Clonagem Comportamental até modelos generalistas condicionados por linguagem, capazes de operar em diversas tarefas e até mesmo em diferentes configurações de robôs. Este trabalho tem como objetivo servir como um guia para pesquisadores e profissionais, e nossa meta é equipar o leitor com o entendimento conceitual e as ferramentas práticas necessárias para contribuir com os desenvolvimentos no aprendizado de robôs, com exemplos prontos para uso implementados no lerobot.
O avanço dos grandes modelos de linguagem (LLMs, na sigla em inglês) catalisou uma mudança de paradigma da assistência na geração de código para agentes de codificação autônomos, possibilitando uma nova metodologia de desenvolvimento denominada "Vibe Coding", na qual os desenvolvedores validam implementações geradas por IA por meio da observação dos resultados, em vez de uma compreensão linha por linha do código. Apesar de seu potencial transformador, a eficácia desse paradigma emergente permanece pouco explorada, com evidências empíricas revelando perdas inesperadas de produtividade e desafios fundamentais na colaboração humano-IA. Para abordar essa lacuna, este estudo fornece a primeira revisão abrangente e sistemática do Vibe Coding com grandes modelos de linguagem, estabelecendo tanto fundamentos teóricos quanto frameworks práticos para essa abordagem transformadora de desenvolvimento. Com base na análise sistemática de mais de 1000 artigos de pesquisa, examinamos todo o ecossistema do Vibe Coding, explorando componentes críticos da infraestrutura, incluindo LLMs para codificação, agentes de codificação baseados em LLM, ambientes de desenvolvimento de agentes de codificação e mecanismos de feedback. Primeiro, introduzimos o Vibe Coding como uma disciplina formal, formalizando-o por meio de um Processo de Decisão de Markov Restrito (CMDP) que captura a relação triádica dinâmica entre desenvolvedores humanos, projetos de software e agentes de codificação. Com base nesse fundamento teórico, sintetizamos as práticas existentes em cinco modelos distintos de desenvolvimento: Automação Irrestrita, Colaboração Iterativa Conversacional, Orientado por Planejamento, Orientado por Testes e Modelos Aprimorados por Contexto, fornecendo assim a primeira taxonomia abrangente nesse domínio. De forma crítica, nossa análise revela que o sucesso do Vibe Coding depende não apenas das capacidades dos agentes, mas da engenharia sistemática de contexto, de ambientes de desenvolvimento bem estabelecidos e de modelos colaborativos de desenvolvimento entre humanos e agentes.
A detecção de objetos tem sido tradicionalmente dominada por modelos baseados em regressão de coordenadas, como YOLO, DETR e Grounding DINO. Embora esforços recentes tenham tentado aproveitar MLLMs (Modelos de Linguagem Multimodal) para abordar essa tarefa, eles enfrentam desafios como baixa taxa de recall, previsões duplicadas, desalinhamento de coordenadas, entre outros. Neste trabalho, preenchemos essa lacuna e propomos o Rex-Omni, um MLLM de escala 3B que alcança desempenho de ponta em percepção de objetos. Em benchmarks como COCO e LVIS, o Rex-Omni atinge desempenho comparável ou superior aos modelos baseados em regressão (por exemplo, DINO, Grounding DINO) em um cenário zero-shot. Isso é possibilitado por três designs principais: 1) Formulação de Tarefa: usamos tokens especiais para representar coordenadas quantizadas de 0 a 999, reduzindo a dificuldade de aprendizado do modelo e melhorando a eficiência de tokens para previsão de coordenadas; 2) Motores de Dados: construímos múltiplos motores de dados para gerar dados de alta qualidade para grounding, referência e apontamento, fornecendo supervisão semanticamente rica para o treinamento; 3) Pipelines de Treinamento: empregamos um processo de treinamento em duas etapas, combinando fine-tuning supervisionado em 22 milhões de dados com pós-treinamento de reforço baseado em GRPO. Esse pós-treinamento de RL (Reinforcement Learning) aproveita recompensas conscientes da geometria para efetivamente preencher a lacuna de previsão de coordenadas discreto-contínuo, melhorar a precisão das caixas e mitigar comportamentos indesejáveis, como previsões duplicadas, que surgem da natureza guiada por professor da etapa inicial de SFT (Supervised Fine-Tuning). Além da detecção convencional, a compreensão linguística inerente do Rex-Omni permite capacidades versáteis, como referência a objetos, apontamento, prompt visual, grounding em GUI, referência espacial, OCR e apontamento de pontos-chave, todos avaliados sistematicamente em benchmarks dedicados. Acreditamos que o Rex-Omni abre caminho para sistemas de percepção visual mais versáteis e conscientes da linguagem.
A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval-Augmented Generation*) emergiu como um paradigma fundamental para expandir os Modelos de Linguagem de Grande Escala além de suas limitações estáticas de treinamento. No entanto, existe um desalinhamento crítico entre as capacidades atuais do RAG e os ambientes de informação do mundo real. Os repositórios de conhecimento modernos são inerentemente multimodais, contendo combinações ricas de conteúdo textual, elementos visuais, tabelas estruturadas e expressões matemáticas. Ainda assim, os frameworks de RAG existentes são limitados ao conteúdo textual, criando lacunas fundamentais ao processar documentos multimodais. Apresentamos o RAG-Anything, um framework unificado que permite a recuperação abrangente de conhecimento em todas as modalidades. Nossa abordagem reconceitualiza o conteúdo multimodal como entidades de conhecimento interconectadas, em vez de tipos de dados isolados. O framework introduz a construção de grafos duais para capturar tanto as relações cruzadas entre modalidades quanto a semântica textual em uma representação unificada. Desenvolvemos uma recuperação híbrida cruzada que combina navegação estrutural de conhecimento com correspondência semântica. Isso permite um raciocínio eficaz sobre conteúdo heterogêneo, onde evidências relevantes abrangem múltiplas modalidades. O RAG-Anything demonstra desempenho superior em benchmarks multimodais desafiadores, alcançando melhorias significativas em relação aos métodos state-of-the-art. Os ganhos de desempenho tornam-se particularmente evidentes em documentos longos, onde abordagens tradicionais falham. Nosso framework estabelece um novo paradigma para o acesso ao conhecimento multimodal, eliminando a fragmentação arquitetônica que restringe os sistemas atuais. Nosso framework é disponibilizado como código aberto em: https://github.com/HKUDS/RAG-Anything.
Modelos de difusão têm avançado recentemente a restauração de vídeos, mas sua aplicação à super-resolução de vídeo (VSR) no mundo real continua desafiadora devido à alta latência, computação proibitiva e generalização inadequada para resoluções ultra-altas. Nosso objetivo neste trabalho é tornar a VSR baseada em difusão prática, alcançando eficiência, escalabilidade e desempenho em tempo real. Para isso, propomos o FlashVSR, o primeiro framework de streaming em uma etapa baseado em difusão voltado para VSR em tempo real. O FlashVSR opera a aproximadamente 17 FPS para vídeos de 768x1408 em uma única GPU A100, combinando três inovações complementares: (i) um pipeline de destilação em três estágios amigável ao treinamento que permite super-resolução em streaming, (ii) atenção esparsa com restrição de localidade que reduz a computação redundante enquanto preenche a lacuna de resolução entre treino e teste, e (iii) um decodificador condicional compacto que acelera a reconstrução sem sacrificar a qualidade. Para suportar o treinamento em larga escala, também construímos o VSR-120K, um novo conjunto de dados com 120 mil vídeos e 180 mil imagens. Experimentos extensivos mostram que o FlashVSR escala de forma confiável para resoluções ultra-altas e alcança desempenho de ponta com uma aceleração de até 12x em relação a modelos anteriores de VSR baseados em difusão de uma etapa. Liberaremos o código, modelos pré-treinados e o conjunto de dados para fomentar pesquisas futuras em VSR baseada em difusão eficiente.
Os modelos de difusão têm alcançado sucesso notável como modelos generativos. No entanto, mesmo um modelo bem treinado pode acumular erros ao longo do processo de geração. Esses erros tornam-se particularmente problemáticos quando uma orientação arbitrária é aplicada para direcionar as amostras em direção a propriedades desejadas, o que frequentemente compromete a fidelidade das amostras. Neste artigo, propomos uma solução geral para abordar o fenômeno de desvio da variedade observado em modelos de difusão. Nossa abordagem utiliza um preditor de tempo para estimar desvios da variedade de dados desejada em cada passo de tempo, identificando que um intervalo de tempo maior está associado a uma redução na qualidade da geração. Em seguida, projetamos um novo mecanismo de orientação, chamado `Orientação de Alinhamento Temporal' (TAG, na sigla em inglês), que atrai as amostras de volta à variedade desejada em cada passo de tempo durante a geração. Por meio de experimentos extensivos, demonstramos que o TAG produz consistentemente amostras alinhadas de perto com a variedade desejada em cada passo de tempo, resultando em melhorias significativas na qualidade da geração em várias tarefas subsequentes.
Modelos de Linguagem de Grande Escala (LLMs) processam cada token através de todas as camadas de uma pilha de transformadores, resultando em computação desperdiçada em consultas simples e flexibilidade insuficiente para tarefas mais complexas que exigem raciocínio mais profundo. Métodos de profundidade adaptativa podem melhorar a eficiência, mas abordagens anteriores dependem de buscas custosas durante a inferência, alterações arquiteturais ou retreinamento em larga escala, e na prática frequentemente degradam a precisão apesar dos ganhos de eficiência. Apresentamos o Dr.LLM, Roteamento Dinâmico de Camadas para LLMs, uma estrutura retrocompatível que equipa modelos pré-treinados com roteadores leves por camada que decidem pular, executar ou repetir um bloco. Os roteadores são treinados com supervisão explícita: usando Busca em Árvore de Monte Carlo (MCTS), derivamos configurações de camadas de alta qualidade que preservam ou melhoram a precisão sob um orçamento de computação. Nosso design, que inclui pooling em janelas para roteamento estável, perda focal com balanceamento de classes e roteadores MLP com gargalo, garante robustez em cenários de desequilíbrio de classes e sequências longas. No ARC (lógica) e DART (matemática), o Dr.LLM melhora a precisão em até +3,4%p enquanto economiza 5 camadas por exemplo em média. Os roteadores generalizam para tarefas fora do domínio (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) com apenas 0,85% de queda na precisão, mantendo a eficiência, e superam métodos de roteamento anteriores em até +7,7%p. No geral, o Dr.LLM demonstra que roteadores supervisionados explicitamente adaptam LLMs congelados para inferência consciente do orçamento e orientada à precisão, sem alterar os pesos base.
Avanços recentes em IA incorporada destacam o potencial dos modelos de linguagem visual (VLMs) como agentes capazes de percepção, raciocínio e interação em ambientes complexos. No entanto, os sistemas de melhor desempenho dependem de modelos em larga escala que são caros para implantar, enquanto VLMs menores carecem do conhecimento e das habilidades necessárias para ter sucesso. Para preencher essa lacuna, apresentamos o Agente de Raciocínio Incorporado (ERA), uma estrutura de duas etapas que integra o aprendizado de conhecimento prévio e o aprendizado por reforço online (RL). A primeira etapa, Aprendizado Prévio Incorporado, destila conhecimento fundamental de três tipos de dados: (1) Prioridades Aumentadas por Trajetória, que enriquecem dados de trajetória existentes com raciocínio estruturado gerado por modelos mais fortes; (2) Prioridades Ancoradas no Ambiente, que fornecem conhecimento no ambiente e supervisão de aterramento; e (3) Prioridades de Conhecimento Externo, que transferem conhecimento geral de conjuntos de dados fora do ambiente. Na segunda etapa, desenvolvemos um pipeline de RL online que se baseia nessas prioridades para aprimorar ainda mais o desempenho do agente. Para superar os desafios inerentes ao RL de agentes, incluindo horizontes longos, recompensas esparsas e instabilidade no treinamento, introduzimos três designs principais: auto-resumo para gerenciamento de contexto, modelagem de recompensas densas e otimização de política em nível de turno. Experimentos extensos em tarefas de planejamento de alto nível (EB-ALFRED) e controle de baixo nível (EB-Manipulação) demonstram que o ERA-3B supera tanto modelos grandes baseados em prompt quanto baselines anteriores baseados em treinamento. Especificamente, ele alcança melhorias gerais de 8,4% no EB-ALFRED e 19,4% no EB-Manipulação em relação ao GPT-4o, e exibe forte generalização para tarefas não vistas. No geral, o ERA oferece um caminho prático para a inteligência incorporada escalável, fornecendo insights metodológicos para futuros sistemas de IA incorporada.
Modelos de Linguagem de Grande Escala (LLMs) podem servir como modelos de mundo para aprimorar a tomada de decisão de agentes em ambientes digitais, simulando estados futuros e prevendo os resultados de ações, potencialmente eliminando a exploração custosa por tentativa e erro. No entanto, essa capacidade é fundamentalmente limitada pela tendência dos LLMs à alucinação e sua dependência de conhecimento estático de treinamento, o que pode levar a erros cumulativos que inibem simulações de longo prazo. Para investigar sistematicamente se os LLMs são adequados para modelagem de mundo, exploramos duas capacidades centrais dos modelos de mundo—previsão de estados futuros e estimativa de recompensa—por meio de três tarefas: identificação do próximo estado, alinhamento de planejamento de procedimentos completos e reconhecimento de transições de marcos. Nossa análise mostra que, embora os LLMs capturem efetivamente os próximos estados imediatos e identifiquem transições de estado significativas, seu desempenho se degrada rapidamente no planejamento de procedimentos completos. Isso destaca as limitações dos LLMs em modelar de forma confiável a dinâmica do ambiente em horizontes longos. Para abordar essas limitações, propomos o Modelo de Mundo Aumentado por Recuperação (R-WoM), que fundamenta as simulações dos LLMs incorporando conhecimento factual e atualizado recuperado de tutoriais externos. Experimentos mostram que o R-WoM alcança melhorias substanciais de até 25,3% (OSWorld) e 18,1% (WebArena) em comparação com as linhas de base, com vantagens particulares em simulações de horizonte mais longo.
Recentemente, foram feitos progressos notáveis em Modelos Multimodais Unificados (UMMs), que integram capacidades de geração e compreensão visão-linguagem em um único framework. No entanto, existe uma lacuna significativa em que a forte compreensão visual de um modelo muitas vezes não se transfere para sua geração visual. Um modelo pode entender corretamente uma imagem com base nas instruções do usuário, mas ser incapaz de gerar uma imagem fiel a partir de prompts de texto. Esse fenômeno levanta diretamente uma questão intrigante: Um modelo pode alcançar autoaperfeiçoamento usando seu módulo de compreensão para recompensar seu módulo de geração? Para preencher essa lacuna e alcançar o autoaperfeiçoamento, introduzimos o SRUM, um framework de pós-treinamento autorrecompensador que pode ser aplicado diretamente a UMMs existentes de diversos designs. O SRUM cria um ciclo de feedback em que o próprio módulo de compreensão do modelo atua como um "avaliador" interno, fornecendo sinais corretivos para melhorar seu módulo de geração, sem a necessidade de dados adicionais rotulados por humanos. Para garantir que esse feedback seja abrangente, projetamos um sistema de recompensa dual global-local. Para lidar com a complexidade estrutural inerente das imagens, esse sistema oferece orientação em múltiplas escalas: uma recompensa global garante a correção da semântica visual geral e do layout, enquanto uma recompensa local refina a fidelidade em nível de objeto, com detalhes refinados. O SRUM resulta em capacidades poderosas e mostra forte generalização, aumentando o desempenho no T2I-CompBench de 82,18 para 88,37 e no T2I-ReasonBench de 43,82 para 46,75. No geral, nosso trabalho estabelece um novo paradigma poderoso para permitir que o módulo de compreensão de um UMM oriente e aprimore sua própria geração por meio de autorrecompensa.
Embora os avanços recentes na geração visual tenham sido notáveis, a maioria das arquiteturas existentes ainda depende de codificadores distintos para imagens e texto. Essa separação limita a capacidade dos modelos de difusão de realizar raciocínio e transferência de conhecimento entre modalidades. Tentativas anteriores de preencher essa lacuna frequentemente utilizam informações da última camada de modelos de linguagem visual (VLM), empregam múltiplos codificadores visuais ou treinam modelos unificados de grande porte conjuntamente para geração de texto e imagem, o que demanda recursos computacionais substanciais e dados em larga escala, limitando sua acessibilidade. Apresentamos o UniFusion, um modelo generativo baseado em difusão condicionado a um modelo de linguagem visual (VLM) grande e congelado que serve como um codificador multimodal unificado. No cerne do UniFusion está o mecanismo de Pooling de Atenção por Camadas (LAP), que extrai tanto semântica de alto nível quanto detalhes de baixo nível de tokens de texto e visuais de um VLM congelado para condicionar um modelo generativo de difusão. Demonstramos que o LAP supera outras arquiteturas de fusão superficial no alinhamento texto-imagem para geração e na transferência fiel de informações visuais do VLM para o modelo de difusão, o que é crucial para edição. Propomos a Injeção de Reescrevimento Habilitada por VLM com Inferência Flexível (VERIFI), que condiciona um transformador de difusão (DiT) apenas nos tokens de texto gerados pelo VLM durante a reescrita de prompts no modelo. O VERIFI combina o alinhamento da distribuição de condicionamento com as capacidades de raciocínio do VLM para aumentar as capacidades e a flexibilidade na inferência. Além disso, o ajuste fino em tarefas de edição não apenas melhora o alinhamento texto-imagem para geração, indicativo de transferência de conhecimento entre modalidades, mas também exibe capacidades de generalização impressionantes. Nosso modelo, quando treinado para edição de uma única imagem, generaliza de forma zero-shot para múltiplas referências de imagem, reforçando ainda mais o design de codificador unificado do UniFusion.
O alinhamento pós-treinamento frequentemente reduz a diversidade dos LLMs, levando a um fenômeno conhecido como colapso de modos. Diferentemente de trabalhos anteriores que atribuem esse efeito a limitações algorítmicas, identificamos um fator fundamental e pervasivo no nível dos dados: o viés de tipicidade nos dados de preferência, pelo qual os anotadores sistematicamente favorecem textos familiares como resultado de descobertas bem estabelecidas na psicologia cognitiva. Formalizamos teoricamente esse viés, verificamos empiricamente em conjuntos de dados de preferência e mostramos que ele desempenha um papel central no colapso de modos. Motivados por essa análise, introduzimos o Amostragem Verbalizada (Verbalized Sampling, VS), uma estratégia simples e livre de treinamento para contornar o colapso de modos. O VS solicita que o modelo verbalize uma distribuição de probabilidade sobre um conjunto de respostas (por exemplo, "Gere 5 piadas sobre café e suas probabilidades correspondentes"). Experimentos abrangentes mostram que o VS melhora significativamente o desempenho em escrita criativa (poemas, histórias, piadas), simulação de diálogo, perguntas e respostas abertas e geração de dados sintéticos, sem sacrificar a precisão factual e a segurança. Por exemplo, na escrita criativa, o VS aumenta a diversidade em 1,6-2,1 vezes em relação ao prompting direto. Observamos ainda uma tendência emergente de que modelos mais capazes se beneficiam mais do VS. Em suma, nosso trabalho oferece uma nova perspectiva centrada em dados sobre o colapso de modos e um remédio prático no momento da inferência que ajuda a desbloquear a diversidade generativa pré-treinada.
O sucesso dos modelos de linguagem baseados em Transformers é amplamente atribuído ao seu mecanismo de atenção por produto escalar, que entrelaça um conjunto de princípios de design fundamentais: a mistura de informações entre posições (permitindo interações multi-token), ativações dependentes da sequência (onde os pesos de atenção se adaptam a cada entrada), uma forma matemática específica (similaridades por produto escalar mais ponderação softmax) e o acoplamento de consultas e chaves a estados ocultos em evolução (ancorando a atenção na camada atual). No entanto, a necessidade de cada um desses princípios permanece amplamente não testada. Neste trabalho, desconstruímos sistematicamente a atenção projetando variantes controladas que relaxam seletivamente esses princípios, aplicados tanto uniformemente em todas as camadas quanto em arquiteturas híbridas onde apenas algumas camadas mantêm a atenção padrão. Nossa análise empírica revela que os mecanismos para misturar tokens são indispensáveis, pois sua ausência faz com que os modelos colapsem para um comportamento quase aleatório, enquanto a forma matemática exata e a dependência da sequência podem ser substancialmente relaxadas, especialmente quando preservadas em apenas um subconjunto de camadas. Surpreendentemente, até mesmo variantes que falham isoladamente podem alcançar desempenho robusto quando intercaladas com a atenção padrão, destacando um efeito cooperativo. Essas descobertas aprofundam nossa compreensão do que realmente sustenta a eficácia da atenção e abrem novos caminhos para simplificar modelos de linguagem sem sacrificar o desempenho.
Modelos de Linguagem de Grande Escala enfrentam desafios em tarefas agentivas de longo horizonte, pois sua memória limitada é facilmente sobrecarregada por contextos distrativos ou irrelevantes. Os métodos existentes de memória de trabalho geralmente dependem de mecanismos externos e heurísticos que estão desacoplados da política central do agente. Neste trabalho, reformulamos o gerenciamento da memória de trabalho como uma capacidade intrínseca e aprendível. Propomos um novo framework, Memória-como-Ação, onde um agente gerencia ativamente sua memória de trabalho executando operações explícitas de edição como parte de uma política unificada. Essa formulação permite que um agente, treinado por meio de aprendizado por reforço, equilibre a curadoria da memória com os objetivos de longo prazo da tarefa, considerando as restrições de recursos disponíveis. No entanto, tais ações de edição de memória quebram a suposição padrão de um prefixo continuamente crescente nas interações de LLM, levando ao que chamamos de fraturas de trajetória. Essas alterações que não seguem o padrão de prefixo perturbam a continuidade causal exigida pelos métodos padrão de gradiente de política, tornando esses métodos inaplicáveis. Para resolver isso, propomos um novo algoritmo, Otimização de Política de Contexto Dinâmico, que permite um aprendizado por reforço estável de ponta a ponta, segmentando trajetórias nos pontos de ação de memória e aplicando vantagens em nível de trajetória aos segmentos de ação resultantes. Nossos resultados demonstram que a otimização conjunta para raciocínio de tarefa e gerenciamento de memória de forma integrada não apenas reduz o consumo computacional geral, mas também melhora o desempenho da tarefa, impulsionado por estratégias adaptativas de curadoria de contexto ajustadas às capacidades intrínsecas do modelo.
Um desafio fundamental na aplicação de aprendizado por reforço (RL) a modelos de linguagem de difusão em larga escala (dLLMs) reside na intratabilidade de suas funções de verossimilhança, que são essenciais para o objetivo do RL, exigindo uma aproximação correspondente em cada etapa de treinamento. Embora os métodos existentes aproximem as log-verossimilhanças por seus limites inferiores de evidência (ELBOs) por meio de amostragem de Monte Carlo (MC) personalizada, os grafos computacionais diretos de todas as amostras MC precisam ser retidos para o cálculo do gradiente dos termos não lineares no objetivo do RL, resultando em um overhead significativo de memória. Essa restrição limita os tamanhos de amostra viáveis, levando a aproximações imprecisas de verossimilhança e, por fim, distorcendo o objetivo do RL. Para superar essa limitação, propomos o Boundary-Guided Policy Optimization (BGPO), um algoritmo de RL eficiente em memória que maximiza um limite inferior especialmente construído do objetivo baseado em ELBO. Esse limite inferior é cuidadosamente projetado para satisfazer duas propriedades-chave: (1) Linearidade: ele é formulado em uma soma linear onde cada termo depende apenas de uma única amostra MC, permitindo assim a acumulação de gradientes entre amostras e garantindo um uso constante de memória; (2) Equivalência: tanto o valor quanto o gradiente desse limite inferior são iguais aos do objetivo baseado em ELBO no treinamento on-policy, tornando-o também uma aproximação eficaz para o objetivo original do RL. Essas propriedades permitem que o BGPO adote um tamanho grande de amostra MC, resultando em aproximações de verossimilhança mais precisas e uma estimativa melhorada do objetivo do RL, o que, por sua vez, leva a um desempenho aprimorado. Experimentos mostram que o BGPO supera significativamente os algoritmos de RL anteriores para dLLMs em tarefas de resolução de problemas matemáticos, geração de código e planejamento.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em aplicações do mundo real exigem acesso a fontes de conhecimento externas e devem permanecer responsivos às informações dinâmicas e em constante mudança do mundo real para atender a consultas de usuários que buscam informações e são intensivas em conhecimento. As abordagens existentes, como métodos de geração aumentada por recuperação (RAG), agentes de busca e MLLMs equipados com busca, frequentemente sofrem com pipelines rígidos, chamadas de busca excessivas e consultas de busca mal construídas, resultando em ineficiências e resultados subótimos. Para abordar essas limitações, apresentamos o DeepMMSearch-R1, o primeiro MLLM multimodal capaz de realizar buscas na web sob demanda, com múltiplas interações, e de criar dinamicamente consultas para ferramentas de busca de imagens e texto. Especificamente, o DeepMMSearch-R1 pode iniciar buscas na web com base em recortes relevantes da imagem de entrada, tornando a busca por imagens mais eficaz, e pode adaptar iterativamente as consultas de busca de texto com base nas informações recuperadas, permitindo assim autorreflexão e autocorreção. Nossa abordagem depende de um pipeline de treinamento em duas etapas: uma fase inicial de ajuste fino supervisionado seguida por uma otimização de aprendizado por reforço online. Para o treinamento, introduzimos o DeepMMSearchVQA, um novo conjunto de dados multimodal de perguntas e respostas visuais (VQA) criado por meio de um pipeline automatizado intercalado com informações do mundo real de ferramentas de busca na web. Esse conjunto de dados contém consultas diversas e de múltiplos saltos que integram informações textuais e visuais, ensinando o modelo quando buscar, o que buscar, qual ferramenta de busca usar e como raciocinar sobre as informações recuperadas. Realizamos experimentos extensos em uma variedade de benchmarks intensivos em conhecimento para demonstrar a superioridade de nossa abordagem. Por fim, analisamos os resultados e fornecemos insights valiosos para o avanço da busca multimodal na web.
Modelos de embedding multimodal visam produzir representações unificadas informativas que capacitam diversas tarefas cross-modal. Apesar dos desenvolvimentos promissores na evolução das arquiteturas de torres duplas baseadas em CLIP para grandes modelos de visão e linguagem, trabalhos anteriores ainda enfrentam desafios inevitáveis em aplicações do mundo real e cenários de negócios, como suporte limitado a modalidades, mecanismos de treinamento instáveis e lacunas de domínio industrial. Neste trabalho, apresentamos o SAIL-Embedding, um modelo de embedding omni-modal de base que aborda essas questões por meio de estratégias de treinamento e design arquitetônico personalizados. No procedimento de otimização, propomos um esquema de treinamento em múltiplos estágios para impulsionar a eficácia multifacetada do aprendizado de representação. Especificamente, o treinamento progressivo consciente do conteúdo visa aprimorar a adaptabilidade do modelo a diversas tarefas downstream e dominar a proficiência cross-modal enriquecida. O treinamento de aprimoramento de recomendação consciente da colaboração adapta ainda mais as representações multimodais para cenários de recomendação, destilando conhecimento de embeddings sequência-para-item e ID-para-item, enquanto explora os interesses históricos do usuário. Simultaneamente, desenvolvemos a especialização estocástica e a correspondência de padrões baseada em conjuntos de dados para fortalecer a flexibilidade e a generalizabilidade do treinamento do modelo. Resultados experimentais mostram que o SAIL-Embedding alcança desempenho SOTA em comparação com outros métodos em diferentes tarefas de recuperação. Em experimentos online em vários cenários do mundo real integrados com nosso modelo, observamos um aumento significativo no Lifetime (LT), que é um indicador crucial para a experiência de recomendação. Por exemplo, o modelo entrega um ganho de LT de 7 dias de +0,158% e um ganho de LT de 14 dias de +0,144% no cenário Douyin-Selected. Para o modelo de classificação de feed do Douyin, as características de correspondência produzidas pelo SAIL-Embedding resultam em um ganho de AUC de +0,08%.
Os recentes avanços em modelos de visão e linguagem (VLMs) tornaram-nos altamente eficazes em tarefas de raciocínio. No entanto, os princípios subjacentes à construção de conjuntos de dados de treinamento eficazes para raciocínio VL permanecem pouco compreendidos. Neste trabalho, introduzimos várias abordagens de curadoria de dados e estudamos seus impactos nas capacidades de raciocínio VL, controlando cuidadosamente as configurações de treinamento e avaliação. Analisamos os efeitos das fontes de contexto (par imagem e pergunta), implementamos intervenções direcionadas nos dados e exploramos a ampliação de imagens, perguntas e soluções de cadeia de pensamento (CoT). Nossas descobertas revelam que (a) as estratégias de fonte de contexto afetam significativamente o desempenho dos VLMs, (b) intervenções como sinais auxiliares de legendas de imagens e a inclusão de raciocínio apenas textual geram ganhos substanciais, e (c) a ampliação de todas as dimensões dos dados (por exemplo, perguntas únicas por imagem e CoTs únicos por par imagem-pergunta) melhora consistentemente a capacidade de raciocínio. Motivados por essas percepções, introduzimos o HoneyBee, um conjunto de dados de raciocínio CoT em grande escala e de alta qualidade, com 2,5 milhões de exemplos, consistindo em 350 mil pares imagem-pergunta. VLMs treinados com o HoneyBee superam os modelos state-of-the-art em todos os tamanhos de modelo. Por exemplo, um VLM treinado com o HoneyBee e 3 bilhões de parâmetros supera o modelo SOTA e o modelo base em 7,8% e 24,8%, respectivamente, no MathVerse. Além disso, propomos uma estratégia de escalonamento em tempo de teste que reduz o custo de decodificação em 73% sem sacrificar a precisão. No geral, este trabalho apresenta estratégias aprimoradas para a pesquisa de curadoria de conjuntos de dados de raciocínio VL.
A geração de imagens com múltiplas instâncias (MIG) continua sendo um desafio significativo para os modelos de difusão modernos devido a limitações cruciais no controle preciso do layout dos objetos e na preservação da identidade de múltiplos sujeitos distintos. Para abordar essas limitações, apresentamos o ContextGen, uma nova estrutura de Transformers de Difusão para geração de múltiplas instâncias que é guiada tanto por layout quanto por imagens de referência. Nossa abordagem integra duas contribuições técnicas principais: um mecanismo de Ancoragem de Layout Contextual (CLA) que incorpora a imagem de layout composto no contexto de geração para ancorar robustamente os objetos em suas posições desejadas, e a Atenção de Consistência de Identidade (ICA), um mecanismo de atenção inovador que utiliza imagens de referência contextuais para garantir a consistência da identidade de múltiplas instâncias. Reconhecendo a falta de conjuntos de dados em larga escala e hierarquicamente estruturados para essa tarefa, introduzimos o IMIG-100K, o primeiro conjunto de dados com anotações detalhadas de layout e identidade. Experimentos extensivos demonstram que o ContextGen estabelece um novo estado da arte, superando os métodos existentes em precisão de controle, fidelidade de identidade e qualidade visual geral.
O progresso da IA é prejudicado pela falta de uma linguagem de programação com todas as características necessárias. Bibliotecas como PyTorch e TensorFlow oferecem diferenciação automática e implementação eficiente em GPU, mas são acréscimos ao Python, que nunca foi projetado para IA. A falta de suporte para raciocínio automatizado e aquisição de conhecimento levou a uma longa e custosa série de tentativas improvisadas para adicioná-los. Por outro lado, linguagens de IA como LISP e Prolog carecem de escalabilidade e suporte para aprendizado. Este artigo propõe a lógica tensorial, uma linguagem que resolve esses problemas ao unificar a IA neural e simbólica em um nível fundamental. O único construto na lógica tensorial é a equação tensorial, baseada na observação de que regras lógicas e a soma de Einstein são essencialmente a mesma operação, e tudo mais pode ser reduzido a elas. Mostro como implementar de forma elegante formas-chave de IA neural, simbólica e estatística na lógica tensorial, incluindo transformers, raciocínio formal, máquinas de kernel e modelos gráficos. Mais importante, a lógica tensorial torna possíveis novas direções, como o raciocínio sólido no espaço de embeddings. Isso combina a escalabilidade e a capacidade de aprendizado das redes neurais com a confiabilidade e a transparência do raciocínio simbólico, e potencialmente pode ser a base para uma adoção mais ampla da IA.
Compreender a dinâmica de uma cena física envolve raciocinar sobre as diversas maneiras pelas quais ela pode potencialmente mudar, especialmente como resultado de interações locais. Apresentamos o Flow Poke Transformer (FPT), uma estrutura inovadora para prever diretamente a distribuição de movimento local, condicionada a interações esparsas denominadas "pokes". Diferentemente dos métodos tradicionais que geralmente permitem apenas a amostragem densa de uma única realização da dinâmica da cena, o FPT fornece uma representação interpretável e diretamente acessível do movimento multimodal da cena, sua dependência de interações físicas e as incertezas inerentes da dinâmica da cena. Também avaliamos nosso modelo em várias tarefas subsequentes para permitir comparações com métodos anteriores e destacar a flexibilidade de nossa abordagem. Na geração de movimento denso de faces, nosso modelo pré-treinado genérico supera baselines especializadas. O FPT pode ser ajustado em tarefas fortemente fora da distribuição, como conjuntos de dados sintéticos, para permitir melhorias significativas em relação a métodos no domínio na estimativa de movimento de objetos articulados. Além disso, prever distribuições explícitas de movimento diretamente permite que nosso método alcance desempenho competitivo em tarefas como segmentação de partes móveis a partir de pokes, o que demonstra ainda mais a versatilidade do nosso FPT. Códigos e modelos estão disponíveis publicamente em https://compvis.github.io/flow-poke-transformer.
A edição de imagens baseada em instruções oferece uma maneira poderosa e intuitiva de manipular imagens por meio de linguagem natural. No entanto, confiar apenas em instruções textuais limita o controle refinado sobre a extensão das edições. Apresentamos o Kontinuous Kontext, um modelo de edição orientado por instruções que fornece uma nova dimensão de controle sobre a intensidade da edição, permitindo que os usuários ajustem as edições gradualmente, desde nenhuma alteração até um resultado totalmente realizado, de maneira suave e contínua. O Kontinuous Kontext estende um modelo de edição de imagens de última geração para aceitar uma entrada adicional, um escalar de intensidade de edição, que é então combinado com a instrução de edição, permitindo controle explícito sobre a extensão da edição. Para injetar essa informação escalar, treinamos uma rede projetora leve que mapeia o escalar de entrada e a instrução de edição para coeficientes no espaço de modulação do modelo. Para treinar nosso modelo, sintetizamos um conjunto de dados diversificado de quadrupletos imagem-instrução-intensidade de edição usando modelos generativos existentes, seguido por uma etapa de filtragem para garantir qualidade e consistência. O Kontinuous Kontext oferece uma abordagem unificada para controle refinado da intensidade de edição em edições orientadas por instruções, desde sutis até fortes, em diversas operações como estilização, alterações de atributos, materiais, fundo e forma, sem exigir treinamento específico para atributos.
Estudamos como os modelos de linguagem de grande escala (LLMs) "pensam" através de seu espaço de representação. Propomos um novo framework geométrico que modela o raciocínio de um LLM como fluxos — trajetórias de embeddings que evoluem onde a lógica se desenvolve. Desacoplamos a estrutura lógica da semântica empregando as mesmas proposições de dedução natural com diferentes portadores semânticos, permitindo-nos testar se os LLMs internalizam a lógica além da forma superficial. Essa perspectiva conecta o raciocínio com quantidades geométricas como posição, velocidade e curvatura, possibilitando análise formal em espaços de representação e conceitos. Nossa teoria estabelece: (1) o raciocínio dos LLMs corresponde a fluxos suaves no espaço de representação, e (2) declarações lógicas atuam como controladores locais das velocidades desses fluxos. Usando proxies de representação aprendidos, projetamos experimentos controlados para visualizar e quantificar os fluxos de raciocínio, fornecendo validação empírica de nosso framework teórico. Nosso trabalho serve tanto como fundamento conceitual quanto como ferramentas práticas para estudar fenômenos de raciocínio, oferecendo uma nova lente para interpretabilidade e análise formal do comportamento dos LLMs.
Em um pipeline de design ideal, o design de interface do usuário (UI) está interligado à pesquisa com usuários para validar decisões, mas os estudos geralmente são limitados em recursos durante a exploração inicial. Avanços recentes em modelos de linguagem multimodal (MLLMs) oferecem uma oportunidade promissora para atuarem como avaliadores preliminares, ajudando designers a reduzir opções antes de testes formais. Diferente de trabalhos anteriores que enfatizam o comportamento do usuário em domínios restritos, como e-commerce, com métricas como cliques ou conversões, focamos em avaliações subjetivas do usuário em diversas interfaces. Investigamos se MLLMs podem imitar as preferências humanas ao avaliar UIs individuais e compará-las. Utilizando dados de uma plataforma de crowdsourcing, avaliamos GPT-4, Claude e Llama em 30 interfaces e examinamos a alinhamento com julgamentos humanos em múltiplos fatores de UI. Nossos resultados mostram que MLLMs aproximam-se das preferências humanas em algumas dimensões, mas divergem em outras, destacando tanto seu potencial quanto suas limitações ao complementar pesquisas iniciais de UX.
A modelagem simbólica de mundos requer inferir e representar a dinâmica de transição de um ambiente como um programa executável. Trabalhos anteriores focaram principalmente em ambientes amplamente determinísticos, com abundância de dados de interação, mecânicas simples e orientação humana. Nós abordamos um cenário mais realista e desafiador: aprender em um ambiente complexo e estocástico onde o agente tem apenas "uma vida" para explorar um ambiente hostil sem orientação humana. Apresentamos o OneLife, um framework que modela a dinâmica do mundo por meio de leis programáticas ativadas condicionalmente dentro de um framework de programação probabilística. Cada lei opera através de uma estrutura de pré-condição-efeito, ativando-se em estados relevantes do mundo. Isso cria um grafo de computação dinâmico que direciona a inferência e a otimização apenas por meio das leis relevantes, evitando desafios de escalabilidade quando todas as leis contribuem para previsões sobre um estado complexo e hierárquico, e permitindo a aprendizagem de dinâmicas estocásticas mesmo com ativação esparsa de regras. Para avaliar nossa abordagem sob essas restrições exigentes, introduzimos um novo protocolo de avaliação que mede (a) a classificação de estados, a capacidade de distinguir estados futuros plausíveis de implausíveis, e (b) a fidelidade de estados, a capacidade de gerar estados futuros que se assemelham de perto à realidade. Desenvolvemos e avaliamos nosso framework no Crafter-OO, nossa reimplementação do ambiente Crafter que expõe um estado simbólico estruturado e orientado a objetos e uma função de transição pura que opera apenas nesse estado. O OneLife consegue aprender com sucesso as principais dinâmicas do ambiente a partir de interações mínimas e não guiadas, superando uma linha de base forte em 16 dos 23 cenários testados. Também testamos a capacidade de planejamento do OneLife, com simulações de rollouts identificando com sucesso estratégias superiores. Nosso trabalho estabelece uma base para a construção autônoma de modelos programáticos de mundos desconhecidos e complexos.
Modelos de raciocínio de grande escala (LRMs) abriram novas possibilidades em termos de resolução de problemas, através da criação de um processo de pensamento em linguagem natural antes de responder a uma consulta. Embora suas capacidades sejam bem conhecidas em tarefas de matemática e codificação, seu impacto na tarefa de tradução automática (MT) permanece pouco explorado. Neste trabalho, investigamos os benefícios da geração de tokens intermediários ao realizar MT em vários pares de idiomas com diferentes níveis de recursos e em múltiplas configurações. Descobrimos que "tokens de pensamento" não ajudam os LRMs a desempenhar melhor a MT. Esse resultado se generaliza para modelos ajustados para raciocinar antes de traduzir, utilizando uma cadeia de pensamento (CoT) destilada inspirada nas práticas de tradutores humanos. Especificamente, ajustar um modelo com explicações sintéticas de CoT detalhando como traduzir passo a passo não supera o ajuste padrão de entrada-saída. No entanto, construir os tokens intermediários combinando as saídas de estratégias modulares de prompt específicas para tradução resulta em melhorias. Nossas descobertas destacam que a contribuição dos tokens intermediários durante o ajuste depende fortemente da presença de tentativas de tradução neles. De forma mais ampla, nossos resultados sugerem que usar um professor para refinar traduções-alvo ou expandir corpora paralelos é mais impactante do que destilar suas explicações de CoT em modelos de MT "pensantes".
Apresentamos o Decaimento de Peso Cauteloso (CWD, do inglês Cautious Weight Decay), uma modificação de uma linha, independente do otimizador, que aplica o decaimento de peso apenas às coordenadas dos parâmetros cujos sinais estejam alinhados com a atualização do otimizador. Diferente do decaimento desacoplado padrão, que implicitamente otimiza um objetivo regularizado ou restrito, o CWD preserva a função de perda original e admite uma interpretação bilevel: ele induz um comportamento de modo deslizante ao atingir a variedade estacionária, permitindo que ele busque pontos estacionários localmente Pareto-ótimos do objetivo não modificado. Na prática, o CWD é uma alteração direta para otimizadores como AdamW, Lion e Muon, não exigindo novos hiperparâmetros ou ajustes adicionais. Para pré-treinamento de modelos de linguagem e classificação no ImageNet, o CWD melhora consistentemente a perda final e a acurácia em escalas de milhões a bilhões de parâmetros.
Agentes de modelos de linguagem de grande escala (LLMs) são fundamentalmente limitados pelo comprimento do contexto em tarefas de longo horizonte. Introduzimos o Context-Folding, uma estrutura que capacita os agentes a gerenciar ativamente seu contexto de trabalho. Um agente pode ramificar-se proceduralmente em uma sub-trajetória para lidar com uma subtarefa e, em seguida, dobrá-la após a conclusão, colapsando os passos intermediários enquanto retém um resumo conciso do resultado. Para tornar esse comportamento aprendível, desenvolvemos uma estrutura de aprendizado por reforço de ponta a ponta, o FoldGRPO, com recompensas de processo específicas para incentivar a decomposição eficaz de tarefas e o gerenciamento de contexto. Em tarefas complexas de longo horizonte (Deep Research e SWE), nosso agente de dobra corresponde ou supera as linhas de base do ReAct enquanto utiliza um contexto ativo 10 vezes menor e supera significativamente os modelos que dependem de gerenciamento de contexto baseado em resumos.
Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) têm sido aplicados à descoberta de equações científicas, aproveitando o conhecimento científico embutido para a geração de hipóteses. No entanto, os métodos atuais geralmente limitam os LLMs ao papel de propositores de equações dentro de algoritmos de busca, como a programação genética. Neste artigo, apresentamos o SR-Scientist, um framework que eleva o LLM de um simples propositor de equações para um cientista de IA autônomo que escreve código para analisar dados, implementa a equação como código, a submete para avaliação e otimiza a equação com base no feedback experimental. Especificamente, integramos o interpretador de código em um conjunto de ferramentas para análise de dados e avaliação de equações. O agente é instruído a otimizar a equação utilizando essas ferramentas ao longo de um horizonte prolongado, com pipelines mínimos definidos por humanos. Resultados empíricos mostram que o SR-Scientist supera os métodos de linha de base por uma margem absoluta de 6% a 35% em conjuntos de dados que abrangem quatro disciplinas científicas. Além disso, demonstramos a robustez do nosso método ao ruído, a generalização das equações descobertas para dados fora do domínio e sua precisão simbólica. Adicionalmente, desenvolvemos um framework de aprendizado por reforço de ponta a ponta para aprimorar as capacidades do agente.
Estudamos o ajuste fino por aprendizado por reforço (RL) de agentes de modelos de linguagem de grande escala (LLM) para o uso de ferramentas em múltiplas interações de longo prazo, onde o comprimento do contexto rapidamente se torna um gargalo fundamental. Os pipelines de RL existentes podem sofrer com a degradação no seguimento de instruções, custos excessivos de execução e, mais importante, limites estritos de contexto. Para enfrentar esses desafios, introduzimos o gerenciamento de contexto baseado em sumarização no treinamento. Especificamente, ele comprime periodicamente o histórico de uso de ferramentas por meio de resumos gerados por LLM que retêm informações relevantes para a tarefa, mantendo um contexto compacto enquanto permite que o agente escale além da janela de contexto fixa. Com base nessa formulação, derivamos uma representação de gradiente de política que permite de forma contínua que as infraestruturas padrão de RL em LLM otimizem tanto os comportamentos de uso de ferramentas quanto as estratégias de sumarização de ponta a ponta. Instanciamos esse framework com a Otimização de Política Aumentada por Sumarização (SUPO), um algoritmo de RL em LLM que permite o treinamento de longo prazo além de um limite de contexto fixo. Experimentos em tarefas interativas de chamada de função e busca demonstram que o SUPO melhora significativamente a taxa de sucesso enquanto mantém o mesmo ou até mesmo um comprimento de contexto de trabalho menor em comparação com as abordagens baselines. Também demonstramos que, para tarefas complexas de busca, o SUPO pode melhorar ainda mais o desempenho de avaliação ao escalar o número máximo de rodadas de sumarização no momento do teste além daquele usado no treinamento. Nossos resultados estabelecem o gerenciamento de contexto baseado em sumarização como uma abordagem fundamentada e escalável para treinar agentes de RL além de um limite fixo de comprimento de contexto.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) prometem acelerar a descoberta científica ao interpretar procedimentos experimentais complexos. No entanto, suas verdadeiras capacidades são pouco compreendidas, uma vez que os benchmarks existentes negligenciam a natureza detalhada e de longo prazo do trabalho laboratorial autêntico, especialmente em ambientes de laboratório úmido. Para preencher essa lacuna, introduzimos o ExpVid, o primeiro benchmark projetado para avaliar sistematicamente MLLMs em vídeos de experimentos científicos. Curatado a partir de publicações de vídeos revisados por pares, o ExpVid apresenta uma nova hierarquia de tarefas de três níveis que reflete o processo científico: (1) Percepção Detalhada de ferramentas, materiais e ações; (2) Compreensão Procedimental da ordem e completude dos passos; e (3) Raciocínio Científico que conecta o experimento completo às suas conclusões publicadas. Nossa pipeline de anotação centrada na visão, combinando geração automatizada com validação multidisciplinar de especialistas, garante que as tarefas exijam fundamentação visual. Avaliamos 19 MLLMs líderes no ExpVid e descobrimos que, embora se destaquem no reconhecimento de alto nível, eles lutam para desambiguar detalhes finos, rastrear mudanças de estado ao longo do tempo e vincular procedimentos experimentais a resultados científicos. Nossos resultados revelam uma lacuna de desempenho notável entre modelos proprietários e de código aberto, particularmente no raciocínio de ordem superior. O ExpVid não apenas fornece uma ferramenta de diagnóstico, mas também traça um roteiro para o desenvolvimento de MLLMs capazes de se tornarem parceiros confiáveis na experimentação científica.
A contaminação de dados representa uma ameaça significativa para a avaliação confiável de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). Esse problema ocorre quando amostras de benchmarks podem aparecer inadvertidamente em conjuntos de treinamento, comprometendo a validade do desempenho reportado. Embora métodos de detecção tenham sido desenvolvidos para as etapas de pré-treinamento e Ajuste Fino Supervisionado, existe uma lacuna crítica de pesquisa para a fase cada vez mais relevante de Pós-Treinamento com Aprendizado por Reforço (RL, na sigla em inglês). À medida que o pós-treinamento com RL se torna crucial para o avanço do raciocínio dos LLMs, a ausência de métodos especializados de detecção de contaminação nesse paradigma representa uma vulnerabilidade crítica. Para abordar essa questão, realizamos o primeiro estudo sistemático de detecção de dados no cenário de pós-treinamento com RL e propomos o método Self-Critique. Nossa abordagem é motivada por uma observação fundamental: após a fase de RL, a distribuição de entropia das saídas dos LLMs tende a colapsar em modos altamente específicos e esparsos. O Self-Critique investiga o colapso subjacente da política, ou seja, a convergência do modelo para um caminho de raciocínio estreito, que causa essa redução de entropia. Para facilitar essa pesquisa, também introduzimos o RL-MIA, um benchmark construído para simular esse cenário específico de contaminação. Experimentos extensivos mostram que o Self-Critique supera significativamente os métodos de baseline em vários modelos e tarefas de contaminação, alcançando uma melhoria de AUC de até 30%. Enquanto os métodos existentes se aproximam de um palpite aleatório para contaminação na fase de RL, nossa abordagem torna a detecção viável.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) existentes sofrem com o aumento dos custos de inferência devido aos tokens visuais adicionais introduzidos pelas entradas de imagens. Neste trabalho, propomos o Aprendizado de Consistência Visual (ViCO), um novo algoritmo de treinamento que permite ao modelo representar imagens de diferentes complexidades semânticas usando números variados de tokens visuais. A ideia central do nosso método é empregar múltiplos conectores MLP, cada um com uma taxa de compressão de imagem diferente, para reduzir a resolução dos tokens visuais com base na complexidade semântica da imagem. Durante o treinamento, minimizamos a divergência KL entre as respostas condicionadas em diferentes conectores MLP. No momento da inferência, introduzimos um roteador de imagens, denominado Roteador de Resolução Visual (ViR), que seleciona automaticamente a taxa de compressão apropriada para cada segmento de imagem. Em comparação com as estratégias dinâmicas de alta resolução existentes, que ajustam o número de tokens visuais com base nas resoluções das imagens, nosso método adapta dinamicamente o número de tokens visuais de acordo com a complexidade semântica. Resultados experimentais demonstram que nosso método pode reduzir o número de tokens visuais em até 50% enquanto mantém as capacidades de percepção, raciocínio e OCR do modelo. Esperamos que este trabalho contribua para o desenvolvimento de MLLMs mais eficientes. O código e os modelos serão liberados para facilitar pesquisas futuras.
Os avanços recentes no raciocínio de cadeia longa de pensamento (CoT) têm priorizado amplamente a precisão das respostas e a eficiência de tokens, enquanto negligenciam aspectos críticos para a confiabilidade. Argumentamos que sistemas de raciocínio utilizáveis devem ser confiáveis, caracterizados por três propriedades: interpretabilidade, fidelidade e confiabilidade. Para isso, propomos o ReFIne, um novo framework de treinamento que integra ajuste fino supervisionado com GRPO para incentivar os modelos a: (i) melhorar a interpretabilidade ao produzir traços estruturados baseados em tags com planejamento de alto nível que sejam mais fáceis de serem seguidos por humanos; (ii) aprimorar a fidelidade ao divulgar explicitamente as informações decisivas que orientam cada solução, com referências consistentes entre seções; e (iii) promover a confiabilidade ao fornecer autoavaliações tanto da solidez da derivação quanto da confiança da resposta final. Aplicamos o ReFIne aos modelos Qwen3 em múltiplas escalas (1,7B/4B/8B) e avaliamos em benchmarks matemáticos de dificuldade variada. Nossos resultados experimentais mostram que os modelos ReFIne geram traços de raciocínio mais claros e melhor estruturados (interpretabilidade +44,0%), expõem de forma mais fiel seu processo de decisão subjacente (fidelidade +18,8%) e oferecem estimativas de confiança informativas (confiabilidade +42,4%). Esses achados destacam uma direção importante, mas negligenciada: modelos de raciocínio devem ser otimizados não apenas para precisão, mas também para dimensões mais amplas de confiabilidade. Nosso código está disponível em: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
A previsão de séries temporais (TSF) continua sendo um problema desafiador e em grande parte não resolvido no aprendizado de máquina, apesar dos esforços recentes significativos que utilizam Modelos de Linguagem de Grande Escala (LLMs), que predominantemente dependem de arquiteturas Transformer. Evidências empíricas mostram consistentemente que mesmo Transformers poderosos frequentemente falham em superar modelos muito mais simples, por exemplo, modelos lineares, em tarefas de TSF; no entanto, uma compreensão teórica rigorosa desse fenômeno ainda é limitada. Neste artigo, fornecemos uma análise teórica das limitações dos Transformers para TSF através da lente da teoria de Aprendizado em Contexto (ICL). Especificamente, sob dados AR(p), estabelecemos que: (1) Modelos de Atenção Linear (LSA) não podem alcançar um Erro Quadrático Médio (MSE) esperado menor do que modelos lineares clássicos para previsão em contexto; (2) à medida que o comprimento do contexto se aproxima do infinito, o LSA recupera assintoticamente o preditor linear ótimo; e (3) sob inferência no estilo Cadeia de Pensamento (CoT), as previsões colapsam para a média exponencialmente. Validamos empiricamente essas descobertas por meio de experimentos cuidadosamente projetados. Nossa teoria não apenas esclarece vários fenômenos anteriormente pouco explorados, mas também oferece insights práticos para projetar arquiteturas de previsão mais eficazes. Esperamos que nosso trabalho incentive a comunidade de pesquisa mais ampla a revisitar as limitações teóricas fundamentais da TSF e a avaliar criticamente a aplicação direta de arquiteturas cada vez mais sofisticadas sem um escrutínio mais profundo.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) mostram que a extensão do comprimento das cadeias de raciocínio melhora significativamente o desempenho em tarefas complexas. Embora a revelação desses traços de raciocínio ajude os usuários a acompanhar, verificar e aprender melhor com o processo de resolução de problemas do modelo, isso também os torna altamente vulneráveis à destilação não autorizada. Para mitigar esse risco, os provedores de modelos proprietários frequentemente adotam estratégias de proteção agressivas, como substituir o raciocínio detalhado por resumos breves, o que priva os usuários de informações intermediárias valiosas. Para abordar esse dilema, propomos o PART, uma reformulação antidestilação que preserva informações dos traços de raciocínio. Motivados pela diferença entre como os humanos entendem os traços de raciocínio e como os LLMs os exploram para ajuste fino supervisionado, projetamos uma reformulação simples, mas eficaz, em duas etapas: remover comportamentos de auto-diálogo e reordenar subconclusões. Um pequeno modelo auxiliar é treinado para realizar essa reformulação, incorrendo em um custo computacional mínimo. Experimentos extensivos demonstram que o PART consistentemente interrompe a destilação em modelos estudantis de diferentes tamanhos e tipos em vários benchmarks de raciocínio. Por exemplo, ao treinar com traços reformulados, mesmo o desempenho de um grande modelo estudantil de 32B diminui de 54,17 para 46,88 no AIME 2024, correspondendo a uma degradação de 13,5%.
Provedores de chatbots (por exemplo, OpenAI) dependem de esquemas de assinatura em camadas para gerar receita, oferecendo modelos básicos para usuários gratuitos e modelos avançados para assinantes pagantes. No entanto, um esquema mais granular de pagamento para desbloquear recursos premium (por exemplo, matemática, programação) é considerado mais economicamente viável para os provedores. Esse esquema requer uma técnica de bloqueio de recursos (FLoTE) que seja (i) eficaz em recusar recursos bloqueados, (ii) preservadora da utilidade para recursos desbloqueados, (iii) robusta contra evasão ou compartilhamento não autorizado de credenciais, e (iv) escalável para múltiplos recursos e usuários. No entanto, as FLoTEs existentes (por exemplo, modelos bloqueados por senha) não são robustas ou escaláveis. Apresentamos o Locket, a primeira FLoTE robusta e escalável para habilitar esquemas de pagamento para desbloquear recursos. O Locket utiliza uma abordagem inovadora de fusão para anexar adaptadores a um LLM, recusando recursos não autorizados. Nossa avaliação abrangente demonstra que o Locket é eficaz (100% de recusa em recursos bloqueados), preservador de utilidade (≤ 7% de degradação de utilidade em recursos desbloqueados), robusto (≤ 5% de taxa de sucesso de ataques) e escalável para múltiplos recursos e clientes.
As recentes salvaguardas de segurança baseadas em raciocínio para Modelos de Raciocínio de Grande Escala (LRMs, na sigla em inglês), como o alinhamento deliberativo, têm demonstrado uma forte defesa contra ataques de jailbreak. Ao aproveitar a capacidade de raciocínio dos LRMs, essas salvaguardas ajudam os modelos a avaliar a segurança das entradas dos usuários antes de gerar respostas finais. A poderosa capacidade de raciocínio pode analisar a intenção da consulta de entrada e se recusará a auxiliar assim que detectar a intenção maliciosa ocultada pelos métodos de jailbreak. Tais salvaguardas mostraram um aumento significativo na defesa, como as taxas de recusa quase perfeitas na série gpt-oss de código aberto. Infelizmente, descobrimos que essas poderosas salvaguardas baseadas em raciocínio podem ser extremamente vulneráveis a manipulações sutis dos prompts de entrada e, uma vez sequestradas, podem levar a resultados ainda mais prejudiciais. Especificamente, primeiro revelamos um aspecto surpreendentemente frágil dessas salvaguardas: simplesmente adicionar alguns tokens de modelo ao prompt de entrada pode contornar com sucesso as salvaguardas aparentemente poderosas e levar a respostas explícitas e prejudiciais. Para explorar mais a fundo, introduzimos um conjunto de métodos de jailbreak que subvertem as salvaguardas baseadas em raciocínio. Nossos ataques abrangem configurações de caixa branca, cinza e preta e variam desde manipulações de modelo sem esforço até otimizações totalmente automatizadas. Juntamente com o potencial de implementação escalável, esses métodos também alcançam taxas de sucesso de ataque alarmantemente altas (por exemplo, ultrapassando 90% em 5 benchmarks diferentes na série gpt-oss, tanto em modelos locais quanto em serviços de API online). Avaliações em vários LRMs de código aberto líderes confirmam que essas vulnerabilidades são sistêmicas, destacando a necessidade urgente de técnicas de alinhamento mais robustas para LRMs de código aberto, a fim de prevenir o uso malicioso. O código está disponível em https://chenxshuo.github.io/bag-of-tricks.
Apresentamos o SynthID-Image, um sistema baseado em aprendizado profundo para marcação d'água invisível de imagens geradas por IA. Este artigo documenta os requisitos técnicos, modelos de ameaça e desafios práticos da implantação de tal sistema em escala global, abordando os principais requisitos de eficácia, fidelidade, robustez e segurança. O SynthID-Image foi utilizado para marcar mais de dez bilhões de imagens e quadros de vídeo nos serviços da Google, e seu serviço de verificação correspondente está disponível para testadores confiáveis. Para completude, apresentamos uma avaliação experimental de uma variante de modelo externo, o SynthID-O, disponível por meio de parcerias. Comparamos o SynthID-O com outros métodos de marcação d'água pós-processamento da literatura, demonstrando desempenho de ponta tanto em qualidade visual quanto em robustez a perturbações comuns em imagens. Embora este trabalho se concentre em mídia visual, as conclusões sobre implantação, restrições e modelagem de ameaças se generalizam para outras modalidades, incluindo áudio. Este artigo fornece uma documentação abrangente para a implantação em larga escala de sistemas de proveniência de mídia baseados em aprendizado profundo.
O pré-treinamento contrastivo áudio-linguagem produz representações conjuntas poderosas, mas uma lacuna persistente entre as modalidades de áudio e texto limita os benefícios do acoplamento de codificadores multimodais com grandes modelos de linguagem (LLMs). Apresentamos o Diffusion-Link, um módulo de ponte entre modalidades baseado em difusão que mapeia gerativamente embeddings de áudio para a distribuição de embeddings de texto. O módulo é treinado no embedding de saída do codificador multimodal congelado e implementado como uma rede leve com três blocos residuais de MLP. Para avaliar o efeito do Diffusion-Link no acoplamento de codificadores multimodais com LLMs, avaliamos na tarefa de Geração Automática de Legendas de Áudio (AAC); até onde sabemos, esta é a primeira aplicação de ponte entre modalidades baseada em difusão para AAC. Reportamos dois resultados. (1) Análise da lacuna entre modalidades: em critérios de similaridade e geométricos, o Diffusion-Link reduz a lacuna entre modalidades mais do que métodos anteriores baseados em difusão e mostra uma migração coletiva de embeddings de áudio em direção à distribuição de texto. (2) AAC downstream: ao acoplar o Diffusion-Link à mesma linha de base de LLM multimodal, alcançamos o estado da arte no AudioCaps tanto em legendagem zero-shot quanto totalmente supervisionada, sem conhecimento externo, com ganhos relativos de até 52,5% e 7,5%, respectivamente. Esses achados mostram que fechar a lacuna entre modalidades é crucial para um acoplamento eficaz entre codificadores multimodais e LLMs, e a ponte entre modalidades baseada em difusão oferece uma direção promissora além de designs centrados em recuperação de conhecimento. O código será liberado após a aceitação https://github.com/DevKiHyun/Diffusion-Link.
Agentes de Pesquisa Profunda (DR, na sigla em inglês) construídos sobre Modelos de Linguagem de Grande Escala (LLMs) podem realizar pesquisas complexas e de múltiplas etapas, decompondo tarefas, recuperando informações online e sintetizando relatórios detalhados. No entanto, o uso indevido de LLMs com capacidades tão poderosas pode levar a riscos ainda maiores. Isso é especialmente preocupante em domínios de alto impacto e intensivos em conhecimento, como a biosegurança, onde os DRs podem gerar relatórios profissionais contendo conhecimento proibido detalhado. Infelizmente, encontramos tais riscos na prática: simplesmente enviar uma consulta prejudicial, que um LLM autônomo rejeita diretamente, pode eliciar um relatório detalhado e perigoso de agentes DR. Isso destaca os riscos elevados e reforça a necessidade de uma análise de segurança mais profunda. No entanto, métodos de jailbreak projetados para LLMs não são suficientes para expor esses riscos únicos, pois não visam a capacidade de pesquisa dos agentes DR. Para abordar essa lacuna, propomos duas novas estratégias de jailbreak: Injeção de Plano, que insere subobjetivos maliciosos no plano do agente; e Sequestro de Intenção, que reformula consultas prejudiciais como questões de pesquisa acadêmica. Realizamos extensos experimentos em diferentes LLMs e vários benchmarks de segurança, incluindo prompts proibidos gerais e de biosegurança. Esses experimentos revelam três descobertas principais: (1) O alinhamento dos LLMs frequentemente falha em agentes DR, onde prompts prejudiciais enquadrados em termos acadêmicos podem sequestrar a intenção do agente; (2) O planejamento e execução de múltiplas etapas enfraquecem o alinhamento, revelando vulnerabilidades sistêmicas que as salvaguardas no nível do prompt não conseguem abordar; (3) Agentes DR não apenas contornam recusas, mas também produzem conteúdo mais coeso, profissional e perigoso, em comparação com LLMs autônomos. Esses resultados demonstram um desalinhamento fundamental em agentes DR e exigem técnicas de alinhamento melhores e específicas para agentes DR. Códigos e conjuntos de dados estão disponíveis em https://chenxshuo.github.io/deeper-harm.
Os modelos generativos de remoção de ruído existentes dependem da resolução de SDEs ou ODEs reversas no tempo discretizado. Neste artigo, identificamos um problema há muito negligenciado, porém generalizado, nesta família de modelos: um desalinhamento entre o nível de ruído pré-definido e o nível de ruído real codificado nos estados intermediários durante a amostragem. Referimo-nos a esse desalinhamento como deslocamento de ruído. Por meio de análise empírica, demonstramos que o deslocamento de ruído é amplamente presente em modelos de difusão modernos e exibe um viés sistemático, levando a uma geração subótima devido tanto à generalização fora da distribuição quanto a atualizações imprecisas de remoção de ruído. Para abordar esse problema, propomos o Noise Awareness Guidance (NAG), um método de correção simples, porém eficaz, que orienta explicitamente as trajetórias de amostragem a permanecerem consistentes com o cronograma de ruído pré-definido. Além disso, introduzimos uma variante do NAG sem classificador, que treina conjuntamente um modelo condicionado ao ruído e um modelo não condicionado ao ruído por meio de dropout condicionado ao ruído, eliminando assim a necessidade de classificadores externos. Experimentos extensivos, incluindo geração no ImageNet e várias tarefas de ajuste fino supervisionado, mostram que o NAG mitiga consistentemente o deslocamento de ruído e melhora substancialmente a qualidade de geração dos principais modelos de difusão.
Modelos de linguagem baseados em difusão (dLLMs) surgiram como uma alternativa promissora aos modelos de linguagem autoregressivos (AR), aproveitando a geração baseada em desruído para permitir paralelismo inerente. Embora cada vez mais modelos dLLMs de código aberto surjam, sua adoção generalizada ainda é limitada pela falta de uma estrutura de inferência padronizada e eficiente. Apresentamos o dInfer, uma estrutura eficiente e extensível para inferência de dLLMs. O dInfer decompõe o pipeline de inferência em quatro componentes modulares—modelo, gerenciador de iteração de difusão, estratégia de decodificação e gerenciador de cache KV—e integra novos algoritmos para cada componente, juntamente com otimizações em nível de sistema. Através dessa combinação de inovações algorítmicas e aprimoramentos de sistema, o dInfer alcança ganhos substanciais de eficiência sem comprometer a qualidade da saída no LLaDA-MoE. Com um tamanho de lote 1, ele supera 1.100 tokens por segundo no HumanEval e mantém uma média de mais de 800 tokens por segundo em seis benchmarks utilizando 8 GPUs H800. Em comparação com sistemas anteriores, o dInfer oferece uma aceleração de 10 vezes em relação ao Fast-dLLM, mantendo um desempenho de modelo similar. Mesmo comparado ao modelo AR (com um número comparável de parâmetros de ativação e desempenho) QWen2.5-3B, que é altamente otimizado com o mais recente mecanismo de inferência vLLM, o dInfer ainda proporciona uma aceleração de 2 a 3 vezes. A implementação do dInfer está disponível em código aberto em https://github.com/inclusionAI/dInfer.