Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de código em contextos longos está se tornando cada vez mais crítica, à medida que os Modelos de Linguagem de Grande Escala (LLMs) precisam raciocinar sobre informações extensas em bases de código. Embora avanços recentes permitam que LLMs de código processem entradas longas, os altos custos de API e a latência de geração continuam sendo gargalos significativos. Técnicas existentes de poda de contexto, como o LLMLingua, alcançam resultados promissores para textos gerais, mas ignoram estruturas e dependências específicas de código, resultando em desempenho subótimo em tarefas de programação. Neste artigo, propomos o LongCodeZip, uma nova estrutura de compressão de código plug-and-play projetada especificamente para LLMs de código. O LongCodeZip emprega uma estratégia de duplo estágio: (1) compressão de granularidade grossa, que identifica e classifica blocos em nível de função usando perplexidade condicional em relação à instrução, mantendo apenas as funções mais relevantes; e (2) compressão de granularidade fina, que segmenta as funções retidas em blocos com base na perplexidade e seleciona um subconjunto ótimo sob um orçamento adaptativo de tokens para maximizar a relevância. Avaliações em múltiplas tarefas, incluindo conclusão de código, sumarização e resposta a perguntas, mostram que o LongCodeZip supera consistentemente os métodos de base, alcançando uma taxa de compressão de até 5,6x sem degradar o desempenho da tarefa. Ao reduzir efetivamente o tamanho do contexto enquanto preserva informações essenciais, o LongCodeZip permite que LLMs escalem melhor para cenários reais de código em larga escala, avançando a eficiência e a capacidade de aplicações de inteligência de código.
Os modelos de difusão revolucionaram a geração de imagens e vídeos, alcançando uma qualidade visual sem precedentes. No entanto, sua dependência de arquiteturas baseadas em transformers acarreta custos computacionais proibitivamente altos, especialmente ao estender a geração para vídeos longos. Trabalhos recentes exploraram formulações autorregressivas para a geração de vídeos longos, geralmente por meio da destilação de modelos professores bidirecionais de curto horizonte. No entanto, como os modelos professores não conseguem sintetizar vídeos longos, a extrapolação dos modelos alunos além de seu horizonte de treinamento frequentemente resulta em uma degradação acentuada da qualidade, decorrente da acumulação de erros no espaço latente contínuo. Neste artigo, propomos uma abordagem simples, porém eficaz, para mitigar a degradação de qualidade na geração de vídeos de longo horizonte, sem a necessidade de supervisão de modelos professores de vídeos longos ou retreinamento em conjuntos de dados de vídeos longos. Nossa abordagem se concentra em explorar o rico conhecimento dos modelos professores para fornecer orientação ao modelo aluno por meio de segmentos amostrados de vídeos longos autogerados. Nosso método mantém a consistência temporal ao escalar a duração do vídeo em até 20x além da capacidade do modelo professor, evitando problemas comuns, como superexposição e acumulação de erros, sem a necessidade de recalcular quadros sobrepostos, como em métodos anteriores. Ao escalar a computação, nosso método demonstra a capacidade de gerar vídeos de até 4 minutos e 15 segundos, equivalente a 99,9% do intervalo máximo suportado pelo embedding de posição do nosso modelo base e mais de 50x mais longo que o do nosso modelo de referência. Experimentos em benchmarks padrão e em nosso benchmark proposto demonstram que nossa abordagem supera substancialmente os métodos de referência em fidelidade e consistência. Nossa demonstração de vídeos de longo horizonte pode ser encontrada em https://self-forcing-plus-plus.github.io/.
O aprendizado por reforço com recompensas verificáveis (RLVR) é um paradigma emergente para melhorar a capacidade de raciocínio de modelos de linguagem de grande escala. No entanto, o treinamento on-policy padrão descarta experiências de rollout após uma única atualização, levando a ineficiência computacional e instabilidade. Embora trabalhos anteriores em RL tenham destacado os benefícios de reutilizar experiências passadas, o papel das características da experiência na formação da dinâmica de aprendizado de modelos de raciocínio de grande escala permanece pouco explorado. Neste artigo, somos os primeiros a investigar o que torna uma experiência de raciocínio valiosa e identificamos a correção do rollout e a entropia como indicadores eficazes do valor da experiência. Com base nessas percepções, propomos o ExGRPO (Experiential Group Relative Policy Optimization), uma estrutura que organiza e prioriza experiências valiosas e emprega um objetivo de política mista para equilibrar a exploração com a exploração de experiências. Experimentos em cinco modelos base (1,5B-8B parâmetros) mostram que o ExGRPO melhora consistentemente o desempenho de raciocínio em benchmarks matemáticos/gerais, com um ganho médio de +3,5/7,6 pontos em relação ao RLVR on-policy. Além disso, o ExGRPO estabiliza o treinamento tanto em modelos mais fortes quanto mais fracos, onde métodos on-policy falham. Esses resultados destacam o gerenciamento de experiências fundamentado como um ingrediente chave para um RLVR eficiente e escalável.
Métodos de representação de cenas 3D, como Neural Radiance Fields (NeRF) e 3D Gaussian Splatting (3DGS), avançaram significativamente a síntese de novas perspectivas. À medida que esses métodos se tornam prevalentes, abordar suas vulnerabilidades torna-se crucial. Analisamos a robustez do 3DGS contra ataques de envenenamento em nível de imagem e propomos um novo método de envenenamento guiado por densidade. Nosso método injeta estrategicamente pontos Gaussianos em regiões de baixa densidade identificadas via Kernel Density Estimation (KDE), incorporando objetos ilusórios dependentes de perspectiva que são claramente visíveis a partir de visões envenenadas, enquanto afetam minimamente as visões inocentes. Além disso, introduzimos uma estratégia de ruído adaptativo para perturbar a consistência multi-visão, aumentando ainda mais a eficácia do ataque. Propomos um protocolo de avaliação baseado em KDE para avaliar sistematicamente a dificuldade do ataque, permitindo uma comparação objetiva para pesquisas futuras. Experimentos extensivos demonstram o desempenho superior do nosso método em comparação com técnicas state-of-the-art. Página do projeto: https://hentci.github.io/stealthattack/
Modelos de linguagem de grande escala (LLMs) demonstraram recentemente capacidades robustas como agentes autônomos, mostrando potencial em raciocínio, uso de ferramentas e tomada de decisão sequencial. Embora benchmarks anteriores tenham avaliado agentes LLMs em domínios como engenharia de software e descoberta científica, o domínio financeiro permanece pouco explorado, apesar de sua relevância direta para o valor econômico e a tomada de decisões de alto risco. Os benchmarks financeiros existentes testam principalmente conhecimento estático por meio de questionários, mas falham em capturar a natureza dinâmica e iterativa do trading. Para preencher essa lacuna, introduzimos o StockBench, um benchmark livre de contaminação projetado para avaliar agentes LLMs em ambientes realistas de trading de ações ao longo de vários meses. Os agentes recebem sinais diários de mercado — incluindo preços, fundamentos e notícias — e devem tomar decisões sequenciais de compra, venda ou manutenção. O desempenho é avaliado usando métricas financeiras como retorno acumulado, drawdown máximo e o índice Sortino. Nossa avaliação de modelos proprietários de ponta (por exemplo, GPT-5, Claude-4) e de código aberto (por exemplo, Qwen3, Kimi-K2, GLM-4.5) mostra que, embora a maioria dos agentes LLMs tenha dificuldade em superar a estratégia simples de buy-and-hold, vários modelos demonstram potencial para entregar retornos mais altos e gerenciar riscos de forma mais eficaz. Esses achados destacam tanto os desafios quanto as oportunidades no desenvolvimento de agentes financeiros alimentados por LLMs, mostrando que o bom desempenho em tarefas de conhecimento financeiro estático não necessariamente se traduz em estratégias de trading bem-sucedidas. Disponibilizamos o StockBench como um recurso de código aberto para apoiar a reprodutibilidade e avançar pesquisas futuras nesse domínio.
Apresentamos o F2LLM - Foundation to Feature Large Language Models, um conjunto de modelos de embedding de última geração em três tamanhos: 0,6B, 1,7B e 4B. Diferentemente dos modelos de embedding anteriormente mais bem classificados, que exigem um pré-treinamento contrastivo massivo, pipelines de treinamento sofisticados e dados de treinamento sintéticos custosos, o F2LLM é ajustado diretamente a partir de modelos de base em 6 milhões de tuplas consulta-documento-negativo, curadas a partir de conjuntos de dados de código aberto e não sintéticos, alcançando um forte equilíbrio entre custo de treinamento, tamanho do modelo e desempenho de embedding. No ranking MTEB em inglês, o F2LLM-4B ocupa a 2ª posição entre modelos com aproximadamente 4 bilhões de parâmetros e a 7ª posição geral, enquanto o F2LLM-1,7B lidera entre modelos na faixa de 1B-2B. Para facilitar pesquisas futuras na área, disponibilizamos os modelos, o conjunto de dados de treinamento e o código, posicionando o F2LLM como uma linha de base forte, reproduzível e acessível para trabalhos futuros.
O treinamento tradicional de redes neurais geralmente segue receitas de otimização fixas e predefinidas, carecendo da flexibilidade para responder dinamicamente a instabilidades ou problemas emergentes durante o treinamento. Neste artigo, apresentamos o Treinamento Interativo, um framework de código aberto que permite intervenções em tempo real e orientadas por feedback durante o treinamento de redes neurais, seja por especialistas humanos ou agentes de IA automatizados. No cerne do Treinamento Interativo, um servidor de controle media a comunicação entre usuários ou agentes e o processo de treinamento em andamento, permitindo que os usuários ajustem dinamicamente hiperparâmetros do otimizador, dados de treinamento e pontos de verificação do modelo. Por meio de três estudos de caso, demonstramos que o Treinamento Interativo alcança maior estabilidade no treinamento, reduz a sensibilidade aos hiperparâmetros iniciais e melhora a adaptabilidade às necessidades evolutivas dos usuários, abrindo caminho para um futuro paradigma de treinamento onde agentes de IA monitoram autonomamente os logs de treinamento, resolvem proativamente instabilidades e otimizam a dinâmica do treinamento.
O paradigma dominante para treinar grandes modelos de raciocínio começa com pré-treinamento usando a perda de previsão do próximo token em grandes quantidades de dados. O aprendizado por reforço, embora poderoso para escalar o raciocínio, é introduzido apenas como a fase final de pós-treinamento, precedido por ajuste fino supervisionado. Embora dominante, essa é a maneira ideal de treinamento? Neste artigo, apresentamos o RLP, um objetivo de pré-treinamento por reforço baseado em informação, que traz o espírito central do aprendizado por reforço -- a exploração -- para a última fase do pré-treinamento. A ideia principal é tratar a cadeia de pensamento como uma ação exploratória, com recompensas calculadas com base no ganho de informação que ela proporciona para prever tokens futuros. Esse objetivo de treinamento essencialmente incentiva o modelo a pensar por si mesmo antes de prever o que vem a seguir, ensinando assim um comportamento de pensamento independente mais cedo no pré-treinamento. Mais concretamente, o sinal de recompensa mede o aumento na log-verossimilhança do próximo token ao condicionar tanto no contexto quanto em uma cadeia de raciocínio amostrada, em comparação com o condicionamento apenas no contexto. Essa abordagem produz um sinal de recompensa denso e sem verificador, permitindo um treinamento eficiente para todo o fluxo de documentos durante o pré-treinamento. Especificamente, o RLP reformula o aprendizado por reforço para raciocínio como um objetivo de pré-treinamento em texto comum, preenchendo a lacuna entre a previsão do próximo token e o surgimento de cadeias de pensamento úteis. O pré-treinamento com RLP no Qwen3-1.7B-Base eleva a média geral em uma suíte de oito benchmarks de matemática e ciências em 19%. Com o mesmo pós-treinamento, os ganhos se acumulam, com as maiores melhorias em tarefas pesadas de raciocínio, como AIME25 e MMLU-Pro. A aplicação do RLP ao híbrido Nemotron-Nano-12B-v2 aumenta a média geral de 42,81% para 61,32% e eleva a média em raciocínio científico em 23%, demonstrando escalabilidade entre arquiteturas e tamanhos de modelos.
Modelos de incorporação multimodal estão ganhando popularidade, especialmente para recuperação de documentos como alternativas eficientes aos pipelines baseados apenas em texto. Esses modelos são tipicamente construídos por meio de ajuste fino de grandes decodificadores visão-linguagem (VLMs) com perdas contrastivas em pares texto-imagem. Neste trabalho, mostramos que, embora econômica, essa abordagem de reaproveitamento frequentemente limita o desempenho na recuperação. Por meio de experimentos controlados, estabelecemos uma receita fundamentada para melhorar modelos de recuperação visual de documentos. Medimos, em particular, o impacto de máscaras de atenção, resolução de imagem, regimes de dados de alinhamento de modalidades e objetivos contrastivos centrados em interação tardia, que emergem como fatores centrais de desempenho. Com base nessas descobertas, lançamos o ModernVBERT, um codificador visão-linguagem compacto com 250 milhões de parâmetros que supera modelos até 10 vezes maiores quando ajustado para tarefas de recuperação de documentos. Modelos e código estão disponíveis em https://huggingface.co/ModernVBERT.
A geração áudio-vídeo frequentemente dependia de arquiteturas complexas em múltiplos estágios ou da síntese sequencial de som e imagens. Apresentamos o Ovi, um paradigma unificado para geração áudio-vídeo que modela as duas modalidades como um único processo generativo. Ao utilizar fusão intermodal em blocos de módulos twin-DiT, o Ovi alcança sincronização natural e elimina a necessidade de pipelines separados ou alinhamento posterior. Para facilitar a modelagem de fusão multimodal em nível refinado, inicializamos uma torre de áudio com uma arquitetura idêntica à de um modelo de vídeo pré-treinado robusto. Treinada do zero com centenas de milhares de horas de áudio bruto, a torre de áudio aprende a gerar efeitos sonoros realistas, bem como fala que transmite identidade e emoção ricas do falante. A fusão é obtida por meio do treinamento conjunto das torres de vídeo e áudio idênticas, com troca em blocos de informações temporais (via embeddings scaled-RoPE) e semânticas (através de atenção cruzada bidirecional) em um vasto corpus de vídeos. Nosso modelo permite narrativas cinematográficas com fala natural e efeitos sonoros precisos e contextualizados, produzindo clipes de vídeo de qualidade cinematográfica. Todos os demos, códigos e pesos do modelo estão publicados em https://aaxwaz.github.io/Ovi.
Apesar dos recentes avanços rápidos em segurança de IA, os atuais modelos de linguagem de grande escala permanecem vulneráveis a ataques adversariais em cenários de interação multi-turno, onde os atacantes adaptam estrategicamente seus prompts ao longo das rodadas de conversa, representando um desafio mais crítico e realista. As abordagens existentes que descobrem vulnerabilidades de segurança dependem de red-teaming manual com especialistas humanos ou empregam métodos automatizados usando modelos predefinidos e dados de ataque curados por humanos, com a maioria focando em ataques de turno único. No entanto, esses métodos não exploraram o vasto espaço de possíveis ataques multi-turno, deixando de considerar trajetórias de ataque inovadoras que emergem de dinâmicas complexas de diálogo e planejamento estratégico de conversas. Essa lacuna é particularmente crítica, considerando descobertas recentes de que os LLMs exibem vulnerabilidade significativamente maior a ataques multi-turno em comparação com ataques de turno único. Propomos o DialTree-RPO, uma estrutura de aprendizado por reforço on-policy integrada com busca em árvore que descobre autonomamente diversas estratégias de ataque multi-turno, tratando o diálogo como um problema de tomada de decisão sequencial, permitindo uma exploração sistemática sem dados manualmente curados. Por meio de extensos experimentos, nossa abordagem não apenas alcança uma taxa de sucesso de ataque (ASR) mais de 25,9% superior em 10 modelos-alvo em comparação com as abordagens state-of-the-art anteriores, mas também descobre efetivamente novas estratégias de ataque ao aprender políticas de diálogo ótimas que maximizam o sucesso do ataque ao longo de múltiplos turnos.
A direção de ativação é uma técnica promissora para controlar o comportamento de LLMs ao adicionar vetores semanticamente significativos diretamente nos estados ocultos de um modelo durante a inferência. Frequentemente, ela é apresentada como uma alternativa precisa, interpretável e potencialmente mais segura ao ajuste fino. Demonstramos o oposto: a direção de ativação quebra sistematicamente os mecanismos de segurança de alinhamento do modelo, fazendo com que ele cumpra solicitações prejudiciais. Por meio de extensos experimentos em diferentes famílias de modelos, mostramos que até mesmo a direção em uma direção aleatória pode aumentar a probabilidade de conformidade prejudicial de 0% para 2-27%. De forma alarmante, direcionar características benignas de um autoencoder esparso (SAE), uma fonte comum de direções interpretáveis, aumenta essas taxas em mais 2-4%. Por fim, mostramos que combinar 20 vetores amostrados aleatoriamente que "quebram" um único prompt cria um ataque universal, aumentando significativamente a conformidade prejudicial em solicitações não vistas. Esses resultados desafiam o paradigma de segurança por meio da interpretabilidade, mostrando que o controle preciso sobre os internos do modelo não garante controle preciso sobre o comportamento do modelo.
Avaliar a qualidade das saídas de modelos de linguagem de grande escala (LLMs) apresenta um desafio crítico. Métodos anteriores dependem de informações em nível de texto (por exemplo, modelos de recompensa, votação majoritária), que podem se ajustar excessivamente a pistas superficiais, ou de confiança calibrada a partir de probabilidades de tokens, o que falharia em modelos menos calibrados. No entanto, ambos esses sinais são, na verdade, projeções parciais de uma fonte mais rica de informação: os estados internos ocultos do modelo. As camadas iniciais, mais próximas das incorporações de tokens, preservam características semânticas e lexicais que sustentam julgamentos baseados em texto, enquanto as camadas posteriores se alinham cada vez mais com os logits de saída, incorporando informações relacionadas à confiança. Este artigo explora diretamente os estados ocultos como uma base unificada para verificação. Mostramos que a correção de uma solução é codificada como uma assinatura geometricamente separável dentro da trajetória das ativações ocultas. Para validar isso, apresentamos o Clue (Clustering and Experience-based Verification), um verificador deliberadamente minimalista e não paramétrico. Sem parâmetros treináveis, o CLUE apenas resume cada traço de raciocínio por um delta de estado oculto e classifica a correção pela distância do centróide mais próximo aos clusters de "sucesso" e "falha" formados a partir de experiências passadas. A simplicidade desse método destaca a força do sinal subjacente. Empiricamente, o CLUE supera consistentemente as linhas de base de LLM-como-juiz e iguala ou excede métodos modernos baseados em confiança na reclassificação de candidatos, melhorando tanto a precisão top-1 quanto a precisão de votação majoritária em AIME 24/25 e GPQA. Como destaque, no AIME 24 com um modelo de 1,5B, o CLUE aumenta a precisão de 56,7% (majority@64) para 70,0% (top-maj@16).
Agentes de Modelos de Linguagem de Grande Escala (LLM) estão emergindo rapidamente como sistemas poderosos para automatizar tarefas em diversos domínios. No entanto, o progresso na comunidade de código aberto é limitado pela falta de dados de treinamento de alta qualidade e licenciados de forma permissiva para agentes que utilizam ferramentas. Os conjuntos de dados existentes frequentemente apresentam limitações em diversidade, realismo e complexidade, especialmente no que diz respeito a interações com múltiplas ferramentas e múltiplos turnos. Para abordar essa lacuna, apresentamos Toucan, o maior conjunto de dados de agentes que utilizam ferramentas disponível publicamente até o momento, contendo 1,5 milhão de trajetórias sintetizadas a partir de quase 500 Protocolos de Contexto de Modelo (MCPs) do mundo real. Diferente de trabalhos anteriores, o Toucan aproveita ambientes autênticos de MCPs para gerar tarefas diversas, realistas e desafiadoras, com trajetórias que envolvem a execução real de ferramentas. Nosso pipeline primeiro produz uma ampla gama de consultas de uso de ferramentas utilizando cinco modelos distintos, aplica filtragem de qualidade baseada em modelos e, em seguida, gera trajetórias de agentes com três modelos de referência utilizando dois frameworks de agentes. Validações rigorosas baseadas em regras e modelos garantem saídas de alta qualidade. Também introduzimos três mecanismos de extensão para diversificar ainda mais as tarefas e simular conversas com múltiplos turnos. Modelos ajustados com o Toucan superam contrapartes maiores de código fechado no benchmark BFCL V3 e avançam a fronteira de Pareto no MCP-Universe Bench.
Agentes de uso computacional (CUAs) mostram potencial para automatizar tarefas digitais cotidianas, mas sua falta de confiabilidade e alta variabilidade dificultam sua aplicação em tarefas complexas de longo prazo. Apresentamos o Behavior Best-of-N (bBoN), um método que escala a atuação de agentes ao gerar múltiplas execuções e selecionar entre elas usando narrativas comportamentais que descrevem as execuções dos agentes. Isso permite tanto uma ampla exploração quanto uma seleção de trajetórias fundamentada, melhorando substancialmente a robustez e as taxas de sucesso. No OSWorld, nosso método de escalonamento bBoN estabelece um novo estado da arte (SoTA) com 69,9%, superando significativamente métodos anteriores e se aproximando do desempenho humano em 72%, com análises abrangentes validando escolhas-chave de design. Além disso, demonstramos resultados fortes de generalização para diferentes sistemas operacionais no WindowsAgentArena e no AndroidWorld. Crucialmente, nossos resultados destacam a eficácia surpreendente de escalonar CUAs quando feito corretamente: o escalonamento eficaz requer uma compreensão e seleção estruturada de trajetórias, e o bBoN fornece uma estrutura prática para alcançar isso.
O aprendizado por reforço com recompensas verificáveis (RLVR) melhora o raciocínio em modelos de linguagem de grande escala (LLMs), mas enfrenta dificuldades com a exploração, um problema que ainda persiste para LLMs multimodais (MLLMs). Os métodos atuais tratam a entrada visual como uma condição fixa e determinística, ignorando uma fonte crítica de ambiguidade e lutando para construir políticas robustas a variações visuais plausíveis. Introduzimos o VOGUE (Visual Uncertainty Guided Exploration), um método inovador que desloca a exploração do espaço de saída (texto) para o espaço de entrada (visual). Ao tratar a imagem como um contexto estocástico, o VOGUE quantifica a sensibilidade da política a perturbações visuais usando a divergência KL simétrica entre um ramo "bruto" e um ramo "ruidoso", criando um sinal direto para a exploração consciente da incerteza. Esse sinal molda o objetivo de aprendizado por meio de um bônus proporcional à incerteza, que, combinado com um bônus de entropia de token e um esquema de amostragem resfriado, equilibra efetivamente a exploração e a exploração. Implementado dentro do GRPO em duas escalas de modelo (Qwen2.5-VL-3B/7B), o VOGUE aumenta a precisão pass@1 em média 2,6% em três benchmarks de matemática visual e 3,7% em três benchmarks de raciocínio de domínio geral, ao mesmo tempo em que melhora o desempenho pass@4 e mitiga o declínio de exploração comumente observado no ajuste fino por RL. Nosso trabalho demonstra que fundamentar a exploração na incerteza inerente das entradas visuais é uma estratégia eficaz para melhorar o raciocínio multimodal.
Modelos de linguagem de grande escala (LLMs) frequentemente geram alucinações — conteúdo não fundamentado que compromete a confiabilidade. Embora a maioria dos trabalhos anteriores enquadre a detecção de alucinações como uma tarefa binária, muitas aplicações do mundo real exigem a identificação de trechos alucinados, o que é um processo de tomada de decisão em múltiplas etapas. Isso naturalmente levanta a questão de se o raciocínio explícito pode auxiliar na complexa tarefa de detectar trechos de alucinação. Para responder a essa pergunta, primeiro avaliamos modelos pré-treinados com e sem raciocínio em cadeia de pensamento (Chain-of-Thought, CoT), e mostramos que o raciocínio CoT tem o potencial de gerar pelo menos uma resposta correta quando amostrado várias vezes. Motivados por isso, propomos o RL4HS, um framework de aprendizado por reforço que incentiva o raciocínio com uma função de recompensa em nível de trecho. O RL4HS se baseia na Otimização de Política Relativa em Grupo e introduz a Otimização de Política Consciente de Classe para mitigar o problema de desequilíbrio de recompensas. Experimentos no benchmark RAGTruth (sumarização, resposta a perguntas, dados para texto) mostram que o RL4HS supera modelos de raciocínio pré-treinados e ajuste supervisionado, demonstrando a necessidade do aprendizado por reforço com recompensas em nível de trecho para detectar trechos de alucinação.
A inteligência artificial está passando por uma mudança de paradigma, de modelos de linguagem fechados para sistemas de agentes interconectados capazes de percepção externa e integração de informações. Como uma representação emblemática, os Agentes de Pesquisa Profunda (DRAs, na sigla em inglês) demonstram sistematicamente capacidades para decomposição de tarefas, recuperação de fontes cruzadas, raciocínio em múltiplas etapas e saída estruturada, o que melhora significativamente o desempenho em tarefas complexas e de natureza aberta. No entanto, os benchmarks existentes ainda apresentam deficiências nas dimensões de avaliação, formatação de respostas e mecanismos de pontuação, limitando sua capacidade de avaliar tais sistemas de forma eficaz. Este artigo introduz um benchmark rigoroso e uma estrutura de avaliação multidimensional adaptada aos DRAs e respostas no formato de relatório. O benchmark compreende 214 consultas desafiadoras, curadas por especialistas e distribuídas em 10 domínios temáticos amplos, cada uma acompanhada por pacotes de referência construídos manualmente para apoiar uma avaliação composta. A estrutura permite uma avaliação abrangente de relatórios de longo formato gerados por DRAs, incorporando métricas de pontuação integradas para qualidade semântica, foco temático e confiabilidade de recuperação. Experimentos extensivos confirmam o desempenho superior dos DRAs convencionais em comparação com modelos de raciocínio aumentados por ferramentas de busca na web, mas revelam um espaço considerável para melhorias adicionais. Este estudo fornece uma base robusta para avaliação de capacidades, refinamento arquitetônico e avanço de paradigmas em sistemas DRA.
O raciocínio visual detalhado continua sendo um desafio central para modelos de linguagem multimodal de grande escala (MLLMs). O recentemente introduzido ReasonMap destaca essa lacuna ao demonstrar que mesmo MLLMs avançados lutam com o raciocínio espacial em ambientes estruturados e ricos em informações, como mapas de trânsito, uma tarefa de clara importância prática e científica. No entanto, o aprendizado por reforço (RL) padrão em tais tarefas é dificultado por recompensas esparsas e otimização instável. Para abordar isso, primeiro construímos o ReasonMap-Plus, um conjunto de dados estendido que introduz sinais de recompensa densa por meio de tarefas de Visual Question Answering (VQA), permitindo um treinamento eficaz de habilidades de compreensão visual detalhada a partir do zero. Em seguida, propomos o RewardMap, uma estrutura de RL em múltiplos estágios projetada para melhorar tanto a compreensão visual quanto as capacidades de raciocínio dos MLLMs. O RewardMap incorpora dois designs principais. Primeiro, introduzimos um design de recompensa consciente da dificuldade que incorpora recompensas de detalhe, abordando diretamente as recompensas esparsas enquanto fornece supervisão mais rica. Segundo, propomos um esquema de RL em múltiplos estágios que inicia o treinamento a partir de tarefas simples de percepção até tarefas complexas de raciocínio, oferecendo uma estratégia de inicialização mais eficaz do que o Ajuste Fino Supervisionado (SFT) convencional. Experimentos no ReasonMap e ReasonMap-Plus demonstram que cada componente do RewardMap contribui para ganhos consistentes de desempenho, enquanto sua combinação produz os melhores resultados. Além disso, modelos treinados com o RewardMap alcançam uma melhoria média de 3,47% em 6 benchmarks que abrangem raciocínio espacial, raciocínio visual detalhado e tarefas gerais além de mapas de trânsito, destacando capacidades aprimoradas de compreensão e raciocínio visual.
Apresentamos Aristotle, um sistema de IA que combina verificação formal com raciocínio informal, alcançando desempenho equivalente à medalha de ouro nos problemas da Olimpíada Internacional de Matemática de 2025. O Aristotle integra três componentes principais: um sistema de busca de provas em Lean, um sistema de raciocínio informal que gera e formaliza lemas, e um solucionador dedicado de geometria. Nosso sistema demonstra desempenho de ponta com propriedades de escalabilidade favoráveis para a prova automática de teoremas.
A arquitetura Transformer, sustentada pelo mecanismo de Multi-Head Attention (MHA), tornou-se o padrão de fato para modelos de ponta em inteligência artificial. No entanto, a complexidade computacional quadrática do MHA em relação ao comprimento da sequência representa uma barreira significativa para a escalabilidade, especialmente em aplicações que envolvem contextos longos. Soluções predominantes, como Multi-Query Attention (MQA) e Grouped-Query Attention (GQA), abordaram efetivamente o gargalo de largura de banda de memória que domina a latência de inferência autoregressiva, compartilhando as projeções de Chave (Key) e Valor (Value). Embora altamente bem-sucedidos, esses métodos não reduzem o número fundamental de operações de ponto flutuante (FLOPs) necessárias para o cálculo dos escores de atenção, que continua sendo um gargalo crítico para o treinamento e o processamento de sequências completas. Este artigo introduz o Sparse Query Attention (SQA), uma nova arquitetura de atenção que segue um caminho de otimização alternativo e complementar. Em vez de reduzir as cabeças de Chave/Valor, o SQA reduz o número de cabeças de Consulta (Query). Essa modificação arquitetural diminui diretamente a complexidade computacional do mecanismo de atenção por um fator proporcional à redução das cabeças de consulta, reduzindo assim o total de FLOPs. Este trabalho apresenta a fundamentação teórica do SQA, sua formulação matemática e uma família de variantes arquiteturais. Benchmarks empíricos em sequências longas (32k-200k tokens) demonstram que o SQA pode alcançar melhorias significativas de throughput de até 3x em cenários limitados por computação, como pré-treinamento de modelos, ajuste fino e tarefas baseadas em codificadores, com apenas um impacto mínimo na qualidade do modelo em experimentos preliminares em pequena escala. O SQA foi descoberto de forma serendípita durante o desenvolvimento da próxima arquitetura Reactive Transformer, sugerindo seu potencial como uma ferramenta poderosa para a construção de modelos mais eficientes e escaláveis.
A edição de imagens baseada em arrasto tem sofrido há muito tempo com distorções na região alvo, principalmente porque os priors dos modelos base anteriores, como o Stable Diffusion, são insuficientes para projetar latentes otimizados de volta ao manifold natural das imagens. Com a transição dos DDPMs baseados em UNet para DiTs mais escaláveis com correspondência de fluxo (por exemplo, SD3.5, FLUX), os priors generativos tornaram-se significativamente mais fortes, permitindo avanços em diversas tarefas de edição. No entanto, a edição baseada em arrasto ainda não se beneficiou desses priors mais robustos. Este trabalho propõe o primeiro framework para efetivamente aproveitar o rico prior do FLUX para edição baseada em arrasto, denominado DragFlow, alcançando ganhos substanciais em relação às abordagens existentes. Primeiro, mostramos que a aplicação direta da edição de arrasto baseada em pontos em DiTs tem desempenho insatisfatório: ao contrário das características altamente comprimidas das UNets, as características das DiTs são insuficientemente estruturadas para fornecer orientação confiável para a supervisão de movimento ponto a ponto. Para superar essa limitação, o DragFlow introduz um paradigma de edição baseada em regiões, onde transformações afins permitem uma supervisão de características mais rica e consistente. Além disso, integramos adaptadores de personalização de domínio aberto pré-treinados (por exemplo, IP-Adapter) para melhorar a consistência do sujeito, enquanto preservamos a fidelidade do fundo por meio de restrições rígidas baseadas em máscaras de gradiente. Modelos de linguagem multimodal de grande escala (MLLMs) são ainda empregados para resolver ambiguidades de tarefas. Para avaliação, criamos um novo benchmark de Arrasto Baseado em Região (ReD Bench) com instruções de arrasto em nível de região. Experimentos extensivos no DragBench-DR e no ReD Bench mostram que o DragFlow supera tanto as abordagens baseadas em pontos quanto em regiões, estabelecendo um novo estado da arte na edição de imagens baseada em arrasto. O código e os conjuntos de dados estarão publicamente disponíveis após a publicação.
Alucinações fundamentadas no contexto são casos em que as saídas do modelo contêm informações que não podem ser verificadas em relação ao texto fonte. Estudamos a aplicabilidade de LLMs (Modelos de Linguagem de Grande Escala) para localizar tais alucinações, como uma alternativa mais prática aos pipelines complexos de avaliação existentes. Na ausência de benchmarks estabelecidos para meta-avaliação da localização de alucinações, construímos um adaptado para LLMs, envolvendo uma anotação humana desafiadora de mais de 1.000 exemplos. Complementamos o benchmark com um protocolo de avaliação baseado em LLM, verificando sua qualidade em uma avaliação humana. Como as representações existentes de alucinações limitam os tipos de erros que podem ser expressos, propomos uma nova representação baseada em descrições textuais livres, capturando a gama completa de erros possíveis. Realizamos um estudo abrangente, avaliando quatro LLMs de grande escala, que destaca a dificuldade do benchmark, já que o melhor modelo alcança um F1-score de apenas 0,67. Por meio de uma análise cuidadosa, oferecemos insights sobre estratégias de prompt ideais para a tarefa e identificamos os principais fatores que a tornam desafiadora para LLMs: (1) uma tendência a sinalizar incorretamente detalhes ausentes como inconsistentes, apesar de serem instruídos a verificar apenas fatos na saída; e (2) dificuldade com saídas que contêm informações factualmente corretas, mas ausentes da fonte - e, portanto, não verificáveis - devido ao alinhamento com o conhecimento paramétrico do modelo.
Embora os atuais Modelos de Visão e Linguagem de Grande Escala (VLMs) tenham avançado na compreensão e raciocínio multimodal, suas habilidades fundamentais de percepção e raciocínio permanecem limitadas. Especificamente, mesmo em tarefas simples de quebra-cabeças, os VLMs existentes apresentam desempenho próximo ao aleatório, revelando deficiências nas capacidades centrais de percepção e raciocínio. Embora dados de alta qualidade de visão e linguagem possam aprimorar essas capacidades, sua escassez e escalabilidade limitada impõem restrições significativas. Para abordar isso, propomos o AGILE, uma Aprendizagem Interativa de Quebra-Cabeças Agente para Aprimorar a percepção visual e o raciocínio em VLMs. O AGILE formula a resolução de quebra-cabeças como um processo interativo, permitindo que o modelo se envolva progressivamente com o ambiente. A cada passo, o modelo gera código executável para realizar uma ação com base no estado atual, enquanto o ambiente fornece feedback visual detalhado para orientar a conclusão da tarefa. Através desse ciclo iterativo de observação e interação, o modelo melhora incrementalmente suas capacidades de percepção e raciocínio por meio de exploração e feedback. Resultados experimentais mostram que o AGILE não apenas aumenta substancialmente o desempenho em tarefas de quebra-cabeças de variada complexidade (por exemplo, aumentando a precisão de 9,5% para 82,8% na configuração 2 vezes 2), mas também demonstra forte generalização em 9 tarefas gerais de visão, alcançando uma melhoria média de 3,1%. Esses resultados indicam aprimoramentos notáveis tanto nas habilidades de percepção quanto de raciocínio. Este trabalho abre uma nova via para avançar o raciocínio e a generalização em modelos multimodais e fornece uma solução eficiente e escalável para a escassez de dados de aprendizado por reforço multimodal. O código e os conjuntos de dados estão disponíveis em https://github.com/yuzeng0-0/AGILE.
A anonimização de texto é essencial para o desenvolvimento e implantação responsável de IA em domínios de alto impacto, como saúde, serviços sociais e direito. Neste trabalho, propomos uma nova metodologia para geração de texto sintético que preserva a privacidade, utilizando os princípios de desidentificação e a teoria Hiding In Plain Sight (HIPS). Nossa abordagem introduz códigos de controle conscientes de entidades para orientar a geração controlável, seja por meio de aprendizado em contexto (ICL) ou ajuste de prefixo. A variante ICL garante níveis de privacidade consistentes com o sistema de desidentificação subjacente, enquanto a variante de ajuste de prefixo incorpora uma estratégia de mascaramento personalizada e uma função de perda para suportar geração escalável e de alta qualidade. Experimentos em conjuntos de dados jurídicos e clínicos demonstram que nosso método alcança um forte equilíbrio entre proteção de privacidade e utilidade, oferecendo uma solução prática e eficaz para geração de texto sintético em domínios sensíveis.
A compreensão de vídeo em modelos de linguagem multimodal continua limitada pelo comprimento do contexto: os modelos frequentemente perdem quadros-chave de transição e lutam para manter a coerência em escalas de tempo longas. Para abordar esse problema, adaptamos a Atenção Esparsa Nativa (NSA, na sigla em inglês) para modelos de vídeo-linguagem. Nosso método, VideoNSA, adapta o Qwen2.5-VL por meio de treinamento de ponta a ponta em um conjunto de dados de instrução de vídeo com 216K amostras. Empregamos uma abordagem híbrida de atenção consciente do hardware, preservando a atenção densa para texto, enquanto utilizamos NSA para vídeo. Em comparação com baselines de compressão de tokens e esparsidade sem treinamento, o VideoNSA alcança um desempenho aprimorado na compreensão de vídeos longos, raciocínio temporal e benchmarks espaciais. Uma análise de ablação adicional revela quatro descobertas principais: (1) escalabilidade confiável para 128K tokens; (2) uma alocação ótima de atenção global-local com um orçamento fixo; (3) padrões de uso de ramificação dependentes da tarefa; e (4) a atenção esparsa combinada e aprendível ajuda a induzir pontos de atenção dinâmicos.
Sistemas Multiagentes (MAS) impulsionados por Modelos de Linguagem Visual (VLMs) permitem a execução de tarefas desafiadoras, mas sofrem com um novo termo de falha: o efeito bola de neve de alucinações visuais multiagentes, onde alucinações são iniciadas em um único agente e amplificadas pelos seguintes devido à excessiva dependência do fluxo textual para transmitir informações visuais. Por meio de análises de atenção em nível de turno, camada e token, fornecemos insights detalhados sobre a essência do efeito bola de neve de alucinações em relação à redução da alocação de atenção visual. Isso nos levou a identificar um subconjunto de tokens visuais com um pico de atenção unimodal nas camadas intermediárias que melhor preservam evidências visuais, mas que gradualmente diminuem em turnos mais profundos dos agentes, resultando no efeito bola de neve de alucinações visuais no MAS. Assim, propomos o ViF, um paradigma leve e plug-and-play de mitigação que transmite mensagens interagentes com Fluxo Visual, impulsionado pelos tokens de retransmissão visual selecionados, e aplica realocação de atenção para amplificar esse padrão. Os resultados dos experimentos demonstram que nosso método reduz significativamente o efeito bola de neve de alucinações, melhorando consistentemente o desempenho em oito benchmarks baseados em quatro estruturas comuns de MAS e dez modelos base. O código-fonte estará disponível em: https://github.com/YU-deep/ViF.git.
O escalonamento em tempo de teste (TTS) tem demonstrado um sucesso notável na melhoria de grandes modelos de linguagem, mas sua aplicação na geração autoregressiva (AR) de imagens com previsão do próximo token (NTP) permanece amplamente inexplorada. As abordagens existentes de TTS para AR visual (VAR), que dependem de decodificação parcial frequente e modelos de recompensa externos, são inadequadas para a geração de imagens baseada em NTP devido à incompletude inerente dos resultados intermediários de decodificação. Para preencher essa lacuna, introduzimos o ScalingAR, o primeiro framework TTS projetado especificamente para a geração de imagens AR baseada em NTP que elimina a necessidade de decodificação precoce ou recompensas auxiliares. O ScalingAR utiliza a entropia do token como um sinal novo na geração de tokens visuais e opera em dois níveis complementares de escalonamento: (i) Nível de Perfil, que transmite um estado de confiança calibrado ao fundir sinais intrínsecos e condicionais; e (ii) Nível de Política, que utiliza esse estado para terminar adaptativamente trajetórias de baixa confiança e agendar dinamicamente a orientação para a força de condicionamento apropriada à fase. Experimentos em benchmarks gerais e composicionais mostram que o ScalingAR (1) melhora os modelos base em 12,5% no GenEval e 15,2% no TIIF-Bench, (2) reduz eficientemente o consumo de tokens visuais em 62,0% enquanto supera as baselines, e (3) aumenta com sucesso a robustez, mitigando quedas de desempenho em 26,0% em cenários desafiadores.
O raciocínio requer ir além da correspondência de padrões ou da memorização de soluções para identificar e implementar "procedimentos algorítmicos" que possam ser usados para deduzir respostas a problemas difíceis. Isso exige a identificação dos primitivos, resultados intermediários ou procedimentos compartilhados mais relevantes, e a construção sobre eles. Embora o treinamento de RL (Reinforcement Learning) em longas cadeias de pensamento tenha como objetivo final descobrir esse tipo de comportamento algorítmico, a maioria dos traços de raciocínio aprendidos por modelos grandes falham em capturar ou reutilizar procedimentos de forma consistente, desviando-se para uma exploração verbosa e degenerada. Para abordar um raciocínio mais eficaz, introduzimos abstrações de raciocínio: descrições concisas em linguagem natural de conhecimento procedural e factual que orientam o modelo a aprender um raciocínio bem-sucedido. Treinamos modelos para serem capazes de propor múltiplas abstrações diante de um problema, seguido por RL que incentiva a construção de uma solução enquanto utiliza as informações fornecidas por essas abstrações. Isso resulta em um paradigma de treinamento de RL de dois jogadores, abreviado como RLAD, que treina conjuntamente um gerador de abstrações e um gerador de soluções. Essa configuração permite efetivamente uma exploração estruturada, desacopla os sinais de aprendizado da proposta de abstração e da geração de soluções, e melhora a generalização para problemas mais difíceis. Também mostramos que alocar mais tempo de computação em testes para gerar abstrações é mais benéfico para o desempenho do que gerar mais soluções em grandes orçamentos de teste, ilustrando o papel das abstrações em guiar uma exploração significativa.
O aprendizado por reforço off-policy (RL) para grandes modelos de linguagem (LLMs) está atraindo um interesse crescente, impulsionado por restrições práticas em aplicações do mundo real, pela complexidade da infraestrutura de LLM-RL e pela necessidade de inovações adicionais nas metodologias de RL. Embora o clássico REINFORCE e suas variantes modernas, como a Otimização de Política Relativa de Grupo (GRPO), sejam tipicamente considerados algoritmos on-policy com tolerância limitada ao off-policy, apresentamos neste trabalho uma derivação de princípios fundamentais para o REINFORCE relativo de grupo sem assumir uma distribuição específica de dados de treinamento, mostrando que ele admite uma interpretação nativa de off-policy. Essa perspectiva resulta em dois princípios gerais para adaptar o REINFORCE a configurações off-policy: regularizar atualizações de política e moldar ativamente a distribuição de dados. Nossa análise desmistifica alguns mitos sobre os papéis da amostragem de importância e do recorte no GRPO, unifica e reinterpreta dois algoritmos recentes -- o Descenso de Espelho de Política Online (OPMD) e o REINFORCE Assimétrico (AsymRE) -- como formas regularizadas da perda do REINFORCE, e oferece justificativa teórica para estratégias aparentemente heurísticas de ponderação de dados. Nossas descobertas levam a insights acionáveis que são validados com extensos estudos empíricos e abrem novas oportunidades para o design de algoritmos fundamentados em RL off-policy para LLMs. O código-fonte deste trabalho está disponível em https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Os modelos Visão-Linguagem-Ação (VLA) visam unificar percepção, compreensão de linguagem e geração de ações, oferecendo uma forte generalização entre tarefas e cenários, com um impacto amplo na IA incorporada. No entanto, os modelos VLA atuais frequentemente carecem de raciocínio explícito passo a passo, emitindo ações finais sem considerar restrições de affordance ou relações geométricas. Além disso, seus pipelines pós-treinamento raramente reforçam a qualidade do raciocínio, dependendo principalmente de ajuste fino supervisionado com design de recompensas fraco. Para enfrentar esses desafios, apresentamos o VLA-R1, um VLA aprimorado com raciocínio que integra Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e Otimização de Política Relativa em Grupo (GRPO) para otimizar sistematicamente tanto o raciocínio quanto a execução. Especificamente, projetamos uma estratégia pós-treinamento baseada em RLVR com recompensas verificáveis para alinhamento de regiões, consistência de trajetória e formatação de saída, fortalecendo assim a robustez do raciocínio e a precisão da execução. Além disso, desenvolvemos o VLA-CoT-13K, um conjunto de dados de alta qualidade que fornece supervisão de cadeia de pensamento explicitamente alinhada com anotações de affordance e trajetória. Adicionalmente, avaliações extensas em plataformas de domínio interno, domínio externo, simulação e robôs reais demonstram que o VLA-R1 alcança uma generalização e desempenho no mundo real superiores em comparação com métodos VLA anteriores. Planejamos liberar o modelo, código e conjunto de dados após a publicação deste trabalho. Código: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
Redes Neurais em Grafos (GNNs) são a arquitetura dominante para aprendizado de máquina molecular, especialmente para previsão de propriedades moleculares e potenciais interatômicos de aprendizado de máquina (MLIPs). As GNNs realizam a passagem de mensagens em grafos predefinidos, frequentemente induzidos por um raio de corte fixo ou um esquema de k-vizinhos mais próximos. Embora esse design esteja alinhado com a localidade presente em muitas tarefas moleculares, um grafo codificado de forma rígida pode limitar a expressividade devido ao campo receptivo fixo e retardar a inferência com operações esparsas em grafos. Neste trabalho, investigamos se Transformers puros e não modificados, treinados diretamente em coordenadas cartesianas—sem grafos predefinidos ou prioridades físicas—podem aproximar energias e forças moleculares. Como ponto de partida para nossa análise, demonstramos como treinar um Transformer para alcançar erros absolutos médios competitivos em energia e força sob um orçamento de treinamento computacional equivalente, em comparação com uma GNN equivariante de última geração no conjunto de dados OMol25. Descobrimos que o Transformer aprende padrões fisicamente consistentes—como pesos de atenção que decaem inversamente com a distância interatômica—e os adapta de forma flexível em diferentes ambientes moleculares devido à ausência de vieses codificados de forma rígida. O uso de um Transformer padrão também desbloqueia melhorias previsíveis em relação ao dimensionamento de recursos de treinamento, consistentes com as leis de escalonamento empírico observadas em outros domínios. Nossos resultados demonstram que muitas propriedades favoráveis das GNNs podem emergir de forma adaptativa em Transformers, desafiando a necessidade de vieses indutivos de grafos codificados de forma rígida e apontando para arquiteturas padronizadas e escaláveis para modelagem molecular.
A geração automatizada de relatórios radiológicos estruturados (SRRG, na sigla em inglês) a partir de imagens de raio-X do tórax oferece um potencial significativo para reduzir a carga de trabalho dos radiologistas ao gerar relatórios em formatos estruturados que garantem clareza, consistência e aderência aos padrões clínicos de relatórios. Embora os radiologistas utilizem efetivamente os contextos clínicos disponíveis em seu raciocínio diagnóstico, os sistemas SRRG existentes ignoram esses elementos essenciais. Essa lacuna fundamental leva a problemas críticos, incluindo alucinações temporais ao fazer referência a contextos clínicos inexistentes. Para abordar essas limitações, propomos o SRRG contextualizado (C-SRRG), que incorpora de forma abrangente o contexto clínico rico para o SRRG. Nós organizamos o conjunto de dados C-SRRG integrando um contexto clínico abrangente que engloba 1) imagens de raio-X multiview, 2) indicação clínica, 3) técnicas de imagem e 4) estudos anteriores com comparações correspondentes com base nos históricos dos pacientes. Por meio de extensos benchmarks com modelos de linguagem multimodal de última geração, demonstramos que a incorporação do contexto clínico com o C-SRRG proposto melhora significativamente a qualidade da geração de relatórios. Disponibilizamos publicamente o conjunto de dados, código e checkpoints para facilitar pesquisas futuras sobre a geração automatizada de relatórios radiológicos alinhados clinicamente em https://github.com/vuno/contextualized-srrg.
Agentes de Uso de Computador (CUAs, na sigla em inglês) são uma classe de agentes cada vez mais utilizada que realizam ações em interfaces gráficas (GUIs) para atingir objetivos do usuário. Neste artigo, demonstramos que os CUAs exibem consistentemente a Cegueira de Direcionamento a Objetivos (BGD, na sigla em inglês): uma tendência a perseguir metas independentemente de sua viabilidade, segurança, confiabilidade ou contexto. Caracterizamos três padrões prevalentes de BGD: (i) falta de raciocínio contextual, (ii) suposições e decisões sob ambiguidade, e (iii) objetivos contraditórios ou inviáveis. Desenvolvemos o BLIND-ACT, um benchmark composto por 90 tarefas que capturam esses três padrões. Construído sobre o OSWorld, o BLIND-ACT oferece ambientes realistas e emprega juízes baseados em modelos de linguagem (LLMs) para avaliar o comportamento dos agentes, alcançando 93,75% de concordância com anotações humanas. Utilizamos o BLIND-ACT para avaliar nove modelos de ponta, incluindo Claude Sonnet e Opus 4, Computer-Use-Preview e GPT-5, observando altas taxas médias de BGD (80,8%) entre eles. Mostramos que a BGD expõe riscos sutis que surgem mesmo quando as entradas não são diretamente prejudiciais. Embora intervenções baseadas em prompts reduzam os níveis de BGD, riscos substanciais persistem, destacando a necessidade de intervenções mais robustas durante o treinamento ou a inferência. Análises qualitativas revelam modos de falha observados: viés de execução primeiro (focar em como agir em vez de se deve agir), desconexão pensamento-ação (execução divergindo do raciocínio) e primazia da solicitação (justificar ações devido a pedidos do usuário). A identificação da BGD e a introdução do BLIND-ACT estabelecem uma base para pesquisas futuras sobre o estudo e a mitigação desse risco fundamental, garantindo a implantação segura de CUAs.
Modelos de aprendizado de representação multimodal têm demonstrado operação bem-sucedida em tarefas complexas, e a integração de modelos de visão e linguagem (VLMs) permitiu que modelos de embedding adquirissem capacidades de seguir instruções. No entanto, os modelos de embedding existentes carecem de capacidades visuais interativas para especificar regiões de interesse dos usuários (por exemplo, ponto, caixa delimitadora, máscara), que foram exploradas em modelos generativos para ampliar sua aplicabilidade interativa com humanos. Equipar modelos de embedding com interações visuais não apenas desbloquearia novas aplicações com a fundamentação localizada da intenção do usuário, que permanece inexplorada, mas também permitiria que os modelos aprendessem informações em nível de entidade dentro das imagens para complementar suas representações globais em tarefas convencionais de embedding. Neste artigo, propomos um novo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) que estende as capacidades do modelo de segmentação e do modelo de visão e linguagem para o domínio do aprendizado de representação. No VIRTUE, o modelo de segmentação pode processar prompts visuais que identificam regiões específicas dentro de uma imagem, permitindo que o embedder lide com cenários complexos e ambíguos de forma mais precisa. Para avaliar a capacidade de interação visual do VIRTUE, introduzimos um benchmark em larga escala de Segmentação e Recuperação de Legenda de Cena (SCaR) composto por 1 milhão de amostras, que visa recuperar a legenda de texto considerando conjuntamente a entidade com um objeto específico e a cena da imagem. O VIRTUE consistentemente alcança um desempenho de última geração com melhorias significativas em 36 tarefas universais MMEB (3,1%-8,5%) e cinco tarefas SCaR visuais interativas (15,2%-20,3%).
A previsão de séries temporais é fundamental para a tomada de decisões em domínios tão diversos como energia, finanças, clima e saúde pública. Na prática, os analistas enfrentam milhares de séries curtas e ruidosas que variam em frequência, qualidade e horizonte, onde o custo dominante não está no ajuste do modelo, mas no pré-processamento, validação e combinação de modelos intensivos em mão de obra necessários para obter previsões confiáveis. Os modelos estatísticos e de aprendizado profundo predominantes são adaptados a conjuntos de dados ou domínios específicos e generalizam mal. Um framework geral e independente de domínio que minimize a intervenção humana é urgentemente necessário. Neste artigo, apresentamos o TimeSeriesScientist (TSci), o primeiro framework agentivo baseado em LLM para previsão geral de séries temporais. O framework é composto por quatro agentes especializados: o Curador realiza diagnósticos guiados por LLM, aumentados por ferramentas externas que raciocinam sobre estatísticas dos dados para escolher o pré-processamento direcionado; o Planejador reduz o espaço de hipóteses de escolha de modelo, aproveitando diagnósticos multimodais e autoplanejamento sobre a entrada; o Previsor realiza o ajuste e validação do modelo e, com base nos resultados, seleciona adaptativamente a melhor configuração de modelo, bem como a estratégia de combinação de modelos para fazer previsões finais; e o Relator sintetiza todo o processo em um relatório abrangente e transparente. Com justificativas transparentes em linguagem natural e relatórios abrangentes, o TSci transforma o fluxo de trabalho de previsão em um sistema de caixa branca que é tanto interpretável quanto extensível entre tarefas. Resultados empíricos em oito benchmarks estabelecidos demonstram que o TSci supera consistentemente as linhas de base estatísticas e baseadas em LLM, reduzindo o erro de previsão em média em 10,4% e 38,2%, respectivamente. Além disso, o TSci produz um relatório claro e rigoroso que torna o fluxo de trabalho de previsão mais transparente e interpretável.
Modelos de texto para imagem (T2I) se destacam em prompts de entidade única, mas enfrentam dificuldades com descrições de múltiplos sujeitos, frequentemente apresentando vazamento de atributos, entrelaçamento de identidades e omissões de sujeitos. Introduzimos o primeiro framework teórico com um objetivo otimizável e fundamentado para direcionar a dinâmica de amostragem em direção à fidelidade de múltiplos sujeitos. Ao analisar o flow matching (FM) através do controle ótimo estocástico (SOC), formulamos o desentrelaçamento de sujeitos como controle sobre um amostrador FM treinado. Isso resulta em dois algoritmos independentes de arquitetura: (i) um controlador em tempo de teste sem necessidade de treinamento que perturba a velocidade base com uma atualização de passagem única, e (ii) Adjoint Matching, uma regra de ajuste fino leve que regressa uma rede de controle para um sinal adjunto reverso, preservando as capacidades do modelo base. A mesma formulação unifica heurísticas de atenção anteriores, estende-se a modelos de difusão via uma correspondência flow-difusão, e fornece a primeira rota de ajuste fino explicitamente projetada para fidelidade de múltiplos sujeitos. Empiricamente, no Stable Diffusion 3.5, FLUX e Stable Diffusion XL, ambos os algoritmos melhoram consistentemente o alinhamento de múltiplos sujeitos enquanto mantêm o estilo do modelo base. O controle em tempo de teste é executado de forma eficiente em GPUs comuns, e controladores ajustados finamente treinados com prompts limitados generalizam para prompts não vistos. Destacamos ainda o FOCUS (Flow Optimal Control for Unentangled Subjects), que alcança a melhor fidelidade de múltiplos sujeitos entre os modelos, estabelecendo um novo estado da arte.
O treinamento de raciocínio incentiva os LLMs a produzir longas cadeias de pensamento (long CoT), o que, entre outras coisas, permite que explorem estratégias de solução com auto-verificação. Isso resulta em maior precisão, mas inflaciona o comprimento do contexto, o custo de tokens/computação e a latência das respostas. Perguntamos: os modelos atuais podem aproveitar sua metacognição para fornecer outras combinações nessa fronteira de Pareto, por exemplo, melhor precisão com menor comprimento de contexto e/ou latência? Abstratamente, vemos o modelo como um operador de melhoria em seus próprios "pensamentos" com um contínuo de estratégias possíveis. Identificamos uma família interessante de inferência, Parallel-Distill-Refine (PDR), que realiza o seguinte: (i) gera rascunhos diversos em paralelo; (ii) os destila em um espaço de trabalho textual limitado; e (iii) refina condicionado a esse espaço de trabalho, produzindo uma saída que alimenta a próxima rodada. Importante, o comprimento do contexto (e, portanto, o custo de computação) é controlável pelo grau de paralelismo e não está mais confundido com o número total de tokens gerados. Relatamos instanciações de PDR em modelos atuais que oferecem melhor precisão do que o long CoT, enquanto incorrem em menor latência. Definir o grau de paralelismo como 1 resulta em um subcaso interessante, o Sequential Refinement (SR) (melhoria iterativa de uma única resposta candidata), que fornece desempenho superior ao long CoT. O sucesso dessas orquestrações de modelos levanta a questão de se um treinamento adicional poderia deslocar a fronteira de Pareto. Para isso, treinamos um modelo de pensamento de 8B com Reinforcement Learning (RL) para torná-lo consistente com o PDR como método de inferência. Em tarefas matemáticas com respostas verificáveis, pipelines iterativos superam as linhas de base de passagem única em orçamentos sequenciais correspondentes, com o PDR fornecendo os maiores ganhos (por exemplo, +11% no AIME 2024 e +9% no AIME 2025).
A escalabilidade de inferência paralela em LLMs envolve a amostragem de um conjunto de N>1 respostas para um único prompt de entrada. No entanto, essas N respostas paralelas tendem a ser geradas de forma independente umas das outras, particionando os recursos computacionais e deixando informações potencialmente úteis em uma geração não aproveitadas pelas outras. Isso contrasta com a escalabilidade de comprimento de resposta, onde cálculos anteriores são usados em todas as etapas futuras. Para respostas e conjuntos de respostas de maior qualidade, propomos o Bridge para gerar respostas interdependentes em paralelo, repensando os estados ocultos de LLMs em lotes como tensores holísticos, em vez de fatias independentes. Com apenas uma pequena quantidade (2,8%-5,1%) de novos parâmetros, o Bridge melhora os ganhos relativos de precisão média do aprendizado por reforço com recompensas verificáveis em até 50% e aumenta a consistência das respostas corretas. Uma vez treinado, o Bridge escala para qualquer largura de geração, tudo com desempenho superior às gerações independentes, desbloqueando um modo mais geral de escalabilidade paralela que aproveita efetivamente a informação entre sequências, compatível com qualquer técnica de agregação pós-geração.
Embora os Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) tenham alcançado progressos significativos na compreensão de vídeos, sua aplicação em tarefas de raciocínio em vídeos longos é limitada pela amostragem uniforme de quadros e pelo raciocínio textual estático, que são ineficientes e têm dificuldade em lidar com tarefas de vídeo visualmente intensas. Para superar esses desafios, neste artigo, introduzimos o conceito de "pensar com vídeos longos" e propomos uma nova estrutura chamada FrameThinker. Dentro dessa estrutura, os LVLMs são capazes de interrogar iterativamente o conteúdo do vídeo. Desenvolver tais capacidades de raciocínio em vídeos nos LVLMs apresenta desafios notáveis, particularmente na adaptação do modelo a novas ações de vídeo (por exemplo, selecionar quadro) e no design de funções de recompensa para orientar os LVLMs a adotar a ação recém-introduzida. Para resolver esses desafios, propomos uma estratégia de treinamento em duas fases: primeiro, empregamos o Ajuste Fino Supervisionado (SFT) para instilar capacidades básicas de ação, seguido por Aprendizado por Reforço (RL) para otimizar uma política de tomada de decisão estratégica. Notavelmente, nesta fase de RL, realizamos uma exploração profunda e abrangente do design de recompensa para cada ação e formato de recompensa. Experimentos extensos em benchmarks de raciocínio como Video-Holmes, LongVideo-Reason, e benchmarks de compreensão de vídeos longos como LongVideoBench, MLVU, VideoMME e LVBench demonstram que o FrameThinker alcança uma melhoria média significativa de +10,4% em relação às linhas de base, enquanto reduz drasticamente o número de quadros processados. Mais notavelmente, nosso modelo de 7B, FrameThinker, estabelece um novo estado da arte no LongVideo-Reason, alcançando 76,1% de precisão usando uma média de apenas 20,6 quadros. Isso não apenas supera o competitivo LongVILA-R1 (72,0%), mas o faz com mais de 20 vezes menos quadros (vs. 512), demonstrando eficiência e eficácia sem paralelo.
O ajuste fino supervisionado (SFT) é o método predominante para adaptar grandes modelos de linguagem (LLMs), mas frequentemente enfrenta dificuldades em termos de generalização em comparação com o aprendizado por reforço (RL). Neste trabalho, propomos que essa disparidade de desempenho não se deve apenas à função de perda, mas a uma diferença mais fundamental: o SFT aprende a partir de um conjunto de dados fixo e pré-coletado, enquanto o RL utiliza dados on-policy amostrados da política atual. Com base nessa hipótese, introduzimos o one-token rollout (OTR), um novo algoritmo de ajuste fino que guia o SFT com o método de gradiente de política. O OTR reformula o processo de aprendizado autoregressivo tratando cada geração de token como uma trajetória de aprendizado por reforço de passo único. A cada passo, ele realiza um "rollout" de Monte Carlo ao amostrar múltiplos tokens candidatos da distribuição da política atual. O token verdadeiro dos dados supervisionados é então usado para fornecer um sinal de recompensa a essas amostras. Guiado pelo gradiente de política, nosso algoritmo transforma dados supervisionados estáticos e off-policy em um sinal dinâmico e on-policy no nível do token, capturando os benefícios de generalização do aprendizado on-policy enquanto evita o custoso overhead da geração de frases completas. Por meio de extensos experimentos em um conjunto diversificado de benchmarks desafiadores que abrangem raciocínio matemático, geração de código e raciocínio em domínio geral, demonstramos que o OTR supera consistentemente o SFT padrão. Nossos resultados estabelecem o OTR como uma alternativa poderosa e prática para o ajuste fino de LLMs e fornecem evidências convincentes de que a natureza on-policy dos dados é um fator crítico para a generalização, oferecendo uma nova direção promissora para o ajuste fino de LLMs.
Modelos de linguagem de grande escala (LLMs) agora apresentam desempenho forte em muitos conjuntos públicos de matemática, mas a separação de fronteira dentro da matemática sofre cada vez mais com efeitos de teto. Apresentamos dois benchmarks complementares: SKYLENAGE-ReasoningMATH, um conjunto diagnóstico de 100 itens com metadados por item sobre comprimento, densidade numérica e complexidade simbólica; e SKYLENAGE-MATH, um conjunto de 150 itens no estilo de competição, abrangendo quatro níveis do ensino médio ao doutorado sob uma taxonomia de sete disciplinas. Avaliamos quinze variantes contemporâneas de LLMs em uma única configuração e analisamos o desempenho por disciplina x modelo e por série x modelo. No conjunto de competição, o modelo mais forte alcança 44%, enquanto o segundo colocado chega a 37%; a precisão diminui do ensino médio ao doutorado, e os sistemas de topo exibem uma retenção de doutorado para ensino médio próxima de 79%. No conjunto de raciocínio, o melhor modelo atinge 81% no geral, e os resultados das fatias mais difíceis revelam lacunas claras de robustez entre os líderes e a faixa intermediária. Em resumo, lançamos o SKYLENAGE-ReasoningMATH e relatamos resultados agregados para o SKYLENAGE-MATH; juntos, o SKYLENAGE fornece um benchmark de matemática difícil, centrado no raciocínio e de ampla cobertura, com dificuldade calibrada e metadados ricos, servindo como um benchmark de referência para futuras avaliações de raciocínio matemático.
Avanços recentes no Pós-Treinamento por Reforço (RPT) têm aprimorado significativamente as capacidades dos Modelos de Raciocínio de Grande Escala (LRMs), despertando um interesse crescente na generalização do raciocínio baseado em RL. Embora os trabalhos existentes tenham se concentrado principalmente em investigar sua generalização entre tarefas ou modalidades, este estudo propõe uma nova perspectiva translinguística para investigar a generalização do raciocínio. Isso levanta uma questão crucial: A capacidade de raciocínio alcançada a partir do RPT em inglês é efetivamente transferida para outros idiomas? Abordamos isso avaliando sistematicamente LRMs centrados no inglês em benchmarks de raciocínio multilíngue e introduzindo uma métrica para quantificar a transferibilidade translinguística. Nossas descobertas revelam que a transferibilidade translinguística varia significativamente entre o modelo inicial, o idioma alvo e o paradigma de treinamento. Por meio de estudos intervencionistas, descobrimos que modelos com capacidades iniciais mais fortes em inglês tendem a depender excessivamente de padrões específicos do inglês, levando a uma generalização translinguística reduzida. Para resolver isso, conduzimos um estudo detalhado de treinamento paralelo. Os resultados experimentais revelam três descobertas principais: o Primeiro Salto Paralelo, um salto substancial no desempenho ao transitar de um idioma monolíngue para apenas um idioma paralelo, e uma Lei de Escalonamento Paralelo previsível, revelando que a transferência de raciocínio translinguístico segue uma lei de potência com o número de idiomas paralelos de treinamento. Além disso, identificamos a discrepância entre o desempenho monolíngue real e a previsão da lei de potência como a Lacuna de Generalização Monolíngue, indicando que os LRMs centrados no inglês não conseguem generalizar completamente entre idiomas. Nosso estudo desafia a suposição de que o raciocínio dos LRMs espelha a cognição humana, fornecendo insights críticos para o desenvolvimento de LRMs mais agnósticos em relação ao idioma.
Perceptrons multicamadas (MLPs) convencionalmente seguem um design estreito-amplo-estreito, onde as conexões de salto operam nas dimensões de entrada/saída enquanto o processamento ocorre em espaços ocultos expandidos. Desafiamos essa convenção propondo blocos MLP amplo-estreito-amplo (Hourglass), onde as conexões de salto operam em dimensões expandidas enquanto o fluxo residual de computação passa por gargalos estreitos. Essa inversão aproveita espaços de maior dimensão para refinamento incremental, mantendo a eficiência computacional por meio de designs com parâmetros equivalentes. A implementação de MLPs Hourglass requer uma projeção inicial para elevar os sinais de entrada a dimensões expandidas. Propomos que essa projeção pode permanecer fixa na inicialização aleatória durante todo o treinamento, permitindo implementações eficientes de treinamento e inferência. Avaliamos ambas as arquiteturas em tarefas generativas sobre conjuntos de dados de imagens populares, caracterizando fronteiras de Pareto de desempenho-parâmetro por meio de buscas arquitetônicas sistemáticas. Os resultados mostram que as arquiteturas Hourglass consistentemente alcançam fronteiras de Pareto superiores em comparação com designs convencionais. À medida que os orçamentos de parâmetros aumentam, as configurações ótimas de Hourglass favorecem redes mais profundas com conexões de salto mais amplas e gargalos mais estreitos - um padrão de escalonamento distinto dos MLPs convencionais. Nossas descobertas sugerem reconsiderar o posicionamento das conexões de salto em arquiteturas modernas, com potenciais aplicações estendendo-se a Transformers e outras redes residuais.
Na avaliação em estilo arena de modelos de linguagem de grande escala (LLMs), dois LLMs respondem a uma consulta do usuário, e o usuário escolhe a resposta vencedora ou considera o "combate" um empate, resultando em um ajuste nas classificações de ambos os modelos. A abordagem predominante para modelar essas dinâmicas de classificação é tratar os combates como partidas de jogos de dois jogadores, como no xadrez, e aplicar o sistema de classificação Elo e seus derivados. Neste artigo, examinamos criticamente esse paradigma. Especificamente, questionamos se um empate realmente significa que os dois modelos são iguais e, portanto, se suas classificações devem ser igualadas. Em vez disso, conjecturamos que os empates são mais indicativos da dificuldade da consulta: se a consulta for muito fácil, é mais provável que ambos os modelos tenham sucesso igualmente. Em três conjuntos de dados de arena do mundo real, mostramos que ignorar as atualizações de classificação para empates resulta em um aumento relativo de 1-3% na precisão da previsão dos resultados dos combates (que inclui empates) para todos os quatro sistemas de classificação estudados. Análises adicionais sugerem que os empates ocorrem mais para consultas classificadas como muito fáceis e aquelas altamente objetivas, com razões de risco de 1,37 e 1,35, respectivamente. Recomendamos que os futuros sistemas de classificação reconsiderem a semântica existente dos empates e levem em consideração as propriedades das consultas nas atualizações de classificação.
A Avaliação da Qualidade de Imagens Médicas (IQA, na sigla em inglês) serve como o primeiro portão de segurança para a IA clínica, mas as abordagens existentes permanecem limitadas por métricas escalares baseadas em pontuações e falham em refletir o processo descritivo de raciocínio semelhante ao humano, central para a avaliação de especialistas. Para abordar essa lacuna, introduzimos o MedQ-Bench, um benchmark abrangente que estabelece um paradigma de percepção-raciocínio para a avaliação da qualidade de imagens médicas baseada em linguagem com Modelos de Linguagem Multimodais de Grande Escala (MLLMs). O MedQ-Bench define duas tarefas complementares: (1) MedQ-Perception, que investiga a capacidade perceptiva de baixo nível por meio de perguntas curadas por humanos sobre atributos visuais fundamentais; e (2) MedQ-Reasoning, abrangendo tarefas de raciocínio sem referência e de comparação, alinhando a avaliação do modelo com o raciocínio semelhante ao humano sobre a qualidade da imagem. O benchmark abrange cinco modalidades de imagem e mais de quarenta atributos de qualidade, totalizando 2.600 consultas perceptivas e 708 avaliações de raciocínio, cobrindo diversas fontes de imagem, incluindo aquisições clínicas autênticas, imagens com degradações simuladas por meio de reconstruções baseadas em física e imagens geradas por IA. Para avaliar a capacidade de raciocínio, propomos um protocolo de julgamento multidimensional que avalia as saídas do modelo ao longo de quatro eixos complementares. Além disso, realizamos uma validação rigorosa de alinhamento humano-IA comparando o julgamento baseado em LLM com o de radiologistas. Nossa avaliação de 14 MLLMs state-of-the-art demonstra que os modelos exibem habilidades perceptivas e de raciocínio preliminares, mas instáveis, com precisão insuficiente para uso clínico confiável. Esses achados destacam a necessidade de otimização direcionada de MLLMs na IQA médica. Esperamos que o MedQ-Bench catalise novas explorações e libere o potencial ainda não explorado dos MLLMs para a avaliação da qualidade de imagens médicas.
A integração de Modelos de Linguagem de Grande Escala (LLMs) com sistemas de Internet das Coisas (IoT) enfrenta desafios significativos em termos de heterogeneidade de hardware e complexidade de controle. O Protocolo de Contexto de Modelo (MCP) surge como um facilitador crítico, fornecendo comunicação padronizada entre LLMs e dispositivos físicos. Propomos o IoT-MCP, uma estrutura inovadora que implementa o MCP por meio de servidores implantados na borda para conectar LLMs e ecossistemas IoT. Para apoiar uma avaliação rigorosa, introduzimos o IoT-MCP Bench, o primeiro benchmark contendo 114 Tarefas Básicas (por exemplo, "Qual é a temperatura atual?") e 1.140 Tarefas Complexas (por exemplo, "Estou com muito calor, você tem alguma ideia?") para LLMs habilitados para IoT. A validação experimental em 22 tipos de sensores e 6 unidades de microcontroladores demonstra que o IoT-MCP alcança uma taxa de sucesso de 100% na geração de chamadas de ferramentas que atendem plenamente às expectativas e obtêm resultados completamente precisos, com um tempo médio de resposta de 205ms e uma pegada de memória máxima de 74KB. Este trabalho oferece tanto uma estrutura de integração de código aberto (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) quanto uma metodologia de avaliação padronizada para sistemas LLM-IoT.
Os recuperadores de codificação dupla dependem do princípio de que documentos relevantes devem ter pontuações mais altas do que os irrelevantes para uma determinada consulta. No entanto, o objetivo dominante de Estimação Contrastiva de Ruído (NCE), que sustenta a Perda Contrastiva, otimiza um substituto de classificação suavizado que comprovamos rigorosamente ser fundamentalmente alheio à qualidade da separação de pontuações e não relacionado à AUC. Essa incompatibilidade leva a uma calibração deficiente e desempenho subótimo em tarefas subsequentes, como geração aumentada por recuperação (RAG). Para abordar essa limitação fundamental, introduzimos a perda MW, um novo objetivo de treinamento que maximiza a estatística U de Mann-Whitney, que é matematicamente equivalente à Área sob a Curva ROC (AUC). A perda MW incentiva que cada par positivo-negativo seja corretamente classificado, minimizando a entropia cruzada binária sobre as diferenças de pontuação. Fornecemos garantias teóricas de que a perda MW limita diretamente o AoC, alinhando melhor a otimização com os objetivos de recuperação. Além disso, promovemos as curvas ROC e a AUC como diagnósticos naturais sem limiar para avaliar a calibração e a qualidade de classificação dos recuperadores. Empiricamente, recuperadores treinados com a perda MW superam consistentemente os equivalentes contrastivos em AUC e métricas padrão de recuperação. Nossos experimentos mostram que a perda MW é uma alternativa empiricamente superior à Perda Contrastiva, resultando em recuperadores melhor calibrados e mais discriminativos para aplicações de alto impacto, como RAG.
À medida que os modelos de linguagem de grande escala (LLMs) aumentam em tamanho, a questão não é apenas o quão grandes eles se tornam, mas quanto de sua capacidade é efetivamente utilizada. As leis de escalonamento existentes relacionam o tamanho do modelo à perda, mas ignoram como os componentes exploram seu espaço latente. Estudamos redes feed-forward (FFNs) e reformulamos a seleção de largura como um problema de utilização espectral. Utilizando um conjunto de diagnósticos leve — Hard Rank (razão de participação), Soft Rank (rank de Shannon), Concentração Espectral e o índice composto de Utilização Espectral (SUI) — quantificamos quantas direções latentes são significativamente ativadas nas famílias LLaMA, GPT-2 e nGPT. Nossa principal descoberta é uma lei de escalonamento espectral assimétrica: o soft rank segue uma lei de potência quase perfeita com a largura da FFN, enquanto o hard rank cresce apenas de forma sublinear e com alta variância. Essa assimetria sugere que o aumento da largura das FFNs adiciona principalmente direções de baixa energia na cauda, enquanto os subespaços de modos dominantes saturam precocemente. Além disso, em larguras maiores, a variância colapsa ainda mais em um subespaço estreito, deixando grande parte do espaço latente subutilizado. Esses resultados reformulam a seleção de largura das FFNs como uma troca fundamentada entre capacidade na cauda e capacidade nos modos dominantes, oferecendo orientações concretas para o design de LLMs eficientes em inferência.
A Recuperação de Imagens Compostas (Composed Image Retrieval - CIR) visa recuperar imagens-alvo que preservem o conteúdo visual de uma imagem de referência, ao mesmo tempo que incorporam modificações textuais especificadas pelo usuário. Abordagens de CIR zero-shot (ZS-CIR) sem treinamento, que não exigem treinamento específico para a tarefa ou dados rotulados, são altamente desejáveis, mas capturar com precisão a intenção do usuário continua sendo um desafio. Neste artigo, apresentamos o SQUARE, uma nova estrutura em duas etapas sem treinamento que aproveita Modelos de Linguagem Multimodal de Grande Escala (Multimodal Large Language Models - MLLMs) para aprimorar o ZS-CIR. Na etapa de Fusão Aumentada por Consulta Semântica (Semantic Query-Augmented Fusion - SQAF), enriquecemos o embedding de consulta derivado de um modelo de visão e linguagem (Vision-Language Model - VLM), como o CLIP, com legendas geradas pelo MLLM da imagem-alvo. Essas legendas fornecem orientação semântica de alto nível, permitindo que a consulta capture melhor a intenção do usuário e melhore a qualidade global da recuperação. Na etapa de Reclassificação Eficiente em Lote (Efficient Batch Reranking - EBR), os candidatos mais bem classificados são apresentados como uma grade de imagens com marcas visuais ao MLLM, que realiza raciocínio visual-semântico conjunto em todos os candidatos. Nossa estratégia de reclassificação opera em uma única passagem e produz classificações mais precisas. Experimentos mostram que o SQUARE, com sua simplicidade e eficácia, oferece um desempenho forte em quatro benchmarks padrão de CIR. Notavelmente, ele mantém um alto desempenho mesmo com modelos pré-treinados leves, demonstrando sua potencial aplicabilidade.
Projetar sequências que atendam a múltiplos objetivos, muitas vezes conflitantes, é um desafio central na engenharia terapêutica e biomolecular. As estruturas generativas existentes operam principalmente em espaços contínuos com orientação de objetivo único, enquanto abordagens discretas carecem de garantias para a otimalidade de Pareto multi-objetivo. Apresentamos o AReUReDi (Annealed Rectified Updates for Refining Discrete Flows), um algoritmo de otimização discreta com garantias teóricas de convergência para a fronteira de Pareto. Baseando-se nos Fluxos Discretos Retificados (ReDi), o AReUReDi combina a escalarização de Tchebycheff, propostas localmente balanceadas e atualizações de Metropolis-Hastings temperadas para direcionar a amostragem para estados Pareto-ótimos, preservando a invariância distribucional. Aplicado ao projeto de sequências de peptídeos e SMILES, o AReUReDi otimiza simultaneamente até cinco propriedades terapêuticas (incluindo afinidade, solubilidade, hemólise, meia-vida e não-incrustação) e supera tanto as abordagens evolutivas quanto as baseadas em difusão. Esses resultados estabelecem o AReUReDi como uma estrutura poderosa, baseada em sequências, para a geração de biomoléculas com múltiplas propriedades.
Modelos de pensamento recentes resolvem tarefas complexas de raciocínio escalonando o cálculo em tempo de teste, mas essa escalonamento deve ser alocado de acordo com a dificuldade da tarefa. Por um lado, o raciocínio curto (subpensamento) leva a erros em problemas mais difíceis que exigem etapas de raciocínio prolongadas; por outro, o raciocínio excessivamente longo (sobrepensamento) pode ser ineficiente em termos de tokens, gerando etapas desnecessárias mesmo após alcançar uma solução intermediária correta. Referimo-nos a isso como subadaptatividade, onde o modelo falha em modular adequadamente o comprimento de sua resposta diante de problemas de dificuldade variável. Para abordar a subadaptatividade e encontrar um equilíbrio entre subpensamento e sobrepensamento, propomos o TRAAC (Think Right with Adaptive, Attentive Compression), um método de RL pós-treinamento online que aproveita a auto-atenção do modelo ao longo de uma trajetória de raciocínio extensa para identificar etapas importantes e podar as redundantes. O TRAAC também estima a dificuldade e a incorpora nas recompensas de treinamento, aprendendo assim a alocar o orçamento de raciocínio proporcionalmente à dificuldade do exemplo. Nossa abordagem melhora a precisão, reduz as etapas de raciocínio e permite um pensamento adaptativo em comparação com modelos base e outras linhas de base de RL. Em uma variedade de tarefas (AIME, AMC, GPQA-D, BBEH), o TRAAC (Qwen3-4B) alcança um ganho médio absoluto de precisão de 8,4% com uma redução relativa no comprimento do raciocínio de 36,8% em comparação com o modelo base, e um ganho de precisão de 7,9% combinado com uma redução de 29,4% no comprimento em relação à melhor linha de base de RL. O TRAAC também mostra forte generalização: embora nossos modelos sejam treinados em conjuntos de dados matemáticos, eles apresentam ganhos de precisão e eficiência em conjuntos de dados fora da distribuição, como GPQA-D, BBEH e OptimalThinkingBench. Nossa análise ainda verifica que o TRAAC fornece ajustes refinados no orçamento de pensamento com base na dificuldade e que a combinação de calibração de dificuldade da tarefa e compressão baseada em atenção produz ganhos em diversas tarefas.