Artigos de pesquisa em IA selecionados diariamente com traduções
Este estudo investiga a viabilidade de automatizar a codificação clínica em russo, uma língua com recursos biomédicos limitados. Apresentamos um novo conjunto de dados para codificação CID, que inclui campos de diagnóstico de registros eletrônicos de saúde (EHRs) anotados com mais de 10.000 entidades e mais de 1.500 códigos CID únicos. Este conjunto de dados serve como referência para vários modelos de ponta, incluindo BERT, LLaMA com LoRA e RAG, com experimentos adicionais examinando a transferência de aprendizagem entre domínios (de resumos do PubMed para diagnósticos médicos) e terminologias (de conceitos UMLS para códigos CID). Em seguida, aplicamos o modelo de melhor desempenho para rotular um conjunto de dados EHR interno contendo históricos de pacientes de 2017 a 2021. Nossos experimentos, conduzidos em um conjunto de teste cuidadosamente curado, demonstram que o treinamento com os códigos previstos automaticamente leva a uma melhoria significativa na precisão em comparação com os dados anotados manualmente por médicos. Acreditamos que nossas descobertas oferecem insights valiosos sobre o potencial de automatizar a codificação clínica em línguas com recursos limitados, como o russo, o que poderia melhorar a eficiência clínica e a precisão dos dados nesses contextos.
Avanços recentes no alinhamento de preferências humanas têm aprimorado significativamente a geração e compreensão multimodal. Uma abordagem fundamental é o treinamento de modelos de recompensa para orientar a otimização de preferências. No entanto, os modelos existentes são frequentemente específicos para tarefas, limitando sua adaptabilidade em diversas aplicações visuais. Também argumentamos que aprender a avaliar múltiplas tarefas de forma conjunta pode promover um efeito sinérgico, onde a melhoria na compreensão de imagens aprimora a avaliação da geração de imagens, e a avaliação refinada de imagens beneficia a avaliação de vídeos por meio de uma melhor análise de quadros. Para isso, este artigo propõe o UnifiedReward, o primeiro modelo de recompensa unificado para avaliação de compreensão e geração multimodal, permitindo tanto a classificação em pares quanto a pontuação pontual, que pode ser empregada para o alinhamento de preferências de modelos visuais. Especificamente, (1) primeiro desenvolvemos o UnifiedReward em nosso conjunto de dados de preferências humanas em larga escala, incluindo tarefas de geração e compreensão de imagens e vídeos. (2) Em seguida, ele é utilizado para construir automaticamente dados de pares de preferência de alta qualidade com base nos modelos visuais, filtrando gradualmente suas saídas por meio de classificação em pares e seleção pontual. (3) Por fim, esses dados são usados para o alinhamento de preferências por meio da Otimização Direta de Preferências (DPO). Os resultados experimentais demonstram que o aprendizado conjunto para avaliar diversas tarefas visuais pode levar a benefícios mútuos substanciais, e aplicamos nosso pipeline tanto para tarefas de compreensão/geração de imagens quanto de vídeos, melhorando significativamente o desempenho em cada domínio.
Representações vetoriais multilingues de propósito geral, utilizadas em recuperação, regressão e classificação, são tradicionalmente obtidas a partir de modelos de codificadores bidirecionais. Apesar de sua ampla aplicabilidade, os codificadores foram recentemente ofuscados pelos avanços em modelos generativos baseados apenas em decodificadores. No entanto, muitas das inovações que impulsionam esse progresso não estão intrinsecamente ligadas aos decodificadores. Neste artigo, revisitamos o desenvolvimento de codificadores multilingues sob a perspectiva desses avanços e introduzimos o EuroBERT, uma família de codificadores multilingues que abrange idiomas europeus e amplamente falados globalmente. Nossos modelos superam as alternativas existentes em uma ampla gama de tarefas, abrangendo capacidades multilingues, matemática e codificação, além de suportar nativamente sequências de até 8.192 tokens. Também examinamos as decisões de projeto por trás do EuroBERT, oferecendo insights sobre a composição do conjunto de dados e o pipeline de treinamento. Disponibilizamos publicamente os modelos EuroBERT, incluindo checkpoints intermediários de treinamento, juntamente com nossa estrutura de treinamento.
Recentemente, o DeepSeek R1 demonstrou como o aprendizado por reforço com incentivos simples baseados em regras pode permitir o desenvolvimento autônomo de raciocínio complexo em grandes modelos de linguagem, caracterizado pelo "momento eureka", no qual o modelo manifesta autorreflexão e aumento no comprimento das respostas durante o treinamento. No entanto, tentativas de estender esse sucesso para o raciocínio multimodal frequentemente falharam em reproduzir essas características-chave. Neste relatório, apresentamos a primeira replicação bem-sucedida dessas características emergentes para o raciocínio multimodal em um modelo de apenas 2B sem ajuste fino supervisionado (SFT). Começando com o Qwen2-VL-2B e aplicando o aprendizado por reforço diretamente no conjunto de dados SAT, nosso modelo alcança 59,47% de precisão no CVBench, superando o modelo base em aproximadamente ~30% e excedendo ambos os cenários de SFT em ~2%. Além disso, compartilhamos nossas tentativas fracassadas e insights ao tentar alcançar um raciocínio semelhante ao R1 usando aprendizado por reforço com modelos de instrução, com o objetivo de esclarecer os desafios envolvidos. Nossas principais observações incluem: (1) a aplicação de RL em modelos de instrução frequentemente resulta em trajetórias de raciocínio triviais, e (2) recompensas ingênuas baseadas no comprimento são ineficazes para eliciar capacidades de raciocínio. O código do projeto está disponível em https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
O rápido desenvolvimento de grandes modelos de linguagem (LLMs) tem atraído atenção significativa para modelos de fala, especialmente os recentes avanços em protocolos de fala2fala que suportam entrada e saída de fala. No entanto, os benchmarks existentes adotam avaliadores automáticos baseados em texto para avaliar a capacidade de seguir instruções desses modelos, mas não consideram adequadamente as informações paralinguísticas tanto na compreensão quanto na geração de fala. Para abordar essas questões, introduzimos o S2S-Arena, um novo benchmark de fala2fala no estilo arena que avalia as capacidades de seguir instruções com informações paralinguísticas tanto na entrada quanto na saída de fala em tarefas do mundo real. Projetamos 154 amostras que combinam síntese de fala (TTS) e gravações ao vivo em quatro domínios com 21 tarefas e avaliamos manualmente modelos de fala populares existentes de maneira estilo arena. Os resultados experimentais mostram que: (1) além do desempenho superior do GPT-4o, o modelo de fala em cascata com ASR, LLM e TTS supera o modelo treinado conjuntamente após o alinhamento texto-fala em protocolos de fala2fala; (2) considerando as informações paralinguísticas, a capacidade de conhecimento do modelo de fala depende principalmente do backbone LLM, e o suporte multilíngue é limitado pelo módulo de fala; (3) modelos de fala excelentes já conseguem entender as informações paralinguísticas na entrada de fala, mas gerar áudio apropriado com informações paralinguísticas ainda é um desafio.
Avanços recentes em modelos de linguagem de grande escala demonstraram capacidades de raciocínio notáveis por meio do prompting de Cadeia de Pensamento (Chain of Thought, CoT), mas frequentemente ao custo de uma verbosidade excessiva em suas saídas intermediárias, o que aumenta a sobrecarga computacional. Introduzimos o Sketch-of-Thought (SoT), uma nova estrutura de prompting que combina paradigmas de raciocínio inspirados na cognição com restrições linguísticas para minimizar o uso de tokens, mantendo a precisão do raciocínio. O SoT foi projetado como uma estrutura flexível que pode incorporar qualquer paradigma de raciocínio personalizado baseado na ciência cognitiva, e o instanciamos com três desses paradigmas - Encadeamento Conceitual, Simbolismo em Blocos e Léxicos de Especialistas - cada um adaptado a diferentes tarefas de raciocínio e selecionado dinamicamente por meio de um modelo de roteamento leve. Por meio de uma avaliação abrangente em 15 conjuntos de dados de raciocínio com múltiplos idiomas e cenários multimodais, demonstramos que o SoT alcança reduções de 76% no uso de tokens com impacto insignificante na precisão. Em certos domínios, como raciocínio matemático e de múltiplos passos, ele até melhora a precisão enquanto utiliza significativamente menos tokens. Nosso código está publicamente disponível: https://www.github.com/SimonAytes/SoT.
Neste trabalho, apresentamos a primeira aplicação de Aprendizado por Reforço com Recompensa Verificável (RLVR) a um modelo de linguagem grande Omni-multimodal no contexto de reconhecimento de emoções, uma tarefa em que tanto as modalidades visuais quanto as auditivas desempenham papéis cruciais. Utilizamos o RLVR para otimizar o modelo Omni, melhorando significativamente seu desempenho em três aspectos-chave: capacidade de raciocínio, precisão no reconhecimento de emoções e capacidade de generalização. A introdução do RLVR não apenas aprimora o desempenho geral do modelo em dados de distribuição interna, mas também demonstra robustez superior quando avaliado em conjuntos de dados fora da distribuição. Mais importante ainda, a capacidade de raciocínio aprimorada permite uma análise clara das contribuições de diferentes modalidades, particularmente informações visuais e auditivas, no processo de reconhecimento de emoções. Isso fornece insights valiosos para a otimização de modelos de linguagem grande multimodais.
Um componente essencial dos modelos de sequência recorrentes modernos é o portão de esquecimento. Embora os Transformers não tenham uma forma recorrente explícita, mostramos que um portão de esquecimento pode ser naturalmente incorporado aos Transformers ao reduzir o peso das pontuações de atenção não normalizadas de maneira dependente dos dados. Nomeamos esse mecanismo de atenção como Atenção de Esquecimento e o modelo resultante como Transformer de Esquecimento (FoX). Demonstramos que o FoX supera o Transformer em modelagem de linguagem de contexto longo, extrapolação de comprimento e tarefas subsequentes de contexto curto, enquanto apresenta desempenho semelhante ao Transformer em tarefas subsequentes de contexto longo. Além disso, ele é compatível com o algoritmo FlashAttention e não requer nenhum embedding posicional. Várias análises, incluindo o teste de "agulha no palheiro", mostram que o FoX também mantém as capacidades superiores de contexto longo do Transformer em comparação com modelos de sequência recorrentes como Mamba-2, HGRN2 e DeltaNet. Também introduzimos um design de bloco "Pro" que incorpora alguns componentes arquitetônicos comuns em modelos de sequência recorrentes e descobrimos que ele melhora significativamente o desempenho tanto do FoX quanto do Transformer. Nosso código está disponível em https://github.com/zhixuan-lin/forgetting-transformer.
Os Modelos de Raciocínio de Grande Escala (LRMs) existentes demonstraram o potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio complexo dos Modelos de Linguagem de Grande Escala (LLMs). Embora alcancem desempenho notável em tarefas desafiadoras, como matemática e codificação, eles frequentemente dependem de seu conhecimento interno para resolver problemas, o que pode ser inadequado para questões sensíveis ao tempo ou que exigem conhecimento intensivo, levando a imprecisões e alucinações. Para abordar isso, propomos o R1-Searcher, uma nova abordagem de RL baseada em resultados em dois estágios, projetada para aprimorar as capacidades de busca dos LLMs. Esse método permite que os LLMs invoquem autonomamente sistemas de busca externos para acessar conhecimento adicional durante o processo de raciocínio. Nosso framework depende exclusivamente do RL, sem exigir recompensas de processo ou destilação para um início a frio. Nossos experimentos demonstram que nosso método supera significativamente os métodos RAG anteriores fortes, mesmo quando comparado ao GPT-4o-mini de código fechado.
A restauração de vídeos (video inpainting), que visa recuperar conteúdos de vídeo corrompidos, tem experimentado progressos significativos. Apesar desses avanços, os métodos existentes, seja propagando pixels de regiões não mascaradas através de fluxo óptico e prioridades de campo receptivo, ou estendendo modelos de restauração de imagens temporalmente, enfrentam desafios na geração de objetos totalmente mascarados ou no equilíbrio dos objetivos concorrentes de preservação de contexto de fundo e geração de primeiro plano em um único modelo, respectivamente. Para abordar essas limitações, propomos um novo paradigma de fluxo duplo, o VideoPainter, que incorpora um codificador de contexto eficiente (composto por apenas 6% dos parâmetros da estrutura principal) para processar vídeos mascarados e injetar pistas contextuais de fundo conscientes da estrutura principal em qualquer DiT de vídeo pré-treinado, produzindo conteúdo semanticamente consistente de maneira plug-and-play. Essa separação arquitetônica reduz significativamente a complexidade de aprendizado do modelo, ao mesmo tempo que permite uma integração sutil do contexto crucial de fundo. Também introduzimos uma nova técnica de reamostragem de ID de região alvo que permite a restauração de vídeos de qualquer duração, aumentando muito nossa aplicabilidade prática. Além disso, estabelecemos um pipeline de conjunto de dados escalável, aproveitando os modelos atuais de compreensão visual, contribuindo com o VPData e o VPBench para facilitar o treinamento e avaliação de restauração baseada em segmentação, o maior conjunto de dados e benchmark de restauração de vídeo até o momento, com mais de 390 mil clipes diversos. Usando a restauração como base do pipeline, também exploramos aplicações subsequentes, incluindo edição de vídeo e geração de dados de pares de edição de vídeo, demonstrando desempenho competitivo e potencial prático significativo. Experimentos extensivos demonstram o desempenho superior do VideoPainter tanto na restauração de vídeos de qualquer duração quanto na edição, em oito métricas-chave, incluindo qualidade de vídeo, preservação de regiões mascaradas e coerência textual.
Agentes baseados em LLMs estão se tornando cada vez mais proficientes na resolução de tarefas baseadas na web. Com essa capacidade, surge um risco maior de uso indevido para fins maliciosos, como postar desinformação em um fórum online ou vender substâncias ilícitas em um site. Para avaliar esses riscos, propomos o SafeArena, o primeiro benchmark focado no uso deliberado de agentes da web para fins maliciosos. O SafeArena compreende 250 tarefas seguras e 250 tarefas prejudiciais em quatro websites. Classificamos as tarefas prejudiciais em cinco categorias de dano — desinformação, atividade ilegal, assédio, cibercrime e viés social — projetadas para avaliar usos indevidos realistas de agentes da web. Avaliamos agentes da web baseados em LLMs líderes, incluindo GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B e Llama-3.2 90B, em nosso benchmark. Para avaliar sistematicamente sua suscetibilidade a tarefas prejudiciais, introduzimos o framework de Avaliação de Risco do Agente, que categoriza o comportamento do agente em quatro níveis de risco. Descobrimos que os agentes são surpreendentemente complacentes com solicitações maliciosas, com GPT-4o e Qwen-2 completando 34,7% e 27,3% das solicitações prejudiciais, respectivamente. Nossas descobertas destacam a necessidade urgente de procedimentos de alinhamento de segurança para agentes da web. Nosso benchmark está disponível aqui: https://safearena.github.io
Apresentamos o TrajectoryCrafter, uma abordagem inovadora para redirecionar trajetórias de câmera em vídeos monoculares. Ao separar transformações de visão determinísticas da geração estocástica de conteúdo, nosso método alcança controle preciso sobre trajetórias de câmera especificadas pelo usuário. Propomos um novo modelo de difusão de vídeo condicional de fluxo duplo que integra simultaneamente renderizações de nuvem de pontos e vídeos originais como condições, garantindo transformações de visão precisas e geração coerente de conteúdo 4D. Em vez de utilizar vídeos multivista escassos, criamos um conjunto de dados de treinamento híbrido que combina vídeos monoculares em escala da web com conjuntos de dados multivista estáticos, por meio de nossa estratégia inovadora de dupla reprojeção, promovendo significativamente uma generalização robusta em diversas cenas. Avaliações extensas em vídeos multivista e monoculares em larga escala demonstram o desempenho superior do nosso método.
Os recentes avanços no aprendizado por reforço (RL) para modelos de linguagem de grande escala (LLMs), exemplificados pelo DeepSeek R1, demonstraram que até mesmo uma tarefa simples de perguntas e respostas pode melhorar substancialmente as capacidades de raciocínio de um LLM. Neste trabalho, estendemos essa abordagem modificando a tarefa para um cenário de múltiplas tentativas. Em vez de gerar uma única resposta por pergunta, o modelo recebe várias tentativas, com feedback fornecido após respostas incorretas. A tarefa de múltiplas tentativas incentiva o modelo a refinar suas tentativas anteriores e melhorar a eficiência da busca. Resultados experimentais mostram que até mesmo um LLM pequeno treinado em uma tarefa de múltiplas tentativas alcança uma precisão significativamente maior quando avaliado com mais tentativas, melhorando de 45,6% com 1 tentativa para 52,5% com 2 tentativas no benchmark de matemática. Em contraste, o mesmo LLM treinado em uma tarefa padrão de turno único exibe apenas uma melhoria marginal, aumentando de 42,3% para 43,2% quando recebe mais tentativas durante a avaliação. Os resultados indicam que, em comparação com a tarefa padrão de turno único, um LLM treinado em uma tarefa de múltiplas tentativas alcança um desempenho ligeiramente melhor em benchmarks de matemática, ao mesmo tempo em que aprende a refinar suas respostas de forma mais eficaz com base no feedback do usuário. O código completo está disponível em https://github.com/DualityRL/multi-attempt.
O desafio de reduzir o tamanho dos Modelos de Linguagem de Grande Escala (LLMs) enquanto mantém seu desempenho tem ganhado atenção significativa. No entanto, métodos existentes, como a destilação de modelos e a aprendizagem por transferência, frequentemente falham em alcançar alta precisão. Para abordar essa limitação, introduzimos a abordagem de destilação Branch-Merge, que aprimora a compressão de modelos por meio de duas fases: (1) a Fase Branch, onde o conhecimento de um grande modelo professor é destilado seletivamente em modelos estudantes especializados por meio de ajuste fino supervisionado (SFT) específico do domínio; e (2) a Fase Merge, onde esses modelos estudantes são fundidos para permitir a transferência de conhecimento entre domínios e melhorar a generalização. Validamos nossa abordagem de destilação utilizando o DeepSeek-R1 como modelo professor e o DeepSeek-R1-Distill-Qwen-32B como modelo estudante. O modelo resultante da fusão, TinyR1-32B-Preview, supera seu equivalente DeepSeek-R1-Distill-Qwen-32B em múltiplos benchmarks, incluindo Matemática (+5,5 pontos), Codificação (+4,4 pontos) e Ciência (+2,9 pontos), enquanto alcança desempenho quase igual ao do DeepSeek-R1 no AIME 2024. A abordagem de destilação Branch-Merge oferece uma solução escalável para a criação de LLMs menores e de alto desempenho, com custo computacional e tempo reduzidos.
Os embeddings de código são essenciais para a busca semântica de código; no entanto, as abordagens atuais frequentemente enfrentam dificuldades para capturar as nuances sintáticas e contextuais precisas inerentes ao código. Modelos de código aberto, como CodeBERT e UniXcoder, apresentam limitações em escalabilidade e eficiência, enquanto sistemas proprietários de alto desempenho impõem custos computacionais substanciais. Introduzimos um método de ajuste fino eficiente em parâmetros baseado em Low-Rank Adaptation (LoRA) para construir adaptadores específicos para tarefas de recuperação de código. Nossa abordagem reduz o número de parâmetros treináveis para menos de dois por cento do modelo base, permitindo um ajuste rápido em extensos corpora de código (2 milhões de amostras em 25 minutos em duas GPUs H100). Experimentos demonstram um aumento de até 9,1% no Mean Reciprocal Rank (MRR) para tarefas de busca Code2Code e até 86,69% para tarefas de busca Text2Code em várias linguagens de programação. A distinção na adaptação por tarefa e por linguagem ajuda a explorar a sensibilidade da recuperação de código para variações sintáticas e linguísticas.
Tarefas domésticas do mundo real apresentam desafios significativos para robôs de manipulação móvel. Uma análise dos benchmarks de robótica existentes revela que o desempenho bem-sucedido das tarefas depende de três capacidades essenciais de controle de corpo inteiro: coordenação bimanual, navegação estável e precisa, e ampla alcance do efetuador final. Alcançar essas capacidades requer um projeto de hardware cuidadoso, mas a complexidade resultante do sistema complica ainda mais o aprendizado de políticas visuomotoras. Para enfrentar esses desafios, apresentamos o BEHAVIOR Robot Suite (BRS), um framework abrangente para manipulação de corpo inteiro em diversas tarefas domésticas. Construído sobre um robô bimanual com rodas e um tronco de 4 graus de liberdade (DoF), o BRS integra uma interface de teleoperação de corpo inteiro de baixo custo para coleta de dados e um novo algoritmo para aprender políticas visuomotoras de corpo inteiro. Avaliamos o BRS em cinco tarefas domésticas desafiadoras que não apenas enfatizam as três capacidades principais, mas também introduzem complexidades adicionais, como navegação de longo alcance, interação com objetos articulados e deformáveis, e manipulação em espaços confinados. Acreditamos que a integração da incorporação robótica do BRS, sua interface de coleta de dados e o framework de aprendizado representam um passo significativo para viabilizar a manipulação de corpo inteiro no mundo real para tarefas domésticas cotidianas. O BRS é disponibilizado como código aberto em https://behavior-robot-suite.github.io/.
Os modelos de difusão têm alcançado progressos significativos tanto na geração de imagens quanto de vídeos, mas ainda sofrem com altos custos computacionais. Como uma solução eficaz, o flow matching visa redirecionar o processo de difusão dos modelos de difusão para uma linha reta, permitindo geração em poucos passos ou até mesmo em um único passo. No entanto, neste artigo, sugerimos que o pipeline de treinamento original do flow matching não é ideal e introduzimos duas técnicas para melhorá-lo. Primeiramente, apresentamos o reflow progressivo, que redireciona progressivamente os modelos de difusão em intervalos de tempo locais até que todo o processo de difusão seja concluído, reduzindo a dificuldade do flow matching. Em segundo lugar, introduzimos a previsão v-alinhada, que destaca a importância do alinhamento de direção no flow matching em vez do alinhamento de magnitude. Resultados experimentais no SDv1.5 e SDXL demonstram a eficácia do nosso método. Por exemplo, ao aplicar no SDv1.5, alcançamos um FID de 10,70 no conjunto de validação MSCOCO2014 com apenas 4 passos de amostragem, próximo ao nosso modelo de referência (32 passos DDIM, FID = 10,05).
Modelagem de Sequência Linear (Linear Sequence Modeling - LSM), como atenção linear, modelos de espaço de estado e RNNs lineares, e Mistura de Especialistas (Mixture-of-Experts - MoE) surgiram recentemente como melhorias arquitetônicas significativas. Neste artigo, apresentamos o Linear-MoE, um sistema de nível de produção para modelagem e treinamento de modelos em larga escala que integram LSM com MoE. O Linear-MoE aproveita as vantagens tanto dos módulos LSM para modelagem de sequência com complexidade linear quanto das camadas MoE para ativação esparsa, visando oferecer alto desempenho com treinamento eficiente. O sistema Linear-MoE compreende: 1) Subsistema de Modelagem, que fornece uma estrutura unificada que suporta todas as instâncias de LSM, e 2) Subsistema de Treinamento, que facilita o treinamento eficiente ao incorporar várias tecnologias avançadas de paralelismo, particularmente o Paralelismo de Sequência projetado para modelos Linear-MoE. Além disso, exploramos modelos híbridos que combinam camadas Linear-MoE com camadas Transformer-MoE padrão, juntamente com seu Paralelismo de Sequência, para aprimorar ainda mais a flexibilidade e o desempenho do modelo. Avaliações em duas séries de modelos, A0.3B-2B e A1B-7B, demonstram que o Linear-MoE alcança ganhos de eficiência enquanto mantém um desempenho competitivo em vários benchmarks, mostrando seu potencial como uma arquitetura de modelo fundamental de próxima geração. Código: https://github.com/OpenSparseLLMs/Linear-MoE.
Neste relatório, apresentamos o terceiro relatório técnico sobre o desenvolvimento de modelos de pensamento lento como parte do projeto STILL. À medida que o caminho técnico se torna mais claro, a escalabilidade do treinamento de RL (Reinforcement Learning) emergiu como uma técnica central para a implementação desses modelos de raciocínio. Realizamos experimentos sistemáticos e documentamos os efeitos de vários fatores que influenciam o treinamento de RL, conduzindo testes tanto em modelos base quanto em modelos ajustados. Especificamente, demonstramos que nossa abordagem de treinamento de RL melhora consistentemente os modelos base Qwen2.5-32B, aumentando tanto o comprimento das respostas quanto a precisão nos testes. Além disso, mostramos que mesmo quando um modelo como o DeepSeek-R1-Distill-Qwen-1.5B já atingiu um alto nível de desempenho, ele pode ser ainda mais refinado por meio do treinamento de RL, alcançando uma precisão de 39,33% no AIME 2024. Além do treinamento de RL, também exploramos o uso de manipulação de ferramentas, descobrindo que isso impulsiona significativamente o desempenho de raciocínio de modelos grandes de raciocínio. Essa abordagem alcança uma precisão notável de 86,67% com busca gananciosa no AIME 2024, destacando sua eficácia no aprimoramento das capacidades dos modelos. Disponibilizamos nossos recursos no site do projeto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
A geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation) tem demonstrado proficiência significativa na execução de tarefas de questionamento e resposta (QA, do inglês Question-Answering) dentro de um corpus específico. No entanto, ainda existem inúmeros casos de falha do RAG em QA. Essas falhas não são atribuíveis apenas às limitações dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models); em vez disso, surgem predominantemente da recuperação de informações imprecisas para os LLMs devido a duas limitações: (1) Os métodos atuais de RAG segmentam o corpus sem considerar a semântica, dificultando a localização de contextos relevantes devido à correlação prejudicada entre as perguntas e os segmentos. (2) Existe uma troca entre perder contexto essencial ao recuperar menos contexto e obter contexto irrelevante ao recuperar mais contexto. Neste artigo, introduzimos um framework RAG (SAGE) para superar essas limitações. Primeiro, para abordar o problema de segmentação sem considerar a semântica, propomos treinar um modelo de segmentação semântica. Esse modelo é treinado para segmentar o corpus em blocos semanticamente completos. Segundo, para garantir que apenas os blocos mais relevantes sejam recuperados enquanto os irrelevantes são ignorados, projetamos um algoritmo de seleção de blocos que seleciona dinamicamente os blocos com base na velocidade de decréscimo da pontuação de relevância, resultando em uma seleção mais relevante. Terceiro, para garantir ainda mais a precisão dos blocos recuperados, propomos permitir que os LLMs avaliem se os blocos recuperados são excessivos ou insuficientes e, em seguida, ajustem a quantidade de contexto de acordo. Experimentos mostram que o SAGE supera as baselines em 61,25% na qualidade do QA, em média. Além disso, ao evitar a recuperação de contexto ruidoso, o SAGE reduz o custo dos tokens consumidos na inferência do LLM e alcança uma melhoria de 49,41% na eficiência de custo, em média. Adicionalmente, nosso trabalho oferece insights valiosos para impulsionar o RAG.
Os modelos avançados de linguagem de contexto longo atuais oferecem grande potencial para aplicações práticas de engenharia de software. No entanto, o progresso nesse domínio crítico continua sendo limitado por uma restrição fundamental: a ausência de um framework de avaliação rigoroso para o entendimento de código longo. Para superar esse obstáculo, propomos um benchmark de entendimento de código longo, chamado LONGCODEU, que avalia a capacidade de modelos de linguagem de contexto longo (LCLMs) em quatro aspectos (8 tarefas) essenciais para aplicações práticas, incluindo percepção de unidades de código, entendimento intra-unidade de código, entendimento de relações inter-unidades de código e entendimento de documentação de código longo. Avaliamos 9 LCLMs populares no LONGCODEU (ou seja, 6 modelos gerais e 3 modelos específicos para código). Nossos resultados experimentais revelam limitações significativas nas capacidades atuais dos LCLMs para o entendimento de código longo. Especificamente, o desempenho dos LCLMs cai drasticamente quando o comprimento do código longo excede 32K, ficando muito aquém das janelas de contexto de 128K-1M que eles afirmam suportar. Dentre os quatro aspectos, o entendimento de relações inter-unidades de código é o mais desafiador para os LCLMs. Nosso estudo fornece insights valiosos para a otimização de LCLMs e o avanço da engenharia de software.
A natureza sequencial dos LLMs modernos os torna caros e lentos, e a amostragem especulativa tem se mostrado uma solução eficaz para esse problema. Métodos como o EAGLE realizam autoregressão no nível de características, reutilizando características da camada superior do modelo alvo para obter resultados melhores do que a amostragem especulativa convencional. Uma tendência crescente na comunidade de LLMs é a ampliação dos dados de treinamento para melhorar a inteligência do modelo sem aumentar os custos de inferência. No entanto, observamos que a ampliação dos dados oferece melhorias limitadas para o EAGLE. Identificamos que essa limitação surge das restrições de previsão de características do EAGLE. Neste artigo, apresentamos o EAGLE-3, que abandona a previsão de características em favor da previsão direta de tokens e substitui a dependência de características da camada superior pela fusão de características de múltiplas camadas por meio de uma técnica chamada teste em tempo de treinamento. Essas melhorias aumentam significativamente o desempenho e permitem que o modelo de rascunho se beneficie totalmente da ampliação dos dados de treinamento. Nossos experimentos incluem tanto modelos de conversação quanto modelos de raciocínio, avaliados em cinco tarefas. Os resultados mostram que o EAGLE-3 alcança uma taxa de aceleração de até 6,5x, com uma melhoria de aproximadamente 1,4x em relação ao EAGLE-2. O código está disponível em https://github.com/SafeAILab/EAGLE.
A detecção de anomalias em vídeo (VAD) é crucial para a análise de vídeo e vigilância em visão computacional. No entanto, os modelos existentes de VAD dependem de padrões normais aprendidos, o que dificulta sua aplicação em ambientes diversos. Consequentemente, os usuários precisam retreinar os modelos ou desenvolver modelos de IA separados para novos ambientes, o que exige expertise em aprendizado de máquina, hardware de alto desempenho e coleta extensiva de dados, limitando a usabilidade prática da VAD. Para enfrentar esses desafios, este estudo propõe a técnica de detecção de anomalias em vídeo personalizável (C-VAD) e o modelo AnyAnomaly. O C-VAD considera texto definido pelo usuário como um evento anormal e detecta quadros que contêm um evento especificado em um vídeo. Implementamos o AnyAnomaly de forma eficaz usando uma abordagem de resposta visual contextualizada sem ajuste fino do grande modelo de linguagem visual. Para validar a eficácia do modelo proposto, construímos conjuntos de dados C-VAD e demonstramos a superioridade do AnyAnomaly. Além disso, nossa abordagem mostrou desempenho competitivo em conjuntos de dados de referência para VAD, alcançando resultados de ponta no conjunto de dados UBnormal e superando outros métodos em generalização em todos os conjuntos de dados. Nosso código está disponível online em github.com/SkiddieAhn/Paper-AnyAnomaly.
Simuladores de usuários são cruciais para replicar interações humanas com sistemas de diálogo, apoiando tanto o treinamento colaborativo quanto a avaliação automática, especialmente para grandes modelos de linguagem (LLMs). No entanto, os simuladores existentes frequentemente dependem exclusivamente de enunciados de texto, ignorando características implícitas do usuário, como personalidade, estilo de fala e objetivos. Em contraste, métodos baseados em persona carecem de generalização, pois dependem de perfis predefinidos de indivíduos famosos ou arquétipos. Para enfrentar esses desafios, propomos o Simulador de Usuário com Perfis Implícitos (USP), uma estrutura que infere perfis implícitos de usuários a partir de conversas humano-máquina e os utiliza para gerar diálogos mais personalizados e realistas. Primeiro, desenvolvemos um extrator baseado em LLM com um esquema de perfil abrangente. Em seguida, refinamos a simulação por meio de ajuste fino supervisionado condicional e aprendizado por reforço com consistência cíclica, otimizando-a tanto no nível do enunciado quanto no nível da conversa. Por fim, adotamos um amostrador de perfis diversificado para capturar a distribuição de perfis de usuários do mundo real. Resultados experimentais demonstram que o USP supera fortes baselines em termos de autenticidade e diversidade, ao mesmo tempo em que alcança desempenho comparável em consistência. Além disso, avaliações dinâmicas de múltiplos turnos baseadas no USP estão fortemente alinhadas com benchmarks mainstream, demonstrando sua eficácia em aplicações do mundo real.