Artigos de pesquisa em IA selecionados diariamente com traduções
Aumentar o poder computacional durante o teste de modelos de linguagem de grande escala tem demonstrado desempenho impressionante em benchmarks de raciocínio. No entanto, as avaliações existentes sobre a escalabilidade no tempo de teste partem da forte suposição de que um sistema de raciocínio deve sempre fornecer uma resposta para qualquer pergunta apresentada. Isso ignora preocupações sobre se um modelo está confiante em sua resposta e se é apropriado sempre fornecer uma resposta. Para abordar essas preocupações, extraímos pontuações de confiança durante o raciocínio para limitar as respostas do modelo. Descobrimos que aumentar o orçamento computacional no momento da inferência não apenas ajuda os modelos a responderem mais perguntas corretamente, mas também aumenta a confiança nas respostas corretas. Em seguida, estendemos o paradigma atual de respostas de risco zero durante a avaliação, considerando cenários com níveis de risco de resposta diferentes de zero, e sugerimos uma abordagem para relatar avaliações nessas condições.
Os modelos de linguagem de grande escala (LLMs) de fala end-to-end existentes geralmente dependem de grandes volumes de dados anotados para treinamento, enquanto o treinamento eficiente em termos de dados não foi discutido em profundidade. Nós nos concentramos em dois problemas fundamentais entre fala e texto: a lacuna no espaço de representação e a inconsistência no comprimento das sequências. Propomos o Soundwave, que utiliza uma estratégia de treinamento eficiente e uma nova arquitetura para abordar essas questões. Os resultados mostram que o Soundwave supera o avançado Qwen2-Audio em tarefas de tradução de fala e no benchmark AIR-Bench de fala, utilizando apenas um quinquagésimo dos dados de treinamento. Análises adicionais mostram que o Soundwave ainda mantém sua inteligência durante conversas. O projeto está disponível em https://github.com/FreedomIntelligence/Soundwave.
Uma série de trabalhos recentes aborda o problema da compressão de sequências de tokens em uma sequência mais curta de vetores de valores reais, que são usados como entradas em vez de embeddings de tokens ou cache de chave-valor. Essas abordagens permitem reduzir a quantidade de computação necessária em modelos de linguagem existentes. Apesar de dependerem de modelos poderosos como codificadores, a taxa máxima de compressão sem perdas geralmente não ultrapassa x10. Esse fato é altamente intrigante porque, em teoria, a capacidade máxima de informação de grandes vetores de valores reais está muito além das taxas apresentadas, mesmo para precisão de 16 bits e um tamanho modesto de vetor. Neste trabalho, exploramos os limites da compressão substituindo o codificador por um procedimento de otimização por amostra. Mostramos que vetores com taxas de compressão de até x1500 existem, o que destaca uma diferença de duas ordens de magnitude entre as soluções existentes e as praticamente alcançáveis. Além disso, demonstramos empiricamente que os limites de compressão são determinados não pelo comprimento da entrada, mas pela quantidade de incerteza a ser reduzida, ou seja, pela perda de entropia cruzada nessa sequência sem qualquer condicionamento. Os limites obtidos destacam a lacuna substancial entre a capacidade teórica dos embeddings de entrada e sua utilização prática, sugerindo um espaço significativo para otimização no design de modelos.
O desenvolvimento contínuo de modelos fundamentais para geração de vídeos está evoluindo para diversas aplicações, com a geração de vídeos consistentes em relação ao sujeito ainda em fase exploratória. Nós nos referimos a isso como Sujeito-para-Vídeo, que extrai elementos do sujeito a partir de imagens de referência e gera vídeos consistentes com o sujeito por meio de instruções textuais. Acreditamos que a essência do sujeito-para-vídeo reside em equilibrar os prompts bimodais de texto e imagem, alinhando profundamente e simultaneamente tanto o conteúdo textual quanto o visual. Para isso, propomos o Phantom, um framework unificado de geração de vídeos para referências de um único sujeito e de múltiplos sujeitos. Com base nas arquiteturas existentes de texto-para-vídeo e imagem-para-vídeo, redesenhamos o modelo de injeção conjunta de texto e imagem e o conduzimos a aprender o alinhamento multimodal por meio de dados triplos de texto-imagem-vídeo. Em particular, enfatizamos a consistência do sujeito na geração de humanos, abrangendo a geração de vídeos com preservação de identidade existente enquanto oferece vantagens aprimoradas. A página do projeto está disponível em https://phantom-video.github.io/Phantom/.
Apresentamos o Magma, um modelo de base que atende a tarefas agentivas de IA multimodal tanto no mundo digital quanto no físico. O Magma é uma extensão significativa dos modelos de visão e linguagem (VL), pois não apenas mantém a capacidade de compreensão VL (inteligência verbal) desses modelos, mas também é equipado com a capacidade de planejar e agir no mundo visual-espacial (inteligência espaço-temporal) e completar tarefas agentivas que variam desde a navegação em interfaces de usuário (UI) até a manipulação robótica. Para dotar o Magma de capacidades agentivas, ele foi pré-treinado em grandes quantidades de conjuntos de dados heterogêneos, abrangendo desde imagens e vídeos até dados de robótica, onde os objetos visuais acionáveis (por exemplo, botões clicáveis em GUI) nas imagens são rotulados por Set-of-Mark (SoM) para fundamentação de ações, e os movimentos de objetos (por exemplo, o traço de mãos humanas ou braços robóticos) em vídeos são rotulados por Trace-of-Mark (ToM) para planejamento de ações. Experimentos extensivos mostram que SoM e ToM alcançam uma grande sinergia e facilitam a aquisição de inteligência espaço-temporal para o nosso modelo Magma, o que é fundamental para uma ampla gama de tarefas, conforme mostrado na Fig.1. Em particular, o Magma estabelece novos resultados de ponta em tarefas de navegação em UI e manipulação robótica, superando modelos anteriores que foram especificamente adaptados para essas tarefas. Em tarefas multimodais relacionadas a imagens e vídeos, o Magma também se compara favoravelmente a modelos multimodais grandes populares que foram treinados em conjuntos de dados muito maiores. Disponibilizamos nosso modelo e código publicamente para reprodutibilidade em https://microsoft.github.io/Magma.
Os modelos de difusão surgiram como uma alternativa promissora aos modelos autoregressivos na modelagem de dados categóricos discretos. No entanto, os modelos de difusão que operam diretamente no espaço de dados discretos não exploram plenamente o poder do refinamento iterativo, uma vez que os sinais são perdidos durante a transição entre estados discretos. Os modelos contínuos de difusão existentes para dados discretos têm desempenho limitado em comparação com abordagens discretas, e a ligação pouco clara entre eles restringe o desenvolvimento de modelos de difusão para dados discretos. Neste trabalho, propomos um modelo contínuo de difusão para modelagem de linguagem que incorpora a geometria da distribuição categórica subjacente. Estabelecemos uma conexão entre a difusão discreta e o fluxo contínuo na variedade estatística e, com base nessa analogia, introduzimos um design simples para o processo de difusão que generaliza os modelos anteriores de difusão discreta. Além disso, propomos uma estrutura de treinamento sem simulação baseada em simetria radial e uma técnica simples para lidar com a alta dimensionalidade da variedade. Experimentos abrangentes em benchmarks de modelagem de linguagem e outras modalidades mostram que nosso método supera os modelos de difusão discreta existentes e se aproxima do desempenho dos modelos autoregressivos. Códigos disponíveis em https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Modelos Multimodais de Grande Escala de Linguagem (MLLMs) recentes alcançaram desempenho notável, mas enfrentam desafios de implantação devido à sua complexidade computacional quadrática, ao crescente requisito de cache de Chave-Valor e à dependência de codificadores de visão separados. Propomos o mmMamba, uma estrutura para desenvolver modelos de espaço de estado multimodais nativos com complexidade linear por meio de destilação progressiva de MLLMs existentes, utilizando recursos computacionais acadêmicos moderados. Nossa abordagem permite a conversão direta de MLLMs treinados apenas com decodificadores para arquiteturas de complexidade linear, sem a necessidade de LLMs baseados em RNN pré-treinados ou codificadores de visão. Propomos uma estratégia de inicialização para esculpir o Mamba a partir de Transformers treinados e uma receita de destilação em três estágios, que pode transferir efetivamente o conhecimento do Transformer para o Mamba, preservando as capacidades multimodais. Nosso método também suporta arquiteturas híbridas flexíveis que combinam camadas de Transformer e Mamba para ajustes personalizados entre eficiência e desempenho. Destilado a partir do HoVLE, um decodificador baseado em Transformer, o mmMamba-linear alcança desempenho competitivo em comparação com VLMs existentes de complexidade linear e quadrática, enquanto o mmMamba-híbrido melhora significativamente o desempenho, aproximando-se das capacidades do HoVLE. Com 103K tokens, o mmMamba-linear demonstra uma aceleração de 20,6 vezes e uma redução de 75,8% na memória GPU em comparação com o HoVLE, enquanto o mmMamba-híbrido alcança uma aceleração de 13,5 vezes e uma economia de memória de 60,2%. O código e os modelos estão disponíveis em https://github.com/hustvl/mmMamba.
Compreender as preferências humanas é crucial para aprimorar modelos de base e construir sistemas de IA personalizados. No entanto, as preferências são inerentemente diversas e complexas, tornando difícil para os modelos de recompensa tradicionais capturar toda a sua amplitude. Embora dados detalhados de preferência possam ajudar, coletá-los é caro e difícil de escalar. Neste artigo, apresentamos os Modelos de Recompensa Decompostos (DRMs, na sigla em inglês), uma abordagem inovadora que extrai diversas preferências humanas a partir de comparações binárias, sem a necessidade de anotações detalhadas. Nossa principal percepção é representar as preferências humanas como vetores e analisá-las usando Análise de Componentes Principais (PCA). Ao construir um conjunto de dados de diferenças de embeddings entre respostas preferidas e rejeitadas, os DRMs identificam vetores de base ortogonais que capturam aspectos distintos das preferências. Essas recompensas decompostas podem ser combinadas de forma flexível para alinhar-se com diferentes necessidades dos usuários, oferecendo uma alternativa interpretável e escalável aos modelos de recompensa tradicionais. Demonstramos que os DRMs extraem efetivamente dimensões significativas de preferência (por exemplo, utilidade, segurança, humor) e se adaptam a novos usuários sem treinamento adicional. Nossos resultados destacam os DRMs como uma estrutura poderosa para o alinhamento personalizado e interpretável de modelos de linguagem de grande escala (LLMs).
Em contraste com as RNNs, que comprimem os tokens anteriores em um único estado oculto, os Transformers podem atender diretamente a todos os tokens anteriores. No entanto, os Transformers padrão utilizam apenas as representações da camada imediatamente anterior. Neste artigo, mostramos que essa escolha de projeto causa colapso de representação e leva a um desempenho subótimo. Para abordar esse problema, introduzimos a Memória Integrada por Camadas (LIMe, na sigla em inglês), uma abordagem simples, porém poderosa, que preserva a pegada de memória geral do modelo enquanto expande sua capacidade representacional, permitindo o acesso a estados ocultos de camadas anteriores. Por meio de extensos experimentos em várias arquiteturas e diferentes mecanismos de consulta, demonstramos melhorias consistentes de desempenho em uma ampla gama de tarefas. Além disso, nossa análise da dinâmica das representações aprendidas e nossa exploração de circuitos em profundidade revelam como o LIMe integra informações entre as camadas, apontando para direções promissoras para pesquisas futuras.
Modelos de linguagem de grande escala (LLMs) ajustados em dados financeiros multimodais demonstraram capacidades impressionantes de raciocínio em diversas tarefas financeiras. No entanto, eles frequentemente enfrentam dificuldades em cenários interativos e orientados a objetivos em mercados financeiros, como negociações, onde abordagens agentivas complexas são necessárias para melhorar a tomada de decisões. Para abordar esse desafio, propomos o FLAG-Trader, uma arquitetura unificada que integra processamento linguístico (via LLMs) com otimização de políticas de aprendizado por reforço (RL) baseada em gradientes, na qual um LLM parcialmente ajustado atua como a rede de políticas, aproveitando conhecimento pré-treinado enquanto se adapta ao domínio financeiro por meio de ajuste fino eficiente em parâmetros. Através da otimização de gradiente de política impulsionada por recompensas de negociação, nosso framework não apenas melhora o desempenho dos LLMs em negociações, mas também aprimora os resultados em outras tarefas do domínio financeiro. Apresentamos evidências empíricas extensas para validar esses aprimoramentos.
A inteligência espacial é um componente crítico da IA corporificada, capacitando robôs a compreender e interagir com seus ambientes. Embora avanços recentes tenham aprimorado a capacidade dos VLMs (Modelos de Linguagem Visual) de perceber localizações de objetos e relações posicionais, eles ainda carecem da habilidade de compreender precisamente as orientações dos objetos — um requisito essencial para tarefas que envolvem manipulações refinadas. Superar essa limitação não exige apenas raciocínio geométrico, mas também uma forma expressiva e intuitiva de representar a orientação. Nesse contexto, propomos que a linguagem natural oferece um espaço de representação mais flexível do que sistemas de referência canônicos, tornando-a particularmente adequada para sistemas robóticos que seguem instruções. Neste artigo, introduzimos o conceito de orientação semântica, que define as orientações dos objetos usando linguagem natural de maneira independente de sistemas de referência (por exemplo, a direção de "inserção" de um USB ou a direção do "cabo" de uma faca). Para apoiar isso, construímos o OrienText300K, um conjunto de dados em larga escala de modelos 3D anotados com orientações semânticas que conectam o entendimento geométrico à semântica funcional. Ao integrar a orientação semântica em um sistema VLM, capacitamos robôs a gerar ações de manipulação com restrições tanto posicionais quanto orientacionais. Experimentos extensivos em simulação e no mundo real demonstram que nossa abordagem melhora significativamente as capacidades de manipulação robótica, por exemplo, com 48,7% de precisão no Open6DOR e 74,9% de precisão no SIMPLER.
A implantação de grandes modelos de linguagem (LLMs) em aplicações do mundo real requer modelos de segurança robustos para detectar e bloquear solicitações de usuários prejudiciais. Embora grandes modelos de segurança alcancem um desempenho forte, seu custo computacional é substancial. Para mitigar isso, modelos menores e destilados são utilizados, mas eles frequentemente têm desempenho inferior em exemplos "difíceis", onde o modelo maior fornece previsões precisas. Observamos que muitas entradas podem ser tratadas de forma confiável pelo modelo menor, enquanto apenas uma pequena fração requer a capacidade do modelo maior. Motivados por isso, propomos o SafeRoute, um roteador binário que distingue exemplos difíceis dos fáceis. Nosso método aplica seletivamente o modelo de segurança maior aos dados que o roteador considera difíceis, melhorando a eficiência enquanto mantém a precisão em comparação com o uso exclusivo do modelo de segurança maior. Resultados experimentais em múltiplos conjuntos de dados de referência demonstram que nossa seleção adaptativa de modelos melhora significativamente a relação entre custo computacional e desempenho de segurança, superando as linhas de base relevantes.
A resolução de tarefas complexas de raciocínio pode envolver compreensão visual, recuperação de conhecimento de domínio, cálculos numéricos e raciocínio em múltiplas etapas. Os métodos existentes aumentam os grandes modelos de linguagem (LLMs) com ferramentas externas, mas são restritos a domínios especializados, tipos limitados de ferramentas ou exigem dados de treinamento adicionais. Neste artigo, apresentamos o OctoTools, um framework agente de código aberto, sem necessidade de treinamento, amigável ao usuário e facilmente extensível, projetado para lidar com raciocínios complexos em diversos domínios. O OctoTools introduz cartões de ferramentas padronizados para encapsular a funcionalidade das ferramentas, um planejador para planejamento de alto e baixo nível, e um executor para realizar o uso das ferramentas. Validamos a generalidade do OctoTools em 16 tarefas diversas (incluindo MathVista, MMLU-Pro, MedQA e GAIA-Text), alcançando ganhos médios substanciais de 9,3% em precisão sobre o GPT-4o. Além disso, o OctoTools supera o AutoGen, GPT-Functions e LangChain em até 10,6% quando fornecido com o mesmo conjunto de ferramentas. Através de análises e ablações abrangentes, o OctoTools demonstra vantagens no planejamento de tarefas, uso eficaz de ferramentas e resolução de problemas em múltiplas etapas.
Modelos de Linguagem de Grande Escala (LLMs) alcançam desempenho superior por meio de escalonamento durante o treinamento, e o escalonamento durante o teste aprimora ainda mais suas capacidades ao realizar raciocínio eficaz durante a inferência. No entanto, à medida que a escala do raciocínio aumenta, os métodos existentes de escalonamento durante o teste sofrem com o acúmulo de informações históricas, o que não apenas desperdiça recursos computacionais, mas também interfere no raciocínio eficaz. Para resolver esse problema, observamos que o progresso do raciocínio complexo é frequentemente alcançado pela resolução de uma sequência de subquestões independentes, cada uma sendo autossuficiente e verificável. Essas subquestões são essencialmente questões atômicas, dependendo principalmente de seu estado atual em vez do histórico acumulado, semelhante às transições sem memória em um processo de Markov. Com base nessa observação, propomos o Atom of Thoughts (AoT), onde cada transição de estado no processo de raciocínio consiste em decompor a questão atual em um grafo acíclico direcionado baseado em dependências e contrair suas subquestões, formando um novo estado de questão atômica. Esse processo iterativo de decomposição-contração continua até que se alcancem questões atômicas diretamente solucionáveis, realizando naturalmente transições de Markov entre estados de questões. Além disso, essas questões atômicas podem ser integradas de forma contínua aos métodos existentes de escalonamento durante o teste, permitindo que o AoT funcione como um aprimoramento plug-in para melhorar as capacidades de raciocínio. Experimentos em seis benchmarks demonstram a eficácia do AoT tanto como um framework independente quanto como um aprimoramento plug-in. Notavelmente, no HotpotQA, quando aplicado ao gpt-4o-mini, o AoT alcança um F1 score de 80,6%, superando o o3-mini em 3,4% e o DeepSeek-R1 em 10,6%. O código estará disponível em https://github.com/qixucen/atom.
Após o pré-treinamento em extensos pares de imagem-texto, o Contrastive Language-Image Pre-training (CLIP) demonstra desempenho promissor em uma ampla variedade de benchmarks. No entanto, um volume substancial de dados não pareados, como documentos intercalados multimodais, permanece subutilizado para o aprendizado de representações visão-linguagem. Para aproveitar plenamente esses documentos não pareados, inicialmente estabelecemos um pipeline de Extração de Dados do Mundo Real para extrair imagens e textos de alta qualidade. Em seguida, projetamos um método hierárquico de recuperação para associar eficientemente cada imagem a múltiplos textos realistas semanticamente relevantes. Para aprimorar ainda mais as informações visuais detalhadas, propomos um módulo de geração aumentada semântica de imagens para a produção de textos sintéticos. Além disso, empregamos uma estratégia de amostragem balanceada semanticamente para melhorar a diversidade do conjunto de dados, permitindo um melhor aprendizado de conceitos de cauda longa. Com base nessas inovações, construímos o RealSyn, um conjunto de dados que combina textos realistas e sintéticos, disponível em três escalas: 15M, 30M e 100M. Experimentos extensivos demonstram que o RealSyn avança efetivamente o aprendizado de representações visão-linguagem e exibe forte escalabilidade. Modelos pré-treinados no RealSyn alcançam desempenho de ponta em múltiplas tarefas downstream. Para facilitar pesquisas futuras, o conjunto de dados RealSyn e os pesos dos modelos pré-treinados são disponibilizados em https://github.com/deepglint/RealSyn.
O advento do dimensionamento em tempo de teste em modelos de linguagem de grande escala (LLMs), exemplificado pela série o1 da OpenAI, avançou as capacidades de raciocínio ao escalar a alocação de recursos computacionais durante a inferência. Embora sucessores como QwQ, Deepseek-R1 (R1) e LIMO repliquem esses avanços, a questão de se esses modelos realmente possuem capacidades de dimensionamento em tempo de teste permanece pouco explorada. Este estudo descobriu que Cadeias de Pensamento (CoTs) mais longas desses modelos semelhantes ao o1 não melhoram consistentemente a precisão; na verdade, as soluções corretas são frequentemente mais curtas do que as incorretas para as mesmas perguntas. Uma investigação mais aprofundada mostra que esse fenômeno está intimamente relacionado às capacidades de autorrevisão dos modelos - CoTs mais longas contêm mais autorrevisões, que frequentemente levam à degradação do desempenho. Em seguida, comparamos estratégias de dimensionamento sequencial e paralelo em QwQ, R1 e LIMO, descobrindo que o dimensionamento paralelo alcança melhor cobertura e escalabilidade. Com base nessas descobertas, propomos o Voto da Maioria Mais Curta, um método que combina estratégias de dimensionamento paralelo com características de comprimento de CoT, melhorando significativamente a escalabilidade em tempo de teste dos modelos em comparação com abordagens convencionais de votação majoritária.
Embora os Modelos de Linguagem de Grande Escala (LLMs) se adaptem bem a tarefas subsequentes após o ajuste fino, essa adaptabilidade frequentemente compromete a robustez dos prompts, já que até pequenas variações nos prompts podem degradar significativamente o desempenho. Para abordar esse problema, propomos o Ajuste Fino Independente de Prompt (Prompt-Agnostic Fine-Tuning - PAFT), uma abordagem simples, porém eficaz, que ajusta dinamicamente os prompts durante o ajuste fino. Isso incentiva o modelo a aprender os princípios subjacentes da tarefa, em vez de se ajustar excessivamente a formulações específicas de prompts. O PAFT opera em duas etapas: Primeiro, um conjunto diversificado de prompts candidatos sintéticos e significativos é construído. Segundo, durante o ajuste fino, os prompts são amostrados aleatoriamente desse conjunto para criar entradas de treinamento dinâmicas. Experimentos extensos em diversos conjuntos de dados e LLMs demonstram que os modelos treinados com PAFT exibem forte robustez e generalização em uma ampla gama de prompts, incluindo aqueles não vistos anteriormente. Essa robustez aprimorada melhora tanto o desempenho do modelo quanto a velocidade de inferência, mantendo a eficiência do treinamento. Estudos de ablação confirmam ainda mais a eficácia do PAFT.
Recentemente, tem crescido o interesse em aproveitar modelos de linguagem de grande escala (LLMs) para gerar modelos de mundo simbólicos a partir de descrições textuais. Embora os LLMs tenham sido amplamente explorados no contexto de modelagem de mundo, estudos anteriores enfrentaram diversos desafios, incluindo aleatoriedade na avaliação, dependência de métricas indiretas e um escopo de domínio limitado. Para abordar essas limitações, introduzimos um novo benchmark, o Text2World, baseado na linguagem de definição de domínio de planejamento (PDDL), que apresenta centenas de domínios diversos e emprega métricas de execução multicritério para uma avaliação mais robusta. Avaliamos os LLMs atuais usando o Text2World e descobrimos que modelos de raciocínio treinados com aprendizado por reforço em larga escala superam os demais. No entanto, mesmo o modelo de melhor desempenho ainda demonstra capacidades limitadas na modelagem de mundo. Com base nessas descobertas, examinamos várias estratégias promissoras para aprimorar as capacidades de modelagem de mundo dos LLMs, incluindo escalonamento em tempo de teste, treinamento de agentes e mais. Esperamos que o Text2World possa servir como um recurso crucial, estabelecendo as bases para pesquisas futuras sobre o uso de LLMs como modelos de mundo. A página do projeto está disponível em https://text-to-world.github.io/.
Modelos de linguagem de grande escala (LLMs) baseados em Transformers demonstram desempenho impressionante na geração de contextos longos. A extensão do comprimento do contexto deslocou desproporcionalmente a pegada de memória dos LLMs durante a inferência para o cache de chave-valor (KV cache). Neste artigo, propomos o HEADINFER, que transfere o KV cache para a memória RAM da CPU, evitando a necessidade de armazenar completamente o KV cache para qualquer camada do Transformer na GPU. O HEADINFER emprega uma estratégia de transferência granular e orientada por cabeças, mantendo apenas o cache KV de cabeças de atenção seletivas na GPU enquanto calcula dinamicamente a saída de atenção. Através da análise de roofline, demonstramos que o HEADINFER mantém a eficiência computacional enquanto reduz significativamente a pegada de memória. Avaliamos o HEADINFER no modelo Llama-3-8B com uma sequência de 1 milhão de tokens, reduzindo a pegada de memória da GPU do KV cache de 128 GB para 1 GB e o uso total de memória da GPU de 207 GB para 17 GB, alcançando uma redução de 92% em comparação com a inferência de linha de base BF16. Notavelmente, o HEADINFER permite a inferência de 4 milhões de tokens com um modelo de 8B em uma única GPU de consumo com 24GB de memória (por exemplo, NVIDIA RTX 4090) sem métodos de aproximação.
Propomos as conexões MUltiway Dynamic Dense (MUDD), um método simples, porém eficaz, para abordar as limitações das conexões residuais e melhorar o fluxo de informações entre camadas em Transformers. Diferente das abordagens existentes de conexões densas com pesos de conexão estáticos e compartilhados, o MUDD gera pesos de conexão dinamicamente, dependendo dos estados ocultos em cada posição da sequência e para cada fluxo de entrada desacoplado (a consulta, chave, valor ou residual) de um bloco Transformer. As conexões MUDD podem ser integradas de forma contínua em qualquer arquitetura Transformer para criar o MUDDFormer. Experimentos extensivos mostram que o MUDDFormer supera significativamente os Transformers em várias arquiteturas e escalas de modelos na modelagem de linguagem, alcançando o desempenho de Transformers treinados com 1,8X-2,4X de computação. Notavelmente, o MUDDPythia-2.8B iguala o Pythia-6.9B em perplexidade (ppl) de pré-treinamento e tarefas subsequentes e até rivaliza com o Pythia-12B em configurações de cinco exemplos, enquanto adiciona apenas 0,23% de parâmetros e 0,4% de computação. Códigos em JAX e PyTorch e modelos pré-treinados estão disponíveis em https://github.com/Caiyun-AI/MUDDFormer.
A melhoria da arquitetura de rede do framework YOLO tem sido crucial por muito tempo, mas tem se concentrado em aprimoramentos baseados em CNN, apesar da superioridade comprovada dos mecanismos de atenção em termos de capacidade de modelagem. Isso ocorre porque modelos baseados em atenção não conseguem igualar a velocidade dos modelos baseados em CNN. Este artigo propõe um framework YOLO centrado em atenção, denominado YOLOv12, que iguala a velocidade dos modelos anteriores baseados em CNN, ao mesmo tempo em que aproveita os benefícios de desempenho dos mecanismos de atenção. O YOLOv12 supera todos os detectores de objetos em tempo real populares em precisão, com velocidade competitiva. Por exemplo, o YOLOv12-N alcança 40,6% de mAP com uma latência de inferência de 1,64 ms em uma GPU T4, superando os avançados YOLOv10-N / YOLOv11-N em 2,1%/1,2% de mAP com uma velocidade comparável. Essa vantagem se estende a outras escalas de modelo. O YOLOv12 também supera detectores em tempo real de ponta a ponta que aprimoram o DETR, como o RT-DETR / RT-DETRv2: o YOLOv12-S supera o RT-DETR-R18 / RT-DETRv2-R18 enquanto executa 42% mais rápido, utilizando apenas 36% da computação e 45% dos parâmetros. Mais comparações são mostradas na Figura 1.
Apresentamos o HealthGPT, um poderoso Modelo Médico de Grande Escala Visão-Linguagem (Med-LVLM) que integra capacidades de compreensão e geração visual médica dentro de um paradigma autogerativo unificado. Nossa filosofia de inicialização é adaptar progressivamente conhecimentos heterogêneos de compreensão e geração a modelos de linguagem de grande escala (LLMs) pré-treinados. Isso é alcançado por meio de uma nova técnica de adaptação heterogênea de baixo posto (H-LoRA), complementada por uma abordagem hierárquica de percepção visual personalizada e uma estratégia de aprendizado em três estágios. Para efetivamente treinar o HealthGPT, desenvolvemos um conjunto de dados abrangente específico do domínio médico para compreensão e geração, chamado VL-Health. Os resultados experimentais demonstram um desempenho excepcional e escalabilidade do HealthGPT em tarefas unificadas de visão médica. Nosso projeto pode ser acessado em https://github.com/DCDmllm/HealthGPT.
Métodos de otimização distribuída, como o DiLoCo, demonstraram ser eficazes no treinamento de modelos muito grandes em múltiplos trabalhadores distribuídos, como datacenters. Esses métodos dividem as atualizações em duas partes: uma fase de otimização interna, na qual os trabalhadores executam de forma independente múltiplos passos de otimização em seus próprios dados locais, e um passo de otimização externa, no qual as atualizações internas são sincronizadas. Embora essas abordagens exijam ordens de magnitude menos comunicação do que o treinamento paralelo de dados padrão, em cenários onde os trabalhadores são datacenters, mesmo os requisitos limitados de comunicação dessas abordagens ainda podem causar atrasos significativos devido ao bloqueio necessário em cada passo de otimização externa. Neste artigo, investigamos técnicas para mitigar esse problema sobrepondo a comunicação com a computação de uma maneira que permite que o passo de otimização externa se sobreponha completamente à fase de otimização interna. Mostramos que uma variante específica, denominada atualizações ávidas, oferece desempenho competitivo com o DiLoCo padrão em cenários com baixa largura de banda entre os trabalhadores.
Apresentamos uma nova abordagem de raciocínio chamada Fluxo-de-Opções (Flow-of-Options, FoO), projetada para abordar vieses intrínsecos em Modelos de Linguagem de Grande Escala (LLMs). O FoO permite que os LLMs explorem sistematicamente uma ampla gama de possibilidades em seu raciocínio, conforme demonstrado por um sistema agente baseado em FoO para resolver autonomamente tarefas de Aprendizado de Máquina (AutoML). Nosso framework supera os baselines state-of-the-art, alcançando melhorias de 38,2% a 69,2% em tarefas padrão de ciência de dados e de 37,4% a 47,9% em tarefas de química terapêutica. Com um custo operacional total inferior a US$ 1 por tarefa, nosso framework é bem adequado para aplicações sensíveis a custos. Além de classificação e regressão, ilustramos a aplicabilidade mais ampla do nosso sistema agente baseado em FoO para tarefas como aprendizado por reforço e geração de imagens. Nosso framework apresenta avanços significativos em comparação com os sistemas agentes state-of-the-art atuais para AutoML, graças aos benefícios do FoO em impor diversidade nas soluções dos LLMs por meio de representações compactas e explicáveis que também suportam memória de longo prazo quando combinadas com raciocínio baseado em casos.
O rápido desenvolvimento de grandes modelos de raciocínio, como o OpenAI-o3 e o DeepSeek-R1, tem levado a melhorias significativas no raciocínio complexo em comparação com grandes modelos de linguagem (LLMs) que não são voltados para raciocínio. No entanto, suas capacidades aprimoradas, combinadas com o acesso de código aberto de modelos como o DeepSeek-R1, levantam sérias preocupações de segurança, especialmente em relação ao seu potencial de uso indevido. Neste trabalho, apresentamos uma avaliação abrangente de segurança desses modelos de raciocínio, utilizando benchmarks de segurança estabelecidos para avaliar sua conformidade com regulamentações de segurança. Além disso, investigamos sua suscetibilidade a ataques adversariais, como jailbreaking e injeção de prompts, para avaliar sua robustez em aplicações do mundo real. Por meio de nossa análise multifacetada, descobrimos quatro principais conclusões: (1) Há uma lacuna significativa de segurança entre os modelos R1 de código aberto e o modelo o3-mini, tanto em benchmarks de segurança quanto em ataques, sugerindo que mais esforços de segurança são necessários no R1. (2) O modelo de raciocínio destilado apresenta desempenho de segurança inferior em comparação com seus modelos base alinhados com segurança. (3) Quanto mais forte a capacidade de raciocínio do modelo, maior o potencial de dano que ele pode causar ao responder a perguntas inseguras. (4) O processo de pensamento nos modelos R1 apresenta preocupações de segurança maiores do que suas respostas finais. Nosso estudo fornece insights sobre as implicações de segurança dos modelos de raciocínio e destaca a necessidade de avanços adicionais na segurança dos modelos R1 para reduzir essa lacuna.
Modelos de base pré-treinados em grandes conjuntos de dados não rotulados revolucionaram o processamento de linguagem natural e a visão computacional, exibindo capacidades notáveis de generalização, destacando assim a importância do pré-treinamento. No entanto, os esforços na área de robótica têm enfrentado dificuldades para alcançar sucesso semelhante, limitados pela necessidade de anotações robóticas custosas ou pela falta de representações que modelam efetivamente o mundo físico. Neste artigo, apresentamos o ARM4R, um Modelo Robótico Auto-regressivo que aproveita representações 4D de baixo nível aprendidas a partir de dados de vídeos humanos para produzir um modelo robótico pré-treinado mais eficaz. Especificamente, focamos na utilização de representações de rastreamento de pontos 3D a partir de vídeos, obtidas ao elevar representações 2D para o espaço 3D por meio de estimativa de profundidade monocular ao longo do tempo. Essas representações 4D mantêm uma estrutura geométrica compartilhada entre os pontos e as representações do estado do robô, até uma transformação linear, permitindo uma transferência eficiente de aprendizado de dados de vídeos humanos para o controle de baixo nível em robótica. Nossos experimentos mostram que o ARM4R pode transferir conhecimento de forma eficiente a partir de vídeos humanos para a robótica e melhora consistentemente o desempenho em tarefas em diversos ambientes e configurações robóticas.
O LLM-as-a-Judge, que gera julgamentos em cadeia de pensamento (CoT), tornou-se um método de avaliação automática amplamente adotado. No entanto, sua confiabilidade é comprometida pela incapacidade do raciocínio CoT de capturar detalhes abrangentes e mais profundos, frequentemente resultando em conclusões incompletas. Os métodos existentes dependem principalmente de votação majoritária ou expansão de critérios, o que é insuficiente para superar a limitação do CoT. Propomos a Avaliação Comparativa Baseada em Multidão, que introduz respostas adicionais da multidão para comparar com as respostas candidatas, expondo assim detalhes mais profundos e abrangentes nas respostas candidatas. Esse processo orienta efetivamente o LLM-as-a-Judge a fornecer um julgamento CoT mais detalhado. Experimentos extensivos demonstram que nossa abordagem aumenta a confiabilidade da avaliação, alcançando um ganho médio de precisão de 6,7% em cinco benchmarks. Além disso, nosso método produz CoTs de maior qualidade que facilitam a destilação de julgamentos e exibem desempenho superior na amostragem de rejeição para ajuste fino supervisionado (SFT), denominada amostragem de rejeição por multidão, permitindo assim um SFT mais eficiente. Nossa análise confirma que os CoTs gerados por nosso método são mais abrangentes e de maior qualidade, e a precisão da avaliação melhora conforme as escalas de inferência aumentam.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sucesso notável em várias tarefas, como compreensão de linguagem natural, sumarização de texto e tradução automática. No entanto, sua natureza de propósito geral frequentemente limita sua eficácia em aplicações específicas de domínio que exigem conhecimento especializado, como saúde, química ou análise jurídica. Para abordar isso, pesquisadores exploraram diversos métodos para aprimorar LLMs através da integração de conhecimento específico de domínio. Nesta revisão, fornecemos uma visão abrangente desses métodos, que categorizamos em quatro abordagens principais: injeção dinâmica de conhecimento, incorporação estática de conhecimento, adaptadores modulares e otimização de prompts. Cada abordagem oferece mecanismos únicos para equipar LLMs com expertise de domínio, equilibrando trade-offs entre flexibilidade, escalabilidade e eficiência. Discutimos como esses métodos permitem que LLMs lidem com tarefas especializadas, comparamos suas vantagens e desvantagens, avaliamos LLMs específicos de domínio em relação a LLMs gerais e destacamos os desafios e oportunidades neste campo emergente. Para aqueles interessados em se aprofundar nessa área, também resumimos os conjuntos de dados e benchmarks comumente utilizados. Para manter os pesquisadores atualizados sobre os estudos mais recentes, mantemos um repositório de código aberto em: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, dedicado a documentar pesquisas no campo de LLMs especializados.
Modelos de embedding desempenham um papel crucial na representação e recuperação de informações em diversas aplicações de PLN. Avanços recentes em modelos de linguagem de grande escala (LLMs) aprimoraram ainda mais o desempenho dos modelos de embedding. Embora esses modelos sejam frequentemente avaliados em conjuntos de dados de propósito geral, aplicações do mundo real exigem avaliações específicas de domínio. Neste trabalho, apresentamos o Finance Massive Text Embedding Benchmark (FinMTEB), uma contraparte especializada do MTEB projetada para o domínio financeiro. O FinMTEB compreende 64 conjuntos de dados de embedding específicos do domínio financeiro, abrangendo 7 tarefas que cobrem diversos tipos textuais em chinês e inglês, como artigos de notícias financeiras, relatórios anuais corporativos, relatórios ESG, arquivamentos regulatórios e transcrições de teleconferências de resultados. Também desenvolvemos um modelo adaptado ao setor financeiro, o FinPersona-E5, utilizando um método sintético de dados baseado em personas para cobrir diversas tarefas de embedding financeiro para treinamento. Por meio de uma avaliação extensa de 15 modelos de embedding, incluindo o FinPersona-E5, demonstramos três descobertas principais: (1) o desempenho em benchmarks de propósito geral mostra uma correlação limitada com tarefas do domínio financeiro; (2) modelos adaptados ao domínio superam consistentemente suas contrapartes de propósito geral; e (3) surpreendentemente, uma abordagem simples de Bag-of-Words (BoW) supera embeddings densos sofisticados em tarefas de Similaridade Semântica Textual (STS) no setor financeiro, destacando limitações atuais nas técnicas de embedding denso. Nosso trabalho estabelece uma estrutura robusta de avaliação para aplicações de PLN no setor financeiro e fornece insights cruciais para o desenvolvimento de modelos de embedding específicos de domínio.
O rápido avanço das células solares de perovskita (PSCs) levou a um crescimento exponencial nas publicações de pesquisa, criando uma necessidade urgente de sistemas eficientes de gestão do conhecimento e raciocínio nesse domínio. Apresentamos um sistema abrangente de conhecimento aprimorado para PSCs que integra três componentes principais. Primeiro, desenvolvemos o Perovskite-KG, um grafo de conhecimento específico do domínio construído a partir de 1.517 artigos de pesquisa, contendo 23.789 entidades e 22.272 relações. Segundo, criamos dois conjuntos de dados complementares: o Perovskite-Chat, composto por 55.101 pares de perguntas e respostas de alta qualidade gerados por meio de uma nova estrutura multiagente, e o Perovskite-Reasoning, contendo 2.217 problemas de ciência dos materiais cuidadosamente curados. Terceiro, introduzimos dois modelos de linguagem especializados: o Perovskite-Chat-LLM para assistência de conhecimento específico do domínio e o Perovskite-Reasoning-LLM para tarefas de raciocínio científico. Os resultados experimentais demonstram que nosso sistema supera significativamente os modelos existentes tanto em tarefas de recuperação de conhecimento específico do domínio quanto em tarefas de raciocínio científico, fornecendo aos pesquisadores ferramentas eficazes para revisão de literatura, design experimental e resolução de problemas complexos na pesquisa de PSCs.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em uma variedade de tarefas de geração de texto. No entanto, os LLMs ainda enfrentam dificuldades com problemas que exigem tomada de decisão em múltiplas etapas e feedback ambiental, como compras online, raciocínio científico e resolução de problemas matemáticos. Diferentemente de dados puramente textuais, a coleta de dados em larga escala para tomada de decisão é desafiadora. Além disso, muitos LLMs poderosos são acessíveis apenas por meio de APIs, o que dificulta seu ajuste fino para tarefas de agentes devido a custos e complexidade. Para abordar as limitações dos agentes baseados em LLMs, propomos um framework que pode aprender automaticamente um modelo de recompensa a partir do ambiente sem anotações humanas. Esse modelo pode ser usado para avaliar as trajetórias de ação dos agentes LLMs e fornecer heurísticas para o planejamento de tarefas. Especificamente, nossa abordagem envolve empregar um agente baseado em LLM para navegar aleatoriamente em um ambiente, gerando diversas trajetórias de ação. Posteriormente, um LLM separado é utilizado para atribuir uma intenção de tarefa e sintetizar uma resposta negativa juntamente com a resposta correta para cada trajetória. Esses triplos (intenção de tarefa, resposta positiva e resposta negativa) são então utilizados como dados de treinamento para otimizar um modelo de recompensa capaz de pontuar trajetórias de ação. A eficácia e a generalizabilidade do nosso framework são demonstradas por meio de avaliações realizadas em diferentes benchmarks de agentes. Em conclusão, o framework proposto representa um avanço significativo na melhoria das capacidades de tomada de decisão dos agentes LLMs. Ao automatizar a aprendizagem de modelos de recompensa, superamos os desafios de escassez de dados e limitações de APIs, potencialmente revolucionando a aplicação de LLMs em ambientes complexos e interativos. Esta pesquisa abre caminho para agentes de IA mais sofisticados, capazes de enfrentar uma ampla gama de problemas do mundo real que exigem tomada de decisão em múltiplas etapas.
Embora modelos de linguagem multilíngues como o XLM-R tenham avançado o multilinguismo em PLN, eles ainda apresentam desempenho insatisfatório em idiomas extremamente de baixos recursos. Essa situação é agravada pelo fato de que modelos de linguagem modernos, como LLaMA e Qwen, suportam muito menos idiomas do que o XLM-R, tornando os modelos de geração de texto inexistentes para muitas línguas ao redor do mundo. Para enfrentar esse desafio, propomos uma nova estrutura para adaptar codificadores multilíngues à geração de texto em idiomas extremamente de baixos recursos. Ao reutilizar os pesos entre o codificador e o decodificador, nossa estrutura permite que o modelo aproveite o espaço semântico aprendido pelo codificador, possibilitando aprendizado eficiente e generalização eficaz em idiomas de baixos recursos. Aplicando essa estrutura a quatro línguas minoritárias chinesas, apresentamos o XLM-SWCM e demonstramos seu desempenho superior em várias tarefas subsequentes, mesmo quando comparado a modelos muito maiores.
A análise de séries temporais tem testemunhado um desenvolvimento inspirador, desde modelos tradicionais autorregressivos e modelos de aprendizado profundo até os recentes Transformers e Modelos de Linguagem de Grande Escala (LLMs). Esforços para aproveitar modelos de visão na análise de séries temporais também foram realizados ao longo do caminho, mas são menos visíveis para a comunidade devido à predominância de pesquisas sobre modelagem de sequências nesse domínio. No entanto, a discrepância entre séries temporais contínuas e o espaço discreto de tokens dos LLMs, juntamente com os desafios na modelagem explícita das correlações entre variáveis em séries temporais multivariadas, têm desviado parte da atenção da pesquisa para os igualmente bem-sucedidos Modelos de Visão de Grande Escala (LVMs) e Modelos de Visão e Linguagem (VLMs). Para preencher a lacuna na literatura existente, esta pesquisa discute as vantagens dos modelos de visão sobre os LLMs na análise de séries temporais. Ela oferece uma visão abrangente e detalhada dos métodos existentes, com uma dupla perspectiva de taxonomia que responde às principais questões de pesquisa, incluindo como codificar séries temporais como imagens e como modelar as séries temporais imagetizadas para diversas tarefas. Além disso, abordamos os desafios nas etapas de pré e pós-processamento envolvidas nesse framework e delineamos direções futuras para avançar ainda mais a análise de séries temporais com modelos de visão.