Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o MiniMax-M1, o primeiro modelo de raciocínio em larga escala com atenção híbrida e pesos abertos do mundo. O MiniMax-M1 é impulsionado por uma arquitetura híbrida de Mixture-of-Experts (MoE) combinada com um mecanismo de atenção relâmpago. O modelo foi desenvolvido com base em nosso modelo anterior, o MiniMax-Text-01, que contém um total de 456 bilhões de parâmetros, com 45,9 bilhões de parâmetros ativados por token. O modelo M1 suporta nativamente um comprimento de contexto de 1 milhão de tokens, 8 vezes o tamanho do contexto do DeepSeek R1. Além disso, o mecanismo de atenção relâmpago no MiniMax-M1 permite uma escalabilidade eficiente do cálculo em tempo de teste. Essas propriedades tornam o M1 particularmente adequado para tarefas complexas que exigem o processamento de entradas longas e um raciocínio extensivo. O MiniMax-M1 foi treinado usando aprendizado por reforço (RL) em larga escala em diversos problemas, incluindo ambientes de engenharia de software baseados em sandbox e do mundo real. Além da vantagem de eficiência inerente do M1 para o treinamento de RL, propomos o CISPO, um novo algoritmo de RL para aprimorar ainda mais a eficiência do RL. O CISPO recorta os pesos de amostragem de importância em vez de atualizações de tokens, superando outras variantes competitivas de RL. A combinação de atenção híbrida e CISPO permite que o treinamento completo de RL do MiniMax-M1 em 512 GPUs H800 seja concluído em apenas três semanas, com um custo de aluguel de apenas $534.700. Lançamos duas versões dos modelos MiniMax-M1 com orçamentos de raciocínio de 40K e 80K, respectivamente, onde o modelo de 40K representa uma fase intermediária do treinamento de 80K. Experimentos em benchmarks padrão mostram que nossos modelos são comparáveis ou superiores a modelos de pesos abertos robustos, como o DeepSeek-R1 original e o Qwen3-235B, com destaque em engenharia de software complexa, utilização de ferramentas e tarefas de contexto longo. Disponibilizamos publicamente o MiniMax-M1 em https://github.com/MiniMax-AI/MiniMax-M1.
As descobertas científicas estão cada vez mais dependentes de raciocínio multimodal complexo, baseado em dados científicos intensivos em informação e expertise específica de domínio. Potencializados por benchmarks científicos de nível especialista, os Modelos de Linguagem Multimodal Científicos (MLLMs) têm o potencial de aprimorar significativamente esse processo de descoberta em fluxos de trabalho realistas. No entanto, os benchmarks científicos atuais concentram-se principalmente em avaliar as capacidades de compreensão de conhecimento dos MLLMs, resultando em uma avaliação inadequada de suas habilidades de percepção e raciocínio. Para abordar essa lacuna, apresentamos o benchmark Scientists' First Exam (SFE), projetado para avaliar as capacidades cognitivas científicas dos MLLMs por meio de três níveis interconectados: percepção de sinais científicos, compreensão de atributos científicos e raciocínio comparativo científico. Especificamente, o SFE compreende 830 pares de perguntas e respostas (VQA) verificados por especialistas, abrangendo três tipos de questões e 66 tarefas multimodais em cinco disciplinas de alto valor. Experimentos extensivos revelam que os modelos state-of-the-art atuais, GPT-3 e InternVL-3, atingem apenas 34,08% e 26,52% no SFE, destacando um espaço significativo para melhoria dos MLLMs em domínios científicos. Esperamos que os insights obtidos no SFE facilitem avanços adicionais em descobertas científicas aprimoradas por IA.
Os Agentes de Pesquisa Profunda (Deep Research Agents - DRAs) são uma categoria proeminente de agentes baseados em LLM (Large Language Models). Ao orquestrar de forma autônoma a exploração multietapas na web, a recuperação direcionada e a síntese de ordem superior, eles transformam grandes quantidades de informações online em relatórios analíticos de alto nível, ricos em citações—comprimindo horas de pesquisa manual em minutos. No entanto, ainda falta um benchmark abrangente para avaliar sistematicamente as capacidades desses agentes. Para preencher essa lacuna, apresentamos o DeepResearch Bench, um benchmark composto por 100 tarefas de pesquisa em nível de doutorado, cada uma meticulosamente elaborada por especialistas em 22 áreas distintas. A avaliação de DRAs é inerentemente complexa e trabalhosa. Portanto, propomos duas metodologias inovadoras que alcançam uma forte alinhamento com o julgamento humano. A primeira é um método baseado em referência com critérios adaptativos para avaliar a qualidade dos relatórios de pesquisa gerados. O outro framework é introduzido para avaliar as capacidades de recuperação e coleta de informações do DRA, medindo sua contagem efetiva de citações e a precisão geral das citações. Disponibilizamos o DeepResearch Bench e componentes-chave desses frameworks em código aberto no endereço https://github.com/Ayanami0730/deep_research_bench para acelerar o desenvolvimento de agentes práticos baseados em LLM.
Neste artigo, apresentamos o DoTA-RAG (Dynamic-of-Thought Aggregation RAG), um sistema de geração aumentada por recuperação otimizado para índices de conhecimento em larga escala e alta taxa de transferência. Os pipelines tradicionais de RAG frequentemente enfrentam problemas de alta latência e precisão limitada em conjuntos de dados massivos e diversos. O DoTA-RAG aborda esses desafios com um pipeline de três estágios: reescrita de consultas, roteamento dinâmico para sub-índices especializados e recuperação e classificação em múltiplos estágios. Além disso, aprimoramos a recuperação ao avaliar e selecionar um modelo de embedding superior, re-embeddando o grande corpus FineWeb-10BT. Adicionalmente, criamos um conjunto de dados diversificado de perguntas e respostas com 500 questões geradas por meio da configuração DataMorgana, abrangendo uma ampla gama de tópicos e formatos do WebOrganizer. O DoTA-RAG melhora a pontuação de correção das respostas de 0,752 (baseline, usando o armazenamento de vetores pré-construído do LiveRAG) para 1,478, mantendo uma baixa latência, e alcança uma pontuação de correção de 0,929 no Live Challenge Day. Esses resultados destacam o potencial do DoTA-RAG para implantação prática em domínios que exigem acesso rápido e confiável a grandes e dinâmicas fontes de conhecimento.
Avanços recentes em modelos de raciocínio em grande escala têm permitido raciocínios complexos e passo a passo, mas frequentemente introduzem um excesso de pensamento, resultando em saídas verbosas e redundantes que prejudicam a eficiência. Neste estudo, examinamos se a autorreflexão explícita, sinalizada por tokens como "Espere" e "Hmm", é necessária para o raciocínio avançado. Propomos o NoWait, uma abordagem simples, porém eficaz, que desativa a autorreflexão explícita ao suprimir esses tokens durante a inferência. Experimentos extensos em dez benchmarks abrangendo tarefas de raciocínio textual, visual e em vídeo mostram que o NoWait reduz o comprimento da trajetória de cadeia de pensamento em até 27%-51% em cinco séries de modelos no estilo R1, sem comprometer a utilidade do modelo. Assim, o NoWait oferece uma solução plug-and-play para raciocínio multimodal eficiente e que preserva a utilidade.
Apresentamos o TransDiff, o primeiro modelo de geração de imagens que combina Transformers Autoregressivos (AR) com modelos de difusão. Neste framework de modelagem conjunta, o TransDiff codifica rótulos e imagens em características semânticas de alto nível e emprega um modelo de difusão para estimar a distribuição das amostras de imagem. No benchmark ImageNet 256x256, o TransDiff supera significativamente outros modelos de geração de imagens baseados em Transformers AR ou modelos de difusão isolados. Especificamente, o TransDiff alcança uma Distância de Fréchet Inception (FID) de 1,61 e um Inception Score (IS) de 293,4, além de oferecer uma latência de inferência 2x mais rápida em comparação com os métodos state-of-the-art baseados em Transformers AR e 112x mais rápida em relação aos modelos exclusivamente de difusão. Além disso, com base no modelo TransDiff, introduzimos um novo paradigma de geração de imagens chamado Autoregressão Multi-Referência (MRAR), que realiza a geração autoregressiva prevendo a próxima imagem. O MRAR permite que o modelo faça referência a múltiplas imagens previamente geradas, facilitando assim a aprendizagem de representações mais diversas e melhorando a qualidade das imagens geradas em iterações subsequentes. Ao aplicar o MRAR, o desempenho do TransDiff é aprimorado, com o FID reduzido de 1,61 para 1,42. Esperamos que o TransDiff abra uma nova fronteira no campo de geração de imagens.
Apresentamos o Ego-R1, uma nova estrutura para raciocínio sobre vídeos egocêntricos ultra-longos (ou seja, de dias e semanas), que utiliza um processo estruturado de Cadeia de Pensamento com Ferramentas (Chain-of-Tool-Thought, CoTT), orquestrado por um Agente Ego-R1 treinado via aprendizado por reforço (RL). Inspirado por estratégias humanas de resolução de problemas, o CoTT decompõe o raciocínio complexo em etapas modulares, com o agente RL invocando ferramentas específicas, uma por etapa, para responder iterativa e colaborativamente a subquestões que abordam tarefas como recuperação temporal e compreensão multimodal. Projetamos um paradigma de treinamento em duas etapas, envolvendo ajuste fino supervisionado (SFT) de um modelo de linguagem pré-treinado usando dados CoTT e RL, para capacitar nosso agente a propor dinamicamente ferramentas passo a passo para raciocínio de longo alcance. Para facilitar o treinamento, construímos um conjunto de dados chamado Ego-R1 Data, que consiste em Ego-CoTT-25K para SFT e Ego-QA-4.4K para RL. Além disso, nosso agente Ego-R1 é avaliado em um novo benchmark de QA (Question-Answering) de vídeos de uma semana, o Ego-R1 Bench, que contém pares QA verificados por humanos de fontes híbridas. Resultados extensivos demonstram que o raciocínio dinâmico e aumentado por ferramentas da Cadeia de Pensamento realizado pelo nosso Agente Ego-R1 pode efetivamente enfrentar os desafios únicos de compreensão de vídeos egocêntricos ultra-longos, estendendo significativamente a cobertura temporal de algumas horas para uma semana.
Os dados desempenham o papel mais proeminente na forma como os modelos de linguagem adquirem habilidades e conhecimento. A falta de conjuntos de dados massivos e bem organizados para pré-treinamento resulta em pipelines de dados custosos e inacessíveis. Apresentamos o Essential-Web v1.0, um conjunto de dados de 24 trilhões de tokens no qual cada documento é anotado com uma taxonomia de doze categorias que abrange tópico, formato, complexidade do conteúdo e qualidade. As etiquetas da taxonomia são produzidas pelo EAI-Distill-0.5b, um modelo ajustado com 0,5 bilhão de parâmetros que alcança uma concordância entre anotadores dentro de 3% do Qwen2.5-32B-Instruct. Com nada mais do que filtros no estilo SQL, obtemos conjuntos de dados competitivos curados da web em matemática (-8,0% em relação ao estado da arte), código web (+14,3%), STEM (+24,5%) e medicina (+8,6%). O Essential-Web v1.0 está disponível no HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
Neste trabalho, apresentamos uma revisão sistemática dos Modelos de Linguagem de Difusão Discreta (dLLMs) e dos Modelos de Linguagem Multimodal de Difusão Discreta (dMLLMs). Diferentemente dos modelos autoregressivos (AR), os dLLMs e dMLLMs adotam um paradigma de decodificação paralela de múltiplos tokens, utilizando atenção completa e uma estratégia de geração baseada em remoção de ruído. Esse paradigma permite naturalmente a geração paralela, a controlabilidade refinada da saída e a percepção dinâmica e consciente da resposta. Essas capacidades eram anteriormente difíceis de alcançar com modelos AR. Recentemente, um número crescente de d(M)LLMs proprietários em escala industrial, bem como uma grande quantidade de d(M)LLMs acadêmicos de código aberto, demonstraram desempenho comparável aos seus equivalentes autoregressivos, enquanto alcançam uma aceleração de até 10x na velocidade de inferência. O avanço dos dLLMs e dMLLMs de difusão discreta tem sido impulsionado principalmente pelo progresso em dois domínios. O primeiro é o desenvolvimento de dLLMs e dMLLMs autoregressivos, que acumularam grandes quantidades de dados, benchmarks e infraestrutura fundamental para treinamento e inferência. O segundo domínio contribuinte é a evolução dos modelos matemáticos subjacentes à difusão discreta. Juntos, esses avanços catalisaram um aumento na pesquisa de dLLMs e dMLLMs no início de 2025. Neste trabalho, apresentamos uma visão abrangente da pesquisa nos domínios de dLLM e dMLLM. Traçamos o desenvolvimento histórico dos dLLMs e dMLLMs, formalizamos os frameworks matemáticos subjacentes e categorizamos os modelos representativos. Além disso, analisamos as técnicas-chave para treinamento e inferência e resumimos as aplicações emergentes em domínios de linguagem, visão-linguagem e biologia. Concluímos discutindo direções futuras para pesquisa e implantação. Coleção de artigos: https://github.com/LiQiiiii/DLLM-Survey
Tarefas agentes, que exigem resolução de problemas em múltiplos passos com autonomia, uso de ferramentas e raciocínio adaptativo, estão se tornando cada vez mais centrais para o avanço do PLN e da IA. No entanto, os dados de instrução existentes carecem de interação com ferramentas, e os benchmarks atuais para agentes dependem de anotação humana custosa, limitando sua escalabilidade. Apresentamos o TaskCraft, um fluxo de trabalho automatizado para gerar tarefas agentes escaláveis em dificuldade, com múltiplas ferramentas e verificáveis, incluindo trajetórias de execução. O TaskCraft expande tarefas atômicas usando extensões baseadas em profundidade e largura para criar desafios estrutural e hierarquicamente complexos. Resultados empíricos mostram que essas tarefas melhoram a otimização de prompts no fluxo de geração e aprimoram o ajuste fino supervisionado de modelos base agentes. Apresentamos um conjunto de dados sintético em larga escala com aproximadamente 36.000 tarefas de dificuldade variável para apoiar pesquisas futuras sobre ajuste e avaliação de agentes.
Apresentamos o Autoregressive Retrieval Augmentation (AR-RAG), um novo paradigma que aprimora a geração de imagens ao incorporar autoregressivamente recuperações de k-vizinhos mais próximos no nível de patches. Diferente de métodos anteriores que realizam uma única recuperação estática antes da geração e condicionam toda a geração em imagens de referência fixas, o AR-RAG realiza recuperações contextualmente conscientes em cada etapa de geração, utilizando patches previamente gerados como consultas para recuperar e incorporar as referências visuais mais relevantes no nível de patches, permitindo que o modelo responda às necessidades evolutivas da geração enquanto evita limitações (por exemplo, cópia excessiva, viés estilístico, etc.) prevalecentes em métodos existentes. Para realizar o AR-RAG, propomos dois frameworks paralelos: (1) Distribution-Augmentation in Decoding (DAiD), uma estratégia de decodificação plug-and-play sem treinamento que mescla diretamente a distribuição de patches previstos pelo modelo com a distribuição de patches recuperados, e (2) Feature-Augmentation in Decoding (FAiD), um método de ajuste fino eficiente em parâmetros que suaviza progressivamente as características dos patches recuperados por meio de operações de convolução multi-escala e as utiliza para aprimorar o processo de geração de imagens. Validamos a eficácia do AR-RAG em benchmarks amplamente adotados, incluindo Midjourney-30K, GenEval e DPG-Bench, demonstrando ganhos significativos de desempenho em relação aos modelos de geração de imagens state-of-the-art.
Métodos de correspondência densa, como o DUSt3R, regridem mapas de pontos pareados para reconstrução 3D. No entanto, a dependência da previsão pareada e a capacidade limitada de generalização restringem inerentemente a consistência geométrica global. Neste trabalho, apresentamos o Test3R, uma técnica de aprendizado em tempo de teste surpreendentemente simples que aumenta significativamente a precisão geométrica. Utilizando trios de imagens (I_1, I_2, I_3), o Test3R gera reconstruções a partir dos pares (I_1, I_2) e (I_1, I_3). A ideia central é otimizar a rede em tempo de teste por meio de um objetivo auto-supervisionado: maximizar a consistência geométrica entre essas duas reconstruções em relação à imagem comum I_1. Isso garante que o modelo produza saídas consistentes entre pares, independentemente das entradas. Experimentos extensivos demonstram que nossa técnica supera significativamente os métodos state-of-the-art anteriores nas tarefas de reconstrução 3D e estimativa de profundidade multi-visão. Além disso, ela é universalmente aplicável e praticamente sem custo, tornando-a facilmente aplicável a outros modelos e implementável com um mínimo de sobrecarga de treinamento em tempo de teste e pegada de parâmetros. O código está disponível em https://github.com/nopQAQ/Test3R.
Neste trabalho, investigamos a sinergia entre o ajuste fino supervisionado (SFT) e o aprendizado por reforço (RL) no desenvolvimento de modelos robustos de raciocínio. Começamos selecionando os dados de treinamento para SFT por meio de duas estratégias de escalonamento: aumentar o número de prompts coletados e o número de respostas geradas por prompt. Ambas as abordagens resultam em melhorias notáveis no desempenho de raciocínio, com o escalonamento do número de prompts proporcionando ganhos mais substanciais. Em seguida, exploramos as seguintes questões sobre a sinergia entre SFT e RL: (i) Um modelo SFT mais forte leva consistentemente a um melhor desempenho final após o treinamento em larga escala com RL? (ii) Como podemos determinar uma temperatura de amostragem adequada durante o treinamento com RL para equilibrar efetivamente a exploração e a exploração para uma inicialização SFT específica? Nossas descobertas sugerem que (i) é verdadeiro, desde que o treinamento com RL seja eficaz, especialmente quando a temperatura de amostragem é cuidadosamente escolhida para manter a entropia ajustada pela temperatura em torno de 0,3, uma configuração que atinge um bom equilíbrio entre exploração e exploração. Notavelmente, a diferença de desempenho entre os modelos SFT iniciais diminui significativamente ao longo do processo de RL. Aproveitando uma base SFT sólida e insights sobre a interação sinérgica entre SFT e RL, nosso modelo AceReason-Nemotron-1.1 7B supera significativamente o AceReason-Nemotron-1.0 e alcança um novo estado da arte entre os modelos de raciocínio baseados em Qwen2.5-7B em benchmarks desafiadores de matemática e código, demonstrando assim a eficácia de nossa receita de pós-treinamento. Disponibilizamos o modelo e os dados em: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
Com o rápido aprimoramento das capacidades gerais dos LLMs (Large Language Models), a personalização de LLMs, ou seja, como construir sistemas de LLMs que possam gerar respostas ou serviços personalizados adaptados a distintas personas de usuários, tornou-se um problema de pesquisa e engenharia cada vez mais importante. No entanto, ao contrário de muitos novos benchmarks desafiadores que estão sendo lançados para avaliar as capacidades gerais/de raciocínio, a falta de benchmarks de alta qualidade para avaliar a personalização de LLMs dificulta bastante o progresso nesse campo. Para abordar isso, introduzimos o PersonaFeedback, um novo benchmark que avalia diretamente a capacidade dos LLMs de fornecer respostas personalizadas dadas personas de usuários e consultas predefinidas. Diferente dos benchmarks existentes que exigem que os modelos infiram personas implícitas de interações históricas, o PersonaFeedback desacopla a inferência de personas da personalização, focando em avaliar a capacidade do modelo de gerar respostas adaptadas a personas explícitas. O PersonaFeedback consiste em 8298 casos de teste anotados por humanos, que são categorizados em níveis fácil, médio e difícil com base na complexidade contextual das personas de usuários e na dificuldade de distinguir diferenças sutis entre duas respostas personalizadas. Realizamos avaliações abrangentes em uma ampla gama de modelos. Os resultados empíricos revelam que mesmo LLMs de última geração que podem resolver tarefas complexas de raciocínio do mundo real podem falhar no nível difícil do PersonaFeedback, onde até avaliadores humanos podem achar as distinções desafiadoras. Além disso, conduzimos uma análise detalhada dos modos de falha em vários tipos de sistemas, demonstrando que o framework atual de aumento por recuperação não deve ser visto como uma solução de fato para tarefas de personalização. Todos os dados do benchmark, protocolos de anotação e o pipeline de avaliação estarão publicamente disponíveis para facilitar pesquisas futuras sobre personalização de LLMs.
No campo do raciocínio multimodal em cadeia de pensamento (CoT), as abordagens existentes dependem predominantemente do raciocínio no espaço puramente linguístico, o que sofre inerentemente de viés linguístico e está amplamente confinado a domínios de matemática ou ciências. Esse foco restrito limita sua capacidade de lidar com tarefas complexas de raciocínio visual que exigem uma compreensão abrangente dos detalhes da imagem. Para abordar essas limitações, este artigo introduz o VGR, um novo modelo de linguagem multimodal (MLLM) de raciocínio com capacidades aprimoradas de percepção visual refinada. Diferente dos MLLMs tradicionais que respondem à pergunta ou raciocinam apenas no espaço linguístico, nosso VGR primeiro detecta regiões relevantes que podem ajudar a resolver os problemas e, em seguida, fornece respostas precisas com base nas regiões da imagem reproduzidas. Para alcançar isso, conduzimos um grande conjunto de dados SFT chamado VGR-SFT, que contém dados de raciocínio com ancoragem visual mista e dedução linguística. O pipeline de inferência do VGR permite que o modelo escolha caixas delimitadoras para referência visual, e uma etapa de reprodução é introduzida para integrar as regiões correspondentes ao processo de raciocínio, aprimorando a compreensão multimodal. Experimentos na linha de base LLaVA-NeXT-7B mostram que o VGR alcança desempenho superior em benchmarks multimodais que exigem compreensão abrangente dos detalhes da imagem. Em comparação com a linha de base, o VGR usa apenas 30% da contagem de tokens de imagem, enquanto obtém pontuações de +4,1 no MMStar, +7,1 no AI2D e uma melhoria de +12,9 no ChartQA.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis de generalização entre tarefas e idiomas, revolucionando o processamento de linguagem natural. Este artigo investiga o alinhamento de representações que emerge naturalmente nos LLMs, particularmente nas camadas intermediárias, e suas implicações para a separação de informações específicas de idioma e agnósticas ao idioma. Confirmamos empiricamente a existência desse alinhamento, analisamos seu comportamento em comparação com modelos de alinhamento explicitamente projetados e demonstramos seu potencial para manipulação específica de idioma sem degradação semântica. Com base nessas descobertas, propomos o Controle de Idioma no Tempo de Inferência (ITLC), um método novo que aproveita a injeção latente para permitir um controle preciso de idioma entre línguas e mitigar a confusão de idioma nos LLMs. Nossos experimentos destacam as fortes capacidades de controle entre línguas do ITLC, preservando a integridade semântica nos idiomas-alvo. Além disso, demonstramos sua eficácia em aliviar o problema de confusão de idioma entre línguas, que persiste mesmo nos LLMs de grande escala atuais, levando à geração inconsistente de linguagem. Este trabalho avança nossa compreensão do alinhamento de representações nos LLMs e introduz uma solução prática para aprimorar seu desempenho entre línguas.
A busca por dados de instrução diversos, complexos e em grande escala é crucial para o alinhamento automático de grandes modelos de linguagem (LLMs). Embora existam métodos capazes de gerar instruções sintéticas em escala, eles sofrem com fontes de fundamentação limitadas, resultando em uma distribuição estreita, ou dependem de extensões triviais que não conseguem produzir trajetórias significativas em termos de complexidade. Em contraste, as instruções que beneficiam o alinhamento eficiente são tipicamente elaboradas com insights cognitivos e fundamentadas em casos de uso do mundo real. Neste artigo, sintetizamos tais instruções utilizando fundamentação atribuída, que envolve 1) um processo de atribuição de cima para baixo que fundamenta um conjunto selecionado de instruções reais em usuários situados, e 2) um processo de síntese de baixo para cima que aproveita documentos da web para primeiro gerar uma situação, e então uma instrução significativa. Esse framework nos permite colher instruções diversas e complexas em escala, utilizando a vasta gama de documentos da web. Especificamente, construímos um conjunto de dados de 1 milhão de instruções, chamado SynthQuestions, e demonstramos que modelos treinados nele alcançam desempenho líder em vários benchmarks comuns, com melhorias que escalam continuamente com mais corpora da web. Dados, modelos e códigos estarão disponíveis em https://github.com/Ignoramus0817/SynthQuestions.
Recentemente, a utilização de modelos pré-treinados de visão e linguagem (VLMs) para a construção de modelos de visão, linguagem e ação (VLA) surgiu como uma abordagem promissora para o aprendizado eficaz de manipulação robótica. No entanto, poucos métodos incorporam sinais 3D em VLMs para previsão de ações, e eles não aproveitam totalmente a estrutura espacial inerente aos dados 3D, resultando em baixa eficiência amostral. Neste artigo, apresentamos o BridgeVLA, um novo modelo VLA 3D que (1) projeta entradas 3D em múltiplas imagens 2D, garantindo o alinhamento da entrada com o backbone do VLM, e (2) utiliza mapas de calor 2D para previsão de ações, unificando os espaços de entrada e saída em um espaço consistente de imagens 2D. Além disso, propomos um método de pré-treinamento escalável que equipa o backbone do VLM com a capacidade de prever mapas de calor 2D antes do aprendizado da política downstream. Experimentos extensivos mostram que o método proposto é capaz de aprender manipulação 3D de forma eficiente e eficaz. O BridgeVLA supera os métodos de linha de base state-of-the-art em três benchmarks de simulação. No RLBench, ele melhora a taxa média de sucesso de 81,4% para 88,2%. No COLOSSEUM, ele demonstra um desempenho significativamente melhor em cenários desafiadores de generalização, aumentando a taxa média de sucesso de 56,7% para 64,0%. No GemBench, ele supera todos os métodos de linha de base comparados em termos de taxa média de sucesso. Em experimentos com robôs reais, o BridgeVLA supera um método de linha de base state-of-the-art em média 32%. Ele generaliza de forma robusta em múltiplos cenários fora da distribuição, incluindo distúrbios visuais e instruções não vistas. Notavelmente, ele é capaz de alcançar uma taxa de sucesso de 96,8% em mais de 10 tarefas com apenas 3 trajetórias por tarefa, destacando sua extraordinária eficiência amostral. Site do Projeto: https://bridgevla.github.io/
Os recentes avanços em modelos de linguagem de grande escala (LLMs) possibilitaram o desenvolvimento de agentes de IA que exibem comportamentos cada vez mais semelhantes aos humanos, incluindo planejamento, adaptação e dinâmicas sociais em diversos cenários interativos e abertos. Esses comportamentos não são apenas produto das arquiteturas internas dos modelos subjacentes, mas emergem de sua integração em sistemas agentes que operam em contextos específicos, onde fatores ambientais, sinais sociais e feedbacks de interação moldam o comportamento ao longo do tempo. Essa evolução exige uma nova perspectiva científica: a Ciência do Comportamento de Agentes de IA. Em vez de focar apenas nos mecanismos internos, essa perspectiva enfatiza a observação sistemática do comportamento, o design de intervenções para testar hipóteses e a interpretação guiada por teorias de como os agentes de IA agem, se adaptam e interagem ao longo do tempo. Sistematizamos um conjunto crescente de pesquisas em configurações de interação de agente individual, multiagente e humano-agente, e demonstramos ainda como essa perspectiva informa a IA responsável ao tratar justiça, segurança, interpretabilidade, responsabilidade e privacidade como propriedades comportamentais. Ao unificar descobertas recentes e traçar direções futuras, posicionamos a Ciência do Comportamento de Agentes de IA como um complemento necessário às abordagens tradicionais centradas em modelos, fornecendo ferramentas essenciais para compreender, avaliar e governar o comportamento no mundo real de sistemas de IA cada vez mais autônomos.
A evolução contínua dos modelos de linguagem levou ao desenvolvimento de arquiteturas em grande escala que demonstram desempenho excepcional em uma ampla gama de tarefas. No entanto, esses modelos vêm com demandas computacionais e energéticas significativas, além de potenciais implicações de privacidade. Nesse contexto, os Small Reasoning Language Models (SRLMs) com aproximadamente 0,5 bilhão de parâmetros apresentam uma alternativa atraente devido à sua notável eficiência computacional e custo-benefício, especialmente em ambientes com recursos limitados. Apesar dessas vantagens, a capacidade limitada dos modelos de 0,5 bilhão de parâmetros apresenta desafios no tratamento de tarefas complexas, como raciocínio matemático e geração de código. Esta pesquisa investiga várias estratégias de treinamento, incluindo fine-tuning supervisionado (SFT), destilação de conhecimento (KD) e aprendizado por reforço (RL), bem como suas implementações híbridas, para aprimorar o desempenho dos SRLMs de 0,5B. Analisamos metodologias eficazes para reduzir a lacuna de desempenho entre os SRLMs e modelos maiores e apresentamos insights sobre pipelines de treinamento otimizados para essas arquiteturas menores. Por meio de validação e análise experimental extensiva, nosso trabalho visa fornecer recomendações práticas para maximizar as capacidades de raciocínio dos modelos de 0,5B.
A aprendizagem interativa a partir de observação e feedback linguístico é uma área cada vez mais estudada, impulsionada pelo surgimento de agentes baseados em modelos de linguagem de grande escala (LLMs). Embora demonstrações empíricas impressionantes tenham sido apresentadas, até agora falta uma estruturação teórica consistente para esses problemas de decisão. Neste artigo, formalizamos o problema de Aprendizagem a partir de Feedback Linguístico (LLF), estabelecemos suposições suficientes para permitir a aprendizagem apesar de recompensas latentes e introduzimos a dimensão de transferência elusiva como uma medida de complexidade para caracterizar a dificuldade dos problemas de LLF. Mostramos que a dimensão de transferência elusiva captura a intuição de que a informação no feedback altera a complexidade da aprendizagem do problema de LLF. Demonstramos casos em que a aprendizagem a partir de feedback linguístico rico pode ser exponencialmente mais rápida do que a aprendizagem a partir de recompensas. Desenvolvemos um algoritmo sem arrependimento, chamado HELiX, que resolve problemas de LLF de forma comprovada por meio de interações sequenciais, com garantias de desempenho que escalam com a dimensão de transferência elusiva do problema. Em vários domínios empíricos, mostramos que o HELiX tem um bom desempenho mesmo quando o uso repetido de LLMs não funciona de forma confiável. Nossas contribuições marcam um primeiro passo em direção ao projeto de algoritmos de aprendizagem interativa fundamentados a partir de feedback linguístico genérico.
Quão bem os sistemas de IA se saem na engenharia de algoritmos para problemas difíceis de otimização em domínios como roteamento de entregas, escalonamento de equipes, planejamento de produção em fábricas e balanceamento de redes elétricas? Apresentamos o ALE-Bench, um novo benchmark para avaliar sistemas de IA em competições de programação algorítmica baseadas em pontuação. Inspirado em tarefas reais dos AtCoder Heuristic Contests, o ALE-Bench apresenta problemas de otimização que são computacionalmente complexos e não possuem soluções exatas conhecidas. Diferente de benchmarks de codificação de curta duração e com avaliação binária (aprovado/reprovado), o ALE-Bench incentiva o refinamento iterativo de soluções em horizontes temporais longos. Nossa estrutura de software suporta arquiteturas de agentes interativos que aproveitam feedback de testes e visualizações. Nossa avaliação de modelos de linguagem de última geração (LLMs) revelou que, embora demonstrem alto desempenho em problemas específicos, ainda há uma lacuna significativa em comparação com humanos em termos de consistência entre problemas e capacidades de resolução de problemas de longo prazo. Isso destaca a necessidade desse benchmark para impulsionar avanços futuros em IA.
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais integrados em aplicações cotidianas. À medida que sua influência cresce, compreender sua tomada de decisão e a personalidade subjacente torna-se essencial. Neste trabalho, interpretamos a personalidade do modelo utilizando nosso conjunto de dados proposto, o Supernova Event Dataset, um novo conjunto de dados com artigos diversos que abrangem biografias, eventos históricos, notícias e descobertas científicas. Usamos esse conjunto de dados para avaliar LLMs na extração e classificação de eventos-chave a partir de textos, um desafio subjetivo e complexo que requer raciocínio sobre contextos de longo alcance e modelagem de cadeias causais. Avaliamos modelos pequenos como Phi-4, Orca 2 e Qwen 2.5, e modelos maiores e mais robustos como Claude 3.7, Gemini 2.5 e OpenAI o3, e propomos um framework em que outro LLM atua como juiz para inferir a personalidade de cada modelo com base em sua seleção e classificação de eventos. Nossa análise revela traços de personalidade distintos: por exemplo, Orca 2 demonstra raciocínio emocional com foco em dinâmicas interpessoais, enquanto Qwen 2.5 exibe um estilo mais estratégico e analítico. Ao analisar eventos de descobertas científicas, Claude Sonnet 3.7 enfatiza o enquadramento conceitual, Gemini 2.5 Pro prioriza a validação empírica e o3 favorece o raciocínio causal passo a passo. Essa análise melhora a interpretabilidade dos modelos, tornando-os mais amigáveis para uma ampla gama de aplicações diversas.
Como as camadas de auto-atenção nos Transformers são, por design, invariantes a permutações, codificações posicionais devem ser explicitamente incorporadas para permitir a compreensão espacial. No entanto, tabelas de consulta de tamanho fixo usadas em embeddings posicionais (PEs) tradicionais e aprendíveis limitam as capacidades de extrapolação além dos comprimentos de sequência pré-treinados. Métodos projetados por especialistas, como ALiBi e RoPE, mitigam essa limitação, mas exigem modificações extensas para se adaptarem a novas modalidades, destacando desafios fundamentais em adaptabilidade e escalabilidade. Neste trabalho, apresentamos o SeqPE, uma estrutura unificada e totalmente aprendível de codificação posicional que representa cada índice de posição n-dimensional como uma sequência simbólica e emprega um codificador posicional sequencial leve para aprender seus embeddings de ponta a ponta. Para regularizar o espaço de embedding do SeqPE, introduzimos dois objetivos complementares: um objetivo contrastivo que alinha as distâncias de embedding com uma função de distância posicional predefinida, e uma perda de destilação de conhecimento que ancora embeddings posicionais fora da distribuição a representações de professores dentro da distribuição, aprimorando ainda mais o desempenho de extrapolação. Experimentos em modelagem de linguagem, questionamento de contexto longo e classificação de imagens 2D demonstram que o SeqPE não apenas supera as linhas de base fortes em perplexidade, correspondência exata (EM) e precisão—particularmente sob extrapolação de comprimento de contexto—mas também permite generalização contínua para entradas multidimensionais sem exigir redesenho manual da arquitetura. Disponibilizamos nosso código, dados e checkpoints em https://github.com/ghrua/seqpe.
Séries temporais do mundo real são frequentemente governadas por dinâmicas não lineares complexas. Compreender essas dinâmicas subjacentes é crucial para previsões futuras precisas. Embora o aprendizado profundo tenha alcançado grande sucesso na previsão de séries temporais, muitas abordagens existentes não modelam explicitamente as dinâmicas. Para preencher essa lacuna, apresentamos o DeepEDM, uma estrutura que integra a modelagem de sistemas dinâmicos não lineares com redes neurais profundas. Inspirado pela modelagem dinâmica empírica (EDM) e fundamentado no teorema de Takens, o DeepEDM apresenta um novo modelo profundo que aprende um espaço latente a partir de incorporações com atraso temporal e emprega regressão de kernel para aproximar as dinâmicas subjacentes, ao mesmo tempo que aproveita uma implementação eficiente da atenção softmax e permite a previsão precisa de passos temporais futuros. Para avaliar nosso método, realizamos experimentos abrangentes com dados sintéticos de sistemas dinâmicos não lineares, bem como com séries temporais reais de diversos domínios. Nossos resultados mostram que o DeepEDM é robusto ao ruído de entrada e supera métodos state-of-the-art em precisão de previsão. Nosso código está disponível em: https://abrarmajeedi.github.io/deep_edm.
Modelos recentes de linguagem de grande escala (LLMs) que realizam raciocínio profundo frequentemente processam extensivamente para melhorar o desempenho, mas esse raciocínio prolongado nem sempre é desejável, pois acarreta custos excessivos de inferência com ganhos de desempenho desproporcionais. Controlar o comprimento do raciocínio sem sacrificar o desempenho é, portanto, importante, mas permanece desafiador, especialmente sob orçamentos de pensamento restritos. Propomos a orientação por orçamento, um método simples, porém eficaz, para direcionar o processo de raciocínio dos LLMs em direção a um orçamento-alvo sem a necessidade de ajuste fino do modelo. Nossa abordagem introduz um preditor leve que modela uma distribuição Gamma sobre o comprimento restante do pensamento durante a geração do próximo token. Esse sinal é então usado para guiar a geração de forma suave, em nível de token, garantindo que o rastro de raciocínio geral adira ao orçamento de pensamento especificado. A orientação por orçamento permite o controle natural do comprimento do pensamento, além de melhorias significativas na eficiência de tokens em comparação com métodos de linha de base em benchmarks matemáticos desafiadores. Por exemplo, ela alcança um ganho de até 26% na precisão no benchmark MATH-500 sob orçamentos restritos em relação aos métodos de linha de base, mantendo uma precisão competitiva com apenas 63% dos tokens de pensamento usados pelo modelo de pensamento completo. A orientação por orçamento também se generaliza para domínios de tarefas mais amplos e exibe capacidades emergentes, como a estimativa da dificuldade das questões. O código-fonte está disponível em: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Os recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs) tiveram um impacto significativo em uma ampla gama de áreas, desde domínios gerais até áreas especializadas. No entanto, esses avanços também aumentaram consideravelmente o potencial de usuários maliciosos explorarem prompts prejudiciais e de jailbreak para ataques maliciosos. Embora tenham sido feitos muitos esforços para prevenir prompts prejudiciais e de jailbreak, proteger os LLMs contra tais ataques maliciosos continua sendo uma tarefa importante e desafiadora. Neste artigo, propomos o QGuard, um método de proteção de segurança simples, porém eficaz, que utiliza questionamentos para bloquear prompts prejudiciais de maneira zero-shot. Nosso método pode defender os LLMs não apenas contra prompts prejudiciais baseados em texto, mas também contra ataques de prompts prejudiciais multimodais. Além disso, ao diversificar e modificar as perguntas de proteção, nossa abordagem permanece robusta contra os prompts prejudiciais mais recentes sem a necessidade de ajuste fino. Os resultados experimentais mostram que nosso modelo tem um desempenho competitivo tanto em conjuntos de dados prejudiciais apenas de texto quanto multimodais. Adicionalmente, ao fornecer uma análise dos questionamentos, permitimos uma análise de caixa branca das entradas do usuário. Acreditamos que nosso método oferece insights valiosos para serviços de LLMs no mundo real, mitigando os riscos de segurança associados a prompts prejudiciais.
A aprendizagem autorregulada (SRL) é crucial para estudantes universitários que enfrentam demandas acadêmicas crescentes e maior independência. Habilidades insuficientes de SRL podem levar a hábitos de estudo desorganizados, baixa motivação e má gestão do tempo, prejudicando a capacidade dos alunos de prosperar em ambientes desafiadores. Por meio de um estudo formativo envolvendo 59 estudantes universitários, identificamos os principais desafios que os alunos enfrentam no desenvolvimento de habilidades de SRL, incluindo dificuldades com definição de metas, gestão do tempo e aprendizagem reflexiva. Para abordar esses desafios, apresentamos o SRLAgent, um sistema assistido por LLM que promove habilidades de SRL por meio de gamificação e suporte adaptativo de modelos de linguagem de grande escala (LLMs). Baseado no framework de três fases de Zimmerman para SRL, o SRLAgent permite que os alunos se envolvam na definição de metas, execução de estratégias e autorreflexão em um ambiente interativo baseado em jogos. O sistema oferece feedback em tempo real e suporte escalonado, alimentado por LLMs, para auxiliar os esforços de estudo independente dos alunos. Avaliamos o SRLAgent usando um design entre sujeitos, comparando-o a um sistema de base (SRL sem recursos do Agent) e a uma condição tradicional de aprendizagem multimídia. Os resultados mostraram melhorias significativas nas habilidades de SRL no grupo SRLAgent (p < 0,001, d de Cohen = 0,234) e maior engajamento em comparação com as condições de base. Este trabalho destaca o valor de incorporar suporte de SRL e assistência em tempo real com IA em ambientes gamificados, oferecendo implicações de design para tecnologias educacionais que visam promover aprendizagem profunda e desenvolvimento de habilidades metacognitivas.
Embora os modelos de linguagem sejam cada vez mais utilizados na ciência dos materiais, os modelos típicos dependem de métodos de tokenização centrados em frequência, originalmente desenvolvidos para processamento de linguagem natural. No entanto, esses métodos frequentemente produzem fragmentação excessiva e perda semântica, falhando em manter a integridade estrutural e semântica dos conceitos de materiais. Para resolver esse problema, propomos o MATTER, uma nova abordagem de tokenização que integra conhecimento de materiais no processo de tokenização. Baseado no MatDetector, treinado em nossa base de conhecimento de materiais, e em um método de reclassificação que prioriza conceitos de materiais na fusão de tokens, o MATTER mantém a integridade estrutural dos conceitos de materiais identificados e evita a fragmentação durante a tokenização, garantindo que seu significado semântico permaneça intacto. Os resultados experimentais demonstram que o MATTER supera os métodos de tokenização existentes, alcançando um ganho médio de desempenho de 4% e 2% nas tarefas de geração e classificação, respectivamente. Esses resultados destacam a importância do conhecimento de domínio para estratégias de tokenização no processamento de textos científicos. Nosso código está disponível em https://github.com/yerimoh/MATTER.
O treinamento de grandes redes neurais com retropropagação de ponta a ponta cria gargalos significativos de memória, limitando o acesso à pesquisa de ponta em IA. Propomos o DiffusionBlocks, uma nova estrutura de treinamento que interpreta os blocos de redes neurais como operações de remoção de ruído em um processo de difusão em tempo contínuo. Ao particionar a rede em blocos treináveis de forma independente e otimizar as atribuições de níveis de ruído com base na massa de probabilidade cumulativa igual, nossa abordagem alcança uma eficiência de memória significativa, mantendo um desempenho competitivo em comparação com a retropropagação tradicional em tarefas generativas. Experimentos em geração de imagens e modelagem de linguagem demonstram uma redução de memória proporcional ao número de blocos, ao mesmo tempo em que alcançam um desempenho superior. O DiffusionBlocks oferece um caminho promissor para democratizar o acesso ao treinamento de redes neurais em grande escala com recursos computacionais limitados.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) demonstraram novas possibilidades para análises de séries temporais precisas e eficientes, mas trabalhos anteriores frequentemente exigiam ajustes extensivos e/ou ignoravam correlações entre séries. Neste trabalho, exploramos estratégias simples e flexíveis baseadas em prompts que permitem que LLMs realizem previsões de séries temporais sem a necessidade de retreinamento extensivo ou do uso de uma arquitetura externa complexa. Através da exploração de métodos de prompting especializados que aproveitam a decomposição de séries temporais, tokenização baseada em patches e aumento de vizinhos baseado em similaridade, descobrimos que é possível melhorar a qualidade das previsões feitas por LLMs enquanto mantemos a simplicidade e exigimos um pré-processamento mínimo dos dados. Para isso, propomos nosso próprio método, o PatchInstruct, que permite que LLMs façam previsões precisas e eficazes.
Estudamos a sumarização multimodal para vídeos instrucionais, cujo objetivo é fornecer aos usuários uma maneira eficiente de aprender habilidades na forma de instruções textuais e quadros-chave de vídeo. Observamos que os benchmarks existentes focam na sumarização de vídeos em nível semântico genérico e não são adequados para fornecer instruções executáveis passo a passo e ilustrações, ambos cruciais para vídeos instrucionais. Propomos um novo benchmark para sumarização de vídeos instrucionais de interface do usuário (UI) para preencher essa lacuna. Coletamos um conjunto de dados de 2.413 vídeos instrucionais de UI, que abrangem mais de 167 horas. Esses vídeos são anotados manualmente para segmentação de vídeo, sumarização textual e sumarização de vídeo, o que permite avaliações abrangentes para uma sumarização de vídeo concisa e executável. Realizamos extensos experimentos em nosso conjunto de dados MS4UI coletado, que sugerem que os métodos de sumarização multimodal state-of-the-art têm dificuldades na sumarização de vídeos de UI e destacam a importância de novos métodos para a sumarização de vídeos instrucionais de UI.
Em uma era caracterizada pela proliferação de desinformação e má informação online, é fundamental capacitar os leitores a compreender o conteúdo que estão lendo. Esforços importantes nessa direção dependem de verificações de fatos manuais ou automáticas, o que pode ser desafiador para alegações emergentes com informações limitadas. Tais cenários podem ser tratados avaliando a confiabilidade e o viés político da fonte da alegação, ou seja, caracterizando veículos de notícias inteiros em vez de alegações ou artigos individuais. Essa é uma direção de pesquisa importante, mas pouco estudada. Embora trabalhos anteriores tenham explorado contextos linguísticos e sociais, não analisamos artigos individuais ou informações em mídias sociais. Em vez disso, propomos uma metodologia inovadora que emula os critérios usados por verificadores de fatos profissionais para avaliar a factualidade e o viés político de um veículo inteiro. Especificamente, projetamos uma variedade de prompts com base nesses critérios e obtemos respostas de modelos de linguagem de grande escala (LLMs, na sigla em inglês), que agregamos para fazer previsões. Além de demonstrar melhorias significativas em relação a baselines robustas por meio de extensos experimentos com múltiplos LLMs, fornecemos uma análise detalhada de erros sobre o efeito da popularidade e da região da mídia no desempenho do modelo. Além disso, realizamos um estudo de ablação para destacar os componentes-chave de nosso conjunto de dados que contribuem para essas melhorias. Para facilitar pesquisas futuras, disponibilizamos nosso conjunto de dados e código em https://github.com/mbzuai-nlp/llm-media-profiling.
Embora a rápida proliferação de câmeras vestíveis tenha levantado preocupações significativas sobre a privacidade em vídeos egocêntricos, trabalhos anteriores têm negligenciado amplamente as ameaças únicas à privacidade do usuário que utiliza a câmera. Este trabalho investiga a questão central: Quanta informação privada sobre o usuário da câmera pode ser inferida a partir de seus vídeos em primeira pessoa? Apresentamos o EgoPrivacy, o primeiro benchmark em larga escala para a avaliação abrangente de riscos de privacidade na visão egocêntrica. O EgoPrivacy abrange três tipos de privacidade (demográfica, individual e situacional), definindo sete tarefas que visam recuperar informações privadas que variam de granularidade fina (por exemplo, identidade do usuário) a granularidade grossa (por exemplo, faixa etária). Para enfatizar ainda mais as ameaças à privacidade inerentes à visão egocêntrica, propomos o Retrieval-Augmented Attack, uma nova estratégia de ataque que aproveita a recuperação ego-to-exo a partir de um conjunto externo de vídeos exocêntricos para aumentar a eficácia dos ataques à privacidade demográfica. Uma comparação extensiva dos diferentes ataques possíveis sob todos os modelos de ameaça é apresentada, mostrando que as informações privadas do usuário são altamente suscetíveis a vazamentos. Por exemplo, nossos achados indicam que modelos de base podem comprometer efetivamente a privacidade do usuário, mesmo em configurações zero-shot, ao recuperar atributos como identidade, cenário, gênero e raça com 70-80% de precisão. Nosso código e dados estão disponíveis em https://github.com/williamium3000/ego-privacy.
Os modelos de linguagem são treinados principalmente em grandes volumes de dados textuais da Internet, e torna-se cada vez mais importante compreender essa fonte de dados. Os mecanismos de busca por correspondência exata permitem pesquisar em grandes corpora de texto — contando as ocorrências de strings e recuperando os documentos que as contêm —, mas o alto custo de armazenamento dificulta sua aplicação em dados de escala da Internet. Apresentamos o Infini-gram mini, um sistema eficiente e escalável que torna pesquisáveis corpora de texto em nível de petabytes. Baseado na estrutura de dados FM-index (Ferragina e Manzini, 2000), que indexa e comprime texto simultaneamente, nosso sistema cria índices com tamanho de apenas 44% do corpus. O Infini-gram mini melhora significativamente a melhor implementação existente do FM-index em termos de velocidade de indexação (18 vezes) e uso de memória durante a indexação (redução de 3,2 vezes) e consultas (reduzido a uma quantidade insignificante). Indexamos 46 TB de texto da Internet em 50 dias com um único nó de CPU de 128 núcleos (ou 19 horas usando 75 desses nós). Mostramos um caso de uso importante do Infini-gram mini em uma análise em larga escala de contaminação de benchmarks. Descobrimos que vários benchmarks centrais de avaliação de modelos de linguagem estão fortemente contaminados em rastreamentos da Internet (até 40% no SQuAD), o que poderia levar a uma superestimação das capacidades dos modelos de linguagem se treinados com esses dados. Hospedamos um boletim de contaminação de benchmarks para compartilhar as taxas de contaminação de muitos benchmarks centrais e contribuídos pela comunidade. Também disponibilizamos uma interface web e um endpoint de API para atender consultas gerais nos índices do Infini-gram mini.
Modelos de linguagem de grande escala (LLMs) são tipicamente treinados por meio de previsão da próxima palavra (NWP, do inglês Next-Word Prediction), o que proporciona fluência superficial robusta, mas frequentemente carece de suporte para raciocínio sólido. Propomos a Exploração de Próxima Palavra com Gargalo (BOW, do inglês BOttlenecked next Word exploration), uma nova estrutura de RL que repensa a NWP ao introduzir um gargalo de raciocínio, onde um modelo de política primeiro gera um caminho de raciocínio em vez de prever o próximo token diretamente, após o qual um modelo juiz congelado prevê a distribuição do próximo token com base exclusivamente nesse caminho de raciocínio. Treinamos o modelo de política usando GRPO com recompensas que quantificam quão efetivamente o caminho de raciocínio facilita a recuperação da próxima palavra. Em comparação com outras linhas de base de pré-treinamento contínuo, mostramos que o BOW melhora tanto as capacidades gerais de raciocínio quanto as de previsão da próxima palavra do modelo base, avaliadas em vários benchmarks. Nossos resultados demonstram que o BOW pode servir como uma alternativa eficaz e escalável à NWP tradicional.
A previsão de resultados relacionados à mortalidade a partir de imagens oferece a perspectiva de triagens de saúde acessíveis, não invasivas e escaláveis. Apresentamos um método que utiliza modelos de base de transformadores de visão pré-treinados para estimar a expectativa de vida restante a partir de imagens faciais e de corpo inteiro, juntamente com uma robusta quantificação de incerteza. Demonstramos que a incerteza preditiva varia sistematicamente com a verdadeira expectativa de vida restante e que essa incerteza pode ser efetivamente modelada aprendendo uma distribuição gaussiana para cada amostra. Nossa abordagem alcança um erro absoluto médio (MAE) de ponta de 7,48 anos em um conjunto de dados estabelecido e melhora ainda mais para 4,79 e 5,07 anos de MAE em dois novos conjuntos de dados de maior qualidade, curados e publicados neste trabalho. Importante destacar que nossos modelos fornecem estimativas de incerteza bem calibradas, conforme demonstrado por um erro de calibração esperado em intervalos de 0,62 anos. Embora não sejam destinados à implantação clínica, esses resultados destacam o potencial de extrair sinais medicamente relevantes de imagens. Disponibilizamos todo o código e conjuntos de dados para facilitar pesquisas futuras.
Apresentamos e avaliamos um conjunto de prompts estruturados de fluxo de trabalho como prova de conceito (PoC), projetados para eliciar raciocínio hierárquico semelhante ao humano enquanto orientam Modelos de Linguagem de Grande Escala (LLMs) na análise semântica e linguística de alto nível de manuscritos acadêmicos. Os prompts visam duas tarefas analíticas não triviais: identificar afirmações não fundamentadas em resumos (integridade informacional) e sinalizar referências pronominais ambíguas (clareza linguística). Realizamos uma avaliação sistemática e multirodada em dois modelos de ponta (Gemini Pro 2.5 Pro e ChatGPT Plus o3) sob diversas condições de contexto. Nossos resultados para a tarefa de integridade informacional revelam uma divergência significativa no desempenho dos modelos: enquanto ambos os modelos identificaram com sucesso um núcleo não substantivado de uma frase nominal (95% de sucesso), o ChatGPT consistentemente falhou (0% de sucesso) em identificar um modificador adjetival não substantivado que o Gemini sinalizou corretamente (95% de sucesso), levantando uma questão sobre a potencial influência do papel sintático do alvo. Para a tarefa de análise linguística, ambos os modelos se saíram bem (80-90% de sucesso) com o contexto completo do manuscrito. No entanto, em um cenário de apenas resumo, o ChatGPT alcançou uma taxa de sucesso perfeita (100%), enquanto o desempenho do Gemini foi substancialmente degradado. Nossas descobertas sugerem que o prompting estruturado é uma metodologia viável para análise textual complexa, mas mostram que o desempenho do prompt pode ser altamente dependente da interação entre o modelo, o tipo de tarefa e o contexto, destacando a necessidade de testes rigorosos e específicos para cada modelo.
O trabalho existente em geração automática de música tem se concentrado principalmente em sistemas end-to-end que produzem composições completas ou continuações. No entanto, como a composição musical é tipicamente um processo iterativo, tais sistemas dificultam o engajamento no diálogo entre humano e máquina, que é essencial para a criatividade assistida por computador. Neste estudo, abordamos a tarefa de preenchimento simbólico de música personalizável, multi-faixa, de longo contexto e controlável para aprimorar o processo de composição assistida por computador. Apresentamos o MIDI-RWKV, um modelo inovador baseado na arquitetura linear RWKV-7, para permitir uma cocriação musical eficiente e coerente em dispositivos de borda. Também demonstramos que o MIDI-RWKV admite um método eficaz de ajuste fino de seu estado inicial para personalização em regimes de amostras muito reduzidas. Avaliamos o MIDI-RWKV e seu ajuste de estado em várias métricas quantitativas e qualitativas, e disponibilizamos os pesos do modelo e o código em https://github.com/christianazinn/MIDI-RWKV.
A linguagem muda ao longo do tempo, inclusive no domínio do discurso de ódio, que evolui rapidamente seguindo dinâmicas sociais e mudanças culturais. Embora a pesquisa em PLN tenha investigado o impacto da evolução da linguagem no treinamento de modelos e tenha proposto várias soluções para isso, seu impacto na avaliação de modelos permanece pouco explorado. No entanto, benchmarks de discurso de ódio desempenham um papel crucial para garantir a segurança dos modelos. Neste artigo, avaliamos empiricamente a robustez de 20 modelos de linguagem em dois experimentos de discurso de ódio em evolução, e mostramos o desalinhamento temporal entre avaliações estáticas e sensíveis ao tempo. Nossas descobertas apontam para a necessidade de benchmarks linguísticos sensíveis ao tempo, a fim de avaliar correta e confiavelmente modelos de linguagem no domínio do discurso de ódio.