Artigos de pesquisa em IA selecionados diariamente com traduções
Os métodos atuais de segmentação universal demonstram fortes capacidades em compreensão de imagem e vídeo a nível de pixel. No entanto, eles carecem de habilidades de raciocínio e não podem ser controlados por meio de instruções de texto. Em contraste, os grandes modelos multimodais visão-linguagem exibem poderosas capacidades de conversação e raciocínio baseadas em visão, mas carecem de compreensão a nível de pixel e têm dificuldade em aceitar instruções visuais para interação flexível do usuário. Este artigo propõe o OMG-LLaVA, um novo e elegante framework que combina uma poderosa compreensão visual a nível de pixel com habilidades de raciocínio. Ele pode aceitar vários estímulos visuais e de texto para interação flexível do usuário. Especificamente, utilizamos um método de segmentação universal como o codificador visual, integrando informações de imagem, prioridades de percepção e estímulos visuais em tokens visuais fornecidos ao LLM. O LLM é responsável por compreender as instruções de texto do usuário e fornecer respostas de texto e resultados de segmentação a nível de pixel com base nas informações visuais. Propomos a incorporação de prioridades de percepção para integrar melhor as prioridades de percepção com as características da imagem. O OMG-LLaVA alcança raciocínio e compreensão a nível de imagem, objeto e pixel em um único modelo, igualando ou superando o desempenho de métodos especializados em múltiplos benchmarks. Em vez de usar o LLM para conectar cada especialista, nosso trabalho visa o treinamento de ponta a ponta em um codificador, um decodificador e um LLM. O código e o modelo foram disponibilizados para pesquisas futuras.
O raciocínio matemático apresenta um desafio significativo para Modelos de Linguagem de Grande Escala (LLMs) devido à extensa e precisa cadeia de raciocínio necessária para a precisão. Garantir a correção de cada etapa de raciocínio é fundamental. Para lidar com isso, nosso objetivo é aprimorar a robustez e a factualidade dos LLMs aprendendo com o feedback humano. No entanto, a Otimização de Preferência Direta (DPO) tem mostrado benefícios limitados para o raciocínio matemático de longa cadeia, uma vez que os modelos que utilizam DPO têm dificuldade em identificar erros detalhados em respostas incorretas. Essa limitação decorre da falta de supervisão de processo refinada. Propomos um método simples, eficaz e eficiente em dados chamado Step-DPO, que trata as etapas individuais de raciocínio como unidades para otimização de preferência, em vez de avaliar respostas de forma holística. Além disso, desenvolvemos um pipeline de construção de dados para Step-DPO, possibilitando a criação de um conjunto de dados de alta qualidade contendo 10 mil pares de preferência em etapas. Observamos também que, na DPO, os dados autogerados são mais eficazes do que os dados gerados por humanos ou GPT-4, devido à natureza fora da distribuição destes últimos. Nossas descobertas demonstram que tão poucos quanto 10 mil pares de dados de preferência e menos de 500 etapas de treinamento do Step-DPO podem resultar em um ganho de quase 3% em precisão em MATEMÁTICA para modelos com mais de 70 bilhões de parâmetros. Notavelmente, o Step-DPO, quando aplicado ao Qwen2-72B-Instruct, alcança pontuações de 70,8% e 94,0% nos conjuntos de teste de MATEMÁTICA e GSM8K, respectivamente, superando uma série de modelos de código fechado, incluindo GPT-4-1106, Claude-3-Opus e Gemini-1.5-Pro. Nosso código, dados e modelos estão disponíveis em https://github.com/dvlab-research/Step-DPO.
Treinamos um modelo para gerar imagens a partir de prompts multimodais de texto e imagens entrelaçados, como "um homem <imagem de um homem> e seu cachorro <imagem de um cachorro> em um estilo animado <imagem de um desenho animado>." Inicializamos um conjunto de dados multimodal extraindo recortes de imagens semanticamente significativos correspondentes a palavras nas legendas de imagens de dados texto-imagem gerados sinteticamente e disponíveis publicamente. Nosso modelo, MUMU, é composto por um codificador de modelo de visão-linguagem com um decodificador de difusão e é treinado em um único nó GPU 8xH100. Apesar de ser treinado apenas em recortes da mesma imagem, o MUMU aprende a compor entradas de diferentes imagens em uma saída coerente. Por exemplo, uma entrada de uma pessoa realista e um desenho animado resultará na mesma pessoa no estilo de desenho animado, e uma entrada de um sujeito em pé e um patinete resultará no sujeito andando de patinete. Como resultado, nosso modelo generaliza para tarefas como transferência de estilo e consistência de personagens. Nossos resultados mostram a promessa de usar modelos multimodais como controladores de propósito geral para geração de imagens.
Grandes modelos de linguagem (LLMs) têm sido empregados em várias tarefas educacionais inteligentes para auxiliar no ensino. Enquanto as explorações iniciais têm se concentrado em agentes independentes capacitados por LLM para tarefas educacionais específicas, o potencial dos LLMs dentro de um framework colaborativo multiagente para simular uma sala de aula com participação real do usuário permanece inexplorado. Neste trabalho, propomos o SimClass, um framework de simulação de sala de aula multiagente envolvendo a participação do usuário. Reconhecemos papéis representativos de classe e introduzimos um mecanismo de controle de classe inovador para ensino automático em sala de aula, e realizamos experimentos de usuário em dois cursos do mundo real. Utilizando o Sistema de Análise Interativa de Flanders e os frameworks teóricos da Comunidade de Investigação da análise educacional, demonstramos que os LLMs podem simular padrões de interação em sala de aula tradicionais de forma eficaz, ao mesmo tempo em que aprimoram a experiência do usuário. Também observamos comportamentos de grupo emergentes entre agentes no SimClass, onde os agentes colaboram para criar interações estimulantes em salas de aula para melhorar o processo de aprendizagem do usuário. Esperamos que este trabalho pioneiro abra caminho para a aplicação de sistemas multiagentes capacitados por LLM no ensino de salas de aula virtuais.
Este artigo apresenta o Self-aware Knowledge Retrieval (SeaKR), um modelo RAG adaptativo inovador que extrai a autoconsciência da incerteza dos LLMs a partir de seus estados internos. SeaKR ativa a recuperação quando os LLMs apresentam alta autoconsciência da incerteza para geração. Para integrar efetivamente trechos de conhecimento recuperados, SeaKR os reclassifica com base na autoconsciência da incerteza do LLM para preservar o trecho que reduz sua incerteza ao máximo. Para facilitar a resolução de tarefas complexas que requerem múltiplas recuperações, SeaKR utiliza sua autoconsciência da incerteza para escolher entre diferentes estratégias de raciocínio. Nossos experimentos em conjuntos de dados de Question Answering complexos e simples mostram que o SeaKR supera os métodos RAG adaptativos existentes. Disponibilizamos nosso código em https://github.com/THU-KEG/SeaKR.
Os Modelos de Linguagem de Grande Escala (LLMs) têm mostrado um grande potencial como copilotos em diversas tarefas. A implantação local de LLMs em dispositivos de borda é necessária ao lidar com dados sensíveis à privacidade ou tarefas sensíveis à latência. As restrições computacionais desses dispositivos tornam a implantação direta de LLMs de grande escala poderosos impraticável, o que torna necessária a Destilação de Conhecimento de modelos de grande escala para modelos mais leves. Muito trabalho foi feito para obter diversidade e exemplos de treinamento de qualidade dos LLMs, mas pouca atenção foi dada à alinhamento do conteúdo instrucional do professor com base nas preferências do aluno, semelhante ao "ensino responsivo" na pedagogia. Assim, propomos ARTE, apelidado de Alinhando Professor com Preferências do Aluno, um framework que alinha o modelo do professor com as preferências do aluno para gerar exemplos de treinamento personalizados para a Destilação de Conhecimento. Especificamente, obtemos perguntas e justificativas preliminares do modelo do professor, em seguida, coletamos as preferências dos alunos sobre essas perguntas e justificativas usando o desempenho dos alunos com aprendizado contextual como um proxy, e finalmente alinhamos o modelo do professor com as preferências dos alunos. No final, repetimos o primeiro passo com o modelo do professor alinhado para obter exemplos de treinamento personalizados para o modelo do aluno na tarefa alvo. Experimentos extensivos em benchmarks acadêmicos demonstram a superioridade do ARTE em relação aos conjuntos de dados de ajuste de instrução existentes destilados de LLMs poderosos. Além disso, investigamos minuciosamente a generalização do ARTE, incluindo a generalização dos modelos de alunos ajustados em habilidade de raciocínio e a generalização dos modelos de professores alinhados para gerar dados de treinamento personalizados em tarefas e alunos. Em resumo, nossas contribuições residem em propor um novo framework para geração de exemplos de treinamento personalizados, demonstrar sua eficácia em experimentos e investigar a generalização tanto dos modelos de alunos quanto dos modelos de professores alinhados no ARTE.
A contaminação do conjunto de testes, em que dados de teste de um benchmark acabam no conjunto de treinamento de um modelo mais recente, é um obstáculo bem documentado para a avaliação justa de LLM e pode rapidamente tornar benchmarks obsoletos. Para mitigar isso, muitos benchmarks recentes coletam novos estímulos e avaliações de juízes humanos ou LLM; no entanto, esses podem introduzir viés significativo e falhar na pontuação de questões difíceis. Neste trabalho, apresentamos um novo benchmark para LLMs projetado para ser imune tanto à contaminação do conjunto de testes quanto às armadilhas da avaliação de LLM e da coleta de dados humanos. Lançamos o LiveBench, o primeiro benchmark que (1) contém perguntas frequentemente atualizadas de fontes de informação recentes, (2) pontua respostas automaticamente de acordo com valores objetivos de referência e (3) contém uma ampla variedade de tarefas desafiadoras, abrangendo matemática, codificação, raciocínio, linguagem, seguimento de instruções e análise de dados. Para alcançar isso, o LiveBench contém perguntas baseadas em competições matemáticas recentemente lançadas, artigos arXiv, notícias e conjuntos de dados, e contém versões mais difíceis e livres de contaminação de tarefas de benchmarks anteriores, como Big-Bench Hard, AMPS e IFEval. Avaliamos muitos modelos proeminentes de código fechado, bem como dezenas de modelos de código aberto variando de 0,5B a 110B em tamanho. O LiveBench é desafiador, com os melhores modelos alcançando abaixo de 65% de precisão. Disponibilizamos todas as perguntas, código e respostas do modelo. As perguntas serão adicionadas e atualizadas mensalmente, e lançaremos novas tarefas e versões mais difíceis das tarefas ao longo do tempo para que o LiveBench possa distinguir entre as capacidades dos LLMs à medida que melhoram no futuro. Recebemos com satisfação o envolvimento e a colaboração da comunidade para expandir as tarefas e modelos do benchmark.
O ensino para melhorar modelos de estudantes (por exemplo, destilação de conhecimento) é uma metodologia amplamente estudada em LLMs. No entanto, para os humanos, o ensino não apenas melhora os alunos, mas também melhora os professores. Perguntamos: Os LLMs também podem aprender ensinando (LbT)? Se sim, podemos potencialmente desbloquear a possibilidade de avançar continuamente os modelos sem depender exclusivamente de dados produzidos por humanos ou modelos mais fortes. Neste artigo, fornecemos uma exploração preliminar dessa agenda ambiciosa. Mostramos que ideias de LbT podem ser incorporadas aos pipelines de treinamento/estímulo de LLM existentes e proporcionar melhorias perceptíveis. Especificamente, projetamos três métodos, cada um imitando um dos três níveis de LbT em humanos: observar o feedback dos alunos, aprender com o feedback e aprender de forma iterativa, com o objetivo de melhorar a precisão das respostas sem treinamento e aprimorar a capacidade inerente dos modelos com ajustes finos. Os resultados são encorajadores. Por exemplo, semelhante ao LbT em humanos, observamos que: (1) LbT pode induzir generalização de fraco para forte: modelos fortes podem se aprimorar ensinando outros modelos fracos; (2) Diversidade nos alunos pode ser benéfica: ensinar vários alunos pode ser melhor do que ensinar um único aluno ou o próprio professor. Esperamos que essa promessa inicial possa inspirar pesquisas futuras sobre LbT e adotar de forma mais ampla técnicas avançadas em educação para melhorar LLMs. O código está disponível em https://github.com/imagination-research/lbt.
Os ataques de inversão de modelo e inferência de associação têm como objetivo reconstruir e verificar os dados nos quais um modelo foi treinado. No entanto, não há garantia de que encontrarão todas as amostras de treinamento, uma vez que não conhecem o tamanho do conjunto de treinamento. Neste artigo, introduzimos uma nova tarefa: recuperação do tamanho do conjunto de dados, que visa determinar o número de amostras usadas para treinar um modelo, diretamente a partir de seus pesos. Em seguida, propomos o DSiRe, um método para recuperar o número de imagens usadas para ajustar fino um modelo, no caso comum em que o ajuste fino utiliza LoRA. Descobrimos que tanto a norma quanto o espectro das matrizes LoRA estão intimamente ligados ao tamanho do conjunto de dados de ajuste fino; aproveitamos essa descoberta para propor um algoritmo de previsão simples, porém eficaz. Para avaliar a recuperação do tamanho do conjunto de dados dos pesos LoRA, desenvolvemos e lançamos um novo benchmark, LoRA-WiSE, composto por mais de 25000 instantâneos de pesos de mais de 2000 modelos LoRA ajustados finamente diversos. Nosso melhor classificador pode prever o número de imagens de ajuste fino com um erro absoluto médio de 0,36 imagens, estabelecendo a viabilidade desse ataque.
A atenção esparsa pode efetivamente mitigar as significativas demandas de memória e throughput dos Modelos de Linguagem Grandes (LLMs) em contextos longos. Métodos existentes geralmente empregam uma máscara de atenção esparsa uniforme, aplicando o mesmo padrão esparsa em diferentes cabeças de atenção e comprimentos de entrada. No entanto, essa abordagem uniforme falha em capturar os diversos padrões de atenção inerentes aos LLMs, ignorando suas distintas compensações entre precisão e latência. Para enfrentar esse desafio, propomos o Modelo de Atenção Mista (MoA), que ajusta automaticamente configurações distintas de atenção esparsa para diferentes cabeças e camadas. O MoA constrói e navega em um espaço de busca de vários padrões de atenção e suas regras de dimensionamento em relação aos comprimentos das sequências de entrada. Ele perfila o modelo, avalia configurações potenciais e identifica o plano ótimo de compressão de atenção esparsa. O MoA se adapta a tamanhos de entrada variáveis, revelando que algumas cabeças de atenção expandem seu foco para acomodar sequências mais longas, enquanto outras cabeças concentram consistentemente em contextos locais de comprimento fixo. Experimentos mostram que o MoA aumenta o comprimento efetivo do contexto em 3,9 vezes com a mesma extensão média de atenção, aumentando a precisão de recuperação em 1,5-7,1 vezes em relação à linha de base de atenção uniforme nos modelos Vicuna-7B, Vicuna-13B e Llama3-8B. Além disso, o MoA reduz as lacunas de capacidade entre modelos esparsos e densos, reduzindo a queda máxima de desempenho relativo de 9%-36% para dentro de 5% em dois benchmarks de compreensão de contextos longos. O MoA alcança uma redução de memória GPU de 1,2-1,4 vezes e aumenta o throughput de decodificação em 5,5-6,7 vezes para os modelos densos 7B e 13B em uma única GPU, com impacto mínimo no desempenho.
A Programação por Exemplos (PBE) tem como objetivo gerar um algoritmo a partir de exemplos de entrada e saída. Tais sistemas são praticamente e teoricamente importantes: do ponto de vista do usuário final, eles são implantados para milhões de pessoas, e do ponto de vista da IA, a PBE corresponde a uma forma muito geral de inferência indutiva de poucas amostras. Dado o sucesso dos Modelos de Linguagem Grandes (LLMs) em tarefas de geração de código, investigamos aqui em que medida os LLMs podem ser considerados como tendo "resolvido" a PBE. Experimentamos em domínios clássicos como listas e strings, e em um domínio de programação gráfica incomum e pouco representado em dados típicos de pré-treinamento. Descobrimos que os modelos pré-treinados não são eficazes na PBE, mas que podem ser ajustados finamente para um desempenho muito superior, desde que os problemas de teste estejam dentro da distribuição. Analisamos empiricamente o que faz com que esses modelos tenham sucesso e falhem, e tomamos medidas para entender como alcançar uma melhor generalização fora da distribuição. Coletivamente, esses resultados sugerem que os LLMs avançam significativamente na resolução da suíte típica de tarefas de PBE, potencialmente aumentando a flexibilidade e aplicabilidade dos sistemas de PBE, ao mesmo tempo em que identificam maneiras pelas quais os LLMs ainda não atendem completamente.
Os tokenizadores são cruciais para codificar informações em Modelos de Linguagem de Grande Escala, mas seu desenvolvimento recentemente estagnou e eles possuem fraquezas inerentes. As principais limitações incluem sobrecarga computacional, uso ineficaz de vocabulário e camadas de incorporação e cabeçalho desnecessariamente grandes. Além disso, seu desempenho é tendencioso em relação a um corpus de referência, o que leva a uma eficácia reduzida para idiomas sub-representados. Para remediar esses problemas, propomos o T-FREE, que incorpora diretamente palavras por meio de padrões de ativação esparsos sobre tríades de caracteres e não requer um corpus de referência. O T-FREE explora inerentemente similaridades morfológicas e permite uma forte compressão das camadas de incorporação. Em nossa avaliação experimental exaustiva, alcançamos um desempenho competitivo downstream com uma redução de parâmetros de mais de 85 nessas camadas. Além disso, o T-FREE mostra melhorias significativas na aprendizagem de transferência entre idiomas.
Grandes modelos de visão e linguagem (LVLMs) sofrem alucinações: certos indícios de contexto em uma imagem podem acionar o módulo de linguagem para raciocinar de forma excessivamente confiante e incorreta sobre objetos anormais ou hipotéticos. Embora alguns benchmarks tenham sido desenvolvidos para investigar alucinações em LVLMs, eles dependem principalmente de casos extremos feitos manualmente, cujos padrões de falha podem ter pouca generalização, e o ajuste fino neles poderia comprometer sua validade. Isso nos motiva a desenvolver a primeira abordagem de geração automática de benchmarks, AUTOHALLUSION, que utiliza algumas estratégias principais para criar exemplos de alucinação diversos. Ele investiga os módulos de linguagem em LVLMs em busca de indícios de contexto e os utiliza para sintetizar imagens, adicionando objetos anômalos aos indícios de contexto; mantendo um objeto e excluindo o outro para dois objetos que ocorrem juntos; ou removendo objetos intimamente ligados aos indícios de contexto. Em seguida, gera perguntas baseadas em imagens cujas respostas verdadeiras contradizem as premissas do módulo de linguagem. Um modelo precisa superar vieses e distrações contextuais para chegar a respostas corretas, enquanto respostas incorretas ou inconsistentes indicam alucinações. O AUTOHALLUSION nos permite criar novos benchmarks com o mínimo custo, superando assim a fragilidade dos benchmarks feitos manualmente. Ele também revela padrões comuns de falha e razões, fornecendo insights importantes para detectar, evitar ou controlar alucinações. Avaliações abrangentes dos principais LVLMs, como GPT-4V(ision), Gemini Pro Vision, Claude 3 e LLaVA-1.5, mostram uma taxa de sucesso de indução de alucinação de 97,7% e 98,7% em conjuntos de dados sintéticos e do mundo real do AUTOHALLUSION, abrindo caminho para uma longa batalha contra as alucinações.
As Interfaces Gráficas de Usuário (GUIs) são centrais para nossa interação com dispositivos digitais. Recentemente, esforços crescentes têm sido feitos para construir modelos para várias tarefas de compreensão de GUI. No entanto, esses esforços em grande parte negligenciam uma importante tarefa de referência de GUI: a leitura de tela com base em pontos indicados pelo usuário, que denominamos tarefa de Pontuar e Ler na Tela (Screen Point-and-Read - SPR). Essa tarefa é predominantemente tratada por ferramentas rígidas de leitura de tela acessíveis, que carecem de novos modelos impulsionados por avanços em Modelos de Linguagem Multimodais de Grande Escala (Multimodal Large Language Models - MLLMs). Neste artigo, propomos um agente Árvore-de-Lentes (Tree-of-Lens - ToL), utilizando um mecanismo de fundamentação ToL inovador, para abordar a tarefa SPR. Com base na coordenada do ponto de entrada e na captura de tela da GUI correspondente, nosso agente ToL constrói uma Árvore de Layout Hierárquica. Com base na árvore, nosso agente ToL não apenas compreende o conteúdo da área indicada, mas também articula o layout e as relações espaciais entre os elementos. Essas informações de layout são cruciais para interpretar com precisão as informações na tela, diferenciando nosso agente ToL de outras ferramentas de leitura de tela. Também avaliamos minuciosamente o agente ToL em comparação com outras referências em um novo benchmark SPR proposto, que inclui GUIs de sistemas móveis, web e operacionais. Por fim, testamos o agente ToL em tarefas de navegação de GUI móvel, demonstrando sua utilidade na identificação de ações incorretas ao longo do trajeto das trajetórias de execução do agente. Código e dados: screen-point-and-read.github.io
A geração aumentada por recuperação (RAG) demonstrou eficácia em mitigar o problema de alucinação dos grandes modelos de linguagem (LLMs). No entanto, a dificuldade de alinhar o recuperador com as diversas preferências de conhecimento dos LLMs inevitavelmente apresenta um desafio na criação de um sistema RAG confiável. Para abordar essa questão, propomos o DPA-RAG, um framework universal projetado para alinhar diversas preferências de conhecimento dentro de sistemas RAG. Especificamente, introduzimos inicialmente uma tubulação de construção de conhecimento de preferência e incorporamos cinco estratégias de aumento de consulta inovadoras para mitigar a escassez de dados de preferência. Com base nos dados de preferência, o DPA-RAG realiza o alinhamento de preferência externo e interno: 1) Ele integra conjuntamente habilidades de alinhamento de preferência por pares, por ponto e contrastivo no reranker, alcançando o alinhamento de preferência externo entre os componentes do RAG. 2) Ele introduz ainda uma etapa pré-alinhada antes do Ajuste Fino Supervisionado (SFT) convencional, permitindo que os LLMs capturem implicitamente conhecimento alinhado com suas preferências de raciocínio, alcançando o alinhamento interno dos LLMs. Resultados experimentais em quatro conjuntos de dados de perguntas e respostas intensivas em conhecimento demonstram que o DPA-RAG supera todos os baselines e integra perfeitamente leitores de LLMs black-box e de código aberto. Análises qualitativas adicionais e discussões também fornecem orientações empíricas para alcançar sistemas RAG confiáveis. Nosso código está publicamente disponível em https://github.com/dongguanting/DPA-RAG.
Motivado pelo aumento generalizado do fenômeno de alternância de código entre o árabe egípcio e o inglês nos tempos recentes, este artigo explora as complexidades da tradução automática (TA) e do reconhecimento automático de fala (RAS), concentrando-se na tradução do árabe egípcio-inglês alternado para inglês ou árabe egípcio. Nosso objetivo é apresentar as metodologias empregadas no desenvolvimento desses sistemas, utilizando grandes modelos de linguagem como LLama e Gemma. No campo do RAS, exploramos a utilização do modelo Whisper para o reconhecimento do árabe egípcio alternado, detalhando nossos procedimentos experimentais, incluindo pré-processamento de dados e técnicas de treinamento. Através da implementação de um sistema de tradução consecutiva de fala para texto que integra RAS com TA, pretendemos superar os desafios impostos por recursos limitados e as características únicas do dialeto árabe egípcio. A avaliação em relação a métricas estabelecidas mostra resultados promissores, com nossas metodologias proporcionando uma melhoria significativa de 56% na tradução para inglês em relação ao estado da arte e 9,3% na tradução para árabe. Uma vez que a alternância de código é profundamente inerente às línguas faladas, é crucial que os sistemas de RAS possam lidar eficazmente com esse fenômeno. Essa capacidade é essencial para possibilitar interações contínuas em vários domínios, incluindo negociações comerciais, intercâmbios culturais e discursos acadêmicos. Nossos modelos e código estão disponíveis como recursos de código aberto. Código: http://github.com/ahmedheakl/arazn-llm, Modelos: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
A crescente dependência de plataformas de recrutamento online, aliada à adoção de tecnologias de IA, tem destacado a necessidade crítica de métodos eficientes de classificação de currículos. No entanto, desafios como conjuntos de dados pequenos, falta de modelos de currículo padronizados e preocupações com privacidade dificultam a precisão e eficácia dos modelos de classificação existentes. Neste trabalho, abordamos esses desafios ao apresentar uma abordagem abrangente para a classificação de currículos. Curamos um conjunto de dados em grande escala com 13.389 currículos de fontes diversas e utilizamos Modelos de Linguagem de Grande Escala (LLMs) como BERT e Gemma1.1 2B para a classificação. Nossos resultados demonstram melhorias significativas em relação às abordagens tradicionais de aprendizado de máquina, com nosso melhor modelo alcançando uma precisão de top-1 de 92\% e uma precisão de top-5 de 97,5\%. Essas descobertas destacam a importância da qualidade do conjunto de dados e das arquiteturas avançadas de modelos na melhoria da precisão e robustez dos sistemas de classificação de currículos, avançando assim o campo das práticas de recrutamento online.
Embora inúmeros trabalhos tenham avaliado o desempenho generativo de modelos de linguagem (LMs) em tarefas que exigem raciocínio de Teoria da Mente, a pesquisa sobre a representação interna dos estados mentais dos modelos permanece limitada. Trabalhos recentes utilizaram sondagem para demonstrar que os LMs podem representar crenças de si mesmos e de outros. No entanto, essas alegações são acompanhadas por uma avaliação limitada, o que torna difícil avaliar como as representações de estados mentais são afetadas pelo design e escolhas de treinamento do modelo. Apresentamos um extenso benchmark com diversos tipos de LM com diferentes tamanhos de modelo, abordagens de ajuste fino e designs de prompt para estudar a robustez das representações de estados mentais e questões de memorização dentro das sondas. Nossos resultados mostram que a qualidade das representações internas dos modelos das crenças dos outros aumenta com o tamanho do modelo e, mais crucialmente, com o ajuste fino. Somos os primeiros a estudar como variações de prompt impactam o desempenho de sondagem em tarefas de teoria da mente. Demonstramos que as representações dos modelos são sensíveis a variações de prompt, mesmo quando tais variações deveriam ser benéficas. Por fim, complementamos experimentos anteriores de edição de ativação em tarefas de Teoria da Mente e mostramos que é possível melhorar o desempenho de raciocínio dos modelos direcionando suas ativações sem a necessidade de treinar qualquer sonda.