Artigos de pesquisa em IA selecionados diariamente com traduções
Os Campos de Radiância Neural (NeRF) enfrentam desafios significativos em cenários de poucas amostras, principalmente devido ao overfitting e longos tempos de treinamento para renderização de alta fidelidade. Métodos existentes, como FreeNeRF e SparseNeRF, utilizam regularização de frequência ou priors pré-treinados, mas enfrentam dificuldades com agendamento complexo e viés. Apresentamos o FrugalNeRF, um novo framework NeRF de poucas amostras que aproveita voxels de compartilhamento de peso em várias escalas para representar eficientemente detalhes da cena. Nossa contribuição chave é um esquema de adaptação geométrica entre escalas que seleciona profundidade pseudo ground truth com base em erros de reprojeção entre escalas. Isso guia o treinamento sem depender de priors aprendidos externamente, permitindo a utilização total dos dados de treinamento. Também pode integrar priors pré-treinados, melhorando a qualidade sem retardar a convergência. Experimentos em LLFF, DTU e RealEstate-10K mostram que o FrugalNeRF supera outros métodos NeRF de poucas amostras, reduzindo significativamente o tempo de treinamento, tornando-o uma solução prática para reconstrução eficiente e precisa de cenas 3D.
O Modelo Segment Anything 2 (SAM 2) surgiu como um modelo fundamental poderoso para a segmentação de objetos em imagens e vídeos, abrindo caminho para várias aplicações de vídeo subsequentes. O design crucial do SAM 2 para segmentação de vídeo é o seu módulo de memória, que promove memórias conscientes de objetos de quadros anteriores para a previsão do quadro atual. No entanto, seu design de memória de seleção gananciosa sofre do problema de "acúmulo de erros", onde uma máscara com erro ou perdida irá se propagar e influenciar a segmentação dos quadros subsequentes, o que limita o desempenho do SAM 2 em vídeos complexos de longo prazo. Para isso, apresentamos o SAM2Long, uma estratégia aprimorada de segmentação de objetos em vídeo sem treinamento, que considera a incerteza de segmentação dentro de cada quadro e escolhe os resultados ótimos em nível de vídeo a partir de múltiplos caminhos de segmentação de maneira de busca em árvore restrita. Na prática, mantemos um número fixo de caminhos de segmentação ao longo do vídeo. Para cada quadro, várias máscaras são propostas com base nos caminhos existentes, criando várias ramificações candidatas. Em seguida, selecionamos o mesmo número fixo de ramificações com pontuações cumulativas mais altas como os novos caminhos para o próximo quadro. Após processar o quadro final, o caminho com a pontuação cumulativa mais alta é escolhido como o resultado final de segmentação. Beneficiando-se de seu design de busca heurística, o SAM2Long é robusto em relação a oclusões e reaparições de objetos, e pode segmentar e rastrear objetos de forma eficaz em vídeos complexos de longo prazo. Notavelmente, o SAM2Long alcança uma melhoria média de 3,0 pontos em todas as 24 comparações diretas, com ganhos de até 5,3 pontos em J&F em benchmarks de segmentação de objetos de vídeo de longo prazo, como SA-V e LVOS. O código está disponível em https://github.com/Mark12Ding/SAM2Long.
A avaliação eficiente e precisa é crucial para a melhoria contínua dos grandes modelos de linguagem (LLMs). Entre vários métodos de avaliação, a avaliação subjetiva tem recebido atenção significativa devido à sua excelente adequação com cenários de uso do mundo real e preferências humanas. No entanto, as avaliações baseadas em humanos são dispendiosas e carecem de reprodutibilidade, tornando os avaliadores automatizados precisos (juízes) vitais nesse processo. Neste relatório, apresentamos o CompassJudger-1, o primeiro juiz LLM de código aberto tudo-em-um. O CompassJudger-1 é um LLM de propósito geral que demonstra notável versatilidade. Ele é capaz de: 1. Realizar pontuações unitárias e comparações de dois modelos como um modelo de recompensa; 2. Conduzir avaliações de acordo com formatos especificados; 3. Gerar críticas; 4. Executar tarefas diversas como um LLM geral. Para avaliar as capacidades de avaliação de diferentes modelos de juiz em um ambiente unificado, também estabelecemos o JudgerBench, um novo benchmark que abrange várias tarefas de avaliação subjetiva e cobre uma ampla gama de tópicos. O CompassJudger-1 oferece uma solução abrangente para várias tarefas de avaliação, mantendo a flexibilidade para se adaptar a diversos requisitos. Tanto o CompassJudger quanto o JudgerBench foram lançados e estão disponíveis para a comunidade de pesquisa em https://github.com/open-compass/CompassJudger. Acreditamos que, ao disponibilizar essas ferramentas de código aberto, podemos promover a colaboração e acelerar o progresso nas metodologias de avaliação de LLMs.
Com os avanços nos modelos de código aberto, treinar (ou ajustar) modelos em conjuntos de dados personalizados tornou-se uma parte crucial do desenvolvimento de soluções adaptadas a aplicações industriais específicas ou de código aberto. No entanto, não há uma única ferramenta que simplifique o processo de treinamento em diferentes tipos de modalidades ou tarefas. Apresentamos o AutoTrain (também conhecido como AutoTrain Advanced) - uma ferramenta/biblioteca de código aberto que pode ser usada para treinar (ou ajustar) modelos para diferentes tipos de tarefas, como: ajuste fino de modelos de linguagem grandes (LLM), classificação/regressão de texto, classificação de tokens, tarefa sequência-a-sequência, ajuste fino de transformadores de sentenças, ajuste fino de modelos de linguagem visual (VLM), classificação/regressão de imagens e até tarefas de classificação e regressão em dados tabulares. O AutoTrain Advanced é uma biblioteca de código aberto que fornece as melhores práticas para treinar modelos em conjuntos de dados personalizados. A biblioteca está disponível em https://github.com/huggingface/autotrain-advanced. O AutoTrain pode ser usado no modo totalmente local ou em máquinas na nuvem e funciona com dezenas de milhares de modelos compartilhados no Hugging Face Hub e suas variações.
Os avanços recentes em modelos de base multimodal têm proporcionado progressos significativos na compreensão visão-linguagem. Tentativas iniciais também exploraram o potencial de grandes modelos de linguagem multimodais (MLLMs) para geração de conteúdo visual. No entanto, trabalhos existentes abordaram de forma insuficiente as diferentes demandas de granularidade de tarefas de geração de imagem dentro de um paradigma unificado MLLM - desde a diversidade necessária na geração de texto para imagem até a precisão controlável necessária na manipulação de imagem. Neste trabalho, propomos PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifica características visuais multi-granulares como entradas e saídas dos MLLMs, abordando de forma elegante os diferentes requisitos de granularidade de várias tarefas de geração de imagem dentro de um framework MLLM unificado. Após o pré-treinamento multimodal e ajuste de instruções específicas da tarefa, PUMA demonstra proficiência em uma ampla gama de tarefas multimodais. Este trabalho representa um passo significativo em direção a um MLLM verdadeiramente unificado capaz de se adaptar às demandas de granularidade de várias tarefas visuais. O código e o modelo serão disponibilizados em https://github.com/rongyaofang/PUMA.
Apresentamos o Alinhamento Baichuan, uma análise detalhada das técnicas de alinhamento empregadas na série de modelos Baichuan. Isso representa o primeiro relato abrangente da indústria sobre metodologias de alinhamento, oferecendo insights valiosos para o avanço da pesquisa em IA. Investigamos os componentes críticos que aprimoram o desempenho do modelo durante o processo de alinhamento, incluindo métodos de otimização, estratégias de dados, aprimoramentos de capacidade e processos de avaliação. O processo abrange três etapas-chave: Sistema de Augmentação de Prompt (PAS), Ajuste Fino Supervisionado (SFT) e Alinhamento de Preferência. Os problemas encontrados, as soluções aplicadas e as melhorias realizadas são minuciosamente registrados. Por meio de comparações em benchmarks bem estabelecidos, destacamos os avanços tecnológicos possibilitados pelo Alinhamento Baichuan. O Baichuan-Instruct é um modelo interno, enquanto o Qwen2-Nova-72B e o Llama3-PBM-Nova-70B são versões instruct dos modelos base Qwen2-72B e Llama-3-70B, otimizados por meio do Alinhamento Baichuan. O Baichuan-Instruct demonstra melhorias significativas nas capacidades principais, com ganhos na experiência do usuário variando de 17% a 28%, e apresenta um desempenho excepcional em benchmarks especializados. Em avaliações de benchmarks de código aberto, tanto o Qwen2-Nova-72B quanto o Llama3-PBM-Nova-70B superam consistentemente suas respectivas versões instruct oficiais em quase todos os conjuntos de dados. Este relatório tem como objetivo esclarecer as principais tecnologias por trás do processo de alinhamento, promovendo uma compreensão mais profunda dentro da comunidade. O modelo Llama3-PBM-Nova-70B está disponível em https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
A adaptação supervisionada fina (ASF) é crucial na adaptação de grandes modelos de linguagem (MLs) a um domínio ou tarefa específica. No entanto, apenas uma quantidade limitada de dados rotulados está disponível em aplicações práticas, o que representa um desafio significativo para a ASF em produzir resultados satisfatórios. Portanto, um arcabouço eficiente em dados que possa explorar totalmente dados rotulados e não rotulados para o ajuste fino de MLs é altamente esperado. Com esse objetivo, apresentamos um arcabouço de ajuste fino semi-supervisionado chamado SemiEvol para adaptação de MLs a partir de um método de propagação e seleção. Para a propagação de conhecimento, o SemiEvol adota uma abordagem em dois níveis, propagando conhecimento dos dados rotulados para os não rotulados por meio de métodos de peso interno e de contexto interno. Para a seleção de conhecimento, o SemiEvol incorpora um mecanismo de aprendizado colaborativo, selecionando amostras de pseudo-resposta de maior qualidade. Realizamos experimentos utilizando GPT-4o-mini e Llama-3.1 em sete conjuntos de dados gerais ou específicos de domínio, demonstrando melhorias significativas no desempenho do modelo nos dados-alvo. Além disso, comparamos o SemiEvol com métodos ASF e de autoevolução, destacando sua praticidade em cenários de dados híbridos.
Apesar dos avanços recentes em modelos de linguagem multimodais de grande escala (MLLMs), seu desenvolvimento tem se concentrado predominantemente em conjuntos de dados e tarefas em inglês e ocidentais, deixando a maioria dos idiomas do mundo e contextos culturais diversos sub-representados. Este artigo apresenta o Pangea, um MLLM multilíngue multimodal treinado no PangeaIns, um conjunto de dados de instruções diverso com 6 milhões de exemplos abrangendo 39 idiomas. O PangeaIns apresenta: 1) instruções em inglês de alta qualidade, 2) instruções traduzidas cuidadosamente por máquina e 3) tarefas multimodais culturalmente relevantes para garantir uma cobertura intercultural. Para avaliar rigorosamente as capacidades dos modelos, introduzimos o PangeaBench, um conjunto abrangente de avaliação que engloba 14 conjuntos de dados cobrindo 47 idiomas. Os resultados mostram que o Pangea supera significativamente os modelos de código aberto existentes em ambientes multilíngues e contextos culturais diversos. Estudos de ablação também revelam a importância das proporções de dados em inglês, da popularidade do idioma e do número de amostras de treinamento multimodais no desempenho geral. Disponibilizamos totalmente nossos dados, código e pontos de verificação treinados, para facilitar o desenvolvimento de MLLMs multilíngues inclusivos e robustos, promovendo equidade e acessibilidade em um espectro linguístico e cultural mais amplo.
Os modelos de recompensa são críticos em técnicas como Aprendizado por Reforço a partir de Feedback Humano (RLHF) e Leis de Escalonamento de Inferência, onde eles orientam o alinhamento do modelo de linguagem e selecionam respostas ótimas. Apesar de sua importância, os benchmarks existentes para modelos de recompensa frequentemente avaliam os modelos pedindo que eles distingam entre respostas geradas por modelos de diferentes capacidades. No entanto, essa abordagem falha em avaliar os modelos de recompensa em mudanças de conteúdo sutis, mas críticas, e variações de estilo, resultando em uma baixa correlação com o desempenho do modelo de política. Nesse sentido, apresentamos o RM-Bench, um novo benchmark projetado para avaliar modelos de recompensa com base em sua sensibilidade a diferenças sutis de conteúdo e resistência a preconceitos de estilo. Experimentos extensivos demonstram que o RM-Bench se correlaciona fortemente com o desempenho do modelo de política, tornando-se uma referência confiável para selecionar modelos de recompensa para alinhar efetivamente modelos de linguagem. Avaliamos quase 40 modelos de recompensa no RM-Bench. Nossos resultados revelam que mesmo os modelos de ponta alcançam um desempenho médio de apenas 46,6%, o que fica aquém da precisão ao nível aleatório (50%) quando confrontados com interferência de preconceitos de estilo. Essas descobertas destacam a significativa margem para melhoria nos modelos de recompensa atuais. O código relacionado e os dados estão disponíveis em https://github.com/THU-KEG/RM-Bench.
A Geração com Recuperação Aprimorada (RAG), embora sirva como um complemento viável para os grandes modelos de linguagem (LLMs), frequentemente negligencia o aspecto crucial da segmentação de texto dentro de seu pipeline, o que impacta a qualidade de tarefas intensivas em conhecimento. Este artigo introduz o conceito de Meta-Segmentação, que se refere a uma granularidade entre frases e parágrafos, consistindo em uma coleção de frases dentro de um parágrafo que possuem conexões lógicas linguísticas profundas. Para implementar a Meta-Segmentação, projetamos duas estratégias baseadas em LLMs: Segmentação por Amostragem de Margem e Segmentação por Perplexidade. A primeira emprega LLMs para realizar classificação binária sobre se frases consecutivas precisam ser segmentadas, tomando decisões com base na diferença de probabilidade obtida a partir da amostragem de margem. A última identifica precisamente os limites dos segmentos de texto analisando as características da distribuição de perplexidade. Além disso, considerando a complexidade inerente de diferentes textos, propomos uma estratégia que combina a Meta-Segmentação com fusão dinâmica para alcançar um equilíbrio entre a segmentação de texto granular e grosseira. Experimentos realizados em onze conjuntos de dados demonstram que a Meta-Segmentação pode melhorar de forma mais eficiente o desempenho de perguntas de um único salto e de vários saltos com base em RAG. Por exemplo, no conjunto de dados 2WikiMultihopQA, supera a segmentação por similaridade em 1,32, consumindo apenas 45,8% do tempo. Nosso código está disponível em https://github.com/IAAR-Shanghai/Meta-Segmentação.
A destilação de conhecimento (KD) tem como objetivo transferir conhecimento de um modelo professor grande para um modelo aluno menor. Trabalhos anteriores aplicando KD no campo de grandes modelos de linguagem (LLMs) tipicamente focaram na fase pós-treinamento, onde o LLM aluno aprende diretamente a partir de instruções e respostas correspondentes geradas pelo modelo professor. Neste artigo, estendemos o KD para a fase de pré-treinamento de LLMs, denominada destilação de pré-treinamento (PD). Primeiramente, realizamos um experimento preliminar utilizando o GLM-4-9B como o LLM professor para destilar um LLM aluno com 1.9B de parâmetros, validando a eficácia do PD. Considerando os principais fatores de impacto da destilação, exploramos sistematicamente o espaço de design da destilação de pré-treinamento em quatro aspectos: processamento de logits, seleção de perda, lei de escala e logits offline ou online. Realizamos experimentos extensivos para explorar o espaço de design da destilação de pré-treinamento e encontramos melhores configurações e conclusões interessantes, como o fato de LLMs alunos maiores geralmente se beneficiarem mais da destilação de pré-treinamento, enquanto um LLM professor maior não garante necessariamente melhores resultados. Esperamos que nossa exploração do espaço de design informe práticas futuras na destilação de pré-treinamento.
Provas formais são desafiadoras de serem escritas, mesmo para especialistas experientes. O progresso recente em Prova de Teoremas Neurais (PTN) mostra promessa em acelerar esse processo. No entanto, os corpora formais disponíveis na Internet são limitados em comparação com o texto geral, apresentando um desafio significativo de escassez de dados para PTN. Para lidar com esse problema, este trabalho propõe Alquimia, um framework geral para síntese de dados que constrói teoremas formais por meio de mutação simbólica. Especificamente, para cada teorema candidato em Mathlib, identificamos todos os teoremas invocáveis que podem ser usados para reescrevê-lo ou aplicá-lo. Posteriormente, mutamos o teorema candidato substituindo o termo correspondente na afirmação por sua forma equivalente ou antecedente. Como resultado, nosso método aumenta o número de teoremas em Mathlib em uma ordem de magnitude, de 110k para 6M. Além disso, realizamos pré-treinamento contínuo e ajuste fino supervisionado neste corpus ampliado para grandes modelos de linguagem. Resultados experimentais demonstram a eficácia de nossa abordagem, alcançando uma melhoria de desempenho absoluto de 5% no benchmark Leandojo. Adicionalmente, nossos dados sintéticos alcançam um ganho de desempenho absoluto de 2,5% no benchmark miniF2F fora da distribuição. Para fornecer mais insights, realizamos uma análise abrangente da composição dos dados sintéticos e do paradigma de treinamento, oferecendo orientações valiosas para o desenvolvimento de um forte provador de teoremas.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o processamento de linguagem natural, mas sua aplicação em tarefas baseadas em fala ainda é desafiadora devido às complexidades de integrar as modalidades de áudio e texto. Este artigo apresenta o Ichigo, um modelo multimodal que processa de forma integrada sequências entrelaçadas de fala e texto. Utilizando uma abordagem de fusão precoce tokenizada, o Ichigo quantiza a fala em tokens discretos e emprega uma arquitetura uniforme baseada em transformers para ambas as modalidades de fala e texto. Este método permite raciocínio e geração conjunta entre as modalidades sem a necessidade de adaptadores separados. Apresentamos uma metodologia abrangente de treinamento, incluindo pré-treinamento em conjuntos de dados multilíngues de reconhecimento de fala e ajuste fino em um conjunto de dados de instruções selecionado. O Ichigo demonstra desempenho de ponta em benchmarks de perguntas e respostas de fala, superando os modelos de linguagem de fala de código aberto existentes e alcançando resultados comparáveis aos sistemas em cascata. Notavelmente, o Ichigo exibe uma latência de apenas 111 ms para a geração do primeiro token, significativamente menor do que os modelos atuais. Nossa abordagem não apenas avança o campo da IA multimodal, mas também fornece um framework para que equipes de pesquisa menores contribuam de forma eficaz para modelos de linguagem de fala de código aberto.
As emergentes capacidades de zero-shot dos Grandes Modelos de Linguagem (LLMs) levaram à sua aplicação em áreas que vão muito além das tarefas de processamento de linguagem natural. No aprendizado por reforço, embora os LLMs tenham sido amplamente utilizados em ambientes baseados em texto, sua integração com espaços de estado contínuos ainda é pouco estudada. Neste artigo, investigamos como os LLMs pré-treinados podem ser aproveitados para prever, em contexto, a dinâmica de processos de decisão de Markov contínuos. Identificamos o tratamento de dados multivariados e a incorporação do sinal de controle como desafios-chave que limitam o potencial de implementação dos LLMs nesse cenário e propomos o Aprendizado em Contexto Desembaraçado (DICL) para abordá-los. Apresentamos aplicações de prova de conceito em duas configurações de aprendizado por reforço: avaliação de política baseada em modelo e aprendizado por reforço fora de política com dados aumentados, apoiadas por análises teóricas dos métodos propostos. Nossos experimentos demonstram ainda que nossa abordagem produz estimativas de incerteza bem calibradas. Disponibilizamos o código em https://github.com/abenechehab/dicl.
A expansão de grandes modelos de linguagem para lidar efetivamente com instruções que possuem contextos extremamente longos ainda não foi totalmente investigada. O principal obstáculo reside na construção de um conjunto de dados de alta qualidade para seguir instruções longas, elaborado para o alinhamento de contextos longos. Estudos existentes tentaram aumentar o volume de dados disponíveis sintetizando amostras de seguimento de instruções longas. No entanto, aumentar indiscriminadamente a quantidade de dados sem uma estratégia bem definida para garantir a qualidade dos dados pode introduzir amostras de baixa qualidade e restringir o desempenho final. Para preencher essa lacuna, nosso objetivo é abordar o desafio único do alinhamento de contextos longos, ou seja, modelar as dependências de longo alcance para lidar com instruções e contextos de entrada extensos. Propomos o GATEAU, um novo framework projetado para identificar as amostras influentes e de alta qualidade enriquecidas com relações de dependência de longo alcance, utilizando Orientação de Modelos Homólogos (HMG) e Medição de Consciência Contextual (CAM) elaboradas. Especificamente, a HMG tenta medir a dificuldade de gerar respostas correspondentes devido às dependências de longo alcance, utilizando os escores de perplexidade da resposta de dois modelos homólogos com diferentes janelas de contexto. Além disso, o papel do CAM é medir a dificuldade de compreender os contextos de entrada longos devido às dependências de longo alcance, avaliando se a atenção do modelo está focada em segmentos importantes. Com base nos dois métodos propostos, selecionamos as amostras mais desafiadoras como dados influentes para enquadrar efetivamente as dependências de longo alcance, alcançando assim um melhor desempenho dos LLMs. Experimentos abrangentes indicam que o GATEAU identifica efetivamente amostras enriquecidas com relações de dependência de longo alcance e o modelo treinado com essas amostras selecionadas apresenta melhores capacidades de seguir instruções e compreender contextos longos.
Modelos de texto para imagem são treinados usando grandes conjuntos de dados coletados por raspagem de pares de imagem-texto da internet. Esses conjuntos de dados frequentemente incluem material privado, protegido por direitos autorais e licenciado. Treinar modelos com tais conjuntos de dados permite que eles gerem imagens com esse conteúdo, o que pode violar leis de direitos autorais e privacidade individual. Esse fenômeno é denominado imitação - geração de imagens com conteúdo que possui similaridade reconhecível com suas imagens de treinamento. Neste trabalho, estudamos a relação entre a frequência de um conceito no conjunto de dados de treinamento e a capacidade de um modelo imitá-lo. Buscamos determinar o ponto em que um modelo foi treinado com instâncias suficientes para imitar um conceito - o limiar de imitação. Colocamos essa questão como um novo problema: Encontrar o Limiar de Imitação (FIT) e propomos uma abordagem eficiente que estima o limiar de imitação sem incorrer no custo colossal de treinar vários modelos do zero. Experimentamos com dois domínios - rostos humanos e estilos de arte - para os quais criamos quatro conjuntos de dados e avaliamos três modelos de texto para imagem que foram treinados em dois conjuntos de dados de pré-treinamento. Nossos resultados revelam que o limiar de imitação desses modelos está na faixa de 200-600 imagens, dependendo do domínio e do modelo. O limiar de imitação pode fornecer uma base empírica para reivindicações de violação de direitos autorais e atua como um princípio orientador para desenvolvedores de modelos de texto para imagem que visam cumprir as leis de direitos autorais e privacidade. Disponibilizamos o código e os dados em https://github.com/vsahil/MIMETIC-2.git e o site do projeto está hospedado em https://how-many-van-goghs-does-it-take.github.io.
Apresentamos o Agent-to-Sim (ATS), um framework para aprender modelos de comportamento interativo de agentes 3D a partir de coleções casuais de vídeos longitudinais. Diferentemente de trabalhos anteriores que dependem de rastreamento baseado em marcadores e câmeras multivisão, o ATS aprende comportamentos naturais de agentes animais e humanos de forma não invasiva por meio de observações em vídeo gravadas ao longo de um longo período de tempo (por exemplo, um mês) em um único ambiente. Modelar o comportamento 3D de um agente requer rastreamento 3D persistente (por exemplo, saber qual ponto corresponde a qual) ao longo de um longo período de tempo. Para obter tais dados, desenvolvemos um método de registro de baixo para alto que rastreia o agente e a câmera ao longo do tempo por meio de um espaço 3D canônico, resultando em uma representação 4D espaço-tempo completa e persistente. Em seguida, treinamos um modelo generativo de comportamentos de agentes usando dados em pares de percepção e movimento de um agente consultados a partir da reconstrução 4D. O ATS possibilita a transferência de realidade para simulação a partir de gravações de vídeo de um agente para um simulador de comportamento interativo. Demonstramos resultados em animais de estimação (por exemplo, gato, cachorro, coelho) e humanos, a partir de vídeos RGBD monoculares capturados por um smartphone.
Existe uma lacuna significativa entre as necessidades dos pacientes e o suporte disponível em saúde mental hoje. Neste artigo, temos como objetivo examinar minuciosamente o potencial de utilizar Modelos de Linguagem de Grande Escala (LLMs) para auxiliar a psicoterapia profissional. Para isso, propomos um novo benchmark, CBT-BENCH, para a avaliação sistemática da assistência à terapia cognitivo-comportamental (CBT). Incluímos três níveis de tarefas no CBT-BENCH: I: Aquisição de conhecimento básico de CBT, com a tarefa de perguntas de múltipla escolha; II: Compreensão do modelo cognitivo, com as tarefas de classificação de distorção cognitiva, classificação de crença central primária e classificação de crença central detalhada; III: Geração de resposta terapêutica, com a tarefa de gerar respostas ao discurso do paciente em sessões de terapia CBT. Essas tarefas abrangem aspectos-chave da CBT que poderiam ser aprimorados por meio da assistência de IA, ao mesmo tempo em que delineiam uma hierarquia de requisitos de capacidade, que vão desde a recitação de conhecimento básico até a participação em conversas terapêuticas reais. Avaliamos LLMs representativos em nosso benchmark. Os resultados experimentais indicam que, embora os LLMs se saiam bem na recitação do conhecimento de CBT, eles ficam aquém em cenários do mundo real complexos que exigem uma análise profunda das estruturas cognitivas dos pacientes e a geração de respostas eficazes, sugerindo possíveis trabalhos futuros.
Os modelos tradicionais de transformadores frequentemente alocam uma quantidade fixa de recursos computacionais para cada token de entrada, resultando em cálculos ineficientes e desnecessários. Para lidar com isso, o Mixture of Depths (MoD) foi introduzido para ajustar dinamicamente a profundidade computacional ao pular camadas menos importantes. Apesar de sua promessa, as abordagens MoD atuais permanecem pouco exploradas e enfrentam dois desafios principais: (1) altos custos de treinamento devido à necessidade de treinar o modelo inteiro juntamente com os roteadores que determinam quais camadas pular, e (2) o risco de degradação de desempenho quando camadas importantes são ignoradas. Em resposta ao primeiro problema, propomos o Ajuste de Roteador, um método que ajusta apenas o roteador em um pequeno conjunto de dados, reduzindo drasticamente o overhead computacional associado ao treinamento completo do modelo. Para o segundo desafio, propomos o MindSkip, que implementa Atenção com Profundidades Dinâmicas. Este método preserva o desempenho do modelo enquanto melhora significativamente a eficiência computacional e de memória. Experimentos extensivos demonstram que nossa abordagem oferece resultados competitivos enquanto melhora drasticamente a eficiência de cálculo, por exemplo, 21% de aceleração e apenas uma queda de desempenho de 0,2%. O código está disponível em https://github.com/CASE-Lab-UMD/Router-Tuning.
Os avanços recentes em modelos de linguagem de fala resultaram em melhorias significativas na tokenização e síntese de fala. No entanto, mapear efetivamente os atributos complexos e multidimensionais da fala em tokens discretos continua sendo um desafio. Esse processo requer informações acústicas, semânticas e contextuais para representações precisas da fala. As representações de fala existentes geralmente se enquadram em duas categorias: tokens acústicos de codecs de áudio e tokens semânticos de modelos de aprendizado auto-supervisionado de fala. Embora esforços recentes tenham unificado tokens acústicos e semânticos para melhorar o desempenho, eles negligenciam o papel crucial da representação contextual na modelagem abrangente da fala. Nossas investigações empíricas revelam que a ausência de representações contextuais resulta em taxas elevadas de Erro de Palavra (WER) e Perda de Informação de Palavra (WIL) em transcrições de fala. Para lidar com essas limitações, propomos duas abordagens de destilação inovadoras: (1) um método de destilação guiado por modelo de linguagem (LM) que incorpora informações contextuais, e (2) uma técnica de destilação guiada por LM combinado e modelo de fala auto-supervisionado (SM) que destila efetivamente representações multimodais (acústicas, semânticas e contextuais) em um tokenizador de fala abrangente, denominado DM-Codec. A arquitetura DM-Codec adota um framework codificador-decodificador simplificado com um Quantizador Vetorial Residual (RVQ) e incorpora o LM e SM durante o processo de treinamento. Experimentos mostram que o DM-Codec supera significativamente os modelos de tokenização de fala de ponta, reduzindo o WER em até 13,46%, o WIL em 9,82%, e melhorando a qualidade da fala em 5,84% e a inteligibilidade em 1,85% no conjunto de dados de referência LibriSpeech. O código, amostras e checkpoints do modelo estão disponíveis em https://github.com/mubtasimahasan/DM-Codec.
O objetivo do aprendizado de máquina é a generalização. Enquanto o Teorema No Free Lunch afirma que não podemos obter garantias teóricas para a generalização sem mais pressupostos, na prática observamos que modelos simples que explicam os dados de treinamento generalizam melhor: um princípio chamado navalha de Occam. Apesar da necessidade de modelos simples, a maioria das abordagens atuais em aprendizado de máquina apenas minimiza o erro de treinamento e, no máximo, promove indiretamente a simplicidade por meio de regularização ou design de arquitetura. Aqui, estabelecemos uma conexão entre a navalha de Occam e o aprendizado em contexto: uma habilidade emergente de certos modelos de sequência como os Transformers para aprender no momento da inferência a partir de observações passadas em uma sequência. Em particular, mostramos que a perda de previsão do próximo token usada para treinar aprendizes em contexto é diretamente equivalente a uma técnica de compressão de dados chamada codificação prequential, e que minimizar essa perda equivale a minimizar conjuntamente tanto o erro de treinamento quanto a complexidade do modelo que foi implicitamente aprendida do contexto. Nossa teoria e os experimentos empíricos que utilizamos para apoiá-la não apenas fornecem uma explicação normativa do aprendizado em contexto, mas também elucidam as deficiências dos métodos atuais de aprendizado em contexto, sugerindo maneiras pelas quais eles podem ser aprimorados. Disponibilizamos nosso código em https://github.com/3rdCore/PrequentialCode.
À medida que os grandes modelos de linguagem (LLMs) são cada vez mais implementados em diversas indústrias, crescem as preocupações sobre sua confiabilidade, especialmente devido às alucinações - saídas que são factualmente imprecisas ou irrelevantes para a entrada do usuário. Nossa pesquisa investiga a relação entre o processo de treinamento e o surgimento de alucinações para abordar uma lacuna importante na pesquisa existente, que se concentra principalmente em estratégias de detecção e mitigação pós-hoc. Utilizando modelos da suíte Pythia (70M-12B parâmetros) e várias métricas de detecção de alucinações, analisamos as tendências de alucinação ao longo do treinamento e exploramos a dinâmica interna dos LLMs. Apresentamos o SEnsitive Neuron Dropout (SeND), um novo protocolo de treinamento projetado para mitigar alucinações, reduzindo a variância durante o treinamento. O SeND alcança isso ao descartar deterministicamente neurônios com variabilidade significativa em um conjunto de dados, denominados Neurônios Sensíveis. Além disso, desenvolvemos uma métrica de detecção de alucinações não supervisionada, o Efficient EigenScore (EES), que aproxima o EigenScore tradicional em dobro da velocidade. Essa métrica eficiente é integrada em nosso protocolo, permitindo que o SeND seja tanto computacionalmente escalável quanto eficaz na redução de alucinações. Nossa avaliação empírica demonstra que nossa abordagem melhora a confiabilidade do LLM no momento do teste em até 40% em comparação com o treinamento normal, fornecendo também um método eficiente para melhorar a precisão factual ao adaptar LLMs para domínios como Wikipedia e conjuntos de dados médicos.
A avaliação de texto gerado por máquina continua a ser um desafio significativo em PNL, especialmente para idiomas não ingleses. As metodologias atuais, incluindo métricas automatizadas, avaliações humanas e avaliações baseadas em LLMs, focam predominantemente no inglês, revelando uma lacuna significativa em frameworks de avaliação multilíngue. Apresentamos o Conjunto de Avaliação Automática Translingue (CIA), um framework extensível que inclui LLMs avaliadores (Hercule) e um novo conjunto de testes (Recon) especificamente projetado para avaliação multilíngue. Nosso conjunto de testes apresenta 500 instruções humanas anotadas abrangendo várias capacidades de tarefas, juntamente com pontuações de julgamento humano em seis idiomas. Isso permitiria a comparação de LLMs multilíngues de propósito geral e facilitaria a meta-avaliação de LLMs Avaliadores. O modelo proposto, Hercule, é um modelo de avaliação translingue que aborda a escassez de respostas de referência no idioma-alvo ao aprender a atribuir pontuações às respostas com base em respostas de referência facilmente disponíveis em inglês. Nossos experimentos demonstram que Hercule se alinha mais estreitamente com os julgamentos humanos em comparação com modelos proprietários, demonstrando a eficácia de tal avaliação translingue em cenários de recursos limitados. Além disso, também é eficaz na avaliação de zero-shot em idiomas não vistos anteriormente. Este estudo é a primeira análise abrangente da avaliação translingue usando LLMs, apresentando uma abordagem escalável e eficaz para avaliação multilíngue. Todo o código, conjuntos de dados e modelos estarão disponíveis publicamente para possibilitar pesquisas adicionais nesta área importante.