Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) abriram novas possibilidades para aplicações em IA Incorporada. Construindo sobre trabalhos anteriores, EgoThink, introduzimos VidEgoThink, um benchmark abrangente para avaliar as capacidades de compreensão de vídeo egocêntrico. Para preencher a lacuna entre MLLMs e controle de baixo nível em IA Incorporada, projetamos quatro tarefas-chave inter-relacionadas: questionamento-resposta de vídeo, planejamento hierárquico, ancoramento visual e modelagem de recompensa. Para minimizar os custos de anotação manual, desenvolvemos um pipeline de geração de dados automático com base no conjunto de dados Ego4D, aproveitando o conhecimento prévio e as capacidades multimodais do GPT-4o. Três anotadores humanos então filtram os dados gerados para garantir diversidade e qualidade, resultando no benchmark VidEgoThink. Realizamos experimentos extensivos com três tipos de modelos: MLLMs baseados em API, MLLMs baseados em imagem de código aberto e MLLMs baseados em vídeo de código aberto. Os resultados experimentais indicam que todos os MLLMs, incluindo o GPT-4o, têm desempenho fraco em todas as tarefas relacionadas à compreensão de vídeo egocêntrico. Essas descobertas sugerem que os modelos fundamentais ainda requerem avanços significativos para serem aplicados de forma eficaz em cenários em primeira pessoa em IA Incorporada. Em conclusão, VidEgoThink reflete uma tendência de pesquisa em direção ao uso de MLLMs para visão egocêntrica, semelhante às capacidades humanas, possibilitando observação ativa e interação em ambientes complexos do mundo real.
Tarefas de codificação têm sido valiosas para avaliar Modelos de Linguagem de Grande Escala (LLMs), pois exigem a compreensão de instruções de alto nível, raciocínio complexo e implementação de programas funcionais - capacidades essenciais para o avanço da Inteligência Artificial Geral. Apesar do progresso em Modelos Multimodais de Grande Escala (LMMs), que estendem os LLMs com capacidades de percepção e compreensão visual, ainda há uma notável falta de benchmarks de codificação que avaliem rigorosamente esses modelos, especialmente em tarefas que enfatizam o raciocínio visual. Para abordar essa lacuna, apresentamos o HumanEval-V, um benchmark inovador e leve projetado especificamente para avaliar as capacidades de compreensão e raciocínio visual dos LMMs por meio da geração de código. O HumanEval-V inclui 108 tarefas de codificação em Python de nível básico cuidadosamente elaboradas, derivadas de plataformas como CodeForces e Stack Overflow. Cada tarefa é adaptada modificando o contexto e os padrões algorítmicos dos problemas originais, com elementos visuais redesenhados para garantir distinção da fonte, evitando possíveis vazamentos de dados. Os LMMs devem completar a solução de código com base no contexto visual fornecido e em uma assinatura de função Python predefinida que descreve os requisitos da tarefa. Cada tarefa é equipada com casos de teste meticulosamente elaborados para garantir uma avaliação completa e confiável das soluções geradas pelo modelo. Avaliamos 19 LMMs de última geração usando o HumanEval-V, revelando desafios significativos. Modelos proprietários como o GPT-4o alcançam apenas 13% de aprovação@1 e 36,4% de aprovação@10, enquanto modelos de peso aberto com 70B de parâmetros pontuam abaixo de 4% de aprovação@1. Estudos de ablação ainda revelam as limitações dos LMMs atuais em raciocínio visual e capacidades de codificação. Esses resultados destacam áreas-chave para pesquisas futuras visando aprimorar as capacidades dos LMMs. Disponibilizamos nosso código e benchmark em código aberto em https://github.com/HumanEval-V/HumanEval-V-Benchmark.
A Análise de Layout de Documentos é crucial para sistemas de compreensão de documentos do mundo real, porém enfrenta um desafiador equilíbrio entre velocidade e precisão: métodos multimodais que alavancam tanto características textuais quanto visuais alcançam maior precisão, mas sofrem com uma latência significativa, enquanto métodos unimodais que dependem exclusivamente de características visuais oferecem velocidades de processamento mais rápidas em detrimento da precisão. Para lidar com esse dilema, apresentamos o DocLayout-YOLO, uma abordagem inovadora que aprimora a precisão mantendo vantagens de velocidade por meio de otimizações específicas para documentos tanto no pré-treinamento quanto no design do modelo. Para um pré-treinamento robusto de documentos, introduzimos o algoritmo Mesh-candidate BestFit, que formula a síntese de documentos como um problema de empacotamento de caixas bidimensional, gerando o conjunto de dados DocSynth-300K em larga escala e diversificado. O pré-treinamento no conjunto de dados resultante DocSynth-300K melhora significativamente o desempenho de ajuste fino em vários tipos de documentos. Em termos de otimização do modelo, propomos um Módulo Receptivo Controlável Global-para-Local capaz de lidar melhor com variações multiescala de elementos do documento. Além disso, para validar o desempenho em diferentes tipos de documentos, introduzimos um benchmark complexo e desafiador denominado DocStructBench. Experimentos extensivos em conjuntos de dados secundários demonstram que o DocLayout-YOLO se destaca tanto em velocidade quanto em precisão. Código, dados e modelos estão disponíveis em https://github.com/opendatalab/DocLayout-YOLO.
Os avanços recentes em grandes modelos multimodais (LMMs) têm melhorado significativamente o desempenho em diversas tarefas, com esforços contínuos para integrar ainda mais modalidades adicionais, como vídeo e áudio. No entanto, a maioria dos LMMs existentes permanece vulnerável a alucinações, a discrepância entre a entrada multimodal factual e a saída textual gerada, o que tem limitado sua aplicabilidade em vários cenários do mundo real. Este artigo apresenta a primeira investigação sistemática de alucinações em LMMs envolvendo as três modalidades mais comuns: linguagem, visual e áudio. Nosso estudo revela dois principais contribuintes para as alucinações: a dependência excessiva em prioridades unimodais e correlações espúrias entre modalidades. Para lidar com esses desafios, introduzimos o benchmark A Maldição das Multi-Modalidades (CMM), que avalia abrangente as alucinações em LMMs, fornecendo uma análise detalhada de seus problemas subjacentes. Nossas descobertas destacam vulnerabilidades-chave, incluindo desequilíbrios na integração de modalidades e vieses dos dados de treinamento, enfatizando a necessidade de aprendizado cruzado equilibrado entre modalidades e estratégias aprimoradas de mitigação de alucinações. Com base em nossas observações e descobertas, sugerimos direções de pesquisa potenciais que poderiam aprimorar a confiabilidade dos LMMs.
O planeamento autónomo tem sido uma busca contínua desde o início da inteligência artificial. Com base em solucionadores de problemas selecionados, agentes de planeamento iniciais conseguiam fornecer soluções precisas para tarefas específicas, mas careciam de generalização. A emergência de grandes modelos de linguagem (LLMs) e suas poderosas capacidades de raciocínio reacendeu o interesse no planeamento autónomo ao gerar automaticamente soluções razoáveis para tarefas específicas. No entanto, pesquisas anteriores e nossos experimentos mostram que os atuais agentes de linguagem ainda carecem de habilidades de planeamento ao nível humano. Mesmo o modelo de raciocínio de ponta, OpenAI o1, alcança apenas 15,6% em um dos complexos benchmarks de planeamento do mundo real. Isso destaca uma questão crítica: O que impede os agentes de linguagem de alcançar o planeamento ao nível humano? Embora estudos existentes tenham destacado o fraco desempenho no planeamento de agentes, as questões subjacentes mais profundas e os mecanismos e limitações das estratégias propostas para abordá-las permanecem insuficientemente compreendidos. Neste trabalho, aplicamos o estudo de atribuição de características e identificamos dois fatores-chave que impedem o planeamento de agentes: o papel limitado das restrições e a influência decrescente das perguntas. Também descobrimos que, embora as estratégias atuais ajudem a mitigar esses desafios, elas não os resolvem completamente, indicando que os agentes ainda têm um longo caminho a percorrer antes de alcançar a inteligência ao nível humano.
A fusão de modelos tornou-se uma das tecnologias-chave para aprimorar as capacidades e eficiência de Modelos de Linguagem de Grande Escala (LLMs). No entanto, nossa compreensão dos ganhos de desempenho esperados e dos princípios ao mesclar quaisquer dois modelos permanece limitada. Neste trabalho, introduzimos a parentesca de modelos, o grau de similaridade ou parentesco entre LLMs, análogo à evolução biológica. Com uma análise empírica abrangente, descobrimos que há uma relação entre a parentesca de modelos e os ganhos de desempenho após a fusão de modelos, o que pode ajudar a orientar a seleção de modelos candidatos. Inspirados por isso, propomos uma nova estratégia de fusão de modelos: Fusão Gananciosa Top-k com Parentesca de Modelos, que pode proporcionar um melhor desempenho em conjuntos de dados de referência. Especificamente, descobrimos que o uso da parentesca de modelos como critério pode nos auxiliar na realização contínua da fusão de modelos, aliviando a degradação (ótimos locais) na evolução do modelo, enquanto a parentesca de modelos pode servir como um guia para escapar dessas armadilhas. O código está disponível em https://github.com/zjunlp/ModelKinship.
Os modelos de consistência (CMs) são uma classe poderosa de modelos generativos baseados em difusão, otimizados para amostragem rápida. A maioria dos CMs existentes é treinada usando passos de tempo discretizados, que introduzem hiperparâmetros adicionais e são propensos a erros de discretização. Enquanto formulações em tempo contínuo podem mitigar esses problemas, seu sucesso tem sido limitado pela instabilidade de treinamento. Para abordar isso, propomos um arcabouço teórico simplificado que unifica as parametrizações anteriores de modelos de difusão e CMs, identificando as causas raiz da instabilidade. Com base nessa análise, introduzimos melhorias-chave na parametrização do processo de difusão, arquitetura de rede e objetivos de treinamento. Essas mudanças nos permitem treinar CMs em tempo contínuo em uma escala sem precedentes, alcançando 1,5 bilhão de parâmetros no ImageNet 512x512. Nosso algoritmo de treinamento proposto, usando apenas dois passos de amostragem, alcança pontuações FID de 2,06 no CIFAR-10, 1,48 no ImageNet 64x64 e 1,88 no ImageNet 512x512, reduzindo a diferença nas pontuações FID com os melhores modelos de difusão existentes para dentro de 10%.
À medida que os modelos de linguagem de grande escala (LLMs) continuam a evoluir, métricas de avaliação eficientes são vitais para avaliar sua capacidade de comprimir informações e reduzir a redundância. Embora métricas tradicionais como Entropia de Matriz ofereçam insights valiosos, são computacionalmente intensivas para modelos em grande escala devido à sua complexidade temporal \( O(n^3) \) com Decomposição em Valores Singulares (SVD). Para mitigar esse problema, introduzimos a Norma Nuclear da Matriz, que não só serve como métrica para quantificar a proficiência de compressão de dados do LLM, mas também fornece uma aproximação convexa da ordem da matriz para capturar tanto a discriminabilidade preditiva quanto a diversidade. Ao empregar a \( L_{1,2}-norma \) para aproximar ainda mais a norma nuclear, podemos avaliar eficazmente as capacidades de compressão de informações do modelo. Essa abordagem reduz a complexidade temporal para \( O(n^2) \) e elimina a necessidade de cálculo de SVD. Consequentemente, a Norma Nuclear da Matriz alcança velocidades de 8 a 24 vezes mais rápidas do que a Entropia de Matriz para o modelo CEREBRAS-GPT à medida que os tamanhos aumentam de 111M para 6.7B. Essa diferença de desempenho se torna mais pronunciada com modelos maiores, conforme validado em testes com outros modelos como Pythia. Além disso, avaliações em benchmarks e respostas do modelo confirmam que nossa proposta de Norma Nuclear da Matriz é uma ferramenta confiável, escalável e eficiente para avaliar o desempenho dos LLMs, encontrando um equilíbrio entre precisão e eficiência computacional. O código está disponível em https://github.com/MLGroupJLU/MatrixNuclearNorm.
O rápido avanço dos modelos de difusão texto-imagem (T2I) permitiu que eles gerassem resultados sem precedentes a partir de textos fornecidos. No entanto, à medida que as entradas de texto se tornam mais longas, métodos de codificação existentes como o CLIP enfrentam limitações, e alinhar as imagens geradas com textos longos se torna desafiador. Para lidar com essas questões, propomos o LongAlign, que inclui um método de codificação em nível de segmento para processar textos longos e um método de otimização de preferência decomposta para treinamento de alinhamento eficaz. Para a codificação em nível de segmento, textos longos são divididos em vários segmentos e processados separadamente. Este método supera os limites de comprimento de entrada máxima dos modelos de codificação pré-treinados. Para a otimização de preferência, fornecemos modelos de preferência baseados no CLIP decompostos para ajustar finamente os modelos de difusão. Especificamente, para utilizar modelos de preferência baseados no CLIP para alinhamento T2I, investigamos seus mecanismos de pontuação e descobrimos que as pontuações de preferência podem ser decompostas em dois componentes: uma parte relevante para texto que mede o alinhamento T2I e uma parte irrelevante para texto que avalia outros aspectos visuais da preferência humana. Além disso, descobrimos que a parte irrelevante para texto contribui para um problema comum de sobreajuste durante o ajuste fino. Para lidar com isso, propomos uma estratégia de reponderação que atribui pesos diferentes a esses dois componentes, reduzindo assim o sobreajuste e aprimorando o alinhamento. Após ajustar finamente 512 vezes o 512 Stable Diffusion (SD) v1.5 por cerca de 20 horas usando nosso método, o SD ajustado supera modelos de fundação mais fortes no alinhamento T2I, como PixArt-alpha e Kandinsky v2.2. O código está disponível em https://github.com/luping-liu/LongAlign.
O paradigma atual para alinhamento de segurança de grandes modelos de linguagem (LLMs) segue uma abordagem de tamanho único: o modelo se recusa a interagir com qualquer conteúdo considerado inseguro pelo provedor do modelo. Essa abordagem carece de flexibilidade diante das normas sociais variadas entre culturas e regiões. Além disso, os usuários podem ter diversas necessidades de segurança, tornando um modelo com padrões de segurança estáticos muito restritivo para ser útil, bem como muito custoso para ser realinhado. Propomos o Alinhamento de Segurança Controlável (CoSA), um framework projetado para adaptar modelos a diversos requisitos de segurança sem a necessidade de re-treinamento. Em vez de alinhar um modelo fixo, alinhamos modelos para seguir configurações de segurança - descrições em linguagem natural de comportamentos de segurança desejados - que são fornecidas como parte do prompt do sistema. Para ajustar o comportamento de segurança do modelo, os usuários autorizados só precisam modificar tais configurações de segurança no momento da inferência. Para viabilizar isso, propomos o CoSAlign, um método centrado em dados para alinhar LLMs para se adaptarem facilmente a diversas configurações de segurança. Além disso, concebemos um protocolo de avaliação de controlabilidade inovador que considera tanto a utilidade quanto a segurança configurada, resumindo-os no CoSA-Score, e construímos o CoSApien, um benchmark criado por humanos que consiste em casos de uso do mundo real de LLMs com diversos requisitos de segurança e prompts de avaliação correspondentes. Demonstramos que o CoSAlign leva a ganhos substanciais de controlabilidade sobre baselines fortes, incluindo o alinhamento em contexto. Nosso framework incentiva uma melhor representação e adaptação aos valores humanos pluralísticos em LLMs, e, assim, aumenta sua praticidade.
Os modelos de Recuperação Esparsa Aprendida (LSR) utilizam vocabulários de transformers pré-treinados, que frequentemente dividem entidades em fragmentos sem sentido. A divisão de entidades pode reduzir a precisão da recuperação e limitar a capacidade do modelo de incorporar conhecimento mundial atualizado que não está presente nos dados de treinamento. Neste trabalho, aprimoramos o vocabulário do LSR com conceitos e entidades da Wikipedia, permitindo que o modelo resolva ambiguidades de forma mais eficaz e se mantenha atualizado com o conhecimento em evolução. Central para nossa abordagem está uma cabeça de Vocabulário Dinâmico (DyVo), que aproveita os embeddings de entidades existentes e um componente de recuperação de entidades que identifica entidades relevantes para uma consulta ou documento. Utilizamos a cabeça DyVo para gerar pesos de entidades, que são então mesclados com pesos de pedaços de palavras para criar representações conjuntas para indexação e recuperação eficientes usando um índice invertido. Em experimentos em três conjuntos de dados de classificação de documentos ricos em entidades, o modelo resultante DyVo supera substancialmente as baselines de última geração.
Grandes modelos de linguagem (LLMs) têm demonstrado capacidades impressionantes em várias tarefas, mas seu desempenho é altamente sensível aos prompts utilizados. Essa variabilidade apresenta desafios para uma avaliação precisa e a satisfação do usuário. A pesquisa atual frequentemente negligencia variações de prompts em nível de instância e suas implicações nas avaliações subjetivas. Para abordar essas deficiências, apresentamos o ProSA, um framework projetado para avaliar e compreender a sensibilidade ao prompt em LLMs. O ProSA incorpora uma métrica de sensibilidade inovadora, PromptSensiScore, e aproveita a confiança de decodificação para elucidar os mecanismos subjacentes. Nosso estudo extensivo, abrangendo múltiplas tarefas, revela que a sensibilidade ao prompt varia entre conjuntos de dados e modelos, sendo que modelos maiores exibem maior robustez. Observamos que exemplos de poucas amostras podem atenuar esse problema de sensibilidade, e as avaliações subjetivas também são suscetíveis às sensibilidades ao prompt, especialmente em tarefas complexas orientadas para o raciocínio. Além disso, nossas descobertas indicam que uma maior confiança do modelo está correlacionada com uma maior robustez ao prompt. Acreditamos que este trabalho servirá como uma ferramenta útil no estudo da sensibilidade ao prompt de LLMs. O projeto está disponível em: https://github.com/open-compass/ProSA.
A eficiência dos grandes modelos de visão-linguagem (LVLMs) é limitada pelo gargalo computacional do mecanismo de atenção durante a fase de pré-preenchimento e pelo gargalo de memória ao buscar o cache chave-valor (KV) na fase de decodificação, especialmente em cenários envolvendo imagens ou vídeos de alta resolução. O conteúdo visual frequentemente apresenta considerável redundância, resultando em mapas de atenção altamente esparsos dentro dos LVLMs. Essa dispersão pode ser aproveitada para acelerar o cálculo de atenção ou comprimir o cache KV por meio de várias abordagens. No entanto, a maioria dos estudos se concentra em abordar apenas um desses gargalos e não oferece suporte adequado ao ajuste dinâmico da dispersão em relação a camadas ou tarefas distintas. Neste artigo, apresentamos o ZipVL, um framework de inferência eficiente projetado para LVLMs que resolve tanto os gargalos computacionais quanto de memória por meio de uma estratégia dinâmica de alocação de razão de tokens importantes. Essa razão é determinada de forma adaptativa com base na distribuição de pontuações de atenção específicas da camada, em vez de hiperparâmetros fixos, melhorando assim a eficiência para tarefas menos complexas, mantendo alto desempenho para as mais desafiadoras. Em seguida, selecionamos tokens importantes com base em suas pontuações de atenção normalizadas e realizamos o mecanismo de atenção exclusivamente nesses tokens importantes para acelerar a fase de pré-preenchimento. Para mitigar o gargalo de memória na fase de decodificação, empregamos quantização de precisão mista no cache KV, onde a quantização de bits alta é usada para caches de tokens importantes, enquanto a quantização de bits baixa é aplicada aos de menor importância. Nossos experimentos demonstram que o ZipVL pode acelerar a fase de pré-preenchimento em 2,6 vezes e reduzir o uso de memória da GPU em 50,0%, com uma redução mínima de precisão de apenas 0,2% no benchmark Video-MME em relação ao modelo LongVA-7B, melhorando efetivamente a eficiência de geração dos LVLMs.
Modelos generativos de imagens baseados em latentes, como Modelos de Difusão Latente (LDMs) e Modelos de Imagem de Máscara (MIMs), têm alcançado sucesso notável em tarefas de geração de imagens. Esses modelos geralmente se baseiam em autoencoders reconstrutivos como VQGAN ou VAE para codificar pixels em um espaço latente mais compacto e aprender a distribuição de dados nesse espaço latente em vez de diretamente dos pixels. No entanto, essa prática levanta uma questão pertinente: será realmente a escolha ideal? Em resposta, começamos com uma observação intrigante: apesar de compartilharem o mesmo espaço latente, os modelos autoregressivos ficam significativamente atrás dos LDMs e MIMs na geração de imagens. Esse achado contrasta fortemente com o campo da PNL, onde o modelo autoregressivo GPT estabeleceu uma presença dominante. Para abordar essa discrepância, introduzimos uma perspectiva unificada sobre a relação entre espaço latente e modelos generativos, enfatizando a estabilidade do espaço latente na modelagem generativa de imagens. Além disso, propomos um tokenizador de imagem discreto simples, mas eficaz, para estabilizar o espaço latente na modelagem generativa de imagens. Resultados experimentais mostram que a modelagem autoregressiva de imagens com nosso tokenizador (DiGIT) beneficia tanto a compreensão de imagens quanto a geração de imagens com o princípio de previsão do próximo token, que é inerentemente direto para modelos GPT, mas desafiador para outros modelos generativos. Notavelmente, pela primeira vez, um modelo autoregressivo no estilo GPT para imagens supera os LDMs, o que também apresenta uma melhoria substancial semelhante ao GPT ao aumentar o tamanho do modelo. Nossas descobertas destacam o potencial de um espaço latente otimizado e a integração de tokenização discreta no avanço das capacidades dos modelos generativos de imagens. O código está disponível em https://github.com/DAMO-NLP-SG/DiGIT.
Os grandes modelos de linguagem (LLMs) tiveram um impacto significativo em muitos aspectos de nossas vidas. No entanto, avaliar e garantir seu conhecimento cronológico permanece desafiador. As abordagens existentes falham em lidar com a natureza acumulativa do conhecimento, muitas vezes dependendo de um único carimbo de tempo. Para superar isso, apresentamos o ChroKnowBench, um conjunto de dados de referência projetado para avaliar o conhecimento acumulado cronologicamente em três aspectos-chave: múltiplos domínios, dependência temporal, estado temporal. Nosso conjunto de dados de referência distingue entre o conhecimento que evolui (por exemplo, descobertas científicas, leis alteradas) e o conhecimento que permanece constante (por exemplo, verdades matemáticas, fatos do senso comum). Com base nesse conjunto de dados de referência, apresentamos o ChroKnowledge (Categorização Cronológica do Conhecimento), um novo framework baseado em amostragem para avaliar e atualizar o conhecimento cronológico não paramétrico dos LLMs. Nossa avaliação mostra: (1) A capacidade de elicitar conhecimento temporal varia dependendo do formato de dados no qual o modelo foi treinado. (2) Os LLMs lembram parcialmente o conhecimento ou mostram um corte nos limites temporais em vez de lembrar todos os aspectos do conhecimento corretamente. Assim, aplicamos nosso ChroKnowPrompt, uma solicitação aprofundada para elicitar conhecimento cronológico atravessando passo a passo os períodos de tempo circundantes. Observamos que nosso framework atualiza com sucesso o conhecimento geral ao longo de toda a linha do tempo tanto no domínio biomédico (+11,9%) quanto no domínio geral (+2,8%), demonstrando sua eficácia em refinar o conhecimento temporal. Essa abordagem não paramétrica também permite atualizações de conhecimento não apenas em modelos de código aberto, mas também em LLMs proprietários, garantindo aplicabilidade abrangente entre os tipos de modelos. Realizamos uma análise abrangente com base nas características temporais do ChroKnowPrompt e validamos o potencial de vários modelos para elicitar conhecimento temporal intrínseco por meio de nosso método.
Este artigo apresenta um novo paradigma de aprendizado denominado Metamorfose Neural (NeuMeta), que tem como objetivo construir redes neurais auto-morfáveis. Ao contrário de criar modelos separados para diferentes arquiteturas ou tamanhos, o NeuMeta aprende diretamente o espaço contínuo de pesos das redes neurais. Uma vez treinado, podemos amostrar pesos para redes de qualquer tamanho diretamente do espaço, mesmo para configurações previamente não vistas, sem a necessidade de retrabalho. Para alcançar esse objetivo ambicioso, o NeuMeta treina funções neurais implícitas como hiper-redes. Elas aceitam coordenadas dentro do espaço do modelo como entrada e geram valores de peso correspondentes no espaço. Em outras palavras, a função implícita é aprendida de forma que os pesos previstos tenham bom desempenho em vários tamanhos de modelos. Ao treinar esses modelos, observamos que o desempenho final está intimamente relacionado com a suavidade do espaço aprendido. Em busca de aprimorar essa suavidade, empregamos duas estratégias. Primeiramente, permutamos matrizes de pesos para obter suavidade intra-modelo, resolvendo o problema do Caminho Hamiltoniano Mais Curto. Além disso, adicionamos ruído às coordenadas de entrada ao treinar a função implícita, garantindo que modelos de vários tamanhos apresentem saídas consistentes. Dessa forma, o NeuMeta apresenta resultados promissores na síntese de parâmetros para várias configurações de rede. Nossos extensivos testes em classificação de imagens, segmentação semântica e geração de imagens revelam que o NeuMeta mantém o desempenho em tamanho total mesmo com uma taxa de compressão de 75%.
Os modelos de linguagem multimodais/visionários (VLMs) estão sendo cada vez mais implementados em ambientes de saúde em todo o mundo, exigindo benchmarks robustos para garantir sua segurança, eficácia e equidade. Conjuntos de dados de perguntas e respostas de múltipla escolha (QA) derivados de exames médicos nacionais têm sido há muito tempo ferramentas valiosas de avaliação, mas os conjuntos de dados existentes são em grande parte apenas de texto e disponíveis em um subconjunto limitado de idiomas e países. Para enfrentar esses desafios, apresentamos o WorldMedQA-V, um conjunto de dados de benchmarking multilíngue e multimodal atualizado projetado para avaliar VLMs na área da saúde. O WorldMedQA-V inclui 568 perguntas e respostas de múltipla escolha rotuladas, combinadas com 568 imagens médicas de quatro países (Brasil, Israel, Japão e Espanha), abrangendo idiomas originais e traduções em inglês validadas por clínicos nativos, respectivamente. O desempenho básico para modelos comuns de código aberto e fechado é fornecido no idioma local e em traduções em inglês, com e sem imagens fornecidas ao modelo. O benchmark WorldMedQA-V tem como objetivo adequar melhor os sistemas de IA aos diversos ambientes de saúde nos quais são implementados, promovendo aplicações mais equitativas, eficazes e representativas.
Estudamos como as características surgem, desaparecem e persistem em modelos ajustados em diferentes domínios de texto. Mais especificamente, partimos de um modelo de linguagem Transformer de uma camada base, treinado em uma combinação do corpus BabyLM e uma coleção de códigos Python do The Stack. Este modelo base é adaptado para dois novos domínios de texto: TinyStories e a linguagem de programação Lua, respectivamente; e então esses dois modelos são mesclados usando interpolação linear esférica. Nossa exploração visa fornecer insights mais profundos sobre a estabilidade e transformação de características em cenários típicos de transferência de aprendizado usando modelos em pequena escala e auto-codificadores esparsos.
Grandes modelos de linguagem (LLMs) treinados com Aprendizado por Reforço a partir do Feedback Humano (RLHF) têm demonstrado capacidades notáveis, mas suas funções de recompensa subjacentes e processos de tomada de decisão permanecem opacos. Este artigo apresenta uma abordagem inovadora para interpretar LLMs aplicando Aprendizado por Reforço Inverso (IRL) para recuperar suas funções de recompensa implícitas. Realizamos experimentos em LLMs alinhados com toxicidade de tamanhos variados, extraindo modelos de recompensa que alcançam até 80,40% de precisão na previsão de preferências humanas. Nossa análise revela insights importantes sobre a não identificabilidade de funções de recompensa, a relação entre o tamanho do modelo e a interpretabilidade, e possíveis armadilhas no processo RLHF. Demonstramos que modelos de recompensa derivados do IRL podem ser usados para ajustar novos LLMs, resultando em desempenho comparável ou melhor em benchmarks de toxicidade. Este trabalho fornece uma nova perspectiva para entender e melhorar o alinhamento de LLMs, com implicações para o desenvolvimento e implantação responsáveis desses sistemas poderosos.
Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração e compreensão de texto, com progressos recentes se estendendo para LLMs multimodais que integram entradas visuais e de áudio. No entanto, esses modelos ainda enfrentam dificuldades com a compreensão temporal detalhada e cruzada entre modalidades, especialmente ao correlacionar eventos em fluxos de áudio e vídeo. Abordamos esses desafios com duas contribuições-chave: um novo conjunto de dados e modelo, chamados OCTAV e OMCAT, respectivamente. OCTAV (Omni Context and Temporal Audio Video) é um conjunto de dados inovador projetado para capturar transições de eventos entre áudio e vídeo. Em segundo lugar, OMCAT (Omni Context Aware Transformer) é um modelo poderoso que utiliza RoTE (Incorporação de Tempo Rotativo), uma extensão inovadora de RoPE, para aprimorar o ancoramento temporal e a eficiência computacional em tarefas ancoradas no tempo. Através de um robusto pipeline de treinamento em três estágios-alinhamento de características, ajuste de instruções e treinamento específico do OCTAV-OMCAT se destaca na compreensão temporal cruzada entre modalidades. Nosso modelo demonstra desempenho de ponta em tarefas de Perguntas e Respostas Audiovisuais (AVQA) e no benchmark OCTAV, exibindo ganhos significativos em raciocínio temporal e alinhamento cruzado entre modalidades, como validado por meio de experimentos abrangentes e estudos de ablação. Nosso conjunto de dados e código serão disponibilizados publicamente. O link para nossa página de demonstração é https://om-cat.github.io.
Abordagens modernas de Question Answering (QA) e Raciocínio baseadas em Modelos de Linguagem Grandes (LLMs) comumente utilizam técnicas de incentivo, como a Cadeia de Pensamento (CoT), assumindo que a geração resultante terá uma exploração e raciocínio mais granulares sobre o espaço e escopo da pergunta. No entanto, tais métodos enfrentam dificuldades em gerar saídas fiéis à cadeia de raciocínio intermediária produzida pelo modelo. No extremo oposto do espectro, métodos neuro-simbólicos como o Raciocínio Fiel CoT (F-CoT) propõem combinar LLMs com solucionadores simbólicos externos. Embora tais abordagens ostentem um alto grau de fidelidade, geralmente requerem um modelo treinado para geração de código e enfrentam dificuldades com tarefas que são ambíguas ou difíceis de formalizar estritamente. Apresentamos o Raciocínio e Exploração Assistidos por Lógica Fiel (\ours), uma abordagem interpretável inovadora para percorrer o espaço do problema usando decomposições de tarefas. Utilizamos o LLM para planejar uma solução, formalizamos suavemente a consulta em fatos e predicados usando um código de programação lógica e simulamos a execução desse código usando uma busca exaustiva de vários saltos sobre o espaço definido. Nosso método nos permite calcular a fidelidade do processo de raciocínio em relação ao código gerado e analisar as etapas da busca de vários saltos sem depender de solucionadores externos. Nossos métodos alcançam resultados de última geração em 7 de 9 benchmarks diversos de raciocínio. Também demonstramos que a fidelidade do modelo se correlaciona positivamente com o desempenho geral e demonstramos ainda que {\ours} permite identificar os fatores decisivos suficientes para e que levam à resposta correta com raciocínio ótimo durante a busca de vários saltos.
A calibração do modelo de linguagem refere-se à alinhamento entre a confiança do modelo e o desempenho real de suas respostas. Enquanto estudos anteriores apontam o fenômeno da superconfiança em Modelos de Linguagem Grandes (LLMs) e mostram que LLMs treinados com Aprendizado por Reforço a partir do Feedback Humano (RLHF) são superconfiantes com uma probabilidade de saída mais afiada, neste estudo, revelamos que RLHF tende a levar os modelos a expressar superconfiança verbalizada em suas próprias respostas. Investigamos a causa subjacente dessa superconfiança e demonstramos que os modelos de recompensa usados na Otimização de Política Proximal (PPO) exibem viés inerente em direção a pontuações de alta confiança, independentemente da qualidade real das respostas. Com base nessa percepção, propomos duas variantes de PPO: PPO-M: PPO com Modelagem de Recompensa Calibrada e PPO-C: PPO com Cálculo de Recompensa Calibrado. PPO-M integra pontuações de confiança explícitas no treinamento do modelo de recompensa, o que calibra os modelos de recompensa para capturar melhor o alinhamento entre a qualidade da resposta e a confiança verbalizada. PPO-C ajusta a pontuação de recompensa durante o PPO com base na diferença entre a recompensa atual e a média móvel das recompensas passadas. Tanto PPO-M quanto PPO-C podem ser integrados perfeitamente ao pipeline atual do PPO e não exigem rótulos dourados adicionais. Avaliamos nossos métodos tanto no Llama3-8B quanto no Mistral-7B em seis conjuntos de dados diversos, incluindo geração de múltipla escolha e aberta. Os resultados dos experimentos demonstram que ambos os métodos podem reduzir o erro de calibração e manter um desempenho comparável ao PPO padrão. Mostramos ainda que eles não comprometem as capacidades do modelo em configurações de conversação aberta.
Grandes modelos de linguagem (LLMs) têm demonstrado um potencial significativo no desenvolvimento de aplicações inteligentes e sistemas como agentes baseados em LLM e sistemas operacionais de agentes (AIOS). No entanto, quando essas aplicações e sistemas interagem com o sistema de arquivos subjacente, o sistema de arquivos ainda permanece no paradigma tradicional: dependente da navegação manual por meio de comandos precisos. Esse paradigma representa um gargalo para a usabilidade desses sistemas, uma vez que os usuários precisam navegar por hierarquias de pastas complexas e lembrar nomes de arquivos crípticos. Para lidar com essa limitação, propomos um sistema de arquivos semântico baseado em LLM (LSFS) para gerenciamento de arquivos orientado por comandos. Ao contrário das abordagens convencionais, o LSFS incorpora LLMs para permitir que usuários ou agentes interajam com arquivos por meio de comandos em linguagem natural, facilitando o gerenciamento semântico de arquivos. No nível macro, desenvolvemos um conjunto abrangente de APIs para alcançar funcionalidades de gerenciamento de arquivos semânticos, como recuperação semântica de arquivos, monitoramento e sumarização de atualizações de arquivos e reversão semântica de arquivos. No nível micro, armazenamos arquivos construindo índices semânticos para eles, projetamos e implementamos chamadas de sistema de diferentes operações semânticas (por exemplo, CRUD, agrupar por, unir) alimentadas por um banco de dados vetorial. Nossos experimentos mostram que o LSFS oferece melhorias significativas em relação aos sistemas de arquivos tradicionais em termos de conveniência do usuário, diversidade de funções suportadas e precisão e eficiência das operações de arquivo. Além disso, com a integração de LLM, nosso sistema possibilita tarefas de gerenciamento de arquivos mais inteligentes, como sumarização de conteúdo e comparação de versões, aprimorando ainda mais suas capacidades.