Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo avalia os vieses geopolíticos em LLMs (Large Language Models) em relação a diversos países por meio de uma análise de sua interpretação de eventos históricos com perspectivas nacionais conflitantes (EUA, Reino Unido, URSS e China). Introduzimos um novo conjunto de dados com descrições neutras de eventos e pontos de vista contrastantes de diferentes países. Nossos resultados mostram vieses geopolíticos significativos, com os modelos favorecendo narrativas nacionais específicas. Além disso, prompts simples de redução de viés tiveram um efeito limitado na diminuição desses vieses. Experimentos com rótulos de participantes manipulados revelam a sensibilidade dos modelos à atribuição, às vezes amplificando vieses ou reconhecendo inconsistências, especialmente com rótulos trocados. Este trabalho destaca os vieses de narrativas nacionais em LLMs, desafia a eficácia de métodos simples de redução de viés e oferece um framework e um conjunto de dados para futuras pesquisas sobre vieses geopolíticos.
Modelos grandes típicos de visão e linguagem (LVLMs) aplicam supervisão autoregressiva apenas a sequências textuais, sem incorporar plenamente a modalidade visual no processo de aprendizagem. Isso resulta em três limitações principais: (1) a incapacidade de utilizar imagens sem legendas acompanhantes, (2) o risco de que as legendas omitam detalhes visuais críticos, e (3) o desafio de que certos conteúdos centrados na visão não possam ser adequadamente transmitidos por texto. Como resultado, os LVLMs atuais frequentemente priorizam o alinhamento visão-linguagem, enquanto potencialmente negligenciam informações visuais detalhadas. Embora alguns trabalhos anteriores tenham explorado a geração autoregressiva de imagens, o uso eficaz da supervisão visual autoregressiva para melhorar a compreensão de imagens continua sendo um desafio em aberto. Neste artigo, introduzimos a Reconstrução Visual Semântica Autoregressiva (ASVR), que permite o aprendizado conjunto das modalidades visual e textual dentro de uma estrutura autoregressiva unificada. Mostramos que a reconstrução autoregressiva da aparência visual bruta das imagens não melhora e pode até prejudicar a compreensão multimodal. Em contraste, a reconstrução autoregressiva da representação semântica das imagens melhora consistentemente a compreensão. Notavelmente, descobrimos que mesmo quando os modelos recebem características contínuas de imagem como entrada, eles podem reconstruir efetivamente tokens semânticos discretos, resultando em melhorias estáveis e consistentes em uma ampla gama de benchmarks de compreensão multimodal. Nossa abordagem proporciona ganhos significativos de desempenho em diferentes escalas de dados (556k-2M) e tipos de backbones de LLM. Especificamente, a ASVR melhora o LLaVA-1.5 em 5% nas pontuações médias em 14 benchmarks multimodais. O código está disponível em https://github.com/AlenjandroWang/ASVR.
O raciocínio baseado em regras tem sido reconhecido como um dos problemas fundamentais no campo do raciocínio, enquanto as variações em formatos, tipos e complexidade de regras em aplicações do mundo real apresentam desafios significativos. Estudos recentes demonstraram que modelos de raciocínio de grande escala (LRMs) possuem capacidades notáveis de raciocínio, e seu desempenho é substancialmente aprimorado pelo aprendizado por reforço (RL). No entanto, ainda é uma questão em aberto se modelos de raciocínio de pequena escala (SRMs) podem aprender raciocínio baseado em regras de forma eficaz com generalização robusta em diversas tarefas e domínios. Para abordar isso, introduzimos o Reinforced Rule-based Reasoning, também conhecido como RuleReasoner, um método simples, porém eficaz, para realizar raciocínio baseado em regras por meio de uma ampla coleção de tarefas curadas e uma nova abordagem de amostragem dinâmica consciente do domínio. Especificamente, o RuleReasoner reamostra cada lote de treinamento atualizando os pesos de amostragem de diferentes domínios com base em recompensas históricas. Isso facilita a ampliação de domínios e agendas de aprendizado online flexíveis para RL, eliminando a necessidade de receitas de treinamento misto pré-definidas e projetadas por humanos, usadas em métodos existentes. Avaliações empíricas em benchmarks de distribuição interna (ID) e externa (OOD) revelam que o RuleReasoner supera os LRMs de ponta por uma margem significativa (Delta4,1% em média em oito tarefas ID e Delta10,4% em média em três tarefas OOD em relação ao OpenAI-o1). Notavelmente, nossa abordagem também exibe maior eficiência computacional em comparação com métodos anteriores de amostragem dinâmica para RL.
Da produção profissional de filmes ao conteúdo gerado por usuários, criadores e consumidores há muito reconhecem que o poder do vídeo depende da integração harmoniosa entre o que ouvimos (a trilha sonora do vídeo) e o que vemos (a sequência de imagens do vídeo). As abordagens atuais para geração de vídeo ou ignoram o som para focar na geração de sequências de imagens de propósito geral, mas silenciosas, ou abordam tanto os elementos visuais quanto os auditivos, mas se concentram em domínios de aplicação restritos, como redublagem. Apresentamos o Mirage, um modelo de base áudio-para-vídeo que se destaca na geração de imagens de saída realistas e expressivas a partir do zero, dado um áudio de entrada. Quando integrado a métodos existentes de síntese de fala (texto-para-fala, ou TTS), o Mirage resulta em vídeos multimodais convincentes. Quando treinado em filmagens áudio-vídeo de pessoas falando (A-roll) e condicionado a áudios contendo fala, o Mirage gera vídeos de pessoas entregando uma interpretação crível da performance implícita no áudio de entrada. Nossa principal contribuição técnica é um método unificado para treinar modelos de geração áudio-para-vídeo baseados em autoatenção, seja a partir do zero ou com pesos existentes. Essa metodologia permite que o Mirage mantenha a generalidade como uma abordagem para geração áudio-para-vídeo, enquanto produz saídas de qualidade subjetiva superior a métodos que incorporam arquiteturas específicas para áudio ou componentes de perda específicos para pessoas, fala ou detalhes de como as imagens ou áudios são capturados. Incentivamos os leitores a assistirem e ouvirem os resultados do Mirage por si mesmos (veja o artigo e os comentários para links).
Avanços nos modelos de difusão melhoraram significativamente a qualidade de vídeos, direcionando a atenção para a controlabilidade em nível de detalhes. No entanto, muitos métodos existentes dependem do ajuste fino de modelos de vídeo em grande escala para tarefas específicas, o que se torna cada vez mais impraticável à medida que os tamanhos dos modelos continuam a crescer. Neste trabalho, apresentamos o Frame Guidance, uma orientação sem treinamento para geração controlada de vídeos baseada em sinais em nível de quadro, como keyframes, imagens de referência de estilo, esboços ou mapas de profundidade. Para uma orientação prática sem treinamento, propomos um método simples de processamento latente que reduz drasticamente o uso de memória e aplicamos uma nova estratégia de otimização latente projetada para geração de vídeos globalmente coerentes. O Frame Guidance permite controle eficaz em diversas tarefas, incluindo orientação por keyframes, estilização e looping, sem qualquer treinamento, sendo compatível com qualquer modelo de vídeo. Resultados experimentais mostram que o Frame Guidance pode produzir vídeos controlados de alta qualidade para uma ampla gama de tarefas e sinais de entrada.
A prova de desigualdades, crucial em diversos campos científicos e matemáticos, testa habilidades avançadas de raciocínio, como a descoberta de limites estreitos e a aplicação estratégica de teoremas. Isso a torna uma fronteira distinta e desafiadora para grandes modelos de linguagem (LLMs), oferecendo insights além da resolução geral de problemas matemáticos. O progresso nessa área é dificultado por conjuntos de dados existentes que frequentemente são escassos, sintéticos ou excessivamente formais. Abordamos isso propondo uma formulação de tarefa informal, mas verificável, transformando a prova de desigualdades em duas subtarefas automaticamente verificáveis: estimativa de limites e previsão de relações. Com base nisso, lançamos o IneqMath, um conjunto de dados curado por especialistas, contendo desigualdades de nível olímpico, incluindo um conjunto de teste e um corpus de treinamento enriquecido com soluções passo a passo e anotações de teoremas. Também desenvolvemos uma estrutura de avaliação inovadora usando LLM-como-juiz, combinando um juiz de resposta final com quatro juízes passo a passo projetados para detectar falhas comuns de raciocínio. Uma avaliação sistemática de 29 LLMs líderes no IneqMath revela uma realidade surpreendente: mesmo modelos de ponta como o o1 alcançam menos de 10% de precisão geral sob escrutínio passo a passo; isso representa uma queda de até 65,5% em relação à sua precisão considerando apenas a equivalência da resposta final. Essa discrepância expõe cadeias dedutivas frágeis e uma lacuna crítica para os LLMs atuais entre simplesmente encontrar uma resposta e construir uma prova rigorosa. Aumentar o tamanho do modelo e a computação no momento do teste gera ganhos limitados na correção geral da prova. Em vez disso, nossas descobertas destacam direções de pesquisa promissoras, como raciocínio guiado por teoremas e autorrefinamento. Código e dados estão disponíveis em https://ineqmath.github.io/.
Apresentamos o Self Forcing, um novo paradigma de treinamento para modelos de difusão autoregressivos de vídeo. Ele aborda o problema de longa data do viés de exposição, onde modelos treinados em contexto de verdade absoluta precisam gerar sequências condicionadas em suas próprias saídas imperfeitas durante a inferência. Diferente de métodos anteriores que desnaturam quadros futuros com base em quadros de contexto de verdade absoluta, o Self Forcing condiciona a geração de cada quadro em saídas previamente auto-geradas, realizando um rollout autoregressivo com cache de chave-valor (KV) durante o treinamento. Essa estratégia permite supervisão por meio de uma perda holística no nível do vídeo que avalia diretamente a qualidade de toda a sequência gerada, em vez de depender exclusivamente de objetivos tradicionais por quadro. Para garantir eficiência no treinamento, empregamos um modelo de difusão de poucos passos juntamente com uma estratégia de truncamento de gradiente estocástico, equilibrando efetivamente custo computacional e desempenho. Além disso, introduzimos um mecanismo de cache KV rolante que permite extrapolação de vídeo autoregressiva eficiente. Experimentos extensivos demonstram que nossa abordagem alcança geração de vídeo em tempo real com latência de menos de um segundo em uma única GPU, enquanto iguala ou até supera a qualidade de geração de modelos de difusão significativamente mais lentos e não causais. Site do projeto: http://self-forcing.github.io/
Criar máquinas capazes de compreender o mundo em 3D é essencial para auxiliar designers que constroem e editam ambientes tridimensionais, bem como robôs que navegam e interagem dentro de um espaço tridimensional. Inspirados pelos avanços na modelagem de linguagem e imagens, investigamos o potencial de modelos autoregressivos para uma nova modalidade: cenas 3D estruturadas. Para isso, propomos um framework unificado de LLM que alinha linguagem, imagens e cenas 3D, e fornecemos um "manual detalhado" que descreve escolhas críticas de design para alcançar treinamento e desempenho ideais, abordando questões-chave relacionadas à representação de dados, objetivos específicos de modalidade e mais. Avaliamos o desempenho em quatro tarefas principais de 3D — renderização, reconhecimento, seguimento de instruções e resposta a perguntas — e em quatro conjuntos de dados 3D, tanto sintéticos quanto do mundo real. Estendemos nossa abordagem para reconstruir formas complexas de objetos 3D, enriquecendo nossa modalidade 3D com codificações de forma quantizadas, e demonstramos a eficácia do nosso modelo em tarefas de reconhecimento de objetos 3D do mundo real. Página do projeto: https://glab-caltech.github.io/kyvo/
Nos últimos anos, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido amplamente utilizados para tarefas de raciocínio multimodal, incluindo a automação de Interfaces Gráficas de Usuário (GUIs). Diferente de tarefas multimodais offline gerais, a automação de GUI é executada em ambientes interativos online, exigindo tomadas de decisão passo a passo com base no estado em tempo real do ambiente. Essa tarefa possui uma tolerância menor para erros de decisão em cada etapa, já que qualquer erro pode se acumular e interromper o processo, potencialmente levando a resultados irreversíveis, como exclusões ou pagamentos. Para abordar esses problemas, introduzimos um mecanismo crítico pré-operatório que fornece feedback eficaz antes da execução real, ao raciocinar sobre o resultado potencial e a correção das ações. Especificamente, propomos uma estratégia de Otimização de Política Relativa com Gradiente Consciente de Sugestões (S-GRPO) para construir nosso modelo crítico pré-operatório GUI-Critic-R1, incorporando uma nova recompensa de sugestão para aumentar a confiabilidade do feedback do modelo. Além disso, desenvolvemos um pipeline de coleta de dados baseado em raciocínio inicial (reasoning-bootstrapping) para criar um GUI-Critic-Train e um GUI-Critic-Test, preenchendo lacunas existentes em dados críticos de GUI. Experimentos estáticos no GUI-Critic-Test em domínios móveis e web revelam que nosso GUI-Critic-R1 oferece vantagens significativas em precisão crítica em comparação com os MLLMs atuais. A avaliação dinâmica em benchmarks de automação de GUI destaca ainda mais a eficácia e superioridade do nosso modelo, evidenciada por taxas de sucesso e eficiência operacional aprimoradas.
Propomos o Squeeze3D, uma nova estrutura que aproveita o conhecimento prévio implícito aprendido por modelos generativos 3D pré-treinados existentes para comprimir dados 3D com taxas de compressão extremamente altas. Nossa abordagem conecta os espaços latentes entre um codificador pré-treinado e um modelo de geração pré-treinado por meio de redes de mapeamento treináveis. Qualquer modelo 3D representado como uma malha, nuvem de pontos ou campo de radiação é primeiro codificado pelo codificador pré-treinado e então transformado (ou seja, comprimido) em um código latente altamente compacto. Esse código latente pode ser efetivamente usado como uma representação extremamente comprimida da malha ou nuvem de pontos. Uma rede de mapeamento transforma o código latente comprimido no espaço latente de um poderoso modelo generativo, que é então condicionado para recriar o modelo 3D original (ou seja, descompressão). O Squeeze3D é treinado inteiramente em dados sintéticos gerados e não requer nenhum conjunto de dados 3D. A arquitetura do Squeeze3D pode ser usada de forma flexível com codificadores 3D pré-treinados existentes e modelos generativos existentes. Ela pode suportar de forma flexível diferentes formatos, incluindo malhas, nuvens de pontos e campos de radiação. Nossos experimentos demonstram que o Squeeze3D alcança taxas de compressão de até 2187x para malhas texturizadas, 55x para nuvens de pontos e 619x para campos de radiação, mantendo uma qualidade visual comparável a muitos métodos existentes. O Squeeze3D incorre apenas em uma pequena latência de compressão e descompressão, uma vez que não envolve o treinamento de redes específicas para comprimir um objeto.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram desempenho notável em Resposta a Perguntas de Domínio Aberto (ODQA) ao aproveitar documentos externos por meio de Geração Aumentada por Recuperação (RAG). Para reduzir a sobrecarga do RAG, a partir de contextos mais longos, a compressão do contexto é necessária. No entanto, os métodos de compressão anteriores não se concentram em filtrar informações não evidenciais, o que limita o desempenho do RAG baseado em LLM. Assim, propomos o RAG Guiado por Evidencialidade, ou estrutura ECoRAG. O ECoRAG melhora o desempenho do LLM ao comprimir documentos recuperados com base na evidencialidade, garantindo que a geração de respostas seja suportada pela evidência correta. Como uma etapa adicional, o ECoRAG avalia se o conteúdo comprimido fornece evidências suficientes e, caso contrário, recupera mais até que sejam suficientes. Experimentos mostram que o ECoRAG melhora o desempenho do LLM em tarefas de ODQA, superando os métodos de compressão existentes. Além disso, o ECoRAG é altamente custo-eficiente, pois não apenas reduz a latência, mas também minimiza o uso de tokens ao reter apenas as informações necessárias para gerar a resposta correta. O código está disponível em https://github.com/ldilab/ECoRAG.
A Geração Aumentada por Recuperação (RAG) é uma abordagem comumente usada para aprimorar modelos de linguagem de grande escala (LLMs) com informações relevantes e atualizadas. No entanto, as fontes recuperadas podem frequentemente conter informações conflitantes, e ainda não está claro como os modelos devem lidar com tais discrepâncias. Neste trabalho, primeiro propomos uma nova taxonomia de tipos de conflitos de conhecimento no RAG, juntamente com o comportamento desejado do modelo para cada tipo. Em seguida, apresentamos CONFLICTS, um benchmark de alta qualidade com anotações especializadas de tipos de conflitos em um cenário realista de RAG. CONFLICTS é o primeiro benchmark que permite acompanhar o progresso sobre como os modelos abordam uma ampla gama de conflitos de conhecimento. Realizamos experimentos extensivos nesse benchmark, mostrando que os LLMs frequentemente têm dificuldade em resolver adequadamente conflitos entre fontes. Embora instruir os LLMs a raciocinar explicitamente sobre o potencial conflito nos documentos recuperados melhore significativamente a qualidade e a adequação de suas respostas, ainda há um espaço considerável para melhorias em pesquisas futuras.
O rápido avanço das tecnologias de geração de imagens intensifica a demanda por métodos de detecção interpretáveis e robustos. Embora as abordagens existentes frequentemente atinjam alta precisão, elas geralmente operam como caixas pretas sem fornecer justificativas compreensíveis para humanos. Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs), embora não tenham sido originalmente projetados para detecção de falsificações, exibem fortes capacidades analíticas e de raciocínio. Quando devidamente ajustados, eles podem identificar efetivamente imagens geradas por IA e oferecer explicações significativas. No entanto, os MLLMs existentes ainda lutam com alucinações e frequentemente falham em alinhar suas interpretações visuais com o conteúdo real da imagem e o raciocínio humano. Para preencher essa lacuna, construímos um conjunto de dados de imagens geradas por IA anotadas com caixas delimitadoras e legendas descritivas que destacam artefatos de síntese, estabelecendo uma base para o raciocínio visual-textual alinhado com o humano. Em seguida, ajustamos os MLLMs por meio de uma estratégia de otimização em múltiplos estágios que equilibra progressivamente os objetivos de detecção precisa, localização visual e explicação textual coerente. O modelo resultante alcança desempenho superior tanto na detecção de imagens geradas por IA quanto na localização de falhas visuais, superando significativamente os métodos de linha de base.
Modelos de linguagem de grande escala (LLMs) utilizam dados para aprender sobre o mundo a fim de produzir correlações e previsões significativas. Dessa forma, a natureza, escala, qualidade e diversidade dos conjuntos de dados usados para treinar esses modelos, ou para apoiar seu funcionamento durante a inferência, têm um impacto direto em sua qualidade. O rápido desenvolvimento e adoção de LLMs de qualidade variada trouxeram à tona a escassez de dados de treinamento de alta qualidade disponíveis publicamente e revelaram a necessidade urgente de fundamentar a gestão desses conjuntos de dados em práticas sustentáveis com cadeias de proveniência claras. Para esse fim, este relatório técnico apresenta o Institutional Books 1.0, uma grande coleção de livros de domínio público originalmente digitalizados por meio da participação da Biblioteca de Harvard no projeto Google Books, iniciado em 2006. Em colaboração com a Biblioteca de Harvard, extraímos, analisamos e processamos esses volumes em um conjunto de dados extensivamente documentado de textos históricos. Essa análise abrange toda a coleção da Biblioteca de Harvard digitalizada como parte desse projeto, originalmente composta por 1.075.899 volumes escritos em mais de 250 idiomas diferentes, totalizando aproximadamente 250 bilhões de tokens. Como parte desta primeira versão, o texto extraído por OCR (original e pós-processado), bem como os metadados (bibliográficos, de origem e gerados) dos 983.004 volumes, ou 242 bilhões de tokens, identificados como sendo de domínio público, foram disponibilizados. Este relatório descreve os objetivos e métodos deste projeto, bem como os resultados das análises realizadas, tudo com o intuito de tornar esta coleção histórica mais acessível e mais fácil de filtrar, ler e utilizar tanto por humanos quanto por máquinas.
O paradigma atual de escalonamento em tempo de teste baseia-se na geração de longos rastros de raciocínio ("pensar mais") antes de produzir uma resposta. Em problemas de agentes que exigem interação, isso pode ser feito gerando rastros de pensamento antes de agir no mundo. No entanto, esse processo não permite que os agentes adquiram novas informações do ambiente ou adaptem seu comportamento ao longo do tempo. Neste trabalho, propomos escalonar a interação em tempo de teste, uma dimensão inexplorada do escalonamento em tempo de teste que aumenta o horizonte de interação do agente para permitir a execução de comportamentos ricos, como exploração, retrocesso e re-planejamento dinâmico dentro de um único rollout. Para demonstrar o potencial dessa dimensão de escalonamento, estudamos o domínio de agentes web. Primeiro, mostramos que mesmo o escalonamento de interação baseado em prompt, sem qualquer treinamento, pode melhorar significativamente o sucesso em tarefas em benchmarks web. Com base nisso, introduzimos TTI (Test-Time Interaction), uma abordagem de aprendizado por reforço online (RL) baseada em currículo que treina agentes ajustando adaptativamente os comprimentos de seus rollouts. Usando um modelo Gemma 3 12B, o TTI produz agentes web de código aberto e dados abertos de última geração nos benchmarks WebVoyager e WebArena. Além disso, mostramos que o TTI permite que os agentes equilibrem adaptativamente a exploração e a exploração. Nossos resultados estabelecem o escalonamento de interação como um eixo poderoso e complementar ao escalonamento de computação por passo, oferecendo novas abordagens para o treinamento de agentes adaptativos.
A adaptação eficiente em parâmetros do modelo de pré-treinamento imagem-texto CLIP para recuperação vídeo-texto é uma área proeminente de pesquisa. Embora o CLIP seja focado no emparelhamento visão-linguagem em nível de imagem, a recuperação vídeo-texto exige uma compreensão abrangente em nível de vídeo. Três discrepâncias principais surgem na transferência do nível de imagem para o nível de vídeo: visão, linguagem e alinhamento. No entanto, os métodos existentes concentram-se principalmente na visão, negligenciando a linguagem e o alinhamento. Neste artigo, propomos a Redução de Discrepância em Visão, Linguagem e Alinhamento (DiscoVLA), que mitiga simultaneamente todas as três discrepâncias. Especificamente, introduzimos a Fusão de Características Imagem-Vídeo para integrar características em nível de imagem e vídeo, abordando efetivamente as discrepâncias de visão e linguagem. Além disso, geramos legendas pseudo-imagem para aprender o alinhamento em nível de imagem de forma refinada. Para mitigar as discrepâncias de alinhamento, propomos a Destilação de Alinhamento Imagem-Vídeo, que aproveita o conhecimento de alinhamento em nível de imagem para aprimorar o alinhamento em nível de vídeo. Experimentos extensivos demonstram a superioridade do nosso DiscoVLA. Em particular, no MSRVTT com CLIP (ViT-B/16), o DiscoVLA supera os métodos anteriores em 1,5% no R@1, alcançando uma pontuação final de 50,5% R@1. O código está disponível em https://github.com/LunarShen/DsicoVLA.
Os recentes avanços em modelos de linguagem de grande escala mostram um forte potencial para o raciocínio formal. No entanto, a maioria dos provadores de teoremas baseados em LLM tem sido limitada pela necessidade de declarações formais escritas por especialistas como entradas, restringindo sua aplicabilidade a problemas do mundo real expressos em linguagem natural. Nós abordamos essa lacuna com o Mathesis, o primeiro pipeline de prova de teoremas de ponta a ponta que processa declarações informais de problemas. Ele contribui com o Mathesis-Autoformalizer, o primeiro autoformalizador que usa aprendizado por reforço para aprimorar a capacidade de formalização de problemas em linguagem natural, auxiliado pelo nosso novo framework LeanScorer para avaliação detalhada da qualidade da formalização. Ele também propõe um Mathesis-Prover, que gera provas formais a partir das declarações formalizadas. Para avaliar a aplicabilidade no mundo real da prova de teoremas formal de ponta a ponta, introduzimos o Gaokao-Formal, um benchmark de 488 problemas complexos do exame nacional de admissão ao ensino superior da China. Nossa abordagem é cuidadosamente projetada, com um estudo detalhado de cada componente. Os experimentos demonstram a eficácia do Mathesis, com o autoformalizador superando a melhor linha de base em 22% na taxa de aprovação no Gaokao-Formal. O sistema completo supera outras combinações de modelos, alcançando 64% de precisão no MiniF2F com pass@32 e um estado da arte de 18% no Gaokao-Formal.
Estudos recentes integram a Adaptação de Baixa Classificação (LoRA) e a Mistura de Especialistas (MoE) para aprimorar ainda mais o desempenho de métodos de ajuste fino eficiente em parâmetros (PEFT) em aplicações de Modelos de Linguagem de Grande Escala (LLM). Os métodos existentes empregam arquiteturas homogêneas MoE-LoRA compostas por especialistas LoRA com estruturas e capacidades semelhantes ou idênticas. No entanto, essas abordagens frequentemente sofrem com colapso de representação e desequilíbrio de carga entre especialistas, o que impacta negativamente o potencial dos LLMs. Para enfrentar esses desafios, propomos uma abordagem heterogênea de Mistura de Adaptadores (MoA). Este método integra dinamicamente especialistas adaptadores PEFT com estruturas diversas, aproveitando suas capacidades representacionais complementares para promover a especialização dos especialistas, melhorando assim a transferência eficaz de conhecimento pré-treinado para tarefas subsequentes. O MoA suporta duas variantes: (i) o Soft MoA, que realiza uma integração refinada por meio de uma fusão ponderada de todas as saídas dos especialistas; (ii) o Sparse MoA, que ativa os especialistas adaptadores de forma esparsa com base em sua contribuição, alcançando isso com degradação de desempenho insignificante. Resultados experimentais demonstram que o MoA heterogêneo supera os métodos homogêneos MoE-LoRA tanto em desempenho quanto em eficiência de parâmetros. Nosso projeto está disponível em https://github.com/DCDmllm/MoA.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) trazem grande potencial para aplicações financeiras, mas introduzem desafios críticos de precisão e conformidade na Relatoria Regulatória Digital (DRR). Para abordar essas questões, propomos o RKEFino1, um modelo de raciocínio financeiro aprimorado com conhecimento regulatório, construído sobre o Fino1 e ajustado com conhecimento de domínio de XBRL, CDM e MOF. Formulamos duas tarefas de perguntas e respostas - baseadas em conhecimento e raciocínio matemático - e introduzimos uma nova tarefa de Reconhecimento de Entidades Numéricas (NER) que abrange entidades financeiras tanto em frases quanto em tabelas. Os resultados experimentais demonstram a eficácia e a capacidade de generalização do RKEFino1 em tarefas financeiras críticas para conformidade. Disponibilizamos nosso modelo no Hugging Face.
Este artigo apresenta o MMRefine, um benchmark de Refinamento Multimodal projetado para avaliar as capacidades de refinamento de erros dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). À medida que o foco se desloca para aprimorar o raciocínio durante a inferência, o MMRefine fornece uma estrutura que avalia as habilidades dos MLLMs em detectar e corrigir erros em seis cenários distintos, indo além da simples comparação da precisão final antes e após o refinamento. Além disso, o benchmark analisa o desempenho de refinamento categorizando os erros em seis tipos. Experimentos com diversos MLLMs abertos e fechados revelam gargalos e fatores que impedem o desempenho de refinamento, destacando áreas para melhoria no aprimoramento efetivo do raciocínio. Nosso código e conjunto de dados estão publicamente disponíveis em https://github.com/naver-ai/MMRefine.
A Resposta a Perguntas sobre Produtos Baseada em Análises (PQA) permite que plataformas de comércio eletrônico respondam automaticamente às consultas dos clientes, aproveitando insights de avaliações de usuários. No entanto, os sistemas PQA existentes geram respostas com apenas uma única perspectiva, falhando em capturar a diversidade de opiniões dos clientes. Neste artigo, introduzimos uma nova tarefa chamada Sumarização Quantitativa Focada em Consultas (QQSUM), que visa resumir diversas opiniões de clientes em Pontos-Chave (KPs) representativos e quantificar sua prevalência para responder efetivamente às consultas dos usuários. Embora a Geração Aumentada por Recuperação (RAG) mostre potencial para PQA, as respostas geradas ainda não conseguem capturar a total diversidade de pontos de vista. Para enfrentar esse desafio, nosso modelo QQSUM-RAG, que estende o RAG, emprega aprendizado de poucos exemplos para treinar conjuntamente um recuperador orientado a KPs e um gerador de resumos de KPs, permitindo resumos baseados em KPs que capturam opiniões diversas e representativas. Resultados experimentais demonstram que o QQSUM-RAG alcança desempenho superior em comparação com as bases de RAG state-of-the-art, tanto em qualidade textual quanto na precisão da quantificação de opiniões. Nosso código-fonte está disponível em: https://github.com/antangrocket1312/QQSUMM