Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos Sapiens, uma família de modelos para quatro tarefas fundamentais de visão centradas no ser humano - estimativa de pose 2D, segmentação de partes do corpo, estimativa de profundidade e previsão de normais de superfície. Nossos modelos suportam nativamente inferência de alta resolução de 1K e são extremamente fáceis de adaptar para tarefas individuais simplesmente ajustando modelos pré-treinados em mais de 300 milhões de imagens de humanos em ambientes naturais. Observamos que, dado o mesmo orçamento computacional, o pré-treinamento auto-supervisionado em um conjunto de dados selecionado de imagens humanas impulsiona significativamente o desempenho para uma variedade de tarefas centradas no ser humano. Os modelos resultantes apresentam uma notável capacidade de generalização para dados em ambientes naturais, mesmo quando os dados rotulados são escassos ou inteiramente sintéticos. Nosso design de modelo simples também traz escalabilidade - o desempenho do modelo em diversas tarefas melhora à medida que escalamos o número de parâmetros de 0,3 a 2 bilhões. Sapiens consistentemente supera os baselines existentes em diversos benchmarks centrados no ser humano. Alcançamos melhorias significativas em relação ao estado-da-arte anterior em Humans-5K (pose) em 7,6 mAP, Humans-2K (parte-seg) em 17,1 mIoU, Hi4D (profundidade) em 22,4% de RMSE relativo, e THuman2 (normal) em 53,5% de erro angular relativo.
Na Processamento de Linguagem Natural (PLN), os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado alta qualidade na geração de texto. No entanto, em aplicações do mundo real, os LLMs precisam atender a requisitos cada vez mais complexos. Além de evitar conteúdo enganoso ou inadequado, espera-se que os LLMs atendam às necessidades específicas dos usuários, como imitar estilos de escrita particulares ou gerar texto com riqueza poética. Essas demandas variadas impulsionaram o desenvolvimento de técnicas de Geração de Texto Controlável (CTG), que garantem que as saídas estejam em conformidade com condições de controle predefinidas - como segurança, sentimento, consistência temática e estilo linguístico - mantendo altos padrões de utilidade, fluidez e diversidade. Este artigo revisa sistematicamente os avanços mais recentes em CTG para LLMs, oferecendo uma definição abrangente de seus conceitos principais e esclarecendo os requisitos para condições de controle e qualidade de texto. Nós categorizamos as tarefas de CTG em dois tipos principais: controle de conteúdo e controle de atributos. Os principais métodos são discutidos, incluindo o retrabalho do modelo, ajuste fino, aprendizado por reforço, engenharia de prompts, manipulação do espaço latente e intervenção no momento da decodificação. Analisamos as características, vantagens e limitações de cada método, fornecendo insights detalhados para alcançar o controle de geração. Além disso, revisamos os métodos de avaliação de CTG, resumimos suas aplicações em diferentes domínios e abordamos os principais desafios na pesquisa atual, incluindo redução de fluidez e praticidade. Também propomos várias sugestões, como dar maior ênfase a aplicações do mundo real em pesquisas futuras. Este artigo tem como objetivo oferecer orientações valiosas para pesquisadores e desenvolvedores na área. Nossa lista de referências e a versão em chinês estão disponíveis em código aberto em https://github.com/IAAR-Shanghai/CTGSurvey.
Grandes modelos de linguagem (LLMs) têm avançado em aplicações financeiras, no entanto, frequentemente carecem de conhecimento financeiro suficiente e enfrentam dificuldades em tarefas envolvendo entradas multimodais como tabelas e dados de séries temporais. Para lidar com essas limitações, apresentamos os Open-FinLLMs, uma série de LLMs Financeiros. Começamos com o FinLLaMA, pré-treinado em um corpus financeiro de 52 bilhões de tokens, incorporando texto, tabelas e dados de séries temporais para incorporar conhecimento financeiro abrangente. O FinLLaMA é então ajustado com instruções com 573 mil instruções financeiras, resultando no FinLLaMA-instruct, que melhora o desempenho em tarefas. Por fim, apresentamos o FinLLaVA, um LLM multimodal treinado com 1,43 milhões de instruções de imagem-texto para lidar com tipos complexos de dados financeiros. Avaliações extensas demonstram o desempenho superior do FinLLaMA em relação ao LLaMA3-8B, LLaMA3.1-8B e BloombergGPT em configurações de zero-shot e few-shot em 19 e 4 conjuntos de dados, respectivamente. O FinLLaMA-instruct supera o GPT-4 e outros LLMs Financeiros em 15 conjuntos de dados. O FinLLaVA se destaca na compreensão de tabelas e gráficos em 4 tarefas multimodais. Além disso, o FinLLaMA alcança índices Sharpe impressionantes em simulações de negociação, destacando suas robustas capacidades de aplicação financeira. Continuaremos a manter e aprimorar nossos modelos e benchmarks para apoiar a inovação contínua na academia e na indústria.
Os modelos ajustados por instruções (ou "conversacionais") tornaram-se a principal forma pela qual a maioria das pessoas interage com grandes modelos de linguagem. Ao contrário dos modelos "base" ou "fundamentais", os modelos ajustados por instruções são otimizados para responder a declarações imperativas. Apresentamos o Hermes 3, um modelo generalista alinhado de forma neutra para instruções e uso de ferramentas, com fortes habilidades de raciocínio e criatividade. Sua maior versão, Hermes 3 405B, alcança um desempenho de ponta entre os modelos de peso aberto em vários benchmarks públicos.
Apresentamos um transformer unificado, ou seja, Show-o, que unifica a compreensão e geração multimodal. Ao contrário de modelos totalmente autoregressivos, o Show-o unifica modelagem autoregressiva e de difusão (discreta) para lidar adaptativamente com entradas e saídas de várias e mistas modalidades. O modelo unificado suporta de forma flexível uma ampla gama de tarefas visão-linguagem, incluindo questionamento-resposta visual, geração de texto para imagem, inpainting/extrapolação guiados por texto e geração de multimodalidade. Em diversos benchmarks, ele demonstra desempenho comparável ou superior aos modelos individuais existentes com um número equivalente ou maior de parâmetros adaptados para compreensão ou geração. Isso destaca significativamente seu potencial como um modelo fundamental de próxima geração. O código e os modelos estão disponíveis em https://github.com/showlab/Show-o.
Apresentamos xGen-VideoSyn-1, um modelo de geração texto-para-vídeo (T2V) capaz de produzir cenas realistas a partir de descrições textuais. Construindo sobre avanços recentes, como o Sora da OpenAI, exploramos a arquitetura do modelo de difusão latente (LDM) e introduzimos um autoencoder variacional de vídeo (VidVAE). O VidVAE comprime dados de vídeo tanto espacial quanto temporalmente, reduzindo significativamente o comprimento de tokens visuais e as demandas computacionais associadas à geração de vídeos de sequência longa. Para lidar com os custos computacionais, propomos uma estratégia de divisão e fusão que mantém consistência temporal entre segmentos de vídeo. Nosso modelo Transformer de Difusão (DiT) incorpora camadas de autoatenção espacial e temporal, permitindo generalização robusta em diferentes intervalos de tempo e proporções de aspecto. Criamos um pipeline de processamento de dados desde o início e coletamos mais de 13 milhões de pares vídeo-texto de alta qualidade. O pipeline inclui múltiplos passos como recorte, detecção de texto, estimativa de movimento, pontuação estética e legendagem densa com base em nosso modelo de vídeo-LLM interno. O treinamento dos modelos VidVAE e DiT exigiu aproximadamente 40 e 642 dias H100, respectivamente. Nosso modelo suporta geração de vídeo de 720p com mais de 14 segundos de forma integrada e demonstra desempenho competitivo em comparação com modelos T2V de ponta.
Apresentamos o Jamba-1.5, novos modelos de linguagem grandes ajustados por instruções com base em nossa arquitetura Jamba. Jamba é uma arquitetura híbrida de mistura de especialistas Transformer-Mamba, proporcionando alta taxa de transferência e baixo uso de memória em diferentes comprimentos de contexto, mantendo a mesma ou melhor qualidade em comparação com modelos Transformer. Lançamos dois tamanhos de modelo: Jamba-1.5-Large, com 94 bilhões de parâmetros ativos, e Jamba-1.5-Mini, com 12 bilhões de parâmetros ativos. Ambos os modelos são ajustados para uma variedade de capacidades de conversação e seguimento de instruções, e possuem um comprimento de contexto efetivo de 256 mil tokens, o maior entre os modelos de peso aberto. Para suportar inferência com custo efetivo, introduzimos ExpertsInt8, uma técnica de quantização inovadora que permite ajustar o Jamba-1.5-Large em uma máquina com 8 GPUs de 80GB ao processar contextos de 256 mil tokens sem perda de qualidade. Quando avaliados em uma bateria de benchmarks acadêmicos e de chatbot, os modelos Jamba-1.5 alcançam excelentes resultados, proporcionando alta taxa de transferência e superando outros modelos de peso aberto em benchmarks de longo contexto. Os pesos do modelo para ambos os tamanhos estão disponíveis publicamente sob a Licença de Modelo Aberto Jamba e disponibilizamos o ExpertsInt8 como código aberto.
Estamos vivendo em uma era próspera de mídia digital, onde todos têm o potencial de se tornar um cineasta pessoal. A pesquisa atual sobre transferência cinematográfica capacita os cineastas a reproduzir e manipular os elementos visuais (por exemplo, cinematografia e comportamentos de personagens) de cenas clássicas. No entanto, os personagens nos filmes reimaginados ainda dependem de criação manual, o que envolve uma complexidade técnica significativa e altos custos, tornando isso inatingível para usuários comuns. Além disso, a cinematografia estimada carece de suavidade devido à captura inadequada de movimento entre quadros e modelagem de trajetórias físicas. Felizmente, o notável sucesso da IA generativa 2D e 3D abriu a possibilidade de gerar eficientemente personagens adaptados às necessidades dos usuários, diversificando a cinematografia. Neste artigo, propomos o DreamCinema, um novo framework de transferência cinematográfica que pioneira a IA generativa no paradigma de produção cinematográfica, com o objetivo de facilitar a criação de filmes amigáveis ao usuário. Especificamente, primeiro extraímos elementos cinematográficos (ou seja, pose humana e da câmera) e otimizamos a trajetória da câmera. Em seguida, aplicamos um gerador de personagens para criar eficientemente personagens 3D de alta qualidade com uma estrutura humana prévia. Por fim, desenvolvemos uma estratégia de transferência de movimento guiada por estrutura para incorporar personagens gerados na criação de filmes e transferi-los suavemente por meio de motores gráficos 3D. Experimentos extensivos demonstram a eficácia de nosso método para criar filmes de alta qualidade com câmera livre e personagens 3D.
Os modelos de incorporação desempenham um papel crucial no Processamento de Linguagem Natural (PLN) ao criar incorporações de texto usadas em várias tarefas, como recuperação de informação e avaliação da similaridade semântica de textos. Este artigo concentra-se em pesquisas relacionadas a modelos de incorporação na língua russa. Ele apresenta um novo modelo de incorporação focado no russo chamado ru-en-RoSBERTa e o benchmark ruMTEB, a versão russa que estende o Massive Text Embedding Benchmark (MTEB). Nosso benchmark inclui sete categorias de tarefas, como similaridade textual semântica, classificação de texto, reclassificação e recuperação. A pesquisa também avalia um conjunto representativo de modelos russos e multilíngues no benchmark proposto. Os resultados indicam que o novo modelo alcança resultados equivalentes aos modelos de ponta em russo. Lançamos o modelo ru-en-RoSBERTa, e o framework ruMTEB vem com código aberto, integração no framework original e um quadro de líderes públicos.
Apresentamos AiM, um modelo generativo de imagens autoregressivo (AR) baseado na arquitetura Mamba. AiM utiliza Mamba, um modelo de espaço de estados inovador caracterizado por seu desempenho excepcional para modelagem de sequências longas com complexidade de tempo linear, para substituir os Transformadores comumente utilizados em modelos de geração de imagens AR, com o objetivo de alcançar tanto uma qualidade de geração superior quanto uma velocidade de inferência aprimorada. Ao contrário dos métodos existentes que adaptam o Mamba para lidar com sinais bidimensionais por meio de varredura multidirecional, AiM utiliza diretamente o paradigma de previsão do próximo token para geração de imagens autoregressiva. Esta abordagem contorna a necessidade de extensas modificações para permitir que o Mamba aprenda representações espaciais 2D. Ao implementar modificações simples, porém estrategicamente direcionadas para tarefas generativas visuais, preservamos a estrutura central do Mamba, explorando totalmente suas eficientes capacidades de modelagem de sequências longas e escalabilidade. Fornecemos modelos AiM em várias escalas, com contagens de parâmetros variando de 148M a 1.3B. No benchmark ImageNet1K 256*256, nosso melhor modelo AiM alcança um FID de 2.21, superando todos os modelos AR existentes com contagens de parâmetros comparáveis e demonstrando uma competitividade significativa em relação aos modelos de difusão, com uma velocidade de inferência de 2 a 10 vezes mais rápida. O código está disponível em https://github.com/hp-l33/AiM
Neste relatório, apresentamos o Vintern-1B, um modelo de linguagem multimodal grande e confiável com 1 bilhão de parâmetros (MLLM) para tarefas em língua vietnamita. Ao integrar o modelo de linguagem Qwen2-0.5B-Instruct com o modelo visual InternViT-300M-448px, o Vintern-1B é otimizado para uma variedade de aplicações, incluindo reconhecimento óptico de caracteres (OCR), extração de documentos e perguntas e respostas gerais no contexto vietnamita. O modelo é ajustado em um extenso conjunto de dados com mais de 3 milhões de pares imagem-pergunta-resposta, alcançando desempenho robusto e resultados confiáveis em vários benchmarks da língua vietnamita, como OpenViVQA e ViTextVQA. O Vintern-1B é compacto o suficiente para ser facilmente integrado em diversas aplicações em dispositivos. Além disso, disponibilizamos vários conjuntos de dados vietnamitas de perguntas e respostas visuais (VQA) para texto e diagramas, criados com o Gemini 1.5 Flash. Nossos modelos estão disponíveis em: https://huggingface.co/5CD-AI/Vintern-1B-v2.
Apresentamos a Transmissão de Atenção em Pirâmide (PAB), uma abordagem em tempo real, de alta qualidade e sem necessidade de treinamento para geração de vídeo baseada em DiT. Nosso método é fundamentado na observação de que a diferença de atenção no processo de difusão exibe um padrão em forma de U, indicando uma redundância significativa. Mitigamos isso transmitindo as saídas de atenção para etapas subsequentes em um estilo de pirâmide. Aplicamos diferentes estratégias de transmissão para cada atenção com base em sua variância para obter a melhor eficiência. Além disso, introduzimos a transmissão sequencial paralela para uma inferência distribuída mais eficiente. O PAB demonstra resultados superiores em três modelos em comparação com os baselines, alcançando geração em tempo real para vídeos de até 720p. Antecipamos que nosso método simples, porém eficaz, servirá como uma linha de base robusta e facilitará pesquisas e aplicações futuras para geração de vídeo.
Neste artigo, propomos um novo método chamado Estrategista que utiliza LLMs para adquirir novas habilidades para jogar jogos multiagentes por meio de um processo de auto aprimoramento. Nosso método coleta feedback de qualidade por meio de simulações de autojogo com busca em árvore de Monte Carlo e reflexão baseada em LLM, que pode então ser usado para aprender habilidades estratégicas de alto nível, como avaliar estados que orientam a execução de baixo nível. Demonstramos como nosso método pode ser usado tanto no planejamento de ações quanto na geração de diálogos no contexto de jogos, alcançando bom desempenho em ambas as tarefas. Especificamente, demonstramos que nosso método pode ajudar a treinar agentes com melhor desempenho do que abordagens tradicionais baseadas em aprendizado por reforço e outras abordagens de aprendizado de habilidades baseadas em LLM em jogos, incluindo o Jogo de Estratégia Pura (GOPS) e The Resistance: Avalon.
Os Modelos de Visão-Linguagem em Grande Escala (LVLMs) avançaram significativamente com entradas de visão alinhadas ao texto. Eles fizeram progressos notáveis em tarefas de visão computacional ao alinhar a modalidade de texto com as entradas de visão. Também há esforços para incorporar sensores de visão múltipla além do RGB, incluindo imagens térmicas, de profundidade e raios-X médicos. No entanto, observamos que os LVLMs atuais visualizam imagens capturadas por sensores de visão múltipla como se estivessem no mesmo domínio RGB, sem considerar as características físicas dos sensores de visão múltipla. Eles falham em transmitir corretamente as informações fundamentais dos sensores de visão múltipla do conjunto de dados e o conhecimento contextual correspondente. Consequentemente, a alinhamento entre as informações do ambiente físico real e o texto não é alcançado corretamente, tornando difícil responder a perguntas complexas relacionadas aos sensores que consideram o ambiente físico. Neste artigo, temos como objetivo estabelecer um benchmark de Percepção e Raciocínio de Sensores de Visão Múltipla chamado SPARK, que pode reduzir a lacuna fundamental de informações dos sensores de visão múltipla entre imagens e sensores de visão múltipla. Geramos automaticamente 6.248 amostras de teste de visão-linguagem para investigar a percepção sensorial de visão múltipla e o raciocínio sensorial de visão múltipla sobre a proficiência em conhecimento de sensores físicos em diferentes formatos, abrangendo diferentes tipos de perguntas relacionadas aos sensores. Utilizamos essas amostras para avaliar dez dos principais LVLMs. Os resultados mostraram que a maioria dos modelos apresentou deficiências no raciocínio sensorial de visão múltipla em diferentes graus. Os códigos e dados estão disponíveis em https://github.com/top-yun/SPARK
Os grandes modelos de linguagem (LLMs) alcançaram avanços impressionantes em diversas disciplinas, no entanto, a questão crítica dos conflitos de conhecimento, uma importante fonte de alucinações, raramente foi estudada. Apenas algumas pesquisas exploraram os conflitos entre o conhecimento inerente dos LLMs e o conhecimento contextual recuperado. No entanto, uma avaliação abrangente dos conflitos de conhecimento em LLMs ainda está ausente. Motivados por essa lacuna na pesquisa, apresentamos o ConflictBank, o primeiro benchmark abrangente desenvolvido para avaliar sistematicamente os conflitos de conhecimento a partir de três aspectos: (i) conflitos encontrados no conhecimento recuperado, (ii) conflitos dentro do conhecimento codificado dos modelos e (iii) a interação entre essas formas de conflito. Nossa investigação aprofunda-se em quatro famílias de modelos e doze instâncias de LLM, analisando meticulosamente conflitos decorrentes de desinformação, discrepâncias temporais e divergências semânticas. Com base em nosso novo framework de construção proposto, criamos 7.453.853 pares de reivindicação-evidência e 553.117 pares de perguntas e respostas. Apresentamos numerosas descobertas sobre escala do modelo, causas de conflito e tipos de conflito. Esperamos que nosso benchmark ConflictBank ajude a comunidade a entender melhor o comportamento do modelo em conflitos e a desenvolver LLMs mais confiáveis.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram recentemente notáveis habilidades perceptivas e de raciocínio, geralmente compostos por um Codificador de Visão, um Adaptador e um Modelo de Linguagem de Grande Escala (LLM). O adaptador atua como a ponte crítica entre os componentes visual e linguístico. No entanto, treinar adaptadores com supervisão em nível de imagem frequentemente resulta em desalinhamentos significativos, comprometendo as capacidades dos LLMs e limitando o potencial dos MLLMs multimodais. Para lidar com isso, introduzimos o Alinhamento de Incorporação Supervisionado (SEA), um método de alinhamento em nível de token que aproveita modelos pré-treinados de visão-linguagem, como o CLIP, para alinhar tokens visuais com o espaço de incorporação do LLM por meio de aprendizado contrastivo. Essa abordagem garante uma integração mais coerente das representações visual e linguística, aprimorando o desempenho e a interpretabilidade dos MLLMs multimodais, ao mesmo tempo que preserva suas capacidades inerentes. Experimentos extensivos mostram que o SEA melhora efetivamente os MLLMs, especialmente para modelos menores, sem adicionar dados extras ou computação de inferência. O SEA também lança as bases para o desenvolvimento de soluções mais gerais e adaptáveis para aprimorar sistemas multimodais.
Os métodos tradicionais de geração de animações dependem do treinamento de modelos generativos com dados rotulados por humanos, envolvendo um sofisticado pipeline de múltiplas etapas que demanda um esforço humano substancial e incorre em altos custos de treinamento. Devido aos planos de estímulo limitados, esses métodos geralmente produzem animações breves, pobres em informações e incoerentes em contexto. Para superar essas limitações e automatizar o processo de animação, pioneiramos a introdução de grandes modelos multimodais (LMMs) como o processador central para construir um agente autônomo de criação de animações, denominado Anim-Director. Este agente principalmente aproveita as capacidades avançadas de compreensão e raciocínio dos LMMs e ferramentas de IA generativa para criar vídeos animados a partir de narrativas concisas ou instruções simples. Especificamente, opera em três etapas principais: Primeiramente, o Anim-Director gera uma linha de história coerente a partir das entradas do usuário, seguida por um roteiro detalhado do diretor que abrange configurações de perfis de personagens e descrições de interiores/exteriores, e descrições de cena coerentes com o contexto que incluem personagens que aparecem, interiores ou exteriores e eventos de cena. Em segundo lugar, empregamos LMMs com a ferramenta de geração de imagens para produzir imagens visuais de configurações e cenas. Essas imagens são projetadas para manter consistência visual entre diferentes cenas usando um método de estímulo visual-linguístico que combina descrições de cena e imagens do personagem e configuração que aparecem. Em terceiro lugar, as imagens de cena servem de base para a produção de vídeos animados, com os LMMs gerando estímulos para orientar esse processo. Todo o processo é notavelmente autônomo, sem intervenção manual, já que os LMMs interagem perfeitamente com ferramentas generativas para gerar estímulos, avaliar a qualidade visual e selecionar a melhor opção para otimizar a saída final.
A reconstrução 3D e a reluzência de objetos feitos de materiais dispersivos representam um desafio significativo devido ao complexo transporte de luz sob a superfície. O Splatting Gaussiano 3D introduziu a síntese de novas visualizações de alta qualidade em tempo real. Enquanto os Gaussianos 3D aproximam eficientemente a superfície de um objeto, eles falham em capturar as propriedades volumétricas da dispersão subsuperficial. Propomos um framework para otimizar a forma de um objeto juntamente com o campo de transferência de radiância, considerando dados OLAT (um luz de cada vez) de múltiplas visualizações. Nosso método decompõe a cena em uma superfície explícita representada por Gaussianos 3D, com um BRDF variável espacialmente, e uma representação volumétrica implícita do componente de dispersão. Um campo de luz incidente aprendido considera o sombreamento. Otimizamos todos os parâmetros em conjunto via renderização diferenciável rastreada por raio. Nossa abordagem possibilita edição de material, reluzência e síntese de novas visualizações a taxas interativas. Demonstramos uma aplicação bem-sucedida em dados sintéticos e introduzimos um conjunto de dados multi-visual multi-luz recém-adquirido de objetos em um ambiente de estágio de luz. Em comparação com trabalhos anteriores, alcançamos resultados comparáveis ou melhores em uma fração do tempo de otimização e renderização, ao mesmo tempo que possibilitamos um controle detalhado sobre os atributos do material. Página do projeto: https://sss.jdihlmann.com/
A síntese de som Foley é crucial para a produção de multimídia, aprimorando a experiência do usuário ao sincronizar áudio e vídeo tanto temporal quanto semanticamente. Estudos recentes sobre automatizar esse processo intensivo em mão de obra por meio da geração de vídeo para som enfrentam desafios significativos. Sistemas carentes de características temporais explícitas sofrem de baixa controlabilidade e alinhamento, enquanto modelos baseados em marcação temporal exigem anotações humanas dispendiosas e subjetivas. Propomos o Video-Foley, um sistema de vídeo para som que utiliza a Raiz Quadrada da Média dos Quadrados (RMS) como condição de evento temporal com sugestões semânticas de timbre (áudio ou texto). O RMS, um recurso de envelope de intensidade ao nível do quadro intimamente relacionado à semântica de áudio, garante alta controlabilidade e sincronização. O framework de aprendizado auto-supervisionado sem anotações consiste em duas etapas, Video2RMS e RMS2Sound, incorporando ideias inovadoras, incluindo discretização de RMS e RMS-ControlNet com um modelo pré-treinado de texto para áudio. Nossa extensa avaliação mostra que o Video-Foley alcança desempenho de ponta em alinhamento áudio-visual e controlabilidade para tempo, intensidade, timbre e nuances sonoras. Código, pesos do modelo e demonstrações estão disponíveis no site associado. (https://jnwnlee.github.io/video-foley-demo)
Dada a ampla disseminação de desinformação nas redes sociais, a implementação de mecanismos de verificação de fatos para alegações online é essencial. Verificar manualmente cada alegação é altamente desafiador, destacando a necessidade de um sistema automatizado de verificação de fatos. Este artigo apresenta nosso sistema projetado para abordar essa questão. Utilizamos o conjunto de dados Averitec para avaliar a veracidade das alegações. Além da previsão de veracidade, nosso sistema fornece evidências de apoio, que são extraídas do conjunto de dados. Desenvolvemos um pipeline de Recuperação e Geração (RAG) para extrair frases de evidências relevantes de uma base de conhecimento, que são então inseridas juntamente com a alegação em um grande modelo de linguagem (LLM) para classificação. Também avaliamos as capacidades de Aprendizado em Contexto Limitado (ICL) de poucas amostras de vários LLMs. Nosso sistema alcança uma pontuação 'Averitec' de 0,33, o que representa uma melhoria absoluta de 22% em relação à linha de base. Todo o código estará disponível em https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.