Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho notável em tarefas de raciocínio. Eles utilizam a geração autoregressiva de tokens para construir trajetórias de raciocínio, permitindo o desenvolvimento de uma cadeia coerente de pensamento. Neste trabalho, exploramos o impacto de tokens individuais nos resultados finais de tarefas de raciocínio. Identificamos a existência de "tokens críticos" que levam a trajetórias de raciocínio incorretas em LLMs. Especificamente, descobrimos que os LLMs tendem a produzir resultados positivos quando forçados a decodificar outros tokens em vez dos tokens críticos. Motivados por essa observação, propomos uma abordagem inovadora - cDPO - projetada para reconhecer e realizar recompensas em nível de token para os tokens críticos durante o processo de alinhamento. Especificamente, desenvolvemos uma abordagem de estimação contrastiva para identificar automaticamente os tokens críticos. Isso é alcançado comparando a probabilidade de geração de modelos positivos e negativos. Para isso, ajustamos separadamente os modelos positivos e negativos em várias trajetórias de raciocínio, sendo capazes de identificar os tokens críticos dentro de trajetórias incorretas que contribuem para resultados errôneos. Além disso, para alinhar ainda mais o modelo com as informações dos tokens críticos durante o processo de alinhamento, estendemos os algoritmos DPO convencionais para DPO em nível de token e utilizamos a probabilidade diferencial dos modelos positivos e negativos mencionados anteriormente como peso importante para o aprendizado em nível de token do DPO. Resultados experimentais nos benchmarks GSM8K e MATH500 com os modelos amplamente utilizados Llama-3 (8B e 70B) e deepseek-math (7B) demonstram a eficácia da abordagem proposta cDPO.
Os modelos atuais de geração de vídeo se destacam na criação de clipes curtos, mas ainda enfrentam dificuldades em produzir vídeos com múltiplos planos, semelhantes a filmes. Os modelos existentes, treinados em dados em larga escala com o suporte de recursos computacionais robustos, são inadequados para manter uma narrativa lógica e consistência visual em vários planos de um roteiro coeso, uma vez que frequentemente são treinados com um objetivo de um único plano. Nesse sentido, propomos o VideoGen-of-Thought (VGoT), uma arquitetura colaborativa e sem necessidade de treinamento, projetada especificamente para a geração de vídeos com múltiplos planos. O VGoT é concebido com três objetivos em mente da seguinte forma. Geração de Vídeo com Múltiplos Planos: Dividimos o processo de geração de vídeo em uma sequência estruturada e modular, incluindo (1) Geração de Roteiro, que traduz uma história concisa em instruções detalhadas para cada plano; (2) Geração de Quadros-Chave, responsável por criar quadros-chave visualmente consistentes fiéis às representações dos personagens; e (3) Geração de Vídeo em Nível de Plano, que transforma informações dos roteiros e quadros-chave em planos; (4) Mecanismo de Suavização que garante uma saída de múltiplos planos consistente. Design Narrativo Razoável: Inspirado na escrita de roteiros cinematográficos, nossa abordagem de geração de instruções abrange cinco domínios-chave, garantindo consistência lógica, desenvolvimento de personagens e fluidez narrativa em todo o vídeo. Consistência entre Planos: Garantimos consistência temporal e de identidade ao alavancar embeddings preservadores de identidade (IP) entre planos, que são criados automaticamente a partir da narrativa. Adicionalmente, incorporamos um mecanismo de suavização entre planos, que integra um limite de reinício que combina efetivamente características latentes de planos adjacentes, resultando em transições suaves e mantendo a coerência visual ao longo do vídeo. Nossos experimentos demonstram que o VGoT supera os métodos existentes de geração de vídeo na produção de vídeos com múltiplos planos de alta qualidade e coerentes.
Permitir uma colaboração eficaz entre LLMs é um passo crucial para o desenvolvimento de sistemas autônomos capazes de resolver problemas complexos. Embora os LLMs sejam normalmente utilizados como geradores de modelos únicos, nos quais os humanos criticam e refinam suas saídas, o potencial para modelos colaborativos treinados em conjunto permanece amplamente inexplorado. Apesar dos resultados promissores em configurações de comunicação e debate multiagentes, pouco progresso foi feito no treinamento de modelos para trabalhar juntos em tarefas. Neste artigo, apresentamos um primeiro passo em direção ao "treinamento de LLM multiagente" (MALT) em problemas de raciocínio. Nossa abordagem emprega uma configuração multiagente sequencial com LLMs heterogêneos designados para papéis especializados: um gerador, verificador e modelo de refinamento resolvendo problemas de forma iterativa. Propomos um processo de geração de dados sintéticos baseado em expansão de trajetória e uma estratégia de atribuição de crédito orientada por recompensas baseadas em resultados conjuntos. Isso permite que nossa configuração pós-treinamento utilize trajetórias positivas e negativas para melhorar autonomamente as capacidades especializadas de cada modelo como parte de um sistema sequencial conjunto. Avaliamos nossa abordagem em MATH, GSM8k e CQA, onde o MALT nos modelos Llama 3.1 8B alcança melhorias relativas de 14,14%, 7,12% e 9,40%, respectivamente, em relação ao mesmo modelo de referência. Isso demonstra um avanço inicial nas capacidades cooperativas multiagentes para o desempenho em questões de raciocínio matemático e de senso comum. De forma mais geral, nosso trabalho fornece uma direção concreta para pesquisas em torno de abordagens de treinamento de LLM multiagente.
Ao contrário dos modelos de recompensa de resultado (ORMs) correspondentes, que avaliam todas as respostas, um modelo de recompensa de processo (PRM) pontua uma trajetória de raciocínio passo a passo, fornecendo recompensas mais densas e detalhadas. No entanto, treinar um PRM requer rótulos anotados em cada etapa intermediária, apresentando desafios significativos tanto para a coleta manual quanto automática de dados. Este artigo tem como objetivo abordar esse desafio. Tanto teoricamente quanto empiricamente, demonstramos que um PRM implícito pode ser obtido sem custo adicional, simplesmente treinando um ORM com os rótulos mais baratos a nível de resposta. A única suposição é parametrizar a recompensa de resultado como as razões de log-verossimilhança dos modelos de política e referência, que podem ser otimizados independentemente da escolha específica de objetivos de perda. Em experimentos, instanciamos nossos PRMs implícitos com vários objetivos e avaliamos seu desempenho em MATH. Mostramos que nosso PRM implícito supera uma linha de base forte baseada em MCTS à la Math-Shepherd usando menos de 1/38 dos dados de treinamento. Seu desempenho pode ser ainda melhorado com votação majoritária. Além disso, descobrimos que aumentar as instruções e respostas beneficia nosso PRM implícito, sendo que as respostas trazem um ganho maior. Em particular, observamos que nosso PRM implícito, quando instanciado com a perda de entropia cruzada (CE), é mais eficiente em dados e pode continuar a melhorar os modelos de geração mesmo quando treinado com apenas uma resposta por instrução, cenário que sofre com extrema escassez e desequilíbrio de dados. Além disso, as instruções devem ser relevantes para as tarefas futuras, enquanto a diversidade de respostas não traz ganhos. Surpreendentemente, treinar com rótulos extras de etapas do Math-Shepherd não traz melhorias adicionais ao nosso PRM implícito treinado apenas com dados de resultado. Esperamos que nosso trabalho estimule uma reflexão sobre abordagens de treinamento de PRM e contribua para tornar o treinamento de PRMs mais acessível.
Os grandes modelos de linguagem (LLMs) possibilitaram a criação de LLMs multimodais que apresentam forte compreensão de dados visuais, como imagens e vídeos. No entanto, esses modelos geralmente dependem de extensos tokens visuais de codificadores visuais, resultando em altas demandas computacionais, o que limita sua aplicabilidade em ambientes com recursos limitados e para tarefas de longo contexto. Neste trabalho, propomos um método de inferência adaptativa sem treinamento para LLMs multimodais que pode acomodar uma ampla gama de requisitos de eficiência com uma queda mínima de desempenho. Nosso método consiste em a) fusão iterativa de tokens com base na similaridade de incorporação antes dos LLMs, e b) poda progressiva de tokens dentro das camadas dos LLMs com base na importância multimodal. Com um design minimalista, nosso método pode ser aplicado tanto a LLMs de vídeo quanto de imagem. Experimentos extensivos em diversos benchmarks de vídeo e imagem demonstram que nosso método reduz substancialmente a carga computacional (por exemplo, uma redução de 7 vezes em FLOPs) enquanto preserva o desempenho de LLMs de vídeo e imagem. Além disso, sob um custo computacional semelhante, nosso método supera os métodos de ponta em compreensão de vídeo longo (por exemplo, +4,6 no MLVU). Adicionalmente, nossa análise aprofundada fornece insights sobre a redundância de tokens e comportamentos das camadas dos LLMs, oferecendo orientações para pesquisas futuras na concepção de LLMs multimodais eficientes. Nosso código estará disponível em https://github.com/LaVi-Lab/AIM.
Recentemente, modelos de linguagem multimodais de grande porte (MLLMs), como GPT-4o, Gemini 1.5 Pro e Reka Core, expandiram suas capacidades para incluir modalidades de visão e áudio. Enquanto esses modelos demonstram um desempenho impressionante em uma ampla gama de aplicações audiovisuais, nosso DeafTest proposto revela que MLLMs frequentemente enfrentam dificuldades com tarefas simples que os humanos consideram triviais: 1) determinar qual dos dois sons é mais alto e 2) determinar qual dos dois sons tem um tom mais alto. Motivados por essas observações, introduzimos o AV-Odyssey Bench, um benchmark audiovisual abrangente projetado para avaliar se esses MLLMs realmente conseguem entender as informações audiovisuais. Este benchmark abrange 4.555 problemas cuidadosamente elaborados, cada um incorporando componentes de texto, visual e áudio. Para inferir respostas com sucesso, os modelos devem aproveitar efetivamente pistas tanto dos inputs visuais quanto dos inputs de áudio. Para garantir uma avaliação precisa e objetiva das respostas dos MLLMs, estruturamos as perguntas como múltipla escolha, eliminando a necessidade de avaliação humana ou avaliação assistida por LLM. Avaliamos uma série de modelos de código fechado e de código aberto e resumimos as observações. Ao revelar as limitações dos modelos atuais, temos como objetivo fornecer insights úteis para a coleta de dados futuros e o desenvolvimento de modelos.
A Geração com Recuperação Aumentada (RAG) aprimora os Modelos de Linguagem de Grande Escala (LLMs) integrando conhecimento externo para reduzir alucinações e incorporar informações atualizadas sem a necessidade de retrabalho. Como parte essencial da RAG, bases de conhecimento externas são comumente construídas pela extração de dados estruturados de documentos PDF não estruturados usando Reconhecimento Óptico de Caracteres (OCR). No entanto, devido à previsão imperfeita do OCR e à representação não uniforme inerente dos dados estruturados, as bases de conhecimento inevitavelmente contêm vários ruídos do OCR. Neste artigo, apresentamos o OHRBench, o primeiro benchmark para compreender o impacto em cascata do OCR nos sistemas RAG. O OHRBench inclui 350 documentos PDF não estruturados cuidadosamente selecionados de seis domínios de aplicação RAG do mundo real, juntamente com perguntas e respostas derivadas de elementos multimodais nos documentos, desafiando as soluções de OCR existentes usadas para RAG. Para entender melhor o impacto do OCR nos sistemas RAG, identificamos dois tipos principais de ruído do OCR: Ruído Semântico e Ruído de Formatação e aplicamos perturbação para gerar um conjunto de dados estruturados com diferentes graus de cada ruído do OCR. Usando o OHRBench, realizamos uma avaliação abrangente das soluções de OCR atuais e revelamos que nenhuma é competente para construir bases de conhecimento de alta qualidade para sistemas RAG. Em seguida, avaliamos sistematicamente o impacto desses dois tipos de ruído e demonstramos a vulnerabilidade dos sistemas RAG. Além disso, discutimos o potencial de empregar Modelos de Visão-Linguagem (VLMs) sem OCR em sistemas RAG. Código: https://github.com/opendatalab/OHR-Bench
Após a introdução dos Modelos de Linguagem de Grande Escala (LLMs), houve melhorias substanciais no desempenho de tarefas de Geração de Linguagem Natural (NLG), incluindo Sumarização de Texto e Tradução Automática. No entanto, os LLMs ainda produzem saídas contendo alucinações, ou seja, conteúdo não fundamentado em informações factuais. Portanto, desenvolver métodos para avaliar a factualidade dos LLMs tornou-se urgente. De fato, recursos para avaliação de factualidade surgiram recentemente. Embora desafiadores, esses recursos enfrentam uma ou mais das seguintes limitações: (i) são adaptados a uma tarefa ou domínio específico; (ii) são limitados em tamanho, impedindo assim o treinamento de novos avaliadores de factualidade; (iii) são projetados para tarefas de verificação mais simples, como verificação de alegações. Para abordar essas questões, apresentamos o LLM-Oasis, até onde sabemos o maior recurso para treinar avaliadores de factualidade de ponta a ponta. O LLM-Oasis é construído pela extração de alegações da Wikipedia, falsificando um subconjunto dessas alegações e gerando pares de textos factuais e não factuais. Em seguida, contamos com anotadores humanos para validar a qualidade de nosso conjunto de dados e criar um conjunto de testes padrão-ouro para avaliar sistemas de avaliação de factualidade. Nossos experimentos demonstram que o LLM-Oasis apresenta um desafio significativo para os LLMs de última geração, com o GPT-4o alcançando até 60% de precisão em nossa proposta de tarefa de avaliação de factualidade de ponta a ponta, destacando seu potencial para impulsionar pesquisas futuras no campo.
O controle de movimento é crucial para gerar conteúdo de vídeo expressivo e cativante; no entanto, a maioria dos modelos de geração de vídeo existentes depende principalmente de instruções de texto para controle, o que dificulta capturar as nuances de ações dinâmicas e composições temporais. Para isso, treinamos um modelo de geração de vídeo condicionado a trajetórias de movimento espacial e temporalmente esparsas ou densas. Em contraste com trabalhos anteriores de condicionamento de movimento, essa representação flexível pode codificar qualquer número de trajetórias, movimento específico de objetos ou de cena global, e movimento temporalmente esparsos; devido à sua flexibilidade, nos referimos a esse condicionamento como instruções de movimento. Enquanto os usuários podem especificar diretamente trajetórias esparsas, também mostramos como traduzir solicitações de usuários em níveis altos em instruções de movimento detalhadas e semi-esparsas, um processo que denominamos expansão de instruções de movimento. Demonstramos a versatilidade de nossa abordagem por meio de várias aplicações, incluindo controle de movimento de câmera e objetos, "interação" com uma imagem, transferência de movimento e edição de imagem. Nossos resultados mostram comportamentos emergentes, como física realista, sugerindo o potencial de instruções de movimento para explorar modelos de vídeo e interagir com futuros modelos gerativos do mundo. Por fim, avaliamos quantitativamente, realizamos um estudo humano e demonstramos um desempenho sólido. Os resultados em vídeo estão disponíveis em nossa página da web: https://motion-prompting.github.io/
Apresentamos o OmniCreator, um novo framework que pode realizar geração unificada (imagem+vídeo) e edição de texto em um único lugar. O OmniCreator adquire capacidades generativas e de edição universais de forma auto-supervisionada, utilizando pares originais de texto-vídeo como condições e empregando o mesmo vídeo como alvo de desruído para aprender a correspondência semântica entre vídeo e texto. Durante a inferência, ao ser apresentado com um texto de orientação e um vídeo, o OmniCreator é capaz de gerar um alvo fiel a ambos, alcançando um efeito de edição universal que é ilimitado em oposição ao trabalho de edição existente que se concentra principalmente em certos tipos de edição ou depende de controles adicionais (por exemplo, condições estruturais, características de atenção ou inversão DDIM). Por outro lado, ao ser apresentado apenas com um texto de orientação, o OmniCreator se torna generativo, produzindo vídeos de alta qualidade como resultado da correspondência semântica aprendida. Importante ressaltar que as mesmas capacidades se estendem a imagens tal como são, tornando o OmniCreator um framework verdadeiramente unificado. Além disso, devido à falta de benchmarks existentes para edição generativa de vídeo, introduzimos o conjunto de dados OmniBench-99, projetado para avaliar o desempenho de modelos de edição generativa de vídeo de forma abrangente. Experimentos extensivos demonstram que o OmniCreator exibe uma superioridade substancial sobre todos os outros modelos.
A pesquisa sobre Modelos de Visão-Linguagem 3D (3D-VLMs) está ganhando cada vez mais atenção, o que é crucial para o desenvolvimento de IA incorporada em cenários 3D, como navegação visual e resposta a perguntas incorporadas. Devido à alta densidade de características visuais, especialmente em grandes cenários 3D, localizar com precisão informações visuais relevantes para a tarefa é desafiador. Trabalhos existentes tentam segmentar todos os objetos e considerar suas características como representações da cena. No entanto, essas características de objetos agnósticas à tarefa incluem muitas informações redundantes e detalhes ausentes para a área relevante da tarefa. Para lidar com esses problemas, propomos LSceneLLM, um framework adaptativo que identifica automaticamente áreas relevantes para a tarefa, aproveitando a preferência visual do LLM para diferentes tarefas, seguido por um módulo ampliador de cena plug-and-play para capturar detalhes refinados em áreas focadas. Especificamente, um seletor de token denso examina o mapa de atenção do LLM para identificar preferências visuais para a entrada de instrução. Em seguida, amplia detalhes refinados da área de foco. Um módulo de autoatenção adaptativo é utilizado para fundir as informações visuais grosseiras e selecionadas refinadas. Para avaliar abrangentemente a capacidade de compreensão de cenários grandes dos 3D-VLMs, introduzimos ainda um benchmark de compreensão entre salas, XR-Scene, que contém uma série de tarefas de compreensão de cenários grandes, incluindo XR-QA, XR-PlanejamentoIncorporado e XR-DescriçãoCena. Experimentos mostram que nosso método supera os métodos existentes tanto na compreensão de cenários grandes quanto nos benchmarks de compreensão de cenários existentes. Ao integrar nosso módulo ampliador de cena nos 3D-VLMs existentes, também observamos melhorias significativas.
Os tokenizadores de visão têm ganhado muita atenção devido à sua escalabilidade e compacidade; trabalhos anteriores dependem de hiperparâmetros baseados em GAN tradicionais, comparações tendenciosas e falta de análise abrangente dos comportamentos de escalonamento. Para lidar com essas questões, introduzimos a Quantização Esférica Agrupada (GSQ), apresentando inicialização de codebook esférico e regularização de busca para restringir o codebook latente a uma superfície esférica. Nossa análise empírica das estratégias de treinamento de tokenizadores de imagem demonstra que o GSQ-GAN alcança qualidade de reconstrução superior em relação aos métodos de ponta com menos iterações de treinamento, fornecendo uma base sólida para estudos de escalonamento. Com base nisso, examinamos sistematicamente os comportamentos de escalonamento do GSQ, especificamente em dimensionalidade latente, tamanho do codebook e taxas de compressão, e seu impacto no desempenho do modelo. Nossas descobertas revelam comportamentos distintos em níveis de compressão espacial altos e baixos, destacando desafios na representação de espaços latentes de alta dimensão. Mostramos que o GSQ pode reestruturar latentes de alta dimensão em espaços compactos e de baixa dimensão, possibilitando um escalonamento eficiente com qualidade aprimorada. Como resultado, o GSQ-GAN alcança uma redução de 16x com um FID de reconstrução (rFID) de 0.50.
A Segmentação de Imagem Referenciada (RIS) é uma tarefa avançada de visão e linguagem que envolve identificar e segmentar objetos dentro de uma imagem conforme descrito por descrições de texto livre. Enquanto estudos anteriores focaram em alinhar características visuais e linguísticas, explorar técnicas de treinamento, como a ampliação de dados, ainda é pouco explorado. Neste trabalho, exploramos a ampliação de dados eficaz para RIS e propomos um novo framework de treinamento chamado Segmentação de Imagem Referenciada Mascaramento (MaskRIS). Observamos que as ampliações de imagem convencionais não são adequadas para RIS, levando a uma degradação de desempenho, enquanto o simples mascaramento aleatório melhora significativamente o desempenho do RIS. O MaskRIS utiliza tanto o mascaramento de imagem quanto de texto, seguido pela Aprendizagem Contextual Sensível à Distorção (DCL) para explorar totalmente os benefícios da estratégia de mascaramento. Essa abordagem pode melhorar a robustez do modelo a oclusões, informações incompletas e várias complexidades linguísticas, resultando em uma melhoria significativa de desempenho. Experimentos demonstram que o MaskRIS pode ser facilmente aplicado a vários modelos de RIS, superando os métodos existentes tanto em configurações totalmente supervisionadas quanto fracamente supervisionadas. Por fim, o MaskRIS alcança um novo desempenho de ponta nos conjuntos de dados RefCOCO, RefCOCO+ e RefCOCOg. O código está disponível em https://github.com/naver-ai/maskris.
As tecnologias de IA estão avançando rapidamente da pesquisa para a produção. Com a popularidade dos Modelos Fundamentais (MFs) que geram texto, imagens e vídeo, os sistemas baseados em IA estão aumentando sua complexidade. Comparados aos softwares baseados em IA tradicionais, os sistemas que empregam MFs, ou sistemas baseados em IA gerados (GenAI), são mais difíceis de projetar devido à sua escala e versatilidade. Isso torna necessário documentar as melhores práticas, conhecidas como padrões de design em engenharia de software, que podem ser usados em aplicações GenAI. Nossa primeira contribuição é formalizar duas técnicas, Decomposição de Tarefas e Geração com Recuperação Aprimorada (RAG), como padrões de design para sistemas baseados em GenAI. Discutimos suas compensações em termos de atributos de qualidade de software e comentamos sobre abordagens alternativas. Recomendamos aos praticantes de IA considerar essas técnicas não apenas de uma perspectiva científica, mas também do ponto de vista das propriedades de engenharia desejadas, como flexibilidade, manutenibilidade, segurança e proteção. Como segunda contribuição, descrevemos nossa experiência na indústria aplicando a Decomposição de Tarefas e RAG para construir uma aplicação GenAI do mundo real complexa para usuários corporativos: Geração de Fluxo de Trabalho. A tarefa de gerar fluxos de trabalho envolve a criação de um plano específico usando dados do ambiente do sistema, tomando como entrada um requisito do usuário. Como esses dois padrões afetam todo o ciclo de desenvolvimento de IA, explicamos como eles impactaram a criação do conjunto de dados, treinamento do modelo, avaliação do modelo e fases de implantação.
O conceito de AIPC está ganhando popularidade e cada vez mais CPUs híbridas executarão modelos de IA em dispositivos clientes. No entanto, o atual framework de inferência de IA negligencia a capacidade de hardware desequilibrada das CPUs híbridas, resultando em baixo desempenho de inferência. Para lidar com esse problema, introduzimos um método dinâmico de paralelismo para CPUs híbridas, que aumenta significativamente o desempenho de inferência do LLM ao equilibrar a carga de trabalho para cada núcleo de uma CPU híbrida antes do início do trabalho em paralelo. Esse método permitiu que o Neural Speed alcançasse mais de 90% (em média) da largura de banda de memória em dois CPUs híbridos da Intel.
A detecção de destaques de vídeo e a recuperação de momentos (HD/MR) são essenciais na análise de vídeo. Modelos recentes de transformadores de predição conjunta frequentemente negligenciam a dinâmica entre tarefas e o alinhamento e refinamento entre vídeo e texto. Além disso, a maioria dos modelos normalmente utiliza mecanismos de atenção limitados e unidirecionais, resultando em representações fracamente integradas e desempenho subótimo na captura da interdependência entre as modalidades de vídeo e texto. Embora os modelos de linguagem grande (LLM) e visão-linguagem (LVLM) tenham ganhado destaque em várias áreas, sua aplicação nesse campo ainda é relativamente pouco explorada. Aqui propomos o VideoLights, um novo framework HD/MR que aborda essas limitações por meio de (i) Módulos de Projeção Convolucional e Refinamento de Características com uma perda de alinhamento para melhorar o alinhamento de características entre vídeo e texto, (ii) Rede de Fusão Cruzada Bi-Direcional para representações de clipe conscientes de consulta fortemente acopladas, e (iii) mecanismo de feedback conjunto unidirecional que aprimora ambas as tarefas por meio de correlação. Além disso, (iv) introduzimos perdas positivas/negativas difíceis para penalização adaptativa de erros e aprendizado aprimorado, e (v) aproveitamos LVLMs como o BLIP-2 para integração aprimorada de características multimodais e pré-treinamento inteligente usando dados sintéticos gerados a partir de LVLMs. Experimentos abrangentes nos benchmarks QVHighlights, TVSum e Charades-STA demonstram desempenho de ponta. Códigos e modelos estão disponíveis em https://github.com/dpaul06/VideoLights.