Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a série ShareGPT4Video, com o objetivo de facilitar a compreensão de vídeos por grandes modelos de linguagem e vídeo (LVLMs) e a geração de vídeos por modelos de texto para vídeo (T2VMs) por meio de legendas densas e precisas. A série compreende: 1) ShareGPT4Video, 40 mil legendas densas anotadas pelo GPT4V para vídeos de diversos comprimentos e origens, desenvolvidas por meio de uma estratégia cuidadosamente projetada de filtragem e anotação de dados. 2) ShareCaptioner-Video, um modelo de legendagem eficiente e capaz para vídeos arbitrários, com 4,8 milhões de vídeos de alta qualidade e estética anotados por ele. 3) ShareGPT4Video-8B, um LVLM simples, porém excelente, que alcançou desempenho de estado da arte (SOTA) em três benchmarks avançados de vídeo. Para isso, deixando de lado os anotadores humanos caros e não escaláveis, descobrimos que usar o GPT4V para legendas de vídeo com uma estratégia ingênua de entrada de múltiplos quadros ou concatenação de quadros resulta em descrições menos detalhadas e, às vezes, temporalmente confusas. Argumentamos que o desafio de projetar uma estratégia de legendagem de vídeo de alta qualidade reside em três aspectos: 1) Compreensão precisa das mudanças temporais entre quadros. 2) Descrição detalhada do conteúdo intraquadro. 3) Escalabilidade do número de quadros para vídeos de comprimento arbitrário. Para isso, projetamos meticulosamente uma estratégia de legendagem de vídeo diferencial, que é estável, escalável e eficiente para gerar legendas para vídeos com resolução, proporções e duração arbitrárias. Com base nela, construímos o ShareGPT4Video, que contém 40 mil vídeos de alta qualidade abrangendo uma ampla gama de categorias, e as legendas resultantes englobam conhecimento do mundo, atributos de objetos, movimentos de câmera e, crucialmente, descrições temporais detalhadas e precisas dos eventos. Com base no ShareGPT4Video, desenvolvemos ainda o ShareCaptioner-Video, um legendador superior capaz de gerar eficientemente legendas de alta qualidade para vídeos arbitrários...
Modelos de geração de imagens baseados em difusão têm alcançado grande sucesso nos últimos anos ao demonstrar a capacidade de sintetizar conteúdo de alta qualidade. No entanto, esses modelos contêm um número enorme de parâmetros, resultando em um tamanho de modelo significativamente grande. Salvar e transferi-los é um grande gargalo para diversas aplicações, especialmente aquelas executadas em dispositivos com recursos limitados. Neste trabalho, desenvolvemos um novo método de quantização de pesos que quantiza o UNet do Stable Diffusion v1.5 para 1,99 bits, alcançando um modelo 7,9 vezes menor em tamanho, ao mesmo tempo que exibe uma qualidade de geração ainda melhor do que o original. Nossa abordagem inclui várias técnicas inovadoras, como a atribuição de bits ótimos para cada camada, a inicialização do modelo quantizado para melhor desempenho e a melhoria da estratégia de treinamento para reduzir drasticamente o erro de quantização. Além disso, avaliamos extensivamente nosso modelo quantizado em diversos conjuntos de dados de referência e por meio de avaliação humana para demonstrar sua qualidade de geração superior.
Recentemente, o Otimização Direta de Preferências (Direct Preference Optimization - DPO) estendeu seu sucesso do alinhamento de grandes modelos de linguagem (Large Language Models - LLMs) para o alinhamento de modelos de difusão de texto para imagem com preferências humanas. Diferente da maioria dos métodos existentes de DPO, que assumem que todas as etapas de difusão compartilham uma ordem de preferência consistente com as imagens finais geradas, argumentamos que essa suposição negligencia o desempenho específico de cada etapa de remoção de ruído e que os rótulos de preferência devem ser adaptados à contribuição de cada etapa. Para abordar essa limitação, propomos a Otimização de Preferências Consciente da Etapa (Step-aware Preference Optimization - SPO), uma nova abordagem pós-treinamento que avalia e ajusta independentemente o desempenho de remoção de ruído em cada etapa, utilizando um modelo de preferência consciente da etapa e um reamostrador passo a passo para garantir uma supervisão precisa e consciente da etapa. Especificamente, em cada etapa de remoção de ruído, amostramos um conjunto de imagens, encontramos um par adequado de vitória-derrota e, mais importante, selecionamos aleatoriamente uma única imagem do conjunto para inicializar a próxima etapa de remoção de ruído. Esse processo de reamostragem passo a passo garante que o próximo par de imagens vitória-derrota venha da mesma imagem, tornando a comparação vitória-derrota independente da etapa anterior. Para avaliar as preferências em cada etapa, treinamos um modelo de preferência consciente da etapa separado, que pode ser aplicado tanto a imagens ruidosas quanto a imagens limpas. Nossos experimentos com o Stable Diffusion v1.5 e o SDXL demonstram que o SPO supera significativamente o mais recente Diffusion-DPO no alinhamento de imagens geradas com prompts complexos e detalhados e na melhoria da estética, além de alcançar mais de 20 vezes maior eficiência de treinamento. Código e modelo: https://rockeycoss.github.io/spo.github.io/
Apresentamos o Buffer of Thoughts (BoT), uma abordagem nova e versátil de raciocínio aumentado por pensamentos para melhorar a precisão, eficiência e robustez de modelos de linguagem de grande escala (LLMs). Especificamente, propomos o meta-buffer para armazenar uma série de pensamentos de alto nível informativos, denominados thought-template, extraídos dos processos de resolução de problemas em diversas tarefas. Em seguida, para cada problema, recuperamos um thought-template relevante e o instanciamos de forma adaptativa com estruturas de raciocínio específicas para conduzir um raciocínio eficiente. Para garantir escalabilidade e estabilidade, propomos ainda o buffer-manager para atualizar dinamicamente o meta-buffer, aumentando assim sua capacidade à medida que mais tarefas são resolvidas. Realizamos experimentos extensivos em 10 tarefas desafiadoras e intensivas em raciocínio, alcançando melhorias significativas de desempenho em relação aos métodos SOTA anteriores: 11% no Game of 24, 20% em Geometric Shapes e 51% em Checkmate-in-One. Análises adicionais demonstram a superior capacidade de generalização e robustez do modelo do nosso BoT, enquanto requer apenas 12% do custo de métodos de prompt multi-consulta (por exemplo, árvore/grafo de pensamentos) em média. Notavelmente, descobrimos que nosso Llama3-8B+BoT tem o potencial de superar o modelo Llama3-70B. Nosso projeto está disponível em: https://github.com/YangLing0818/buffer-of-thought-llm
Modelos de geração de vídeo baseados em difusão têm demonstrado sucesso notável na obtenção de vídeos de alta fidelidade por meio do processo iterativo de remoção de ruído. No entanto, esses modelos exigem múltiplas etapas de remoção de ruído durante a amostragem, resultando em altos custos computacionais. Neste trabalho, propomos uma abordagem inovadora para obter modelos de geração de vídeo em uma única etapa, utilizando o treinamento adversarial para ajustar modelos de difusão de vídeo pré-treinados. Mostramos que, por meio do treinamento adversarial, o modelo de difusão de vídeo de múltiplas etapas, ou seja, o Stable Video Diffusion (SVD), pode ser treinado para realizar uma única passagem direta e sintetizar vídeos de alta qualidade, capturando tanto as dependências temporais quanto espaciais nos dados de vídeo. Experimentos extensivos demonstram que nosso método alcança uma qualidade de geração competitiva dos vídeos sintetizados com uma redução significativa na sobrecarga computacional do processo de remoção de ruído (ou seja, cerca de 23 vezes mais rápido em comparação com o SVD e 6 vezes mais rápido em comparação com trabalhos existentes, com uma qualidade de geração ainda melhor), abrindo caminho para a síntese e edição de vídeo em tempo real. Mais resultados visuais estão disponíveis publicamente em https://snap-research.github.io/SF-V.
Modelos de difusão têm demonstrado grande sucesso na geração de texto para vídeo (T2V). No entanto, os métodos existentes podem enfrentar desafios ao lidar com cenários complexos de geração de vídeos (longos) que envolvem múltiplos objetos ou mudanças dinâmicas no número de objetos. Para abordar essas limitações, propomos o VideoTetris, uma nova estrutura que permite a geração composicional de T2V. Especificamente, propomos a difusão composicional espaço-temporal para seguir precisamente a semântica textual complexa, manipulando e compondo os mapas de atenção das redes de remoção de ruído espacial e temporalmente. Além disso, propomos um pré-processamento de dados de vídeo aprimorado para melhorar os dados de treinamento em relação à dinâmica de movimento e à compreensão de prompts, equipado com um novo mecanismo de atenção de quadro de referência para melhorar a consistência da geração de vídeo auto-regressiva. Experimentos extensivos demonstram que nosso VideoTetris alcança resultados qualitativos e quantitativos impressionantes na geração composicional de T2V. O código está disponível em: https://github.com/YangLing0818/VideoTetris.
Construir agentes generalistas capazes de lidar com tarefas diversas e evoluir em diferentes ambientes é um objetivo de longo prazo na comunidade de IA. Modelos de linguagem de grande escala (LLMs) são considerados uma base promissora para construir tais agentes devido às suas capacidades generalizadas. As abordagens atuais ou fazem com que agentes baseados em LLM imitem trajetórias fornecidas por especialistas passo a passo, exigindo supervisão humana, o que é difícil de escalar e limita a exploração ambiental; ou permitem que os agentes explorem e aprendam em ambientes isolados, resultando em agentes especialistas com generalização limitada. Neste artigo, damos o primeiro passo em direção à construção de agentes baseados em LLM com capacidade geral e habilidade de auto-evolução. Identificamos uma tríade de ingredientes: 1) ambientes diversos para exploração e aprendizado do agente, 2) um conjunto de trajetórias para equipar os agentes com capacidades básicas e conhecimento prévio, e 3) um método de evolução eficaz e escalável. Propomos o AgentGym, um novo framework que apresenta uma variedade de ambientes e tarefas para exploração ampla, em tempo real, em formato único e concorrente do agente. O AgentGym também inclui um banco de dados com instruções expandidas, um conjunto de benchmarks e trajetórias de alta qualidade em diversos ambientes. Em seguida, propomos um novo método, o AgentEvol, para investigar o potencial de auto-evolução do agente além dos dados previamente vistos em tarefas e ambientes. Os resultados experimentais mostram que os agentes evoluídos podem alcançar resultados comparáveis aos modelos SOTA. Disponibilizamos o conjunto AgentGym, incluindo a plataforma, conjunto de dados, benchmark, checkpoints e implementações de algoritmos. O conjunto AgentGym está disponível em https://github.com/WooooDyy/AgentGym.
A geração de imagens guiada por texto permite a criação de conteúdo visual a partir de descrições textuais. No entanto, certos conceitos visuais não podem ser efetivamente transmitidos apenas por meio da linguagem. Isso despertou um renovado interesse em utilizar o espaço de incorporação de imagens do CLIP para tarefas mais orientadas visualmente, por meio de métodos como o IP-Adapter. Curiosamente, o espaço de incorporação de imagens do CLIP demonstrou ser semanticamente significativo, onde operações lineares dentro desse espaço produzem resultados semanticamente significativos. No entanto, o significado específico dessas operações pode variar de forma imprevisível entre diferentes imagens. Para aproveitar esse potencial, introduzimos o pOps, um framework que treina operadores semânticos específicos diretamente nas incorporações de imagens do CLIP. Cada operador pOps é construído sobre um modelo Diffusion Prior pré-treinado. Embora o modelo Diffusion Prior tenha sido originalmente treinado para mapear entre incorporações de texto e incorporações de imagens, demonstramos que ele pode ser ajustado para acomodar novas condições de entrada, resultando em um operador de difusão. Trabalhar diretamente com incorporações de imagens não apenas melhora nossa capacidade de aprender operações semânticas, mas também nos permite usar diretamente uma perda CLIP textual como supervisão adicional quando necessário. Mostramos que o pOps pode ser usado para aprender uma variedade de operadores inspirados em fotos com significados semânticos distintos, destacando a diversidade semântica e o potencial da nossa abordagem proposta.
Nos últimos anos, houve um aumento significativo nas capacidades gerais dos sistemas de IA, impulsionado principalmente pelo treinamento de modelos de base em dados de escala da internet. No entanto, a criação de uma IA de autoaperfeiçoamento contínuo e ilimitado permanece evasiva. Neste artigo de posicionamento, argumentamos que os ingredientes necessários para alcançar a ilimitação em sistemas de IA, do ponto de vista de um observador humano, já estão disponíveis. Além disso, afirmamos que essa ilimitação é uma propriedade essencial de qualquer inteligência artificial super-humana (ASI). Começamos fornecendo uma definição formal concreta de ilimitação através das lentes da novidade e da capacidade de aprendizado. Em seguida, ilustramos um caminho para a ASI por meio de sistemas ilimitados construídos sobre modelos de base, capazes de fazer descobertas novas e relevantes para os humanos. Concluímos examinando as implicações de segurança de uma IA ilimitada e geralmente capaz. Esperamos que os modelos de base ilimitados se tornem uma área de pesquisa cada vez mais fértil e crítica para a segurança no futuro próximo.