Artigos de pesquisa em IA selecionados diariamente com traduções
O campo da geração de vídeos fez avanços notáveis, no entanto, há uma necessidade urgente de uma receita clara e sistemática que possa orientar o desenvolvimento de modelos robustos e escaláveis. Neste trabalho, apresentamos um estudo abrangente que explora sistematicamente a interação entre arquiteturas de modelos, receitas de treinamento e estratégias de curadoria de dados, culminando em um método simples e escalável de geração de vídeos condicionados por texto e imagem, chamado STIV. Nosso framework integra a condição de imagem em um Transformer de Difusão (DiT) por meio de substituição de quadros, enquanto incorpora a condição de texto por meio de um guia condicional conjunto imagem-texto sem classificador. Esse design permite que o STIV realize simultaneamente tarefas de texto-para-vídeo (T2V) e texto-imagem-para-vídeo (TI2V). Além disso, o STIV pode ser facilmente estendido para várias aplicações, como previsão de vídeo, interpolação de quadros, geração de múltiplas visualizações e geração de vídeos longos, entre outros. Com estudos abrangentes de ablação em T2I, T2V e TI2V, o STIV demonstra um desempenho sólido, apesar de seu design simples. Um modelo de 8,7B com resolução de 512 atinge 83,1 no VBench T2V, superando tanto modelos líderes de código aberto quanto de código fechado, como CogVideoX-5B, Pika, Kling e Gen-3. O modelo do mesmo tamanho também alcança um resultado de ponta de 90,1 na tarefa VBench I2V com resolução de 512. Ao fornecer uma receita transparente e extensível para a construção de modelos de geração de vídeo de ponta, nosso objetivo é capacitar pesquisas futuras e acelerar o progresso em direção a soluções de geração de vídeo mais versáteis e confiáveis.
Os grandes modelos de linguagem de código (codeLLMs) fizeram avanços significativos na geração de código. A maioria dos benchmarks anteriores relacionados a código, que consistem em vários exercícios de programação juntamente com os casos de teste correspondentes, são usados como uma medida comum para avaliar o desempenho e as capacidades dos codeLLMs. No entanto, os atuais codeLLMs focam na síntese do trecho de código correto, ignorando a alinhamento com as preferências humanas, onde a consulta deve ser amostrada a partir de cenários de aplicação práticos e as respostas geradas pelo modelo devem satisfazer a preferência humana. Para preencher a lacuna entre a resposta gerada pelo modelo e a preferência humana, apresentamos um benchmark rigorosamente curado por humanos, o CodeArena, para emular a complexidade e diversidade de tarefas de codificação do mundo real, com 397 amostras de alta qualidade abrangendo 40 categorias e 44 linguagens de programação, cuidadosamente selecionadas a partir de consultas de usuários. Além disso, propomos um corpus de instruções sintéticas diversificado, SynCode-Instruct (quase 20B tokens), escalando instruções do site para verificar a eficácia do ajuste fino de instruções sintéticas em larga escala, onde o Qwen2.5-SynCoder totalmente treinado em dados de instruções sintéticas pode alcançar um desempenho de primeira linha dos codeLLMs de código aberto. Os resultados encontram diferenças de desempenho entre benchmarks baseados em execução e o CodeArena. Nossos experimentos sistemáticos do CodeArena em mais de 40 LLMs revelam uma notável diferença de desempenho entre os codeLLMs de código aberto de última geração (por exemplo, Qwen2.5-Coder) e os codeLLMs proprietários (por exemplo, OpenAI o1), destacando a importância do alinhamento com a preferência humana.
A visualização de histórias, a tarefa de criar narrativas visuais a partir de descrições textuais, tem visto progresso com modelos de geração de texto para imagem. No entanto, esses modelos frequentemente carecem de controle efetivo sobre as aparências e interações dos personagens, especialmente em cenas com vários personagens. Para abordar essas limitações, propomos uma nova tarefa: geração personalizada de mangá e apresentamos o DiffSensei, um framework inovador especificamente projetado para gerar mangás com controle dinâmico de múltiplos personagens. O DiffSensei integra um gerador de imagens baseado em difusão com um modelo de linguagem multimodal grande (MLLM) que atua como um adaptador de identidade compatível com texto. Nossa abordagem emprega atenção cruzada mascarada para incorporar de forma contínua as características dos personagens, permitindo controle preciso do layout sem transferência direta de pixels. Além disso, o adaptador baseado em MLLM ajusta as características dos personagens para se alinharem com pistas de texto específicas do painel, permitindo ajustes flexíveis nas expressões, poses e ações dos personagens. Também introduzimos o MangaZero, um conjunto de dados em grande escala adaptado para esta tarefa, contendo 43.264 páginas de mangá e 427.147 painéis anotados, suportando a visualização de interações e movimentos variados dos personagens através de quadros sequenciais. Experimentos extensivos demonstram que o DiffSensei supera os modelos existentes, marcando um avanço significativo na geração de mangá ao permitir a personalização de personagens adaptável ao texto. A página do projeto é https://jianzongwu.github.io/projects/diffsensei/.
O recente aumento de interesse em modelos multimodais abrangentes tem exigido a unificação de diversas modalidades. No entanto, a unificação sofre de metodologias díspares. A geração visual contínua requer a abordagem baseada em difusão de sequência completa, apesar de sua divergência do modelamento autoregressivo no domínio do texto. Sustentamos que o modelamento autoregressivo, ou seja, prever o futuro com base em experiências passadas determinísticas, continua sendo crucial no desenvolvimento tanto de um modelo de geração visual quanto de um potencial modelo multimodal unificado. Neste artigo, exploramos uma interpolação entre o modelamento autoregressivo e a difusão de parâmetros completos para modelar informações visuais. Em sua essência, apresentamos o ACDiT, um Transformador de Difusão Condicional em Blocos Autoregressivos, onde o tamanho do bloco de difusão, ou seja, o tamanho das unidades autoregressivas, pode ser ajustado de forma flexível para interpolar entre a autoregressão por token e a difusão de sequência completa. O ACDiT é fácil de implementar, tão simples quanto criar uma Máscara de Atenção Causal Pulada (SCAM) durante o treinamento. Durante a inferência, o processo itera entre a desnoização por difusão e a decodificação autoregressiva que pode fazer uso total do KV-Cache. Verificamos a eficácia do ACDiT em tarefas de geração de imagens e vídeos. Também demonstramos que, beneficiado pelo modelamento autoregressivo, o ACDiT pode ser usado facilmente em tarefas de compreensão visual, apesar de ter sido treinado no objetivo de difusão. A análise do equilíbrio entre o modelamento autoregressivo e a difusão demonstra o potencial do ACDiT para ser usado em tarefas de geração visual de longo prazo. Essas qualidades o tornam promissor como a espinha dorsal de futuros modelos unificados.
Apresentamos o UniReal, um framework unificado projetado para lidar com várias tarefas de geração e edição de imagens. As soluções existentes frequentemente variam de acordo com as tarefas, mas compartilham princípios fundamentais: preservar a consistência entre entradas e saídas enquanto capturam variações visuais. Inspirados em modelos recentes de geração de vídeo que equilibram efetivamente consistência e variação entre frames, propomos uma abordagem unificadora que trata tarefas em nível de imagem como geração de vídeo descontínuo. Especificamente, tratamos números variados de imagens de entrada e saída como frames, possibilitando suporte contínuo para tarefas como geração de imagens, edição, personalização, composição, etc. Embora projetado para tarefas em nível de imagem, aproveitamos vídeos como uma fonte escalável para supervisão universal. O UniReal aprende dinâmicas do mundo a partir de vídeos em larga escala, demonstrando capacidade avançada no tratamento de sombras, reflexos, variação de pose e interação de objetos, além de exibir capacidade emergente para novas aplicações.
À medida que a qualidade dos geradores de imagens continua a melhorar, os deepfakes tornam-se um tópico de considerável debate na sociedade. A marca d'água em imagens permite que os proprietários responsáveis de modelos detectem e rotulem seu conteúdo gerado por IA, o que pode mitigar os danos. No entanto, os métodos de marca d'água de última geração em imagens continuam vulneráveis a ataques de falsificação e remoção. Essa vulnerabilidade ocorre em parte porque as marcas d'água distorcem a distribuição das imagens geradas, revelando inadvertidamente informações sobre as técnicas de marca d'água. Neste trabalho, demonstramos primeiro um método de marca d'água livre de distorção para imagens, baseado no ruído inicial de um modelo de difusão. No entanto, detectar a marca d'água requer a comparação do ruído inicial reconstruído para uma imagem com todos os ruídos iniciais previamente utilizados. Para mitigar esses problemas, propomos um framework de marca d'água em duas etapas para detecção eficiente. Durante a geração, aumentamos o ruído inicial com padrões de Fourier gerados para incorporar informações sobre o grupo de ruídos iniciais que utilizamos. Para a detecção, (i) recuperamos o grupo relevante de ruídos e (ii) procuramos dentro do grupo fornecido por um ruído inicial que possa corresponder à nossa imagem. Esta abordagem de marca d'água alcança robustez de última geração contra falsificação e remoção em face de uma grande variedade de ataques.
Os avanços recentes na geração de texto para imagem possibilitaram a criação de imagens de alta qualidade com diversas aplicações. No entanto, descrever com precisão atributos visuais desejados pode ser desafiador, especialmente para não especialistas em arte e fotografia. Uma solução intuitiva envolve adotar atributos favoráveis das imagens de origem. Métodos atuais tentam destilar identidade e estilo das imagens de origem. No entanto, "estilo" é um conceito amplo que inclui textura, cor e elementos artísticos, mas não abrange outros atributos importantes como iluminação e dinâmica. Além disso, uma adaptação simplificada de "estilo" impede a combinação de múltiplos atributos de diferentes fontes em uma imagem gerada. Neste trabalho, formulamos uma abordagem mais eficaz para decompor a estética de uma imagem em atributos visuais específicos, permitindo aos usuários aplicar características como iluminação, textura e dinâmica de diferentes imagens. Para alcançar esse objetivo, construímos o primeiro conjunto de dados de atributos visuais detalhados (FiVA) de acordo com nosso conhecimento. Este conjunto de dados FiVA apresenta uma taxonomia bem organizada para atributos visuais e inclui cerca de 1 milhão de imagens geradas de alta qualidade com anotações de atributos visuais. Aproveitando este conjunto de dados, propomos um framework de adaptação de atributos visuais detalhados (FiVA-Adapter), que desvincula e adapta atributos visuais de uma ou mais imagens de origem em uma imagem gerada. Esta abordagem aprimora a personalização amigável ao usuário, permitindo que os usuários apliquem seletivamente atributos desejados para criar imagens que atendam às suas preferências únicas e requisitos de conteúdo específicos.
Os modelos de difusão de vídeo alcançaram um realismo e controlabilidade impressionantes, mas são limitados por altas demandas computacionais, restringindo seu uso em dispositivos móveis. Este artigo apresenta o primeiro modelo de difusão de vídeo otimizado para dispositivos móveis. Partindo de um UNet espaço-temporal do Stable Video Diffusion (SVD), reduzimos a memória e o custo computacional diminuindo a resolução dos quadros, incorporando representações temporais multi-escala e introduzindo dois novos esquemas de poda para reduzir o número de canais e blocos temporais. Além disso, empregamos o ajuste adversarial para reduzir a remoção de ruído para um único passo. Nosso modelo, denominado MobileVD, é 523 vezes mais eficiente (1817,2 vs. 4,34 TFLOPs) com uma leve queda na qualidade (FVD 149 vs. 171), gerando latentes para um clipe de 14x512x256 px em 1,7 segundos em um Xiaomi-14 Pro. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Este artigo tem como objetivo manipular movimentos 3D de múltiplas entidades na geração de vídeos. Métodos anteriores de geração de vídeo controlável geralmente utilizam sinais de controle 2D para manipular os movimentos dos objetos e alcançaram resultados de síntese notáveis. No entanto, os sinais de controle 2D são inerentemente limitados na expressão da natureza 3D dos movimentos dos objetos. Para superar esse problema, introduzimos o 3DTrajMaster, um controlador robusto que regula a dinâmica de múltiplas entidades no espaço 3D, considerando sequências de pose 6DoF (localização e rotação) desejadas pelo usuário para as entidades. No cerne de nossa abordagem está um injetor de objetos ancorado em movimento 3D que combina múltiplas entidades de entrada com suas respectivas trajetórias 3D por meio de um mecanismo de autoatenção com portões. Além disso, exploramos uma arquitetura de injetor para preservar a prior difusão de vídeo, o que é crucial para a capacidade de generalização. Para mitigar a degradação da qualidade do vídeo, introduzimos um adaptador de domínio durante o treinamento e empregamos uma estratégia de amostragem anelada durante a inferência. Para lidar com a falta de dados de treinamento adequados, construímos um Conjunto de Dados de Movimento 360, que correlaciona inicialmente ativos 3D humanos e animais coletados com trajetórias geradas pelo GPT e depois captura seus movimentos com 12 câmeras uniformemente distribuídas em diversas plataformas 3D UE. Experimentos extensivos mostram que o 3DTrajMaster estabelece um novo estado da arte tanto em precisão quanto em generalização para controlar movimentos 3D de múltiplas entidades. Página do projeto: http://fuxiao0719.github.io/projects/3dtrajmaster
Apresentamos os modelos Granite Guardian, um conjunto de salvaguardas projetadas para fornecer detecção de riscos para prompts e respostas, possibilitando o uso seguro e responsável em combinação com qualquer modelo de linguagem grande (LLM). Esses modelos oferecem cobertura abrangente em várias dimensões de risco, incluindo viés social, profanidade, violência, conteúdo sexual, comportamento antiético, jailbreaking e riscos relacionados à alucinação, como relevância de contexto, fundamentação e relevância de resposta para geração aumentada por recuperação (RAG). Treinados em um conjunto de dados único que combina anotações humanas de fontes diversas e dados sintéticos, os modelos Granite Guardian abordam riscos geralmente ignorados por modelos tradicionais de detecção de riscos, como jailbreaks e questões específicas da RAG. Com pontuações de AUC de 0,871 e 0,854 em conteúdo prejudicial e benchmarks relacionados à alucinação da RAG, respectivamente, o Granite Guardian é o modelo mais generalizável e competitivo disponível no espaço. Lançado como código aberto, o Granite Guardian tem como objetivo promover o desenvolvimento de IA responsável em toda a comunidade.
Os avanços recentes na edição de vídeo baseada em difusão têm mostrado um potencial notável para aplicações práticas. No entanto, esses métodos continuam sendo caros e desafiadores de implementar em dispositivos móveis. Neste estudo, introduzimos uma série de otimizações que tornam a edição de vídeo em dispositivos móveis viável. Construindo sobre o modelo existente de edição de imagem, otimizamos primeiramente sua arquitetura e incorporamos um autoencoder leve. Em seguida, estendemos a destilação de orientação sem classificador para múltiplas modalidades, resultando em um aumento de velocidade no dispositivo de três vezes. Por fim, reduzimos o número de etapas de amostragem para uma ao introduzir um novo esquema de destilação adversarial que preserva a controlabilidade do processo de edição. Coletivamente, essas otimizações possibilitam a edição de vídeo a 12 quadros por segundo em dispositivos móveis, mantendo alta qualidade. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/mobile-video-editing/
Propomos o DiTFlow, um método para transferir o movimento de um vídeo de referência para um recém-sintetizado, projetado especificamente para Transformadores de Difusão (DiT). Primeiramente, processamos o vídeo de referência com um DiT pré-treinado para analisar mapas de atenção entre quadros e extrair um sinal de movimento em forma de patch chamado de Fluxo de Movimento de Atenção (FMA). Guiamos o processo latente de remoção de ruído de forma baseada em otimização, sem necessidade de treinamento, otimizando latentes com nossa perda de FMA para gerar vídeos reproduzindo o movimento do vídeo de referência. Também aplicamos nossa estratégia de otimização aos embeddings posicionais do transformador, concedendo-nos um impulso nas capacidades de transferência de movimento sem necessidade de treinamento. Avaliamos o DiTFlow em comparação com métodos recentemente publicados, superando todos em múltiplas métricas e avaliação humana.
A interpretabilidade é um desafio fundamental para promover confiança em Modelos de Linguagem Grandes (LLMs), que decorre da complexidade de extrair raciocínio a partir dos parâmetros do modelo. Apresentamos a Hipótese da Representação de Frames, um arcabouço teoricamente robusto fundamentado na Hipótese da Representação Linear (LRH) para interpretar e controlar LLMs modelando palavras multi-token. Pesquisas anteriores exploraram a LRH para conectar representações de LLMs com conceitos linguísticos, mas estavam limitadas à análise de tokens únicos. Como a maioria das palavras é composta por vários tokens, estendemos a LRH para palavras multi-token, permitindo assim o uso em qualquer dado textual com milhares de conceitos. Para isso, propomos que palavras possam ser interpretadas como frames, sequências ordenadas de vetores que capturam melhor as relações entre token e palavra. Em seguida, os conceitos podem ser representados pela média dos frames de palavras que compartilham um conceito comum. Demonstramos essas ferramentas por meio da Decodificação Guiada por Conceitos Top-k, que pode direcionar intuitivamente a geração de texto usando conceitos de escolha. Verificamos essas ideias nos conjuntos de dados Llama 3.1, Gemma 2 e Phi 3, demonstrando vieses de gênero e linguagem, expondo conteúdo prejudicial, mas também o potencial para remediá-los, levando a LLMs mais seguros e transparentes. O código está disponível em https://github.com/phvv-me/frame-representation-hypothesis.git
Os modelos de linguagem multimodais (MLMs) ainda enfrentam desafios em tarefas fundamentais de percepção visual, onde modelos especializados se destacam. Tarefas que exigem raciocínio sobre estruturas 3D se beneficiam da estimativa de profundidade, e o raciocínio sobre instâncias de objetos 2D se beneficia da detecção de objetos. No entanto, os MLMs não conseguem produzir profundidade intermediária ou caixas para raciocinar. O ajuste fino dos MLMs em dados relevantes não generaliza bem e a terceirização da computação para ferramentas de visão especializadas é muito intensiva em termos de cálculo e ineficiente em termos de memória. Para lidar com isso, introduzimos Tokens de Percepção, representações intrínsecas de imagem projetadas para auxiliar tarefas de raciocínio onde a linguagem é insuficiente. Os tokens de percepção atuam como tokens de raciocínio auxiliares, semelhantes a prompts de cadeia de pensamento em modelos de linguagem. Por exemplo, em uma tarefa relacionada à profundidade, um MLM aumentado com tokens de percepção pode raciocinar gerando um mapa de profundidade como tokens, permitindo resolver o problema de forma eficaz. Propomos AURORA, um método de treinamento que aumenta os MLMs com tokens de percepção para melhorar o raciocínio sobre entradas visuais. AURORA aproveita um VQVAE para transformar representações de imagem intermediárias, como mapas de profundidade, em um formato tokenizado e tokens de caixa delimitadora, que são então utilizados em um framework de treinamento multi-tarefa. AURORA alcança melhorias notáveis em benchmarks de contagem: +10,8% no BLINK, +11,3% no CVBench e +8,3% no SEED-Bench, superando abordagens de ajuste fino na generalização entre conjuntos de dados. Também melhora a profundidade relativa: mais de +6% no BLINK. Com tokens de percepção, AURORA amplia o escopo dos MLMs além do raciocínio baseado em linguagem, abrindo caminho para capacidades de raciocínio visual mais eficazes.
Este trabalho concentra-se no desenvolvimento de modelos eficientes em termos de parâmetros e leves para previsões densas, equilibrando parâmetros, FLOPs e desempenho. Nosso objetivo é estabelecer a nova fronteira do modelo leve de magnitude 5M em várias tarefas secundárias. O Bloco Residual Invertido (IRB) serve como infraestrutura para CNNs leves, mas não há contrapartes reconhecidas pelo design baseado em atenção. Nosso trabalho repensa a infraestrutura leve do eficiente IRB e componentes práticos no Transformer a partir de uma perspectiva unificada, estendendo o IRB baseado em CNNs para modelos baseados em atenção e abstraindo um Bloco Móvel Meta de um resíduo (MMBlock) para o design de modelos leves. Seguindo critérios de design simples, porém eficazes, deduzimos um moderno Bloco Móvel de Resíduo Invertido Melhorado (i2RMB) e melhoramos um Modelo Eficiente Hierárquico (EMOv2) sem estruturas complexas elaboradas. Considerando a latência imperceptível para usuários móveis ao baixar modelos sob largura de banda 4G/5G e garantindo o desempenho do modelo, investigamos o limite superior de desempenho de modelos leves com uma magnitude de 5M. Experimentos extensivos em várias tarefas de reconhecimento visual, previsão densa e geração de imagens demonstram a superioridade do nosso EMOv2 em relação aos métodos de ponta, por exemplo, EMOv2-1M/2M/5M alcançam 72,3, 75,8 e 79,4 Top-1 que superam significativamente modelos baseados em CNNs/Atenção de mesma ordem. Ao mesmo tempo, o EMOv2-5M equipado com RetinaNet alcança 41,5 mAP para tarefas de detecção de objetos que superam o EMO-5M anterior em +2,6. Ao empregar a receita de treinamento mais robusta, nosso EMOv2-5M alcança eventualmente uma precisão de 82,9 Top-1, elevando o desempenho de modelos de magnitude 5M para um novo nível. O código está disponível em https://github.com/zhangzjn/EMOv2.
Avanços recentes em modelos de geração de imagens têm possibilitado a criação de imagens personalizadas com temas (conteúdo) e estilos definidos pelo usuário. Trabalhos anteriores alcançaram a personalização ao mesclar parâmetros de adaptação de baixa ordem correspondentes (LoRAs) por meio de métodos baseados em otimização, que são computacionalmente exigentes e inadequados para uso em tempo real em dispositivos com recursos limitados, como smartphones. Para lidar com isso, apresentamos o LoRA.rar, um método que não apenas melhora a qualidade da imagem, mas também alcança uma aceleração notável de mais de 4000 vezes no processo de mesclagem. O LoRA.rar pré-treina um hiper-rede em um conjunto diversificado de pares LoRA de conteúdo-estilo, aprendendo uma estratégia eficiente de mesclagem que generaliza para novos pares de conteúdo-estilo não vistos, possibilitando uma personalização rápida e de alta qualidade. Além disso, identificamos limitações nas métricas de avaliação existentes para qualidade de conteúdo-estilo e propomos um novo protocolo usando modelos de linguagem multimodais grandes (MLLM) para uma avaliação mais precisa. Nosso método supera significativamente o estado da arte atual tanto em fidelidade de conteúdo quanto de estilo, conforme validado por avaliações de MLLM e avaliações humanas.
Neste artigo, apresentamos o ILLUME, um modelo de linguagem grande multimodal unificado (MLLM) que integra perfeitamente capacidades de compreensão e geração multimodal em um único modelo de linguagem grande por meio de uma formulação unificada de previsão do próximo token. Para lidar com o tamanho grande do conjunto de dados geralmente necessário para o alinhamento imagem-texto, propomos melhorar a eficiência dos dados por meio do design de um tokenizador de visão que incorpora informações semânticas e um procedimento de treinamento progressivo em múltiplos estágios. Esta abordagem reduz o tamanho do conjunto de dados para apenas 15M para pré-treinamento - mais de quatro vezes menos do que o normalmente necessário - enquanto alcança desempenho competitivo ou até superior com MLLMs unificados existentes, como Janus. Além disso, para promover o aprimoramento sinérgico entre as capacidades de compreensão e geração, o que é pouco explorado em trabalhos anteriores, introduzimos um novo esquema de alinhamento multimodal autoaperfeiçoante. Este esquema supervisiona o MLLM para autoavaliar a consistência entre descrições de texto e imagens auto-geradas, facilitando o modelo a interpretar imagens de forma mais precisa e evitar previsões irreais e incorretas causadas por desalinhamento na geração de imagens. Com base em experimentos extensivos, nosso ILLUME proposto se destaca e compete com MLLMs unificados de ponta e modelos especializados em várias referências para compreensão, geração e edição multimodal.
Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) passaram por uma transformação significativa, marcada por um rápido aumento tanto em sua popularidade quanto em suas capacidades. Liderando essa evolução estão LLMs proprietários como GPT-4 e GPT-o1, que têm capturado ampla atenção na comunidade de IA devido ao seu desempenho e versatilidade notáveis. Simultaneamente, LLMs de código aberto, como LLaMA e Mistral, têm feito grandes contribuições para a crescente popularidade dos LLMs devido à facilidade de personalização e implantação dos modelos em diversas aplicações. Embora os LLMs de código aberto apresentem oportunidades sem precedentes para inovação e pesquisa, a comercialização dos LLMs tem levantado preocupações sobre transparência, reprodutibilidade e segurança. Muitos LLMs de código aberto não atendem aos requisitos fundamentais de transparência ao reter componentes essenciais como código de treinamento e dados, e alguns utilizam licenças restritivas enquanto afirmam ser "de código aberto", o que pode dificultar novas inovações em LLMs. Para mitigar esse problema, apresentamos o Moxin 7B, um LLM totalmente de código aberto desenvolvido de acordo com o Modelo de Abertura de Modelo (MOF), um sistema de classificação ranqueado que avalia modelos de IA com base na completude e abertura do modelo, aderindo aos princípios de ciência aberta, código aberto, dados abertos e acesso aberto. Nosso modelo alcança o mais alto nível de classificação do MOF, "ciência aberta", por meio da ampla divulgação do código e configurações de pré-treinamento, conjuntos de dados de treinamento e ajuste fino, e checkpoints intermediários e finais. Experimentos mostram que nosso modelo alcança desempenho superior na avaliação de zero-shot em comparação com modelos 7B populares e tem desempenho competitivo na avaliação de few-shot.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) destacam a importância da escalabilidade ao aumentar os dados em pares de imagem e texto, alcançando um desempenho impressionante em tarefas gerais. Apesar de sua eficácia em aplicações amplas, os modelos generalistas são principalmente treinados em conjuntos de dados em escala web dominados por imagens naturais, resultando no sacrifício de capacidades especializadas para tarefas específicas de domínio que requerem um extenso conhecimento prévio do domínio. Além disso, a integração direta de modelos especializados adaptados para domínios específicos é desafiadora devido à diferença representacional e à otimização desequilibrada entre o modelo generalista e os especialistas. Para enfrentar esses desafios, apresentamos o Chimera, um pipeline multimodal escalável e de baixo custo projetado para potencializar a capacidade dos LMMs existentes com especialistas específicos do domínio. Especificamente, projetamos uma estratégia de treinamento progressivo para integrar características dos modelos especialistas na entrada de um LMM generalista. Para lidar com a otimização desequilibrada causada pelo codificador visual geral bem alinhado, introduzimos um mecanismo inovador de Máscara de Colaboração Generalista-Especialista (GSCM). Isso resulta em um modelo versátil que se destaca nos domínios de gráficos, tabelas, matemática e documentos, alcançando um desempenho de ponta em tarefas de raciocínio multimodal e extração de conteúdo visual, ambas desafiadoras para avaliar os LMMs existentes.
Este estudo tem como objetivo alcançar um controle de objetos mais preciso e versátil na geração de imagem para vídeo (I2V). Métodos atuais geralmente representam o movimento espacial de objetos-alvo com trajetórias 2D, o que frequentemente falha em capturar a intenção do usuário e produz resultados frequentemente não naturais. Para aprimorar o controle, apresentamos o ObjCtrl-2.5D, uma abordagem de controle de objetos sem treinamento que utiliza uma trajetória 3D, estendida de uma trajetória 2D com informações de profundidade, como sinal de controle. Ao modelar o movimento do objeto como movimento da câmera, o ObjCtrl-2.5D representa a trajetória 3D como uma sequência de poses de câmera, permitindo o controle de movimento do objeto usando um modelo de geração de I2V de controle de movimento de câmera existente (CMC-I2V) sem treinamento. Para adaptar o modelo CMC-I2V originalmente projetado para controle de movimento global para lidar com o movimento local do objeto, introduzimos um módulo para isolar o objeto-alvo do plano de fundo, possibilitando controle local independente. Além disso, desenvolvemos uma maneira eficaz de alcançar um controle de objeto mais preciso compartilhando latentes deformados de baixa frequência dentro da região do objeto entre os quadros. Experimentos extensivos demonstram que o ObjCtrl-2.5D melhora significativamente a precisão do controle de objetos em comparação com métodos sem treinamento e oferece capacidades de controle mais diversas do que abordagens baseadas em treinamento usando trajetórias 2D, possibilitando efeitos complexos como rotação de objetos. O código e os resultados estão disponíveis em https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
Este artigo tem como objetivo melhorar o desempenho de grandes modelos de linguagem ao lidar com as demandas computacionais variáveis nas etapas de inferência, onde alguns tokens requerem mais recursos computacionais do que outros. Apresentamos o HARP, uma modificação simples no "forward pass" do Transformer "pronto para uso". Inspirado pela hesitação e pelo efeito de enquadramento na tomada de decisões, o HARP aplica seletivamente computação adicional quando o modelo encontra incerteza durante a geração de tokens. Nosso método imita processos cognitivos humanos ao pausar em pontos de decisão difíceis e reformular entradas para uma perspectiva diferente. Ao contrário de outras abordagens, o HARP é agnóstico ao modelo, não requer treinamento e é fácil de implementar. Avaliamos minuciosamente nosso método em várias tarefas secundárias e tamanhos de modelo, demonstrando melhorias de desempenho de até +5,16%. Notavelmente, o HARP alcança esses ganhos mantendo tempos de inferência duas vezes mais rápidos do que a busca em feixe. Simples e ainda com ganhos significativos, o HARP oferece uma solução prática para melhorar o desempenho de modelos de linguagem baseados em Transformer com impacto computacional mínimo.
A geração de texto para imagem (T2I) tem visto um progresso significativo com modelos de difusão, permitindo a geração de imagens fotorrealistas a partir de instruções em texto. Apesar desse progresso, os métodos existentes ainda enfrentam desafios em seguir instruções de texto complexas, especialmente aquelas que exigem raciocínio composicional e em múltiplas etapas. Diante de tais instruções complexas, os modelos de última geração frequentemente cometem erros ao modelar fielmente os atributos dos objetos e os relacionamentos entre eles. Neste trabalho, apresentamos um paradigma alternativo para a síntese T2I, decompondo a tarefa de geração complexa em múltiplas etapas, (a) Gerar: primeiro geramos uma imagem usando modelos de difusão existentes (b) Planejar: fazemos uso de Modelos de Linguagem Multimodais (MLLMs) para identificar os erros na imagem gerada expressos em termos de objetos individuais e suas propriedades, e produzir uma sequência de etapas corretivas necessárias na forma de um plano de edição. (c) Editar: fazemos uso de modelos de edição de imagem guiados por texto existentes para executar sequencialmente nosso plano de edição sobre a imagem gerada para obter a imagem desejada que seja fiel à instrução original. Nossa abordagem deriva sua força do fato de ser modular por natureza, não requer treinamento e pode ser aplicada em qualquer combinação de modelos de geração e edição de imagem. Como contribuição adicional, também desenvolvemos um modelo capaz de edição composicional, o que ajuda a melhorar ainda mais a precisão geral de nossa abordagem proposta. Nosso método troca de forma flexível o tempo de inferência computacional pelo desempenho em instruções de texto composicionais. Realizamos uma extensa avaliação experimental em 3 benchmarks e 10 modelos T2I, incluindo DALLE-3 e o mais recente - SD-3.5-Large. Nossa abordagem não apenas melhora o desempenho dos modelos de última geração, em até 3 pontos, mas também reduz a diferença de desempenho entre modelos mais fracos e mais fortes.
A Aprendizagem Federada (FL) tem como objetivo proteger a privacidade dos dados, permitindo que os clientes treinem coletivamente modelos de aprendizado de máquina sem compartilhar seus dados brutos. No entanto, estudos recentes demonstram que as informações trocadas durante a FL estão sujeitas a Ataques de Inversão de Gradiente (GIA) e, consequentemente, uma variedade de métodos de preservação de privacidade foram integrados à FL para frustrar tais ataques, como Computação Segura entre Partes (SMC), Criptografia Homomórfica (HE) e Privacidade Diferencial (DP). Apesar de sua capacidade de proteger a privacidade dos dados, essas abordagens envolvem inerentemente substanciais compensações entre privacidade e utilidade. Ao revisitar a chave para a exposição da privacidade na FL sob GIA, que reside na frequente troca de gradientes do modelo que contêm dados privados, adotamos uma nova perspectiva ao projetar um novo framework de FL de preservação de privacidade que efetivamente "quebra a conexão direta" entre os parâmetros compartilhados e os dados privados locais para se defender contra GIA. Especificamente, propomos um framework de Aprendizagem Federada com Hiperrede (HyperFL) que utiliza hiperredes para gerar os parâmetros do modelo local, sendo que apenas os parâmetros da hiperrede são enviados para o servidor para agregação. Análises teóricas demonstram a taxa de convergência do HyperFL proposto, enquanto extensos resultados experimentais mostram a capacidade de preservação de privacidade e o desempenho comparável do HyperFL. O código está disponível em https://github.com/Pengxin-Guo/HyperFL.
A contra-retórica gerada por IA oferece uma estratégia promissora e escalável para conter a toxicidade online por meio de respostas diretas que promovem o discurso civil. No entanto, a contra-retórica atual é genérica, carecendo de adaptação ao contexto de moderação e aos usuários envolvidos. Propomos e avaliamos múltiplas estratégias para gerar uma contra-retórica personalizada que seja adaptada ao contexto de moderação e personalizada para o usuário moderado. Instruímos um modelo LLaMA2-13B para gerar contra-retórica, experimentando com várias configurações com base em diferentes informações contextuais e estratégias de ajuste fino. Identificamos as configurações que geram uma contra-retórica persuasiva por meio de uma combinação de indicadores quantitativos e avaliações humanas coletadas por meio de um experimento de crowdsourcing com design misto pré-registrado. Os resultados mostram que a contra-retórica contextualizada pode superar significativamente a contra-retórica genérica de ponta em adequação e persuasão, sem comprometer outras características. Nossas descobertas também revelam uma fraca correlação entre indicadores quantitativos e avaliações humanas, sugerindo que esses métodos avaliam aspectos diferentes e destacando a necessidade de metodologias de avaliação mais refinadas. A eficácia da contra-retórica gerada por IA contextualizada e a divergência entre avaliações humanas e algorítmicas destacam a importância de uma maior colaboração entre humanos e IA na moderação de conteúdo.
As políticas de robôs visuomotores, cada vez mais pré-treinadas em conjuntos de dados em larga escala, prometem avanços significativos em diversos domínios da robótica. No entanto, alinhar essas políticas com as preferências dos usuários finais ainda é um desafio, especialmente quando as preferências são difíceis de especificar. Enquanto o aprendizado por reforço a partir do feedback humano (ARFH) se tornou o mecanismo predominante para o alinhamento em domínios não incorporados, como grandes modelos de linguagem, não obteve o mesmo sucesso no alinhamento de políticas visuomotoras devido à quantidade proibitiva de feedback humano necessária para aprender funções de recompensa visuais. Para lidar com essa limitação, propomos o Aprendizado Baseado em Preferências Alinhadas à Representação (RAPL), um método baseado apenas em observações para aprender recompensas visuais a partir de um feedback humano significativamente menor. Ao contrário do ARFH tradicional, o RAPL foca o feedback humano no ajuste fino de codificadores de visão pré-treinados para se alinharem com a representação visual do usuário final e então constrói uma recompensa visual densa por meio da correspondência de características nesse espaço de representação alinhado. Primeiramente, validamos o RAPL por meio de experimentos de simulação no benchmark X-Magical e na manipulação robótica Franka Panda, demonstrando que ele pode aprender recompensas alinhadas com as preferências humanas, usar de forma mais eficiente os dados de preferência e generalizar entre diferentes formas de robôs. Por fim, nossos experimentos de hardware alinham Políticas de Difusão pré-treinadas para três tarefas de manipulação de objetos. Descobrimos que o RAPL pode ajustar essas políticas com 5 vezes menos dados reais de preferência humana, dando o primeiro passo para minimizar o feedback humano ao mesmo tempo que maximiza o alinhamento das políticas de robôs visuomotores.