Artigos de pesquisa em IA selecionados diariamente com traduções
O ajuste fino eficiente é crucial para adaptar grandes modelos de linguagem (LLMs) a tarefas subsequentes. No entanto, implementar esses métodos em diferentes modelos requer esforços consideráveis. Apresentamos o LlamaFactory, uma estrutura unificada que integra um conjunto de métodos de treinamento eficiente de ponta. Ele permite que os usuários personalizem flexivelmente o ajuste fino de mais de 100 LLMs sem a necessidade de codificação por meio da interface web integrada, o LlamaBoard. Validamos empiricamente a eficiência e a eficácia de nossa estrutura em tarefas de modelagem de linguagem e geração de texto. Ela foi lançada em https://github.com/hiyouga/LLaMA-Factory e já recebeu mais de 13.000 estrelas e 1.600 forks.
Sora é o primeiro modelo de geração de vídeo generalista em grande escala que atraiu atenção significativa em toda a sociedade. Desde seu lançamento pela OpenAI em fevereiro de 2024, nenhum outro modelo de geração de vídeo igualou o desempenho de {Sora} ou sua capacidade de suportar uma ampla gama de tarefas de geração de vídeo. Além disso, existem poucos modelos de geração de vídeo totalmente publicados, com a maioria sendo de código fechado. Para preencher essa lacuna, este artigo propõe um novo framework multiagente chamado Mora, que incorpora vários agentes de IA visual avançados para replicar a geração de vídeo generalista demonstrada por Sora. Em particular, Mora pode utilizar múltiplos agentes visuais e imitar com sucesso as capacidades de geração de vídeo de Sora em diversas tarefas, como (1) geração de texto para vídeo, (2) geração de imagem para vídeo condicionada por texto, (3) extensão de vídeos gerados, (4) edição de vídeo para vídeo, (5) conexão de vídeos e (6) simulação de mundos digitais. Nossos extensos resultados experimentais mostram que Mora alcança um desempenho próximo ao de Sora em várias tarefas. No entanto, existe uma lacuna de desempenho evidente entre nosso trabalho e Sora quando avaliado de forma holística. Em resumo, esperamos que este projeto possa guiar a trajetória futura da geração de vídeo por meio de agentes de IA colaborativos.
Apresentamos uma aplicação inovadora de algoritmos evolutivos para automatizar a criação de modelos base poderosos. Embora a fusão de modelos tenha surgido como uma abordagem promissora para o desenvolvimento de LLMs devido à sua relação custo-benefício, ela atualmente depende da intuição humana e do conhecimento de domínio, limitando seu potencial. Aqui, propomos uma abordagem evolutiva que supera essa limitação ao descobrir automaticamente combinações eficazes de diversos modelos de código aberto, aproveitando sua inteligência coletiva sem a necessidade de dados adicionais extensivos ou recursos computacionais. Nossa abordagem opera tanto no espaço de parâmetros quanto no espaço de fluxo de dados, permitindo otimizações que vão além dos pesos dos modelos individuais. Essa abordagem até facilita a fusão entre domínios, gerando modelos como um LLM japonês com capacidades de raciocínio matemático. Surpreendentemente, nosso LLM japonês de matemática alcançou desempenho de ponta em uma variedade de benchmarks estabelecidos para LLMs japoneses, superando até mesmo modelos com significativamente mais parâmetros, apesar de não ter sido explicitamente treinado para tais tarefas. Além disso, um VLM japonês culturalmente consciente gerado por nossa abordagem demonstra sua eficácia na descrição de conteúdos específicos da cultura japonesa, superando VLMs japoneses anteriores. Este trabalho não apenas contribui com novos modelos de ponta de volta para a comunidade de código aberto, mas também introduz um novo paradigma para a composição automatizada de modelos, abrindo caminho para explorar abordagens alternativas e eficientes para o desenvolvimento de modelos base.
Apresentamos o SceneScript, um método que produz diretamente modelos completos de cenas como uma sequência de comandos estruturados em linguagem, utilizando uma abordagem autoregressiva baseada em tokens. Nossa representação de cena proposta é inspirada pelos recentes sucessos dos transformers e LLMs (Large Language Models), e se afasta dos métodos mais tradicionais que comumente descrevem cenas como malhas, grades voxelizadas, nuvens de pontos ou campos de radiação. Nosso método infere o conjunto de comandos estruturados em linguagem diretamente a partir de dados visuais codificados, utilizando uma arquitetura codificador-decodificador de linguagem de cena. Para treinar o SceneScript, geramos e disponibilizamos um grande conjunto de dados sintético chamado Aria Synthetic Environments, composto por 100 mil cenas internas de alta qualidade, com renderizações fotorrealistas e anotações de verdade terrestre de passeios egocêntricos por cenas. Nosso método alcança resultados de última geração na estimativa de layout arquitetônico e resultados competitivos na detecção de objetos 3D. Por fim, exploramos uma vantagem do SceneScript, que é a capacidade de se adaptar facilmente a novos comandos por meio de simples adições à linguagem estruturada, o que ilustramos para tarefas como a reconstrução grosseira de partes de objetos 3D.
Aumentar o tamanho dos modelos de visão tem sido o padrão de fato para obter representações visuais mais poderosas. Neste trabalho, discutimos o ponto além do qual modelos de visão maiores não são necessários. Primeiro, demonstramos o poder do Escalonamento em Escalas (S^2), no qual um modelo de visão menor pré-treinado e congelado (por exemplo, ViT-B ou ViT-L), executado em múltiplas escalas de imagem, pode superar modelos maiores (por exemplo, ViT-H ou ViT-G) em tarefas de classificação, segmentação, estimativa de profundidade, benchmarks de Modelos de Linguagem Multimodal (MLLM) e manipulação robótica. Notavelmente, o S^2 alcança desempenho de ponta na compreensão detalhada de MLLM no benchmark V*, superando modelos como o GPT-4V. Examinamos as condições sob as quais o S^2 é uma abordagem de escalonamento preferível em comparação com o aumento do tamanho do modelo. Embora modelos maiores tenham a vantagem de melhor generalização em exemplos difíceis, mostramos que as características de modelos de visão maiores podem ser bem aproximadas por modelos menores em múltiplas escalas. Isso sugere que a maioria, senão todas, das representações aprendidas pelos grandes modelos pré-treinados atuais também podem ser obtidas a partir de modelos menores em múltiplas escalas. Nossos resultados mostram que um modelo menor em múltiplas escalas tem capacidade de aprendizado comparável a um modelo maior, e o pré-treinamento de modelos menores com S^2 pode igualar ou até superar a vantagem de modelos maiores. Lançamos um pacote Python que pode aplicar o S^2 em qualquer modelo de visão com uma única linha de código: https://github.com/bfshi/scaling_on_scales.
A utilização do Stable Diffusion para a geração de retratos personalizados emergiu como uma ferramenta poderosa e notável, permitindo que os usuários criem avatares de personagens personalizados de alta fidelidade com base em seus prompts específicos. No entanto, os métodos de personalização existentes enfrentam desafios, incluindo ajuste fino em tempo de teste, a necessidade de múltiplas imagens de entrada, baixa preservação de identidade e diversidade limitada nos resultados gerados. Para superar esses desafios, apresentamos o IDAdapter, uma abordagem sem ajuste fino que melhora a diversidade e a preservação de identidade na geração de imagens personalizadas a partir de uma única imagem facial. O IDAdapter integra um conceito personalizado no processo de geração por meio de uma combinação de injeções textuais e visuais e uma perda de identidade facial. Durante a fase de treinamento, incorporamos características mistas de múltiplas imagens de referência de uma identidade específica para enriquecer os detalhes de conteúdo relacionados à identidade, orientando o modelo a gerar imagens com estilos, expressões e ângulos mais diversos em comparação com trabalhos anteriores. Avaliações extensivas demonstram a eficácia do nosso método, alcançando tanto diversidade quanto fidelidade de identidade nas imagens geradas.
Os modelos de recompensa (RMs) estão no cerne do sucesso do RLHF (Reinforcement Learning from Human Feedback) para alinhar modelos pré-treinados às preferências humanas, mas houve relativamente poucos estudos que se concentram na avaliação desses modelos de recompensa. Avaliar modelos de recompensa apresenta uma oportunidade para entender as tecnologias opacas usadas para o alinhamento de modelos de linguagem e quais valores estão incorporados neles. Até o momento, existem muito poucos descritores de capacidades, métodos de treinamento ou modelos de recompensa de código aberto. Neste artigo, apresentamos o RewardBench, um conjunto de dados de benchmark e uma base de código para avaliação, com o objetivo de aprimorar o entendimento científico dos modelos de recompensa. O conjunto de dados do RewardBench é uma coleção de trios de prompt-vitória-derrota que abrangem chat, raciocínio e segurança, para avaliar como os modelos de recompensa se saem em consultas desafiadoras, estruturadas e fora da distribuição. Criamos conjuntos de dados de comparação específicos para RMs que têm razões sutis, mas verificáveis (por exemplo, bugs, fatos incorretos) pelas quais uma resposta deve ser preferida em relação a outra. No quadro de líderes do RewardBench, avaliamos modelos de recompensa treinados com uma variedade de métodos, como o treinamento direto de classificadores por MLE (Maximum Likelihood Estimation) e a modelagem implícita de recompensa do Direct Preference Optimization (DPO), e em um espectro de conjuntos de dados. Apresentamos várias descobertas sobre a propensão para recusas, limitações de raciocínio e deficiências no seguimento de instruções de vários modelos de recompensa, visando uma melhor compreensão do processo de RLHF.
Avanços recentes indicam que a ampliação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) melhora efetivamente o desempenho em tarefas multimodais subsequentes. O paradigma predominante de MLLMs, por exemplo, o LLaVA, transforma características visuais em tokens semelhantes a texto usando um mapeador visão-linguagem estático, permitindo assim que LLMs estáticos desenvolvam a capacidade de compreender informações visuais por meio de ajuste por instrução visual. Embora promissora, a estratégia de ajuste estático~O ajuste estático refere-se ao modelo treinado com parâmetros estáticos. que compartilha os mesmos parâmetros pode limitar o desempenho em diferentes tarefas multimodais subsequentes. Diante disso, apresentamos o HyperLLaVA, que envolve o ajuste adaptativo dos parâmetros do projetor e do LLM, em conjunto com um especialista visual dinâmico e um especialista em linguagem, respectivamente. Esses especialistas são derivados de HyperNetworks, que geram mudanças de parâmetros adaptativas por meio de orientação visual e de linguagem, permitindo a modelagem dinâmica do projetor e do LLM em treinamento em duas etapas. Nossos experimentos demonstram que nossa solução supera significativamente o LLaVA em benchmarks existentes de MLLMs, incluindo MME, MMBench, SEED-Bench e LLaVA-Bench. ~Nosso projeto está disponível no link https://github.com/DCDmllm/HyperLLaVA.
A estimação de profundidade monocular é crucial para diversas tarefas e aplicações de visão computacional. As abordagens discriminativas atuais para esse problema são limitadas devido a artefatos borrados, enquanto os métodos generativos de última geração sofrem com amostragem lenta devido à sua natureza de equações diferenciais estocásticas (SDE). Em vez de começar a partir de ruído, buscamos um mapeamento direto da imagem de entrada para o mapa de profundidade. Observamos que isso pode ser efetivamente enquadrado usando correspondência de fluxo (flow matching), já que suas trajetórias retas através do espaço de solução oferecem eficiência e alta qualidade. Nosso estudo demonstra que um modelo de difusão de imagem pré-treinado pode servir como um prior adequado para um modelo de profundidade baseado em correspondência de fluxo, permitindo treinamento eficiente apenas com dados sintéticos para generalização em imagens reais. Descobrimos que uma função de perda auxiliar baseada em normais de superfície melhora ainda mais as estimativas de profundidade. Devido à natureza generativa de nossa abordagem, nosso modelo prevê de forma confiável a confiança de suas estimativas de profundidade. Em benchmarks padrão de cenas naturais complexas, nossa abordagem leve exibe desempenho de última geração com um custo computacional favoravelmente baixo, apesar de ter sido treinada com poucos dados sintéticos.
Avanços recentes em síntese de visão e renderização em tempo real alcançaram qualidade fotorrealista com velocidades impressionantes de renderização. Enquanto métodos baseados em Campos de Radiação atingem qualidade de ponta em cenários desafiadores, como capturas em ambientes naturais e cenas em grande escala, eles frequentemente sofrem com requisitos computacionais excessivamente altos associados à renderização volumétrica. Por outro lado, métodos baseados em Splatting Gaussiano dependem de rasterização e naturalmente alcançam renderização em tempo real, mas sofrem com heurísticas de otimização frágeis que têm desempenho inferior em cenas mais desafiadoras. Neste trabalho, apresentamos o RadSplat, um método leve para renderização robusta em tempo real de cenas complexas. Nossas principais contribuições são três. Primeiro, utilizamos campos de radiação como um sinal de prioridade e supervisão para otimizar representações de cenas baseadas em pontos, levando a uma melhoria na qualidade e a uma otimização mais robusta. Em seguida, desenvolvemos uma nova técnica de poda que reduz o número total de pontos enquanto mantém alta qualidade, resultando em representações de cenas menores e mais compactas com velocidades de inferência mais rápidas. Por fim, propomos uma nova abordagem de filtragem em tempo de teste que acelera ainda mais a renderização e permite escalar para cenas maiores, do tamanho de casas. Descobrimos que nosso método permite a síntese de capturas complexas com qualidade de ponta a mais de 900 FPS.
O modelo de difusão tem sido historicamente afetado por problemas de escalabilidade e complexidade quadrática, especialmente em estruturas baseadas em transformers. Neste estudo, buscamos aproveitar a capacidade de modelagem de sequências longas de um Modelo de Espaço de Estados chamado Mamba para estender sua aplicabilidade à geração de dados visuais. Primeiramente, identificamos uma falha crítica na maioria dos métodos visuais atuais baseados em Mamba, especificamente a falta de consideração pela continuidade espacial no esquema de varredura do Mamba. Em segundo lugar, com base nessa percepção, introduzimos um método simples, plug-and-play e sem parâmetros, denominado Zigzag Mamba, que supera as linhas de base baseadas em Mamba e demonstra melhorias na velocidade e utilização de memória em comparação com as linhas de base baseadas em transformers. Por fim, integramos o Zigzag Mamba ao framework Stochastic Interpolant para investigar a escalabilidade do modelo em conjuntos de dados visuais de alta resolução, como FacesHQ 1024x1024, UCF101, MultiModal-CelebA-HQ e MS COCO 256x256. O código será disponibilizado em https://taohu.me/zigma/.
Propomos um modelo generativo que, dada uma imagem editada de forma grosseira, sintetiza uma saída fotorrealista que segue o layout prescrito. Nosso método transfere detalhes finos da imagem original e preserva a identidade de suas partes. No entanto, adapta-a à iluminação e ao contexto definidos pelo novo layout. Nossa principal percepção é que os vídeos são uma fonte poderosa de supervisão para essa tarefa: objetos e movimentos da câmera fornecem diversas observações de como o mundo muda com o ponto de vista, a iluminação e as interações físicas. Construímos um conjunto de dados de imagens no qual cada amostra é um par de quadros de origem e destino extraídos do mesmo vídeo em intervalos de tempo escolhidos aleatoriamente. Deformamos o quadro de origem em direção ao destino usando dois modelos de movimento que imitam as edições esperadas do usuário no momento do teste. Supervisionamos nosso modelo para traduzir a imagem deformada na verdade fundamental, partindo de um modelo de difusão pré-treinado. O design do nosso modelo permite explicitamente a transferência de detalhes finos do quadro de origem para a imagem gerada, ao mesmo tempo que segue de perto o layout especificado pelo usuário. Mostramos que, ao usar segmentações simples e manipulações 2D grosseiras, podemos sintetizar uma edição fotorrealista fiel à entrada do usuário, abordando efeitos de segunda ordem, como harmonizar a iluminação e as interações físicas entre os objetos editados.
Grandes modelos de linguagem (LLMs) apresentam uma falha surpreendente: quando treinados em "A tem uma característica B", eles não generalizam para "B é uma característica de A", o que é denominado a Maldição da Reversão. Mesmo quando treinados com trilhões de tokens, esse problema ainda persiste devido à lei de Zipf - portanto, mesmo que treinemos com toda a internet. Este trabalho propõe um esquema de treinamento alternativo, chamado treinamento reverso, no qual todas as palavras são usadas duas vezes, dobrando a quantidade de tokens disponíveis. O LLM é treinado tanto na direção normal quanto na reversa, invertendo as strings de treinamento enquanto preserva (ou seja, não inverte) substrings escolhidas, como entidades. Mostramos que modelos treinados de forma reversa com dados correspondentes oferecem desempenho superior aos modelos padrão em tarefas convencionais, e modelos treinados de forma reversa com computação correspondente oferecem desempenho muito superior em tarefas de reversão, ajudando a resolver o problema da maldição da reversão.
A expansão de vídeo (video outpainting) é uma tarefa desafiadora, que visa gerar conteúdo de vídeo fora da janela de visualização do vídeo de entrada, mantendo a consistência inter-quadros e intra-quadros. Os métodos existentes falham em termos de qualidade de geração ou flexibilidade. Apresentamos o MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), um pipeline baseado em difusão que aproveita tanto os padrões intrínsecos específicos dos dados do vídeo de origem quanto o conhecimento prévio de geração de imagens/vídeos para uma expansão eficaz. O MOTIA compreende duas fases principais: adaptação específica à entrada e expansão consciente de padrões. A fase de adaptação específica à entrada envolve a realização de um aprendizado eficiente e eficaz de pseudo-expansão no vídeo de origem de tomada única. Esse processo incentiva o modelo a identificar e aprender os padrões dentro do vídeo de origem, além de preencher a lacuna entre os processos generativos padrão e a expansão. A fase subsequente, de expansão consciente de padrões, é dedicada à generalização desses padrões aprendidos para gerar resultados de expansão. Estratégias adicionais, incluindo inserção espacialmente consciente e viagem de ruído, são propostas para melhor aproveitar o conhecimento prévio generativo do modelo de difusão e os padrões de vídeo adquiridos a partir dos vídeos de origem. Avaliações extensas destacam a superioridade do MOTIA, superando os métodos state-of-the-art existentes em benchmarks amplamente reconhecidos. Vale ressaltar que esses avanços são alcançados sem a necessidade de ajustes extensos e específicos para a tarefa.
Apesar dos avanços significativos no campo da síntese de texto para vídeo (T2V), os modelos de difusão T2V de código aberto enfrentam dificuldades para gerar vídeos mais longos com conteúdo dinamicamente variável e em evolução. Eles tendem a sintetizar vídeos quase estáticos, ignorando as mudanças visuais necessárias ao longo do tempo implícitas no prompt de texto. Ao mesmo tempo, escalonar esses modelos para permitir a síntese de vídeos mais longos e dinâmicos frequentemente permanece computacionalmente intratável. Para enfrentar esse desafio, introduzimos o conceito de Cuidado Temporal Generativo (GTN), onde buscamos alterar o processo generativo em tempo real durante a inferência para melhorar o controle sobre a dinâmica temporal e permitir a geração de vídeos mais longos. Propomos um método para GTN, denominado VSTAR, que consiste em dois componentes principais: 1) Prompt de Sinopse de Vídeo (VSP) - geração automática de uma sinopse de vídeo com base no prompt único original, aproveitando LLMs, que fornece orientação textual precisa para diferentes estados visuais de vídeos mais longos, e 2) Regularização de Atenção Temporal (TAR) - uma técnica de regularização para refinar as unidades de atenção temporal dos modelos de difusão T2V pré-treinados, permitindo o controle sobre a dinâmica do vídeo. Experimentalmente, demonstramos a superioridade da abordagem proposta na geração de vídeos mais longos e visualmente atraentes em comparação com os modelos T2V de código aberto existentes. Além disso, analisamos os mapas de atenção temporal realizados com e sem VSTAR, destacando a importância de aplicar nosso método para mitigar a negligência das mudanças visuais desejadas ao longo do tempo.
Modelos de Linguagem (LMs) têm influenciado significativamente diversos domínios. No entanto, sua limitação inerente em compreender estruturas moleculares 3D tem restringido consideravelmente seu potencial no domínio biomolecular. Para preencher essa lacuna, focamos na interpretação de moléculas 3D-texto e propomos o 3D-MoLM: Modelagem de Linguagem Molecular 3D. Especificamente, o 3D-MoLM permite que um LM interprete e analise moléculas 3D ao equipar o LM com um codificador molecular 3D. Essa integração é alcançada por meio de um projetor molécula 3D-texto, que conecta o espaço de representação do codificador molecular 3D e o espaço de entrada do LM. Além disso, para aprimorar a capacidade do 3D-MoLM de compreensão molecular multimodal e seguimento de instruções, elaboramos meticulosamente um conjunto de dados de ajuste fino centrado em moléculas 3D -- o 3D-MoIT. Por meio do alinhamento molécula 3D-texto e do ajuste fino centrado em moléculas 3D, o 3D-MoLM estabelece uma integração entre o codificador molecular 3D e o LM. Ele supera significativamente as baselines existentes em tarefas subsequentes, incluindo recuperação molécula-texto, legendagem de moléculas e tarefas mais desafiadoras de QA molecular de texto aberto, especialmente focando em propriedades dependentes de 3D.
A geração 3D tem testemunhado avanços significativos, mas a produção eficiente de ativos 3D de alta qualidade a partir de uma única imagem continua sendo um desafio. Neste artigo, apresentamos um autoencoder de triplano, que codifica modelos 3D em um espaço latente compacto de triplano para comprimir efetivamente tanto a geometria quanto as informações de textura 3D. Dentro do framework do autoencoder, introduzimos um mecanismo de atenção cruzada 3D, que utiliza representações latentes de baixa resolução para consultar características de um volume de características 3D de alta resolução, melhorando assim a capacidade de representação do espaço latente. Posteriormente, treinamos um modelo de difusão nesse espaço latente refinado. Em contraste com a dependência exclusiva do embedding de imagem para geração 3D, nosso método proposto defende a utilização simultânea de ambos os embeddings de imagem e de forma como condições. Especificamente, o embedding de forma é estimado por meio de um modelo de difusão condicionado ao embedding de imagem. Através de experimentos abrangentes, demonstramos que nosso método supera os algoritmos state-of-the-art, alcançando desempenho superior enquanto requer menos dados e tempo de treinamento. Nossa abordagem permite a geração de ativos 3D de alta qualidade em meros 7 segundos em uma única GPU A100.
Para compreender os riscos apresentados por um novo sistema de IA, devemos entender o que ele pode e não pode fazer. Com base em trabalhos anteriores, introduzimos um programa de novas avaliações de "capacidades perigosas" e as testamos nos modelos Gemini 1.0. Nossas avaliações abrangem quatro áreas: (1) persuasão e engano; (2) segurança cibernética; (3) auto-proliferação; e (4) auto-raciocínio. Não encontramos evidências de capacidades perigosas robustas nos modelos avaliados, mas identificamos sinais de alerta precoces. Nosso objetivo é contribuir para o avanço de uma ciência rigorosa de avaliação de capacidades perigosas, em preparação para modelos futuros.