Artigos de pesquisa em IA selecionados diariamente com traduções
Pesquisas recentes, como o BitNet, estão abrindo caminho para uma nova era de Modelos de Linguagem de Grande Escala (LLMs) de 1 bit. Neste trabalho, apresentamos uma variante de LLM de 1 bit, denominada BitNet b1.58, na qual cada parâmetro (ou peso) do LLM é ternário {-1, 0, 1}. Ele corresponde ao LLM Transformer de precisão total (ou seja, FP16 ou BF16) com o mesmo tamanho de modelo e tokens de treinamento em termos de perplexidade e desempenho em tarefas finais, ao mesmo tempo em que é significativamente mais econômico em termos de latência, memória, taxa de transferência e consumo de energia. Mais profundamente, o LLM de 1,58 bit define uma nova lei de escalonamento e uma receita para treinar novas gerações de LLMs que são tanto de alto desempenho quanto econômicos. Além disso, ele habilita um novo paradigma de computação e abre portas para o desenvolvimento de hardware específico otimizado para LLMs de 1 bit.
Neste trabalho, abordamos o desafio de aprimorar o realismo e a expressividade na geração de vídeos de cabeças falantes, focando na relação dinâmica e sutil entre pistas de áudio e movimentos faciais. Identificamos as limitações das técnicas tradicionais que frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais. Para resolver essas questões, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, dispensando a necessidade de modelos 3D intermediários ou marcos faciais. Nosso método garante transições suaves entre quadros e a preservação consistente da identidade ao longo do vídeo, resultando em animações altamente expressivas e realistas. Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em diversos estilos, superando significativamente as metodologias state-of-the-art existentes em termos de expressividade e realismo.
Sora é um modelo generativo de IA de texto para vídeo, lançado pela OpenAI em fevereiro de 2024. O modelo é treinado para gerar vídeos de cenas realistas ou imaginativas a partir de instruções de texto e demonstra potencial na simulação do mundo físico. Com base em relatórios técnicos públicos e engenharia reversa, este artigo apresenta uma revisão abrangente do contexto do modelo, tecnologias relacionadas, aplicações, desafios remanescentes e direções futuras dos modelos de IA de texto para vídeo. Primeiro, traçamos o desenvolvimento do Sora e investigamos as tecnologias subjacentes usadas para construir este "simulador de mundo". Em seguida, descrevemos detalhadamente as aplicações e o impacto potencial do Sora em múltiplas indústrias, desde produção cinematográfica e educação até marketing. Discutimos os principais desafios e limitações que precisam ser superados para a ampla implantação do Sora, como garantir a geração de vídeos seguros e imparciais. Por fim, discutimos o desenvolvimento futuro do Sora e dos modelos de geração de vídeo em geral, e como os avanços no campo podem possibilitar novas formas de interação humano-IA, impulsionando a produtividade e a criatividade na geração de vídeos.
Embora os grandes modelos de linguagem (LLMs) frequentemente adotem o ajuste fino (finetuning) para desbloquear suas capacidades em aplicações subsequentes, nossa compreensão sobre os vieses indutivos (especialmente as propriedades de escalonamento) de diferentes métodos de ajuste fino ainda é limitada. Para preencher essa lacuna, conduzimos experimentos sistemáticos estudando se e como diferentes fatores de escalonamento, incluindo o tamanho do modelo LLM, o tamanho dos dados de pré-treinamento, o tamanho dos novos parâmetros de ajuste fino e o tamanho dos dados de ajuste fino, afetam o desempenho do ajuste fino. Consideramos dois tipos de ajuste fino -- ajuste de modelo completo (FMT) e ajuste eficiente em parâmetros (PET, incluindo ajuste de prompt e LoRA) -- e exploramos seus comportamentos de escalonamento no regime de dados limitados, onde o tamanho do modelo LLM supera substancialmente o tamanho dos dados de ajuste fino. Com base em dois conjuntos de LLMs bilíngues pré-treinados de 1B a 16B e experimentos em benchmarks de tradução automática bilíngue e sumarização multilingue, descobrimos que: 1) o ajuste fino de LLMs segue uma lei de escalonamento conjunta multiplicativa baseada em potência entre o tamanho dos dados de ajuste fino e cada outro fator de escalonamento; 2) o ajuste fino de LLMs se beneficia mais do escalonamento do tamanho do modelo LLM do que do escalonamento dos dados de pré-treinamento, e o escalonamento de parâmetros PET é geralmente ineficaz; e 3) o método de ajuste fino ideal é altamente dependente da tarefa e dos dados de ajuste fino. Esperamos que nossas descobertas possam esclarecer a compreensão, seleção e desenvolvimento de métodos de ajuste fino para LLMs.
Durante décadas, a interação humano-computador tem sido fundamentalmente manual. Até hoje, quase todo o trabalho produtivo realizado no computador exige entrada humana em cada etapa. Agentes virtuais autônomos representam um passo emocionante na automação de muitas dessas tarefas repetitivas. Agentes virtuais capacitariam usuários com proficiência técnica limitada a aproveitar todas as possibilidades dos sistemas de computador. Eles também poderiam permitir a otimização eficiente de inúmeras tarefas de computador, desde o gerenciamento de calendários até reservas complexas de viagens, com intervenção humana mínima. Neste artigo, apresentamos o OmniACT, o primeiro conjunto de dados e benchmark do tipo para avaliar a capacidade de um agente de gerar programas executáveis para realizar tarefas de computador. Nosso escopo vai além da automação web tradicional, abrangendo uma variedade diversificada de aplicativos de desktop. O conjunto de dados consiste em tarefas fundamentais, como "Tocar a próxima música", bem como tarefas de longo prazo, como "Enviar um e-mail para John Doe mencionando o horário e o local do encontro". Especificamente, dado um par de imagem da tela e uma tarefa de linguagem natural visualmente fundamentada, o objetivo é gerar um script capaz de executar totalmente a tarefa. Executamos vários agentes de modelo de linguagem de linha de base fortes em nosso benchmark. O baseline mais forte, o GPT-4, tem o melhor desempenho em nosso benchmark. No entanto, seu nível de desempenho ainda atinge apenas 15% da proficiência humana na geração de scripts executáveis capazes de concluir a tarefa, demonstrando o desafio de nossa tarefa para agentes web convencionais. Nosso benchmark fornece uma plataforma para medir e avaliar o progresso de agentes de modelo de linguagem na automação de tarefas de computador e motiva trabalhos futuros na construção de modelos multimodais que unem grandes modelos de linguagem e a fundamentação visual de telas de computador.
A capacidade dos Modelos de Linguagem de Grande Escala (LLMs) de processar e gerar texto coerente é significativamente reduzida quando o número de tokens de entrada excede seu comprimento de pré-treinamento. Dado o custo elevado de ajustar modelos em larga escala com sequências mais longas, propomos a Atenção de Blocos Duplos (DCA, Dual Chunk Attention), que permite ao Llama2 70B suportar janelas de contexto de mais de 100 mil tokens sem treinamento contínuo. Ao decompor o cálculo de atenção para sequências longas em módulos baseados em blocos, o DCA consegue capturar efetivamente as informações posicionais relativas dos tokens dentro do mesmo bloco (Intra-Bloco) e entre blocos distintos (Inter-Bloco), além de se integrar perfeitamente com a Atenção Flash. Além de sua impressionante capacidade de extrapolação, o DCA alcança desempenho em tarefas práticas de contexto longo comparável ou até superior ao de modelos ajustados. Quando comparado com modelos proprietários, nosso modelo de 70B sem treinamento atinge 94% do desempenho do gpt-3.5-16k, indicando que é uma alternativa viável de código aberto. Todo o código e os dados utilizados neste trabalho estão disponíveis em https://github.com/HKUNLP/ChunkLlama.
No domínio dos modelos generativos de texto para imagem (T2I) orientados por assunto, desenvolvimentos recentes como DreamBooth e BLIP-Diffusion têm alcançado resultados impressionantes, mas enfrentam limitações devido às suas demandas intensivas de ajuste fino e requisitos substanciais de parâmetros. Embora o módulo de adaptação de baixo posto (LoRA) dentro do DreamBooth ofereça uma redução nos parâmetros treináveis, ele introduz uma sensibilidade acentuada aos hiperparâmetros, resultando em um compromisso entre a eficiência de parâmetros e a qualidade da síntese de imagens personalizadas T2I. Para abordar essas restrições, introduzimos o \textit{DiffuseKronA}, um novo módulo de adaptação baseado no produto de Kronecker que não apenas reduz significativamente a contagem de parâmetros em 35\% e 99,947\% em comparação com o LoRA-DreamBooth e o DreamBooth original, respectivamente, mas também melhora a qualidade da síntese de imagens. Crucialmente, o DiffuseKronA mitiga o problema da sensibilidade aos hiperparâmetros, entregando gerações de alta qualidade consistentes em uma ampla gama de hiperparâmetros, diminuindo assim a necessidade de ajuste fino extensivo. Além disso, uma decomposição mais controlável torna o DiffuseKronA mais interpretável e pode até alcançar uma redução de até 50\% com resultados comparáveis ao LoRA-Dreambooth. Avaliado contra diversas e complexas imagens de entrada e prompts de texto, o DiffuseKronA supera consistentemente os modelos existentes, produzindo imagens diversas de maior qualidade com fidelidade aprimorada e uma distribuição de cores mais precisa dos objetos, tudo isso mantendo uma eficiência excepcional de parâmetros, representando assim um avanço substancial no campo da modelagem generativa T2I. Nossa página do projeto, contendo links para o código e checkpoints pré-treinados, está disponível em https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Tanto os dados textuais quanto os de vídeo são abundantes na internet e suportam o aprendizado autossupervisionado em larga escala por meio da previsão do próximo token ou quadro. No entanto, eles não foram igualmente aproveitados: os modelos de linguagem tiveram um impacto significativo no mundo real, enquanto a geração de vídeo permaneceu amplamente limitada ao entretenimento midiático. Ainda assim, os dados de vídeo capturam informações importantes sobre o mundo físico que são difíceis de expressar em linguagem. Para abordar essa lacuna, discutimos uma oportunidade subestimada de estender a geração de vídeo para resolver tarefas no mundo real. Observamos como, semelhante à linguagem, o vídeo pode servir como uma interface unificada que pode absorver o conhecimento da internet e representar tarefas diversas. Além disso, demonstramos como, assim como os modelos de linguagem, a geração de vídeo pode servir como planejadores, agentes, motores de computação e simuladores de ambiente por meio de técnicas como aprendizado em contexto, planejamento e aprendizado por reforço. Identificamos oportunidades de impacto significativo em domínios como robótica, direção autônoma e ciência, apoiadas por trabalhos recentes que demonstram como tais capacidades avançadas em geração de vídeo estão plausivelmente ao alcance. Por fim, identificamos os principais desafios na geração de vídeo que mitigam o progresso. Abordar esses desafios permitirá que os modelos de geração de vídeo demonstrem valor único ao lado dos modelos de linguagem em uma gama mais ampla de aplicações de IA.
Trabalhos existentes sobre diálogos abertos de longo prazo focam em avaliar as respostas dos modelos em contextos que abrangem no máximo cinco sessões de chat. Apesar dos avanços em modelos de linguagem de grande escala (LLMs) de contexto longo e técnicas de geração aumentada por recuperação (RAG), sua eficácia em diálogos de muito longo prazo permanece inexplorada. Para abordar essa lacuna de pesquisa, introduzimos um pipeline máquina-humano para gerar diálogos de muito longo prazo de alta qualidade, aproveitando arquiteturas de agentes baseadas em LLMs e fundamentando seus diálogos em personas e grafos de eventos temporais. Além disso, equipamos cada agente com a capacidade de compartilhar e reagir a imagens. As conversas geradas são verificadas e editadas por anotadores humanos para garantir consistência de longo alcance e fundamentação nos grafos de eventos. Usando esse pipeline, coletamos o LoCoMo, um conjunto de dados de conversas de muito longo prazo, cada uma abrangendo 300 turnos e 9K tokens em média, ao longo de até 35 sessões. Com base no LoCoMo, apresentamos um benchmark de avaliação abrangente para medir a memória de longo prazo em modelos, englobando tarefas de resposta a perguntas, resumo de eventos e geração de diálogos multimodais. Nossos resultados experimentais indicam que os LLMs enfrentam desafios em entender conversas longas e compreender dinâmicas temporais e causais de longo alcance dentro dos diálogos. Empregar estratégias como LLMs de contexto longo ou RAG pode oferecer melhorias, mas esses modelos ainda ficam substancialmente atrás do desempenho humano.
O modelo Sora [1], desenvolvido recentemente, demonstrou capacidades notáveis na geração de vídeos, desencadeando discussões intensas sobre sua habilidade de simular fenômenos do mundo real. Apesar de sua crescente popularidade, há uma carência de métricas estabelecidas para avaliar quantitativamente sua fidelidade às leis físicas do mundo real. Neste artigo, introduzimos um novo benchmark que avalia a qualidade dos vídeos gerados com base em sua aderência aos princípios físicos do mundo real. Empregamos um método que transforma os vídeos gerados em modelos 3D, partindo da premissa de que a precisão da reconstrução 3D depende fortemente da qualidade do vídeo. A partir da perspectiva da reconstrução 3D, utilizamos a fidelidade das restrições geométricas satisfeitas pelos modelos 3D construídos como um indicador para medir até que ponto os vídeos gerados estão em conformidade com as regras físicas do mundo real. Página do projeto: https://sora-geometrical-consistency.github.io/
Este trabalho estuda os princípios gerais para melhorar o aprendizado de modelos de linguagem (LMs), com o objetivo de reduzir as etapas de treinamento necessárias para alcançar um desempenho superior. Especificamente, apresentamos uma teoria para o aprendizado ótimo de LMs. Primeiro, propomos um objetivo que otimiza o aprendizado de LMs maximizando a taxa de compressão de dados em uma visão de "treinamento-de-LM-como-compressão-sem-perdas". Em seguida, derivamos um teorema, denominado Lei de Aprendizado, para revelar as propriedades da dinâmica no processo de aprendizado ótimo sob nosso objetivo. O teorema é então validado por experimentos em uma classificação linear e uma tarefa de modelagem de linguagem do mundo real. Por fim, verificamos empiricamente que o aprendizado ótimo de LMs essencialmente decorre da melhoria dos coeficientes na lei de escala dos LMs, indicando grande potencial e significância para o design de métodos práticos de aceleração de aprendizado. Nosso código pode ser encontrado em https://aka.ms/LearningLaw.
A criação de conteúdo em vídeo e áudio serve como técnica central para a indústria cinematográfica e usuários profissionais. Recentemente, os métodos existentes baseados em difusão abordam a geração de vídeo e áudio separadamente, o que dificulta a transferência dessa técnica da academia para a indústria. Neste trabalho, visamos preencher essa lacuna com um framework cuidadosamente projetado, baseado em otimização, para geração cruzada e conjunta de conteúdo visual e auditivo. Observamos a poderosa capacidade de geração dos modelos prontos para uso de geração de vídeo ou áudio. Assim, em vez de treinar modelos gigantes do zero, propomos conectar os modelos fortes existentes por meio de um espaço de representação latente compartilhado. Especificamente, propomos um alinhador de latência multimodal com o modelo ImageBind pré-treinado. Nosso alinhador de latência compartilha um núcleo semelhante ao da orientação por classificador, que guia o processo de remoção de ruído por difusão durante o tempo de inferência. Por meio de uma estratégia de otimização e funções de perda cuidadosamente projetadas, demonstramos o desempenho superior de nosso método em tarefas de geração conjunta de vídeo e áudio, geração de áudio guiada por visão e geração visual guiada por áudio. O site do projeto pode ser encontrado em https://yzxing87.github.io/Seeing-and-Hearing/.
Apresentamos um método para gerar cenas 3D que são desacopladas em seus objetos componentes. Esse desacoplamento é não supervisionado, dependendo apenas do conhecimento de um grande modelo pré-treinado de texto para imagem. Nossa principal percepção é que os objetos podem ser descobertos ao identificar partes de uma cena 3D que, quando rearranjadas espacialmente, ainda produzem configurações válidas da mesma cena. Concretamente, nosso método otimiza conjuntamente múltiplos NeRFs do zero — cada um representando seu próprio objeto — juntamente com um conjunto de layouts que compõem esses objetos em cenas. Em seguida, incentivamos que essas cenas compostas estejam dentro da distribuição de acordo com o gerador de imagens. Mostramos que, apesar de sua simplicidade, nossa abordagem gera com sucesso cenas 3D decompostas em objetos individuais, permitindo novas capacidades na criação de conteúdo de texto para 3D. Para resultados e uma demonstração interativa, consulte nossa página do projeto em https://dave.ml/layoutlearning/.
Neste trabalho, compartilhamos três insights para alcançar qualidade estética de ponta em modelos generativos de texto para imagem. Focamos em três aspectos críticos para a melhoria do modelo: aprimoramento de cores e contraste, melhoria na geração em múltiplas proporções de aspecto e refinamento de detalhes centrados no ser humano. Primeiro, exploramos a importância do cronograma de ruído no treinamento de um modelo de difusão, demonstrando seu impacto profundo no realismo e na fidelidade visual. Segundo, abordamos o desafio de acomodar várias proporções de aspecto na geração de imagens, enfatizando a importância de preparar um conjunto de dados balanceado e segmentado. Por fim, investigamos o papel crucial de alinhar as saídas do modelo com as preferências humanas, garantindo que as imagens geradas ressoem com as expectativas perceptivas humanas. Por meio de análises e experimentos extensivos, o Playground v2.5 demonstra desempenho de ponta em termos de qualidade estética sob diversas condições e proporções de aspecto, superando tanto modelos de código aberto amplamente utilizados, como SDXL e Playground v2, quanto sistemas comerciais de código fechado, como DALLE 3 e Midjourney v5.2. Nosso modelo é de código aberto, e esperamos que o desenvolvimento do Playground v2.5 forneça diretrizes valiosas para pesquisadores que visam elevar a qualidade estética de modelos de geração de imagens baseados em difusão.
Os métodos existentes baseados em NeRF para reconstrução de cenas grandes frequentemente apresentam limitações na qualidade visual e na velocidade de renderização. Embora o recente 3D Gaussian Splatting funcione bem em cenas de pequena escala e centradas em objetos, sua escalabilidade para cenas grandes enfrenta desafios devido à memória de vídeo limitada, tempo de otimização prolongado e variações perceptíveis na aparência. Para abordar esses desafios, apresentamos o VastGaussian, o primeiro método para reconstrução de alta qualidade e renderização em tempo real em cenas grandes baseado no 3D Gaussian Splatting. Propomos uma estratégia de particionamento progressivo para dividir uma cena grande em múltiplas células, onde as câmeras de treinamento e a nuvem de pontos são distribuídas adequadamente com um critério de visibilidade consciente do espaço aéreo. Essas células são mescladas em uma cena completa após a otimização paralela. Também introduzimos a modelagem de aparência desacoplada no processo de otimização para reduzir as variações de aparência nas imagens renderizadas. Nossa abordagem supera os métodos baseados em NeRF existentes e alcança resultados de ponta em múltiplos conjuntos de dados de cenas grandes, permitindo otimização rápida e renderização em tempo real de alta fidelidade.