HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

16 papers found

Transformadores de Visão Precisam de Registros
Vision Transformers Need Registers

Sep 28

ByTimothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

Transformers surgiram recentemente como uma ferramenta poderosa para o aprendizado de representações visuais. Neste artigo, identificamos e caracterizamos artefatos nos mapas de características de redes ViT tanto supervisionadas quanto auto-supervisionadas. Os artefatos correspondem a tokens de alta norma que aparecem durante a inferência principalmente em áreas de fundo de baixa informacionalidade das imagens, sendo reutilizados para cálculos internos. Propomos uma solução simples, porém eficaz, baseada na adição de tokens extras à sequência de entrada do Vision Transformer para desempenhar essa função. Demonstramos que essa solução resolve completamente o problema tanto para modelos supervisionados quanto auto-supervisionados, estabelece um novo estado da arte para modelos visuais auto-supervisionados em tarefas de predição visual densa, permite métodos de descoberta de objetos com modelos maiores e, mais importante, resulta em mapas de características e mapas de atenção mais suaves para o processamento visual subsequente.

AnyMAL: Um Modelo de Linguagem Aumentado de Qualquer Modalidade Eficiente e Escalável
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Sep 27

BySeungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar

Apresentamos o Modelo de Linguagem Aumentada de Qualquer Modalidade (AnyMAL), um modelo unificado que raciocina sobre sinais de entrada de diversas modalidades (ou seja, texto, imagem, vídeo, áudio, sensor de movimento IMU) e gera respostas textuais. O AnyMAL herda as poderosas habilidades de raciocínio baseado em texto dos modelos de linguagem de última geração, incluindo o LLaMA-2 (70B), e converte sinais específicos de cada modalidade para o espaço textual conjunto por meio de um módulo alinhador pré-treinado. Para fortalecer ainda mais as capacidades do modelo de linguagem multimodal, ajustamos o modelo com um conjunto de instruções multimodais coletadas manualmente para abranger diversos tópicos e tarefas além de simples perguntas e respostas. Realizamos uma análise empírica abrangente, incluindo avaliações humanas e automáticas, e demonstramos desempenho de ponta em várias tarefas multimodais.

DreamGaussian: Geração Gaussiana por Splatting para Criação Eficiente de Conteúdo 3D
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Sep 28

ByJiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng

Os avanços recentes na criação de conteúdo 3D têm se baseado principalmente na geração 3D baseada em otimização por meio de amostragem por destilação de pontuação (SDS). Embora resultados promissores tenham sido demonstrados, esses métodos frequentemente sofrem com a otimização lenta por amostra, limitando seu uso prático. Neste artigo, propomos o DreamGaussian, um novo framework de geração de conteúdo 3D que alcança simultaneamente eficiência e qualidade. Nossa principal ideia é projetar um modelo generativo de Splatting Gaussiano 3D com extração de malha acompanhada e refinamento de textura no espaço UV. Em contraste com a poda de ocupação usada em Campos de Radiança Neural, demonstramos que a densificação progressiva de Gaussianos 3D converge significativamente mais rápido para tarefas generativas 3D. Para aprimorar ainda mais a qualidade da textura e facilitar aplicações subsequentes, introduzimos um algoritmo eficiente para converter Gaussianos 3D em malhas texturizadas e aplicamos uma etapa de ajuste fino para refinar os detalhes. Experimentos extensivos demonstram a eficiência superior e a qualidade competitiva de geração da nossa abordagem proposta. Notavelmente, o DreamGaussian produz malhas texturizadas de alta qualidade em apenas 2 minutos a partir de uma imagem de visão única, alcançando uma aceleração de aproximadamente 10 vezes em comparação com métodos existentes.

Relatório Técnico do Qwen
Qwen Technical Report

Sep 28

ByJinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

Os grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial, permitindo tarefas de processamento de linguagem natural que antes eram consideradas exclusivas dos seres humanos. Neste trabalho, apresentamos Qwen, a primeira versão da nossa série de grandes modelos de linguagem. Qwen é uma série abrangente de modelos de linguagem que engloba modelos distintos com diferentes contagens de parâmetros. Ela inclui Qwen, os modelos de linguagem base pré-treinados, e Qwen-Chat, os modelos de chat ajustados com técnicas de alinhamento humano. Os modelos de linguagem base demonstram consistentemente desempenho superior em uma variedade de tarefas subsequentes, e os modelos de chat, especialmente aqueles treinados com Aprendizado por Reforço com Feedback Humano (RLHF), são altamente competitivos. Os modelos de chat possuem capacidades avançadas de uso de ferramentas e planejamento para a criação de aplicações de agentes, mostrando desempenho impressionante mesmo quando comparados a modelos maiores em tarefas complexas, como a utilização de um interpretador de código. Além disso, desenvolvemos modelos especializados em codificação, Code-Qwen e Code-Qwen-Chat, bem como modelos focados em matemática, Math-Qwen-Chat, que são construídos sobre modelos de linguagem base. Esses modelos demonstram um desempenho significativamente melhorado em comparação com modelos de código aberto, e ficam ligeiramente atrás dos modelos proprietários.

Texto-para-3D usando Espalhamento Gaussiano
Text-to-3D using Gaussian Splatting

Sep 28

ByZilong Chen, Feng Wang, Huaping Liu

Neste artigo, apresentamos a geração de texto para 3D baseada em Gaussian Splatting (GSGEN), uma abordagem inovadora para a criação de objetos 3D de alta qualidade. Métodos anteriores sofrem com geometria imprecisa e fidelidade limitada devido à ausência de um prévio 3D e de uma representação adequada. Aproveitamos o Gaussian Splatting 3D, uma representação recente e de ponta, para abordar as deficiências existentes, explorando sua natureza explícita que permite a incorporação de um prévio 3D. Especificamente, nosso método adota uma estratégia de otimização progressiva, que inclui uma etapa de otimização de geometria e uma etapa de refinamento de aparência. Na otimização de geometria, uma representação grosseira é estabelecida sob um prévio de geometria 3D, juntamente com a perda SDS 2D convencional, garantindo uma forma aproximada sensível e consistente em 3D. Posteriormente, os Gaussianos obtidos passam por um refinamento iterativo para enriquecer os detalhes. Nesta etapa, aumentamos o número de Gaussianos por meio de densificação baseada em compacidade para melhorar a continuidade e aprimorar a fidelidade. Com esses projetos, nossa abordagem é capaz de gerar conteúdo 3D com detalhes delicados e geometria mais precisa. Avaliações extensivas demonstram a eficácia do nosso método, especialmente na captura de componentes de alta frequência. Resultados em vídeo são fornecidos em https://gsgen3d.github.io. Nosso código está disponível em https://github.com/gsgen3d/gsgen.

Escalonamento Eficiente de Contexto Longo em Modelos de Base
Effective Long-Context Scaling of Foundation Models

Sep 27

ByWenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma

Apresentamos uma série de LLMs de contexto longo que suportam janelas de contexto eficazes de até 32.768 tokens. Nossa série de modelos foi construída por meio de pré-treinamento contínuo a partir do Llama 2, com sequências de treinamento mais longas e em um conjunto de dados onde textos longos são superamostrados. Realizamos uma avaliação extensiva em modelagem de linguagem, tarefas de sondagem de contexto sintético e uma ampla gama de benchmarks de pesquisa. Nos benchmarks de pesquisa, nossos modelos alcançam melhorias consistentes na maioria das tarefas regulares e melhorias significativas em tarefas de contexto longo em comparação com o Llama 2. Notavelmente, com um procedimento de ajuste de instrução de baixo custo que não requer dados de instrução longa anotados por humanos, a variante de 70B já pode superar o desempenho geral do gpt-3.5-turbo-16k em uma série de tarefas de contexto longo. Paralelamente a esses resultados, fornecemos uma análise detalhada dos componentes individuais de nosso método. Investigamos as codificações de posição do Llama e discutimos suas limitações na modelagem de dependências longas. Também examinamos o impacto de várias escolhas de design no processo de pré-treinamento, incluindo a mistura de dados e o currículo de treinamento de comprimentos de sequência — nossos experimentos de ablação sugerem que a presença abundante de textos longos no conjunto de dados de pré-treinamento não é a chave para alcançar um desempenho forte, e verificamos empiricamente que o pré-treinamento contínuo de contexto longo é mais eficiente e igualmente eficaz em comparação com o pré-treinamento do zero com sequências longas.

Interpolação Profunda de Linhas de Desenho Animado Geometrizado
Deep Geometrized Cartoon Line Inbetweening

Sep 28

ByLi Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy

Nosso objetivo é abordar um problema significativo, mas pouco estudado na indústria de animes, especificamente a interpolação de desenhos animados em linha. A interpolação envolve a geração de quadros intermediários entre dois desenhos em preto e branco e é um processo demorado e caro que pode se beneficiar da automação. No entanto, os métodos existentes de interpolação de quadros que dependem do emparelhamento e deformação de imagens raster inteiras são inadequados para a interpolação de linhas e frequentemente produzem artefatos de borrão que danificam as estruturas intricadas das linhas. Para preservar a precisão e os detalhes dos desenhos em linha, propomos uma nova abordagem, o AnimeInbet, que geometriza desenhos raster em linha em grafos de pontos finais e reformula a tarefa de interpolação como um problema de fusão de grafos com reposicionamento de vértices. Nosso método pode capturar efetivamente a esparsidade e a estrutura única dos desenhos em linha, preservando os detalhes durante a interpolação. Isso é possibilitado por nossos novos módulos, ou seja, incorporação geométrica de vértices, um Transformer de correspondência de vértices, um mecanismo eficaz para reposicionamento de vértices e um preditor de visibilidade. Para treinar nosso método, introduzimos o MixamoLine240, um novo conjunto de dados de desenhos em linha com vetorização e rótulos de correspondência de verdade fundamental. Nossos experimentos demonstram que o AnimeInbet sintetiza desenhos intermediários em linha de alta qualidade, limpos e completos, superando os métodos existentes quantitativa e qualitativamente, especialmente em casos com grandes movimentos. Dados e código estão disponíveis em https://github.com/lisiyao21/AnimeInbet.

Desmistificando os Dados do CLIP
Demystifying CLIP Data

Sep 28

ByHu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) é uma abordagem que avançou a pesquisa e aplicações em visão computacional, impulsionando sistemas modernos de reconhecimento e modelos generativos. Acreditamos que o principal ingrediente para o sucesso do CLIP são seus dados, e não a arquitetura do modelo ou o objetivo de pré-treinamento. No entanto, o CLIP fornece informações muito limitadas sobre seus dados e como eles foram coletados, levando a trabalhos que visam reproduzir os dados do CLIP filtrando com seus parâmetros de modelo. Neste trabalho, pretendemos revelar a abordagem de curadoria de dados do CLIP e, em nossa busca por torná-la aberta à comunidade, introduzimos o Pré-treinamento de Linguagem-Imagem com Curadoria de Metadados (MetaCLIP). O MetaCLIP pega um pool de dados brutos e metadados (derivados dos conceitos do CLIP) e produz um subconjunto balanceado sobre a distribuição de metadados. Nosso estudo experimental isola rigorosamente o modelo e as configurações de treinamento, concentrando-se apenas nos dados. O MetaCLIP aplicado ao CommonCrawl com 400 milhões de pares de dados imagem-texto supera os dados do CLIP em vários benchmarks padrão. Na classificação zero-shot do ImageNet, o MetaCLIP alcança 70,8% de precisão, superando os 68,3% do CLIP em modelos ViT-B. Escalonando para 1 bilhão de dados, mantendo o mesmo orçamento de treinamento, atinge 72,4%. Nossas observações se mantêm em vários tamanhos de modelo, exemplificado pelo ViT-H alcançando 80,5%, sem qualquer sofisticação adicional. O código de curadoria e a distribuição de dados de treinamento sobre metadados estão disponíveis em https://github.com/facebookresearch/MetaCLIP.

AutoCLIP: Ajuste Automático de Classificadores Zero-Shot para Modelos de Visão e Linguagem
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

Sep 28

ByJan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi

Classificadores construídos sobre modelos de visão e linguagem, como o CLIP, demonstraram desempenho notável em tarefas de classificação de imagens em cenários de zero-shot. Trabalhos anteriores exploraram diferentes maneiras de criar automaticamente conjuntos de descritores para cada classe com base em modelos de prompt, variando desde modelos manualmente projetados até modelos obtidos de um grande modelo de linguagem, e até modelos construídos a partir de palavras e caracteres aleatórios. Em contraste, a derivação de classificadores zero-shot a partir dos descritores de classe codificados permaneceu praticamente inalterada, ou seja: classificar para a classe que maximiza a similaridade de cosseno entre seus descritores de classe codificados e a imagem codificada. No entanto, ponderar todos os descritores de classe igualmente pode ser subótimo quando certos descritores correspondem melhor a pistas visuais em uma determinada imagem do que outros. Neste trabalho, propomos o AutoCLIP, um método para ajustar automaticamente classificadores zero-shot. O AutoCLIP atribui a cada modelo de prompt pesos por imagem, que são derivados de estatísticas de similaridades entre descritores de classe e imagem no momento da inferência. O AutoCLIP é totalmente não supervisionado, tem um custo computacional muito baixo e pode ser facilmente implementado em poucas linhas de código. Demonstramos que, para uma ampla gama de modelos de visão e linguagem, conjuntos de dados e modelos de prompt, o AutoCLIP supera as linhas de base de forma consistente e com ganhos de até 3 pontos percentuais de precisão.

MotionLM: Previsão de Movimento Multiagente como Modelagem de Linguagem
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Sep 28

ByAri Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp

A previsão confiável do comportamento futuro dos agentes na estrada é um componente crítico para o planejamento seguro em veículos autônomos. Aqui, representamos trajetórias contínuas como sequências de tokens discretos de movimento e transformamos a previsão de movimento multiagente em uma tarefa de modelagem de linguagem nesse domínio. Nosso modelo, MotionLM, oferece várias vantagens: Primeiro, ele não requer âncoras ou otimização explícita de variáveis latentes para aprender distribuições multimodais. Em vez disso, aproveitamos um único objetivo padrão de modelagem de linguagem, maximizando a probabilidade logarítmica média sobre os tokens da sequência. Segundo, nossa abordagem contorna heurísticas de interação pós-processo, onde a geração de trajetórias individuais dos agentes é realizada antes da pontuação interativa. Em vez disso, o MotionLM produz distribuições conjuntas sobre futuros interativos dos agentes em um único processo de decodificação autoregressivo. Além disso, a fatoração sequencial do modelo permite simulações condicionais temporalmente causais. A abordagem proposta estabelece um novo desempenho de ponta para a previsão de movimento multiagente no Waymo Open Motion Dataset, ocupando o 1º lugar no quadro de líderes do desafio interativo.

RealFill: Geração Orientada por Referência para Preenchimento Autêntico de Imagens
RealFill: Reference-Driven Generation for Authentic Image Completion

Sep 28

ByLuming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein

Avanços recentes em geração de imagens trouxeram modelos de outpaiting e inpainting que podem produzir conteúdo visual de alta qualidade e plausível em regiões desconhecidas, mas o conteúdo que esses modelos alucinam é necessariamente inautêntico, já que os modelos carecem de contexto suficiente sobre a cena real. Neste trabalho, propomos o RealFill, uma abordagem generativa inovadora para completar imagens que preenche regiões ausentes com o conteúdo que deveria estar lá. O RealFill é um modelo de inpainting generativo que é personalizado usando apenas algumas imagens de referência de uma cena. Essas imagens de referência não precisam estar alinhadas com a imagem-alvo e podem ser capturadas com pontos de vista, condições de iluminação, aberturas de câmera ou estilos de imagem drasticamente variados. Uma vez personalizado, o RealFill é capaz de completar uma imagem-alvo com conteúdos visualmente convincentes e fiéis à cena original. Avaliamos o RealFill em um novo benchmark de completamento de imagens que abrange um conjunto de cenários diversos e desafiadores, e constatamos que ele supera as abordagens existentes por uma grande margem. Veja mais resultados em nossa página do projeto: https://realfill.github.io.

GPT-Fathom: Avaliando Modelos de Linguagem de Grande Escala para Decifrar o Caminho Evolutivo em Direção ao GPT-4 e Além
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Sep 28

ByShen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang

Com o rápido avanço dos grandes modelos de linguagem (LLMs), há uma necessidade urgente de uma suíte de avaliação abrangente para medir suas capacidades e limitações. Os rankings existentes de LLMs frequentemente referenciam pontuações relatadas em outros artigos sem configurações e prompts consistentes, o que pode inadvertidamente incentivar a seleção de configurações e prompts favoritos para obter melhores resultados. Neste trabalho, apresentamos o GPT-Fathom, uma suíte de avaliação de LLMs de código aberto e reproduzível, construída sobre o OpenAI Evals. Avaliamos sistematicamente mais de 10 LLMs líderes, bem como modelos legados da OpenAI, em mais de 20 benchmarks cuidadosamente selecionados, abrangendo 7 categorias de capacidade, todos sob configurações alinhadas. Nosso estudo retrospectivo sobre os modelos anteriores da OpenAI oferece insights valiosos sobre o caminho evolutivo do GPT-3 ao GPT-4. Atualmente, a comunidade está ansiosa para entender como o GPT-3 progrediu para o GPT-4, incluindo detalhes técnicos como se a adição de dados de código melhora a capacidade de raciocínio dos LLMs, quais aspectos da capacidade dos LLMs podem ser aprimorados por SFT e RLHF, qual é o custo do alinhamento, entre outros. Nossa análise esclarece muitas dessas questões, visando melhorar a transparência dos LLMs avançados.

Geração Diversificada e Alinhada de Áudio para Vídeo por meio de Adaptação de Modelos de Texto para Vídeo
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Sep 28

ByGuy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi

Consideramos a tarefa de gerar vídeos diversos e realistas guiados por amostras de áudio natural de uma ampla variedade de classes semânticas. Para essa tarefa, os vídeos precisam estar alinhados tanto globalmente quanto temporalmente com o áudio de entrada: globalmente, o áudio de entrada está semanticamente associado ao vídeo de saída como um todo, e temporalmente, cada segmento do áudio de entrada está associado a um segmento correspondente do vídeo. Utilizamos um modelo existente de geração de vídeo condicionado por texto e um modelo de codificação de áudio pré-treinado. O método proposto é baseado em uma rede adaptadora leve, que aprende a mapear a representação baseada em áudio para a representação de entrada esperada pelo modelo de geração de texto para vídeo. Dessa forma, ele também permite a geração de vídeos condicionados por texto, áudio e, pela primeira vez, tanto por texto quanto por áudio, até onde sabemos. Validamos nosso método extensivamente em três conjuntos de dados que demonstram uma diversidade semântica significativa de amostras de áudio-vídeo e propomos ainda uma nova métrica de avaliação (AV-Align) para avaliar o alinhamento dos vídeos gerados com as amostras de áudio de entrada. O AV-Align é baseado na detecção e comparação de picos de energia em ambas as modalidades. Em comparação com as abordagens mais recentes do estado da arte, nosso método gera vídeos que estão melhor alinhados com o som de entrada, tanto em relação ao conteúdo quanto ao eixo temporal. Também mostramos que os vídeos produzidos pelo nosso método apresentam maior qualidade visual e são mais diversos.

ConceptGraphs: Grafos de Cena 3D de Vocabulário Aberto para Percepção e Planejamento
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Sep 28

ByQiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull

Para que os robôs realizem uma ampla variedade de tarefas, eles precisam de uma representação 3D do mundo que seja semanticamente rica, mas compacta e eficiente para percepção e planejamento orientados por tarefas. Abordagens recentes tentaram aproveitar recursos de grandes modelos de visão e linguagem para codificar semântica em representações 3D. No entanto, essas abordagens tendem a produzir mapas com vetores de características por ponto, que não escalam bem em ambientes maiores, nem contêm relações espaciais semânticas entre entidades no ambiente, que são úteis para o planejamento subsequente. Neste trabalho, propomos o ConceptGraphs, uma representação estruturada em grafos de vocabulário aberto para cenas 3D. O ConceptGraphs é construído aproveitando modelos fundamentais 2D e fundindo sua saída em 3D por meio de associação multi-visão. As representações resultantes generalizam para novas classes semânticas, sem a necessidade de coletar grandes conjuntos de dados 3D ou ajustar modelos. Demonstramos a utilidade dessa representação por meio de várias tarefas de planejamento subsequente que são especificadas por prompts abstratos (linguagem) e exigem raciocínio complexo sobre conceitos espaciais e semânticos. (Página do projeto: https://concept-graphs.github.io/ Vídeo explicativo: https://youtu.be/mRhNkQwRYnc)

Modelos de linguagem na descoberta molecular
Language models in molecular discovery

Sep 28

ByNikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born

O sucesso dos modelos de linguagem, especialmente das arquiteturas baseadas em transformers, expandiu-se para outros domínios, dando origem aos "modelos de linguagem científica" que operam em moléculas pequenas, proteínas ou polímeros. Na química, os modelos de linguagem contribuem para acelerar o ciclo de descoberta de moléculas, como evidenciado por descobertas recentes promissoras no estágio inicial da descoberta de fármacos. Aqui, revisamos o papel dos modelos de linguagem na descoberta molecular, destacando sua força no design de novo de fármacos, na previsão de propriedades e na química de reações. Destacamos valiosos recursos de software de código aberto, reduzindo assim a barreira de entrada no campo da modelagem de linguagem científica. Por fim, esboçamos uma visão para o futuro do design molecular que combina uma interface de chatbot com acesso a ferramentas de química computacional. Nossa contribuição serve como um recurso valioso para pesquisadores, químicos e entusiastas de IA interessados em entender como os modelos de linguagem podem e serão usados para acelerar a descoberta química.

CCEdit: Edição Criativa e Controlável de Vídeos por meio de Modelos de Difusão
CCEdit: Creative and Controllable Video Editing via Diffusion Models

Sep 28

ByRuoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo

Neste trabalho, apresentamos o CCEdit, uma estrutura versátil projetada para enfrentar os desafios da edição de vídeo criativa e controlável. O CCEdit acomoda uma ampla gama de requisitos de edição do usuário e permite um controle criativo aprimorado por meio de uma abordagem inovadora que desacopla a estrutura e a aparência do vídeo. Aproveitamos a arquitetura fundamental do ControlNet para preservar a integridade estrutural, ao mesmo tempo em que integramos de forma contínua módulos temporais adaptáveis compatíveis com técnicas de personalização de última geração para geração de texto em imagem, como DreamBooth e LoRA. Além disso, introduzimos a edição de vídeo condicionada por referência, capacitando os usuários a exercer um controle criativo preciso sobre a edição de vídeo por meio do processo mais gerenciável de edição de quadros-chave. Nossas extensivas avaliações experimentais confirmam a funcionalidade excepcional e as capacidades de edição da estrutura CCEdit proposta. O vídeo de demonstração está disponível em https://www.youtube.com/watch?v=UQw4jq-igN4.

Escalonamento Eficiente de Contexto Longo em Modelos de Base
Effective Long-Context Scaling of Foundation Models

Sep 27