Artigos de pesquisa em IA selecionados diariamente com traduções
A edição de imagens envolve uma variedade de tarefas complexas e requer técnicas de manipulação eficientes e precisas. Neste artigo, apresentamos o MagicQuill, um sistema integrado de edição de imagens que permite a rápida concretização de ideias criativas. Nosso sistema apresenta uma interface simplificada, porém robusta em funcionalidades, permitindo a articulação de operações de edição (por exemplo, inserção de elementos, apagamento de objetos, alteração de cor) com entrada mínima. Essas interações são monitoradas por um modelo de linguagem multimodal grande (MLLM) para antecipar intenções de edição em tempo real, evitando a necessidade de entrada explícita de comandos. Por fim, aplicamos um poderoso prévio de difusão, aprimorado por um módulo plug-in de dois ramos cuidadosamente aprendido, para processar solicitações de edição com controle preciso. Resultados experimentais demonstram a eficácia do MagicQuill em alcançar edições de imagens de alta qualidade. Visite https://magic-quill.github.io para experimentar nosso sistema.
Este trabalho explora a expansão das capacidades de grandes modelos de linguagem (LLMs) pré-treinados em texto para gerar malhas 3D dentro de um modelo unificado. Isso oferece vantagens-chave de (1) alavancar o conhecimento espacial já incorporado nos LLMs, derivado de fontes textuais como tutoriais 3D, e (2) possibilitar a geração conversacional 3D e compreensão de malhas. Um desafio principal é tokenizar efetivamente os dados de malha 3D em tokens discretos que os LLMs possam processar de forma contínua. Para lidar com isso, introduzimos o LLaMA-Mesh, uma abordagem inovadora que representa as coordenadas dos vértices e as definições das faces das malhas 3D como texto simples, permitindo a integração direta com os LLMs sem expandir o vocabulário. Construímos um conjunto de dados de ajuste fino supervisionado (SFT) que permite aos LLMs pré-treinados (1) gerar malhas 3D a partir de prompts de texto, (2) produzir saídas de texto e malha 3D entrelaçadas conforme necessário e (3) entender e interpretar malhas 3D. Nosso trabalho é o primeiro a demonstrar que os LLMs podem ser ajustados finamente para adquirir conhecimento espacial complexo para geração de malhas 3D em um formato baseado em texto, unificando efetivamente as modalidades 3D e texto. O LLaMA-Mesh alcança qualidade de geração de malha em pé de igualdade com modelos treinados do zero, mantendo um desempenho sólido na geração de texto.
À medida que os modelos de linguagem crescem cada vez mais, também crescem seus vocabulários. Isso tem deslocado de forma desproporcional a pegada de memória dos LLMs durante o treinamento para uma única camada: a entropia cruzada no cálculo da perda. A entropia cruzada constrói uma matriz de logit com entradas para cada par de tokens de entrada e itens de vocabulário e, para modelos pequenos, consome uma ordem de magnitude mais memória do que o restante do LLM combinado. Propomos o Corte da Entropia Cruzada (CCE), um método que calcula a perda de entropia cruzada sem materializar os logit para todos os tokens na memória global. Em vez disso, o CCE calcula apenas o logit para o token correto e avalia a log-sum-exp sobre todos os logit dinamicamente. Implementamos um kernel personalizado que realiza as multiplicações de matriz e a redução de log-sum-exp sobre o vocabulário na memória flash, tornando o consumo de memória global para o cálculo da entropia cruzada negligenciável. Isso tem um efeito dramático. Tomando o modelo Gemma 2 (2B) como exemplo, o CCE reduz a pegada de memória do cálculo da perda de 24 GB para 1 MB, e o consumo total de memória durante o tempo de treinamento da cabeça classificadora de 28 GB para 1 GB. Para melhorar o rendimento do CCE, aproveitamos a esparsidade inerente do softmax e propomos pular elementos do cálculo do gradiente que têm uma contribuição negligenciável (ou seja, abaixo da precisão numérica) para o gradiente. Experimentos demonstram que a redução dramática no consumo de memória é alcançada sem sacrificar a velocidade ou a convergência do treinamento.
Grandes Modelos de Linguagem (LLMs) têm grande potencial para revolucionar os sistemas clínicos atuais devido às suas capacidades superiores em tarefas de processamento de texto médico e exames de licenciamento médico. Enquanto isso, modelos tradicionais de ML como SVM e XGBoost ainda são principalmente adotados em tarefas de predição clínica. Uma questão emergente é: Os LLMs podem superar os modelos tradicionais de ML na predição clínica? Portanto, construímos um novo benchmark, o ClinicalBench, para estudar abrangentemente as capacidades de modelagem preditiva clínica tanto de LLMs de uso geral quanto médicos, e compará-los com modelos tradicionais de ML. O ClinicalBench abrange três tarefas comuns de predição clínica, duas bases de dados, 14 LLMs de uso geral, 8 LLMs médicos e 11 modelos tradicionais de ML. Através de uma extensa investigação empírica, descobrimos que tanto os LLMs de uso geral quanto os médicos, mesmo com escalas de modelo diferentes, estratégias diversas de prompt ou ajuste fino, ainda não conseguem superar os modelos tradicionais de ML na predição clínica, lançando luz sobre suas potenciais deficiências em raciocínio clínico e tomada de decisão. Chamamos a atenção para a cautela quando os profissionais adotam LLMs em aplicações clínicas. O ClinicalBench pode ser utilizado para preencher a lacuna entre o desenvolvimento de LLMs para a área da saúde e a prática clínica do mundo real.
As gravações de vídeo das atividades do usuário, particularmente as gravações de desktop, oferecem uma rica fonte de dados para compreender os comportamentos do usuário e automatizar processos. No entanto, apesar dos avanços em Modelos de Visão e Linguagem (VLMs) e de seu uso crescente na análise de vídeo, a extração de ações do usuário a partir de gravações de desktop ainda é uma área pouco explorada. Este artigo aborda essa lacuna ao propor dois métodos inovadores baseados em VLM para extração de ações do usuário: a Abordagem Direta Baseada em Frames (DF), que insere frames amostrados diretamente nos VLMs, e a Abordagem Baseada em Frames Diferenciais (DiffF), que incorpora diferenças explícitas de frames detectadas por meio de técnicas de visão computacional. Avaliamos esses métodos usando um conjunto de dados básico auto-curado e um benchmark avançado adaptado de trabalhos anteriores. Nossos resultados mostram que a abordagem DF alcança uma precisão de 70% a 80% na identificação de ações do usuário, com as sequências de ações extraídas sendo reproduzíveis por meio da Automação de Processos Robóticos. Descobrimos que, embora os VLMs mostrem potencial, a incorporação de mudanças explícitas na interface do usuário pode degradar o desempenho, tornando a abordagem DF mais confiável. Este trabalho representa a primeira aplicação de VLMs para extrair sequências de ações do usuário a partir de gravações de desktop, contribuindo com novos métodos, benchmarks e insights para pesquisas futuras.
Embora os modelos de difusão possam gerar amostras de alta qualidade de forma notável, eles são intrinsecamente limitados pelo seu procedimento de amostragem iterativo caro. Os modelos de consistência (CMs) surgiram recentemente como um método promissor de destilação de modelos de difusão, reduzindo o custo da amostragem ao gerar amostras de alta fidelidade em apenas algumas iterações. A destilação de modelos de consistência visa resolver a equação diferencial ordinária (ODE) de fluxo de probabilidade definida por um modelo de difusão existente. Os CMs não são diretamente treinados para minimizar o erro em relação a um solucionador de ODE, mas sim utilizam um objetivo mais computacionalmente viável. Como forma de estudar quão eficazmente os CMs resolvem a ODE de fluxo de probabilidade e o efeito que qualquer erro induzido tem na qualidade das amostras geradas, introduzimos os CMs Diretos, que minimizam diretamente esse erro. Curiosamente, observamos que os CMs Diretos reduzem o erro de resolução da ODE em comparação com os CMs, mas também resultam em uma qualidade de amostra significativamente pior, questionando exatamente por que os CMs funcionam bem em primeiro lugar. O código completo está disponível em: https://github.com/layer6ai-labs/direct-cms.
A busca pela automação das operações de redes celulares tem crescido com a crescente complexidade desses sistemas. Apesar dos avanços, a plena autonomia atualmente ainda está fora de alcance devido à dependência da intervenção humana para modelar comportamentos de rede e definir políticas para atender aos requisitos alvo. Os Gêmeos Digitais de Rede (NDTs) têm mostrado promessa em aprimorar a inteligência de rede, mas a implementação bem-sucedida dessa tecnologia é limitada por arquiteturas específicas de casos de uso, restringindo seu papel no avanço da autonomia de rede. Uma inteligência de rede mais capaz, ou "cérebro de telecomunicações", é necessária para permitir a gestão autônoma e contínua de redes celulares. Os Grandes Modelos de Linguagem (LLMs) surgiram como potenciais facilitadores para essa visão, mas enfrentam desafios na modelagem de redes, especialmente no raciocínio e na manipulação de diversos tipos de dados. Para abordar essas lacunas, apresentamos o Hermes, uma cadeia de agentes LLM que utiliza "blueprints" para construir instâncias de NDT por meio de etapas lógicas estruturadas e explicáveis. O Hermes permite a modelagem automática, confiável e precisa de redes de diversos casos de uso e configurações, marcando assim um progresso em direção às operações de rede totalmente autônomas.