Artigos de pesquisa em IA selecionados diariamente com traduções
A integração e implantação de agentes inteligentes baseados em grandes modelos de linguagem (LLMs) têm sido repletas de desafios que comprometem sua eficiência e eficácia. Entre esses problemas estão o agendamento e a alocação de recursos subótimos para as solicitações dos agentes no LLM, as dificuldades em manter o contexto durante as interações entre o agente e o LLM, e as complexidades inerentes à integração de agentes heterogêneos com diferentes capacidades e especializações. O rápido aumento na quantidade e complexidade dos agentes agrava ainda mais esses problemas, frequentemente levando a gargalos e à utilização subótima dos recursos. Inspirados por esses desafios, este artigo apresenta o AIOS, um sistema operacional para agentes LLM, que integra grandes modelos de linguagem em sistemas operacionais (OS). Especificamente, o AIOS foi projetado para otimizar a alocação de recursos, facilitar a troca de contexto entre agentes, permitir a execução concorrente de agentes, fornecer serviços de ferramentas para agentes e manter o controle de acesso para agentes. Apresentamos a arquitetura desse sistema operacional, delineamos os principais desafios que ele visa resolver e fornecemos o design básico e a implementação do AIOS. Nossos experimentos na execução concorrente de múltiplos agentes demonstram a confiabilidade e eficiência dos módulos do AIOS. Com isso, buscamos não apenas melhorar o desempenho e a eficiência dos agentes LLM, mas também pioneirar um melhor desenvolvimento e implantação do ecossistema AIOS no futuro. O projeto é de código aberto em https://github.com/agiresearch/AIOS.
Modelos de difusão de texto para imagem possuem uma capacidade sem precedentes de gerar imagens diversas e de alta qualidade. No entanto, eles frequentemente têm dificuldade em capturar fielmente a semântica pretendida de prompts complexos que incluem múltiplos sujeitos. Recentemente, diversas extensões de layout para imagem foram introduzidas para melhorar o controle do usuário, visando localizar sujeitos representados por tokens específicos. No entanto, esses métodos frequentemente produzem imagens semanticamente imprecisas, especialmente ao lidar com múltiplos sujeitos semanticamente ou visualmente semelhantes. Neste trabalho, estudamos e analisamos as causas dessas limitações. Nossa exploração revela que o principal problema decorre de vazamento semântico inadvertido entre sujeitos no processo de remoção de ruído. Esse vazamento é atribuído às camadas de atenção do modelo de difusão, que tendem a misturar as características visuais de diferentes sujeitos. Para abordar esses problemas, introduzimos a Atenção Delimitada (Bounded Attention), um método livre de treinamento para limitar o fluxo de informação no processo de amostragem. A Atenção Delimitada previne vazamentos prejudiciais entre sujeitos e permite guiar a geração para promover a individualidade de cada sujeito, mesmo com condicionamento complexo de múltiplos sujeitos. Por meio de experimentação extensiva, demonstramos que nosso método capacita a geração de múltiplos sujeitos que se alinham melhor com os prompts e layouts fornecidos.
Este trabalho apresenta o FlashFace, uma ferramenta prática com a qual os usuários podem personalizar facilmente suas próprias fotos em tempo real, fornecendo uma ou algumas imagens de referência de rosto e um prompt de texto. Nossa abordagem se distingue dos métodos existentes de personalização de fotos humanas por uma preservação de identidade de maior fidelidade e um melhor seguimento de instruções, beneficiando-se de dois designs sutis. Primeiro, codificamos a identidade facial em uma série de mapas de características, em vez de um único token de imagem como nas técnicas anteriores, permitindo que o modelo retenha mais detalhes dos rostos de referência (por exemplo, cicatrizes, tatuagens e formato do rosto). Segundo, introduzimos uma estratégia de integração desacoplada para equilibrar a orientação de texto e imagem durante o processo de geração de texto para imagem, aliviando o conflito entre os rostos de referência e os prompts de texto (por exemplo, personalizar um adulto em uma "criança" ou um "idoso"). Resultados experimentais extensivos demonstram a eficácia do nosso método em várias aplicações, incluindo personalização de imagens humanas, troca de rostos sob prompts de linguagem, transformação de personagens virtuais em pessoas reais, etc. Página do Projeto: https://jshilong.github.io/flashface-page.
Os recentes avanços nos modelos de difusão os posicionaram na vanguarda da geração de imagens. Apesar de seu desempenho superior, os modelos de difusão não estão isentos de desvantagens; eles são caracterizados por arquiteturas complexas e demandas computacionais substanciais, resultando em latência significativa devido ao seu processo de amostragem iterativo. Para mitigar essas limitações, introduzimos uma abordagem dupla que envolve a miniaturização do modelo e a redução de etapas de amostragem, visando diminuir consideravelmente a latência do modelo. Nossa metodologia aproveita a destilação de conhecimento para simplificar as arquiteturas U-Net e do decodificador de imagens, e introduz uma técnica inovadora de treinamento de DM em uma única etapa que utiliza correspondência de características e destilação de pontuação. Apresentamos dois modelos, SDXS-512 e SDXS-1024, alcançando velocidades de inferência de aproximadamente 100 FPS (30x mais rápido que o SD v1.5) e 30 FPS (60x mais rápido que o SDXL) em uma única GPU, respectivamente. Além disso, nossa abordagem de treinamento oferece aplicações promissoras no controle condicionado por imagem, facilitando a tradução eficiente de imagem para imagem.
A compressão de modelos de linguagem de grande capacidade (LLMs, na sigla em inglês) surgiu como uma estratégia preferida para inferências eficientes em termos de recursos. Embora os métodos de compressão state-of-the-art (SoTA) apresentem avanços impressionantes na preservação do desempenho em tarefas benignas, os riscos potenciais da compressão em termos de segurança e confiabilidade têm sido amplamente negligenciados. Este estudo realiza a primeira avaliação detalhada de três (3) LLMs líderes utilizando cinco (5) técnicas de compressão SoTA em oito (8) dimensões de confiabilidade. Nossos experimentos destacam a complexa interação entre compressão e confiabilidade, revelando alguns padrões interessantes. Descobrimos que a quantização é atualmente uma abordagem mais eficaz do que o pruning para alcançar simultaneamente eficiência e confiabilidade. Por exemplo, um modelo quantizado em 4 bits mantém a confiabilidade de sua contraparte original, mas o pruning do modelo degrada significativamente a confiabilidade, mesmo com 50% de esparsidade. Além disso, a aplicação de quantização dentro de uma faixa moderada de bits pode, surpreendentemente, melhorar certas dimensões de confiabilidade, como ética e justiça. Por outro lado, a quantização extrema para níveis muito baixos de bits (3 bits) tende a reduzir significativamente a confiabilidade. Esse risco aumentado não pode ser descoberto apenas observando o desempenho benigno, o que, por sua vez, exige uma avaliação abrangente da confiabilidade na prática. Essas descobertas culminam em recomendações práticas para alcançar simultaneamente alta utilidade, eficiência e confiabilidade em LLMs. Modelos e código estão disponíveis em https://decoding-comp-trust.github.io/.
Apresentamos o RakutenAI-7B, uma suíte de modelos de linguagem de grande escala orientados para o japonês que alcançam o melhor desempenho nos benchmarks Japanese LM Harness entre os modelos abertos de 7B. Juntamente com o modelo base, lançamos modelos ajustados para instruções e conversação, respectivamente RakutenAI-7B-instruct e RakutenAI-7B-chat, sob a licença Apache 2.0.
Avanços recentes na geração de texto para vídeo têm demonstrado a utilidade de modelos de difusão poderosos. No entanto, o problema não é trivial ao adaptar modelos de difusão para animar imagens estáticas (ou seja, geração de imagem para vídeo). A dificuldade surge do fato de que o processo de difusão dos quadros animados subsequentes não deve apenas preservar o alinhamento fiel com a imagem fornecida, mas também buscar coerência temporal entre quadros adjacentes. Para mitigar isso, apresentamos o TRIP, uma nova abordagem para o paradigma de difusão de imagem para vídeo que se baseia em um ruído de imagem derivado da imagem estática para desencadear conjuntamente o raciocínio relacional entre quadros e facilitar a modelagem temporal coerente por meio de aprendizado residual temporal. Tecnicamente, o ruído de imagem é primeiro obtido através de um processo de difusão reversa em um passo, baseado tanto na imagem estática quanto nos códigos latentes do vídeo ruidoso. Em seguida, o TRIP executa um esquema de caminho duplo residual para a previsão de ruído: 1) um caminho direto que utiliza o ruído de imagem como referência de ruído para cada quadro, amplificando o alinhamento entre o primeiro quadro e os quadros subsequentes; 2) um caminho residual que emprega uma 3D-UNet sobre os códigos latentes do vídeo ruidoso e da imagem estática, permitindo o raciocínio relacional entre quadros e, assim, facilitando o aprendizado do ruído residual para cada quadro. Além disso, tanto o ruído de referência quanto o residual de cada quadro são dinamicamente combinados por meio de um mecanismo de atenção para a geração final do vídeo. Experimentos extensivos nos conjuntos de dados WebVid-10M, DTDB e MSR-VTT demonstram a eficácia do nosso TRIP para geração de imagem para vídeo. Consulte nossa página do projeto em https://trip-i2v.github.io/TRIP/.
Inovações recentes na geração de texto para 3D apresentaram o Score Distillation Sampling (SDS), que permite o aprendizado zero-shot de modelos 3D implícitos (NeRF) ao destilar diretamente conhecimento prévio de modelos de difusão 2D. No entanto, os modelos baseados em SDS atuais ainda enfrentam dificuldades com prompts de texto complexos e frequentemente resultam em modelos 3D distorcidos, com texturas irreais ou problemas de inconsistência entre diferentes visões. Neste trabalho, introduzimos um novo modelo de difusão texto-para-3D guiado por Prompt Visual (VP3D) que libera explicitamente o conhecimento de aparência visual em prompts visuais 2D para impulsionar a geração texto-para-3D. Em vez de supervisionar o SDS apenas com o prompt de texto, o VP3D primeiro utiliza um modelo de difusão 2D para gerar uma imagem de alta qualidade a partir do texto de entrada, que subsequentemente atua como prompt visual para fortalecer a otimização do SDS com aparência visual explícita. Paralelamente, acoplamos a otimização do SDS com uma função de recompensa diferenciável adicional que incentiva as imagens renderizadas dos modelos 3D a se alinharem visualmente melhor com o prompt visual 2D e a corresponderem semanticamente com o prompt de texto. Através de extensos experimentos, mostramos que o Prompt Visual 2D em nosso VP3D facilita significativamente o aprendizado da aparência visual dos modelos 3D, levando assim a uma maior fidelidade visual com texturas mais detalhadas. Também é interessante observar que, ao substituir o prompt visual auto-gerado por uma imagem de referência fornecida, o VP3D é capaz de desencadear uma nova tarefa de geração texto-para-3D estilizada. Nossa página do projeto está disponível em https://vp3d-cvpr24.github.io.