Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o phi-3-mini, um modelo de linguagem com 3,8 bilhões de parâmetros treinado em 3,3 trilhões de tokens, cujo desempenho geral, medido tanto por benchmarks acadêmicos quanto por testes internos, rivaliza com modelos como Mixtral 8x7B e GPT-3.5 (por exemplo, o phi-3-mini alcança 69% no MMLU e 8,38 no MT-bench), apesar de ser pequeno o suficiente para ser implantado em um telefone. A inovação reside inteiramente em nosso conjunto de dados para treinamento, uma versão ampliada daquela usada para o phi-2, composta por dados da web altamente filtrados e dados sintéticos. O modelo também foi ainda mais alinhado para robustez, segurança e formato de chat. Também fornecemos alguns resultados iniciais de escalonamento de parâmetros com modelos de 7B e 14B treinados em 4,8T tokens, chamados phi-3-small e phi-3-medium, ambos significativamente mais capazes que o phi-3-mini (por exemplo, respectivamente 75% e 78% no MMLU, e 8,7 e 8,9 no MT-bench).
A família LLaMA da Meta tornou-se uma das séries de modelos de linguagem de grande escala (LLM) de código aberto mais poderosas. Notavelmente, os modelos LLaMA3 foram recentemente lançados e alcançam desempenho impressionante em várias tarefas, graças ao pré-treinamento em escala super-grande com mais de 15 trilhões de tokens de dados. Dada a ampla aplicação da quantização de baixo bit para LLMs em cenários com recursos limitados, exploramos as capacidades do LLaMA3 quando quantizado para larguras de bit reduzidas. Essa exploração tem o potencial de revelar novos insights e desafios para a quantização de baixo bit do LLaMA3 e de outros LLMs futuros, especialmente no enfrentamento de problemas de degradação de desempenho que ocorrem na compressão de LLMs. Especificamente, avaliamos os 10 métodos existentes de quantização pós-treinamento e ajuste fino com LoRA do LLaMA3 em 1-8 bits e diversos conjuntos de dados para revelar de forma abrangente o desempenho de quantização de baixo bit do LLaMA3. Nossos resultados experimentais indicam que o LLaMA3 ainda sofre degradação não negligenciável nesses cenários, especialmente em larguras de bit ultrabaixas. Isso destaca a significativa lacuna de desempenho em baixas larguras de bit que precisa ser superada em desenvolvimentos futuros. Esperamos que este estudo empírico se mostre valioso no avanço de modelos futuros, levando os LLMs a operar com larguras de bit mais baixas e maior precisão para se tornarem práticos. Nosso projeto está disponível em https://github.com/Macaronlin/LLaMA3-Quantization, e os modelos quantizados do LLaMA3 estão disponíveis em https://huggingface.co/LLMQ.
Os LLMs atuais são suscetíveis a injeções de prompt, jailbreaks e outros ataques que permitem que adversários substituam as instruções originais de um modelo por seus próprios prompts maliciosos. Neste trabalho, argumentamos que uma das principais vulnerabilidades subjacentes a esses ataques é que os LLMs frequentemente consideram os prompts do sistema (por exemplo, texto de um desenvolvedor de aplicativos) com a mesma prioridade que o texto de usuários não confiáveis e terceiros. Para resolver isso, propomos uma hierarquia de instruções que define explicitamente como os modelos devem se comportar quando instruções de diferentes prioridades entram em conflito. Em seguida, propomos um método de geração de dados para demonstrar esse comportamento de seguimento hierárquico de instruções, que ensina os LLMs a ignorar seletivamente instruções de menor privilégio. Aplicamos esse método ao GPT-3.5, mostrando que ele aumenta drasticamente a robustez — mesmo para tipos de ataques não vistos durante o treinamento — enquanto impõe degradações mínimas nas capacidades padrão.
O campo em rápida evolução da Automação de Processos Robóticos (RPA) tem feito avanços significativos na automação de processos repetitivos, mas sua eficácia diminui em cenários que exigem tarefas espontâneas ou imprevisíveis demandadas pelos usuários. Este artigo apresenta uma nova abordagem, o FlowMind, que aproveita as capacidades dos Modelos de Linguagem de Grande Escala (LLMs), como o Generative Pretrained Transformer (GPT), para superar essa limitação e criar um sistema de geração automática de fluxos de trabalho. No FlowMind, propomos uma receita genérica de prompt para uma "aula" que ajuda a fundamentar o raciocínio dos LLMs com APIs (Interfaces de Programação de Aplicativos) confiáveis. Com isso, o FlowMind não apenas mitiga o problema comum de alucinações nos LLMs, mas também elimina a interação direta entre os LLMs e dados ou códigos proprietários, garantindo assim a integridade e confidencialidade das informações — um pilar fundamental nos serviços financeiros. O FlowMind simplifica ainda mais a interação do usuário ao apresentar descrições de alto nível dos fluxos de trabalho gerados automaticamente, permitindo que os usuários inspecionem e forneçam feedback de forma eficaz. Também introduzimos o NCEN-QA, um novo conjunto de dados no setor financeiro para avaliar tarefas de questionamento e resposta a partir de relatórios N-CEN sobre fundos. Utilizamos o NCEN-QA para avaliar o desempenho dos fluxos de trabalho gerados pelo FlowMind em comparação com variantes de linha de base e de ablação do FlowMind. Demonstramos o sucesso do FlowMind, a importância de cada componente na receita de aula proposta e a eficácia da interação e feedback do usuário no FlowMind.
Recentemente, surgiu uma série de algoritmos de destilação conscientes da difusão para aliviar a sobrecarga computacional associada ao processo de inferência em múltiplos passos dos Modelos de Difusão (DMs). As técnicas atuais de destilação frequentemente se dividem em dois aspectos distintos: i) Preservação da Trajetória ODE; e ii) Reformulação da Trajetória ODE. No entanto, essas abordagens sofrem com degradação severa de desempenho ou mudanças de domínio. Para abordar essas limitações, propomos o Hyper-SD, uma nova estrutura que sinergicamente combina as vantagens da Preservação e Reformulação da Trajetória ODE, mantendo um desempenho quase sem perdas durante a compressão de passos. Primeiramente, introduzimos a Destilação de Consistência Segmentada por Trajetória para realizar progressivamente a destilação consistente dentro de segmentos de passos de tempo pré-definidos, o que facilita a preservação da trajetória ODE original a partir de uma perspectiva de ordem superior. Em segundo lugar, incorporamos o aprendizado com feedback humano para impulsionar o desempenho do modelo em um regime de baixo número de passos e mitigar a perda de desempenho causada pelo processo de destilação. Em terceiro lugar, integramos a destilação de pontuação para melhorar ainda mais a capacidade de geração do modelo em baixo número de passos e oferecemos a primeira tentativa de aproveitar um LoRA unificado para suportar o processo de inferência em todos os passos. Experimentos extensivos e estudos com usuários demonstram que o Hyper-SD alcança desempenho SOTA de 1 a 8 passos de inferência tanto para SDXL quanto para SD1.5. Por exemplo, o Hyper-SDXL supera o SDXL-Lightning em +0,68 no CLIP Score e +0,51 no Aes Score na inferência de 1 passo.
Este artigo descreve o MAIA, um Agente de Interpretabilidade Automatizada Multimodal. O MAIA é um sistema que utiliza modelos neurais para automatizar tarefas de compreensão de modelos neurais, como interpretação de características e descoberta de modos de falha. Ele equipa um modelo de visão e linguagem pré-treinado com um conjunto de ferramentas que suportam experimentação iterativa em subcomponentes de outros modelos para explicar seu comportamento. Essas incluem ferramentas comumente usadas por pesquisadores de interpretabilidade humana: para sintetizar e editar entradas, calcular exemplares de máxima ativação a partir de conjuntos de dados do mundo real, e resumir e descrever resultados experimentais. Experimentos de interpretabilidade propostos pelo MAIA combinam essas ferramentas para descrever e explicar o comportamento do sistema. Avaliamos aplicações do MAIA em modelos de visão computacional. Primeiro, caracterizamos a capacidade do MAIA de descrever características (em nível de neurônio) em representações aprendidas de imagens. Em vários modelos treinados e um novo conjunto de dados de neurônios visuais sintéticos com descrições de verdade fundamental pareadas, o MAIA produz descrições comparáveis às geradas por experimentadores humanos especialistas. Em seguida, mostramos que o MAIA pode auxiliar em duas tarefas adicionais de interpretabilidade: reduzir a sensibilidade a características espúrias e identificar automaticamente entradas com maior probabilidade de serem mal classificadas.
A rápida evolução dos modelos de base multimodal tem demonstrado progressos significativos na compreensão e geração de visão e linguagem, por exemplo, nosso trabalho anterior SEED-LLaMA. No entanto, ainda existe uma lacuna entre sua capacidade e a aplicabilidade no mundo real, principalmente devido à capacidade limitada do modelo de responder efetivamente a diversas instruções dos usuários e interagir com dados visuais variados. Neste trabalho, focamos em preencher essa lacuna através da integração de dois recursos aprimorados: (1) compreensão de imagens de tamanhos e proporções arbitrárias, e (2) geração de imagens em múltiplas granularidades. Apresentamos um modelo de base unificado e versátil, denominado SEED-X, que é capaz de modelar semânticas visuais em múltiplas granularidades para tarefas de compreensão e geração. Além dos resultados competitivos em benchmarks públicos, o SEED-X demonstra sua eficácia no tratamento de aplicações do mundo real em diversos domínios após o ajuste por instrução. Esperamos que nosso trabalho inspire pesquisas futuras sobre o que pode ser alcançado por modelos de base multimodal versáteis em aplicações do mundo real. Os modelos, códigos e conjuntos de dados serão disponibilizados em https://github.com/AILab-CVC/SEED-X.
Os modelos de consistência têm demonstrado capacidades notáveis em facilitar a geração eficiente de imagens/vídeos, permitindo a síntese com um número mínimo de etapas de amostragem. Eles se mostraram vantajosos na mitigação das cargas computacionais associadas aos modelos de difusão. No entanto, a aplicação de modelos de consistência na geração de música permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos os Modelos de Consistência Musical (MusicCM), que aproveitam o conceito de modelos de consistência para sintetizar eficientemente mel-espectrogramas para clipes de música, mantendo alta qualidade enquanto minimizam o número de etapas de amostragem. Baseando-se em modelos de difusão de texto para música existentes, o modelo MusicCM incorpora destilação de consistência e treinamento discriminador adversário. Além disso, consideramos benéfico gerar música coesa e estendida ao incorporar múltiplos processos de difusão com restrições compartilhadas. Os resultados experimentais revelam a eficácia do nosso modelo em termos de eficiência computacional, fidelidade e naturalidade. Notavelmente, o MusicCM alcança síntese musical contínua com apenas quatro etapas de amostragem, por exemplo, apenas um segundo por minuto do clipe musical, demonstrando o potencial para aplicação em tempo real.
Este artigo apresenta o MultiBooth, uma técnica nova e eficiente para personalização de múltiplos conceitos na geração de imagens a partir de texto. Apesar dos avanços significativos nos métodos de geração personalizada, especialmente com o sucesso dos modelos de difusão, os métodos existentes frequentemente enfrentam dificuldades em cenários de múltiplos conceitos devido à baixa fidelidade conceitual e ao alto custo de inferência. O MultiBooth aborda esses problemas dividindo o processo de geração de múltiplos conceitos em duas fases: uma fase de aprendizado de conceito único e uma fase de integração de múltiplos conceitos. Durante a fase de aprendizado de conceito único, empregamos um codificador de imagem multimodal e uma técnica eficiente de codificação de conceitos para aprender uma representação concisa e discriminativa para cada conceito. Na fase de integração de múltiplos conceitos, utilizamos caixas delimitadoras para definir a área de geração de cada conceito dentro do mapa de atenção cruzada. Esse método permite a criação de conceitos individuais dentro de suas regiões especificadas, facilitando assim a formação de imagens com múltiplos conceitos. Essa estratégia não apenas melhora a fidelidade conceitual, mas também reduz o custo adicional de inferência. O MultiBooth supera várias linhas de base em avaliações qualitativas e quantitativas, demonstrando seu desempenho superior e eficiência computacional. Página do Projeto: https://multibooth.github.io/
A locomoção estável em ambientes íngremes é uma capacidade essencial para robôs quadrúpedes, exigindo a habilidade de resistir a diversas perturbações externas. No entanto, políticas recentes baseadas em aprendizado utilizam apenas randomização básica de domínio para melhorar a robustez das políticas aprendidas, o que não garante que o robô possua capacidades adequadas de resistência a perturbações. Neste artigo, propomos modelar o processo de aprendizado como uma interação adversária entre o ator e um perturbador recém-introduzido, garantindo sua otimização com uma restrição H_{infty}. Em contraste com o ator, que maximiza a recompensa total descontada, o perturbador é responsável por gerar forças externas eficazes e é otimizado maximizando o erro entre a recompensa da tarefa e seu oráculo, ou seja, o "custo" em cada iteração. Para manter a otimização conjunta entre o ator e o perturbador estável, nossa restrição H_{infty} impõe um limite na razão entre o custo e a intensidade das forças externas. Por meio da interação recíproca ao longo da fase de treinamento, o ator pode adquirir a capacidade de lidar com perturbações físicas cada vez mais complexas. Verificamos a robustez de nossa abordagem em tarefas de locomoção quadrúpede com o robô Unitree Aliengo, e também em uma tarefa mais desafiadora com o robô Unitree A1, onde o quadrúpede deve realizar a locomoção apenas nas patas traseiras, como se fosse um robô bípede. Os resultados quantitativos simulados mostram melhorias em relação às linhas de base, demonstrando a eficácia do método e de cada escolha de projeto. Por outro lado, experimentos com robôs reais exibem qualitativamente quão robusta é a política ao enfrentar diversas perturbações em vários terrenos, incluindo escadas, plataformas elevadas, inclinações e superfícies escorregadias. Todo o código, checkpoints e orientações para implantação no mundo real serão disponibilizados publicamente.
Abordamos a tarefa de estimar parâmetros da câmera a partir de um conjunto de imagens que retratam uma cena. Ferramentas populares de estrutura a partir de movimento (SfM) baseadas em características resolvem essa tarefa por meio de reconstrução incremental: elas repetem a triangulação de pontos 3D esparsos e o registro de mais visões da câmera na nuvem de pontos esparsa. Reinterpretamos a estrutura a partir de movimento incremental como uma aplicação iterativa e refinamento de um relocalizador visual, ou seja, de um método que registra novas visões no estado atual da reconstrução. Essa perspectiva nos permite investigar relocalizadores visuais alternativos que não se baseiam em correspondência de características locais. Mostramos que a regressão de coordenadas da cena, uma abordagem de relocalização baseada em aprendizado, nos permite construir representações de cena neurais implícitas a partir de imagens sem pose. Diferente de outros métodos de reconstrução baseados em aprendizado, não exigimos priors de pose nem entradas sequenciais, e otimizamos eficientemente milhares de imagens. Nosso método, ACE0 (ACE Zero), estima as poses da câmera com uma precisão comparável ao SfM baseado em características, conforme demonstrado pela síntese de novas visões. Página do projeto: https://nianticlabs.github.io/acezero/