Artigos de pesquisa em IA selecionados diariamente com traduções
O desempenho de um grande modelo de linguagem (LLM) depende fortemente da qualidade e tamanho do seu conjunto de dados de pré-treinamento. No entanto, os conjuntos de dados de pré-treinamento para LLMs abertos de ponta, como Llama 3 e Mixtral, não estão disponíveis publicamente e pouco se sabe sobre como foram criados. Neste trabalho, apresentamos o FineWeb, um conjunto de dados de 15 trilhões de tokens derivado de 96 snapshots do Common Crawl que produz LLMs com melhor desempenho do que outros conjuntos de dados de pré-treinamento abertos. Para avançar na compreensão de como melhor curar conjuntos de dados de pré-treinamento de alta qualidade, documentamos cuidadosamente e ablatamos todas as escolhas de design utilizadas no FineWeb, incluindo investigações detalhadas de estratégias de deduplicação e filtragem. Além disso, apresentamos o FineWeb-Edu, uma coleção de 1,3 trilhão de tokens de texto educacional filtrado do FineWeb. LLMs pré-treinados no FineWeb-Edu apresentam um desempenho significativamente melhor em benchmarks intensivos em conhecimento e raciocínio, como MMLU e ARC. Juntamente com nossos conjuntos de dados, disponibilizamos publicamente nosso código de curadoria de dados e todos os modelos treinados durante nossos experimentos de ablação.
A geração 3D guiada por modelos de difusão de texto para imagem possibilita a criação de ativos visualmente cativantes. No entanto, métodos anteriores exploram a geração com base em imagem ou texto. Os limites da criatividade são restritos pelo que pode ser expresso por palavras ou pelas imagens disponíveis. Apresentamos o YouDream, um método para gerar animais anatomicamente controláveis de alta qualidade. O YouDream é guiado por um modelo de difusão de texto para imagem controlado por visualizações 2D de uma pose 3D prévia. Nosso método gera animais 3D que não seriam possíveis de criar usando métodos gerativos anteriores de texto para 3D. Além disso, nosso método é capaz de preservar a consistência anatômica nos animais gerados, uma área em que abordagens anteriores de texto para 3D frequentemente enfrentam dificuldades. Além disso, projetamos um pipeline totalmente automatizado para gerar animais comumente encontrados. Para contornar a necessidade de intervenção humana na criação de uma pose 3D, propomos um LLM multiagente que adapta poses de uma biblioteca limitada de poses 3D de animais para representar o animal desejado. Um estudo de usuário conduzido sobre os resultados do YouDream demonstra a preferência dos modelos de animais gerados por nosso método em relação a outros. Os resultados em turntable e o código estão disponíveis em https://youdream3d.github.io/
Os modelos de linguagem (LMs) apresentam um desempenho impressionante e capacidades de generalização. No entanto, os LMs enfrentam a desafiadora questão do esquecimento catastrófico, que compromete sua sustentabilidade a longo prazo na aprendizagem contínua (CL). As abordagens existentes geralmente lidam com o problema incorporando dados de tarefas antigas ou viés indutivo por tarefa nos LMs. No entanto, os dados antigos e informações precisas da tarefa frequentemente não estão disponíveis ou são caros de coletar, dificultando a disponibilidade das abordagens de CL atuais para LMs. Para lidar com essa limitação, apresentamos o MIGU (Atualização de Gradiente com Base em Magnitude para aprendizagem contínua), um método sem repetição e sem rótulo de tarefa que atualiza apenas os parâmetros do modelo com grandes magnitudes de saída nas camadas lineares dos LMs. O MIGU é baseado em nossa observação de que a distribuição normalizada por L1 da magnitude da saída nas camadas lineares dos LMs é diferente quando os modelos LM lidam com diferentes dados de tarefas. Ao impor essa simples restrição no processo de atualização do gradiente, podemos aproveitar os comportamentos inerentes dos LMs, desbloqueando assim suas habilidades inatas de CL. Nossos experimentos demonstram que o MIGU é universalmente aplicável a todas as três arquiteturas de LM (T5, RoBERTa e Llama2), proporcionando desempenho de ponta ou equivalente em ajuste contínuo e configurações de pré-treinamento contínuo em quatro benchmarks de CL. Por exemplo, o MIGU traz uma melhoria média de precisão de 15,2% em relação às linhas de base de ajuste eficiente de parâmetros convencionais em um benchmark de CL de 15 tarefas. O MIGU também pode ser integrado perfeitamente com os três tipos de CL existentes para aprimorar ainda mais o desempenho. O código está disponível em https://github.com/wenyudu/MIGU{este URL do GitHub}.
Avanços recentes na otimização de preferências humanas, inicialmente desenvolvidos para Modelos de Linguagem (LMs), têm mostrado promessa para Modelos de Difusão texto-imagem, aprimorando o alinhamento da sugestão, apelo visual e preferência do usuário. Ao contrário dos LMs, os Modelos de Difusão geralmente otimizam no espaço de pixels ou VAE, o que não se alinha bem com a percepção humana, resultando em treinamento mais lento e menos eficiente durante a etapa de alinhamento de preferências. Propomos o uso de um objetivo perceptual no espaço de incorporação U-Net do modelo de difusão para abordar essas questões. Nossa abordagem envolve ajuste fino do Stable Diffusion 1.5 e XL usando Otimização Direta de Preferência (DPO), Otimização de Preferência Contrastiva (CPO) e ajuste fino supervisionado (SFT) dentro deste espaço de incorporação. Este método supera significativamente as implementações padrão de espaço latente em várias métricas, incluindo qualidade e custo computacional. Para SDXL, nossa abordagem fornece 60,8\% de preferência geral, 62,2\% de apelo visual e 52,1\% de seguimento de sugestão em relação ao SDXL-DPO original de código aberto no conjunto de dados PartiPrompts, enquanto reduz significativamente o cálculo. Nossa abordagem não apenas melhora a eficiência e qualidade do alinhamento de preferências humanas para modelos de difusão, mas também é facilmente integrável com outras técnicas de otimização. O código de treinamento e os pesos LoRA estarão disponíveis aqui: https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1
O avanço dos modelos de agentes de chamada de função requer conjuntos de dados diversos, confiáveis e de alta qualidade. Este artigo apresenta o APIGen, um pipeline automatizado de geração de dados projetado para sintetizar conjuntos de dados verificáveis de alta qualidade para aplicações de chamada de função. Nós utilizamos o APIGen e coletamos 3.673 APIs executáveis em 21 categorias diferentes para gerar conjuntos de dados de chamada de função diversos de forma escalável e estruturada. Cada dado em nosso conjunto de dados é verificado por meio de três etapas hierárquicas: verificação de formato, execuções reais de função e verificação semântica, garantindo sua confiabilidade e correção. Demonstramos que modelos treinados com nossos conjuntos de dados curados, mesmo com apenas 7 bilhões de parâmetros, podem alcançar desempenho de ponta no Berkeley Function-Calling Benchmark, superando vários modelos GPT-4. Além disso, nosso modelo de 1 bilhão de parâmetros alcança desempenho excepcional, superando o GPT-3.5-Turbo e o Claude-3 Haiku. Lançamos um conjunto de dados contendo 60.000 entradas de alta qualidade, com o objetivo de avançar no campo dos domínios de agentes de chamada de função. O conjunto de dados está disponível no Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k e na página inicial do projeto: https://apigen-pipeline.github.io/
Apresentamos um framework geral para resolver equações diferenciais parciais (PDEs) usando modelos generativos de difusão. Em particular, focamos nos cenários em que não temos o conhecimento completo da cena necessário para aplicar solucionadores clássicos. A maioria das abordagens existentes de PDE diretas ou inversas apresentam baixo desempenho quando as observações nos dados ou nos coeficientes subjacentes são incompletas, o que é uma suposição comum para medições do mundo real. Neste trabalho, propomos o DiffusionPDE, que pode preencher simultaneamente as informações ausentes e resolver um PDE modelando a distribuição conjunta dos espaços de solução e coeficiente. Mostramos que os priors generativos aprendidos levam a um framework versátil para resolver com precisão uma ampla gama de PDEs sob observação parcial, superando significativamente os métodos de ponta tanto para direções diretas quanto inversas.
As capacidades de longo contexto dos grandes modelos de linguagem (LLMs) têm sido um tópico quente nos últimos anos. Para avaliar o desempenho dos LLMs em diferentes cenários, surgiram vários benchmarks de avaliação. No entanto, como a maioria desses benchmarks se concentra em identificar informações-chave para responder a perguntas, o que requer principalmente a capacidade de recuperação dos LLMs, esses benchmarks podem representar parcialmente o desempenho de raciocínio dos LLMs a partir de grandes quantidades de informações. Enquanto isso, embora os LLMs frequentemente afirmem ter janelas de contexto de 32k, 128k, 200k ou até mais longas, esses benchmarks falham em revelar o comprimento real suportado desses LLMs. Para abordar essas questões, propomos o conjunto de dados de benchmark LongIns, um exame desafiador baseado em instruções de longo contexto para LLMs, que é construído com base nos conjuntos de dados de instruções existentes. Especificamente, no nosso LongIns, introduzimos três configurações de avaliação: Instrução Global e Tarefa Única (GIST), Instrução Local e Tarefa Única (LIST) e Instrução Local e Múltiplas Tarefas (LIMT). Com base no LongIns, realizamos avaliações abrangentes nos LLMs existentes e obtivemos as seguintes descobertas importantes: (1). O GPT-4 com comprimento de contexto de 128k, que tem melhor desempenho, tem um desempenho ruim na janela de contexto de avaliação de 16k em nosso LongIns. (2). Para a capacidade de raciocínio de múltiplas etapas de muitos LLMs existentes, são necessários esforços significativos ainda sob janelas de contexto curtas (menos de 4k).
Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram significativamente em diversas tarefas de compreensão visual. No entanto, a maioria desses modelos é limitada a processar imagens de baixa resolução, o que restringe sua eficácia em tarefas de percepção que exigem informações visuais detalhadas. Em nosso estudo, apresentamos o MG-LLaVA, um MLLM inovador que aprimora as capacidades de processamento visual do modelo ao incorporar um fluxo de visão de multi-granularidade, que inclui características de baixa resolução, alta resolução e centradas em objetos. Propomos a integração de um codificador visual adicional de alta resolução para capturar detalhes refinados, que são então fundidos com as características visuais base por meio de uma rede de fusão Conv-Gate. Para aprimorar ainda mais as habilidades de reconhecimento de objetos do modelo, incorporamos características de nível de objeto derivadas de caixas delimitadoras identificadas por detectores offline. Sendo treinado exclusivamente em dados multimodais publicamente disponíveis por meio de ajuste de instruções, o MG-LLaVA demonstra habilidades excepcionais de percepção. Instanciamos o MG-LLaVA com uma ampla variedade de codificadores de linguagem, variando de 3,8B a 34B, para avaliar abrangentemente o desempenho do modelo. Avaliações extensas em diversos benchmarks demonstram que o MG-LLaVA supera os MLLMs existentes de tamanhos de parâmetros comparáveis, evidenciando sua notável eficácia. O código estará disponível em https://github.com/PhoenixZ810/MG-LLaVA.
Neste trabalho, apresentamos o MotionBooth, um framework inovador projetado para animar objetos personalizados com controle preciso sobre os movimentos do objeto e da câmera. Ao aproveitar algumas imagens de um objeto específico, ajustamos eficientemente um modelo de texto para vídeo para capturar com precisão a forma e atributos do objeto. Nossa abordagem apresenta perda de região do objeto e preservação de vídeo para aprimorar o desempenho de aprendizado do objeto, juntamente com uma perda de atenção cruzada de token do objeto para integrar o objeto personalizado com sinais de controle de movimento. Além disso, propomos técnicas sem treinamento para gerenciar os movimentos do objeto e da câmera durante a inferência. Em particular, utilizamos manipulação de mapa de atenção cruzada para governar o movimento do objeto e introduzimos um módulo de deslocamento latente para controle de movimento da câmera também. O MotionBooth se destaca em preservar a aparência dos objetos enquanto controla simultaneamente os movimentos em vídeos gerados. Avaliações quantitativas e qualitativas extensivas demonstram a superioridade e eficácia de nosso método. Nossa página do projeto está em https://jianzongwu.github.io/projects/motionbooth
As capacidades de modelagem de longo contexto têm recebido ampla atenção, levando ao surgimento de Modelos de Linguagem Grandes (LLMs) com janelas de ultracontexto. Enquanto isso, os benchmarks para avaliar LLMs de longo contexto estão gradualmente se atualizando. No entanto, os benchmarks existentes utilizam textos de ruído irrelevantes para estender artificialmente o comprimento dos casos de teste, divergindo dos cenários do mundo real de aplicações de longo contexto. Para preencher essa lacuna, propomos um novo benchmark de longo contexto, Loong, alinhado com cenários realistas por meio de perguntas e respostas (QA) estendidas de múltiplos documentos. Ao contrário do QA de documentos típico, nos casos de teste do Loong, cada documento é relevante para a resposta final, ignorar qualquer documento levará à falha da resposta. Além disso, o Loong introduz quatro tipos de tarefas com uma variedade de comprimentos de contexto: Localização de Destaque, Comparação, Agrupamento e Cadeia de Raciocínio, para facilitar uma avaliação mais realista e abrangente da compreensão de longo contexto. Experimentos extensos indicam que os modelos de linguagem de longo contexto existentes ainda apresentam um potencial considerável para aprimoramento. A geração aumentada por recuperação (RAG) alcança baixo desempenho, demonstrando que o Loong pode avaliar de forma confiável as capacidades de modelagem de longo contexto do modelo.
A segmentação de texto em frases desempenha um papel inicial e crucial em muitos sistemas de PNL. Isso é comumente alcançado usando métodos baseados em regras ou estatísticos que dependem de características lexicais, como pontuação. Embora alguns trabalhos recentes não dependam exclusivamente de pontuação, observamos que nenhum método anterior alcança (i) robustez à ausência de pontuação, (ii) adaptabilidade eficaz a novos domínios e (iii) alta eficiência. Introduzimos um novo modelo - Segment any Text (SaT) - para resolver esse problema. Para aumentar a robustez, propomos um novo esquema de pré-treinamento que garante menor dependência da pontuação. Para lidar com a adaptabilidade, introduzimos uma etapa extra de ajuste fino eficiente em parâmetros, estabelecendo um desempenho de ponta em domínios distintos, como versos de letras e documentos legais. Ao longo do caminho, introduzimos modificações arquiteturais que resultam em um ganho triplo em velocidade em relação ao estado da arte anterior e resolvem a dependência espúria do contexto em um futuro distante. Finalmente, apresentamos uma variante de nosso modelo com ajuste fino em uma mistura diversificada e multilíngue de dados segmentados em frases, atuando como uma substituição e aprimoramento para ferramentas de segmentação existentes. No geral, nossas contribuições fornecem uma abordagem universal para segmentar qualquer texto. Nosso método supera todos os baselines - incluindo LLMs fortes - em 8 corpora abrangendo domínios e idiomas diversos, especialmente em situações praticamente relevantes onde o texto está mal formatado. Nossos modelos e código, incluindo documentação, estão disponíveis em https://huggingface.co/segment-any-text sob a licença MIT.
Apesar das capacidades gerais dos modelos de linguagem grandes pré-treinados (LLMs), eles ainda precisam de uma adaptação adicional para melhor servir aplicações práticas. Neste artigo, demonstramos a intercambiabilidade de três ferramentas populares e distintas de adaptação: atualização de parâmetros, modelagem de recompensas e fornecimento de contexto. Essa intercambiabilidade estabelece um framework triangular com seis direções de transformação, cada uma das quais facilita uma variedade de aplicações. Nosso trabalho oferece uma visão holística que unifica numerosos estudos existentes e sugere possíveis direções de pesquisa. Visualizamos nosso trabalho como um roadmap útil para futuras pesquisas sobre LLMs.
O modelo de difusão demonstrou uma capacidade notável na geração de vídeos, o que despertou interesse em introduzir controle de trajetória no processo de geração. Enquanto os trabalhos existentes se concentram principalmente em métodos baseados em treinamento (por exemplo, adaptador condicional), argumentamos que o próprio modelo de difusão permite um controle decente sobre o conteúdo gerado sem exigir nenhum treinamento. Neste estudo, introduzimos um framework sem ajustes para alcançar geração de vídeo controlável por trajetória, impondo orientação tanto na construção de ruído quanto no cálculo de atenção. Especificamente, 1) mostramos inicialmente vários fenômenos instrutivos e analisamos como os ruídos iniciais influenciam a trajetória de movimento do conteúdo gerado. 2) Em seguida, propomos o FreeTraj, uma abordagem sem ajustes que permite controle de trajetória modificando a amostragem de ruído e os mecanismos de atenção. 3) Além disso, estendemos o FreeTraj para facilitar a geração de vídeos mais longos e maiores com trajetórias controláveis. Equipados com esses projetos, os usuários têm a flexibilidade de fornecer trajetórias manualmente ou optar por trajetórias geradas automaticamente pelo planejador de trajetória LLM. Experimentos extensivos validam a eficácia de nossa abordagem em aprimorar a controlabilidade de trajetória de modelos de difusão de vídeo.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) melhoraram significativamente as capacidades de agentes de conversação, tornando-os aplicáveis a várias áreas (por exemplo, educação). Apesar do progresso, a avaliação dos agentes frequentemente negligencia as complexidades das conversas do mundo real, como interações em tempo real, diálogos multipartidários e dependências contextuais prolongadas. Para preencher essa lacuna, apresentamos o DialSim, um simulador de diálogo em tempo real. Neste simulador, um agente é atribuído o papel de um personagem de programas de TV populares, exigindo que responda a perguntas espontâneas usando informações de diálogos passados e distinga entre informações conhecidas e desconhecidas. Recursos-chave do DialSim incluem avaliar a capacidade do agente de responder dentro de um limite de tempo razoável, lidar com diálogos multipartidários de longo prazo e gerenciar configurações adversariais (por exemplo, trocar nomes de personagens) para desafiar a dependência do agente ao conhecimento pré-treinado. Utilizamos este simulador para avaliar os últimos agentes de conversação e analisar suas limitações. Nossos experimentos destacam tanto os pontos fortes quanto as fraquezas desses agentes, fornecendo insights valiosos para futuras melhorias no campo de IA conversacional. O DialSim está disponível em https://github.com/jiho283/Simulator.
A produção cinematográfica e de animação frequentemente requer técnicas sofisticadas para coordenar transições de câmera e movimentos de objetos, geralmente envolvendo uma captura do mundo real intensiva em trabalho. Apesar dos avanços em IA generativa para a criação de vídeos, alcançar controle preciso sobre o movimento para a geração interativa de ativos de vídeo continua sendo um desafio. Nesse sentido, propomos o Image Conductor, um método para controle preciso de transições de câmera e movimentos de objetos para gerar ativos de vídeo a partir de uma única imagem. Uma estratégia de treinamento bem elaborada é proposta para separar o movimento distinto da câmera e do objeto por meio de pesos de LoRA de câmera e pesos de LoRA de objeto. Para lidar ainda mais com variações cinematográficas de trajetórias mal definidas, introduzimos uma técnica de orientação livre de câmera durante a inferência, aprimorando os movimentos dos objetos e eliminando transições de câmera. Além disso, desenvolvemos um pipeline de curadoria de dados de movimento de vídeo orientado por trajetória para treinamento. Experimentos quantitativos e qualitativos demonstram a precisão e o controle refinado de nosso método na geração de vídeos controláveis por movimento a partir de imagens, avançando a aplicação prática da síntese de vídeo interativo. Página do projeto disponível em https://liyaowei-stu.github.io/project/ImageConductor/
O treinamento e ajuste fino de grandes modelos de linguagem (LLM) frequentemente são limitados pela memória GPU disponível. Enquanto os métodos de otimização baseados em projeção existentes lidam com isso projetando gradientes em um subespaço de menor dimensão para reduzir a memória do estado do otimizador, eles geralmente dependem de matrizes de projeção densas, o que pode introduzir sobrecargas computacionais e de memória. Neste trabalho, propomos Grass (GRAdient Stuctured Sparsification), uma abordagem inovadora que utiliza projeções esparsas para transformar gradientes em atualizações esparsas estruturadas. Esse design não apenas reduz significativamente o uso de memória para os estados do otimizador, mas também minimiza a pegada de memória do gradiente, os custos de computação e comunicação, resultando em melhorias substanciais de rendimento. Experimentos extensivos em tarefas de pré-treinamento e ajuste fino demonstram que o Grass alcança desempenho competitivo em relação ao treinamento de classificação total e aos métodos existentes baseados em projeção. Notavelmente, o Grass possibilita o pré-treinamento em meia precisão de um modelo LLaMA de 13B parâmetros em uma única GPU A100 de 40GB - uma conquista inviável para métodos anteriores - e resulta em uma melhoria de rendimento de até 2 vezes em um sistema com 8 GPUs. O código pode ser encontrado em https://github.com/aashiqmuhamed/GRASS.
Métodos de direcionamento de ativação mostraram ser eficazes na condicionamento da geração de modelos de linguagem intervindo de forma aditiva sobre as representações intermediárias dos modelos. No entanto, a avaliação dessas técnicas até o momento tem sido limitada a propriedades de condicionamento únicas e configurações sintéticas. Neste trabalho, realizamos uma avaliação abrangente de várias estratégias de direcionamento de ativação, destacando a natureza dependente das propriedades ótimas dos parâmetros para garantir um efeito robusto ao longo da geração. Para abordar essa questão, propomos a Composição Dinâmica de Ativação, uma abordagem informacional para modular a intensidade de direcionamento de uma ou mais propriedades ao longo da geração. Nossos experimentos sobre direcionamento de múltiplas propriedades mostram que nosso método mantém com sucesso um alto condicionamento, ao mesmo tempo que minimiza o impacto do condicionamento na fluidez da geração.
Para que os sistemas de IA possam se comunicar efetivamente com as pessoas, eles devem entender como tomamos decisões. No entanto, as decisões das pessoas nem sempre são racionais, então os modelos internos implícitos de tomada de decisão humana em Modelos de Linguagem de Grande Escala (LLMs) devem levar isso em consideração. Evidências empíricas anteriores parecem sugerir que esses modelos implícitos são precisos - os LLMs oferecem proxies críveis do comportamento humano, agindo como esperamos que os humanos agiriam em interações cotidianas. No entanto, ao comparar o comportamento e as previsões dos LLMs com um grande conjunto de dados de decisões humanas, descobrimos que esse não é realmente o caso: ao simular e prever as escolhas das pessoas, uma série de LLMs de ponta (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) assumem que as pessoas são mais racionais do que realmente somos. Especificamente, esses modelos se afastam do comportamento humano e se alinham mais estreitamente com um modelo clássico de escolha racional - a teoria do valor esperado. Curiosamente, as pessoas também tendem a assumir que outras pessoas são racionais ao interpretar seu comportamento. Como consequência, ao compararmos as inferências que os LLMs e as pessoas fazem a partir das decisões dos outros usando outro conjunto de dados psicológicos, descobrimos que essas inferências estão altamente correlacionadas. Assim, os modelos implícitos de tomada de decisão dos LLMs parecem estar alinhados com a expectativa humana de que outras pessoas agirão racionalmente, em vez de como as pessoas realmente agem.
À medida que a Inteligência Artificial Geral (IAG) se torna cada vez mais integrada em várias facetas da vida humana, garantir a segurança e a conformidade ética desses sistemas é fundamental. Estudos anteriores focam principalmente em ameaças de uma única modalidade, o que pode não ser suficiente dada a natureza integrada e complexa das interações entre modalidades. Apresentamos um novo desafio de alinhamento de segurança chamado Entrada Segura mas Saída Insegura (ESSI) para avaliar o alinhamento de segurança entre modalidades. Especificamente, ele considera casos em que modalidades individuais são seguras independentemente, mas podem potencialmente levar a saídas inseguras ou antiéticas quando combinadas. Para investigar empiricamente esse problema, desenvolvemos o ESSI, um benchmark entre modalidades que abrange 9 domínios críticos de segurança, como autolesão, atividades ilegais e violações de privacidade. Nossas descobertas revelam vulnerabilidades substanciais de segurança tanto em LVLMs de código fechado quanto aberto, como GPT-4V e LLaVA, destacando a inadequação dos modelos atuais para interpretar e responder de forma confiável a cenários complexos do mundo real.