Artigos de pesquisa em IA selecionados diariamente com traduções
A capacidade de autocorreção é uma característica altamente desejável em grandes modelos de linguagem (LLMs), no entanto, tem sido consistentemente considerada amplamente ineficaz nos LLMs modernos. As abordagens existentes para treinar a autocorreção exigem múltiplos modelos ou dependem de um modelo mais capaz ou de outras formas de supervisão. Para isso, desenvolvemos uma abordagem de aprendizado por reforço online de múltiplas etapas, SCoRe, que melhora significativamente a capacidade de autocorreção de um LLM usando dados totalmente autogerados. Para construir o SCoRe, primeiro demonstramos que variantes de ajuste fino supervisionado (SFT) em traços de correção gerados pelo modelo offline são insuficientes para instilar o comportamento de autocorreção. Em particular, observamos que o treinamento via SFT sofre de uma disparidade de distribuição entre os dados de treinamento e as próprias respostas do modelo ou prefere implicitamente apenas um certo modo de comportamento de correção que frequentemente não é eficaz no momento do teste. O SCoRe aborda esses desafios treinando sob a distribuição do próprio modelo de traços de correção autogerados e utilizando regularização apropriada para direcionar o processo de aprendizado para aprender uma estratégia de autocorreção que seja eficaz no momento do teste, ao invés de simplesmente ajustar respostas de alta recompensa para uma determinada solicitação. Essa regularização prescreve a execução de uma primeira fase de RL em um modelo base para gerar uma inicialização de política menos suscetível a colapsos e, em seguida, usar um bônus de recompensa para amplificar a autocorreção durante o treinamento. Quando aplicado aos modelos Gemini 1.0 Pro e 1.5 Flash, descobrimos que o SCoRe alcança um desempenho de autocorreção de última geração, melhorando a autocorreção dos modelos base em 15,6% e 9,1%, respectivamente, nos benchmarks MATH e HumanEval.
O pré-treino em conjuntos de dados de grande escala e alta qualidade é crucial para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs), especialmente em domínios especializados como matemática. Apesar da importância reconhecida, o campo de Modelos de Linguagem Multimodais (MLLMs) atualmente carece de um conjunto de dados aberto abrangente especificamente projetado para raciocínio matemático. Para abordar essa lacuna, apresentamos o InfiMM-WebMath-40B, um conjunto de dados de alta qualidade de documentos imagem-texto entrelaçados. Ele é composto por 24 milhões de páginas da web, 85 milhões de URLs de imagem associadas e 40 bilhões de tokens de texto, todos meticulosamente extraídos e filtrados do CommonCrawl. Fornecemos uma visão geral detalhada de nossa coleta de dados e pipeline de processamento. Para demonstrar a robustez do InfiMM-WebMath-40B, realizamos avaliações tanto em configurações apenas de texto quanto multimodais. Nossas avaliações em benchmarks apenas de texto mostram que, apesar de utilizar apenas 40 bilhões de tokens, nosso conjunto de dados melhora significativamente o desempenho de nosso modelo de 1,3B, entregando resultados comparáveis ao DeepSeekMath-1.3B, que utiliza 120 bilhões de tokens para o mesmo tamanho de modelo. No entanto, com a introdução de nosso conjunto de dados de pré-treino matemático multimodal, nossos modelos estabelecem um novo estado-da-arte entre modelos de código aberto em benchmarks matemáticos multimodais como MathVerse e We-Math. Disponibilizamos nossos dados em https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
O advento dos Modelos de Linguagem Grandes (LLMs) abriu caminho para os motores de busca de IA, por exemplo, o SearchGPT, demonstrando um novo paradigma na interação humano-internet. No entanto, a maioria dos atuais motores de busca de IA está limitada a configurações apenas de texto, negligenciando as consultas de usuários multimodais e a natureza entrelaçada de texto e imagem das informações de websites. Recentemente, os Modelos Multimodais Grandes (LMMs) têm feito progressos impressionantes. No entanto, se eles podem funcionar como motores de busca de IA ainda não foi explorado, deixando em aberto a questão do potencial dos LMMs na busca multimodal. Para isso, primeiro projetamos um pipeline delicado, MMSearch-Engine, para capacitar qualquer LMM com capacidades de busca multimodal. Além disso, introduzimos o MMSearch, um benchmark abrangente de avaliação para avaliar o desempenho de busca multimodal dos LMMs. O conjunto de dados curado contém 300 instâncias coletadas manualmente abrangendo 14 subcampos, que não têm sobreposição com os dados de treinamento dos LMMs atuais, garantindo que a resposta correta só possa ser obtida por meio da busca. Utilizando o MMSearch-Engine, os LMMs são avaliados realizando três tarefas individuais (nova consulta, reclassificação e sumarização), e uma tarefa desafiadora de ponta a ponta com um processo de busca completo. Realizamos experimentos extensivos em LMMs de código fechado e de código aberto. Entre todos os modelos testados, o GPT-4o com o MMSearch-Engine alcança os melhores resultados, superando o produto comercial, Perplexity Pro, na tarefa de ponta a ponta, demonstrando a eficácia de nosso pipeline proposto. Apresentamos ainda uma análise de erros para revelar que os LMMs atuais ainda lutam para compreender totalmente as tarefas de busca multimodal, e realizamos um estudo de ablação para indicar o potencial de escalar a computação no tempo de teste para motores de busca de IA. Esperamos que o MMSearch possa fornecer insights únicos para orientar o futuro desenvolvimento de motores de busca de IA multimodais. Página do Projeto: https://mmsearch.github.io
Selecionar a melhor solução de código entre várias geradas é uma tarefa essencial na geração de código, o que pode ser alcançado usando validadores confiáveis (por exemplo, casos de teste escritos pelos desenvolvedores) para auxílio. Uma vez que casos de teste confiáveis nem sempre estão disponíveis e podem ser caros de construir na prática, os pesquisadores propõem gerar automaticamente casos de teste para avaliar soluções de código. No entanto, quando tanto as soluções de código quanto os casos de teste são plausíveis e não confiáveis, selecionar a melhor solução torna-se desafiador. Embora algumas estratégias heurísticas tenham sido propostas para lidar com esse problema, elas carecem de uma garantia teórica sólida e ainda é uma questão em aberto se uma estratégia de seleção ótima existe. Nosso trabalho contribui de duas maneiras. Primeiramente, demonstramos que dentro de um framework bayesiano, a estratégia de seleção ótima pode ser definida com base na probabilidade posterior dos estados de aprovação observados entre as soluções e os testes. O problema de identificar a melhor solução é então formulado como um problema de programação inteira. Em segundo lugar, propomos uma abordagem eficiente para aproximar essa estratégia ótima (ainda que incalculável), onde o erro de aproximação é limitado pela correção do conhecimento prévio. Em seguida, incorporamos conhecimento prévio eficaz para adaptar tarefas de geração de código. Estudos teóricos e empíricos confirmam que as heurísticas existentes são limitadas na seleção das melhores soluções com casos de teste plausíveis. Nossa estratégia ótima aproximada proposta, B4, supera significativamente as heurísticas existentes na seleção de soluções de código geradas por grandes modelos de linguagem (LLMs) com testes gerados por LLM, alcançando uma melhoria de desempenho relativa de até 50% em relação à heurística mais forte e 246% em relação à seleção aleatória nos cenários mais desafiadores. Nosso código está publicamente disponível em https://github.com/ZJU-CTAG/B4.
Os dados visuais apresentam-se em várias formas, desde pequenos ícones de apenas alguns pixels até vídeos longos que se estendem por horas. Os LLMs multimodais existentes geralmente padronizam essas diversas entradas visuais para uma resolução fixa para os codificadores visuais e produzem números semelhantes de tokens para os LLMs. Esta abordagem não é ótima para a compreensão multimodal e é ineficiente para processar entradas com conteúdos visuais longos e curtos. Para resolver o problema, propomos o Oryx, uma arquitetura multimodal unificada para a compreensão espaço-temporal de imagens, vídeos e cenas 3D multi-visão. Oryx oferece uma solução sob demanda para processar de forma contínua e eficiente entradas visuais com tamanhos espaciais e durações temporais arbitrários por meio de duas inovações principais: 1) um modelo OryxViT pré-treinado que pode codificar imagens em qualquer resolução em representações visuais amigáveis para LLMs; 2) um módulo compressor dinâmico que suporta compressão de 1x a 16x em tokens visuais mediante solicitação. Esses recursos de design permitem que o Oryx acomode contextos visuais extremamente longos, como vídeos, com baixa resolução e alta compressão, mantendo alta precisão de reconhecimento para tarefas como compreensão de documentos com resolução nativa e sem compressão. Além das melhorias arquiteturais, aprimoramento da curadoria de dados e treinamento especializado em recuperação de longo contexto e dados espacialmente conscientes ajudam o Oryx a alcançar fortes capacidades em compreensão multimodal de imagem, vídeo e 3D simultaneamente. Nosso trabalho está disponível em código aberto em https://github.com/Oryx-mllm/Oryx.
Propomos o primeiro framework de difusão de vídeo para colorização de vídeos em arte linear com base em referência. Ao contrário de trabalhos anteriores que dependem exclusivamente de modelos generativos de imagem para colorizar arte linear quadro a quadro, nossa abordagem utiliza um modelo de difusão de vídeo pré-treinado em grande escala para gerar vídeos de animação coloridos. Essa abordagem resulta em resultados mais consistentes temporalmente e está mais bem preparada para lidar com grandes movimentos. Em primeiro lugar, introduzimos o Sketch-guided ControlNet, que fornece controle adicional para ajustar um modelo de difusão de imagem para vídeo para síntese de vídeo controlável, permitindo a geração de vídeos de animação condicionados à arte linear. Em seguida, propomos a Reference Attention para facilitar a transferência de cores do quadro de referência para outros quadros contendo movimentos rápidos e expansivos. Por fim, apresentamos um esquema inovador para amostragem sequencial, incorporando o Módulo de Mistura Sobreposta e a Prev-Reference Attention, para estender o modelo de difusão de vídeo além de sua limitação original de comprimento fixo para colorização de vídeos longos. Tanto os resultados qualitativos quanto quantitativos demonstram que nosso método supera significativamente as técnicas de ponta em termos de qualidade de quadro e vídeo, bem como consistência temporal. Além disso, nosso método é capaz de gerar vídeos de animação de alta qualidade e consistentes temporalmente com grandes movimentos, o que não era possível em trabalhos anteriores. Nosso código e modelo estão disponíveis em https://luckyhzt.github.io/lvcd.
A fase de pré-treinamento de modelos de linguagem frequentemente começa com parâmetros inicializados aleatoriamente. Com as tendências atuais de escalonamento de modelos, treinar seu grande número de parâmetros pode ser extremamente lento e custoso. Em contraste, modelos de linguagem menores são menos dispendiosos de treinar, mas frequentemente não conseguem atingir a precisão dos modelos grandes. Neste artigo, exploramos uma ideia intrigante para conectar esses dois regimes diferentes: Podemos desenvolver um método para inicializar modelos de linguagem grandes usando modelos pré-treinados menores? Essa inicialização trará benefícios em termos de tempo de treinamento e precisão final? Neste artigo, apresentamos o HyperCloning, um método que pode expandir os parâmetros de um modelo de linguagem pré-treinado para os de um modelo maior com dimensões ocultas aumentadas. Nosso método garante que o modelo maior mantenha a funcionalidade do modelo menor. Como resultado, o modelo maior já herda o poder preditivo e a precisão do modelo menor antes do início do treinamento. Demonstramos que treinar um modelo inicializado desse modo resulta em economias significativas em termos de horas de GPU necessárias para o pré-treinamento de modelos de linguagem grandes.
A crescente demanda por ativos 3D de alta qualidade em diversas indústrias torna necessária a criação eficiente e automatizada de conteúdo 3D. Apesar dos avanços recentes em modelos generativos 3D, os métodos existentes ainda enfrentam desafios com a velocidade de otimização, fidelidade geométrica e a falta de ativos para renderização baseada em física (PBR). Neste artigo, apresentamos o 3DTopia-XL, um modelo generativo 3D nativo escalável projetado para superar essas limitações. O 3DTopia-XL utiliza uma representação 3D baseada em primitivas inovadora, PrimX, que codifica detalhes de forma, albedo e campo de material em um formato tensorial compacto, facilitando a modelagem de geometria de alta resolução com ativos PBR. Sobre a representação inovadora, propomos um framework generativo baseado em Transformer de Difusão (DiT), que compreende 1) Compressão de Patches Primitivos e 2) Difusão Primitiva Latente. O 3DTopia-XL aprende a gerar ativos 3D de alta qualidade a partir de entradas textuais ou visuais. Realizamos experimentos qualitativos e quantitativos extensivos para demonstrar que o 3DTopia-XL supera significativamente os métodos existentes na geração de ativos 3D de alta qualidade com texturas e materiais detalhados, preenchendo eficientemente a lacuna de qualidade entre modelos generativos e aplicações do mundo real.
Métodos de geração de imagens personalizadas sem ajuste alcançaram um sucesso significativo em manter a consistência facial, ou seja, identidades, mesmo com múltiplos personagens. No entanto, a falta de consistência holística em cenas com vários personagens prejudica a capacidade desses métodos de criar uma narrativa coesa. Neste artigo, apresentamos o StoryMaker, uma solução de personalização que preserva não apenas a consistência facial, mas também a consistência de roupas, penteados e corpos, facilitando assim a criação de uma história por meio de uma série de imagens. O StoryMaker incorpora condições baseadas em identidades faciais e imagens de personagens recortados, que incluem roupas, penteados e corpos. Especificamente, integramos as informações de identidade facial com as imagens de personagens recortados usando o Resampler Perceiver Consciente da Posição (PPR) para obter características de personagens distintas. Para evitar a mistura de múltiplos personagens e o fundo, restringimos separadamente as regiões de impacto de atenção cruzada de diferentes personagens e do fundo usando perdas MSE com máscaras de segmentação. Além disso, treinamos a rede de geração condicionada em poses para promover o desacoplamento das poses. Um LoRA também é empregado para melhorar a fidelidade e qualidade. Experimentos destacam a eficácia de nossa abordagem. O StoryMaker suporta inúmeras aplicações e é compatível com outros plug-ins sociais. Nossos códigos-fonte e pesos do modelo estão disponíveis em https://github.com/RedAIGC/StoryMaker.
Os métodos recentes de geração de texturas alcançam resultados impressionantes devido ao poderoso conhecimento gerativo que aproveitam dos modelos de difusão texto-imagem em larga escala. No entanto, as sugestões textuais abstratas são limitadas em fornecer informações globais sobre textura ou forma, o que resulta nos métodos de geração de textura produzindo padrões borrados ou inconsistentes. Para lidar com isso, apresentamos o FlexiTex, que incorpora informações ricas por meio de orientação visual para gerar uma textura de alta qualidade. O cerne do FlexiTex é o módulo de Aprimoramento da Orientação Visual, que incorpora informações mais específicas da orientação visual para reduzir a ambiguidade na sugestão de texto e preservar detalhes de alta frequência. Para aprimorar ainda mais a orientação visual, introduzimos um módulo de Adaptação Consciente da Direção que projeta automaticamente sugestões de direção com base em diferentes poses de câmera, evitando o problema de Janus e mantendo a consistência global semanticamente. Beneficiando-se da orientação visual, o FlexiTex produz resultados quantitativa e qualitativamente sólidos, demonstrando seu potencial para avançar na geração de texturas para aplicações do mundo real.
Modelos de linguagem (LMs) podem produzir erros difíceis de detectar para humanos, especialmente quando a tarefa é complexa. O RLHF, o método pós-treinamento mais popular, pode agravar esse problema: para obter recompensas mais altas, os LMs podem se tornar melhores em convencer os humanos de que estão certos, mesmo quando estão errados. Estudamos esse fenômeno sob um pipeline padrão de RLHF, chamando-o de "U-SOFISMA", pois é não intencional pelos desenvolvedores do modelo. Especificamente, pedimos a sujeitos humanos com restrição de tempo (por exemplo, 3-10 minutos) para avaliar a correção das saídas do modelo e calcular a precisão dos humanos em relação às etiquetas de referência. Em uma tarefa de pergunta-resposta (QuALITY) e uma tarefa de programação (APPS), o RLHF torna os LMs melhores em convencer nossos sujeitos, mas não em concluir corretamente a tarefa. O RLHF também torna o modelo mais difícil de ser avaliado: a taxa de falsos positivos de nossos sujeitos aumenta em 24,1% em QuALITY e 18,3% em APPS. Por fim, mostramos que a sondagem, uma abordagem de ponta para detectar Sofismas Intencionais (por exemplo, LMs adulterados), não se generaliza para U-SOFISMA. Nossos resultados destacam um modo de falha importante do RLHF e solicitam mais pesquisas para auxiliar os humanos a alinhá-los.
A afinação de instruções aprimora modelos de linguagem grandes (LLMs) alinhando-os com as preferências humanas em diversas tarefas. Abordagens tradicionais para criar conjuntos de dados de afinação de instruções enfrentam sérios desafios para idiomas com poucos recursos devido à dependência de anotação de dados. Este trabalho apresenta um método inovador, Instruções Multilíngues Reversas (MURI), que gera conjuntos de dados de afinação de instruções de alta qualidade para idiomas com poucos recursos sem a necessidade de anotadores humanos ou modelos multilíngues pré-existentes. Utilizando instruções reversas e um pipeline de tradução, o MURI produz pares de instrução-saída a partir de textos já escritos por humanos em idiomas com poucos recursos. Este método garante relevância cultural e diversidade ao obter textos de diferentes domínios nativos e aplicar filtros para eliminar conteúdo inadequado. Nosso conjunto de dados, MURI-IT, inclui mais de 2 milhões de pares de instrução-saída em 200 idiomas. A avaliação por falantes nativos e experimentos de ajuste fino com modelos mT5 demonstram a eficácia da abordagem tanto para compreensão de linguagem natural (NLU) quanto para geração aberta. Disponibilizamos publicamente conjuntos de dados e modelos em https://github.com/akoksal/muri.
Apresentamos o 3DGS-LM, um novo método que acelera a reconstrução do Splatting Gaussiano 3D (3DGS) substituindo seu otimizador ADAM por um Levenberg-Marquardt (LM) personalizado. Métodos existentes reduzem o tempo de otimização diminuindo o número de gaussianas ou melhorando a implementação do rasterizador diferenciável. No entanto, eles ainda dependem do otimizador ADAM para ajustar os parâmetros gaussianos de uma cena em milhares de iterações, o que pode levar até uma hora. Para isso, alteramos o otimizador para LM, que é executado em conjunto com o rasterizador diferenciável 3DGS. Para paralelização eficiente em GPU, propomos uma estrutura de dados de cache para gradientes intermediários que nos permite calcular eficientemente produtos de Jacobiano-vetor em kernels CUDA personalizados. Em cada iteração do LM, calculamos direções de atualização a partir de vários subconjuntos de imagens usando esses kernels e os combinamos em uma média ponderada. No geral, nosso método é 30% mais rápido que o 3DGS original, mantendo a mesma qualidade de reconstrução. Nossa otimização também é agnóstica a outros métodos que aceleram o 3DGS, possibilitando ainda mais melhorias de velocidade em comparação com o 3DGS convencional.
A geração de vídeo usando modelos baseados em difusão é limitada pelos altos custos computacionais devido ao processo de difusão iterativa por quadro. Este trabalho apresenta uma rede chamada Diffusion Reuse MOtion (Dr. Mo) para acelerar a geração de vídeo latente. Nossa descoberta chave é que ruídos de granulação grosseira em etapas anteriores de denoising têm demonstrado alta consistência de movimento entre quadros de vídeo consecutivos. Seguindo essa observação, o Dr. Mo propaga esses ruídos de granulação grosseira para o próximo quadro incorporando movimentos interquadros cuidadosamente projetados e leves, eliminando a redundância computacional massiva em modelos de difusão por quadro. Os ruídos mais sensíveis e de granulação fina ainda são adquiridos por meio de etapas posteriores de denoising, que podem ser essenciais para manter as qualidades visuais. Assim, decidir em quais etapas intermediárias deve-se alternar entre propagações baseadas em movimento e denoising pode ser um problema crucial e um trade-off chave entre eficiência e qualidade. Dr. Mo emprega uma meta-rede chamada Seletor de Etapa de Denoising (DSS) para determinar dinamicamente as etapas intermediárias desejáveis em quadros de vídeo. Avaliações extensivas em tarefas de geração e edição de vídeo mostraram que Dr. Mo pode acelerar substancialmente modelos de difusão em tarefas de vídeo com qualidades visuais aprimoradas.
A tarefa de Legendagem Automática de Áudio (AAC) solicita que os modelos gerem descrições em linguagem natural de uma entrada de áudio. Avaliar essas legendas de áudio geradas por máquina é uma tarefa complexa que requer considerar diversos fatores, entre eles, compreensão de cena auditiva, inferência de objetos sonoros, coerência temporal e contexto ambiental da cena. Enquanto os métodos atuais se concentram em aspectos específicos, frequentemente falham em fornecer uma pontuação geral que se alinhe bem com o julgamento humano. Neste trabalho, propomos CLAIR-A, um método simples e flexível que aproveita as capacidades de zero-shot dos grandes modelos de linguagem (LLMs) para avaliar legendas de áudio candidatas, solicitando diretamente aos LLMs uma pontuação de distância semântica. Em nossas avaliações, CLAIR-A prevê melhor os julgamentos humanos de qualidade em comparação com métricas tradicionais, com uma melhoria de precisão relativa de 5,8% em relação à métrica FENSE específica do domínio e de até 11% em relação à melhor medida de propósito geral no conjunto de dados Clotho-Eval. Além disso, CLAIR-A oferece mais transparência ao permitir que o modelo de linguagem explique o raciocínio por trás de suas pontuações, sendo essas explicações avaliadas em até 30% melhor por avaliadores humanos do que aquelas fornecidas por métodos de referência. CLAIR-A está disponível publicamente em https://github.com/DavidMChan/clair-a.