Artigos de pesquisa em IA selecionados diariamente com traduções
Os esforços existentes na construção de agentes de interface gráfica do usuário (GUI) dependem fortemente da disponibilidade de Modelos de Visão-Linguagem (VLMs) comerciais robustos, como o GPT-4o e o GeminiProVision. Os profissionais muitas vezes relutam em usar VLMs de código aberto devido ao seu significativo atraso de desempenho em comparação com seus equivalentes de código fechado, especialmente em cenários de fundamentação de GUI e situações Fora da Distribuição (OOD). Para facilitar futuras pesquisas nessa área, desenvolvemos o OS-Atlas - um modelo de ação de GUI fundamental que se destaca em fundamentação de GUI e tarefas agentivas OOD por meio de inovações tanto em dados quanto em modelagem. Investimos esforços significativos de engenharia no desenvolvimento de um conjunto de ferramentas de código aberto para sintetizar dados de fundamentação de GUI em várias plataformas, incluindo Windows, Linux, MacOS, Android e web. Aproveitando este conjunto de ferramentas, estamos lançando o maior corpus de fundamentação de GUI de código aberto multiplataforma até o momento, que contém mais de 13 milhões de elementos de GUI. Este conjunto de dados, combinado com inovações no treinamento de modelos, fornece uma base sólida para o OS-Atlas entender capturas de tela de GUI e generalizar para interfaces não vistas. Através de uma extensa avaliação em seis benchmarks abrangendo três plataformas diferentes (móvel, desktop e web), o OS-Atlas demonstra melhorias significativas de desempenho em relação aos modelos anteriores de última geração. Nossa avaliação também revela insights valiosos para melhorar continuamente e escalar as capacidades agentivas de VLMs de código aberto.
A personalização de Modelos de Linguagem de Grande Escala (LLMs) tornou-se recentemente cada vez mais importante com uma ampla gama de aplicações. Apesar da importância e do progresso recente, a maioria dos trabalhos existentes sobre LLMs personalizados tem se concentrado exclusivamente em (a) geração de texto personalizado ou (b) alavancando LLMs para aplicações downstream relacionadas à personalização, como sistemas de recomendação. Neste trabalho, nós aproximamos as duas principais direções separadas pela primeira vez, introduzindo uma taxonomia para o uso de LLMs personalizados e resumindo as principais diferenças e desafios. Nós fornecemos uma formalização dos fundamentos dos LLMs personalizados que consolida e expande noções de personalização de LLMs, definindo e discutindo novos aspectos de personalização, uso e desiderata de LLMs personalizados. Em seguida, unificamos a literatura em meio a esses diversos campos e cenários de uso, propondo taxonomias sistemáticas para a granularidade da personalização, técnicas de personalização, conjuntos de dados, métodos de avaliação e aplicações de LLMs personalizados. Por fim, destacamos desafios e importantes problemas em aberto que ainda precisam ser abordados. Ao unificar e revisar pesquisas recentes usando as taxonomias propostas, nosso objetivo é fornecer um guia claro para a literatura existente e diferentes aspectos de personalização em LLMs, capacitando tanto pesquisadores quanto profissionais.
Os procedimentos de fluxo retificado e refluência avançaram significativamente a geração rápida, endireitando progressivamente os fluxos de equações diferenciais ordinárias (ODE). Eles operam sob a suposição de que pares de imagem e ruído, conhecidos como acoplamentos, podem ser aproximados por trajetórias retas com velocidade constante. No entanto, observamos que modelar com velocidade constante e utilizar procedimentos de refluência têm limitações na aprendizagem precisa de trajetórias retas entre pares, resultando em desempenho subótimo na geração de poucas etapas. Para abordar essas limitações, introduzimos o Fluxo de Aceleração Constante (CAF), um novo framework baseado em uma simples equação de aceleração constante. O CAF introduz a aceleração como uma variável adicional aprendível, permitindo uma estimativa mais expressiva e precisa do fluxo de ODE. Além disso, propomos duas técnicas para melhorar ainda mais a precisão da estimativa: condicionamento da velocidade inicial para o modelo de aceleração e um processo de refluência para a velocidade inicial. Nossos estudos abrangentes em conjuntos de dados de brinquedo, CIFAR-10 e ImageNet 64x64 demonstram que o CAF supera as bases de referência de última geração para a geração de uma etapa. Também mostramos que o CAF melhora drasticamente a preservação de acoplamentos de poucas etapas e a inversão em relação ao fluxo retificado. O código está disponível em https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}.
Benchmarks existentes frequentemente destacam o desempenho notável alcançado pelos Modelos de Fundação Multimodais (MFMs) de última geração na alavancagem do contexto temporal para compreensão de vídeo. No entanto, quão bem os modelos realmente realizam o raciocínio temporal visual? Nossa análise dos benchmarks existentes mostra que essa capacidade dos MFMs é provavelmente superestimada, pois muitas questões podem ser resolvidas usando um único, poucos ou quadros fora de ordem. Para examinar sistematicamente as tarefas atuais de raciocínio temporal visual, propomos três princípios com métricas correspondentes: (1) Ganho Multi-Frame, (2) Sensibilidade à Ordem dos Quadros e (3) Disparidade de Informação dos Quadros. Seguindo esses princípios, apresentamos o TOMATO, Avaliação Multimodal de Raciocínio Temporal, um novo benchmark elaborado para avaliar rigorosamente as capacidades de raciocínio temporal dos MFMs na compreensão de vídeo. O TOMATO é composto por 1.484 perguntas cuidadosamente selecionadas e humanamente anotadas abrangendo seis tarefas (ou seja, contagem de ações, direção, rotação, forma e tendência, velocidade e frequência, e pistas visuais), aplicadas a 1.417 vídeos, incluindo 805 vídeos auto gravados e gerados, que abrangem cenários centrados em humanos, do mundo real e simulados. Nossa avaliação abrangente revela uma lacuna de desempenho humano-modelo de 57,3% com o modelo de melhor desempenho. Além disso, nossa análise aprofundada revela limitações mais fundamentais além dessa lacuna nos MFMs atuais. Embora eles possam reconhecer eventos com precisão em quadros isolados, falham em interpretar esses quadros como uma sequência contínua. Acreditamos que o TOMATO servirá como um campo de testes crucial para avaliar os MFMs de próxima geração e como um apelo à comunidade para desenvolver sistemas de IA capazes de compreender a dinâmica do mundo humano por meio da modalidade de vídeo.
Este artigo apresenta a modelagem AutoRegressiva Randomizada (RAR) para geração visual, que estabelece um novo desempenho de ponta na tarefa de geração de imagens, mantendo total compatibilidade com os frameworks de modelagem de linguagem. O RAR proposto é simples: durante um processo de treinamento auto-regressivo padrão com um objetivo de previsão do próximo token, a sequência de entrada - tipicamente ordenada em forma de raster - é aleatoriamente permutada em diferentes ordens de fatorização com uma probabilidade r, onde r começa em 1 e decai linearmente para 0 ao longo do treinamento. Essa estratégia de treinamento de têmpera permite que o modelo aprenda a maximizar a probabilidade esperada sobre todas as ordens de fatorização e, assim, melhore efetivamente a capacidade do modelo de modelar contextos bidirecionais. Importante ressaltar que o RAR preserva a integridade do framework de modelagem auto-regressiva, garantindo total compatibilidade com a modelagem de linguagem, ao mesmo tempo em que melhora significativamente o desempenho na geração de imagens. No benchmark ImageNet-256, o RAR alcança uma pontuação FID de 1,48, superando não apenas os geradores de imagens auto-regressivos de ponta anteriores, mas também superando os principais métodos baseados em difusão e transformadores mascarados. O código e os modelos estarão disponíveis em https://github.com/bytedance/1d-tokenizer
Descobrimos a física subjacente na Previsão do Próximo Token (PPT). Identificamos a lei da conservação da informação dentro da PPT e propusemos a Primeira Lei da Capacidade de Informação (CI-1), demonstrando que a essência da emergência da inteligência em modelos autorregressivos é fundamentalmente um processo de transferência de informação. Também introduzimos o Princípio de Landauer na PPT, formulando a Segunda Lei da Capacidade de Informação (CI-2), que estabelece a relação entre o treinamento de modelos autorregressivos e o consumo de energia. Além disso, apresentamos vários corolários, que possuem significado prático para práticas de produção. Por fim, validamos a compatibilidade e complementaridade de nossas descobertas com teorias existentes.
Apresentamos uma maneira simples de mesclar modelagem de linguagem mascarada com modelagem de linguagem causal. Esse objetivo de treinamento híbrido resulta em um modelo que combina as vantagens de ambos os paradigmas de modelagem dentro de uma única pilha de transformadores: GPT-BERT pode ser usado de forma transparente como qualquer modelo de linguagem causal ou mascarado padrão. Testamos o processo de pré-treinamento que possibilita esse comportamento flexível no Desafio BabyLM 2024. Os resultados mostram que o pré-treinamento híbrido supera os modelos apenas mascarados ou apenas causais. Disponibilizamos abertamente os modelos, corpora de treinamento e código.
As aplicações da IA generativa tornaram-se extremamente impressionantes, e a interação entre os usuários e a IA é ainda mais notável. A literatura atual sobre interação humano-IA tem examinado amplamente como os humanos interagem com a IA generativa, mas carece de especificidade em relação aos designs de interface do usuário e padrões utilizados para criar essas aplicações. Portanto, apresentamos uma pesquisa que apresenta de forma abrangente taxonomias de como um humano interage com a IA e os padrões de interação do usuário projetados para atender às necessidades de uma variedade de casos de uso relevantes. Nos concentramos principalmente em interações guiadas pelo usuário, examinando interações iniciadas pelo usuário e que não incluem sinais implícitos dados pelo usuário. Com esta pesquisa, nosso objetivo é criar um compêndio de diferentes padrões de interação do usuário que podem ser usados como referência por designers e desenvolvedores. Ao fazê-lo, também buscamos reduzir a barreira de entrada para aqueles que desejam aprender mais sobre o design de aplicações de IA generativa.
Apresentamos o Fashion-VDM, um modelo de difusão de vídeo (VDM) para gerar vídeos de provas virtuais. Dado uma imagem de vestuário de entrada e um vídeo de pessoa, nosso método tem como objetivo gerar um vídeo de prova de alta qualidade da pessoa vestindo o vestuário fornecido, preservando a identidade e movimento da pessoa. A prova virtual baseada em imagem tem mostrado resultados impressionantes; no entanto, os métodos existentes de prova virtual de vídeo (VVT) ainda carecem de detalhes de vestuário e consistência temporal. Para abordar essas questões, propomos uma arquitetura baseada em difusão para prova virtual de vídeo, orientação dividida sem classificador para maior controle sobre as entradas de condicionamento, e uma estratégia de treinamento temporal progressiva para geração de vídeo de 64 quadros em uma única passagem, com resolução de 512px. Também demonstramos a eficácia do treinamento conjunto de imagem e vídeo para prova de vídeo, especialmente quando os dados de vídeo são limitados. Nossos experimentos qualitativos e quantitativos mostram que nossa abordagem estabelece o novo estado da arte para prova virtual de vídeo. Para resultados adicionais, visite nossa página do projeto: https://johannakarras.github.io/Fashion-VDM.
Uma pesquisa recente arXiv:2410.15027 explorou o uso de transformadores de difusão (DiTs) para geração de imagens sem tarefa específica, simplesmente concatenando tokens de atenção em imagens. No entanto, apesar dos recursos computacionais substanciais, a fidelidade das imagens geradas permanece subótima. Neste estudo, reavaliamos e otimizamos esse framework ao hipotetizar que os DiTs de texto para imagem possuem inerentemente capacidades de geração contextual, exigindo apenas ajustes mínimos para ativá-los. Através de experimentos de tarefas diversos, demonstramos qualitativamente que os DiTs de texto para imagem existentes podem realizar efetivamente a geração contextual sem nenhum ajuste. Com base nessa percepção, propomos um pipeline incrivelmente simples para alavancar as habilidades de contexto dos DiTs: (1) concatenar imagens em vez de tokens, (2) realizar legendas conjuntas de múltiplas imagens e (3) aplicar ajustes LoRA específicos da tarefa usando conjuntos de dados pequenos (por exemplo, 20sim 100 amostras) em vez de ajustes de parâmetros completos com conjuntos de dados grandes. Nomeamos nossos modelos de LoRA de Contexto (IC-LoRA). Esta abordagem não requer modificações nos modelos DiT originais, apenas alterações nos dados de treinamento. Notavelmente, nosso pipeline gera conjuntos de imagens de alta fidelidade que seguem melhor as instruções. Embora específico para tarefas em termos de ajuste de dados, nosso framework permanece agnóstico em relação à arquitetura e ao pipeline, oferecendo uma ferramenta poderosa para a comunidade e fornecendo insights valiosos para pesquisas futuras em sistemas de geração agnósticos em nível de produto. Disponibilizamos nosso código, dados e modelos em https://github.com/ali-vilab/In-Context-LoRA
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades promissoras na resolução de problemas científicos simples, mas frequentemente produzem alucinações para problemas complexos. Enquanto a integração de LLMs com ferramentas pode aumentar a confiabilidade, essa abordagem geralmente resulta em uma superdependência das ferramentas, diminuindo a capacidade do modelo de resolver problemas simples por meio de raciocínio básico. Em contraste, especialistas humanos avaliam primeiro a complexidade do problema usando conhecimento de domínio antes de escolher uma abordagem de solução apropriada. Inspirados nesse processo humano de resolução de problemas, propomos um novo método de ajuste fino de dois componentes. No primeiro componente, Destilação de Conhecimento do Mundo (WKD, do inglês World Knowledge Distillation), os LLMs aprendem diretamente a partir de soluções geradas usando informações da ferramenta para internalizar o conhecimento do domínio. No segundo componente, Adaptação do Uso da Ferramenta (TUA, do inglês Tool Usage Adaptation), nós dividimos os problemas em categorias fáceis e difíceis com base na precisão de resposta direta do modelo. Mantendo o mesmo alvo de alinhamento para problemas fáceis como no WKD, treinamos o modelo para alternar inteligentemente para o uso da ferramenta para problemas mais desafiadores. Validamos nosso método em seis conjuntos de dados de referência científica, abrangendo matemática, ciências climáticas e epidemiologia. Em média, nossos modelos demonstram um aumento de 28,18% na precisão das respostas e um aumento de 13,89% na precisão do uso da ferramenta em todos os conjuntos de dados, superando modelos de última geração, incluindo GPT-4o e Claude-3.5.
Recentemente, a técnica de Splatting Gaussiano 3D (3DGS) revolucionou a reconstrução de campos de radiância, manifestando uma síntese eficiente e de alta fidelidade de novas visualizações. No entanto, representar com precisão superfícies, especialmente em cenários grandes e complexos, continua sendo um desafio significativo devido à natureza não estruturada do 3DGS. Neste artigo, apresentamos o CityGaussianV2, uma abordagem inovadora para a reconstrução de cenas em grande escala que aborda desafios críticos relacionados à precisão geométrica e eficiência. Baseando-se nas capacidades favoráveis de generalização do Splatting Gaussiano 2D (2DGS), abordamos suas questões de convergência e escalabilidade. Especificamente, implementamos uma técnica de densificação baseada em gradiente decomposto e regressão de profundidade para eliminar artefatos borrados e acelerar a convergência. Para escalar, introduzimos um filtro de alongamento que mitiga a explosão de contagem gaussiana causada pela degeneração do 2DGS. Além disso, otimizamos o pipeline do CityGaussian para treinamento paralelo, alcançando uma compressão de até 10 vezes, pelo menos 25% de economia no tempo de treinamento e uma redução de 50% no uso de memória. Também estabelecemos benchmarks de geometria padrão em cenas em grande escala. Resultados experimentais demonstram que nosso método alcança um equilíbrio promissor entre qualidade visual, precisão geométrica, bem como custos de armazenamento e treinamento. A página do projeto está disponível em https://dekuliutesla.github.io/CityGaussianV2/.
O espaço de incorporação de palavras em modelos neurais é enviesado, e corrigir isso pode melhorar o desempenho da tarefa. Apontamos que a maioria das abordagens para modelar, corrigir e medir a simetria de um espaço de incorporação assume implicitamente que as frequências das palavras são uniformes; na realidade, as frequências das palavras seguem uma distribuição altamente não uniforme, conhecida como Lei de Zipf. Surpreendentemente, simplesmente realizar branqueamento PCA ponderado pela frequência empírica das palavras que segue a Lei de Zipf melhora significativamente o desempenho da tarefa, superando baselines estabelecidos. Do ponto de vista teórico, tanto nossa abordagem quanto os métodos existentes podem ser claramente categorizados: as representações de palavras são distribuídas de acordo com uma família exponencial com medidas de base uniformes ou zipfianas. Ao adotar a última abordagem, podemos naturalmente enfatizar palavras informativas de baixa frequência em termos de sua norma vetorial, o que se torna evidente a partir da perspectiva informacional-geométrica, e em termos das funções de perda para classificação desequilibrada. Além disso, nossa teoria corrobora que métodos populares de processamento de linguagem natural, como amostragem negativa de skip-gram, WhiteningBERT e modelos de linguagem sem cabeça, funcionam bem simplesmente porque suas incorporações de palavras codificam a frequência empírica das palavras no modelo probabilístico subjacente.
Propomos um método eficaz para inserir adaptadores em modelos de base texto-imagem, o que possibilita a execução de tarefas complexas subsequentes, preservando a capacidade de generalização do modelo base. A ideia central deste método é otimizar o mecanismo de atenção relacionado a mapas de características 2D, o que melhora o desempenho do adaptador. Esta abordagem foi validada na tarefa de geração de vídeos de memes e obteve resultados significativos. Esperamos que este trabalho possa fornecer insights para tarefas pós-treinamento de grandes modelos texto-imagem. Além disso, como este método demonstra boa compatibilidade com modelos derivados do SD1.5, ele possui certo valor para a comunidade de código aberto. Portanto, iremos disponibilizar o código relacionado (https://songkey.github.io/hellomeme).
As técnicas atuais de anonimização facial frequentemente dependem da perda de identidade calculada por modelos de reconhecimento facial, que podem ser imprecisos e não confiáveis. Além disso, muitos métodos requerem dados suplementares, como pontos de referência faciais e máscaras, para orientar o processo de síntese. Em contraste, nossa abordagem utiliza modelos de difusão apenas com uma perda de reconstrução, eliminando a necessidade de pontos de referência faciais ou máscaras, ao mesmo tempo que produz imagens com detalhes intrincados e refinados. Validamos nossos resultados em dois benchmarks públicos por meio de avaliações quantitativas e qualitativas. Nosso modelo alcança um desempenho de ponta em três áreas-chave: anonimização de identidade, preservação de atributos faciais e qualidade de imagem. Além de sua função principal de anonimização, nosso modelo também pode realizar tarefas de troca de rosto ao incorporar uma imagem facial adicional como entrada, demonstrando sua versatilidade e potencial para diversas aplicações. Nosso código e modelos estão disponíveis em https://github.com/hanweikung/face_anon_simple.
Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado no questionamento e resposta multi-hop (M-QA) devido às suas habilidades avançadas de raciocínio. No entanto, o impacto das estruturas de raciocínio inerentes no desempenho de M-QA do LLM permanece incerto, em grande parte devido à ausência de conjuntos de dados de QA que forneçam estruturas de raciocínio detalhadas. Para abordar essa lacuna, introduzimos o Conjunto de Dados de Questionamento e Resposta Estruturado por Raciocínio em Grafo (GRS-QA), que inclui tanto contextos semânticos quanto estruturas de raciocínio para pares de QA. Ao contrário dos conjuntos de dados de M-QA existentes, nos quais diferentes estruturas de raciocínio estão entrelaçadas, o GRS-QA captura explicitamente caminhos de raciocínio intricados construindo grafos de raciocínio, nos quais os nós representam contextos textuais e as arestas denotam fluxos lógicos. Esses grafos de raciocínio de diferentes estruturas possibilitam uma avaliação detalhada das capacidades de raciocínio do LLM em várias estruturas de raciocínio. Nossa análise empírica revela que os LLMs se comportam de maneira diferente ao lidar com perguntas com estruturas de raciocínio variadas. Esse achado facilita a exploração de estruturas textuais em comparação com semântica.
O estado de saúde (SOH) de uma bateria de íon de lítio é um parâmetro crítico que determina a capacidade restante e a vida útil remanescente da bateria. Neste artigo, propomos o SambaMixer, um novo modelo estruturado de espaço de estados (SSM) para prever o estado de saúde de baterias de íon de lítio. O SSM proposto é baseado na arquitetura MambaMixer, projetada para lidar com sinais temporais multivariados. Avaliamos nosso modelo no conjunto de dados de descarga de bateria da NASA e demonstramos que nosso modelo supera o estado da arte neste conjunto de dados. Introduzimos ainda um novo método de reamostragem baseado em âncoras que garante que os sinais temporais tenham o comprimento esperado, ao mesmo tempo que serve como técnica de aumento. Por fim, condicionamos a previsão no tempo da amostra e na diferença de tempo do ciclo usando codificações posicionais para melhorar o desempenho de nosso modelo e aprender efeitos de recuperação. Nossos resultados comprovam que nosso modelo é capaz de prever o SOH de baterias de íon de lítio com alta precisão e robustez.
O preenchimento de código a nível de repositório tem recebido grande atenção na engenharia de software, e vários conjuntos de dados de referência foram introduzidos. No entanto, os conjuntos de dados de referência existentes para o preenchimento de código a nível de repositório geralmente se concentram em um número limitado de idiomas (<5), o que não permite avaliar as habilidades gerais de inteligência de código em diferentes idiomas para os Modelos de Linguagem de Código Grande (LLMs) existentes. Além disso, os conjuntos de dados de referência existentes geralmente relatam pontuações médias gerais de diferentes idiomas, onde as habilidades detalhadas em diferentes cenários de preenchimento são ignoradas. Portanto, para facilitar a pesquisa de LLMs de código em cenários multilíngues, propomos um conjunto de dados de referência de preenchimento de código a nível de repositório massivamente multilíngue que abrange 18 idiomas de programação (chamado M2RC-EVAL), e dois tipos de anotações detalhadas (ou seja, nível de bucket e nível semântico) em diferentes cenários de preenchimento são fornecidos, onde obtemos essas anotações com base na árvore de sintaxe abstrata analisada. Além disso, também curamos um conjunto de dados de instruções massivamente multilíngue, M2RC-INSTRUCT, para melhorar as habilidades de preenchimento de código a nível de repositório dos LLMs de código existentes. Resultados experimentais abrangentes demonstram a eficácia de nosso M2RC-EVAL e M2RC-INSTRUCT.
Neste artigo, abordamos a qualidade do corpus WikiNER, um corpus multilíngue de Reconhecimento de Entidades Nomeadas, e fornecemos uma versão consolidada do mesmo. A anotação do WikiNER foi produzida de forma semi-supervisionada, ou seja, nenhuma verificação manual foi realizada posteriormente. Esse corpus é chamado de padrão prata. Neste artigo, propomos o WikiNER-fr-ouro, que é uma versão revisada da porção francesa do WikiNER. Nosso corpus consiste em uma amostra aleatória de 20% do subcorpus francês original (26.818 frases com 700k tokens). Começamos resumindo os tipos de entidades incluídas em cada categoria para definir um guia de anotação e, em seguida, procedemos com a revisão do corpus. Por fim, apresentamos uma análise dos erros e inconsistências observados no corpus WikiNER-fr e discutimos possíveis direções para trabalhos futuros.