Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

OS-ATLAS: Um Modelo de Ação Fundamental para Agentes de Interface Gráfica do Usuário Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Os esforços existentes na construção de agentes de interface gráfica do usuário (GUI) dependem fortemente da disponibilidade de Modelos de Visão-Linguagem (VLMs) comerciais robustos, como o GPT-4o e o GeminiProVision. Os profissionais muitas vezes relutam em usar VLMs de código aberto devido ao seu significativo atraso de desempenho em comparação com seus equivalentes de código fechado, especialmente em cenários de fundamentação de GUI e situações Fora da Distribuição (OOD). Para facilitar futuras pesquisas nessa área, desenvolvemos o OS-Atlas - um modelo de ação de GUI fundamental que se destaca em fundamentação de GUI e tarefas agentivas OOD por meio de inovações tanto em dados quanto em modelagem. Investimos esforços significativos de engenharia no desenvolvimento de um conjunto de ferramentas de código aberto para sintetizar dados de fundamentação de GUI em várias plataformas, incluindo Windows, Linux, MacOS, Android e web. Aproveitando este conjunto de ferramentas, estamos lançando o maior corpus de fundamentação de GUI de código aberto multiplataforma até o momento, que contém mais de 13 milhões de elementos de GUI. Este conjunto de dados, combinado com inovações no treinamento de modelos, fornece uma base sólida para o OS-Atlas entender capturas de tela de GUI e generalizar para interfaces não vistas. Através de uma extensa avaliação em seis benchmarks abrangendo três plataformas diferentes (móvel, desktop e web), o OS-Atlas demonstra melhorias significativas de desempenho em relação aos modelos anteriores de última geração. Nossa avaliação também revela insights valiosos para melhorar continuamente e escalar as capacidades agentivas de VLMs de código aberto.

Personalização de Modelos de Linguagem Grandes: Uma Pesquisa
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

A personalização de Modelos de Linguagem de Grande Escala (LLMs) tornou-se recentemente cada vez mais importante com uma ampla gama de aplicações. Apesar da importância e do progresso recente, a maioria dos trabalhos existentes sobre LLMs personalizados tem se concentrado exclusivamente em (a) geração de texto personalizado ou (b) alavancando LLMs para aplicações downstream relacionadas à personalização, como sistemas de recomendação. Neste trabalho, nós aproximamos as duas principais direções separadas pela primeira vez, introduzindo uma taxonomia para o uso de LLMs personalizados e resumindo as principais diferenças e desafios. Nós fornecemos uma formalização dos fundamentos dos LLMs personalizados que consolida e expande noções de personalização de LLMs, definindo e discutindo novos aspectos de personalização, uso e desiderata de LLMs personalizados. Em seguida, unificamos a literatura em meio a esses diversos campos e cenários de uso, propondo taxonomias sistemáticas para a granularidade da personalização, técnicas de personalização, conjuntos de dados, métodos de avaliação e aplicações de LLMs personalizados. Por fim, destacamos desafios e importantes problemas em aberto que ainda precisam ser abordados. Ao unificar e revisar pesquisas recentes usando as taxonomias propostas, nosso objetivo é fornecer um guia claro para a literatura existente e diferentes aspectos de personalização em LLMs, capacitando tanto pesquisadores quanto profissionais.

Fluxo de Aceleração Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Os procedimentos de fluxo retificado e refluência avançaram significativamente a geração rápida, endireitando progressivamente os fluxos de equações diferenciais ordinárias (ODE). Eles operam sob a suposição de que pares de imagem e ruído, conhecidos como acoplamentos, podem ser aproximados por trajetórias retas com velocidade constante. No entanto, observamos que modelar com velocidade constante e utilizar procedimentos de refluência têm limitações na aprendizagem precisa de trajetórias retas entre pares, resultando em desempenho subótimo na geração de poucas etapas. Para abordar essas limitações, introduzimos o Fluxo de Aceleração Constante (CAF), um novo framework baseado em uma simples equação de aceleração constante. O CAF introduz a aceleração como uma variável adicional aprendível, permitindo uma estimativa mais expressiva e precisa do fluxo de ODE. Além disso, propomos duas técnicas para melhorar ainda mais a precisão da estimativa: condicionamento da velocidade inicial para o modelo de aceleração e um processo de refluência para a velocidade inicial. Nossos estudos abrangentes em conjuntos de dados de brinquedo, CIFAR-10 e ImageNet 64x64 demonstram que o CAF supera as bases de referência de última geração para a geração de uma etapa. Também mostramos que o CAF melhora drasticamente a preservação de acoplamentos de poucas etapas e a inversão em relação ao fluxo retificado. O código está disponível em https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}.

TOMATE: Avaliando as Capacidades de Raciocínio Temporal Visual em Modelos Fundamentais Multimodais
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Benchmarks existentes frequentemente destacam o desempenho notável alcançado pelos Modelos de Fundação Multimodais (MFMs) de última geração na alavancagem do contexto temporal para compreensão de vídeo. No entanto, quão bem os modelos realmente realizam o raciocínio temporal visual? Nossa análise dos benchmarks existentes mostra que essa capacidade dos MFMs é provavelmente superestimada, pois muitas questões podem ser resolvidas usando um único, poucos ou quadros fora de ordem. Para examinar sistematicamente as tarefas atuais de raciocínio temporal visual, propomos três princípios com métricas correspondentes: (1) Ganho Multi-Frame, (2) Sensibilidade à Ordem dos Quadros e (3) Disparidade de Informação dos Quadros. Seguindo esses princípios, apresentamos o TOMATO, Avaliação Multimodal de Raciocínio Temporal, um novo benchmark elaborado para avaliar rigorosamente as capacidades de raciocínio temporal dos MFMs na compreensão de vídeo. O TOMATO é composto por 1.484 perguntas cuidadosamente selecionadas e humanamente anotadas abrangendo seis tarefas (ou seja, contagem de ações, direção, rotação, forma e tendência, velocidade e frequência, e pistas visuais), aplicadas a 1.417 vídeos, incluindo 805 vídeos auto gravados e gerados, que abrangem cenários centrados em humanos, do mundo real e simulados. Nossa avaliação abrangente revela uma lacuna de desempenho humano-modelo de 57,3% com o modelo de melhor desempenho. Além disso, nossa análise aprofundada revela limitações mais fundamentais além dessa lacuna nos MFMs atuais. Embora eles possam reconhecer eventos com precisão em quadros isolados, falham em interpretar esses quadros como uma sequência contínua. Acreditamos que o TOMATO servirá como um campo de testes crucial para avaliar os MFMs de próxima geração e como um apelo à comunidade para desenvolver sistemas de IA capazes de compreender a dinâmica do mundo humano por meio da modalidade de vídeo.

Geração Visual Autoregressiva Randomizada
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Este artigo apresenta a modelagem AutoRegressiva Randomizada (RAR) para geração visual, que estabelece um novo desempenho de ponta na tarefa de geração de imagens, mantendo total compatibilidade com os frameworks de modelagem de linguagem. O RAR proposto é simples: durante um processo de treinamento auto-regressivo padrão com um objetivo de previsão do próximo token, a sequência de entrada - tipicamente ordenada em forma de raster - é aleatoriamente permutada em diferentes ordens de fatorização com uma probabilidade r, onde r começa em 1 e decai linearmente para 0 ao longo do treinamento. Essa estratégia de treinamento de têmpera permite que o modelo aprenda a maximizar a probabilidade esperada sobre todas as ordens de fatorização e, assim, melhore efetivamente a capacidade do modelo de modelar contextos bidirecionais. Importante ressaltar que o RAR preserva a integridade do framework de modelagem auto-regressiva, garantindo total compatibilidade com a modelagem de linguagem, ao mesmo tempo em que melhora significativamente o desempenho na geração de imagens. No benchmark ImageNet-256, o RAR alcança uma pontuação FID de 1,48, superando não apenas os geradores de imagens auto-regressivos de ponta anteriores, mas também superando os principais métodos baseados em difusão e transformadores mascarados. O código e os modelos estarão disponíveis em https://github.com/bytedance/1d-tokenizer

DynaMath: Um Benchmark Visual Dinâmico para Avaliar a Robustez do Raciocínio Matemático de Modelos de Linguagem Visual
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Os avanços rápidos em Modelos Visão-Linguagem (VLMs) têm demonstrado grande potencial na abordagem de tarefas de raciocínio matemático que envolvem contexto visual. Ao contrário dos humanos que podem aplicar de forma confiável passos de solução a problemas semelhantes com modificações mínimas, descobrimos que os VLMs de última geração, como o GPT-4o, podem consistentemente falhar nesses cenários, revelando limitações em suas capacidades de raciocínio matemático. Neste artigo, investigamos a robustez do raciocínio matemático em VLMs e avaliamos o desempenho desses modelos sob diferentes variantes da mesma pergunta, como mudanças nos valores numéricos visuais ou nos gráficos de funções. Embora vários benchmarks matemáticos baseados em visão tenham sido desenvolvidos para avaliar as capacidades de resolução de problemas dos VLMs, esses benchmarks contêm apenas conjuntos estáticos de problemas e não podem avaliar facilmente a robustez do raciocínio matemático. Para preencher essa lacuna, apresentamos o DynaMath, um benchmark matemático visual dinâmico projetado para avaliação aprofundada de VLMs. O DynaMath inclui 501 perguntas iniciais de alta qualidade e multi-tópico, cada uma representada como um programa Python. Esses programas são cuidadosamente projetados e anotados para permitir a geração automática de um conjunto muito maior de perguntas concretas, incluindo muitos tipos diferentes de variações visuais e textuais. O DynaMath nos permite avaliar a capacidade de generalização dos VLMs, avaliando seu desempenho sob condições de entrada variáveis de uma pergunta inicial. Avaliamos 14 VLMs de última geração com 5.010 perguntas concretas geradas. Nossos resultados mostram que a precisão do modelo no pior caso, definida como a porcentagem de perguntas iniciais respondidas corretamente em todas as 10 variantes, é significativamente menor do que a precisão no caso médio. Nossa análise enfatiza a necessidade de estudar a robustez das habilidades de raciocínio dos VLMs, e o DynaMath fornece insights valiosos para orientar o desenvolvimento de modelos mais confiáveis para o raciocínio matemático.

Física na Previsão da Próxima Palavra
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Descobrimos a física subjacente na Previsão do Próximo Token (PPT). Identificamos a lei da conservação da informação dentro da PPT e propusemos a Primeira Lei da Capacidade de Informação (CI-1), demonstrando que a essência da emergência da inteligência em modelos autorregressivos é fundamentalmente um processo de transferência de informação. Também introduzimos o Princípio de Landauer na PPT, formulando a Segunda Lei da Capacidade de Informação (CI-2), que estabelece a relação entre o treinamento de modelos autorregressivos e o consumo de energia. Além disso, apresentamos vários corolários, que possuem significado prático para práticas de produção. Por fim, validamos a compatibilidade e complementaridade de nossas descobertas com teorias existentes.

GPT ou BERT: por que não ambos?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Apresentamos uma maneira simples de mesclar modelagem de linguagem mascarada com modelagem de linguagem causal. Esse objetivo de treinamento híbrido resulta em um modelo que combina as vantagens de ambos os paradigmas de modelagem dentro de uma única pilha de transformadores: GPT-BERT pode ser usado de forma transparente como qualquer modelo de linguagem causal ou mascarado padrão. Testamos o processo de pré-treinamento que possibilita esse comportamento flexível no Desafio BabyLM 2024. Os resultados mostram que o pré-treinamento híbrido supera os modelos apenas mascarados ou apenas causais. Disponibilizamos abertamente os modelos, corpora de treinamento e código.

Levantamento de Design de Interface do Usuário e Técnicas de Interação em Aplicações de IA Generativa
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

As aplicações da IA generativa tornaram-se extremamente impressionantes, e a interação entre os usuários e a IA é ainda mais notável. A literatura atual sobre interação humano-IA tem examinado amplamente como os humanos interagem com a IA generativa, mas carece de especificidade em relação aos designs de interface do usuário e padrões utilizados para criar essas aplicações. Portanto, apresentamos uma pesquisa que apresenta de forma abrangente taxonomias de como um humano interage com a IA e os padrões de interação do usuário projetados para atender às necessidades de uma variedade de casos de uso relevantes. Nos concentramos principalmente em interações guiadas pelo usuário, examinando interações iniciadas pelo usuário e que não incluem sinais implícitos dados pelo usuário. Com esta pesquisa, nosso objetivo é criar um compêndio de diferentes padrões de interação do usuário que podem ser usados como referência por designers e desenvolvedores. Ao fazê-lo, também buscamos reduzir a barreira de entrada para aqueles que desejam aprender mais sobre o design de aplicações de IA generativa.

Fashion-VDM: Modelo de Difusão de Vídeo para Prova Virtual.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Apresentamos o Fashion-VDM, um modelo de difusão de vídeo (VDM) para gerar vídeos de provas virtuais. Dado uma imagem de vestuário de entrada e um vídeo de pessoa, nosso método tem como objetivo gerar um vídeo de prova de alta qualidade da pessoa vestindo o vestuário fornecido, preservando a identidade e movimento da pessoa. A prova virtual baseada em imagem tem mostrado resultados impressionantes; no entanto, os métodos existentes de prova virtual de vídeo (VVT) ainda carecem de detalhes de vestuário e consistência temporal. Para abordar essas questões, propomos uma arquitetura baseada em difusão para prova virtual de vídeo, orientação dividida sem classificador para maior controle sobre as entradas de condicionamento, e uma estratégia de treinamento temporal progressiva para geração de vídeo de 64 quadros em uma única passagem, com resolução de 512px. Também demonstramos a eficácia do treinamento conjunto de imagem e vídeo para prova de vídeo, especialmente quando os dados de vídeo são limitados. Nossos experimentos qualitativos e quantitativos mostram que nossa abordagem estabelece o novo estado da arte para prova virtual de vídeo. Para resultados adicionais, visite nossa página do projeto: https://johannakarras.github.io/Fashion-VDM.

LoRA em Contexto para Transformadores de Difusão
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Uma pesquisa recente arXiv:2410.15027 explorou o uso de transformadores de difusão (DiTs) para geração de imagens sem tarefa específica, simplesmente concatenando tokens de atenção em imagens. No entanto, apesar dos recursos computacionais substanciais, a fidelidade das imagens geradas permanece subótima. Neste estudo, reavaliamos e otimizamos esse framework ao hipotetizar que os DiTs de texto para imagem possuem inerentemente capacidades de geração contextual, exigindo apenas ajustes mínimos para ativá-los. Através de experimentos de tarefas diversos, demonstramos qualitativamente que os DiTs de texto para imagem existentes podem realizar efetivamente a geração contextual sem nenhum ajuste. Com base nessa percepção, propomos um pipeline incrivelmente simples para alavancar as habilidades de contexto dos DiTs: (1) concatenar imagens em vez de tokens, (2) realizar legendas conjuntas de múltiplas imagens e (3) aplicar ajustes LoRA específicos da tarefa usando conjuntos de dados pequenos (por exemplo, 20sim 100 amostras) em vez de ajustes de parâmetros completos com conjuntos de dados grandes. Nomeamos nossos modelos de LoRA de Contexto (IC-LoRA). Esta abordagem não requer modificações nos modelos DiT originais, apenas alterações nos dados de treinamento. Notavelmente, nosso pipeline gera conjuntos de imagens de alta fidelidade que seguem melhor as instruções. Embora específico para tarefas em termos de ajuste de dados, nosso framework permanece agnóstico em relação à arquitetura e ao pipeline, oferecendo uma ferramenta poderosa para a comunidade e fornecendo insights valiosos para pesquisas futuras em sistemas de geração agnósticos em nível de produto. Disponibilizamos nosso código, dados e modelos em https://github.com/ali-vilab/In-Context-LoRA

Anonimização Facial Simplificada
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

As técnicas atuais de anonimização facial frequentemente dependem da perda de identidade calculada por modelos de reconhecimento facial, que podem ser imprecisos e não confiáveis. Além disso, muitos métodos requerem dados suplementares, como pontos de referência faciais e máscaras, para orientar o processo de síntese. Em contraste, nossa abordagem utiliza modelos de difusão apenas com uma perda de reconstrução, eliminando a necessidade de pontos de referência faciais ou máscaras, ao mesmo tempo que produz imagens com detalhes intrincados e refinados. Validamos nossos resultados em dois benchmarks públicos por meio de avaliações quantitativas e qualitativas. Nosso modelo alcança um desempenho de ponta em três áreas-chave: anonimização de identidade, preservação de atributos faciais e qualidade de imagem. Além de sua função principal de anonimização, nosso modelo também pode realizar tarefas de troca de rosto ao incorporar uma imagem facial adicional como entrada, demonstrando sua versatilidade e potencial para diversas aplicações. Nosso código e modelos estão disponíveis em https://github.com/hanweikung/face_anon_simple.

CityGaussianV2: Reconstrução Eficiente e Geometricamente Precisa para Cenas em Grande Escala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Recentemente, a técnica de Splatting Gaussiano 3D (3DGS) revolucionou a reconstrução de campos de radiância, manifestando uma síntese eficiente e de alta fidelidade de novas visualizações. No entanto, representar com precisão superfícies, especialmente em cenários grandes e complexos, continua sendo um desafio significativo devido à natureza não estruturada do 3DGS. Neste artigo, apresentamos o CityGaussianV2, uma abordagem inovadora para a reconstrução de cenas em grande escala que aborda desafios críticos relacionados à precisão geométrica e eficiência. Baseando-se nas capacidades favoráveis de generalização do Splatting Gaussiano 2D (2DGS), abordamos suas questões de convergência e escalabilidade. Especificamente, implementamos uma técnica de densificação baseada em gradiente decomposto e regressão de profundidade para eliminar artefatos borrados e acelerar a convergência. Para escalar, introduzimos um filtro de alongamento que mitiga a explosão de contagem gaussiana causada pela degeneração do 2DGS. Além disso, otimizamos o pipeline do CityGaussian para treinamento paralelo, alcançando uma compressão de até 10 vezes, pelo menos 25% de economia no tempo de treinamento e uma redução de 50% no uso de memória. Também estabelecemos benchmarks de geometria padrão em cenas em grande escala. Resultados experimentais demonstram que nosso método alcança um equilíbrio promissor entre qualidade visual, precisão geométrica, bem como custos de armazenamento e treinamento. A página do projeto está disponível em https://dekuliutesla.github.io/CityGaussianV2/.

Adaptação Durante a Aprendizagem: Fundamentação de LLMs para Problemas Científicos com Adaptação Inteligente do Uso de Ferramentas
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades promissoras na resolução de problemas científicos simples, mas frequentemente produzem alucinações para problemas complexos. Enquanto a integração de LLMs com ferramentas pode aumentar a confiabilidade, essa abordagem geralmente resulta em uma superdependência das ferramentas, diminuindo a capacidade do modelo de resolver problemas simples por meio de raciocínio básico. Em contraste, especialistas humanos avaliam primeiro a complexidade do problema usando conhecimento de domínio antes de escolher uma abordagem de solução apropriada. Inspirados nesse processo humano de resolução de problemas, propomos um novo método de ajuste fino de dois componentes. No primeiro componente, Destilação de Conhecimento do Mundo (WKD, do inglês World Knowledge Distillation), os LLMs aprendem diretamente a partir de soluções geradas usando informações da ferramenta para internalizar o conhecimento do domínio. No segundo componente, Adaptação do Uso da Ferramenta (TUA, do inglês Tool Usage Adaptation), nós dividimos os problemas em categorias fáceis e difíceis com base na precisão de resposta direta do modelo. Mantendo o mesmo alvo de alinhamento para problemas fáceis como no WKD, treinamos o modelo para alternar inteligentemente para o uso da ferramenta para problemas mais desafiadores. Validamos nosso método em seis conjuntos de dados de referência científica, abrangendo matemática, ciências climáticas e epidemiologia. Em média, nossos modelos demonstram um aumento de 28,18% na precisão das respostas e um aumento de 13,89% na precisão do uso da ferramenta em todos os conjuntos de dados, superando modelos de última geração, incluindo GPT-4o e Claude-3.5.

Branqueamento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

O espaço de incorporação de palavras em modelos neurais é enviesado, e corrigir isso pode melhorar o desempenho da tarefa. Apontamos que a maioria das abordagens para modelar, corrigir e medir a simetria de um espaço de incorporação assume implicitamente que as frequências das palavras são uniformes; na realidade, as frequências das palavras seguem uma distribuição altamente não uniforme, conhecida como Lei de Zipf. Surpreendentemente, simplesmente realizar branqueamento PCA ponderado pela frequência empírica das palavras que segue a Lei de Zipf melhora significativamente o desempenho da tarefa, superando baselines estabelecidos. Do ponto de vista teórico, tanto nossa abordagem quanto os métodos existentes podem ser claramente categorizados: as representações de palavras são distribuídas de acordo com uma família exponencial com medidas de base uniformes ou zipfianas. Ao adotar a última abordagem, podemos naturalmente enfatizar palavras informativas de baixa frequência em termos de sua norma vetorial, o que se torna evidente a partir da perspectiva informacional-geométrica, e em termos das funções de perda para classificação desequilibrada. Além disso, nossa teoria corrobora que métodos populares de processamento de linguagem natural, como amostragem negativa de skip-gram, WhiteningBERT e modelos de linguagem sem cabeça, funcionam bem simplesmente porque suas incorporações de palavras codificam a frequência empírica das palavras no modelo probabilístico subjacente.

OláMeme: Integrando Atenções de Tricô Espacial para Incorporar Condições de Alto Nível e Rica Fidelidade em Modelos de Difusão
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Propomos um método eficaz para inserir adaptadores em modelos de base texto-imagem, o que possibilita a execução de tarefas complexas subsequentes, preservando a capacidade de generalização do modelo base. A ideia central deste método é otimizar o mecanismo de atenção relacionado a mapas de características 2D, o que melhora o desempenho do adaptador. Esta abordagem foi validada na tarefa de geração de vídeos de memes e obteve resultados significativos. Esperamos que este trabalho possa fornecer insights para tarefas pós-treinamento de grandes modelos texto-imagem. Além disso, como este método demonstra boa compatibilidade com modelos derivados do SD1.5, ele possui certo valor para a comunidade de código aberto. Portanto, iremos disponibilizar o código relacionado (https://songkey.github.io/hellomeme).

LIBMoE: Uma Biblioteca para avaliação abrangente de Mistura de Especialistas em Modelos de Linguagem Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

A Mixture of Experts (MoEs) desempenha um papel importante no desenvolvimento de modelos de linguagem grandes (LLMs) mais eficientes e eficazes. Devido aos enormes requisitos de recursos, o estudo de algoritmos MoE em grande escala permanece inacessível para muitos pesquisadores. Este trabalho desenvolve o LibMoE, um framework abrangente e modular para simplificar a pesquisa, treinamento e avaliação de algoritmos MoE. Construído com base em três princípios principais: (i) design modular, (ii) treinamento eficiente; (iii) avaliação abrangente, o LibMoE torna os MoE em LLMs mais acessíveis a uma ampla gama de pesquisadores, padronizando os pipelines de treinamento e avaliação. Usando o LibMoE, realizamos extensas análises comparativas de cinco algoritmos MoE de última geração em três LLMs diferentes e 11 conjuntos de dados no cenário de zero-shot. Os resultados mostram que, apesar das características únicas, todos os algoritmos MoE apresentam desempenho aproximadamente semelhante quando considerados em uma ampla gama de tarefas. Com o design modular e a avaliação abrangente, acreditamos que o LibMoE será inestimável para os pesquisadores avançarem significativamente em direção à próxima geração de MoE e LLMs. Página do projeto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Previsão do Estado de Saúde de Baterias de Íon de Lítio usando Modelos de Espaço de Estados
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

O estado de saúde (SOH) de uma bateria de íon de lítio é um parâmetro crítico que determina a capacidade restante e a vida útil remanescente da bateria. Neste artigo, propomos o SambaMixer, um novo modelo estruturado de espaço de estados (SSM) para prever o estado de saúde de baterias de íon de lítio. O SSM proposto é baseado na arquitetura MambaMixer, projetada para lidar com sinais temporais multivariados. Avaliamos nosso modelo no conjunto de dados de descarga de bateria da NASA e demonstramos que nosso modelo supera o estado da arte neste conjunto de dados. Introduzimos ainda um novo método de reamostragem baseado em âncoras que garante que os sinais temporais tenham o comprimento esperado, ao mesmo tempo que serve como técnica de aumento. Por fim, condicionamos a previsão no tempo da amostra e na diferença de tempo do ciclo usando codificações posicionais para melhorar o desempenho de nosso modelo e aprender efeitos de recuperação. Nossos resultados comprovam que nosso modelo é capaz de prever o SOH de baterias de íon de lítio com alta precisão e robustez.

GRS-QA -- Conjunto de Dados de Perguntas e Respostas Estruturadas com Raciocínio em Grafos
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado no questionamento e resposta multi-hop (M-QA) devido às suas habilidades avançadas de raciocínio. No entanto, o impacto das estruturas de raciocínio inerentes no desempenho de M-QA do LLM permanece incerto, em grande parte devido à ausência de conjuntos de dados de QA que forneçam estruturas de raciocínio detalhadas. Para abordar essa lacuna, introduzimos o Conjunto de Dados de Questionamento e Resposta Estruturado por Raciocínio em Grafo (GRS-QA), que inclui tanto contextos semânticos quanto estruturas de raciocínio para pares de QA. Ao contrário dos conjuntos de dados de M-QA existentes, nos quais diferentes estruturas de raciocínio estão entrelaçadas, o GRS-QA captura explicitamente caminhos de raciocínio intricados construindo grafos de raciocínio, nos quais os nós representam contextos textuais e as arestas denotam fluxos lógicos. Esses grafos de raciocínio de diferentes estruturas possibilitam uma avaliação detalhada das capacidades de raciocínio do LLM em várias estruturas de raciocínio. Nossa análise empírica revela que os LLMs se comportam de maneira diferente ao lidar com perguntas com estruturas de raciocínio variadas. Esse achado facilita a exploração de estruturas textuais em comparação com semântica.

M2rc-Eval: Completude de Código em Nível de Repositório Massivamente Multilíngue Avaliação
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

O preenchimento de código a nível de repositório tem recebido grande atenção na engenharia de software, e vários conjuntos de dados de referência foram introduzidos. No entanto, os conjuntos de dados de referência existentes para o preenchimento de código a nível de repositório geralmente se concentram em um número limitado de idiomas (<5), o que não permite avaliar as habilidades gerais de inteligência de código em diferentes idiomas para os Modelos de Linguagem de Código Grande (LLMs) existentes. Além disso, os conjuntos de dados de referência existentes geralmente relatam pontuações médias gerais de diferentes idiomas, onde as habilidades detalhadas em diferentes cenários de preenchimento são ignoradas. Portanto, para facilitar a pesquisa de LLMs de código em cenários multilíngues, propomos um conjunto de dados de referência de preenchimento de código a nível de repositório massivamente multilíngue que abrange 18 idiomas de programação (chamado M2RC-EVAL), e dois tipos de anotações detalhadas (ou seja, nível de bucket e nível semântico) em diferentes cenários de preenchimento são fornecidos, onde obtemos essas anotações com base na árvore de sintaxe abstrata analisada. Além disso, também curamos um conjunto de dados de instruções massivamente multilíngue, M2RC-INSTRUCT, para melhorar as habilidades de preenchimento de código a nível de repositório dos LLMs de código existentes. Resultados experimentais abrangentes demonstram a eficácia de nosso M2RC-EVAL e M2RC-INSTRUCT.

WikiNER-fr-gold: Um Corpus NER Padrão-Ouro
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

Neste artigo, abordamos a qualidade do corpus WikiNER, um corpus multilíngue de Reconhecimento de Entidades Nomeadas, e fornecemos uma versão consolidada do mesmo. A anotação do WikiNER foi produzida de forma semi-supervisionada, ou seja, nenhuma verificação manual foi realizada posteriormente. Esse corpus é chamado de padrão prata. Neste artigo, propomos o WikiNER-fr-ouro, que é uma versão revisada da porção francesa do WikiNER. Nosso corpus consiste em uma amostra aleatória de 20% do subcorpus francês original (26.818 frases com 700k tokens). Começamos resumindo os tipos de entidades incluídas em cada categoria para definir um guia de anotação e, em seguida, procedemos com a revisão do corpus. Por fim, apresentamos uma análise dos erros e inconsistências observados no corpus WikiNER-fr e discutimos possíveis direções para trabalhos futuros.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

OS-ATLAS: Um Modelo de Ação Fundamental para Agentes de Interface Gráfica do Usuário Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personalização de Modelos de Linguagem Grandes: Uma Pesquisa
Personalization of Large Language Models: A Survey

Oct 29

Fluxo de Aceleração Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

TOMATE: Avaliando as Capacidades de Raciocínio Temporal Visual em Modelos Fundamentais Multimodais
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Geração Visual Autoregressiva Randomizada
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: Um Benchmark Visual Dinâmico para Avaliar a Robustez do Raciocínio Matemático de Modelos de Linguagem Visual
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Física na Previsão da Próxima Palavra
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT ou BERT: por que não ambos?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Levantamento de Design de Interface do Usuário e Técnicas de Interação em Aplicações de IA Generativa
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Fashion-VDM: Modelo de Difusão de Vídeo para Prova Virtual.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

LoRA em Contexto para Transformadores de Difusão
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Anonimização Facial Simplificada
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Reconstrução Eficiente e Geometricamente Precisa para Cenas em Grande Escala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Adaptação Durante a Aprendizagem: Fundamentação de LLMs para Problemas Científicos com Adaptação Inteligente do Uso de Ferramentas
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Branqueamento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

OláMeme: Integrando Atenções de Tricô Espacial para Incorporar Condições de Alto Nível e Rica Fidelidade em Modelos de Difusão
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE: Uma Biblioteca para avaliação abrangente de Mistura de Especialistas em Modelos de Linguagem Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer: Previsão do Estado de Saúde de Baterias de Íon de Lítio usando Modelos de Espaço de Estados
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA -- Conjunto de Dados de Perguntas e Respostas Estruturadas com Raciocínio em Grafos
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Completude de Código em Nível de Repositório Massivamente Multilíngue Avaliação
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: Um Corpus NER Padrão-Ouro
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau