HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

21 papers found

XLand-100B: Um Conjunto de Dados em Grande Escala para Aprendizado por Reforço em Contexto Multi-Tarefa
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

Após o sucesso do paradigma de aprendizado em contexto em modelos de linguagem e visão computacional em grande escala, o campo emergente de aprendizado por reforço em contexto está experimentando um crescimento acelerado. No entanto, seu desenvolvimento tem sido limitado pela falta de benchmarks desafiadores, já que todos os experimentos foram realizados em ambientes simples e com conjuntos de dados em pequena escala. Apresentamos o XLand-100B, um conjunto de dados em grande escala para aprendizado por reforço em contexto baseado no ambiente XLand-MiniGrid, como um primeiro passo para aliviar esse problema. Ele contém históricos completos de aprendizado para quase 30.000 tarefas diferentes, abrangendo 100 bilhões de transições e 2,5 bilhões de episódios. Foram necessárias 50.000 horas de GPU para coletar o conjunto de dados, o que está além do alcance da maioria dos laboratórios acadêmicos. Junto com o conjunto de dados, fornecemos as ferramentas para reproduzi-lo ou expandi-lo ainda mais. Com esse esforço substancial, visamos democratizar a pesquisa no campo em rápido crescimento do aprendizado por reforço em contexto e fornecer uma base sólida para futuras escalas. O código é de código aberto e está disponível sob a licença Apache 2.0 em https://github.com/dunno-lab/xland-minigrid-datasets.

Faça Valer: Geração de Texto para Imagem com um Número Preciso de Objetos
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

Apesar do sucesso sem precedentes dos modelos de difusão de texto para imagem, controlar o número de objetos representados usando texto é surpreendentemente difícil. Isso é importante para diversas aplicações, desde documentos técnicos até livros infantis e ilustrações de receitas culinárias. Gerar contagens corretas de objetos é fundamentalmente desafiador porque o modelo generativo precisa manter um senso de identidade separada para cada instância do objeto, mesmo que vários objetos pareçam idênticos ou se sobreponham, e então realizar implicitamente um cálculo global durante a geração. Ainda não se sabe se tais representações existem. Para abordar a geração com contagem correta, primeiro identificamos características dentro do modelo de difusão que podem carregar informações de identidade do objeto. Em seguida, as usamos para separar e contar instâncias de objetos durante o processo de remoção de ruído, detectando supergeração e subgeração. Corrigimos a subgeração treinando um modelo que prevê tanto a forma quanto a localização de um objeto ausente, com base no layout dos objetos existentes, e mostramos como ele pode ser usado para guiar a remoção de ruído com a contagem correta de objetos. Nossa abordagem, CountGen, não depende de fontes externas para determinar o layout dos objetos, mas sim utiliza o conhecimento prévio do próprio modelo de difusão, criando layouts dependentes do prompt e da semente. Avaliado em dois conjuntos de dados de referência, descobrimos que o CountGen supera significativamente a precisão de contagem das linhas de base existentes.

ChartMimic: Avaliando a Capacidade de Raciocínio Transmodal de LMMs por meio da Geração de Gráfico-para-Código
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Apresentamos um novo benchmark, o ChartMimic, destinado a avaliar as capacidades de geração de código visualmente fundamentado em modelos multimodais de grande escala (LMMs). O ChartMimic utiliza gráficos visuais ricos em informação e instruções textuais como entradas, exigindo que os LMMs gerem o código correspondente para a renderização dos gráficos. O ChartMimic inclui 1.000 triplas (figura, instrução, código) curadas por humanos, que representam os casos de uso autênticos de gráficos encontrados em artigos científicos de diversas áreas (por exemplo, Física, Ciência da Computação, Economia, etc.). Esses gráficos abrangem 18 tipos regulares e 4 tipos avançados, diversificando-se em 191 subcategorias. Além disso, propomos métricas de avaliação multiníveis para fornecer uma avaliação automática e abrangente do código gerado e dos gráficos renderizados. Diferentemente dos benchmarks existentes de geração de código, o ChartMimic enfatiza a avaliação da capacidade dos LMMs de harmonizar uma mistura de habilidades cognitivas, abrangendo compreensão visual, geração de código e raciocínio multimodal. A avaliação de 3 modelos proprietários e 11 modelos de código aberto destaca os desafios substanciais apresentados pelo ChartMimic. Mesmo os modelos avançados GPT-4V e Claude-3-opus alcançam apenas uma pontuação média de 73,2 e 53,7, respectivamente, indicando um espaço significativo para melhoria. Antecipamos que o ChartMimic inspirará o desenvolvimento de LMMs, avançando a busca pela inteligência artificial geral.

Agulha em um Palheiro Multimodal
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

Com o rápido avanço dos modelos de linguagem multimodal de grande escala (MLLMs), sua avaliação tornou-se cada vez mais abrangente. No entanto, a compreensão de conteúdo multimodal extenso, como uma habilidade fundamental para aplicações do mundo real, permanece pouco explorada. Neste trabalho, apresentamos o Needle In A Multimodal Haystack (MM-NIAH), o primeiro benchmark especificamente projetado para avaliar sistematicamente a capacidade dos MLLMs existentes de compreender documentos multimodais longos. Nosso benchmark inclui três tipos de tarefas de avaliação: recuperação multimodal, contagem e raciocínio. Em cada tarefa, o modelo é obrigado a responder às perguntas com base em diferentes informações-chave espalhadas ao longo do documento multimodal fornecido. Ao avaliar os principais MLLMs no MM-NIAH, observamos que os modelos existentes ainda têm um espaço significativo para melhoria nessas tarefas, especialmente na avaliação centrada em visão. Esperamos que este trabalho possa fornecer uma plataforma para pesquisas futuras sobre a compreensão de documentos multimodais longos e contribuir para o avanço dos MLLMs. O código e o benchmark estão disponíveis em https://github.com/OpenGVLab/MM-NIAH.

BABILong: Testando os Limites dos LLMs com Raciocínio em Contextos Longos Raciocínio-em-um-Palheiro
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

Nos últimos anos, os tamanhos de contexto de entrada dos grandes modelos de linguagem (LLMs) aumentaram drasticamente. No entanto, os métodos de avaliação existentes não acompanharam esse avanço, falhando em avaliar de forma abrangente a eficiência dos modelos no manuseio de contextos longos. Para preencher essa lacuna, introduzimos o benchmark BABILong, projetado para testar a capacidade dos modelos de linguagem de raciocinar sobre fatos distribuídos em documentos extremamente longos. O BABILong inclui um conjunto diversificado de 20 tarefas de raciocínio, incluindo encadeamento de fatos, indução simples, dedução, contagem e manipulação de listas/conjuntos. Essas tarefas são desafiadoras por si só e ainda mais exigentes quando os fatos necessários estão espalhados em textos naturais longos. Nossas avaliações mostram que os LLMs populares utilizam efetivamente apenas 10-20% do contexto, e seu desempenho cai drasticamente com o aumento da complexidade do raciocínio. Entre as alternativas ao raciocínio em contexto, os métodos de Geração Aumentada por Recuperação (Retrieval-Augmented Generation) alcançam uma modesta precisão de 60% na resposta a perguntas de fato único, independentemente do comprimento do contexto. Entre os métodos de extensão de contexto, o maior desempenho é demonstrado por transformadores com memória recorrente, permitindo o processamento de comprimentos de até 11 milhões de tokens. O benchmark BABILong é extensível a qualquer comprimento para apoiar a avaliação de novos modelos com capacidades aumentadas, e fornecemos divisões de até 1 milhão de tokens.

SEACrowd: Um Hub de Dados Multimodal e Multilíngue e um Conjunto de Benchmarks para Línguas do Sudeste Asiático
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

O Sudeste Asiático (SEA) é uma região rica em diversidade linguística e variedade cultural, com mais de 1.300 línguas indígenas e uma população de 671 milhões de pessoas. No entanto, os modelos de IA predominantes sofrem com uma significativa falta de representação de textos, imagens e conjuntos de dados de áudio do SEA, comprometendo a qualidade dos modelos de IA para as línguas da região. A avaliação de modelos para línguas do SEA é desafiadora devido à escassez de conjuntos de dados de alta qualidade, agravada pela predominância de dados de treinamento em inglês, levantando preocupações sobre possíveis distorções culturais. Para enfrentar esses desafios, apresentamos o SEACrowd, uma iniciativa colaborativa que consolida um hub de recursos abrangente, preenchendo a lacuna de recursos ao fornecer corpora padronizados em quase 1.000 línguas do SEA, abrangendo três modalidades. Por meio de nossos benchmarks SEACrowd, avaliamos a qualidade dos modelos de IA em 36 línguas indígenas em 13 tarefas, oferecendo insights valiosos sobre o cenário atual da IA no SEA. Além disso, propomos estratégias para facilitar maiores avanços em IA, maximizando a utilidade potencial e a equidade de recursos para o futuro da IA no SEA.

OmniCorpus: Um Corpus Multimodal Unificado com 10 Bilhões de Imagens Intercaladas com Texto
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Dados intercalados de imagem-texto, compostos por múltiplas imagens e textos organizados em um formato de documento natural, alinham-se ao paradigma de apresentação de dados da internet e assemelham-se de perto aos hábitos de leitura humanos. Estudos recentes demonstraram que tais dados auxiliam no aprendizado multimodal em contexto e mantêm as capacidades de grandes modelos de linguagem durante o ajuste fino multimodal. No entanto, a escala limitada e a diversidade dos atuais dados intercalados de imagem-texto restringem o desenvolvimento de grandes modelos de linguagem multimodal. Neste artigo, apresentamos o OmniCorpus, um conjunto de dados intercalados de imagem-texto em escala de 10 bilhões. Utilizando um mecanismo de dados eficiente, filtramos e extraímos documentos em larga escala de alta qualidade, que contêm 8,6 bilhões de imagens e 1.696 bilhões de tokens de texto. Em comparação com contrapartes (por exemplo, MMC4, OBELICS), nosso conjunto de dados 1) possui uma escala 15 vezes maior enquanto mantém uma boa qualidade dos dados; 2) apresenta fontes mais diversificadas, incluindo sites em inglês e não-inglês, bem como sites centrados em vídeos; 3) é mais flexível, podendo ser facilmente degradado de um formato intercalado de imagem-texto para um corpus de texto puro e pares de imagem-texto. Por meio de análises e experimentos abrangentes, validamos a qualidade, usabilidade e eficácia do conjunto de dados proposto. Esperamos que isso possa fornecer uma base sólida de dados para futuras pesquisas em modelos multimodais. O código e os dados são disponibilizados em https://github.com/OpenGVLab/OmniCorpus.

GUI Odyssey: Um Conjunto de Dados Abrangente para Navegação Transversal em Interfaces Gráficas de Aplicativos em Dispositivos Móveis
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Usuários de smartphones frequentemente navegam entre múltiplos aplicativos (apps) para realizar tarefas, como compartilhar conteúdo entre plataformas de mídia social. Agentes autônomos de navegação em Interface Gráfica do Usuário (GUI) podem aprimorar a experiência do usuário em comunicação, entretenimento e produtividade, otimizando fluxos de trabalho e reduzindo a intervenção manual. No entanto, agentes de GUI anteriores frequentemente foram treinados com conjuntos de dados compostos por tarefas simples que podem ser concluídas dentro de um único aplicativo, resultando em desempenho insatisfatório na navegação entre aplicativos. Para resolver esse problema, introduzimos o GUI Odyssey, um conjunto de dados abrangente para treinar e avaliar agentes de navegação entre aplicativos. O GUI Odyssey consiste em 7.735 episódios de 6 dispositivos móveis, abrangendo 6 tipos de tarefas entre aplicativos, 201 apps e 1,4K combinações de apps. Utilizando o GUI Odyssey, desenvolvemos o OdysseyAgent, um agente de navegação entre aplicativos multimodal, ajustando o modelo Qwen-VL com um módulo de reamostragem de histórico. Experimentos extensivos demonstram a precisão superior do OdysseyAgent em comparação com modelos existentes. Por exemplo, o OdysseyAgent supera o Qwen-VL ajustado e o GPT-4V zero-shot em 1,44% e 55,49% de precisão dentro do domínio, e 2,29% e 48,14% de precisão fora do domínio, em média. O conjunto de dados e o código serão disponibilizados em https://github.com/OpenGVLab/GUI-Odyssey.

Glyph-ByT5-v2: Uma Base Estética Robusta para Renderização Precisa de Texto Visual Multilíngue
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

Recentemente, o Glyph-ByT5 alcançou um desempenho altamente preciso na renderização de texto visual em imagens de design gráfico. No entanto, ele ainda se concentra exclusivamente no inglês e tem um desempenho relativamente fraco em termos de apelo visual. Neste trabalho, abordamos essas duas limitações fundamentais ao apresentar o Glyph-ByT5-v2 e o Glyph-SDXL-v2, que não apenas suportam a renderização precisa de texto visual para 10 idiomas diferentes, mas também alcançam uma qualidade estética muito melhor. Para isso, realizamos as seguintes contribuições: (i) criação de um conjunto de dados de alta qualidade de texto glífico e design gráfico multilíngue, composto por mais de 1 milhão de pares de texto glífico e 10 milhões de pares de imagem-texto de design gráfico, abrangendo nove outros idiomas, (ii) construção de um benchmark de parágrafo visual multilíngue composto por 1.000 prompts, com 100 para cada idioma, para avaliar a precisão ortográfica visual multilíngue, e (iii) aproveitamento da mais recente abordagem de aprendizado de preferência consciente do passo para melhorar a qualidade estética visual. Com a combinação dessas técnicas, entregamos um poderoso codificador de texto multilíngue personalizado, o Glyph-ByT5-v2, e um forte modelo de geração gráfica estética, o Glyph-SDXL-v2, que pode suportar a ortografia precisa em 10 idiomas diferentes. Consideramos nosso trabalho um avanço significativo, visto que os mais recentes DALL-E3 e Ideogram 1.0 ainda enfrentam dificuldades com a tarefa de renderização de texto visual multilíngue.

GEB-1.3B: Modelo de Linguagem Grande Leve e Aberto
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

Modelos de linguagem de grande escala (LLMs) recentemente desenvolvidos, como ChatGPT, Claude e Llama, demonstraram habilidades impressionantes, superando até mesmo o desempenho humano em várias tarefas. Apesar de seu sucesso, as demandas intensivas de recursos desses modelos, que exigem poder computacional significativo tanto para treinamento quanto para inferência, limitam sua implantação a servidores de alto desempenho. Além disso, os extensos requisitos de cálculo dos modelos frequentemente resultam em maior latência nos tempos de resposta. Com a crescente necessidade de LLMs operarem de forma eficiente em CPUs, surgiram pesquisas sobre modelos leves otimizados para inferência em CPU. Neste trabalho, apresentamos o GEB-1.3B, um LLM leve treinado com 550 bilhões de tokens em idiomas chinês e inglês. Empregamos técnicas de treinamento inovadoras, incluindo ROPE, Group-Query-Attention e FlashAttention-2, para acelerar o treinamento enquanto mantemos o desempenho do modelo. Adicionalmente, ajustamos o modelo utilizando 10 milhões de amostras de dados de instrução para melhorar o alinhamento. O GEB-1.3B exibe desempenho excepcional em benchmarks gerais como MMLU, C-Eval e CMMLU, superando modelos comparativos como MindLLM-1.3B e TinyLLaMA-1.1B. Notavelmente, a versão FP32 do GEB-1.3B alcança tempos de inferência notáveis em CPUs, com esforços contínuos para aprimorar ainda mais a velocidade por meio de técnicas avançadas de quantização. O lançamento do GEB-1.3B como um modelo de código aberto representa uma contribuição significativa para o desenvolvimento de LLMs leves, promovendo pesquisas e inovações adicionais no campo.

Controle de Câmera sem Treinamento para Geração de Vídeo
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Propomos uma solução robusta e livre de treinamento para oferecer controle de movimento de câmera em modelos de difusão de vídeo prontos para uso. Diferentemente de trabalhos anteriores, nosso método não requer ajuste supervisionado em conjuntos de dados anotados com câmera nem treinamento auto-supervisionado por meio de aumento de dados. Em vez disso, ele pode ser conectado e utilizado com a maioria dos modelos de difusão de vídeo pré-treinados, gerando vídeos com controle de câmera a partir de uma única imagem ou prompt de texto como entrada. A inspiração para nosso trabalho vem do conhecimento prévio de layout que os latentes intermediários mantêm em relação aos resultados gerados, de modo que reorganizar os pixels ruidosos neles também realocará o conteúdo de saída. Como o movimento da câmera pode ser visto como uma forma de rearranjo de pixels causado por mudanças de perspectiva, os vídeos podem ser reorganizados seguindo um movimento específico da câmera se seus latentes ruidosos mudarem de acordo. Com base nisso, propomos nosso método CamTrol, que permite um controle robusto da câmera em modelos de difusão de vídeo. Isso é alcançado por meio de um processo em duas etapas. Primeiro, modelamos o rearranjo do layout da imagem por meio de movimentos explícitos da câmera no espaço de nuvem de pontos 3D. Em seguida, geramos vídeos com movimento de câmera usando o conhecimento prévio de layout dos latentes ruidosos formados por uma série de imagens rearranjadas. Experimentos extensivos demonstraram a robustez do nosso método no controle do movimento da câmera em vídeos gerados. Além disso, mostramos que nosso método pode produzir resultados impressionantes na geração de vídeos com rotação 3D e conteúdo dinâmico. Página do projeto em https://lifedecoder.github.io/CamTrol/.

Projetando um Painel para Transparência e Controle de IA Conversacional
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

Os LLMs conversacionais funcionam como sistemas de caixa preta, deixando os usuários adivinhando por que veem a saída que recebem. Essa falta de transparência é potencialmente problemática, especialmente considerando as preocupações em torno de viés e veracidade. Para abordar essa questão, apresentamos um protótipo de ponta a ponta que conecta técnicas de interpretabilidade com design de experiência do usuário, visando tornar os chatbots mais transparentes. Começamos mostrando evidências de que um LLM de código aberto proeminente possui um "modelo de usuário": ao examinar o estado interno do sistema, podemos extrair dados relacionados à idade, gênero, nível educacional e status socioeconômico do usuário. Em seguida, descrevemos o design de um painel que acompanha a interface do chatbot, exibindo esse modelo de usuário em tempo real. O painel também pode ser usado para controlar o modelo de usuário e o comportamento do sistema. Por fim, discutimos um estudo no qual os usuários conversaram com o sistema instrumentado. Nossos resultados sugerem que os usuários apreciam ver os estados internos, o que os ajudou a expor comportamentos tendenciosos e aumentou seu senso de controle. Os participantes também fizeram sugestões valiosas que apontam para direções futuras tanto para o design quanto para a pesquisa em aprendizado de máquina. A página do projeto e a demonstração em vídeo do nosso sistema TalkTuner estão disponíveis em https://bit.ly/talktuner-project-page.

VideoGUI: Um Benchmark para Automação de GUI a partir de Vídeos Instrucionais
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

A automação de Interface Gráfica do Usuário (GUI) apresenta um potencial significativo para aumentar a produtividade humana ao auxiliar em tarefas computacionais. As formulações de tarefas existentes concentram-se principalmente em atividades simples que podem ser especificadas por uma única instrução baseada apenas em linguagem, como "Inserir um novo slide". Neste trabalho, apresentamos o VideoGUI, um novo benchmark multimodal projetado para avaliar assistentes de GUI em tarefas visuais centradas na interface. Baseado em vídeos instrutivos de alta qualidade da web, nosso benchmark foca em tarefas que envolvem softwares profissionais e inovadores (por exemplo, Adobe Photoshop ou Stable Diffusion WebUI) e atividades complexas (por exemplo, edição de vídeo). O VideoGUI avalia assistentes de GUI por meio de um processo hierárquico, permitindo a identificação dos níveis específicos em que eles podem falhar: (i) planejamento de alto nível: reconstruir subtarefas procedimentais a partir de condições visuais sem descrições em linguagem; (ii) planejamento de nível médio: gerar sequências de narrativas de ações precisas com base no estado visual (ou seja, captura de tela) e objetivos; (iii) execução de ações atômicas: realizar ações específicas, como clicar com precisão em elementos designados. Para cada nível, projetamos métricas de avaliação em dimensões individuais para fornecer sinais claros, como desempenho individual em cliques, arrastos, digitação e rolagem para a execução de ações atômicas. Nossa avaliação no VideoGUI revela que mesmo o modelo multimodal de última geração GPT4o tem um desempenho ruim em tarefas visuais centradas na GUI, especialmente no planejamento de alto nível.

Repensando o Protocolo de Avaliação Humana para Modelos de Texto para Vídeo: Aprimorando Confiabilidade, Reprodutibilidade e Praticidade
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

Os recentes avanços na tecnologia de texto para vídeo (T2V), demonstrados por modelos como Gen2, Pika e Sora, ampliaram significativamente sua aplicabilidade e popularidade. Apesar desses progressos, a avaliação desses modelos apresenta desafios substanciais. Principalmente, devido às limitações inerentes às métricas automáticas, a avaliação manual é frequentemente considerada um método superior para avaliar a geração T2V. No entanto, os protocolos de avaliação manual existentes enfrentam problemas de reprodutibilidade, confiabilidade e praticidade. Para abordar esses desafios, este artigo introduz o protocolo de Avaliação Humana de Texto para Vídeo (T2VHE), um protocolo abrangente e padronizado para modelos T2V. O protocolo T2VHE inclui métricas bem definidas, treinamento detalhado de anotadores e um módulo de avaliação dinâmica eficaz. Os resultados experimentais demonstram que esse protocolo não apenas garante anotações de alta qualidade, mas também pode reduzir os custos de avaliação em quase 50%. Disponibilizaremos como código aberto toda a configuração do protocolo T2VHE, incluindo o fluxo de trabalho completo do protocolo, os detalhes do componente de avaliação dinâmica e o código da interface de anotação. Isso ajudará as comunidades a estabelecerem protocolos de avaliação humana mais sofisticados.

Seja como um peixinho dourado, não memorize! Mitigando a memorização em LLMs generativos
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Modelos de linguagem de grande escala podem memorizar e repetir seus dados de treinamento, causando riscos de privacidade e direitos autorais. Para mitigar a memorização, introduzimos uma modificação sutil no objetivo de treinamento de próximo token, que chamamos de perda goldfish. Durante o treinamento, um subconjunto aleatório de tokens é excluído do cálculo da perda. Esses tokens descartados não são memorizados pelo modelo, o que impede a reprodução textual de uma cadeia completa de tokens do conjunto de treinamento. Realizamos extensos experimentos treinando modelos Llama-2 em escala de bilhões, tanto pré-treinados quanto treinados do zero, e demonstramos reduções significativas na memorização extraível com pouco ou nenhum impacto nos benchmarks subsequentes.

Vivid-ZOO: Geração de Vídeo Multi-View com Modelo de Difusão
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Embora os modelos de difusão tenham demonstrado desempenho impressionante na geração de imagens/vídeos 2D, a geração de Vídeo Multi-visão a partir de Texto (T2MVid) baseada em difusão permanece pouco explorada. Os novos desafios apresentados pela geração de T2MVid residem na escassez de vídeos multi-visão legendados em grande escala e na complexidade de modelar tal distribuição multidimensional. Para isso, propomos um novo pipeline baseado em difusão que gera vídeos multi-visão de alta qualidade centrados em um objeto 3D dinâmico a partir de texto. Especificamente, fatoramos o problema T2MVid em componentes de espaço de visão e tempo. Essa fatoração nos permite combinar e reutilizar camadas de modelos de difusão de imagem multi-visão e vídeo 2D pré-treinados avançados para garantir consistência multi-visão e coerência temporal para os vídeos multi-visão gerados, reduzindo significativamente o custo de treinamento. Além disso, introduzimos módulos de alinhamento para alinhar os espaços latentes das camadas dos modelos de difusão de vídeo 2D e multi-visão pré-treinados, abordando a incompatibilidade das camadas reutilizadas que surge da lacuna de domínio entre dados 2D e multi-visão. Para apoiar esta e futuras pesquisas, contribuímos ainda com um conjunto de dados de vídeos multi-visão legendados. Os resultados experimentais demonstram que nosso método gera vídeos multi-visão de alta qualidade, exibindo movimentos vívidos, coerência temporal e consistência multi-visão, dada uma variedade de prompts de texto.

AV-GS: Aprendizado de Priors Conscientes de Materiais e Geometria para Síntese Acústica de Novas Perspectivas
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

A síntese acústica de novas perspectivas (NVAS) tem como objetivo renderizar áudio binaural em qualquer ponto de vista alvo, dado um áudio mono emitido por uma fonte sonora em uma cena 3D. Métodos existentes propuseram modelos implícitos baseados em NeRF para explorar pistas visuais como condição para a síntese de áudio binaural. No entanto, além da baixa eficiência decorrente da pesada renderização do NeRF, esses métodos têm uma capacidade limitada de caracterizar todo o ambiente da cena, como a geometria da sala, propriedades dos materiais e a relação espacial entre o ouvinte e a fonte sonora. Para resolver esses problemas, propomos um novo modelo de Audio-Visual Gaussian Splatting (AV-GS). Para obter uma condição consciente do material e da geometria para a síntese de áudio, aprendemos uma representação explícita da cena baseada em pontos com um parâmetro de orientação de áudio em pontos Gaussianos inicializados localmente, levando em consideração a relação espacial do ouvinte e da fonte sonora. Para tornar o modelo de cena visual adaptável ao áudio, propomos uma estratégia de densificação e poda de pontos para distribuir de forma ótima os pontos Gaussianos, com a contribuição por ponto na propagação do som (por exemplo, mais pontos são necessários para superfícies de parede sem textura, pois afetam o desvio do caminho do som). Experimentos extensivos validam a superioridade do nosso AV-GS sobre as alternativas existentes nos conjuntos de dados RWAS do mundo real e SoundSpaces baseados em simulação.

RVT-2: Aprendendo Manipulação Precisa a Partir de Poucas Demonstrações
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

Neste trabalho, estudamos como construir um sistema robótico capaz de resolver múltiplas tarefas de manipulação 3D a partir de instruções em linguagem natural. Para ser útil em ambientes industriais e domésticos, tal sistema deve ser capaz de aprender novas tarefas com poucas demonstrações e resolvê-las com precisão. Trabalhos anteriores, como PerAct e RVT, já abordaram esse problema, mas frequentemente enfrentam dificuldades em tarefas que exigem alta precisão. Investigamos como torná-los mais eficazes, precisos e rápidos. Utilizando uma combinação de melhorias arquitetônicas e em nível de sistema, propomos o RVT-2, um modelo de manipulação 3D multitarefa que é 6 vezes mais rápido no treinamento e 2 vezes mais rápido na inferência em comparação com seu antecessor, o RVT. O RVT-2 estabelece um novo estado da arte no RLBench, aumentando a taxa de sucesso de 65% para 82%. O RVT-2 também se mostra eficaz no mundo real, onde consegue aprender tarefas que exigem alta precisão, como pegar e inserir plugues, com apenas 10 demonstrações. Resultados visuais, código e o modelo treinado estão disponíveis em: https://robotic-view-transformer-2.github.io/.

GaussianSR: Super-resolução 3D com Gaussianas utilizando Priors de Difusão 2D
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

A obtenção de síntese de novas visões de alta resolução (HRNVS) a partir de visões de entrada de baixa resolução é uma tarefa desafiadora devido à falta de dados de alta resolução. Métodos anteriores otimizam campos de radiação neural (NeRF) de alta resolução a partir de visões de entrada de baixa resolução, mas sofrem com uma velocidade de renderização lenta. Neste trabalho, baseamos nosso método no Splatting Gaussiano 3D (3DGS) devido à sua capacidade de produzir imagens de alta qualidade com uma velocidade de renderização mais rápida. Para aliviar a escassez de dados para síntese de resolução mais alta, propomos aproveitar priors de difusão 2D prontamente disponíveis, destilando o conhecimento 2D em 3D com Amostragem de Destilação de Pontuação (SDS). No entanto, aplicar SDS diretamente à super-resolução 3D baseada em Gaussianos leva a primitivos Gaussianos 3D indesejáveis e redundantes, devido à aleatoriedade trazida pelos priors generativos. Para mitigar esse problema, introduzimos duas técnicas simples, mas eficazes, para reduzir as perturbações estocásticas introduzidas pelo SDS. Especificamente, 1) reduzimos o intervalo do passo de tempo de difusão no SDS com uma estratégia de recozimento; 2) descartamos aleatoriamente primitivos Gaussianos redundantes durante a densificação. Experimentos extensivos demonstraram que nosso GaussainSR proposto pode alcançar resultados de alta qualidade para HRNVS com apenas entradas de baixa resolução em conjuntos de dados sintéticos e do mundo real. Página do projeto: https://chchnii.github.io/GaussianSR/

Decodificando a Diversidade: Uma Análise do Panorama de Pesquisa em IA no Contexto Índico
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Este artigo de revisão oferece uma visão abrangente das direções de pesquisa em modelos de linguagem de grande escala (LLM) para línguas indianas. As línguas indianas são aquelas faladas no subcontinente indiano, incluindo Índia, Paquistão, Bangladesh, Sri Lanka, Nepal e Butão, entre outros. Essas línguas possuem um rico patrimônio cultural e linguístico e são faladas por mais de 1,5 bilhão de pessoas em todo o mundo. Com o enorme potencial de mercado e a crescente demanda por aplicações baseadas em processamento de linguagem natural (PLN) em diversas línguas, as aplicações generativas para línguas indianas apresentam desafios e oportunidades únicos para a pesquisa. Nosso artigo explora em profundidade os avanços recentes na modelagem generativa para línguas indianas, contribuindo com uma taxonomia das direções de pesquisa e catalogando 84 publicações recentes. As direções de pesquisa abordadas neste artigo incluem o desenvolvimento de LLMs, o ajuste fino de LLMs existentes, o desenvolvimento de corpora, a criação de benchmarks e avaliações, além de publicações sobre técnicas, ferramentas e aplicações específicas. Constatamos que os pesquisadores, ao longo das publicações, destacam os desafios associados à disponibilidade limitada de dados, à falta de padronização e às complexidades linguísticas peculiares das línguas indianas. Este trabalho visa servir como um recurso valioso para pesquisadores e profissionais que atuam no campo do PLN, especialmente aqueles focados em línguas indianas, e contribui para o desenvolvimento de aplicações de LLM mais precisas e eficientes para essas línguas.

MaskLID: Identificação de Idioma em Code-Switching por meio de Mascaramento Iterativo
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Apresentamos o MaskLID, um método simples, porém eficaz, para identificação de idiomas (LID) em situações de code-switching (CS). O MaskLID não requer nenhum treinamento e foi projetado para complementar os atuais LIDs de alto desempenho em nível de sentença. LIDs em nível de sentença são classificadores treinados em textos monolíngues para fornecer rótulos únicos, geralmente utilizando uma camada softmax para transformar pontuações em probabilidades. No entanto, em casos onde uma sentença é composta em ambos os idiomas L1 e L2, o classificador LID frequentemente retorna apenas o rótulo dominante L1. Para abordar essa limitação, o MaskLID emprega uma estratégia para mascarar as características do texto associadas ao L1, permitindo que o LID classifique o texto como L2 na próxima rodada. Este método utiliza o próprio LID para identificar as características que precisam ser mascaradas e não depende de nenhum recurso externo. Neste trabalho, exploramos o uso do MaskLID para dois LIDs de código aberto (GlotLID e OpenLID), ambos baseados na arquitetura FastText. O código e uma demonstração estão disponíveis em https://github.com/cisnlp/MaskLID.

SEACrowd: Um Hub de Dados Multimodal e Multilíngue e um Conjunto de Benchmarks para Línguas do Sudeste Asiático
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14