Artigos de pesquisa em IA selecionados diariamente com traduções
A geração em contexto é um componente chave da capacidade de generalização de tarefas abertas de grandes modelos de linguagem (LLMs). Ao aproveitar alguns exemplos como contexto, os LLMs podem realizar tarefas tanto dentro quanto fora do domínio. Avanços recentes em modelos visão-linguagem auto-regressivos (VLMs) construídos sobre LLMs têm demonstrado um desempenho impressionante na geração de texto para imagem. No entanto, o potencial da aprendizagem em contexto para tarefas gerais de geração de imagem permanece amplamente inexplorado. Para abordar isso, apresentamos o X-Prompt, um modelo de linguagem de visão grande puramente auto-regressivo projetado para fornecer um desempenho competitivo em uma ampla gama de tarefas de geração de imagem tanto vistas quanto não vistas, tudo dentro de um framework unificado de aprendizagem em contexto. O X-Prompt incorpora um design especializado que comprime eficientemente características valiosas de exemplos em contexto, suportando sequências de tokens em contexto mais longas e melhorando sua capacidade de generalizar para tarefas não vistas. Uma tarefa de treinamento unificada para previsão de texto e imagem permite que o X-Prompt lide com a geração de imagem geral com uma consciência aprimorada da tarefa a partir de exemplos em contexto. Experimentos extensivos validam o desempenho do modelo em diversas tarefas de geração de imagem vistas e sua capacidade de generalizar para tarefas previamente não vistas.
Com o rápido avanço dos modelos generativos baseados em difusão, a animação de imagens de retrato alcançou resultados notáveis. No entanto, ainda enfrenta desafios na geração de vídeos temporalmente consistentes e na amostragem rápida devido à sua natureza de amostragem iterativa. Este artigo apresenta o FLOAT, um método de geração de vídeos de retratos falantes baseado em modelos generativos de correspondência de fluxo. Transferimos a modelagem generativa do espaço latente baseado em pixels para um espaço latente de movimento aprendido, possibilitando o design eficiente de movimentos temporalmente consistentes. Para alcançar isso, introduzimos um preditor de campo vetorial baseado em transformador com um mecanismo de condicionamento simples, porém eficaz, por quadro. Além disso, nosso método suporta o aprimoramento de emoções impulsionado por fala, possibilitando a incorporação natural de movimentos expressivos. Experimentos extensivos demonstram que nosso método supera os métodos de retratos falantes impulsionados por áudio de ponta em termos de qualidade visual, fidelidade de movimento e eficiência.
O relatório técnico apresenta o O1-CODER, uma tentativa de replicar o modelo o1 da OpenAI com foco em tarefas de codificação. Ele integra aprendizado por reforço (RL) e Busca em Árvore de Monte Carlo (MCTS) para aprimorar as capacidades de pensamento do Sistema-2 do modelo. O framework inclui o treinamento de um Gerador de Casos de Teste (TCG) para testes de código padronizados, utilizando MCTS para gerar dados de código com processos de raciocínio, e ajustando iterativamente o modelo de política para inicialmente produzir pseudocódigo, seguido pela geração do código completo. O relatório também aborda as oportunidades e desafios na implantação de modelos semelhantes ao o1 em aplicações do mundo real, sugerindo a transição para o paradigma do Sistema-2 e destacando a necessidade imperativa de atualizações no estado do ambiente. O progresso do modelo atualizado e os resultados experimentais serão relatados em versões subsequentes. Todo o código-fonte, conjuntos de dados curados, bem como os modelos derivados serão divulgados em https://github.com/ADaM-BJTU/O1-CODER.
Este trabalho apresenta o Switti, um transformador em escala para geração de texto para imagem. Partindo de modelos AR existentes de previsão em próxima escala, exploramos inicialmente esses modelos para geração de T2I e propomos modificações arquiteturais para melhorar sua convergência e desempenho geral. Observamos então que os mapas de autoatenção de nosso modelo AR em escala pré-treinado exibem uma fraca dependência em relação às escalas anteriores. Com base nessa percepção, propomos um contraparte não-AR que facilita uma amostragem aproximadamente 11% mais rápida e menor uso de memória, ao mesmo tempo em que alcança uma qualidade de geração ligeiramente superior. Além disso, revelamos que a orientação sem classificador em escalas de alta resolução é frequentemente desnecessária e pode até mesmo degradar o desempenho. Ao desativar a orientação nessas escalas, conseguimos uma aceleração adicional na amostragem de cerca de 20% e melhoramos a geração de detalhes refinados. Estudos extensivos de preferência humana e avaliações automatizadas mostram que o Switti supera os modelos AR T2I existentes e compete com os modelos de difusão T2I de última geração, sendo até 7 vezes mais rápido.
Apresentamos o Plano Open-Sora, um projeto de código aberto que tem como objetivo contribuir com um modelo de geração de grande porte para produzir vídeos de alta resolução desejados com longas durações com base em várias entradas de usuário. Nosso projeto é composto por múltiplos componentes para todo o processo de geração de vídeo, incluindo um Codificador Variacional de Fluxo de Wavelet, um Desnecessário Conjunto de Imagem-Vídeo e diversos controladores de condição. Além disso, muitas estratégias auxiliares para treinamento e inferência eficientes são projetadas, e um pipeline de curadoria de dados multidimensional é proposto para obter dados de alta qualidade desejados. Beneficiando-se de ideias eficientes, nosso Plano Open-Sora alcança resultados impressionantes na geração de vídeo em avaliações qualitativas e quantitativas. Esperamos que nosso design cuidadoso e experiência prática possam inspirar a comunidade de pesquisa em geração de vídeo. Todos os nossos códigos e pesos de modelo estão publicamente disponíveis em https://github.com/PKU-YuanGroup/Open-Sora-Plan.
Os atuais modelos multimodais grandes (LMMs) enfrentam desafios significativos no processamento e compreensão de vídeos de longa duração ou alta resolução, principalmente devido à falta de conjuntos de dados de alta qualidade. Para lidar com esse problema de uma perspectiva centrada em dados, propomos o VISTA, um framework simples, porém eficaz, de Augmentação Espaçotemporal de Vídeo que sintetiza pares de instrução e acompanhamento de vídeo de longa duração e alta resolução a partir de conjuntos de dados de legendas de vídeo existentes. O VISTA combina espacial e temporalmente vídeos para criar novos vídeos sintéticos com durações estendidas e resoluções aprimoradas, e posteriormente produz pares de perguntas e respostas relacionadas a esses vídeos recém-sintetizados. Com base nesse paradigma, desenvolvemos sete métodos de aumento de vídeo e criamos o VISTA-400K, um conjunto de dados de instrução e acompanhamento de vídeo destinado a aprimorar a compreensão de vídeo de longa duração e alta resolução. O ajuste fino de vários LMMs de vídeo em nossos dados resultou em uma melhoria média de 3,3% em quatro benchmarks desafiadores para a compreensão de vídeos longos. Além disso, introduzimos o primeiro benchmark abrangente de compreensão de vídeo de alta resolução, HRVideoBench, no qual nossos modelos ajustados alcançam um ganho de desempenho de 6,5%. Esses resultados destacam a eficácia de nosso framework.
Os seres humanos são animais sociais. Como equipar personagens autônomos em 3D com inteligência social semelhante, capazes de perceber, compreender e interagir com humanos, continua sendo um problema aberto, porém fundamental. Neste artigo, apresentamos SOLAMI, o primeiro framework de Modelagem Social visão-linguagem-ação (VLA) de ponta a ponta para interação imersiva com personagens autônomos em 3D. Especificamente, SOLAMI constrói personagens autônomos em 3D a partir de três aspectos: (1) Arquitetura Social VLA: Propomos um framework unificado de VLA social para gerar respostas multimodais (fala e movimento) com base na entrada multimodal do usuário para conduzir o personagem na interação social. (2) Dados Multimodais Interativos: Apresentamos SynMSI, um conjunto de dados de interação social multimodal sintético gerado por um pipeline automático usando apenas conjuntos de dados de movimento existentes para lidar com a questão da escassez de dados. (3) Interface de Realidade Virtual Imersiva: Desenvolvemos uma interface de RV que permite aos usuários interagir de forma imersiva com esses personagens conduzidos por várias arquiteturas. Experimentos quantitativos extensivos e estudos de usuários demonstram que nosso framework resulta em respostas de personagens mais precisas e naturais (tanto na fala quanto no movimento) que estão alinhadas com as expectativas do usuário, com menor latência.
Neste artigo, apresentamos o TAPTRv3, que é construído sobre o TAPTRv2 para melhorar a robustez do rastreamento de pontos em vídeos longos. O TAPTRv2 é um framework simples semelhante ao DETR que pode rastrear com precisão qualquer ponto em vídeos do mundo real sem necessidade de volume de custo. O TAPTRv3 melhora o TAPTRv2 ao abordar sua deficiência em consultar recursos de alta qualidade em vídeos longos, nos quais os pontos de rastreamento-alvo normalmente passam por variação crescente ao longo do tempo. No TAPTRv3, propomos utilizar tanto o contexto espacial quanto temporal para obter uma melhor consulta de recursos ao longo das dimensões espacial e temporal para um rastreamento mais robusto em vídeos longos. Para uma melhor consulta de recursos espaciais, apresentamos a Atenção Cruzada Consciente do Contexto (CCA), que aproveita o contexto espacial circundante para aprimorar a qualidade dos escores de atenção ao consultar recursos de imagem. Para uma melhor consulta de recursos temporais, introduzimos a Atenção Longo-Temporal Consciente da Visibilidade (VLTA) para conduzir atenção temporal a todos os quadros anteriores considerando suas visibilidades correspondentes, o que aborda efetivamente o problema de deslocamento de recursos no TAPTRv2 causado por seu modelo longo-temporal semelhante a RNN. O TAPTRv3 supera significativamente o TAPTRv2 na maioria dos conjuntos de dados desafiadores e obtém desempenho de ponta. Mesmo quando comparado com métodos treinados com grandes volumes de dados internos adicionais, o TAPTRv3 ainda é competitivo.
Os Modelos Multimodais de Linguagem de Grande Escala (MLLMs) avançaram significativamente em tarefas de compreensão e geração visual. No entanto, a geração de conteúdo imagem-texto entrelaçado continua sendo um desafio, que requer habilidades integradas de compreensão e geração multimodal. Enquanto o progresso em modelos unificados oferece novas soluções, os benchmarks existentes são insuficientes para avaliar esses métodos devido a limitações de tamanho e diversidade de dados. Para preencher essa lacuna, apresentamos o GATE OpenING (OpenING), um benchmark abrangente composto por 5.400 instâncias de alta qualidade anotadas por humanos em 56 tarefas do mundo real. O OpenING abrange diversos cenários diários, como guia de viagem, design e brainstorming, oferecendo uma plataforma robusta para desafiar métodos desafiadores de geração entrelaçada. Além disso, apresentamos o IntJudge, um modelo de juiz para avaliar métodos de geração multimodal abertos. Treinado com um novo pipeline de dados, nosso IntJudge alcança uma taxa de concordância de 82,42% com julgamentos humanos, superando os avaliadores baseados em GPT em 11,34%. Experimentos extensivos no OpenING revelam que os métodos atuais de geração entrelaçada ainda têm um amplo espaço para melhorias. Resultados-chave sobre geração entrelaçada de imagem-texto são apresentados para orientar o desenvolvimento de modelos de próxima geração. O OpenING é de código aberto em https://opening.github.io.
Modelos substitutos baseados em aprendizado de máquina oferecem aos pesquisadores ferramentas poderosas para acelerar fluxos de trabalho baseados em simulação. No entanto, como conjuntos de dados padrão nesse espaço frequentemente abrangem pequenas classes de comportamento físico, pode ser difícil avaliar a eficácia de novas abordagens. Para abordar essa lacuna, apresentamos o Well: uma coleção em larga escala de conjuntos de dados contendo simulações numéricas de uma ampla variedade de sistemas físicos espaço-temporais. O Well se baseia em especialistas do domínio e desenvolvedores de software numérico para fornecer 15TB de dados em 16 conjuntos de dados que abrangem domínios diversos, como sistemas biológicos, dinâmica de fluidos, espalhamento acústico, bem como simulações magneto-hidrodinâmicas de fluidos extragalácticos ou explosões de supernovas. Esses conjuntos de dados podem ser usados individualmente ou como parte de uma suíte de benchmark mais ampla. Para facilitar o uso do Well, fornecemos uma interface unificada do PyTorch para treinar e avaliar modelos. Demonstramos a função desta biblioteca ao introduzir exemplos de baselines que destacam os novos desafios impostos pela dinâmica complexa do Well. O código e os dados estão disponíveis em https://github.com/PolymathicAI/the_well.
O Modelo Segment Anything 2 (SAM 2) surgiu como uma ferramenta poderosa para segmentação de objetos em vídeo e rastreamento de qualquer coisa. Os principais componentes do SAM 2 que impulsionam o impressionante desempenho de segmentação de objetos em vídeo incluem um grande codificador de imagem de vários estágios para extração de características dos quadros e um mecanismo de memória que armazena contextos de memória de quadros anteriores para auxiliar na segmentação do quadro atual. A alta complexidade computacional do codificador de imagem de vários estágios e do módulo de memória limitou suas aplicações em tarefas do mundo real, como segmentação de objetos em vídeo em dispositivos móveis. Para lidar com essa limitação, propomos os TAMs Eficientes, modelos leves de rastreamento de qualquer coisa que produzem resultados de alta qualidade com baixa latência e tamanho de modelo reduzido. Nossa ideia é baseada na revisitação do Transformer de Visão simples e não hierárquico (ViT) como um codificador de imagem para segmentação de objetos em vídeo, e na introdução de um módulo de memória eficiente, que reduz a complexidade tanto para extração de características dos quadros quanto para computação de memória para a segmentação do quadro atual. Utilizamos ViTs leves e um módulo de memória eficiente para construir os TAMs Eficientes, e treinamos os modelos nos conjuntos de dados SA-1B e SA-V para segmentação de objetos em vídeo e tarefas de rastreamento de qualquer coisa. Avaliamos em vários benchmarks de segmentação de vídeo, incluindo VOS semi-supervisionado e segmentação de vídeo promptable, e descobrimos que nosso proposto TAM Eficiente com ViT simples tem desempenho comparável ao modelo SAM 2 (HieraB+SAM 2) com ~2x mais rápido na A100 e ~2,4x de redução de parâmetros. Em tarefas de imagem de segmentação de qualquer coisa, nossos TAMs Eficientes também têm desempenho favorável em relação ao SAM original, com ~20x mais rápido na A100 e ~20x de redução de parâmetros. Em dispositivos móveis como o iPhone 15 Pro Max, nossos TAMs Eficientes podem rodar a ~10 FPS para realizar segmentação de objetos em vídeo com qualidade razoável, destacando a capacidade de modelos pequenos para aplicações de segmentação de objetos em vídeo em dispositivos.
Os modelos de difusão (DMs) destacam-se no fotorealismo, edição de imagens e resolução de problemas inversos, auxiliados por orientação sem classificador e técnicas de inversão de imagem. No entanto, os modelos de fluxo retificado (RFMs) permanecem pouco explorados para essas tarefas. Métodos existentes baseados em DM frequentemente exigem treinamento adicional, carecem de generalização para modelos latentes pré-treinados, têm desempenho inferior e demandam recursos computacionais significativos devido à extensa retropropagação por solucionadores de EDO e processos de inversão. Neste trabalho, primeiro desenvolvemos uma compreensão teórica e empírica da dinâmica do campo vetorial dos RFMs para guiar de forma eficiente a trajetória de remoção de ruído. Nossas descobertas revelam que podemos navegar no campo vetorial de maneira determinística e livre de gradientes. Aproveitando essa propriedade, propomos o FlowChef, que utiliza o campo vetorial para direcionar a trajetória de remoção de ruído para tarefas controladas de geração de imagens, facilitadas por pulos de gradientes. O FlowChef é um framework unificado para geração de imagens controladas que, pela primeira vez, aborda simultaneamente orientação de classificador, problemas inversos lineares e edição de imagens sem a necessidade de treinamento adicional, inversão ou retropropagação intensiva. Por fim, realizamos extensas avaliações e demonstramos que o FlowChef supera significativamente as bases em termos de desempenho, memória e requisitos de tempo, alcançando novos resultados de ponta. Página do Projeto: https://flowchef.github.io.
O recente aumento nas amostras de ajuste de instruções visuais de alta qualidade de modelos visão-linguagem de código fechado (VLMs) como o GPT-4V acelerou o lançamento de VLMs de código aberto em várias dimensões de modelo. No entanto, escalar VLMs para melhorar o desempenho usando modelos maiores traz desafios computacionais significativos, especialmente para implantação em dispositivos com recursos limitados, como plataformas móveis e robôs. Para lidar com isso, propomos VLsI: Camadas-para-Interações Verbalizadas, uma nova família de VLMs nos tamanhos de modelo 2B e 7B, que prioriza a eficiência sem comprometer a precisão. O VLsI aproveita um processo de destilação único, por camadas, introduzindo "verbalizadores" intermediários que mapeiam características de cada camada para o espaço da linguagem natural, permitindo que VLMs menores se alinhem de forma flexível com os processos de raciocínio de VLMs maiores. Essa abordagem mitiga a instabilidade de treinamento frequentemente encontrada na imitação de saída e vai além do ajuste típico da camada final, alinhando a progressão por camadas dos VLMs pequenos com a dos grandes. Validamos o VLsI em dez desafiantes benchmarks de visão-linguagem, alcançando ganhos de desempenho notáveis (11,0% para 2B e 17,4% para 7B) em relação ao GPT-4V sem a necessidade de escalonamento, fusão ou alterações arquiteturais do modelo.
Os Transformadores de Difusão têm demonstrado capacidades notáveis na geração de imagens, mas frequentemente vêm com uma parametrização excessiva, resultando em considerável sobrecarga de inferência em aplicações do mundo real. Neste trabalho, apresentamos o TinyFusion, um método de poda de profundidade projetado para remover camadas redundantes dos transformadores de difusão por meio de aprendizado de ponta a ponta. O princípio central de nossa abordagem é criar um modelo podado com alta capacidade de recuperação, permitindo que ele recupere um desempenho forte após o ajuste fino. Para realizar isso, introduzimos uma técnica de amostragem diferenciável para tornar a poda aprendível, combinada com um parâmetro co-otimizado para simular o ajuste fino futuro. Enquanto trabalhos anteriores se concentram em minimizar a perda ou erro após a poda, nosso método modela e otimiza explicitamente o desempenho pós-ajuste fino dos modelos podados. Resultados experimentais indicam que este paradigma aprendível oferece benefícios substanciais para a poda de camadas de transformadores de difusão, superando métodos existentes baseados em importância e erro. Além disso, o TinyFusion exibe uma forte generalização em diversas arquiteturas, como DiTs, MARs e SiTs. Experimentos com DiT-XL mostram que o TinyFusion pode criar um transformador de difusão raso a menos de 7% do custo de pré-treinamento, alcançando um aumento de velocidade de 2 vezes com um escore FID de 2.86, superando concorrentes com eficiência comparável. O código está disponível em https://github.com/VainF/TinyFusion.
A diferença de desempenho dos grandes modelos de linguagem (LLM) entre idiomas dificulta sua implantação eficaz em muitas regiões, inibindo o potencial valor econômico e social das ferramentas de IA generativa em muitas comunidades. No entanto, o desenvolvimento de LLMs funcionais em muitos idiomas (ou seja, LLMs multilíngues) é limitado pela falta de recursos de avaliação de alta qualidade em idiomas que não sejam o inglês. Além disso, as práticas atuais na construção de benchmarks multilíngues frequentemente traduzem recursos em inglês, ignorando o conhecimento regional e cultural dos ambientes nos quais os sistemas multilíngues seriam utilizados. Neste trabalho, construímos uma suíte de avaliação de 197.243 pares de perguntas e respostas de fontes de exames locais para medir as capacidades dos LLMs multilíngues em uma variedade de contextos regionais. Nosso novo recurso, INCLUDE, é um benchmark abrangente centrado no conhecimento e raciocínio em 44 idiomas escritos que avalia os LLMs multilíngues quanto ao desempenho nos ambientes linguísticos reais onde seriam implantados.
O Autoencoder Variacional de Vídeo (VAE) codifica vídeos em um espaço latente de baixa dimensão, tornando-se um componente-chave na maioria dos Modelos de Difusão de Vídeo Latente (LVDMs) para reduzir os custos de treinamento do modelo. No entanto, à medida que a resolução e a duração dos vídeos gerados aumentam, o custo de codificação dos VAEs de Vídeo se torna um gargalo limitante no treinamento dos LVDMs. Além disso, o método de inferência por blocos adotado pela maioria dos LVDMs pode levar a descontinuidades no espaço latente ao processar vídeos de longa duração. A chave para lidar com o gargalo computacional está na decomposição dos vídeos em componentes distintos e na codificação eficiente das informações críticas. A transformada wavelet pode decompor vídeos em múltiplos componentes de domínio de frequência e melhorar significativamente a eficiência, portanto, propomos o Autoencoder de Fluxo Wavelet (WF-VAE), um autoencoder que aproveita a transformada wavelet em vários níveis para facilitar o fluxo de energia de baixa frequência na representação latente. Além disso, introduzimos um método chamado Causal Cache, que mantém a integridade do espaço latente durante a inferência por blocos. Em comparação com os VAEs de vídeo de última geração, o WF-VAE demonstra desempenho superior em ambas as métricas PSNR e LPIPS, alcançando uma taxa de transferência 2 vezes maior e um consumo de memória 4 vezes menor, mantendo uma qualidade de reconstrução competitiva. Nosso código e modelos estão disponíveis em https://github.com/PKU-YuanGroup/WF-VAE.
As preocupações com a segurança dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) gradualmente se tornaram um problema importante em várias aplicações. Surpreendentemente, trabalhos anteriores indicam um fenômeno contra-intuitivo de que o desaprendizado textual para alinhar MLLMs alcança desempenhos de segurança comparáveis aos MLLMs treinados com pares de imagem-texto. Para explicar tal fenômeno contra-intuitivo, descobrimos um problema de vazamento de informações visuais de segurança (VSIL) em benchmarks de segurança multimodais existentes, ou seja, o conteúdo potencialmente arriscado e sensível na imagem foi revelado na consulta textual. Dessa forma, os MLLMs podem facilmente recusar essas consultas sensíveis de texto-imagem de acordo com as consultas textuais. No entanto, pares de imagem-texto sem VSIL são comuns em cenários do mundo real e são ignorados pelos benchmarks de segurança multimodais existentes. Para isso, construímos o benchmark de segurança multimodal visual sem vazamento (VLSBench) impedindo o vazamento de segurança visual da imagem para a consulta textual com 2,4 mil pares de imagem-texto. Os resultados experimentais indicam que o VLSBench representa um desafio significativo tanto para MLLMs de código aberto quanto de código fechado, incluindo LLaVA, Qwen2-VL, Llama3.2-Vision e GPT-4o. Este estudo demonstra que o alinhamento textual é suficiente para cenários de segurança multimodal com VSIL, enquanto o alinhamento multimodal é uma solução mais promissora para cenários de segurança multimodal sem VSIL. Por favor, consulte nosso código e dados em: http://hxhcreate.github.io/VLSBench
Apresentamos o Presto, um novo modelo de difusão de vídeo projetado para gerar vídeos de 15 segundos com coerência de longo alcance e conteúdo rico. Estender métodos de geração de vídeo para manter diversidade de cenários ao longo de longas durações apresenta desafios significativos. Para lidar com isso, propomos uma estratégia de Atenção Cruzada Segmentada (SCA), que divide estados ocultos em segmentos ao longo da dimensão temporal, permitindo que cada segmento atenda cruzadamente a uma legenda correspondente. O SCA não requer parâmetros adicionais, possibilitando a incorporação contínua em arquiteturas atuais baseadas em DiT. Para facilitar a geração de vídeos longos de alta qualidade, construímos o conjunto de dados LongTake-HD, composto por 261 mil vídeos ricos em conteúdo com coerência de cenário, anotados com uma legenda geral de vídeo e cinco sublegendas progressivas. Experimentos mostram que nosso Presto alcança 78,5% no Escore Semântico do VBench e 100% no Grau Dinâmico, superando os métodos de geração de vídeo de última geração existentes. Isso demonstra que nosso Presto proposto aprimora significativamente a riqueza de conteúdo, mantém a coerência de longo alcance e captura detalhes textuais intrincados. Mais detalhes estão disponíveis em nossa página do projeto: https://presto-video.github.io/.
Exploramos a questão: "Quanta conhecimento de arte prévia é necessário para criar arte?" Para investigar isso, propomos um modelo de geração de texto para imagem treinado sem acesso a conteúdo relacionado à arte. Em seguida, introduzimos um método simples, porém eficaz, para aprender um adaptador de arte usando apenas alguns exemplos de estilos artísticos selecionados. Nossos experimentos mostram que a arte gerada usando nosso método é percebida pelos usuários como comparável à arte produzida por modelos treinados em conjuntos de dados grandes e ricos em arte. Por fim, por meio de técnicas de atribuição de dados, ilustramos como exemplos de conjuntos de dados artísticos e não artísticos contribuíram para a criação de novos estilos artísticos.
Erros na compreensão de informações visuais em imagens (ou seja, erros de percepção visual) continuam sendo uma fonte importante de equívocos em Modelos de Linguagem de Visão Ampliada (LVLMs). Enquanto uma análise mais aprofundada é essencial, há uma deficiência em conjuntos de dados para avaliar a percepção visual dos LVLMs. Neste trabalho, apresentamos o VisOnlyQA, um novo conjunto de dados projetado para avaliar diretamente as capacidades de percepção visual dos LVLMs em perguntas sobre informações geométricas e numéricas em figuras científicas. Nosso conjunto de dados nos permite analisar a percepção visual dos LVLMs para informações visuais detalhadas, independentemente de outras capacidades, como raciocínio. O conjunto de avaliação do VisOnlyQA inclui 1.200 perguntas de múltipla escolha em 12 tarefas em quatro categorias de figuras. Também fornecemos dados de treinamento sintéticos compostos por 70 mil instâncias. Nossos experimentos no VisOnlyQA destacam as seguintes descobertas: (i) 20 LVLMs que avaliamos, incluindo GPT-4o e Gemini 1.5 Pro, têm um desempenho ruim nas tarefas de percepção visual no VisOnlyQA, enquanto o desempenho humano é quase perfeito. (ii) O ajuste fino nos dados de treinamento sintéticos demonstra o potencial para aprimorar a percepção visual dos LVLMs, mas as melhorias observadas são limitadas a determinadas tarefas e modelos específicos. (iii) Modelos de linguagem mais robustos melhoram a percepção visual dos LVLMs. Em resumo, nossos experimentos sugerem que tanto os dados de treinamento quanto as arquiteturas de modelo devem ser aprimorados para melhorar as capacidades de percepção visual dos LVLMs. Os conjuntos de dados, código e respostas do modelo estão disponíveis em https://github.com/psunlpgroup/VisOnlyQA.
Os avanços recentes em modelos de linguagem baseados em vídeo (Video LLMs) testemunharam o surgimento de diversas capacidades para raciocinar e interpretar conteúdo visual dinâmico. Entre eles, os vídeos de jogabilidade se destacam como uma fonte de dados distinta, frequentemente contendo falhas que desafiam o senso comum da física. Essa característica os torna um benchmark eficaz para avaliar a capacidade pouco explorada de compreensão do senso comum físico em Video LLMs. Neste artigo, propomos o PhysGame como um benchmark pioneiro para avaliar violações do senso comum físico em vídeos de jogabilidade. O PhysGame é composto por 880 vídeos associados a falhas que abrangem quatro domínios fundamentais (ou seja, mecânica, cinemática, óptica e propriedades de materiais) e abrange 12 senso comum físico distintos. Ao avaliar extensivamente diversos Video LLMs de ponta, nossas descobertas revelam que o desempenho dos atuais Video LLMs de código aberto fica significativamente atrás dos concorrentes proprietários. Para preencher essa lacuna, criamos um conjunto de dados de ajuste de instruções, o PhysInstruct, com 140.057 pares de perguntas e respostas para facilitar a aprendizagem do senso comum físico. Além disso, também propomos um conjunto de dados de otimização de preferências, o PhysDPO, com 34.358 pares de treinamento, onde as respostas não preferidas são geradas condicionadas a títulos enganosos (ou seja, hacking de informações meta), menos frames (ou seja, hacking temporal) e menores resoluções espaciais (ou seja, hacking espacial). Com base no conjunto de conjuntos de dados, propomos o PhysVLM como um Video LLM aprimorado com conhecimento físico. Experimentos extensivos tanto no benchmark orientado fisicamente PhysGame quanto em benchmarks gerais de compreensão de vídeo demonstram o desempenho de ponta do PhysVLM.
Propomos um algoritmo geral de dois estágios que desfruta de uma lei de escalonamento comprovada para o cálculo de tempo de teste de grandes modelos de linguagem (LLMs). Dado um problema de entrada, o algoritmo proposto primeiro gera N soluções candidatas e, em seguida, escolhe a melhor por meio de um torneio de eliminação de múltiplas rodadas, onde cada par de candidatos é comparado K vezes e apenas os vencedores avançam para a próxima rodada. Em uma implementação minimalista, ambos os estágios podem ser executados apenas com um LLM de caixa-preta e nada mais (por exemplo, sem verificador externo ou modelo de recompensa), e um total de N vezes (K + 1) chamadas altamente paralelizáveis de LLM são necessárias para resolver um problema de entrada. Supondo que uma solução candidata gerada esteja correta com probabilidade p_{gen} > 0 e que uma comparação entre um par de soluções corretas e incorretas identifique o vencedor correto com probabilidade p_{comp} > 0.5 (ou seja, melhor do que um palpite aleatório), provamos teoricamente que a probabilidade de falha do algoritmo proposto decai exponencialmente para zero em relação a N e K: $P(a saída final está incorreta) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Nossos resultados empíricos com o desafiador benchmark MMLU-Pro validam as suposições técnicas, bem como a eficácia do algoritmo proposto e os ganhos ao aumentar o cálculo de tempo de teste.
As tarefas de navegação de objetivo de instância incorporada existentes, impulsionadas pela linguagem natural, pressupõem que os usuários humanos forneçam descrições de instância completas e nuances antes da navegação, o que pode ser impraticável no mundo real, uma vez que as instruções humanas podem ser breves e ambíguas. Para preencher essa lacuna, propomos uma nova tarefa, Navegação de Instância Colaborativa (CoIN), com interação dinâmica agente-humano durante a navegação para resolver ativamente incertezas sobre a instância alvo em diálogos naturais, sem modelos predefinidos e abertos. Para lidar com o CoIN, propomos um novo método, Interação Agente-Usuário com Consciência de Incerteza (AIUTA), aproveitando a capacidade de percepção dos Modelos de Linguagem Visual (VLMs) e a capacidade dos Modelos de Linguagem Grandes (LLMs). Primeiramente, após a detecção do objeto, um modelo Auto-Questionador inicia um auto-diálogo para obter uma descrição de observação completa e precisa, enquanto uma nova técnica de estimativa de incerteza mitiga a percepção imprecisa do VLM. Em seguida, um módulo de Gatilho de Interação determina se deve fazer uma pergunta ao usuário, continuar ou interromper a navegação, minimizando a entrada do usuário. Para avaliação, introduzimos o CoIN-Bench, um benchmark que suporta tanto humanos reais quanto simulados. O AIUTA alcança um desempenho competitivo na navegação de instâncias em comparação com métodos de ponta, demonstrando grande flexibilidade no tratamento das entradas do usuário.
Os avanços recentes em modelos de difusão estabeleceram novos padrões na geração de imagens e vídeos, possibilitando a síntese visual realista em contextos de quadros únicos e múltiplos. No entanto, esses modelos ainda enfrentam dificuldades em gerar conteúdo 3D de forma eficiente e explícita. Para lidar com isso, propomos a Difusão de Vídeo Consistente com o Mundo (WVD), um novo framework que incorpora supervisão 3D explícita usando imagens XYZ, que codificam coordenadas 3D globais para cada pixel da imagem. Mais especificamente, treinamos um transformador de difusão para aprender a distribuição conjunta de quadros RGB e XYZ. Esta abordagem suporta adaptabilidade multitarefa por meio de uma estratégia flexível de inpainting. Por exemplo, o WVD pode estimar quadros XYZ a partir de RGB verdadeiro ou gerar novos quadros RGB usando projeções XYZ ao longo de uma trajetória de câmera especificada. Ao fazer isso, o WVD unifica tarefas como geração de imagem única para 3D, estéreo de múltiplas vistas e geração de vídeo controlado por câmera. Nossa abordagem demonstra desempenho competitivo em vários benchmarks, fornecendo uma solução escalável para geração de vídeo e imagem 3D consistente com um único modelo pré-treinado.
Fazer analogias é fundamental para a cognição. Analogias proporcionais, que consistem em quatro termos, são frequentemente utilizadas para avaliar habilidades linguísticas e cognitivas. Por exemplo, completar analogias como "Oxigênio é para Gás como <em branco> é para <em branco>" requer identificar o relacionamento semântico (por exemplo, "tipo de") entre o primeiro par de termos ("Oxigênio" e "Gás") e encontrar um segundo par que compartilhe o mesmo relacionamento (por exemplo, "Alumínio" e "Metal"). Neste trabalho, apresentamos um conjunto de dados de 15 mil perguntas de escolha múltipla para a conclusão de analogias proporcionais e avaliamos o desempenho de Modelos de Linguagem Grandes (LLMs) contemporâneos em vários contextos de prompt aprimorados com conhecimento. Especificamente, nós enriquecemos os prompts com três tipos de conhecimento: exemplar, estruturado e direcionado. Nossos resultados mostram que, apesar dos extensos dados de treinamento, resolver analogias proporcionais continua sendo um desafio para os atuais LLMs, com o melhor modelo alcançando uma precisão de 55%. Notavelmente, descobrimos que fornecer conhecimento direcionado pode ajudar melhor os modelos a completar analogias proporcionais em comparação com a disponibilização de exemplares ou coleções de conhecimento estruturado.
Alcançar um alinhamento preciso entre instruções textuais e imagens geradas na geração de texto para imagem é um desafio significativo, especialmente na renderização de texto escrito dentro de imagens. Modelos de ponta como Stable Diffusion 3 (SD3), Flux e AuraFlow ainda enfrentam dificuldades com a representação precisa de texto, resultando em erros de ortografia ou texto inconsistente. Apresentamos um método sem necessidade de treinamento, com sobrecarga computacional mínima, que melhora significativamente a qualidade da renderização de texto. Especificamente, introduzimos um amostrador de overshooting para modelos pré-treinados de fluxo retificado (RF), alternando entre a superestimação da equação diferencial ordinária (ODE) aprendida e a reintrodução de ruído. Em comparação com o amostrador de Euler, o amostrador de overshooting introduz efetivamente um termo extra de dinâmica de Langevin que pode ajudar a corrigir o erro acumulado a partir de passos sucessivos de Euler e, portanto, melhorar a renderização de texto. No entanto, quando a força de overshooting é alta, observamos artefatos de oversmoothing nas imagens geradas. Para abordar esse problema, propomos um amostrador de Overshooting Modulado por Atenção (AMO), que controla adaptativamente a força de overshooting para cada patch de imagem de acordo com sua pontuação de atenção com o conteúdo do texto. O AMO demonstra uma melhoria de 32,3% e 35,9% na precisão da renderização de texto no SD3 e Flux sem comprometer a qualidade geral da imagem ou aumentar o custo de inferência.
Nas últimas décadas, os algoritmos de condução autônoma avançaram significativamente em percepção, planejamento e controle. No entanto, avaliar componentes individuais não reflete totalmente o desempenho de sistemas inteiros, destacando a necessidade de métodos de avaliação mais holísticos. Isso motiva o desenvolvimento do HUGSIM, um simulador em tempo real, foto-realista e em circuito fechado para avaliar algoritmos de condução autônoma. Isso é alcançado elevando imagens 2D RGB capturadas para o espaço 3D por meio do 3D Gaussian Splatting, melhorando a qualidade de renderização para cenários em circuito fechado e construindo o ambiente em circuito fechado. Em termos de renderização, enfrentamos desafios de síntese de visualização inovadora em cenários em circuito fechado, incluindo extrapolação de ponto de vista e renderização de veículos em 360 graus. Além da síntese de visualização inovadora, o HUGSIM também possibilita o ciclo completo de simulação em circuito fechado, atualizando dinamicamente os estados e observações do ego e dos atores com base nos comandos de controle. Além disso, o HUGSIM oferece um benchmark abrangente em mais de 70 sequências do KITTI-360, Waymo, nuScenes e PandaSet, juntamente com mais de 400 cenários variados, fornecendo uma plataforma de avaliação justa e realista para os algoritmos de condução autônoma existentes. O HUGSIM não apenas serve como um benchmark de avaliação intuitivo, mas também desbloqueia o potencial para ajustar finamente os algoritmos de condução autônoma em um ambiente foto-realista em circuito fechado.
A detecção de conteúdo abusivo online, especialmente em ambientes de recursos limitados e na modalidade de áudio, permanece pouco explorada. Investigamos o potencial de representações de áudio pré-treinadas para detectar linguagem abusiva em idiomas de recursos limitados, neste caso, em idiomas indianos usando Aprendizado com Poucos Exemplos (FSL). Aproveitando representações poderosas de modelos como Wav2Vec e Whisper, exploramos a detecção de abuso entre idiomas usando o conjunto de dados ADIMA com FSL. Nossa abordagem integra essas representações dentro do framework de Aprendizado Meta-Agnóstico de Modelo (MAML) para classificar linguagem abusiva em 10 idiomas. Experimentamos com vários tamanhos de exemplos (50-200), avaliando o impacto de dados limitados no desempenho. Além disso, foi realizada um estudo de visualização de características para entender melhor o comportamento do modelo. Este estudo destaca a capacidade de generalização de modelos pré-treinados em cenários de recursos limitados e oferece insights valiosos para detectar linguagem abusiva em contextos multilíngues.
Um sistema de verificação de locutor (SV) oferece um serviço de autenticação projetado para confirmar se uma determinada amostra de fala se origina de um locutor específico. Essa tecnologia abriu caminho para várias aplicações personalizadas que atendem às preferências individuais. Um desafio notável enfrentado pelos sistemas SV é a capacidade de manter um desempenho consistente em uma variedade de espectros emocionais. A maioria dos modelos existentes apresenta altas taxas de erro ao lidar com enunciados emocionais em comparação com os neutros. Consequentemente, esse fenômeno frequentemente resulta na perda de fala de interesse. Esse problema decorre principalmente da disponibilidade limitada de dados de fala emocional rotulados, dificultando o desenvolvimento de representações robustas de locutores que abranjam diversos estados emocionais. Para abordar essa preocupação, propomos uma abordagem inovadora que utiliza o framework CycleGAN como método de aumento de dados. Essa técnica sintetiza segmentos de fala emocional para cada locutor específico, preservando a identidade vocal única. Nossos resultados experimentais destacam a eficácia da incorporação de dados emocionais sintéticos no processo de treinamento. Os modelos treinados usando esse conjunto de dados aumentado superam consistentemente os modelos de referência na tarefa de verificar locutores em cenários de fala emocional, reduzindo a taxa de erro igual em até 3,64% em relação.