ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Sapiens: Fundação para Modelos de Visão Humana
Sapiens: Foundation for Human Vision Models

Aug 22
ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
94
3

Apresentamos Sapiens, uma família de modelos para quatro tarefas fundamentais de visão centradas no ser humano - estimativa de pose 2D, segmentação de partes do corpo, estimativa de profundidade e previsão de normais de superfície. Nossos modelos suportam nativamente inferência de alta resolução de 1K e são extremamente fáceis de adaptar para tarefas individuais simplesmente ajustando modelos pré-treinados em mais de 300 milhões de imagens de humanos em ambientes naturais. Observamos que, dado o mesmo orçamento computacional, o pré-treinamento auto-supervisionado em um conjunto de dados selecionado de imagens humanas impulsiona significativamente o desempenho para uma variedade de tarefas centradas no ser humano. Os modelos resultantes apresentam uma notável capacidade de generalização para dados em ambientes naturais, mesmo quando os dados rotulados são escassos ou inteiramente sintéticos. Nosso design de modelo simples também traz escalabilidade - o desempenho do modelo em diversas tarefas melhora à medida que escalamos o número de parâmetros de 0,3 a 2 bilhões. Sapiens consistentemente supera os baselines existentes em diversos benchmarks centrados no ser humano. Alcançamos melhorias significativas em relação ao estado-da-arte anterior em Humans-5K (pose) em 7,6 mAP, Humans-2K (parte-seg) em 17,1 mIoU, Hi4D (profundidade) em 22,4% de RMSE relativo, e THuman2 (normal) em 53,5% de erro angular relativo.

2

Geração de Texto Controlável para Modelos de Linguagem de Grande Escala: Uma Pesquisa
Controllable Text Generation for Large Language Models: A Survey

Aug 22
ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li
65
2

Na Processamento de Linguagem Natural (PLN), os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado alta qualidade na geração de texto. No entanto, em aplicações do mundo real, os LLMs precisam atender a requisitos cada vez mais complexos. Além de evitar conteúdo enganoso ou inadequado, espera-se que os LLMs atendam às necessidades específicas dos usuários, como imitar estilos de escrita particulares ou gerar texto com riqueza poética. Essas demandas variadas impulsionaram o desenvolvimento de técnicas de Geração de Texto Controlável (CTG), que garantem que as saídas estejam em conformidade com condições de controle predefinidas - como segurança, sentimento, consistência temática e estilo linguístico - mantendo altos padrões de utilidade, fluidez e diversidade. Este artigo revisa sistematicamente os avanços mais recentes em CTG para LLMs, oferecendo uma definição abrangente de seus conceitos principais e esclarecendo os requisitos para condições de controle e qualidade de texto. Nós categorizamos as tarefas de CTG em dois tipos principais: controle de conteúdo e controle de atributos. Os principais métodos são discutidos, incluindo o retrabalho do modelo, ajuste fino, aprendizado por reforço, engenharia de prompts, manipulação do espaço latente e intervenção no momento da decodificação. Analisamos as características, vantagens e limitações de cada método, fornecendo insights detalhados para alcançar o controle de geração. Além disso, revisamos os métodos de avaliação de CTG, resumimos suas aplicações em diferentes domínios e abordamos os principais desafios na pesquisa atual, incluindo redução de fluidez e praticidade. Também propomos várias sugestões, como dar maior ênfase a aplicações do mundo real em pesquisas futuras. Este artigo tem como objetivo oferecer orientações valiosas para pesquisadores e desenvolvedores na área. Nossa lista de referências e a versão em chinês estão disponíveis em código aberto em https://github.com/IAAR-Shanghai/CTGSurvey.

3

Open-FinLLMs: Modelos de Linguagem Multimodais Grandes Abertos para Aplicações Financeiras
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20
ByQianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou
63
3

Grandes modelos de linguagem (LLMs) têm avançado em aplicações financeiras, no entanto, frequentemente carecem de conhecimento financeiro suficiente e enfrentam dificuldades em tarefas envolvendo entradas multimodais como tabelas e dados de séries temporais. Para lidar com essas limitações, apresentamos os Open-FinLLMs, uma série de LLMs Financeiros. Começamos com o FinLLaMA, pré-treinado em um corpus financeiro de 52 bilhões de tokens, incorporando texto, tabelas e dados de séries temporais para incorporar conhecimento financeiro abrangente. O FinLLaMA é então ajustado com instruções com 573 mil instruções financeiras, resultando no FinLLaMA-instruct, que melhora o desempenho em tarefas. Por fim, apresentamos o FinLLaVA, um LLM multimodal treinado com 1,43 milhões de instruções de imagem-texto para lidar com tipos complexos de dados financeiros. Avaliações extensas demonstram o desempenho superior do FinLLaMA em relação ao LLaMA3-8B, LLaMA3.1-8B e BloombergGPT em configurações de zero-shot e few-shot em 19 e 4 conjuntos de dados, respectivamente. O FinLLaMA-instruct supera o GPT-4 e outros LLMs Financeiros em 15 conjuntos de dados. O FinLLaVA se destaca na compreensão de tabelas e gráficos em 4 tarefas multimodais. Além disso, o FinLLaMA alcança índices Sharpe impressionantes em simulações de negociação, destacando suas robustas capacidades de aplicação financeira. Continuaremos a manter e aprimorar nossos modelos e benchmarks para apoiar a inovação contínua na academia e na indústria.

4

Relatório Técnico do Hermes 3
Hermes 3 Technical Report

Aug 15
ByRyan Teknium, Jeffrey Quesnelle, Chen Guang
56
8

Os modelos ajustados por instruções (ou "conversacionais") tornaram-se a principal forma pela qual a maioria das pessoas interage com grandes modelos de linguagem. Ao contrário dos modelos "base" ou "fundamentais", os modelos ajustados por instruções são otimizados para responder a declarações imperativas. Apresentamos o Hermes 3, um modelo generalista alinhado de forma neutra para instruções e uso de ferramentas, com fortes habilidades de raciocínio e criatividade. Sua maior versão, Hermes 3 405B, alcança um desempenho de ponta entre os modelos de peso aberto em vários benchmarks públicos.

5

Mostrar: Um Único Transformador para Unificar a Compreensão e Geração Multimodal
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22
ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou
51
2

Apresentamos um transformer unificado, ou seja, Show-o, que unifica a compreensão e geração multimodal. Ao contrário de modelos totalmente autoregressivos, o Show-o unifica modelagem autoregressiva e de difusão (discreta) para lidar adaptativamente com entradas e saídas de várias e mistas modalidades. O modelo unificado suporta de forma flexível uma ampla gama de tarefas visão-linguagem, incluindo questionamento-resposta visual, geração de texto para imagem, inpainting/extrapolação guiados por texto e geração de multimodalidade. Em diversos benchmarks, ele demonstra desempenho comparável ou superior aos modelos individuais existentes com um número equivalente ou maior de parâmetros adaptados para compreensão ou geração. Isso destaca significativamente seu potencial como um modelo fundamental de próxima geração. O código e os modelos estão disponíveis em https://github.com/showlab/Show-o.

6

xGen-VideoSyn-1: Síntese de Texto para Vídeo de Alta Fidelidade com Representações Comprimidas
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22
ByCan Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
36
5

Apresentamos xGen-VideoSyn-1, um modelo de geração texto-para-vídeo (T2V) capaz de produzir cenas realistas a partir de descrições textuais. Construindo sobre avanços recentes, como o Sora da OpenAI, exploramos a arquitetura do modelo de difusão latente (LDM) e introduzimos um autoencoder variacional de vídeo (VidVAE). O VidVAE comprime dados de vídeo tanto espacial quanto temporalmente, reduzindo significativamente o comprimento de tokens visuais e as demandas computacionais associadas à geração de vídeos de sequência longa. Para lidar com os custos computacionais, propomos uma estratégia de divisão e fusão que mantém consistência temporal entre segmentos de vídeo. Nosso modelo Transformer de Difusão (DiT) incorpora camadas de autoatenção espacial e temporal, permitindo generalização robusta em diferentes intervalos de tempo e proporções de aspecto. Criamos um pipeline de processamento de dados desde o início e coletamos mais de 13 milhões de pares vídeo-texto de alta qualidade. O pipeline inclui múltiplos passos como recorte, detecção de texto, estimativa de movimento, pontuação estética e legendagem densa com base em nosso modelo de vídeo-LLM interno. O treinamento dos modelos VidVAE e DiT exigiu aproximadamente 40 e 642 dias H100, respectivamente. Nosso modelo suporta geração de vídeo de 720p com mais de 14 segundos de forma integrada e demonstra desempenho competitivo em comparação com modelos T2V de ponta.

7

Jamba-1.5: Modelos Híbridos Transformer-Mamba em Escala
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22
ByJamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
33
3

Apresentamos o Jamba-1.5, novos modelos de linguagem grandes ajustados por instruções com base em nossa arquitetura Jamba. Jamba é uma arquitetura híbrida de mistura de especialistas Transformer-Mamba, proporcionando alta taxa de transferência e baixo uso de memória em diferentes comprimentos de contexto, mantendo a mesma ou melhor qualidade em comparação com modelos Transformer. Lançamos dois tamanhos de modelo: Jamba-1.5-Large, com 94 bilhões de parâmetros ativos, e Jamba-1.5-Mini, com 12 bilhões de parâmetros ativos. Ambos os modelos são ajustados para uma variedade de capacidades de conversação e seguimento de instruções, e possuem um comprimento de contexto efetivo de 256 mil tokens, o maior entre os modelos de peso aberto. Para suportar inferência com custo efetivo, introduzimos ExpertsInt8, uma técnica de quantização inovadora que permite ajustar o Jamba-1.5-Large em uma máquina com 8 GPUs de 80GB ao processar contextos de 256 mil tokens sem perda de qualidade. Quando avaliados em uma bateria de benchmarks acadêmicos e de chatbot, os modelos Jamba-1.5 alcançam excelentes resultados, proporcionando alta taxa de transferência e superando outros modelos de peso aberto em benchmarks de longo contexto. Os pesos do modelo para ambos os tamanhos estão disponíveis publicamente sob a Licença de Modelo Aberto Jamba e disponibilizamos o ExpertsInt8 como código aberto.

8

DreamCinema: Transferência Cinemática com Câmera Livre e Personagem 3D
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22
ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan
31
2

Estamos vivendo em uma era próspera de mídia digital, onde todos têm o potencial de se tornar um cineasta pessoal. A pesquisa atual sobre transferência cinematográfica capacita os cineastas a reproduzir e manipular os elementos visuais (por exemplo, cinematografia e comportamentos de personagens) de cenas clássicas. No entanto, os personagens nos filmes reimaginados ainda dependem de criação manual, o que envolve uma complexidade técnica significativa e altos custos, tornando isso inatingível para usuários comuns. Além disso, a cinematografia estimada carece de suavidade devido à captura inadequada de movimento entre quadros e modelagem de trajetórias físicas. Felizmente, o notável sucesso da IA generativa 2D e 3D abriu a possibilidade de gerar eficientemente personagens adaptados às necessidades dos usuários, diversificando a cinematografia. Neste artigo, propomos o DreamCinema, um novo framework de transferência cinematográfica que pioneira a IA generativa no paradigma de produção cinematográfica, com o objetivo de facilitar a criação de filmes amigáveis ao usuário. Especificamente, primeiro extraímos elementos cinematográficos (ou seja, pose humana e da câmera) e otimizamos a trajetória da câmera. Em seguida, aplicamos um gerador de personagens para criar eficientemente personagens 3D de alta qualidade com uma estrutura humana prévia. Por fim, desenvolvemos uma estratégia de transferência de movimento guiada por estrutura para incorporar personagens gerados na criação de filmes e transferi-los suavemente por meio de motores gráficos 3D. Experimentos extensivos demonstram a eficácia de nosso método para criar filmes de alta qualidade com câmera livre e personagens 3D.

9

A exploração dos incorporadores focados em russo: benchmark ruMTEB e design do modelo de incorporação russo.
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22
ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov
27
1

Os modelos de incorporação desempenham um papel crucial no Processamento de Linguagem Natural (PLN) ao criar incorporações de texto usadas em várias tarefas, como recuperação de informação e avaliação da similaridade semântica de textos. Este artigo concentra-se em pesquisas relacionadas a modelos de incorporação na língua russa. Ele apresenta um novo modelo de incorporação focado no russo chamado ru-en-RoSBERTa e o benchmark ruMTEB, a versão russa que estende o Massive Text Embedding Benchmark (MTEB). Nosso benchmark inclui sete categorias de tarefas, como similaridade textual semântica, classificação de texto, reclassificação e recuperação. A pesquisa também avalia um conjunto representativo de modelos russos e multilíngues no benchmark proposto. Os resultados indicam que o novo modelo alcança resultados equivalentes aos modelos de ponta em russo. Lançamos o modelo ru-en-RoSBERTa, e o framework ruMTEB vem com código aberto, integração no framework original e um quadro de líderes públicos.

10

Geração de Imagens Autoregressiva Escalável com Mamba
Scalable Autoregressive Image Generation with Mamba

Aug 22
ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
26
2

Apresentamos AiM, um modelo generativo de imagens autoregressivo (AR) baseado na arquitetura Mamba. AiM utiliza Mamba, um modelo de espaço de estados inovador caracterizado por seu desempenho excepcional para modelagem de sequências longas com complexidade de tempo linear, para substituir os Transformadores comumente utilizados em modelos de geração de imagens AR, com o objetivo de alcançar tanto uma qualidade de geração superior quanto uma velocidade de inferência aprimorada. Ao contrário dos métodos existentes que adaptam o Mamba para lidar com sinais bidimensionais por meio de varredura multidirecional, AiM utiliza diretamente o paradigma de previsão do próximo token para geração de imagens autoregressiva. Esta abordagem contorna a necessidade de extensas modificações para permitir que o Mamba aprenda representações espaciais 2D. Ao implementar modificações simples, porém estrategicamente direcionadas para tarefas generativas visuais, preservamos a estrutura central do Mamba, explorando totalmente suas eficientes capacidades de modelagem de sequências longas e escalabilidade. Fornecemos modelos AiM em várias escalas, com contagens de parâmetros variando de 148M a 1.3B. No benchmark ImageNet1K 256*256, nosso melhor modelo AiM alcança um FID de 2.21, superando todos os modelos AR existentes com contagens de parâmetros comparáveis e demonstrando uma competitividade significativa em relação aos modelos de difusão, com uma velocidade de inferência de 2 a 10 vezes mais rápida. O código está disponível em https://github.com/hp-l33/AiM

11

Vintern-1B: Um Modelo de Linguagem Multimodal Grande e Eficiente para o Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22
ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
25
5

Neste relatório, apresentamos o Vintern-1B, um modelo de linguagem multimodal grande e confiável com 1 bilhão de parâmetros (MLLM) para tarefas em língua vietnamita. Ao integrar o modelo de linguagem Qwen2-0.5B-Instruct com o modelo visual InternViT-300M-448px, o Vintern-1B é otimizado para uma variedade de aplicações, incluindo reconhecimento óptico de caracteres (OCR), extração de documentos e perguntas e respostas gerais no contexto vietnamita. O modelo é ajustado em um extenso conjunto de dados com mais de 3 milhões de pares imagem-pergunta-resposta, alcançando desempenho robusto e resultados confiáveis em vários benchmarks da língua vietnamita, como OpenViVQA e ViTextVQA. O Vintern-1B é compacto o suficiente para ser facilmente integrado em diversas aplicações em dispositivos. Além disso, disponibilizamos vários conjuntos de dados vietnamitas de perguntas e respostas visuais (VQA) para texto e diagramas, criados com o Gemini 1.5 Flash. Nossos modelos estão disponíveis em: https://huggingface.co/5CD-AI/Vintern-1B-v2.

12

Geração de Vídeo em Tempo Real com Transmissão de Atenção em Pirâmide
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22
ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
17
2

Apresentamos a Transmissão de Atenção em Pirâmide (PAB), uma abordagem em tempo real, de alta qualidade e sem necessidade de treinamento para geração de vídeo baseada em DiT. Nosso método é fundamentado na observação de que a diferença de atenção no processo de difusão exibe um padrão em forma de U, indicando uma redundância significativa. Mitigamos isso transmitindo as saídas de atenção para etapas subsequentes em um estilo de pirâmide. Aplicamos diferentes estratégias de transmissão para cada atenção com base em sua variância para obter a melhor eficiência. Além disso, introduzimos a transmissão sequencial paralela para uma inferência distribuída mais eficiente. O PAB demonstra resultados superiores em três modelos em comparação com os baselines, alcançando geração em tempo real para vídeos de até 720p. Antecipamos que nosso método simples, porém eficaz, servirá como uma linha de base robusta e facilitará pesquisas e aplicações futuras para geração de vídeo.

13

Estrategista: Aprendizado de Habilidades Estratégicas por LLMs via Busca em Árvore em Dois Níveis
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20
ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
15
2

Neste artigo, propomos um novo método chamado Estrategista que utiliza LLMs para adquirir novas habilidades para jogar jogos multiagentes por meio de um processo de auto aprimoramento. Nosso método coleta feedback de qualidade por meio de simulações de autojogo com busca em árvore de Monte Carlo e reflexão baseada em LLM, que pode então ser usado para aprender habilidades estratégicas de alto nível, como avaliar estados que orientam a execução de baixo nível. Demonstramos como nosso método pode ser usado tanto no planejamento de ações quanto na geração de diálogos no contexto de jogos, alcançando bom desempenho em ambas as tarefas. Especificamente, demonstramos que nosso método pode ajudar a treinar agentes com melhor desempenho do que abordagens tradicionais baseadas em aprendizado por reforço e outras abordagens de aprendizado de habilidades baseadas em LLM em jogos, incluindo o Jogo de Estratégia Pura (GOPS) e The Resistance: Avalon.

14

SPARK: Benchmark de Percepção e Raciocínio de Sensores Multivisão para Modelos de Visão e Linguagem em Escala Grande
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22
ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
14
3

Os Modelos de Visão-Linguagem em Grande Escala (LVLMs) avançaram significativamente com entradas de visão alinhadas ao texto. Eles fizeram progressos notáveis em tarefas de visão computacional ao alinhar a modalidade de texto com as entradas de visão. Também há esforços para incorporar sensores de visão múltipla além do RGB, incluindo imagens térmicas, de profundidade e raios-X médicos. No entanto, observamos que os LVLMs atuais visualizam imagens capturadas por sensores de visão múltipla como se estivessem no mesmo domínio RGB, sem considerar as características físicas dos sensores de visão múltipla. Eles falham em transmitir corretamente as informações fundamentais dos sensores de visão múltipla do conjunto de dados e o conhecimento contextual correspondente. Consequentemente, a alinhamento entre as informações do ambiente físico real e o texto não é alcançado corretamente, tornando difícil responder a perguntas complexas relacionadas aos sensores que consideram o ambiente físico. Neste artigo, temos como objetivo estabelecer um benchmark de Percepção e Raciocínio de Sensores de Visão Múltipla chamado SPARK, que pode reduzir a lacuna fundamental de informações dos sensores de visão múltipla entre imagens e sensores de visão múltipla. Geramos automaticamente 6.248 amostras de teste de visão-linguagem para investigar a percepção sensorial de visão múltipla e o raciocínio sensorial de visão múltipla sobre a proficiência em conhecimento de sensores físicos em diferentes formatos, abrangendo diferentes tipos de perguntas relacionadas aos sensores. Utilizamos essas amostras para avaliar dez dos principais LVLMs. Os resultados mostraram que a maioria dos modelos apresentou deficiências no raciocínio sensorial de visão múltipla em diferentes graus. Os códigos e dados estão disponíveis em https://github.com/top-yun/SPARK

15

SEA: Alinhamento de Incorporação Supervisionada para Integração Visual-Textual em MLLMs ao Nível de Token
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21
ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
12
2

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram recentemente notáveis habilidades perceptivas e de raciocínio, geralmente compostos por um Codificador de Visão, um Adaptador e um Modelo de Linguagem de Grande Escala (LLM). O adaptador atua como a ponte crítica entre os componentes visual e linguístico. No entanto, treinar adaptadores com supervisão em nível de imagem frequentemente resulta em desalinhamentos significativos, comprometendo as capacidades dos LLMs e limitando o potencial dos MLLMs multimodais. Para lidar com isso, introduzimos o Alinhamento de Incorporação Supervisionado (SEA), um método de alinhamento em nível de token que aproveita modelos pré-treinados de visão-linguagem, como o CLIP, para alinhar tokens visuais com o espaço de incorporação do LLM por meio de aprendizado contrastivo. Essa abordagem garante uma integração mais coerente das representações visual e linguística, aprimorando o desempenho e a interpretabilidade dos MLLMs multimodais, ao mesmo tempo que preserva suas capacidades inerentes. Experimentos extensivos mostram que o SEA melhora efetivamente os MLLMs, especialmente para modelos menores, sem adicionar dados extras ou computação de inferência. O SEA também lança as bases para o desenvolvimento de soluções mais gerais e adaptáveis para aprimorar sistemas multimodais.

16

ConflictBank: Um Benchmark para Avaliar a Influência de Conflitos de Conhecimento em LLM
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22
ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng
12
1

Os grandes modelos de linguagem (LLMs) alcançaram avanços impressionantes em diversas disciplinas, no entanto, a questão crítica dos conflitos de conhecimento, uma importante fonte de alucinações, raramente foi estudada. Apenas algumas pesquisas exploraram os conflitos entre o conhecimento inerente dos LLMs e o conhecimento contextual recuperado. No entanto, uma avaliação abrangente dos conflitos de conhecimento em LLMs ainda está ausente. Motivados por essa lacuna na pesquisa, apresentamos o ConflictBank, o primeiro benchmark abrangente desenvolvido para avaliar sistematicamente os conflitos de conhecimento a partir de três aspectos: (i) conflitos encontrados no conhecimento recuperado, (ii) conflitos dentro do conhecimento codificado dos modelos e (iii) a interação entre essas formas de conflito. Nossa investigação aprofunda-se em quatro famílias de modelos e doze instâncias de LLM, analisando meticulosamente conflitos decorrentes de desinformação, discrepâncias temporais e divergências semânticas. Com base em nosso novo framework de construção proposto, criamos 7.453.853 pares de reivindicação-evidência e 553.117 pares de perguntas e respostas. Apresentamos numerosas descobertas sobre escala do modelo, causas de conflito e tipos de conflito. Esperamos que nosso benchmark ConflictBank ajude a comunidade a entender melhor o comportamento do modelo em conflitos e a desenvolver LLMs mais confiáveis.

17

Anim-Director: Um Agente de Modelo Multimodal de Grande Porte para Geração de Vídeo de Animação Controlável
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19
ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
10
2

Os métodos tradicionais de geração de animações dependem do treinamento de modelos generativos com dados rotulados por humanos, envolvendo um sofisticado pipeline de múltiplas etapas que demanda um esforço humano substancial e incorre em altos custos de treinamento. Devido aos planos de estímulo limitados, esses métodos geralmente produzem animações breves, pobres em informações e incoerentes em contexto. Para superar essas limitações e automatizar o processo de animação, pioneiramos a introdução de grandes modelos multimodais (LMMs) como o processador central para construir um agente autônomo de criação de animações, denominado Anim-Director. Este agente principalmente aproveita as capacidades avançadas de compreensão e raciocínio dos LMMs e ferramentas de IA generativa para criar vídeos animados a partir de narrativas concisas ou instruções simples. Especificamente, opera em três etapas principais: Primeiramente, o Anim-Director gera uma linha de história coerente a partir das entradas do usuário, seguida por um roteiro detalhado do diretor que abrange configurações de perfis de personagens e descrições de interiores/exteriores, e descrições de cena coerentes com o contexto que incluem personagens que aparecem, interiores ou exteriores e eventos de cena. Em segundo lugar, empregamos LMMs com a ferramenta de geração de imagens para produzir imagens visuais de configurações e cenas. Essas imagens são projetadas para manter consistência visual entre diferentes cenas usando um método de estímulo visual-linguístico que combina descrições de cena e imagens do personagem e configuração que aparecem. Em terceiro lugar, as imagens de cena servem de base para a produção de vídeos animados, com os LMMs gerando estímulos para orientar esse processo. Todo o processo é notavelmente autônomo, sem intervenção manual, já que os LMMs interagem perfeitamente com ferramentas generativas para gerar estímulos, avaliar a qualidade visual e selecionar a melhor opção para otimizar a saída final.

18

Video-Foley: Geração de Som a partir de Vídeo em Duas Etapas via Condição de Evento Temporal para Som de Foley
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21
ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
8
2

A síntese de som Foley é crucial para a produção de multimídia, aprimorando a experiência do usuário ao sincronizar áudio e vídeo tanto temporal quanto semanticamente. Estudos recentes sobre automatizar esse processo intensivo em mão de obra por meio da geração de vídeo para som enfrentam desafios significativos. Sistemas carentes de características temporais explícitas sofrem de baixa controlabilidade e alinhamento, enquanto modelos baseados em marcação temporal exigem anotações humanas dispendiosas e subjetivas. Propomos o Video-Foley, um sistema de vídeo para som que utiliza a Raiz Quadrada da Média dos Quadrados (RMS) como condição de evento temporal com sugestões semânticas de timbre (áudio ou texto). O RMS, um recurso de envelope de intensidade ao nível do quadro intimamente relacionado à semântica de áudio, garante alta controlabilidade e sincronização. O framework de aprendizado auto-supervisionado sem anotações consiste em duas etapas, Video2RMS e RMS2Sound, incorporando ideias inovadoras, incluindo discretização de RMS e RMS-ControlNet com um modelo pré-treinado de texto para áudio. Nossa extensa avaliação mostra que o Video-Foley alcança desempenho de ponta em alinhamento áudio-visual e controlabilidade para tempo, intensidade, timbre e nuances sonoras. Código, pesos do modelo e demonstrações estão disponíveis no site associado. (https://jnwnlee.github.io/video-foley-demo)

19

Dispersão Subsuperficial para Splatting Gaussiano em 3D
Subsurface Scattering for 3D Gaussian Splatting

Aug 22
ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch
7
2

A reconstrução 3D e a reluzência de objetos feitos de materiais dispersivos representam um desafio significativo devido ao complexo transporte de luz sob a superfície. O Splatting Gaussiano 3D introduziu a síntese de novas visualizações de alta qualidade em tempo real. Enquanto os Gaussianos 3D aproximam eficientemente a superfície de um objeto, eles falham em capturar as propriedades volumétricas da dispersão subsuperficial. Propomos um framework para otimizar a forma de um objeto juntamente com o campo de transferência de radiância, considerando dados OLAT (um luz de cada vez) de múltiplas visualizações. Nosso método decompõe a cena em uma superfície explícita representada por Gaussianos 3D, com um BRDF variável espacialmente, e uma representação volumétrica implícita do componente de dispersão. Um campo de luz incidente aprendido considera o sombreamento. Otimizamos todos os parâmetros em conjunto via renderização diferenciável rastreada por raio. Nossa abordagem possibilita edição de material, reluzência e síntese de novas visualizações a taxas interativas. Demonstramos uma aplicação bem-sucedida em dados sintéticos e introduzimos um conjunto de dados multi-visual multi-luz recém-adquirido de objetos em um ambiente de estágio de luz. Em comparação com trabalhos anteriores, alcançamos resultados comparáveis ou melhores em uma fração do tempo de otimização e renderização, ao mesmo tempo que possibilitamos um controle detalhado sobre os atributos do material. Página do projeto: https://sss.jdihlmann.com/

20

Verificação de Fatos com Base em Evidências usando RAG e Aprendizado em Contexto com Poucas Amostras com LLMs
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22
ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das
6
3

Dada a ampla disseminação de desinformação nas redes sociais, a implementação de mecanismos de verificação de fatos para alegações online é essencial. Verificar manualmente cada alegação é altamente desafiador, destacando a necessidade de um sistema automatizado de verificação de fatos. Este artigo apresenta nosso sistema projetado para abordar essa questão. Utilizamos o conjunto de dados Averitec para avaliar a veracidade das alegações. Além da previsão de veracidade, nosso sistema fornece evidências de apoio, que são extraídas do conjunto de dados. Desenvolvemos um pipeline de Recuperação e Geração (RAG) para extrair frases de evidências relevantes de uma base de conhecimento, que são então inseridas juntamente com a alegação em um grande modelo de linguagem (LLM) para classificação. Também avaliamos as capacidades de Aprendizado em Contexto Limitado (ICL) de poucas amostras de vários LLMs. Nosso sistema alcança uma pontuação 'Averitec' de 0,33, o que representa uma melhoria absoluta de 22% em relação à linha de base. Todo o código estará disponível em https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.

Aug 22
Aug 23
Aug 26