ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Transfusão: Prever o Próximo Token e Difundir Imagens com um Modelo Multi-Modal
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Aug 20
ByChunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
63
3

Apresentamos o Transfusion, uma receita para treinar um modelo multimodal sobre dados discretos e contínuos. O Transfusion combina a função de perda de modelagem de linguagem (previsão do próximo token) com difusão para treinar um único transformador sobre sequências de multimodalidade mista. Pré-treinamos vários modelos de Transfusion com até 7B de parâmetros a partir do zero em uma mistura de dados de texto e imagem, estabelecendo leis de escalonamento em relação a uma variedade de benchmarks unimodais e multimodais. Nossos experimentos mostram que o Transfusion escala significativamente melhor do que quantizar imagens e treinar um modelo de linguagem sobre tokens de imagem discretos. Ao introduzir camadas de codificação e decodificação específicas para cada modalidade, podemos melhorar ainda mais o desempenho dos modelos de Transfusion e até mesmo comprimir cada imagem para apenas 16 patches. Demonstramos ainda que escalando nossa receita de Transfusion para 7B de parâmetros e 2T de tokens multimodais produz um modelo capaz de gerar imagens e texto em pé de igualdade com modelos de difusão de escala semelhante e modelos de linguagem, colhendo os benefícios de ambos os mundos.

2

TableBench: Um Benchmark Abrangente e Complexo para Responder a Perguntas sobre Tabelas
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Aug 17
ByXianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
52
3

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm melhorado significativamente a interpretação e processamento de dados tabulares, introduzindo capacidades anteriormente inimagináveis. Apesar dessas conquistas, os LLMs ainda enfrentam desafios significativos quando aplicados em cenários industriais, especialmente devido à maior complexidade de raciocínio necessária com dados tabulares do mundo real, destacando uma disparidade notável entre benchmarks acadêmicos e aplicações práticas. Para lidar com essa discrepância, realizamos uma investigação detalhada sobre a aplicação de dados tabulares em cenários industriais e propomos um benchmark abrangente e complexo, TableBench, incluindo 18 campos em quatro grandes categorias de capacidades de questionamento de tabelas (TableQA). Além disso, apresentamos o TableLLM, treinado em nosso conjunto de treinamento meticulosamente construído, TableInstruct, alcançando desempenho comparável ao GPT-3.5. Experimentos massivos realizados no TableBench indicam que tanto LLMs de código aberto quanto proprietários ainda têm um espaço significativo para melhorias para atender às demandas do mundo real, onde o modelo mais avançado, GPT-4, alcança apenas uma pontuação modesta em comparação com humanos.

3

Codificar ou Não Codificar? Explorando o Impacto do Código no Pré-treinamento
To Code, or Not To Code? Exploring Impact of Code in Pre-training

Aug 20
ByViraat Aryabumi, Yixuan Su, Raymond Ma, Adrien Morisot, Ivan Zhang, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
43
2

Incluir código na mistura de dados de pré-treinamento, mesmo para modelos não especificamente projetados para código, tornou-se uma prática comum em pré-treinamentos de LLMs. Embora haja um consenso anedótico entre os praticantes de que dados de código desempenham um papel vital no desempenho geral de LLMs, há apenas um trabalho limitado analisando o impacto preciso do código em tarefas não relacionadas a código. Neste trabalho, investigamos sistematicamente o impacto dos dados de código no desempenho geral. Perguntamos "qual é o impacto dos dados de código usados no pré-treinamento em uma ampla variedade de tarefas subsequentes além da geração de código". Realizamos extensas ablações e avaliamos em uma ampla gama de tarefas de raciocínio em linguagem natural, tarefas de conhecimento do mundo, benchmarks de código e taxas de vitória de LLM-como-juiz para modelos com tamanhos variando de 470M a 2.8B parâmetros. Em diferentes configurações, encontramos resultados consistentes de que o código é um bloco de construção crítico para a generalização muito além das tarefas de codificação e melhorias na qualidade do código têm um impacto desproporcional em todas as tarefas. Em particular, em comparação com o pré-treinamento apenas com texto, a adição de código resulta em um aumento relativo de até 8,2% no raciocínio em linguagem natural (NL), 4,2% no conhecimento do mundo, 6,6% de melhoria nas taxas de vitória generativas e um aumento de 12 vezes no desempenho de código, respectivamente. Nosso trabalho sugere que investimentos na qualidade do código e na preservação do código durante o pré-treinamento têm impactos positivos.

4

NeCo: Melhorando as representações espaciais do DINOv2 em 19 horas de GPU com Consistência de Vizinhos de Patch
NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Aug 20
ByValentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
14
2

Propomos classificar representações de patches entre vistas como um sinal de aprendizado auto-supervisionado inovador para melhorar representações pré-treinadas. Para isso, introduzimos NeCo: Consistência de Vizinhos de Patches, uma nova perda de treinamento que garante consistência de vizinhos mais próximos ao nível de patch entre um modelo aluno e um modelo professor, em relação a lotes de referência. Nosso método aproveita um método de classificação diferenciável aplicado sobre representações pré-treinadas, como DINOv2-registers, para inicializar o sinal de aprendizado e melhorar ainda mais essas representações. Esse pós-treinamento denso resulta em desempenho superior em vários modelos e conjuntos de dados, apesar de exigir apenas 19 horas em uma única GPU. Demonstramos que esse método gera codificadores de características densas de alta qualidade e estabelecemos diversos novos resultados de ponta: +5,5% e +6% para segmentação semântica não paramétrica em contexto em ADE20k e Pascal VOC, e +7,2% e +5,7% para avaliações de segmentação linear em COCO-Things e -Stuff.

5

MegaFusion: Estender Modelos de Difusão para Geração de Imagens de Alta Resolução sem Necessidade de Ajustes Adicionais
MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

Aug 20
ByHaoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang
13
2

Os modelos de difusão surgiram como líderes na geração de texto para imagem por suas capacidades impressionantes. No entanto, a resolução de imagem fixa durante o treinamento muitas vezes resulta em desafios na geração de imagens de alta resolução, como imprecisões semânticas e replicação de objetos. Este artigo apresenta o MegaFusion, uma abordagem inovadora que estende os modelos de geração de texto para imagem baseados em difusão existentes para uma geração eficiente de alta resolução sem ajustes adicionais ou adaptação extra. Especificamente, empregamos uma estratégia inovadora de truncamento e retransmissão para conectar os processos de remoção de ruído em diferentes resoluções, permitindo a geração de imagens de alta resolução de maneira grosseira a refinada. Além disso, ao integrar convoluções dilatadas e reprogramação de ruído, adaptamos ainda mais os preconceitos do modelo para maior resolução. A versatilidade e eficácia do MegaFusion o tornam universalmente aplicável tanto a modelos de difusão de espaço latente quanto de espaço de pixel, juntamente com outros modelos derivados. Experimentos extensos confirmam que o MegaFusion aumenta significativamente a capacidade dos modelos existentes de produzir imagens de megapixels e vários aspect ratios, exigindo apenas cerca de 40% do custo computacional original.

6

MagicDec: Quebrando o Tradeoff entre Latência e Throughput para Geração de Contexto Longo com Decodificação Especulativa
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

Aug 20
ByJian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen
13
3

Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se mais comuns em aplicações de longo contexto, como chatbots interativos, análise de documentos e fluxos de agentes, mas é desafiador atender a solicitações de longo contexto com baixa latência e alta taxa de transferência. A Decodificação Especulativa (SD) é uma técnica amplamente utilizada para reduzir a latência sem comprometer o desempenho, mas a sabedoria convencional sugere que sua eficácia é limitada a tamanhos de lote pequenos. No MagicDec, demonstramos que, surpreendentemente, a SD pode alcançar aceleração mesmo para um regime de inferência de alta taxa de transferência para sequências moderadas a longas. Mais interessante ainda, uma estratégia inteligente de rascunho pode obter uma melhor aceleração com o aumento do tamanho do lote com base em nossa análise rigorosa. O MagicDec identifica primeiro as mudanças de gargalo com o aumento do tamanho do lote e da sequência, e utiliza essas percepções para implantar a decodificação especulativa de forma mais eficaz para inferência de alta taxa de transferência. Em seguida, ele aproveita modelos de rascunho com cache KV esparsa para lidar com o gargalo KV que aumenta tanto com o comprimento da sequência quanto com o tamanho do lote.

7

Ferret: Técnica de Pontuação Baseada em Recompensa para Red Team Automatizado Mais Rápido e Eficaz
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

Aug 20
ByTej Deep Pala, Vernon Y. H. Toh, Rishabh Bhardwaj, Soujanya Poria
12
2

Na era atual, onde grandes modelos de linguagem (LLMs) são integrados em inúmeras aplicações do mundo real, garantir sua segurança e robustez é crucial para o uso responsável de IA. Métodos automatizados de red-teaming desempenham um papel fundamental nesse processo, gerando ataques adversariais para identificar e mitigar potenciais vulnerabilidades nesses modelos. No entanto, os métodos existentes frequentemente enfrentam problemas de desempenho lento, diversidade limitada de categorias e altas demandas de recursos. Enquanto o Rainbow Teaming, uma abordagem recente, aborda o desafio da diversidade ao enquadrar a geração de prompts adversariais como uma busca de qualidade-diversidade, ainda é lento e requer um mutador finamente ajustado para obter um desempenho ideal. Para superar essas limitações, propomos o Ferret, uma abordagem inovadora que se baseia no Rainbow Teaming ao gerar múltiplas mutações de prompts adversariais por iteração e usar uma função de pontuação para classificar e selecionar o prompt adversarial mais eficaz. Exploramos várias funções de pontuação, incluindo modelos de recompensa, Llama Guard e LLM-como-juiz, para classificar mutações adversariais com base em seu potencial de dano, a fim de melhorar a eficiência da busca por mutações prejudiciais. Nossos resultados demonstram que o Ferret, utilizando um modelo de recompensa como função de pontuação, melhora a taxa geral de sucesso do ataque (ASR) para 95%, o que é 46% maior do que o Rainbow Teaming. Além disso, o Ferret reduz o tempo necessário para atingir um ASR de 90% em 15,2% em comparação com a linha de base e gera prompts adversariais que são transferíveis, ou seja, eficazes em outros LLMs de maior tamanho. Nossos códigos estão disponíveis em https://github.com/declare-lab/ferret.

8

A Fragilidade das Técnicas de Marcação de Imagens Geradas por IA: Examinando Sua Robustez Contra Ataques de Paráfrase Visual
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks

Aug 19
ByNiyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
9
2

O rápido avanço dos sistemas de geração de texto para imagem, exemplificado por modelos como Stable Diffusion, Midjourney, Imagen e DALL-E, tem aumentado as preocupações sobre seu potencial uso indevido. Em resposta, empresas como Meta e Google intensificaram seus esforços para implementar técnicas de marca d'água em imagens geradas por IA, a fim de conter a circulação de visuais potencialmente enganosos. No entanto, neste artigo, argumentamos que os métodos atuais de marca d'água em imagens são frágeis e suscetíveis a serem contornados por meio de ataques de paráfrase visual. O paráfrase visual proposto opera em duas etapas. Primeiramente, gera uma legenda para a imagem fornecida usando o KOSMOS-2, um dos mais recentes sistemas de legendagem de imagens de última geração. Em seguida, passa tanto a imagem original quanto a legenda gerada para um sistema de difusão de imagem para imagem. Durante a etapa de remoção de ruído do pipeline de difusão, o sistema gera uma imagem visualmente similar guiada pela legenda de texto. A imagem resultante é uma paráfrase visual e está livre de quaisquer marcas d'água. Nossas descobertas empíricas demonstram que os ataques de paráfrase visual podem remover efetivamente marcas d'água de imagens. Este artigo fornece uma avaliação crítica, revelando empiricamente a vulnerabilidade das técnicas de marca d'água existentes a ataques de paráfrase visual. Embora não proponhamos soluções para esse problema, este artigo serve como um apelo à comunidade científica para priorizar o desenvolvimento de técnicas de marca d'água mais robustas. Nosso conjunto de dados de paráfrase visual pioneiro e o código correspondente estão disponíveis publicamente.

9

Prever Recompensas Juntamente com Tokens: Inserção de Parâmetros Não Disruptiva para Intervenção Eficiente na Inferência em Modelos de Linguagem Grandes
Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

Aug 20
ByChenhan Yuan, Fei Huang, Ru Peng, Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
9
2

Modelos de linguagem grandes (LLMs) baseados em Transformer apresentam limitações como a geração de respostas inseguras, raciocínio não confiável, entre outros. As abordagens de intervenção de inferência existentes tentam mitigar esses problemas ao ajustar modelos adicionais para produzir sinais de calibração (como recompensas) que orientam o processo de decodificação do LLM. No entanto, essa solução introduz uma sobrecarga substancial de tempo e espaço devido aos modelos separados necessários. Este trabalho propõe a Inserção Não Disruptiva de Parâmetros (Otter), inserindo parâmetros extras na arquitetura do transformer para prever sinais de calibração juntamente com a saída original do LLM. Otter oferece desempenho de ponta em várias tarefas exigentes, economizando até 86,5\% de espaço adicional e 98,5\% de tempo adicional. Além disso, Otter se integra perfeitamente com motores de inferência existentes, exigindo apenas uma alteração de uma linha de código, e a resposta do modelo original permanece acessível após a inserção dos parâmetros. Nosso código está publicamente disponível em https://github.com/chenhan97/Otter

10

Corte de Correspondência de Áudio: Encontrando e Criando Transições de Áudio Correspondentes em Filmes e Vídeos
Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos

Aug 20
ByDennis Fedorishin, Lie Lu, Srirangaraj Setlur, Venu Govindaraju
9
2

Um "corte de correspondência" é uma técnica comum de edição de vídeo onde um par de planos com composição similar transita fluidamente de um para o outro. Embora os cortes de correspondência sejam frequentemente visuais, certos cortes de correspondência envolvem a transição fluida de áudio, onde sons de diferentes fontes se fundem em uma transição indistinguível entre dois planos. Neste artigo, exploramos a capacidade de encontrar e criar automaticamente "cortes de correspondência de áudio" em vídeos e filmes. Criamos uma representação de áudio auto-supervisionada para o corte de correspondência de áudio e desenvolvemos um pipeline de correspondência de áudio de grosso a fino que recomenda planos correspondentes e cria o áudio mesclado. Além disso, anotamos um conjunto de dados para a tarefa proposta de corte de correspondência de áudio e comparamos a capacidade de múltiplas representações de áudio em encontrar candidatos a cortes de correspondência de áudio. Por fim, avaliamos múltiplos métodos para mesclar dois candidatos a cortes de correspondência de áudio com o objetivo de criar uma transição suave. A página do projeto e exemplos estão disponíveis em: https://denfed.github.io/audiomatchcut/

11

PhysBERT: Um Modelo de Incorporação de Texto para Literatura Científica de Física
PhysBERT: A Text Embedding Model for Physics Scientific Literature

Aug 18
ByThorsten Hellert, João Montenegro, Andrea Pollastro
8
1

A linguagem especializada e conceitos complexos em física representam desafios significativos para a extração de informações por meio do Processamento de Linguagem Natural (PLN). Fundamental para aplicações eficazes de PLN é o modelo de incorporação de texto, que converte texto em representações vetoriais densas para recuperação eficiente de informações e análise semântica. Neste trabalho, apresentamos o PhysBERT, o primeiro modelo de incorporação de texto específico para física. Pré-treinado em um corpus selecionado de 1,2 milhão de artigos de física do arXiv e refinado com dados supervisionados, o PhysBERT supera os principais modelos de propósito geral em tarefas específicas de física, incluindo a eficácia no refinamento para subdomínios específicos da física.

12

MambaEVT: Rastreamento Visual de Objetos baseado em Fluxo de Eventos usando Modelo de Espaço de Estados
MambaEVT: Event Stream based Visual Object Tracking using State Space Model

Aug 20
ByXiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
7
2

O rastreamento visual baseado em câmeras de eventos tem atraído cada vez mais atenção nos últimos anos devido ao princípio único de imagem e às vantagens de baixo consumo de energia, alta faixa dinâmica e alta resolução temporal densa. Os algoritmos de rastreamento baseados em eventos atuais estão gradualmente atingindo seus gargalos de desempenho, devido à utilização do Transformador de Visão e ao modelo de template estático para a localização do objeto alvo. Neste artigo, propomos um novo framework de rastreamento visual baseado em Mamba que adota o modelo de espaço de estados com complexidade linear como rede principal. As regiões de busca e o template alvo são inseridos na rede Mamba de visão para extração e interação de características simultâneas. Os tokens de saída das regiões de busca são inseridos na cabeça de rastreamento para localização do alvo. Mais importante ainda, consideramos a introdução de uma estratégia de atualização dinâmica de template no framework de rastreamento usando a rede Memory Mamba. Ao considerar a diversidade de amostras na biblioteca de templates alvo e fazer ajustes apropriados no módulo de memória do template, um template dinâmico mais eficaz pode ser integrado. A combinação eficaz de templates dinâmicos e estáticos permite que nosso algoritmo de rastreamento baseado em Mamba alcance um bom equilíbrio entre precisão e custo computacional em vários conjuntos de dados em larga escala, incluindo EventVOT, VisEvent e FE240hz. O código fonte será disponibilizado em https://github.com/Event-AHU/MambaEVT.

13

RP1M: Um Conjunto de Dados de Movimento em Grande Escala para Tocar Piano com Mãos de Robôs Bímanuais Hábeis
RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands

Aug 20
ByYi Zhao, Le Chen, Jan Schneider, Quankai Gao, Juho Kannala, Bernhard Schölkopf, Joni Pajarinen, Dieter Büchler
4
2

Tem sido um objetivo de pesquisa de longa data dotar as mãos de robôs com destreza em nível humano. Tocar piano com robôs bimanuais constitui uma tarefa que combina desafios de tarefas dinâmicas, como gerar movimentos rápidos e precisos, com problemas de manipulação mais lentos, porém ricos em contato. Embora abordagens baseadas em aprendizado por reforço tenham mostrado resultados promissores em desempenho de tarefas individuais, esses métodos enfrentam dificuldades em um cenário de várias músicas. Nosso trabalho visa fechar essa lacuna e, assim, permitir abordagens de aprendizado por imitação para tocar piano com robôs em grande escala. Para isso, apresentamos o conjunto de dados Robot Piano 1 Milhão (RP1M), contendo dados de movimento de tocar piano com robôs bimanuais de mais de um milhão de trajetórias. Formulamos posicionamentos dos dedos como um problema de transporte ótimo, possibilitando a anotação automática de vastas quantidades de músicas não rotuladas. A avaliação de abordagens existentes de aprendizado por imitação mostra que tais abordagens alcançam desempenho de tocar piano com robôs de última geração ao aproveitar o RP1M.

14

ShapeSplat: Um Conjunto de Dados em Grande Escala de Manchas Gaussianas e Seu Pré-treinamento Auto-supervisionado
ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining

Aug 20
ByQi Ma, Yue Li, Bin Ren, Nicu Sebe, Ender Konukoglu, Theo Gevers, Luc Van Gool, Danda Pani Paudel
3
2

O Splatting Gaussiano 3D (3DGS) tornou-se o método padrão de representação 3D em muitas tarefas de visão. Isso requer a compreensão 3D diretamente neste espaço de representação. Para facilitar a pesquisa nessa direção, primeiro construímos um conjunto de dados em grande escala de 3DGS usando os conjuntos de dados ShapeNet e ModelNet comumente utilizados. Nosso conjunto de dados ShapeSplat consiste em 65 mil objetos de 87 categorias únicas, cujos rótulos estão de acordo com os respectivos conjuntos de dados. A criação deste conjunto de dados utilizou o equivalente computacional de 2 anos de GPU em uma GPU TITAN XP. Utilizamos nosso conjunto de dados para pré-treinamento não supervisionado e ajuste fino supervisionado para tarefas de classificação e segmentação. Para isso, introduzimos o \textit{Gaussian-MAE}, que destaca os benefícios únicos da aprendizagem de representação a partir de parâmetros Gaussianos. Através de experimentos exaustivos, fornecemos várias percepções valiosas. Em particular, mostramos que (1) a distribuição dos centróides de GS otimizados difere significativamente do contraparte da nuvem de pontos amostrada uniformemente (usada para inicialização); (2) essa mudança na distribuição resulta em degradação na classificação, mas melhora nas tarefas de segmentação ao usar apenas os centróides; (3) para aproveitar parâmetros Gaussianos adicionais, propomos o agrupamento de características Gaussianas em um espaço de características normalizado, juntamente com uma camada de agrupamento de splats, oferecendo uma solução personalizada para agrupar e incorporar efetivamente Gaussians semelhantes, o que leva a uma melhoria notável nas tarefas de ajuste fino.

15

Recente aumento no interesse público em transporte: Análise de sentimento do Baidu Apollo Go utilizando dados do Weibo
Recent Surge in Public Interest in Transportation: Sentiment Analysis of Baidu Apollo Go Using Weibo Data

Aug 19
ByShiqi Wang, Zhouye Zhao, Yuhang Xie, Mingchuan Ma, Zirui Chen, Zeyu Wang, Bohao Su, Wenrui Xu, Tianyi Li
2
1

A mobilidade urbana e os sistemas de transporte foram profundamente transformados pelo avanço das tecnologias de veículos autônomos. O Baidu Apollo Go, um serviço pioneiro de robô-táxi da gigante tecnológica chinesa Baidu, foi recentemente amplamente implantado em grandes cidades como Pequim e Wuhan, gerando uma conversa intensificada e oferecendo um vislumbre do futuro da mobilidade urbana. Este estudo investiga as atitudes públicas em relação ao Apollo Go em toda a China usando Análise de Sentimentos com um modelo BERT híbrido em 36.096 postagens do Weibo de janeiro a julho de 2024. A análise mostra que 89,56\% das postagens relacionadas ao Apollo Go estão concentradas em julho. De janeiro a julho, o sentimento público foi principalmente positivo, mas comentários negativos começaram a aumentar após se tornar um tópico quente em 21 de julho. A análise espacial indica uma forte correlação entre as províncias com alta intensidade de discussão e aquelas onde o Apollo Go opera. Inicialmente, Hubei e Guangdong dominavam o volume de postagens online, mas em julho, Guangdong, Pequim e regiões internacionais haviam ultrapassado Hubei. As atitudes variaram significativamente entre as províncias, com Xinjiang e Qinghai mostrando otimismo e o Tibete e Gansu expressando preocupações sobre o impacto nos serviços de táxi tradicionais. A análise de sentimento revelou que os comentários positivos se concentraram em aplicações tecnológicas e experiências pessoais, enquanto os comentários negativos se centraram na perda de empregos e preocupações com a segurança. Em resumo, este estudo destaca a divergência nas percepções públicas dos serviços autônomos de transporte por aplicativo, fornecendo insights valiosos para planejadores, formuladores de políticas e provedores de serviços. O modelo está publicado no Hugging Face em https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao e o repositório no GitHub em https://github.com/GIStudio/trb2024.

Aug 20
Aug 21
Aug 22