Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Raciocínio LLM Consciente do Orçamento de Tokens
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

O raciocínio é crucial para que os grandes modelos de linguagem (LLMs) se destaquem em uma ampla gama de tarefas. Enquanto métodos como o raciocínio Chain-of-Thought (CoT) aprimoram o desempenho do LLM decompondo problemas em etapas intermediárias, eles também incorrem em um uso significativo de tokens, resultando em custos mais elevados. Observamos que o processo de raciocínio dos LLMs atuais é desnecessariamente longo e pode ser comprimido ao incluir um orçamento razoável de tokens na sugestão, mas a escolha do orçamento de tokens desempenha um papel crucial na eficácia real da compressão. Propomos então um framework de raciocínio de LLM consciente do orçamento de tokens, que estima dinamicamente orçamentos de tokens para diferentes problemas com base na complexidade do raciocínio e utiliza os orçamentos de tokens estimados para orientar o processo de raciocínio. Experimentos mostram que nosso método reduz efetivamente os custos de tokens no raciocínio CoT com apenas uma leve redução de desempenho, oferecendo uma solução prática para equilibrar eficiência e precisão no raciocínio de LLMs. Código: https://github.com/GeniusHTX/TALE.

Amoreira: Capacitando MLLM com Raciocínio e Reflexão semelhantes ao o1 através de Busca Coletiva de Árvore Monte Carlo
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

Neste trabalho, temos como objetivo desenvolver um MLLM que compreende e resolve questões aprendendo a criar cada etapa intermediária do raciocínio envolvido até a resposta final. Para isso, propomos a Busca Coletiva de Árvore de Monte Carlo (CoMCTS), um novo método de aprendizado para raciocinar em MLLMs, que introduz o conceito de aprendizado coletivo na "busca em árvore" para uma busca e aprendizado de caminhos de raciocínio eficazes e eficientes. A ideia central do CoMCTS é aproveitar o conhecimento coletivo de vários modelos para conjecturar, buscar e identificar colaborativamente caminhos de raciocínio eficazes em direção às respostas corretas por meio de quatro operações iterativas, incluindo Expansão, Simulação e Posicionamento do Erro, Retropropagação e Seleção. Utilizando o CoMCTS, construímos o Mulberry-260k, um conjunto de dados multimodal com uma árvore de nós de raciocínio ricos, explícitos e bem definidos para cada pergunta. Com o Mulberry-260k, realizamos SFT coletivo para treinar nosso modelo, Mulberry, uma série de MLLMs com capacidades de Raciocínio e Reflexão passo a passo semelhantes ao o1. Experimentos extensivos demonstram a superioridade de nossos métodos propostos em vários benchmarks. O código estará disponível em https://github.com/HJYao00/Mulberry

Video-Panda: Alinhamento Eficiente de Parâmetros para Modelos de Linguagem de Vídeo sem Codificador
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24

ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall

Apresentamos uma abordagem eficiente sem codificador para compreensão vídeo-linguagem que alcança desempenho competitivo enquanto reduz significativamente a sobrecarga computacional. Modelos atuais de vídeo-linguagem geralmente dependem de codificadores de imagem pesados (300M-1.1B parâmetros) ou codificadores de vídeo (1B-1.4B parâmetros), criando um ônus computacional substancial ao processar vídeos de vários quadros. Nosso método introduz um novo Bloco de Alinhamento Espaço-Temporal (STAB) que processa diretamente entradas de vídeo sem exigir codificadores pré-treinados, usando apenas 45M parâmetros para processamento visual - pelo menos uma redução de 6,5 vezes em comparação com abordagens tradicionais. A arquitetura STAB combina Codificação Espaço-Temporal Local para extração de características detalhadas, downsampling espacial eficiente por meio de atenção aprendida e mecanismos separados para modelar relacionamentos em nível de quadro e em nível de vídeo. Nosso modelo alcança desempenho comparável ou superior às abordagens baseadas em codificador para responder a perguntas de vídeo de forma aberta em benchmarks padrão. A avaliação detalhada de perguntas e respostas em vídeo demonstra a eficácia de nosso modelo, superando as abordagens baseadas em codificador Video-ChatGPT e Video-LLaVA em aspectos-chave como correção e compreensão temporal. Estudos extensivos de ablação validam nossas escolhas arquiteturais e demonstram a eficácia de nossa abordagem de modelagem espaço-temporal, alcançando velocidades de processamento 3-4 vezes mais rápidas do que métodos anteriores. O código está disponível em https://github.com/jh-yi/Video-Panda.

WavePulse: Análise em Tempo Real de Conteúdo de Transmissões de Rádio Ao Vivo
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23

ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde

O rádio continua sendo um meio pervasivo para a disseminação de informações em massa, com estações de AM/FM alcançando mais americanos do que redes sociais baseadas em smartphones ou televisão ao vivo. Cada vez mais, as transmissões de rádio também são transmitidas online e acessadas pela Internet. Apresentamos o WavePulse, um framework que grava, documenta e analisa conteúdo de rádio em tempo real. Embora nosso framework seja geralmente aplicável, demonstramos a eficácia do WavePulse em um projeto colaborativo com uma equipe de cientistas políticos focados nas Eleições Presidenciais de 2024. Utilizamos o WavePulse para monitorar transmissões ao vivo de 396 estações de rádio de notícias ao longo de um período de três meses, processando quase 500.000 horas de streams de áudio. Esses streams foram convertidos em transcrições diarizadas com marcação de tempo e analisados para rastrear questões-chave da ciência política em níveis nacional e estadual. Nossa análise revelou como questões locais interagiram com tendências nacionais, fornecendo insights sobre o fluxo de informações. Nossos resultados demonstram a eficácia do WavePulse em capturar e analisar conteúdo de transmissões de rádio ao vivo obtidas da Web. O código e o conjunto de dados podem ser acessados em https://wave-pulse.io.

Quão "real" é o seu sistema de tradução de fala para texto simultânea em tempo real?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24

BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček

A tradução simultânea de fala para texto (SimulST) traduz a fala no idioma de origem em texto no idioma de destino de forma simultânea com a fala do locutor, garantindo baixa latência para uma melhor compreensão do usuário. Apesar de sua aplicação prevista para fala ilimitada, a maioria das pesquisas tem se concentrado em fala pré-segmentada por humanos, simplificando a tarefa e ignorando desafios significativos. Esse foco restrito, aliado a inconsistências terminológicas generalizadas, está limitando a aplicabilidade dos resultados de pesquisa em aplicações do mundo real, dificultando o progresso no campo. Nossa extensa revisão da literatura de 110 artigos não apenas revela essas questões críticas na pesquisa atual, mas também serve como base para nossas principais contribuições. Nós 1) definimos os passos e componentes principais de um sistema SimulST, propondo uma terminologia padronizada e taxonomia; 2) realizamos uma análise minuciosa das tendências da comunidade e 3) oferecemos recomendações concretas e direções futuras para preencher as lacunas na literatura existente, desde estruturas de avaliação até arquiteturas de sistemas, para avançar o campo em direção a soluções SimulST mais realistas e eficazes.

VidTwin: Vídeo VAE com Estrutura e Dinâmica Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23

ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian

Os avanços recentes em autoencoders de vídeo (Video AEs) melhoraram significativamente a qualidade e eficiência da geração de vídeo. Neste artigo, propomos um autoencoder de vídeo inovador e compacto, chamado VidTwin, que separa o vídeo em dois espaços latentes distintos: vetores latentes de Estrutura, que capturam o conteúdo geral e movimento global, e vetores latentes de Dinâmica, que representam detalhes refinados e movimentos rápidos. Especificamente, nossa abordagem utiliza uma estrutura Encoder-Decoder, complementada por dois submódulos para extrair esses espaços latentes, respectivamente. O primeiro submódulo emprega um Q-Former para extrair tendências de movimento de baixa frequência, seguido por blocos de downsampling para remover detalhes redundantes de conteúdo. O segundo submódulo calcula a média dos vetores latentes ao longo da dimensão espacial para capturar movimentos rápidos. Experimentos extensivos mostram que o VidTwin alcança uma alta taxa de compressão de 0,20% com alta qualidade de reconstrução (PSNR de 28,14 no conjunto de dados MCL-JCV) e desempenha de forma eficiente e eficaz em tarefas generativas subsequentes. Além disso, nosso modelo demonstra explicabilidade e escalabilidade, abrindo caminho para pesquisas futuras em representação latente e geração de vídeo. Nosso código foi disponibilizado em https://github.com/microsoft/VidTok/tree/main/vidtwin.

PepTune: Geração De Novo de Peptídeos Terapêuticos com Difusão Discreta Guiada por Múltiplos Objetivos
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee

As terapêuticas peptídicas, uma importante classe de medicamentos, alcançaram um sucesso notável em diversas doenças, como diabetes e câncer, com exemplos marcantes como os agonistas do receptor GLP-1 revolucionando o tratamento do diabetes tipo 2 e da obesidade. Apesar de seu sucesso, o desafio de projetar peptídeos que satisfaçam múltiplos objetivos conflitantes, como afinidade de ligação ao alvo, solubilidade e permeabilidade da membrana, ainda persiste. O desenvolvimento de medicamentos clássico e o design baseado em estrutura são ineficazes para tais tarefas, pois falham em otimizar propriedades funcionais globais críticas para a eficácia terapêutica. Os frameworks generativos existentes são amplamente limitados a espaços contínuos, saídas não condicionadas ou orientação de um único objetivo, tornando-os inadequados para a otimização de sequências discretas em múltiplas propriedades. Para lidar com isso, apresentamos o PepTune, um modelo de difusão discreta multiobjetivo para a geração e otimização simultâneas de SMILES de peptídeos terapêuticos. Construído sobre o framework do Modelo de Linguagem Discreta Mascara (MDLM), o PepTune garante estruturas de peptídeos válidas com programações de mascaramento dependentes do estado e objetivos baseados em penalidades. Para guiar o processo de difusão, propomos uma estratégia baseada em Busca de Árvore de Monte Carlo (MCTS) que equilibra a exploração e a exploração para refinar iterativamente sequências de Pareto ótimas. O MCTS integra recompensas baseadas em classificadores com expansão de árvore de busca, superando desafios de estimação de gradiente e a escassez de dados inerentes a espaços discretos. Usando o PepTune, geramos peptídeos diversificados e quimicamente modificados otimizados para múltiplas propriedades terapêuticas, incluindo afinidade de ligação ao alvo, permeabilidade da membrana, solubilidade, hemólise e características de não-incrustação em vários alvos relevantes para doenças. No total, nossos resultados demonstram que a difusão discreta guiada por MCTS é uma abordagem poderosa e modular para o design de sequências multiobjetivo em espaços de estado discretos.