Artigos de pesquisa em IA selecionados diariamente com traduções
O raciocínio é crucial para que os grandes modelos de linguagem (LLMs) se destaquem em uma ampla gama de tarefas. Enquanto métodos como o raciocínio Chain-of-Thought (CoT) aprimoram o desempenho do LLM decompondo problemas em etapas intermediárias, eles também incorrem em um uso significativo de tokens, resultando em custos mais elevados. Observamos que o processo de raciocínio dos LLMs atuais é desnecessariamente longo e pode ser comprimido ao incluir um orçamento razoável de tokens na sugestão, mas a escolha do orçamento de tokens desempenha um papel crucial na eficácia real da compressão. Propomos então um framework de raciocínio de LLM consciente do orçamento de tokens, que estima dinamicamente orçamentos de tokens para diferentes problemas com base na complexidade do raciocínio e utiliza os orçamentos de tokens estimados para orientar o processo de raciocínio. Experimentos mostram que nosso método reduz efetivamente os custos de tokens no raciocínio CoT com apenas uma leve redução de desempenho, oferecendo uma solução prática para equilibrar eficiência e precisão no raciocínio de LLMs. Código: https://github.com/GeniusHTX/TALE.
Neste trabalho, temos como objetivo desenvolver um MLLM que compreende e resolve questões aprendendo a criar cada etapa intermediária do raciocínio envolvido até a resposta final. Para isso, propomos a Busca Coletiva de Árvore de Monte Carlo (CoMCTS), um novo método de aprendizado para raciocinar em MLLMs, que introduz o conceito de aprendizado coletivo na "busca em árvore" para uma busca e aprendizado de caminhos de raciocínio eficazes e eficientes. A ideia central do CoMCTS é aproveitar o conhecimento coletivo de vários modelos para conjecturar, buscar e identificar colaborativamente caminhos de raciocínio eficazes em direção às respostas corretas por meio de quatro operações iterativas, incluindo Expansão, Simulação e Posicionamento do Erro, Retropropagação e Seleção. Utilizando o CoMCTS, construímos o Mulberry-260k, um conjunto de dados multimodal com uma árvore de nós de raciocínio ricos, explícitos e bem definidos para cada pergunta. Com o Mulberry-260k, realizamos SFT coletivo para treinar nosso modelo, Mulberry, uma série de MLLMs com capacidades de Raciocínio e Reflexão passo a passo semelhantes ao o1. Experimentos extensivos demonstram a superioridade de nossos métodos propostos em vários benchmarks. O código estará disponível em https://github.com/HJYao00/Mulberry
Apresentamos uma abordagem eficiente sem codificador para compreensão vídeo-linguagem que alcança desempenho competitivo enquanto reduz significativamente a sobrecarga computacional. Modelos atuais de vídeo-linguagem geralmente dependem de codificadores de imagem pesados (300M-1.1B parâmetros) ou codificadores de vídeo (1B-1.4B parâmetros), criando um ônus computacional substancial ao processar vídeos de vários quadros. Nosso método introduz um novo Bloco de Alinhamento Espaço-Temporal (STAB) que processa diretamente entradas de vídeo sem exigir codificadores pré-treinados, usando apenas 45M parâmetros para processamento visual - pelo menos uma redução de 6,5 vezes em comparação com abordagens tradicionais. A arquitetura STAB combina Codificação Espaço-Temporal Local para extração de características detalhadas, downsampling espacial eficiente por meio de atenção aprendida e mecanismos separados para modelar relacionamentos em nível de quadro e em nível de vídeo. Nosso modelo alcança desempenho comparável ou superior às abordagens baseadas em codificador para responder a perguntas de vídeo de forma aberta em benchmarks padrão. A avaliação detalhada de perguntas e respostas em vídeo demonstra a eficácia de nosso modelo, superando as abordagens baseadas em codificador Video-ChatGPT e Video-LLaVA em aspectos-chave como correção e compreensão temporal. Estudos extensivos de ablação validam nossas escolhas arquiteturais e demonstram a eficácia de nossa abordagem de modelagem espaço-temporal, alcançando velocidades de processamento 3-4 vezes mais rápidas do que métodos anteriores. O código está disponível em https://github.com/jh-yi/Video-Panda.
O rádio continua sendo um meio pervasivo para a disseminação de informações em massa, com estações de AM/FM alcançando mais americanos do que redes sociais baseadas em smartphones ou televisão ao vivo. Cada vez mais, as transmissões de rádio também são transmitidas online e acessadas pela Internet. Apresentamos o WavePulse, um framework que grava, documenta e analisa conteúdo de rádio em tempo real. Embora nosso framework seja geralmente aplicável, demonstramos a eficácia do WavePulse em um projeto colaborativo com uma equipe de cientistas políticos focados nas Eleições Presidenciais de 2024. Utilizamos o WavePulse para monitorar transmissões ao vivo de 396 estações de rádio de notícias ao longo de um período de três meses, processando quase 500.000 horas de streams de áudio. Esses streams foram convertidos em transcrições diarizadas com marcação de tempo e analisados para rastrear questões-chave da ciência política em níveis nacional e estadual. Nossa análise revelou como questões locais interagiram com tendências nacionais, fornecendo insights sobre o fluxo de informações. Nossos resultados demonstram a eficácia do WavePulse em capturar e analisar conteúdo de transmissões de rádio ao vivo obtidas da Web. O código e o conjunto de dados podem ser acessados em https://wave-pulse.io.
A tradução simultânea de fala para texto (SimulST) traduz a fala no idioma de origem em texto no idioma de destino de forma simultânea com a fala do locutor, garantindo baixa latência para uma melhor compreensão do usuário. Apesar de sua aplicação prevista para fala ilimitada, a maioria das pesquisas tem se concentrado em fala pré-segmentada por humanos, simplificando a tarefa e ignorando desafios significativos. Esse foco restrito, aliado a inconsistências terminológicas generalizadas, está limitando a aplicabilidade dos resultados de pesquisa em aplicações do mundo real, dificultando o progresso no campo. Nossa extensa revisão da literatura de 110 artigos não apenas revela essas questões críticas na pesquisa atual, mas também serve como base para nossas principais contribuições. Nós 1) definimos os passos e componentes principais de um sistema SimulST, propondo uma terminologia padronizada e taxonomia; 2) realizamos uma análise minuciosa das tendências da comunidade e 3) oferecemos recomendações concretas e direções futuras para preencher as lacunas na literatura existente, desde estruturas de avaliação até arquiteturas de sistemas, para avançar o campo em direção a soluções SimulST mais realistas e eficazes.
As terapêuticas peptídicas, uma importante classe de medicamentos, alcançaram um sucesso notável em diversas doenças, como diabetes e câncer, com exemplos marcantes como os agonistas do receptor GLP-1 revolucionando o tratamento do diabetes tipo 2 e da obesidade. Apesar de seu sucesso, o desafio de projetar peptídeos que satisfaçam múltiplos objetivos conflitantes, como afinidade de ligação ao alvo, solubilidade e permeabilidade da membrana, ainda persiste. O desenvolvimento de medicamentos clássico e o design baseado em estrutura são ineficazes para tais tarefas, pois falham em otimizar propriedades funcionais globais críticas para a eficácia terapêutica. Os frameworks generativos existentes são amplamente limitados a espaços contínuos, saídas não condicionadas ou orientação de um único objetivo, tornando-os inadequados para a otimização de sequências discretas em múltiplas propriedades. Para lidar com isso, apresentamos o PepTune, um modelo de difusão discreta multiobjetivo para a geração e otimização simultâneas de SMILES de peptídeos terapêuticos. Construído sobre o framework do Modelo de Linguagem Discreta Mascara (MDLM), o PepTune garante estruturas de peptídeos válidas com programações de mascaramento dependentes do estado e objetivos baseados em penalidades. Para guiar o processo de difusão, propomos uma estratégia baseada em Busca de Árvore de Monte Carlo (MCTS) que equilibra a exploração e a exploração para refinar iterativamente sequências de Pareto ótimas. O MCTS integra recompensas baseadas em classificadores com expansão de árvore de busca, superando desafios de estimação de gradiente e a escassez de dados inerentes a espaços discretos. Usando o PepTune, geramos peptídeos diversificados e quimicamente modificados otimizados para múltiplas propriedades terapêuticas, incluindo afinidade de ligação ao alvo, permeabilidade da membrana, solubilidade, hemólise e características de não-incrustação em vários alvos relevantes para doenças. No total, nossos resultados demonstram que a difusão discreta guiada por MCTS é uma abordagem poderosa e modular para o design de sequências multiobjetivo em espaços de estado discretos.