Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado por reforço (RL, do inglês Reinforcement Learning) surgiu como uma abordagem promissora para aprimorar o raciocínio de modelos de linguagem de grande escala (LLM, do inglês Large Language Models). No entanto, a maioria dos esforços abertos concentra-se de forma restrita em matemática e código, limitando nossa compreensão sobre sua aplicabilidade mais ampla ao raciocínio geral. Um desafio fundamental reside na falta de sinais de recompensa de RL confiáveis e escaláveis em diversos domínios de raciocínio. Apresentamos o Guru, um corpus de raciocínio de RL cuidadosamente elaborado, contendo 92 mil exemplos verificáveis que abrangem seis domínios de raciocínio—Matemática, Código, Ciência, Lógica, Simulação e Tabelas—cada um construído por meio de design de recompensa específico do domínio, deduplicação e filtragem para garantir confiabilidade e eficácia no treinamento de RL. Com base no Guru, revisitamos sistematicamente descobertas estabelecidas em RL para raciocínio de LLM e observamos variações significativas entre os domínios. Por exemplo, enquanto trabalhos anteriores sugerem que o RL principalmente elicia conhecimento existente de modelos pré-treinados, nossos resultados revelam um padrão mais sutil: domínios frequentemente vistos durante o pré-treinamento (Matemática, Código, Ciência) beneficiam-se facilmente do treinamento de RL entre domínios, enquanto domínios com exposição limitada no pré-treinamento (Lógica, Simulação e Tabelas) exigem treinamento dentro do domínio para alcançar ganhos de desempenho significativos, sugerindo que o RL provavelmente facilita a aquisição genuína de habilidades. Por fim, apresentamos o Guru-7B e o Guru-32B, dois modelos que alcançam desempenho de ponta entre modelos abertos treinados com RL usando dados publicamente disponíveis, superando as melhores baselines em 7,9% e 6,7% em nossa suíte de avaliação de 17 tarefas abrangendo seis domínios de raciocínio. Também mostramos que nossos modelos melhoram efetivamente o desempenho Pass@k de seus modelos base, particularmente em tarefas complexas menos prováveis de aparecerem em dados de pré-treinamento. Disponibilizamos dados, modelos, códigos de treinamento e avaliação para facilitar o raciocínio de propósito geral em: https://github.com/LLM360/Reasoning360.
Este artigo apresenta modelos multimodais unificados nativos aprimorados, denominados Show-o2, que utilizam modelagem autoregressiva e correspondência de fluxo. Construídos sobre um espaço de autoencoder variacional causal 3D, representações visuais unificadas são formadas por meio de uma via dupla de fusão espacial (-temporal), permitindo escalabilidade entre modalidades de imagem e vídeo, ao mesmo tempo em que garantem compreensão e geração multimodal eficazes. Com base em um modelo de linguagem, a modelagem autoregressiva e a correspondência de fluxo são aplicadas nativamente ao cabeçalho de linguagem e ao cabeçalho de fluxo, respectivamente, para facilitar a previsão de tokens de texto e a geração de imagens/vídeos. Uma receita de treinamento em duas etapas foi projetada para aprender e escalar eficientemente para modelos maiores. Os modelos Show-o2 resultantes demonstram versatilidade ao lidar com uma ampla gama de tarefas de compreensão e geração multimodal em diversas modalidades, incluindo texto, imagens e vídeos. O código e os modelos estão disponíveis em https://github.com/showlab/Show-o.
O avanço dos modelos de geração de texto para fala e áudio exige benchmarks robustos para avaliar as capacidades de compreensão emocional dos sistemas de IA. Os conjuntos de dados atuais de reconhecimento de emoções na fala (Speech Emotion Recognition - SER) frequentemente apresentam limitações na granularidade emocional, preocupações com privacidade ou dependência de representações atuadas. Este artigo apresenta o EmoNet-Voice, um novo recurso para detecção de emoções na fala, que inclui o EmoNet-Voice Big, um conjunto de dados de pré-treinamento em larga escala (com mais de 4.500 horas de fala em 11 vozes, 40 emoções e 4 idiomas), e o EmoNet-Voice Bench, um novo conjunto de dados de benchmark com anotações de especialistas humanos. O EmoNet-Voice foi projetado para avaliar modelos de SER em um espectro detalhado de 40 categorias de emoções com diferentes níveis de intensidade. Aproveitando a geração de voz de última geração, selecionamos trechos de áudio sintéticos que simulam atores representando cenas projetadas para evocar emoções específicas. Crucialmente, realizamos uma validação rigorosa por psicólogos especialistas que atribuíram rótulos de intensidade percebida. Essa abordagem sintética e que preserva a privacidade permite a inclusão de estados emocionais sensíveis, frequentemente ausentes em conjuntos de dados existentes. Por fim, apresentamos os modelos Empathic Insight Voice, que estabelecem um novo padrão no reconhecimento de emoções na fala com alta concordância com especialistas humanos. Nossas avaliações no cenário atual de modelos exibem descobertas valiosas, como emoções de alta excitação, como raiva, sendo muito mais fáceis de detectar do que estados de baixa excitação, como concentração.
Recentemente, os modelos de linguagem multimodal de grande escala (MLLMs) têm atraído crescente atenção da pesquisa devido às suas poderosas capacidades de compreensão visual. Embora tenham alcançado resultados impressionantes em diversas tarefas de visão, seu desempenho na geração de código a partir de gráficos permanece subótimo. Essa tarefa exige que os MLLMs gerem código executável capaz de reproduzir um gráfico fornecido, demandando não apenas uma compreensão visual precisa, mas também uma tradução acurada dos elementos visuais em código estruturado. Solicitar diretamente que os MLLMs realizem essa tarefa complexa frequentemente resulta em desempenho insatisfatório. Para enfrentar esse desafio, propomos o {ChartIR}, um método de refinamento iterativo baseado em instruções estruturadas. Primeiro, distinguimos duas tarefas: compreensão visual e tradução de código. Para realizar a componente de compreensão visual, projetamos dois tipos de instruções estruturadas: descrição e diferença. A instrução de descrição captura os elementos visuais do gráfico de referência, enquanto a instrução de diferença caracteriza as discrepâncias entre o gráfico de referência e o gráfico gerado. Essas instruções transformam efetivamente características visuais em representações linguísticas, facilitando assim o processo subsequente de tradução de código. Segundo, decompomos o pipeline geral de geração de gráficos em duas etapas: geração inicial de código e refinamento iterativo, permitindo um aprimoramento progressivo do resultado final. Resultados experimentais mostram que, em comparação com outros métodos, nosso método alcança desempenho superior tanto no modelo de código aberto Qwen2-VL quanto no modelo de código fechado GPT-4o.
Legendas detalhadas que refletem com precisão as características de uma peça musical podem enriquecer bases de dados musicais e impulsionar pesquisas em IA musical. Este artigo apresenta um modelo de legendagem musical multitarefa, o SonicVerse, que integra a geração de legendas com tarefas auxiliares de detecção de características musicais, como detecção de tonalidade, detecção de vocais e mais, para capturar diretamente tanto detalhes acústicos de baixo nível quanto atributos musicais de alto nível. A principal contribuição é uma arquitetura baseada em projeção que transforma a entrada de áudio em tokens de linguagem, enquanto detecta simultaneamente características musicais por meio de cabeças auxiliares dedicadas. As saídas dessas cabeças também são projetadas em tokens de linguagem, para aprimorar a entrada de legendagem. Esse framework não apenas produz legendas ricas e descritivas para fragmentos musicais curtos, mas também permite diretamente a geração de descrições detalhadas e informadas pelo tempo para peças musicais mais longas, encadeando as saídas usando um modelo de linguagem de grande escala. Para treinar o modelo, estendemos o conjunto de dados MusicBench, anotando-o com características musicais usando o MIRFLEX, um extrator modular de características musicais, resultando em dados pareados de áudio, legendas e características musicais. Resultados experimentais mostram que a incorporação de características dessa maneira melhora a qualidade e o detalhamento das legendas geradas.
Modelos de Linguagem de Grande Escala (LLMs) recentes têm relatado alta precisão em benchmarks de raciocínio. No entanto, ainda não está claro se os resultados observados surgem de um verdadeiro raciocínio ou de uma recordação estatística do conjunto de treinamento. Inspirado pela escada da causalidade (Pearl, 2009) e seus três níveis (associações, intervenções e contra-factuais), este artigo introduz o RE-IMAGINE, um framework para caracterizar uma hierarquia de habilidades de raciocínio em LLMs, juntamente com um pipeline automatizado para gerar variações de problemas em diferentes níveis da hierarquia. Ao alterar problemas em uma representação simbólica intermediária, o RE-IMAGINE gera arbitrariamente muitos problemas que não são solucionáveis apenas por memorização. Além disso, o framework é geral e pode funcionar em diversos domínios de raciocínio, incluindo matemática, código e lógica. Demonstramos nosso framework em quatro benchmarks amplamente utilizados para avaliar várias famílias de LLMs, e observamos reduções no desempenho quando os modelos são questionados com variações de problemas. Essas avaliações indicam um grau de dependência na recordação estatística para o desempenho passado e abrem portas para pesquisas adicionais visando habilidades ao longo da hierarquia de raciocínio.