Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o MiniMax-Speech, um modelo de Texto para Fala (TTS) baseado em Transformers autoregressivos que gera fala de alta qualidade. Uma inovação fundamental é o nosso codificador de falante aprendível, que extrai características de timbre de um áudio de referência sem exigir sua transcrição. Isso permite que o MiniMax-Speech produza fala altamente expressiva com timbre consistente com a referência de maneira zero-shot, além de suportar clonagem de voz one-shot com similaridade excepcionalmente alta à voz de referência. Além disso, a qualidade geral do áudio sintetizado é aprimorada por meio do Flow-VAE proposto. Nosso modelo suporta 32 idiomas e demonstra excelente desempenho em múltiplas métricas de avaliação objetivas e subjetivas. Notavelmente, ele alcança resultados state-of-the-art (SOTA) em métricas objetivas de clonagem de voz (Taxa de Erro de Palavras e Similaridade de Falante) e garantiu a primeira posição no ranking público do TTS Arena. Outra vantagem chave do MiniMax-Speech, concedida pelas representações robustas e desacopladas do codificador de falante, é sua extensibilidade sem a necessidade de modificar o modelo base, permitindo diversas aplicações, como: controle arbitrário de emoção vocal via LoRA; texto para voz (T2V) por meio da síntese de características de timbre diretamente da descrição textual; e clonagem de voz profissional (PVC) por meio do ajuste fino das características de timbre com dados adicionais. Incentivamos os leitores a visitar https://minimax-ai.github.io/tts_tech_report para mais exemplos.
Sistemas de texto para áudio, embora cada vez mais eficientes, são lentos no tempo de inferência, tornando sua latência impraticável para muitas aplicações criativas. Apresentamos o pós-treinamento Adversarial Relativistic-Contrastive (ARC), o primeiro algoritmo de aceleração adversarial para modelos de difusão/fluxo que não se baseia em destilação. Enquanto métodos anteriores de pós-treinamento adversarial tiveram dificuldade em competir com suas contrapartes caras baseadas em destilação, o pós-treinamento ARC é um procedimento simples que (1) estende uma formulação adversarial relativística recente para o pós-treinamento de modelos de difusão/fluxo e (2) combina isso com um novo objetivo discriminador contrastivo para incentivar uma melhor aderência ao prompt. Emparelhamos o pós-treinamento ARC com várias otimizações ao Stable Audio Open e construímos um modelo capaz de gerar aproximadamente 12 segundos de áudio estéreo a 44,1 kHz em aproximadamente 75 ms em um H100, e aproximadamente 7 segundos em um dispositivo móvel de borda, o modelo de texto para áudio mais rápido que conhecemos.
Apresentamos o AM-Thinking-v1, um modelo de linguagem denso de 32B que avança a fronteira do raciocínio, incorporando o espírito colaborativo da inovação de código aberto. Superando o DeepSeek-R1 e rivalizando com modelos líderes de Mistura de Especialistas (MoE), como o Qwen3-235B-A22B e o Seed1.5-Thinking, o AM-Thinking-v1 alcança pontuações impressionantes de 85,3 no AIME 2024, 74,4 no AIME 2025 e 70,3 no LiveCodeBench, demonstrando capacidades matemáticas e de codificação de ponta entre modelos de código aberto de escala similar. Construído inteiramente a partir do modelo base Qwen2.5-32B de código aberto e consultas publicamente disponíveis, o AM-Thinking-v1 aproveita um pipeline de pós-treinamento meticulosamente elaborado - combinando ajuste fino supervisionado e aprendizado por reforço - para oferecer capacidades excepcionais de raciocínio. Este trabalho demonstra que a comunidade de código aberto pode alcançar alto desempenho na escala de 32B, um ponto ideal prático para implantação e ajuste fino. Ao equilibrar desempenho de alto nível e usabilidade no mundo real, esperamos que o AM-Thinking-v1 inspire esforços colaborativos adicionais para aproveitar modelos de média escala, expandindo os limites do raciocínio enquanto mantém a acessibilidade no cerne da inovação. Disponibilizamos nosso modelo em código aberto no {Hugging Face}: https://huggingface.co/a-m-team/AM-Thinking-v1.
Construir modelos de linguagem multimodal é fundamentalmente desafiador: exige alinhar as modalidades de visão e linguagem, curar dados de instrução de alta qualidade e evitar a degradação das capacidades existentes apenas de texto uma vez que a visão é introduzida. Essas dificuldades são ainda mais amplificadas no contexto multilíngue, onde a necessidade de dados multimodais em diferentes idiomas exacerba a escassez existente de dados, a tradução automática frequentemente distorce o significado, e o esquecimento catastrófico é mais pronunciado. Para abordar os desafios mencionados, introduzimos técnicas inovadoras que abrangem tanto dados quanto modelagem. Primeiro, desenvolvemos um framework de anotação sintética que cura dados de instrução multimodal multilíngue de alta qualidade e diversificados, permitindo que os modelos Aya Vision produzam respostas naturais e preferidas por humanos para entradas multimodais em muitos idiomas. Complementando isso, propomos uma técnica de fusão de modelos cross-modal que mitiga o esquecimento catastrófico, preservando efetivamente as capacidades apenas de texto enquanto melhora simultaneamente o desempenho generativo multimodal. O Aya-Vision-8B atinge um desempenho de classe superior em comparação com modelos multimodais fortes como Qwen-2.5-VL-7B, Pixtral-12B e até mesmo modelos muito maiores como Llama-3.2-90B-Vision. Além disso, escalamos essa abordagem com o Aya-Vision-32B, que supera modelos mais que o dobro de seu tamanho, como Molmo-72B e LLaMA-3.2-90B-Vision. Nosso trabalho avança o progresso multilíngue na fronteira multimodal e fornece insights sobre técnicas que efetivamente reduzem a necessidade de computação enquanto entregam desempenho extremamente alto.
Apresentamos o gg-bench, uma coleção de ambientes de jogos projetados para avaliar capacidades de raciocínio geral em modelos de linguagem. Diferente da maioria dos benchmarks estáticos, o gg-bench é um processo de geração de dados onde novas instâncias de avaliação podem ser geradas conforme necessário. Especificamente, o gg-bench é gerado sinteticamente por meio de (1) um modelo de linguagem de grande escala (LLM) para gerar descrições em linguagem natural de jogos inéditos, (2) o uso do LLM para implementar cada jogo em código como um ambiente Gym, e (3) o treinamento de agentes de aprendizado por reforço (RL) via autojogo nos jogos gerados. Avaliamos modelos de linguagem pela taxa de vitórias contra esses agentes de RL, solicitando que os modelos recebam a descrição do jogo, o estado atual do tabuleiro e uma lista de movimentos válidos, após o que os modelos escolhem os movimentos que desejam realizar. O gg-bench é desafiador: LLMs de ponta, como GPT-4o e Claude 3.7 Sonnet, alcançam taxas de vitória de 7-9% no gg-bench usando aprendizado em contexto, enquanto modelos de raciocínio, como o1, o3-mini e DeepSeek-R1, atingem taxas médias de vitória de 31-36%. Disponibilizamos os jogos gerados, o processo de geração de dados e o código de avaliação para apoiar trabalhos futuros de modelagem e a expansão do nosso benchmark.
Modelos Visão-Linguagem (VLMs) combinam percepção visual com as capacidades gerais, como raciocínio, dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, os mecanismos pelos quais essas duas habilidades podem ser combinadas e contribuir permanecem pouco compreendidos. Neste trabalho, exploramos a composição de percepção e raciocínio por meio da fusão de modelos que conecta parâmetros de diferentes modelos. Diferentemente de trabalhos anteriores que frequentemente se concentram na fusão de modelos do mesmo tipo, propomos a fusão de modelos entre modalidades, permitindo a incorporação das capacidades de raciocínio dos LLMs nos VLMs. Através de extensos experimentos, demonstramos que a fusão de modelos oferece um caminho bem-sucedido para transferir habilidades de raciocínio dos LLMs para os VLMs de maneira livre de treinamento. Além disso, utilizamos os modelos fundidos para entender o mecanismo interno de percepção e raciocínio e como a fusão o afeta. Descobrimos que as capacidades de percepção estão predominantemente codificadas nas camadas iniciais do modelo, enquanto o raciocínio é amplamente facilitado pelas camadas intermediárias e finais. Após a fusão, observamos que todas as camadas começam a contribuir para o raciocínio, enquanto a distribuição das habilidades de percepção entre as camadas permanece praticamente inalterada. Essas observações lançam luz sobre o potencial da fusão de modelos como uma ferramenta para integração e interpretação multimodal.
A avaliação de seguimento de instruções testa modelos de linguagem de grande escala (LLMs) em sua capacidade de gerar saídas que aderem a restrições definidas pelo usuário. No entanto, benchmarks existentes frequentemente dependem de prompts de restrições padronizados, que carecem da diversidade do uso no mundo real e limitam a avaliação de desempenho em nível granular. Para preencher essa lacuna, propomos uma estrutura multidimensional de restrições que abrange três padrões de restrições, quatro categorias de restrições e quatro níveis de dificuldade. Com base nessa estrutura, desenvolvemos um pipeline automatizado de geração de instruções que realiza expansão de restrições, detecção de conflitos e reescrita de instruções, resultando em 1.200 amostras de teste de seguimento de instruções verificáveis por código. Avaliamos 19 LLMs de sete famílias de modelos e descobrimos uma variação substancial no desempenho entre as formas de restrições. Por exemplo, o desempenho médio cai de 77,67% no Nível I para 32,96% no Nível IV. Além disso, demonstramos a utilidade de nossa abordagem ao usá-la para gerar dados para aprendizado por reforço, alcançando ganhos significativos no seguimento de instruções sem degradar o desempenho geral. Análises detalhadas indicam que esses ganhos decorrem principalmente de modificações nos parâmetros dos módulos de atenção do modelo, que melhoram o reconhecimento e a aderência às restrições. O código e os dados estão disponíveis em https://github.com/Junjie-Ye/MulDimIF.
Este estudo aborda a lacuna crítica no processamento de linguagem natural em árabe, desenvolvendo um sistema eficaz de Dicionário Reverso Árabe (RD) que permite aos usuários encontrar palavras com base em suas descrições ou significados. Apresentamos uma abordagem inovadora baseada em transformadores, com uma arquitetura de rede neural semi-codificadora que apresenta camadas geometricamente decrescentes, alcançando resultados de ponta para tarefas de RD em árabe. Nossa metodologia incorpora um processo abrangente de construção de conjuntos de dados e estabelece padrões formais de qualidade para definições lexicográficas em árabe. Experimentos com vários modelos pré-treinados demonstram que modelos específicos para o árabe superam significativamente embeddings multilíngues gerais, com o ARBERTv2 alcançando a melhor pontuação de classificação (0,0644). Além disso, fornecemos uma abstração formal da tarefa de dicionário reverso que aprimora o entendimento teórico e desenvolvemos uma biblioteca Python modular e extensível (RDTL) com pipelines de treinamento configuráveis. Nossa análise da qualidade dos conjuntos de dados revela insights importantes para melhorar a construção de definições em árabe, levando a oito padrões específicos para a criação de recursos de dicionário reverso de alta qualidade. Este trabalho contribui significativamente para a linguística computacional árabe e fornece ferramentas valiosas para o aprendizado de idiomas, redação acadêmica e comunicação profissional em árabe.
Aprender navegação em ambientes dinâmicos de mundo aberto é uma habilidade importante, porém desafiadora, para robôs. A maioria dos métodos anteriores depende de localização e mapeamento precisos ou aprende a partir de demonstrações caras no mundo real. Neste artigo, propomos a Política de Difusão de Navegação (NavDP), uma estrutura de ponta a ponta treinada exclusivamente em simulação e capaz de transferir de forma zero-shot para diferentes embodimentos em diversos ambientes do mundo real. O componente chave da rede da NavDP é a combinação de geração de trajetórias baseada em difusão e uma função crítica para seleção de trajetórias, que são condicionadas apenas em tokens de observação local codificados a partir de um transformador de política compartilhado. Dada a informação privilegiada do ambiente global na simulação, escalamos as demonstrações de alta qualidade para treinar a política de difusão e formulamos os alvos da função de valor crítico com amostras negativas contrastivas. Nossa abordagem de geração de demonstrações alcança cerca de 2.500 trajetórias/GPU por dia, 20 vezes mais eficiente do que a coleta de dados no mundo real, e resulta em um grande conjunto de dados de navegação com 363,2 km de trajetórias em 1244 cenas. Treinada com este conjunto de dados de simulação, a NavDP alcança desempenho de ponta e capacidade de generalização consistentemente excepcional em robôs quadrúpedes, com rodas e humanoides em diversos ambientes internos e externos. Além disso, apresentamos uma tentativa preliminar de usar o Gaussian Splatting para realizar ajuste fino de real-para-sim no domínio, a fim de reduzir ainda mais a lacuna sim-para-real. Experimentos mostram que a adição de tais dados de real-para-sim pode melhorar a taxa de sucesso em 30\% sem prejudicar sua capacidade de generalização.
A crescente adoção de fluxos de trabalho agentes em diversos domínios traz uma necessidade crítica de avaliar de forma escalável e sistemática os rastros complexos gerados por esses sistemas. Os métodos atuais de avaliação dependem de análises humanas manuais e específicas do domínio sobre longos rastros de fluxos de trabalho - uma abordagem que não escala com a crescente complexidade e volume de saídas agentes. A análise de erros nesses contextos é ainda mais complicada pela interação entre as saídas de ferramentas externas e o raciocínio dos modelos de linguagem, tornando-a mais desafiadora do que a depuração tradicional de software. Neste trabalho, nós (1) articulamos a necessidade de métodos robustos e dinâmicos para avaliar rastros de fluxos de trabalho agentes, (2) introduzimos uma taxonomia formal dos tipos de erros encontrados em sistemas agentes, e (3) apresentamos um conjunto de 148 rastros anotados manualmente (TRAIL) construídos com base nessa taxonomia e fundamentados em benchmarks agentes estabelecidos. Para garantir validade ecológica, selecionamos rastros de sistemas com agentes únicos e múltiplos, focando em aplicações do mundo real, como engenharia de software e recuperação de informações em ambientes abertos. Nossas avaliações revelam que os modelos de linguagem de contexto longo modernos têm desempenho ruim na depuração de rastros, com o melhor modelo, Gemini-2.5-pro, alcançando apenas 11% no TRAIL. Nosso conjunto de dados e código estão disponíveis publicamente para apoiar e acelerar pesquisas futuras em avaliação escalável de fluxos de trabalho agentes.
Provamos teoricamente que a generalização melhora não apenas através da escala de dados, mas também pela compressão de representações internas. Para operacionalizar essa percepção, introduzimos o objetivo de Modelagem de Linguagem com Gargalo de Informação (Information Bottleneck Language Modeling - IBLM), que reformula a modelagem de linguagem como um problema de otimização restrita: minimizar a entropia da representação sujeita ao desempenho preditivo ideal. Empiricamente, observamos um ciclo emergente de memorização-compressão durante o pré-treinamento de LLMs, evidenciado pela oscilação do alinhamento positivo/negativo do gradiente entre a entropia cruzada e a Entropia Baseada em Matriz (Matrix-Based Entropy - MBE), uma medida da entropia da representação. Esse padrão reflete de perto o trade-off preditivo-compressivo prescrito pelo IBLM e também paraleliza a alternância biológica entre aprendizado acordado e consolidação durante o sono. Motivados por essa observação, propomos a Transição de Fase Controlada (Gated Phase Transition - GAPT), um algoritmo de treinamento que alterna adaptativamente entre fases de memorização e compressão. Quando aplicado ao pré-treinamento do GPT-2 no conjunto de dados FineWeb, o GAPT reduz a MBE em 50% e melhora a entropia cruzada em 4,8%. O GAPT melhora a generalização fora da distribuição (OOD) em 35% em uma tarefa de pré-treinamento de multiplicação aritmética. Em um cenário projetado para simular o esquecimento catastrófico, o GAPT reduz a interferência ao comprimir e separar representações, alcançando uma melhoria de 97% na separação - paralelizando o papel funcional da consolidação durante o sono.
Avaliar níveis de habilidade humana em atividades complexas é um problema desafiador com aplicações em esportes, reabilitação e treinamento. Neste trabalho, apresentamos o SkillFormer, uma arquitetura eficiente em parâmetros para estimativa unificada de proficiência em múltiplas perspectivas a partir de vídeos egocêntricos e exocêntricos. Baseando-se na estrutura do TimeSformer, o SkillFormer introduz um módulo CrossViewFusion que funde características específicas de cada perspectiva usando atenção cruzada multi-cabeça, portas aprendíveis e auto-calibração adaptativa. Aproveitamos a Adaptação de Baixa Classificação (Low-Rank Adaptation) para ajustar apenas um pequeno subconjunto de parâmetros, reduzindo significativamente os custos de treinamento. De fato, quando avaliado no conjunto de dados EgoExo4D, o SkillFormer alcança precisão de ponta em configurações de múltiplas perspectivas, demonstrando notável eficiência computacional, utilizando 4,5 vezes menos parâmetros e exigindo 3,75 vezes menos épocas de treinamento do que os baselines anteriores. Ele se destaca em múltiplas tarefas estruturadas, confirmando o valor da integração de múltiplas perspectivas para avaliação refinada de habilidades.
Modelos de linguagem de grande escala alcançam alto desempenho em tarefas, mas frequentemente alucinam ou dependem de conhecimentos desatualizados. A geração aumentada por recuperação (RAG) aborda essas lacunas ao acoplar a geração com buscas externas. Analisamos como hiperparâmetros influenciam a velocidade e a qualidade em sistemas RAG, abrangendo armazenamentos de vetores Chroma e Faiss, políticas de segmentação, reordenação por cross-encoder e temperatura, e avaliamos seis métricas: fidelidade, correção da resposta, relevância da resposta, precisão do contexto, recall do contexto e similaridade da resposta. O Chroma processa consultas 13% mais rápido, enquanto o Faiss oferece maior precisão de recuperação, revelando uma clara compensação entre velocidade e precisão. A segmentação ingênua de comprimento fixo com janelas pequenas e sobreposição mínima supera a segmentação semântica, mantendo-se como a opção mais rápida. A reordenação proporciona ganhos modestos na qualidade de recuperação, mas aumenta o tempo de execução em aproximadamente 5 vezes, portanto, sua utilidade depende das restrições de latência. Esses resultados ajudam os profissionais a equilibrar custo computacional e precisão ao ajustar sistemas RAG para respostas transparentes e atualizadas. Por fim, reavaliamos as principais configurações com um fluxo de trabalho RAG corretivo e mostramos que suas vantagens persistem quando o modelo pode solicitar evidências adicionais de forma iterativa. Obtemos uma precisão de contexto quase perfeita (99%), o que demonstra que sistemas RAG podem alcançar uma precisão de recuperação extremamente alta com a combinação certa de hiperparâmetros, com implicações significativas para aplicações onde a qualidade da recuperação impacta diretamente o desempenho de tarefas subsequentes, como suporte à decisão clínica na área da saúde.
A Previsão de Utilidade de Revisões Multimodais (MRHP, na sigla em inglês) é uma tarefa essencial em sistemas de recomendação, especialmente em plataformas de comércio eletrônico. Determinar a utilidade das revisões geradas pelos usuários melhora a experiência do usuário e aprimora a tomada de decisão do consumidor. No entanto, os conjuntos de dados existentes concentram-se predominantemente em inglês e indonésio, resultando em uma falta de diversidade linguística, especialmente para idiomas de baixo recurso, como o vietnamita. Neste artigo, apresentamos o ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), um conjunto de dados de referência em grande escala para a tarefa de MRHP em vietnamita. Este conjunto de dados abrange quatro domínios, incluindo 2 mil produtos com 46 mil revisões. Enquanto isso, um conjunto de dados em grande escala requer tempo e custo consideráveis. Para otimizar o processo de anotação, utilizamos a IA para auxiliar os anotadores na construção do conjunto de dados ViMRHP. Com a assistência da IA, o tempo de anotação é reduzido (de 90 a 120 segundos por tarefa para 20 a 40 segundos por tarefa), mantendo a qualidade dos dados e reduzindo os custos gerais em aproximadamente 65%. No entanto, as anotações geradas por IA ainda têm limitações em tarefas de anotação complexas, que examinamos mais detalhadamente por meio de uma análise de desempenho. Em nosso experimento no ViMRHP, avaliamos modelos de linha de base em anotações verificadas por humanos e geradas por IA para avaliar as diferenças de qualidade. O conjunto de dados ViMRHP está disponível publicamente em https://github.com/trng28/ViMRHP.
Apresentamos o WebApp1K, um novo benchmark para avaliar modelos de linguagem de grande escala (LLMs) em tarefas de desenvolvimento orientado a testes (TDD), onde os casos de teste servem tanto como prompt quanto como verificação para a geração de código. Diferente das abordagens tradicionais que dependem de prompts em linguagem natural, nosso benchmark enfatiza a capacidade dos LLMs de interpretar e implementar funcionalidades diretamente a partir de casos de teste, refletindo práticas reais de desenvolvimento de software. Composto por 1000 desafios diversos em 20 domínios de aplicação, o benchmark avalia a capacidade dos LLMs de gerar código compacto e funcional sob as restrições de comprimento de contexto e complexidade de múltiplas funcionalidades. Nossos resultados destacam o seguimento de instruções e o aprendizado em contexto como capacidades críticas para o sucesso em TDD, superando a importância da proficiência geral em codificação ou do conhecimento pré-treinado. Por meio de uma avaliação abrangente de 19 modelos de ponta, revelamos gargalos de desempenho, como a perda de instruções em prompts longos, e fornecemos uma análise detalhada de erros abrangendo múltiplas causas raiz. Este trabalho ressalta o valor prático de benchmarks específicos para TDD e estabelece as bases para o avanço das capacidades dos LLMs em cenários rigorosos de codificação orientada a aplicações.