Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Phi-4-Mini e o Phi-4-Multimodal, modelos compactos, porém altamente capazes, de linguagem e multimodal. O Phi-4-Mini é um modelo de linguagem com 3,8 bilhões de parâmetros, treinado em dados da web de alta qualidade e dados sintéticos, superando significativamente modelos de código aberto recentes de tamanho similar e igualando o desempenho de modelos com o dobro do seu tamanho em tarefas de matemática e codificação que exigem raciocínio complexo. Esse feito é impulsionado por uma receita cuidadosamente elaborada de dados sintéticos, com ênfase em conjuntos de dados de alta qualidade para matemática e codificação. Comparado ao seu antecessor, o Phi-3.5-Mini, o Phi-4-Mini apresenta um vocabulário expandido de 200 mil tokens para melhor suportar aplicações multilíngues, além de atenção por consulta em grupo para uma geração mais eficiente de sequências longas. O Phi-4-Multimodal é um modelo multimodal que integra as modalidades de entrada de texto, visão e fala/áudio em um único modelo. Sua abordagem inovadora de extensão de modalidades utiliza adaptadores LoRA e roteadores específicos para cada modalidade, permitindo múltiplos modos de inferência que combinam diversas modalidades sem interferência. Por exemplo, ele agora ocupa o primeiro lugar no ranking OpenASR até o momento, embora o componente LoRA da modalidade de fala/áudio tenha apenas 460 milhões de parâmetros. O Phi-4-Multimodal suporta cenários que envolvem entradas de (visão + linguagem), (visão + fala) e (fala/áudio), superando modelos maiores de visão-linguagem e fala-linguagem em uma ampla gama de tarefas. Além disso, realizamos experimentos para treinar ainda mais o Phi-4-Mini, aprimorando suas capacidades de raciocínio. Apesar de seu tamanho compacto de 3,8 bilhões de parâmetros, essa versão experimental alcança desempenho de raciocínio equivalente ou superior a modelos significativamente maiores, incluindo o DeepSeek-R1-Distill-Qwen-7B e o DeepSeek-R1-Distill-Llama-8B.
O Ajuste Fino por Reforço (Reinforcement Fine-Tuning, RFT) em modelos de raciocínio de grande escala, como o OpenAI o1, aprende com o feedback sobre suas respostas, o que é especialmente útil em aplicações onde os dados para ajuste fino são escassos. Trabalhos recentes de código aberto, como o DeepSeek-R1, demonstram que o aprendizado por reforço com recompensas verificáveis é uma direção fundamental para reproduzir o o1. Embora o modelo no estilo R1 tenha demonstrado sucesso em modelos de linguagem, sua aplicação em domínios multimodais ainda é pouco explorada. Este trabalho introduz o Ajuste Fino por Reforço Visual (Visual-RFT), que amplia as áreas de aplicação do RFT em tarefas visuais. Especificamente, o Visual-RFT primeiro utiliza Modelos de Linguagem e Visão de Grande Escala (Large Vision-Language Models, LVLMs) para gerar múltiplas respostas contendo tokens de raciocínio e respostas finais para cada entrada, e então usa nossas funções de recompensa verificável de percepção visual propostas para atualizar o modelo por meio de algoritmos de otimização de políticas, como o Group Relative Policy Optimization (GRPO). Projetamos diferentes funções de recompensa verificável para diferentes tarefas de percepção, como a recompensa de Intersecção sobre União (Intersection over Union, IoU) para detecção de objetos. Resultados experimentais em classificação de imagens de alta granularidade, detecção de objetos com poucos exemplos, fundamentação de raciocínio e benchmarks de detecção de objetos com vocabulário aberto mostram o desempenho competitivo e a capacidade avançada de generalização do Visual-RFT em comparação com o Ajuste Fino Supervisionado (Supervised Fine-tuning, SFT). Por exemplo, o Visual-RFT melhora a precisão em 24,3% em relação à linha de base na classificação de imagens de alta granularidade com um único exemplo, utilizando cerca de 100 amostras. Na detecção de objetos com poucos exemplos, o Visual-RFT também supera a linha de base em 21,9 no cenário de dois exemplos do COCO e em 15,4 no LVIS. Nosso Visual-RFT representa uma mudança de paradigma no ajuste fino de LVLMs, oferecendo uma abordagem eficiente em termos de dados e orientada por recompensas que aprimora o raciocínio e a adaptabilidade para tarefas específicas de domínio.
Os Campos de Radiação Neural (NeRF) e o 3D Gaussian Splatting revolucionaram as tarefas de reconstrução 3D e síntese de novas vistas. No entanto, alcançar renderizações foto-realistas a partir de pontos de vista extremamente novos continua desafiador, pois artefatos persistem em diferentes representações. Neste trabalho, apresentamos o Difix3D+, um novo pipeline projetado para aprimorar a reconstrução 3D e a síntese de novas vistas por meio de modelos de difusão em etapa única. No cerne de nossa abordagem está o Difix, um modelo de difusão de imagem em etapa única treinado para aprimorar e remover artefatos em vistas novas renderizadas causados por regiões sub-restritas da representação 3D. O Difix desempenha dois papéis críticos em nosso pipeline. Primeiro, ele é usado durante a fase de reconstrução para limpar vistas pseudo-treinadas que são renderizadas a partir da reconstrução e então destiladas de volta em 3D. Isso melhora significativamente as regiões sub-restritas e aprimora a qualidade geral da representação 3D. Mais importante, o Difix também atua como um aprimorador neural durante a inferência, removendo efetivamente artefatos residuais decorrentes de supervisão 3D imperfeita e da capacidade limitada dos modelos de reconstrução atuais. O Difix3D+ é uma solução geral, um único modelo compatível com representações tanto de NeRF quanto de 3DGS, e alcança uma melhoria média de 2 vezes no score FID em relação às baselines, mantendo a consistência 3D.
A inferência em tempo de teste surgiu como um paradigma poderoso para permitir que modelos de linguagem "pensem" por mais tempo e com mais cuidado sobre desafios complexos, de forma semelhante a especialistas humanos habilidosos. Embora o aprendizado por reforço (RL) possa impulsionar a autossuperação em modelos de linguagem em tarefas verificáveis, alguns modelos exibem ganhos substanciais, enquanto outros rapidamente atingem um platô. Por exemplo, descobrimos que o Qwen-2.5-3B supera amplamente o Llama-3.2-3B sob treinamento de RL idêntico para o jogo Countdown. Essa discrepância levanta uma questão crítica: quais propriedades intrínsecas permitem uma autossuperação eficaz? Introduzimos uma estrutura para investigar essa questão, analisando quatro comportamentos cognitivos-chave -- verificação, retrocesso, definição de subobjetivos e encadeamento regressivo -- que tanto solucionadores de problemas humanos especializados quanto modelos de linguagem bem-sucedidos empregam. Nosso estudo revela que o Qwen exibe naturalmente esses comportamentos de raciocínio, enquanto o Llama inicialmente carece deles. Em experimentação sistemática com conjuntos de dados comportamentais controlados, descobrimos que preparar o Llama com exemplos contendo esses comportamentos de raciocínio permite melhorias substanciais durante o RL, igualando ou superando o desempenho do Qwen. Importante destacar que a presença de comportamentos de raciocínio, em vez da correção das respostas, prova-se ser o fator crítico -- modelos preparados com soluções incorretas contendo padrões de raciocínio adequados alcançam desempenho comparável àqueles treinados com soluções corretas. Por fim, aproveitando o pré-treinamento contínuo com dados do OpenWebMath, filtrados para amplificar comportamentos de raciocínio, permite que o modelo Llama iguale a trajetória de autossuperação do Qwen. Nossas descobertas estabelecem uma relação fundamental entre comportamentos de raciocínio iniciais e a capacidade de melhoria, explicando por que alguns modelos de linguagem utilizam efetivamente computação adicional, enquanto outros atingem um platô.
A geração de sequências ultra-longas com modelos de linguagem de grande escala (LLMs) tem se tornado cada vez mais crucial, mas continua sendo uma tarefa altamente demorada, especialmente para sequências de até 100 mil tokens. Embora métodos tradicionais de decodificação especulativa existam, simplesmente estender seus limites de geração não acelera o processo e pode ser prejudicial. Por meio de uma análise detalhada, identificamos três grandes desafios que impedem a geração eficiente: recarregamento frequente do modelo, gerenciamento dinâmico de chave-valor (KV) e geração repetitiva. Para abordar esses problemas, introduzimos o TOKENSWIFT, uma nova estrutura projetada para acelerar substancialmente o processo de geração de sequências ultra-longas, mantendo a qualidade inerente do modelo alvo. Resultados experimentais demonstram que o TOKENSWIFT alcança uma aceleração de mais de 3 vezes em modelos de diversas escalas (1,5B, 7B, 8B, 14B) e arquiteturas (MHA, GQA). Essa aceleração se traduz em horas de economia de tempo para a geração de sequências ultra-longas, estabelecendo o TOKENSWIFT como uma solução escalável e eficaz em comprimentos sem precedentes. O código pode ser encontrado em https://github.com/bigai-nlco/TokenSwift.
Os recentes avanços na geração de música têm atraído atenção significativa, mas as abordagens existentes enfrentam limitações críticas. Alguns modelos generativos atuais só conseguem sintetizar a faixa vocal ou a faixa de acompanhamento. Embora alguns modelos possam gerar vocal e acompanhamento combinados, eles geralmente dependem de arquiteturas em cascata de múltiplos estágios meticulosamente projetadas e pipelines de dados intrincados, prejudicando a escalabilidade. Além disso, a maioria dos sistemas está restrita à geração de segmentos musicais curtos em vez de músicas completas. Adicionalmente, os métodos amplamente utilizados baseados em modelos de linguagem sofrem com velocidades de inferência lentas. Para enfrentar esses desafios, propomos o DiffRhythm, o primeiro modelo de geração de músicas baseado em difusão latente capaz de sintetizar músicas completas com vocal e acompanhamento por durações de até 4m45s em apenas dez segundos, mantendo alta musicalidade e inteligibilidade. Apesar de suas capacidades notáveis, o DiffRhythm foi projetado para ser simples e elegante: ele elimina a necessidade de preparação complexa de dados, emprega uma estrutura de modelo direta e requer apenas letras e um prompt de estilo durante a inferência. Além disso, sua estrutura não autorregressiva garante velocidades de inferência rápidas. Essa simplicidade assegura a escalabilidade do DiffRhythm. Adicionalmente, disponibilizamos o código completo de treinamento junto com o modelo pré-treinado em dados em larga escala para promover a reprodutibilidade e pesquisas futuras.
Recentemente, os sistemas de recomendação baseados em recuperação generativa emergiram como um paradigma promissor. No entanto, a maioria dos sistemas de recomendação modernos adota uma estratégia de recuperação e classificação, onde o modelo generativo funciona apenas como um seletor durante a etapa de recuperação. Neste artigo, propomos o OneRec, que substitui a estrutura de aprendizado em cascata por um modelo generativo unificado. Até onde sabemos, este é o primeiro modelo generativo de ponta a ponta que supera significativamente os sistemas de recomendação complexos e bem projetados atuais em cenários do mundo real. Especificamente, o OneRec inclui: 1) uma estrutura de codificador-decodificador, que codifica as sequências de comportamento histórico do usuário e decodifica gradualmente os vídeos que podem interessar ao usuário. Adotamos uma mistura esparsa de especialistas (MoE) para escalar a capacidade do modelo sem aumentar proporcionalmente os FLOPs computacionais. 2) uma abordagem de geração por sessão. Em contraste com a previsão tradicional do próximo item, propomos uma geração por sessão, que é mais elegante e contextualmente coerente do que a geração ponto a ponto que depende de regras manuais para combinar adequadamente os resultados gerados. 3) um módulo de Alinhamento Iterativo de Preferências combinado com Otimização Direta de Preferências (DPO) para melhorar a qualidade dos resultados gerados. Diferente do DPO em PLN, um sistema de recomendação geralmente tem apenas uma oportunidade para exibir resultados para cada solicitação de navegação do usuário, tornando impossível obter amostras positivas e negativas simultaneamente. Para resolver essa limitação, projetamos um modelo de recompensa para simular a geração do usuário e personalizar a estratégia de amostragem. Experimentos extensivos demonstraram que um número limitado de amostras DPO pode alinhar as preferências de interesse do usuário e melhorar significativamente a qualidade dos resultados gerados. Implantamos o OneRec na cena principal do Kuaishou, alcançando um aumento de 1,6% no tempo de exibição, o que representa uma melhoria substancial.
A estimativa de incerteza é crucial para avaliar Modelos de Linguagem de Grande Escala (LLMs), especialmente em domínios de alto risco, onde respostas incorretas resultam em consequências significativas. Várias abordagens consideram esse problema, mas se concentram em um tipo específico de incerteza, ignorando outros. Investigamos quais estimativas, especificamente a entropia por token e o modelo-como-juiz (MASJ), seriam eficazes para tarefas de resposta a perguntas de múltipla escolha em diferentes tópicos. Nossos experimentos consideram três LLMs: Phi-4, Mistral e Qwen, de diferentes tamanhos, variando de 1,5B a 72B, e 14 tópicos. Enquanto o MASJ tem um desempenho semelhante a um preditor de erro aleatório, a entropia da resposta prevê o erro do modelo em domínios dependentes de conhecimento e serve como um indicador eficaz da dificuldade da questão: para biologia, a ROC AUC é 0,73. Essa correlação desaparece no domínio dependente de raciocínio: para questões de matemática, a ROC-AUC é 0,55. Mais fundamentalmente, descobrimos que a medida de entropia exigia uma quantidade de raciocínio. Portanto, a entropia relacionada à incerteza dos dados deve ser integrada em frameworks de estimativa de incerteza, enquanto o MASJ requer refinamento. Além disso, as amostras existentes do MMLU-Pro são tendenciosas e devem equilibrar a quantidade de raciocínio necessária para diferentes subdomínios, a fim de fornecer uma avaliação mais justa do desempenho dos LLMs.
Transformers com modelagem recorrente linear oferecem treinamento em tempo linear e inferência com memória constante. Apesar de sua eficiência e desempenho comprovados, o pré-treinamento de tais arquiteturas não padronizadas a partir do zero continua sendo caro e arriscado. A linearização de grandes modelos de linguagem (LLMs) transforma modelos pré-treinados padrão em estruturas recorrentes lineares, permitindo uma implantação mais eficiente. No entanto, os métodos atuais de linearização geralmente introduzem módulos adicionais de mapeamento de características que exigem ajuste fino extensivo e ignoram os mecanismos de gating utilizados nos modelos recorrentes lineares de última geração. Para resolver esses problemas, este artigo apresenta o Liger, abreviação de Linearização de LLMs para estruturas recorrentes com gating. Liger é uma abordagem inovadora para converter LLMs pré-treinados em modelos recorrentes lineares com gating sem adicionar parâmetros extras. Ele reaproveita os pesos da matriz de chaves pré-treinada para construir diversos mecanismos de gating, facilitando a formação de várias estruturas recorrentes com gating, evitando a necessidade de treinar componentes adicionais do zero. Utilizando ajuste fino leve com Adaptação de Baixa Ordem (LoRA), o Liger restaura o desempenho dos modelos recorrentes lineares com gating para igualar o dos LLMs originais. Além disso, introduzimos o Liger Attention, um mecanismo híbrido de atenção intra-camada, que recupera significativamente 93\% do LLM baseado em Transformer com 0,02\% dos tokens de pré-treinamento durante o processo de linearização, alcançando resultados competitivos em vários benchmarks, conforme validado em modelos que variam de 1B a 8B parâmetros. O código está disponível em https://github.com/OpenSparseLLMs/Linearization.
Modelos de difusão têm alcançado grande sucesso na geração de imagens 2D. No entanto, a qualidade e a generalização da geração de conteúdo 3D permanecem limitadas. Métodos de ponta frequentemente exigem grandes conjuntos de ativos 3D para treinamento, que são desafiadores de coletar. Neste trabalho, apresentamos o Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), uma estrutura eficiente para gerar, editar e aprimorar objetos 3D, reutilizando um modelo de difusão de imagens 2D bem treinado para geração 3D. Especificamente, ajustamos um modelo de difusão para gerar "Imagem de Pacote 3D", uma representação em mosaico composta por imagens de múltiplas vistas e seus mapas normais correspondentes. Os mapas normais são então usados para reconstruir uma malha 3D, e as imagens de múltiplas vistas fornecem o mapeamento de textura, resultando em um modelo 3D completo. Esse método simples transforma efetivamente o problema de geração 3D em uma tarefa de geração de imagens 2D, maximizando a utilização do conhecimento em modelos de difusão pré-treinados. Além disso, demonstramos que nosso modelo Kiss3DGen é compatível com várias técnicas de modelos de difusão, permitindo recursos avançados como edição 3D, aprimoramento de malhas e texturas, entre outros. Através de extensos experimentos, demonstramos a eficácia de nossa abordagem, mostrando sua capacidade de produzir modelos 3D de alta qualidade de forma eficiente.
Aumentar a computação durante o teste é uma abordagem direta para melhorar a qualidade das respostas em Modelos de Linguagem de Grande Escala (LLMs). Embora a amostragem Best-of-N e a Autoconsistência com votação majoritária sejam simples e eficazes, elas exigem um número fixo de respostas amostradas para cada consulta, independentemente de sua complexidade. Isso pode resultar em computação desperdiçada para perguntas mais simples e exploração insuficiente para as mais desafiadoras. Neste trabalho, argumentamos que a confiança do modelo nas respostas pode ser usada para melhorar a eficiência da escalabilidade durante o teste. Infelizmente, sabe-se que os LLMs são excessivamente confiantes e fornecem estimativas de confiança não confiáveis. Para superar essa limitação, introduzimos a Autocalibração, destilando a confiança derivada da Autoconsistência no próprio modelo. Isso permite uma estimativa confiável de confiança durante o teste com uma única passagem direta. Em seguida, projetamos métodos eficientes de escalabilidade durante o teste baseados em confiança para lidar com consultas de várias dificuldades, como a Interrupção Antecipada para Best-of-N e a Autoconsistência com confiança calibrada. Experimentos em três LLMs em seis conjuntos de dados demonstram a eficácia de nossa abordagem. Especificamente, aplicar a Interrupção Antecipada baseada em confiança ao Best-of-N melhora a precisão do MathQA de 81,0 para 83,6 com um orçamento de amostra de 16 respostas, indicando a eficácia da estratégia de amostragem baseada em confiança durante a inferência.
A seleção de dados de treinamento de alta qualidade a partir de um conjunto maior é uma etapa crucial ao ajustar modelos de linguagem por instrução, pois conjuntos de dados cuidadosamente curados frequentemente produzem modelos que superam aqueles treinados em conjuntos de dados muito maiores e mais ruidosos. As abordagens automatizadas de seleção de dados para ajuste por instrução são tipicamente testadas selecionando pequenos conjuntos de dados (aproximadamente 10 mil amostras) de pequenos pools (100-200 mil amostras). No entanto, modelos populares ajustados por instrução em produção frequentemente treinam com centenas de milhares a milhões de amostras, subamostradas de pools de dados ainda maiores. Apresentamos um estudo sistemático de como os métodos de seleção de dados se dimensionam para esses cenários, selecionando até 2,5 milhões de amostras de pools de até 5,8 milhões de amostras e avaliando em 7 tarefas diversas. Mostramos que muitos métodos propostos recentemente ficam aquém da seleção aleatória nesse cenário (enquanto usam mais recursos computacionais), e até mesmo apresentam queda de desempenho quando têm acesso a pools maiores de dados para seleção. No entanto, descobrimos que uma variante da seleção de dados baseada em representação (RDS+), que usa pooling ponderado de médias dos estados ocultos de modelos de linguagem pré-treinados, consistentemente supera métodos mais complexos em todos os cenários testados — tudo isso sendo mais eficiente em termos computacionais. Nossos achados destacam que as propriedades de dimensionamento dos métodos de seleção automatizados propostos devem ser examinadas mais de perto. Disponibilizamos nosso código, dados e modelos em https://github.com/hamishivi/automated-instruction-selection.
Modelos de linguagem de grande escala (LLMs) demonstram desempenho excepcional em uma ampla gama de tarefas; no entanto, seu processo de geração autoregressivo token por token prejudica significativamente a velocidade de inferência. A decodificação especulativa apresenta uma estrutura promissora de rascunho e verificação que reduz a latência de geração enquanto mantém a fidelidade da distribuição de saída. No entanto, o modelo de rascunho introduz sobrecarga computacional adicional, tornando-se um gargalo de desempenho e aumentando o tempo para o primeiro token (TTFT). Abordagens anteriores para mitigar a sobrecarga do modelo de rascunho dependiam principalmente de heurísticas e geralmente não conseguiam igualar a qualidade dos modelos de linguagem de rascunho. Para enfrentar esses desafios, propomos o DuoDecoding, uma abordagem inovadora que implanta estrategicamente os modelos de rascunho e alvo na CPU e GPU, respectivamente, permitindo a decodificação paralela enquanto preserva a qualidade do rascunho. Nosso método incorpora um orçamento de rascunho ótimo consciente do hardware para minimizar tempos ociosos e emprega a elaboração dinâmica de múltiplas sequências para melhorar a qualidade do rascunho. Experimentos extensivos em sete tarefas mostram que o DuoDecoding alcança uma aceleração de até 2,61x na latência de geração, enquanto reduz o TTFT para 83% do observado na decodificação especulativa convencional. O código está disponível em https://github.com/KaiLv69/DuoDecoding.
A análise de grandes conjuntos de dados requer execução ágil de consultas, mas a execução de consultas SQL em conjuntos de dados massivos pode ser lenta. Este artigo investiga se a execução de consultas pode começar antes mesmo que o usuário termine de digitar, permitindo que os resultados apareçam quase instantaneamente. Propomos o SpeQL, um sistema que aproveita Modelos de Linguagem de Grande Escala (LLMs) para prever consultas prováveis com base no esquema do banco de dados, nas consultas anteriores do usuário e na consulta incompleta digitada. Como a previsão exata da consulta é inviável, o SpeQL especula sobre consultas parciais de duas maneiras: 1) prevê a estrutura da consulta para compilar e planejar consultas antecipadamente, e 2) pré-computa tabelas temporárias menores, que são muito mais compactas que o banco de dados original, mas ainda são previstas para conter todas as informações necessárias para responder à consulta final do usuário. Além disso, o SpeQL exibe continuamente resultados para consultas e subconsultas especuladas em tempo real, auxiliando na análise exploratória. Um estudo de utilidade/usuário mostrou que o SpeQL melhorou o tempo de conclusão de tarefas, e os participantes relataram que a exibição especulativa de resultados os ajudou a descobrir padrões nos dados mais rapidamente. No estudo, o SpeQL reduziu a latência das consultas dos usuários em até 289 vezes e manteve a sobrecarga razoável, em $4 por hora.
Comunidades de conteúdo gerado pelo usuário (UGC), especialmente aquelas que apresentam conteúdo multimodal, melhoram a experiência do usuário ao integrar informações visuais e textuais nos resultados (ou itens). O desafio de aprimorar a experiência do usuário em sistemas complexos com serviços de busca e recomendação (S&R) tem atraído significativa atenção tanto da academia quanto da indústria nos últimos anos. No entanto, a falta de conjuntos de dados de alta qualidade tem limitado o progresso da pesquisa em S&R multimodal. Para atender à crescente necessidade de desenvolver melhores serviços de S&R, apresentamos neste artigo um novo conjunto de dados de recuperação de informação multimodal, denominado Qilin. O conjunto de dados foi coletado do Xiaohongshu, uma plataforma social popular com mais de 300 milhões de usuários ativos mensais e uma taxa média de penetração de busca superior a 70%. Em contraste com conjuntos de dados existentes, o Qilin oferece uma coleção abrangente de sessões de usuários com resultados heterogêneos, como notas de imagem-texto, notas de vídeo, notas comerciais e respostas diretas, facilitando o desenvolvimento de modelos avançados de recuperação neural multimodal em diversas configurações de tarefas. Para modelar melhor a satisfação do usuário e apoiar a análise de comportamentos heterogêneos dos usuários, também coletamos extensos sinais contextuais em nível de aplicativo e feedback genuíno dos usuários. Notavelmente, o Qilin contém respostas favoritas dos usuários e seus resultados referenciados para solicitações de busca que acionam o módulo de Resposta Profunda a Consultas (DQA). Isso permite não apenas o treinamento e avaliação de um pipeline de Geração Aumentada por Recuperação (RAG), mas também a exploração de como tal módulo afetaria o comportamento de busca dos usuários. Por meio de análises e experimentos abrangentes, fornecemos descobertas e insights interessantes para aprimorar ainda mais os sistemas de S&R. Esperamos que o Qilin contribua significativamente para o avanço de plataformas de conteúdo multimodal com serviços de S&R no futuro.
Os métodos existentes de mistura de dados de pré-treinamento para modelos de linguagem de grande escala (LLMs) geralmente seguem uma abordagem por domínio, um processo de cima para baixo que primeiro determina os pesos dos domínios e, em seguida, realiza uma amostragem uniforme de dados em cada domínio. No entanto, essas abordagens negligenciam sobreposições e características comuns significativas entre domínios, falhando em controlar a diversidade global do conjunto de dados de treinamento construído. Além disso, a amostragem uniforme dentro dos domínios ignora características específicas de cada amostra em nível granular, potencialmente levando a uma distribuição de dados subótima. Para abordar essas deficiências, propomos uma nova abordagem de mistura de dados por amostra baseada em um paradigma de baixo para cima. Esse método realiza uma amostragem global entre domínios avaliando sistematicamente a qualidade e a diversidade de cada amostra, determinando assim dinamicamente a distribuição ótima de domínios. Experimentos abrangentes em várias tarefas de downstream e avaliações de perplexidade demonstram que o SampleMix supera os métodos baseados em domínio existentes. Enquanto isso, o SampleMix requer de 1,4x a 2,1x mais etapas de treinamento para alcançar o desempenho das baselines, destacando o potencial substancial do SampleMix para otimizar os dados de pré-treinamento.
Modelos generativos de texto para vídeo convertem prompts textuais em conteúdo visual dinâmico, oferecendo aplicações abrangentes na produção cinematográfica, jogos e educação. No entanto, seu desempenho no mundo real frequentemente fica aquém das expectativas dos usuários. Uma razão fundamental é que esses modelos não foram treinados com vídeos relacionados a alguns tópicos que os usuários desejam criar. Neste artigo, propomos o VideoUFO, o primeiro conjunto de dados de vídeo especificamente curado para alinhar-se ao foco dos usuários em cenários do mundo real. Além disso, nosso VideoUFO também apresenta: (1) sobreposição mínima (0,29%) com conjuntos de dados de vídeo existentes e (2) vídeos pesquisados exclusivamente por meio da API oficial do YouTube sob a licença Creative Commons. Esses dois atributos fornecem aos futuros pesquisadores maior liberdade para ampliar suas fontes de treinamento. O VideoUFO compreende mais de 1,09 milhão de clipes de vídeo, cada um acompanhado de uma legenda breve e uma descrição detalhada. Especificamente, por meio de clustering, identificamos primeiro 1.291 tópicos focados no usuário a partir do conjunto de dados de prompts de texto para vídeo em larga escala, VidProM. Em seguida, usamos esses tópicos para recuperar vídeos do YouTube, dividimos os vídeos recuperados em clipes e geramos legendas breves e detalhadas para cada clipe. Após verificar os clipes com os tópicos especificados, restam cerca de 1,09 milhão de clipes de vídeo. Nossos experimentos revelam que (1) os 16 modelos atuais de texto para vídeo não alcançam desempenho consistente em todos os tópicos focados no usuário; e (2) um modelo simples treinado no VideoUFO supera outros nos tópicos de pior desempenho. O conjunto de dados está publicamente disponível em https://huggingface.co/datasets/WenhaoWang/VideoUFO sob a licença CC BY 4.0.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a geração de código ao combinar sua excepcional compreensão de linguagem natural e sintaxe de programação, aumentando substancialmente a produtividade dos desenvolvedores. Esses avanços impulsionaram diversos esforços para avaliar quantitativamente suas capacidades de codificação. No entanto, desafios persistentes, como vazamento de benchmarks, dissipação de dados e acesso limitado ao sistema, continuam a dificultar uma avaliação precisa e oportuna. Para enfrentar essas limitações, apresentamos o CodeArena, uma estrutura de avaliação online projetada para a geração de código por LLMs. A principal inovação é um mecanismo de avaliação coletiva, que recalibra dinamicamente as pontuações individuais dos modelos com base no desempenho geral de todos os modelos participantes, mitigando vieses de pontuação causados pelo vazamento generalizado de benchmarks. Além disso, o CodeArena garante acesso aberto a todas as soluções e casos de teste submetidos e oferece APIs amigáveis à automação para agilizar o fluxo de trabalho de avaliação de código. Nossas principais contribuições são: (1) um sistema de avaliação coletiva para avaliação imparcial, (2) um repositório público de soluções e casos de teste, e (3) APIs prontas para automação para integração contínua.
Os métodos existentes de geração automática de áudio enfrentam dificuldades para produzir programas de áudio semelhantes a podcasts de forma eficaz. Os principais desafios residem na geração de conteúdo aprofundado e na produção de vozes adequadas e expressivas. Este artigo propõe o PodAgent, uma estrutura abrangente para a criação de programas de áudio. O PodAgent 1) gera conteúdo informativo de discussão de tópicos por meio de um sistema de colaboração multiagente Host-Convidado-Escritor, 2) constrói um pool de vozes para correspondência adequada de voz-papel e 3) utiliza um método de síntese de fala aprimorado por LLM para gerar fala conversacional expressiva. Dada a ausência de critérios padronizados de avaliação para geração de áudio semelhante a podcasts, desenvolvemos diretrizes abrangentes de avaliação para avaliar efetivamente o desempenho do modelo. Os resultados experimentais demonstram a eficácia do PodAgent, superando significativamente a geração direta do GPT-4 no conteúdo de diálogo de discussão de tópicos, alcançando uma precisão de 87,4% na correspondência de voz e produzindo fala mais expressiva por meio da síntese guiada por LLM. Página de demonstração: https://podcast-agent.github.io/demo/. Código-fonte: https://github.com/yujxx/PodAgent.
Embora os modelos generativos baseados em verossimilhança, particularmente os modelos de difusão e autoregressivos, tenham alcançado uma fidelidade notável na geração visual, o objetivo de estimativa de máxima verossimilhança (MLE) sofre inerentemente de uma tendência de cobertura de modos que limita a qualidade da geração sob capacidade limitada do modelo. Neste trabalho, propomos a Otimização Discriminativa Direta (DDO) como uma estrutura unificada que conecta o treinamento generativo baseado em verossimilhança ao objetivo GAN para contornar essa restrição fundamental. Nossa principal percepção é parametrizar um discriminador implicitamente usando a razão de verossimilhança entre um modelo alvo aprendível e um modelo de referência fixo, traçando paralelos com a filosofia da Otimização de Preferência Direta (DPO). Diferente das GANs, essa parametrização elimina a necessidade de treinamento conjunto de redes geradoras e discriminadoras, permitindo o ajuste fino direto, eficiente e eficaz de um modelo bem treinado para seu potencial máximo além dos limites do MLE. O DDO pode ser realizado iterativamente de forma autônoma para refinamento progressivo do modelo, com cada rodada exigindo menos de 1% das épocas de pré-treinamento. Nossos experimentos demonstram a eficácia do DDO ao avançar significativamente o modelo de difusão EDM, anteriormente SOTA, reduzindo os escores FID de 1,79/1,58 para novos recordes de 1,30/0,97 nos conjuntos de dados CIFAR-10/ImageNet-64, e ao melhorar consistentemente tanto os FIDs sem orientação quanto os aprimorados por CFG de modelos autoregressivos visuais no ImageNet 256x256.
Este artigo investiga o potencial de modelos de linguagem de grande escala (LLMs) para desenvolver linguagens tonais privadas para comunicação máquina-a-máquina (M2M). Inspirados pela criptofasia em gêmeos humanos (que afeta até 50% dos nascimentos de gêmeos) e por linguagens tonais naturais como o mandarim e o vietnamita, implementamos um sistema preciso de mapeamento de caracteres para frequências que codifica todo o conjunto de caracteres ASCII (32-126) usando semitons musicais. Cada caractere é atribuído a uma frequência única, criando uma progressão logarítmica que começa com o espaço (220 Hz) e termina com o til (50.175,42 Hz). Isso abrange aproximadamente 7,9 oitavas, com caracteres mais altos deliberadamente mapeados para frequências ultrassônicas além da percepção humana (>20 kHz). Nosso protótipo de software implementado demonstra essa codificação por meio de visualização, reprodução auditiva e notação musical ABC, permitindo a análise da densidade de informação e da velocidade de transmissão. Testes revelam que a codificação tonal pode alcançar taxas de informação superiores à fala humana enquanto opera parcialmente fora dos limites de percepção humana. Este trabalho responde diretamente às preocupações sobre sistemas de IA desenvolverem catastróficamente linguagens privadas nos próximos cinco anos, fornecendo um exemplo concreto de protótipo de software de como tal comunicação poderia funcionar e a base técnica necessária para seu surgimento, detecção e governança.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram utilidade impressionante no mundo real, exemplificando inteligência artificial útil (AUI). No entanto, sua capacidade de raciocinar de forma adaptativa e robusta — características fundamentais da inteligência artificial geral (AGI) — permanece frágil. Embora os LLMs aparentemente tenham sucesso em raciocínio de senso comum, programação e matemática, eles lutam para generalizar o entendimento algorítmico em contextos novos. Nossos experimentos com tarefas algorítmicas em linguagens de programação esotéricas revelam que o raciocínio dos LLMs superajusta-se aos dados de treinamento e é limitado em sua transferibilidade. Nossa hipótese é que o problema central subjacente a essa transferibilidade limitada é o acoplamento entre raciocínio e conhecimento nos LLMs. Para transitar de AUI para AGI, propomos desacoplar conhecimento e raciocínio por meio de três direções principais: (1) pré-treinamento para raciocinar usando aprendizado por reforço (RL) do zero, como alternativa ao pré-treinamento amplamente utilizado de previsão do próximo token, (2) uso de um currículo de tarefas sintéticas para facilitar o aprendizado de um prior de raciocínio para RL, que pode então ser transferido para tarefas de linguagem natural, e (3) aprendizado de funções de raciocínio mais generalizáveis usando uma janela de contexto pequena para reduzir a exploração de correlações espúrias entre tokens. Um sistema de raciocínio desse tipo, acoplado a um sistema de recuperação treinado e um grande banco de memória externa como armazenamento de conhecimento, pode superar várias limitações das arquiteturas existentes ao aprender a raciocinar em cenários novos.
À medida que os grandes modelos de linguagem se expandem além da linguagem natural para domínios como matemática, compreensão multimodal e agentes corporificados, os tokens passam a refletir cada vez mais relações métricas em vez de significados puramente linguísticos. Apresentamos o DIST2Loss, uma estrutura consciente de distância projetada para treinar modelos discretos autorregressivos, aproveitando relações de distância predefinidas entre os tokens de saída. Em sua essência, o DIST2Loss transforma distribuições contínuas da família exponencial derivadas de métricas de distância intrínsecas em alvos de otimização discretos e categóricos, compatíveis com as arquiteturas dos modelos. Essa abordagem permite que os modelos aprendam e preservem relações de distância significativas durante a geração de tokens, mantendo a compatibilidade com arquiteturas existentes. Avaliações empíricas mostram ganhos consistentes de desempenho em diversas aplicações multimodais, incluindo ancoragem visual, manipulação robótica, modelagem de recompensa generativa e geração de imagens usando recursos quantizados vetorialmente. Essas melhorias são mais pronunciadas em casos de dados de treinamento limitados, destacando a eficácia do DIST2Loss em cenários com recursos restritos.
Leitores humanos podem compreender eficientemente palavras embaralhadas, um fenômeno conhecido como Tipoglicemia, principalmente ao se apoiar na forma das palavras; se a forma da palavra por si só for insuficiente, eles utilizam ainda pistas contextuais para interpretação. Embora modelos avançados de linguagem de grande escala (LLMs, na sigla em inglês) exibam habilidades semelhantes, os mecanismos subjacentes permanecem pouco claros. Para investigar isso, conduzimos experimentos controlados para analisar os papéis da forma da palavra e da informação contextual na reconstrução semântica e examinar os padrões de atenção dos LLMs. Especificamente, propomos primeiro o SemRecScore, uma métrica confiável para quantificar o grau de reconstrução semântica, e validamos sua eficácia. Usando essa métrica, estudamos como a forma da palavra e a informação contextual influenciam a capacidade de reconstrução semântica dos LLMs, identificando a forma da palavra como o fator central nesse processo. Além disso, analisamos como os LLMs utilizam a forma da palavra e descobrimos que eles dependem de cabeças de atenção especializadas para extrair e processar informações sobre a forma da palavra, com esse mecanismo permanecendo estável em diferentes níveis de embaralhamento de palavras. Essa distinção entre os padrões fixos de atenção dos LLMs, focados principalmente na forma da palavra, e a estratégia adaptativa dos leitores humanos em equilibrar forma da palavra e informação contextual, fornece insights para aprimorar o desempenho dos LLMs ao incorporar mecanismos semelhantes aos humanos, que são conscientes do contexto.
A estimativa de layout de ambientes a partir de imagens de múltiplas perspectivas é pouco explorada devido às complexidades que surgem da geometria multivista, que exige soluções em múltiplas etapas, como a estimativa de parâmetros intrínsecos e extrínsecos da câmera, correspondência de imagens e triangulação. No entanto, na reconstrução 3D, o avanço de modelos fundamentais 3D recentes, como o DUSt3R, mudou o paradigma do tradicional processo de estrutura a partir do movimento em múltiplas etapas para uma abordagem de etapa única e de ponta a ponta. Para isso, introduzimos o Plane-DUSt3R, um método inovador para estimativa de layout de ambientes multivista que aproveita o modelo fundamental 3D DUSt3R. O Plane-DUSt3R incorpora a estrutura do DUSt3R e é ajustado em um conjunto de dados de layout de ambientes (Structure3D) com um objetivo modificado para estimar planos estruturais. Ao gerar resultados uniformes e parcimoniosos, o Plane-DUSt3R permite a estimativa de layout de ambientes com apenas uma etapa de pós-processamento e resultados de detecção 2D. Diferente de métodos anteriores que dependem de imagens de perspectiva única ou panorâmicas, o Plane-DUSt3R amplia o cenário para lidar com imagens de múltiplas perspectivas. Além disso, oferece uma solução simplificada e de ponta a ponta que simplifica o processo e reduz o acúmulo de erros. Resultados experimentais demonstram que o Plane-DUSt3R não apenas supera os métodos mais avançados no conjunto de dados sintético, mas também se mostra robusto e eficaz em dados do mundo real com diferentes estilos de imagem, como desenho animado. Nosso código está disponível em: https://github.com/justacar/Plane-DUSt3R.
Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades notáveis na decomposição hierárquica de tarefas complexas por meio de raciocínio semântico. No entanto, sua aplicação em sistemas corporificados enfrenta desafios para garantir a execução confiável de sequências de subtarefas e alcançar sucesso imediato na conclusão de tarefas de longo prazo. Para abordar essas limitações em ambientes dinâmicos, propomos o Agente Corporificado em Circuito Fechado (CLEA) — uma arquitetura inovadora que incorpora quatro LLMs especializados de código aberto com desacoplamento funcional para o gerenciamento de tarefas em circuito fechado. O framework apresenta duas inovações principais: (1) Planejador de tarefas interativo que gera dinamicamente subtarefas executáveis com base na memória ambiental, e (2) Crítico de execução multimodal que emprega um framework de avaliação para realizar uma análise probabilística da viabilidade de ações, acionando mecanismos hierárquicos de replanejamento quando perturbações ambientais excedem limites pré-definidos. Para validar a eficácia do CLEA, conduzimos experimentos em um ambiente real com objetos manipuláveis, utilizando dois robôs heterogêneos para tarefas de busca, manipulação e integração busca-manipulação. Em 12 tentativas de tarefas, o CLEA superou o modelo de referência, alcançando uma melhoria de 67,3% na taxa de sucesso e um aumento de 52,8% na taxa de conclusão de tarefas. Esses resultados demonstram que o CLEA aprimora significativamente a robustez do planejamento e execução de tarefas em ambientes dinâmicos.
Os recentes avanços em agentes de IA para a web demonstraram capacidades notáveis na resolução de tarefas complexas de navegação na web. No entanto, pesquisas emergentes mostram que esses agentes exibem maior vulnerabilidade em comparação com modelos de linguagem grandes (LLMs) autônomos, apesar de ambos serem construídos sobre os mesmos modelos alinhados com segurança. Essa discrepância é particularmente preocupante, considerando a maior flexibilidade dos agentes de IA para a web em comparação com LLMs autônomos, o que pode expô-los a uma gama mais ampla de entradas adversárias de usuários. Para construir uma estrutura que aborde essas preocupações, este estudo investiga os fatores subjacentes que contribuem para o aumento da vulnerabilidade dos agentes de IA para a web. Notavelmente, essa disparidade decorre das diferenças multifacetadas entre agentes de IA para a web e LLMs autônomos, bem como dos sinais complexos — nuances que métricas simples de avaliação, como a taxa de sucesso, frequentemente falham em capturar. Para enfrentar esses desafios, propomos uma análise em nível de componente e uma estrutura de avaliação mais granular e sistemática. Por meio dessa investigação detalhada, identificamos três fatores críticos que amplificam a vulnerabilidade dos agentes de IA para a web: (1) a incorporação dos objetivos do usuário no prompt do sistema, (2) a geração de ações em múltiplas etapas e (3) as capacidades de observação. Nossas descobertas destacam a necessidade urgente de aprimorar a segurança e a robustez no design de agentes de IA e fornecem insights acionáveis para estratégias de defesa direcionadas.
A quantização camada por camada é uma técnica fundamental para comprimir eficientemente modelos grandes sem a necessidade de retreinamento dispendioso. Métodos anteriores normalmente quantizam os pesos de cada camada otimizando "uniformemente" a perda de reconstrução da camada em todos os tokens de saída. No entanto, neste artigo, demonstramos que modelos melhor quantizados podem ser obtidos priorizando o aprendizado a partir de tokens importantes (por exemplo, aqueles que possuem grandes pontuações de atenção). Com base nessa descoberta, propomos o RSQ (Rotate, Scale, then Quantize), que (1) aplica rotações (transformação ortogonal) ao modelo para mitigar outliers (aqueles com magnitude excepcionalmente grande), (2) dimensiona o recurso do token com base em sua importância, e (3) quantiza o modelo usando o framework GPTQ com as estatísticas de segunda ordem calculadas por tokens dimensionados. Para calcular a importância do token, exploramos tanto estratégias heurísticas quanto dinâmicas. Com base em uma análise detalhada de todas as abordagens, adotamos a concentração de atenção, que usa as pontuações de atenção de cada token como sua importância, como a melhor abordagem. Demonstramos que o RSQ supera consistentemente os métodos de base em várias tarefas subsequentes e três famílias de modelos: LLaMA3, Mistral e Qwen2.5. Além disso, modelos quantizados com RSQ alcançam desempenho superior em tarefas de contexto longo, destacando ainda mais sua eficácia. Por fim, o RSQ demonstra generalização em várias configurações, incluindo diferentes tamanhos de modelos, conjuntos de dados de calibração, precisões de bits e métodos de quantização.