Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Qwen3-Omni, um modelo multimodal único que, pela primeira vez, mantém desempenho de ponta em texto, imagem, áudio e vídeo sem qualquer degradação em relação aos modelos unimodais correspondentes. O Qwen3-Omni iguala o desempenho de modelos unimodais de tamanho equivalente da série Qwen e se destaca especialmente em tarefas de áudio. Em 36 benchmarks de áudio e audiovisual, o Qwen3-Omni alcança o estado da arte (SOTA) em código aberto em 32 benchmarks e o SOTA geral em 22, superando modelos proprietários robustos como o Gemini-2.5-Pro, Seed-ASR e GPT-4o-Transcribe. O Qwen3-Omni adota uma arquitetura Thinker-Talker MoE que unifica percepção e geração em texto, imagens, áudio e vídeo, produzindo texto fluente e fala natural em tempo real. Ele suporta interação textual em 119 idiomas, compreensão de fala em 19 idiomas e geração de fala em 10 idiomas. Para reduzir a latência do primeiro pacote na síntese em streaming, o Talker prevê de forma autoregressiva codecs de fala discretos usando um esquema de multicodebook. Aproveitando a capacidade representacional desses codebooks, substituímos a difusão em blocos, computacionalmente intensiva, por uma ConvNet causal leve, permitindo o streaming a partir do primeiro quadro do codec. Em configurações de inicialização a frio, o Qwen3-Omni alcança uma latência teórica de ponta a ponta do primeiro pacote de 234 ms. Para fortalecer ainda mais o raciocínio multimodal, introduzimos um modelo Thinking que raciocina explicitamente sobre entradas de qualquer modalidade. Como a comunidade de pesquisa atualmente carece de um modelo de legendagem de áudio de propósito geral, ajustamos o Qwen3-Omni-30B-A3B para obter o Qwen3-Omni-30B-A3B-Captioner, que produz legendas detalhadas e com baixa alucinação para entradas de áudio arbitrárias. O Qwen3-Omni-30B-A3B, o Qwen3-Omni-30B-A3B-Thinking e o Qwen3-Omni-30B-A3B-Captioner são disponibilizados publicamente sob a licença Apache 2.0.
Definimos Agência como a capacidade emergente de sistemas de IA de funcionar como agentes autônomos que descobrem problemas ativamente, formulam hipóteses e executam soluções por meio de engajamento autodirigido com ambientes e ferramentas. Essa capacidade fundamental marca o alvorecer da Era da Agência da IA, impulsionada por uma mudança crítica na indústria: a necessidade urgente de sistemas de IA que não apenas pensam, mas trabalham. Embora a IA atual se destaque em raciocínio e geração de respostas, as indústrias demandam agentes autônomos que possam executar tarefas, operar ferramentas e gerar resultados no mundo real. À medida que a inteligência agentiva se torna a característica definidora que separa sistemas cognitivos de trabalhadores produtivos, cultivar eficientemente a autonomia das máquinas torna-se primordial. As abordagens atuais assumem que mais dados geram melhor agência, seguindo as leis tradicionais de escalonamento da modelagem de linguagem. Desafiamos fundamentalmente esse paradigma. LIMI (Less Is More for Intelligent Agency) demonstra que a agência segue princípios de desenvolvimento radicalmente diferentes. Por meio de um foco estratégico no desenvolvimento colaborativo de software e fluxos de trabalho de pesquisa científica, mostramos que uma inteligência agentiva sofisticada pode emergir de demonstrações mínimas, mas estrategicamente curadas, de comportamento autônomo. Usando apenas 78 amostras de treinamento cuidadosamente projetadas, o LIMI alcança 73,5% em benchmarks abrangentes de agência, superando dramaticamente os modelos state-of-the-art: Kimi-K2-Instruct (24,1%), DeepSeek-V3.1 (11,9%), Qwen3-235B-A22B-Instruct (27,5%) e GLM-4.5 (45,1%). Mais impressionante ainda, o LIMI demonstra uma melhoria de 53,7% em relação a modelos treinados com 10.000 amostras — alcançando inteligência agentiva superior com 128 vezes menos amostras. Nossas descobertas estabelecem o Princípio da Eficiência da Agência: a autonomia das máquinas emerge não da abundância de dados, mas da curadoria estratégica de demonstrações agentivas de alta qualidade.
Os recentes avanços na inserção de vídeo baseada em modelos de difusão são impressionantes. No entanto, os métodos existentes dependem de sinais de controle complexos, mas enfrentam dificuldades com a consistência do sujeito, limitando sua aplicabilidade prática. Neste artigo, focamos na tarefa de Inserção de Vídeo sem Máscara e buscamos resolver três desafios principais: escassez de dados, equilíbrio sujeito-cena e harmonização da inserção. Para abordar a escassez de dados, propomos um novo pipeline de dados, o InsertPipe, que constrói automaticamente dados diversos de pares cruzados. Com base em nosso pipeline de dados, desenvolvemos o OmniInsert, uma nova estrutura unificada para inserção de vídeo sem máscara a partir de referências de um ou vários sujeitos. Especificamente, para manter o equilíbrio sujeito-cena, introduzimos um mecanismo de Injeção de Características Específicas à Condição, simples mas eficaz, para injetar distintamente condições de múltiplas fontes, e propomos uma nova estratégia de Treinamento Progressivo que permite ao modelo equilibrar a injeção de características dos sujeitos e do vídeo de origem. Além disso, projetamos a Perda Focada no Sujeito para melhorar a aparência detalhada dos sujeitos. Para aprimorar ainda mais a harmonização da inserção, propomos uma metodologia de Otimização de Preferência Inserativa para otimizar o modelo simulando preferências humanas, e incorporamos um módulo de Reformulação Consciente do Contexto durante a referência para integrar perfeitamente o sujeito às cenas originais. Para abordar a falta de um benchmark para o campo, introduzimos o InsertBench, um benchmark abrangente composto por diversas cenas com sujeitos meticulosamente selecionados. A avaliação no InsertBench indica que o OmniInsert supera as soluções comerciais de código fechado mais avançadas. O código será liberado.
Apresentamos o Meta Agents Research Environments (ARE), uma plataforma de pesquisa para a criação escalável de ambientes, integração de aplicações sintéticas ou reais e execução de orquestrações agentivas. O ARE fornece abstrações simples para construir ambientes complexos e diversos, cada um com suas próprias regras, ferramentas, conteúdos e verificadores, ajudando a preencher a lacuna entre o desenvolvimento de modelos e a implantação no mundo real. Também propomos o Gaia2, um benchmark construído no ARE e projetado para medir as capacidades gerais de agentes. Além de busca e execução, o Gaia2 exige que os agentes lidem com ambiguidades e ruídos, se adaptem a ambientes dinâmicos, colaborem com outros agentes e operem sob restrições temporais. Diferente de benchmarks anteriores, o Gaia2 funciona de forma assíncrona, revelando novos modos de falha que são invisíveis em configurações estáticas. Nossos experimentos mostram que nenhum sistema domina todo o espectro de inteligência: raciocínios mais fortes frequentemente vêm ao custo de eficiência, e as curvas de escalonamento de orçamento atingem platôs, destacando a necessidade de novas arquiteturas e estratégias de computação adaptativa. Talvez mais importante, as abstrações do ARE permitem a extensão contínua do Gaia2 para outros ambientes, capacitando a comunidade a criar rapidamente novos benchmarks adaptados aos seus domínios. Na segunda metade da IA, o progresso depende cada vez mais da definição de tarefas significativas e avaliações robustas para impulsionar as capacidades de fronteira.
Apesar do crescente interesse em replicar o sucesso escalável dos grandes modelos de linguagem (LLMs) em sistemas industriais de busca e recomendação, a maioria dos esforços industriais existentes permanece limitada ao transplante de arquiteturas Transformer, que trazem apenas melhorias incrementais sobre os robustos Modelos de Recomendação com Aprendizado Profundo (DLRMs). Sob uma perspectiva de primeiros princípios, os avanços dos LLMs decorrem não apenas de suas arquiteturas, mas também de dois mecanismos complementares: a engenharia de contexto, que enriquece as consultas de entrada brutas com pistas contextuais para melhor eliciar as capacidades do modelo, e o raciocínio em múltiplos passos, que refina iterativamente as saídas do modelo por meio de caminhos de raciocínio intermediários. No entanto, esses dois mecanismos e seu potencial para desbloquear melhorias substanciais permanecem amplamente inexplorados em sistemas de classificação industrial. Neste artigo, propomos o OnePiece, um framework unificado que integra de forma contínua a engenharia de contexto e o raciocínio no estilo LLM tanto nos modelos de recuperação quanto de classificação dos pipelines em cascata industriais. O OnePiece é construído sobre uma arquitetura puramente Transformer e introduz três inovações principais: (1) engenharia de contexto estruturada, que amplia o histórico de interações com sinais de preferência e cenário e os unifica em uma sequência de entrada tokenizada estruturada para recuperação e classificação; (2) raciocínio latente em blocos, que equipa o modelo com refinamento de representações em múltiplos passos e escala a largura de banda do raciocínio por meio do tamanho do bloco; (3) treinamento multitarefa progressivo, que aproveita cadeias de feedback do usuário para supervisionar efetivamente os passos de raciocínio durante o treinamento. O OnePiece foi implantado no principal cenário de busca personalizada da Shopee e alcança ganhos consistentes online em diferentes métricas-chave de negócios, incluindo mais de +2% de GMV/UU e um aumento de +2,90% na receita publicitária.
Este artigo apresenta o TempSamp-R1, um novo framework de ajuste fino por reforço projetado para melhorar a eficácia da adaptação de modelos de linguagem multimodal de grande escala (MLLMs) para tarefas de localização temporal em vídeos. Revelamos que os métodos existentes de aprendizado por reforço, como o Group Relative Policy Optimization (GRPO), dependem de amostragem on-policy para atualizações de política. No entanto, em tarefas com grandes espaços de busca temporal, essa estratégia se torna ineficiente e limitada em desempenho, pois frequentemente falha em identificar soluções temporalmente precisas. Para superar essa limitação, o TempSamp-R1 utiliza anotações de ground-truth como supervisão off-policy para fornecer orientação temporalmente precisa, compensando efetivamente a escassez e o desalinhamento nas soluções on-policy. Para estabilizar ainda mais o treinamento e reduzir a variância nas atualizações baseadas em recompensa, o TempSamp-R1 oferece um método de cálculo de vantagem suave não linear que remodela dinamicamente o feedback de recompensa por meio de uma transformação assimétrica. Ao empregar um paradigma híbrido de treinamento Chain-of-Thought (CoT), o TempSamp-R1 otimiza um único modelo unificado para suportar tanto modos de inferência CoT quanto não-CoT, permitindo o tratamento eficiente de consultas com diferentes complexidades de raciocínio. Os resultados experimentais demonstram que o TempSamp-R1 supera as baselines baseadas em GRPO, estabelecendo novos recordes de desempenho em conjuntos de dados de referência: Charades-STA (R1@0.7: 52,9%, +2,7%), ActivityNet Captions (R1@0.5: 56,0%, +5,3%) e QVHighlights (mAP: 30,0%, +3,0%). Além disso, o TempSamp-R1 mostra capacidades robustas de generalização few-shot com dados limitados. Código: https://github.com/HVision-NKU/TempSamp-R1
Neste artigo, propomos o VideoFrom3D, uma nova estrutura para sintetizar vídeos de cenas 3D de alta qualidade a partir de geometria grosseira, uma trajetória de câmera e uma imagem de referência. Nossa abordagem simplifica o fluxo de trabalho de design gráfico 3D, permitindo exploração flexível de design e produção rápida de entregáveis. Uma abordagem direta para sintetizar um vídeo a partir de geometria grosseira poderia condicionar um modelo de difusão de vídeo na estrutura geométrica. No entanto, os modelos de difusão de vídeo existentes lutam para gerar resultados de alta fidelidade para cenas complexas devido à dificuldade de modelar conjuntamente qualidade visual, movimento e consistência temporal. Para resolver isso, propomos uma estrutura generativa que aproveita os pontos fortes complementares dos modelos de difusão de imagem e vídeo. Especificamente, nossa estrutura consiste em um Módulo de Geração de Visões Âncora Esparsas (SAG) e um Módulo de Interpolação Generativa Guiada por Geometria (GGI). O módulo SAG gera visões âncora de alta qualidade e consistentes entre diferentes perspectivas usando um modelo de difusão de imagem, auxiliado por Amostragem Guiada por Aparência Esparsa. Com base nessas visões âncora, o módulo GGI interpola fielmente quadros intermediários usando um modelo de difusão de vídeo, aprimorado por controle de câmera baseado em fluxo e orientação estrutural. Notavelmente, ambos os módulos operam sem qualquer conjunto de dados pareados de modelos de cena 3D e imagens naturais, que é extremamente difícil de obter. Experimentos abrangentes mostram que nosso método produz vídeos de cena de alta qualidade e consistentes em estilo em diversos cenários desafiadores, superando linhas de base simples e estendidas.
O aprendizado por reforço online (RL) tem sido central para o pós-treinamento de modelos de linguagem, mas sua extensão para modelos de difusão permanece desafiadora devido às probabilidades intratáveis. Trabalhos recentes discretizam o processo de amostragem reversa para permitir o treinamento no estilo GRPO, mas eles herdam desvantagens fundamentais, incluindo restrições de solucionadores, inconsistência entre os processos direto e reverso, e integração complicada com a orientação sem classificador (CFG). Introduzimos o Diffusion Negative-aware FineTuning (DiffusionNFT), um novo paradigma de RL online que otimiza modelos de difusão diretamente no processo direto via correspondência de fluxo. O DiffusionNFT contrasta gerações positivas e negativas para definir uma direção implícita de melhoria de política, incorporando naturalmente sinais de reforço ao objetivo de aprendizado supervisionado. Essa formulação permite o treinamento com solucionadores de caixa preta arbitrários, elimina a necessidade de estimativa de probabilidade e requer apenas imagens limpas em vez de trajetórias de amostragem para otimização de política. O DiffusionNFT é até 25 vezes mais eficiente que o FlowGRPO em comparações diretas, além de ser livre de CFG. Por exemplo, o DiffusionNFT melhora a pontuação GenEval de 0,24 para 0,98 em 1k passos, enquanto o FlowGRPO alcança 0,95 com mais de 5k passos e o uso adicional de CFG. Ao aproveitar múltiplos modelos de recompensa, o DiffusionNFT aumenta significativamente o desempenho do SD3.5-Medium em todos os benchmarks testados.
Apresentamos o SWE-Bench Pro, um benchmark substancialmente mais desafiador que se baseia nas melhores práticas do SWE-BENCH [25], mas foi explicitamente projetado para capturar problemas realistas, complexos e de nível empresarial que vão além do escopo do SWE-BENCH. O SWE-BENCH PRO contém 1.865 problemas extraídos de um conjunto diversificado de 41 repositórios ativamente mantidos, abrangendo aplicativos de negócios, serviços B2B e ferramentas de desenvolvimento. O benchmark é dividido em um conjunto público com acesso aberto a problemas provenientes de 11 repositórios, um conjunto reservado de 12 repositórios e um conjunto comercial de 18 repositórios proprietários, onde temos acordos formais de parceria com startups em estágio inicial. Os problemas nos conjuntos reservado e comercial não são acessíveis publicamente, mas divulgamos os resultados do conjunto comercial. Nosso benchmark apresenta tarefas de longo prazo que podem levar horas ou dias para serem concluídas por um engenheiro de software profissional, muitas vezes envolvendo alterações em vários arquivos e modificações substanciais de código. Todas as tarefas são verificadas por humanos e complementadas com contexto suficiente para garantir sua resolução. Em nossa avaliação de modelos de codificação amplamente utilizados, sob uma estrutura unificada, observamos que seu desempenho no SWE-Bench PRO permanece abaixo de 25% (Pass@1), com o GPT-5 alcançando a pontuação mais alta até o momento, de 23,3%. Para entender melhor essas limitações, agrupamos os modos de falha observados nas trajetórias dos agentes coletadas, a fim de caracterizar mais claramente os padrões de erro exibidos pelos modelos atuais. No geral, o SWE-BENCH PRO oferece um ambiente de teste resistente à contaminação que captura de forma mais fiel a complexidade e a diversidade do desenvolvimento de software no mundo real, avançando na busca por agentes de engenharia de software verdadeiramente autônomos em um nível profissional.
Avanços recentes em modelos de linguagem de grande escala (LLMs) têm estendido os comprimentos de contexto, permitindo que assistentes mantenham históricos longos para respostas coerentes e personalizadas. Essa capacidade, no entanto, depende do cache de Chave-Valor (KV), cuja memória cresce linearmente com o comprimento do diálogo e rapidamente domina sob restrições rigorosas de recursos. Uma linha de pesquisa ativa para reduzir essa sobrecarga é a compressão do cache KV, que busca limitar o tamanho do cache enquanto preserva a precisão. No entanto, os métodos existentes enfrentam duas grandes limitações: (i) a remoção de entradas após o preenchimento completo do contexto causa um pico de memória ilimitado, e (ii) a remoção dependente da consulta reduz o cache a uma única consulta, levando a uma precisão degradada em conversas de múltiplos turnos. Apresentamos o EpiCache, uma estrutura de gerenciamento de cache KV sem necessidade de treinamento para respostas a perguntas em conversas longas (LongConvQA) sob orçamentos de memória fixos. O EpiCache limita o crescimento do cache através do preenchimento em blocos e preserva o contexto relevante ao tópico por meio da compressão episódica de KV, que agrupa o histórico da conversa em episódios coerentes e aplica a remoção de cache KV específica para cada episódio. Além disso, projetamos uma estratégia adaptativa de alocação de orçamento por camadas que mede a sensibilidade de cada camada à remoção e distribui o orçamento de memória entre as camadas de acordo. Em três benchmarks de LongConvQA, o EpiCache melhora a precisão em até 40% em relação às linhas de base recentes, mantém uma precisão quase total do KV sob compressão de 4-6x, e reduz a latência e a memória em até 2,4x e 3,5x, permitindo assim uma interação eficiente de múltiplos turnos sob restrições rigorosas de recursos.
Avanços recentes no aprendizado por reforço (RL) têm aprimorado as habilidades de raciocínio de grandes modelos de linguagem (LLMs), mas o impacto em modelos de linguagem multimodal (MLLMs) ainda é limitado. Especialmente em tarefas intensivas em visão, como raciocínio geométrico, os MLLMs frequentemente alucinam, resultando em raciocínios imprecisos. Atribuímos isso ao gargalo perceptivo nos MLLMs, que limita os benefícios do treinamento de raciocínio. Para quantificar esse problema, projetamos um benchmark de Perguntas e Respostas de Percepção Geométrica (GeoPQA), focado em conceitos geométricos básicos e relações espaciais. Experimentos no GeoPQA revelam deficiências significativas dos MLLMs em percepção visual, o que restringe os sinais de recompensa do RL para um treinamento eficaz. Para superar esse gargalo, propomos uma estrutura de treinamento de RL em duas etapas: primeiro, aprimorando a percepção visual de estruturas geométricas e, em seguida, desenvolvendo capacidades de raciocínio. Aplicado ao Qwen2.5-VL-3B-Instruct, nosso treinamento em duas etapas melhora o raciocínio geométrico em 9,7% e a resolução de problemas geométricos em 9,1%, em comparação com a abordagem de treinamento direto de raciocínio. Nosso método também se generaliza para outros domínios intensivos em visão, como a compreensão de figuras, destacando a importância da fundamentação perceptiva para um raciocínio eficaz em MLLMs.
Realizamos uma avaliação em escala moderada e, até certo ponto, livre de contaminação dos modelos de raciocínio de grande porte (LRMs) atuais, com algumas descobertas preliminares. Também lançamos o ROME, nosso benchmark de avaliação para modelos de linguagem visual, projetado para testar o raciocínio a partir de pistas visuais. Disponibilizamos links para o benchmark, dados de avaliação e outras atualizações neste site: https://flageval-baai.github.io/LRM-Eval/
Modelos de linguagem de grande escala (LLMs) adquirem um conhecimento substancial do mundo durante o pré-treinamento, que é posteriormente moldado por técnicas de pós-treinamento, como o ajuste fino supervisionado (SFT). No entanto, o impacto do SFT no conhecimento de um modelo permanece pouco explorado, limitando nossa capacidade de controlar o comportamento de mudança de conhecimento em modelos ajustados. Para abordar essa lacuna, avaliamos o desempenho em tarefas de resposta a perguntas de livro fechado (CBQA) em cinco LLMs das famílias LLaMA-2 e LLaMA-3. Surpreendentemente, modelos ajustados com 1.920 amostras apresentam um desempenho até 14% pior do que aqueles ajustados com apenas 240 amostras. Além disso, variar o nível de domínio do conhecimento nos dados de ajuste fino leva a flutuações de desempenho superiores a 12%. Para investigar esses efeitos, analisamos o comportamento do modelo tanto no nível de tokens quanto no nível de parâmetros. Nossa análise revela que até 90% das atualizações de parâmetros durante o SFT não contribuem para o aprimoramento do conhecimento. Restaurar essas atualizações pode melhorar o desempenho na tarefa CBQA, dependendo das características dos dados de ajuste fino. Esses insights oferecem orientações práticas para o desenvolvimento de estratégias de ajuste fino que fortaleçam o conhecimento do modelo de forma mais eficaz.
Este artigo apresenta o ByteWrist, um novo punho paralelo altamente flexível e antropomórfico para manipulação robótica. O ByteWrist aborda as limitações críticas dos punhos seriais e paralelos existentes em operações em espaços estreitos por meio de um mecanismo de acionamento paralelo compacto de três estágios integrado com ligações finais em forma de arco. O projeto alcança movimentos precisos de RPY (Roll-Pitch-Yaw) enquanto mantém uma excepcional compacidade, tornando-o particularmente adequado para ambientes complexos e não estruturados, como serviços domésticos, assistência médica e montagem de precisão. As principais inovações incluem: (1) ligações motorizadas de três estágios aninhadas que minimizam o volume enquanto permitem controle independente de múltiplos graus de liberdade, (2) ligações finais em forma de arco que otimizam a transmissão de força e ampliam a faixa de movimento, e (3) uma bola de suporte central que funciona como uma junta esférica, aumentando a rigidez estrutural sem comprometer a flexibilidade. Paralelamente, apresentamos uma modelagem cinemática abrangente, incluindo cinemática direta/inversa e uma solução numérica do Jacobiano para controle preciso. Empiricamente, observamos que o ByteWrist demonstra um forte desempenho em manobrabilidade em espaços estreitos e tarefas de manipulação cooperativa com dois braços, superando sistemas baseados na Kinova. Os resultados indicam melhorias significativas em compacidade, eficiência e rigidez em comparação com designs tradicionais, estabelecendo o ByteWrist como uma solução promissora para a manipulação robótica de próxima geração em ambientes restritos.
Desenvolvedores de modelos de linguagem de grande escala (LLMs) buscam que seus modelos sejam honestos, úteis e inofensivos. No entanto, ao enfrentar solicitações maliciosas, os modelos são treinados para recusar, sacrificando a utilidade. Mostramos que LLMs de ponta podem desenvolver uma preferência pela desonestidade como uma nova estratégia, mesmo quando outras opções estão disponíveis. Modelos afetados respondem a solicitações prejudiciais com saídas que parecem prejudiciais, mas são sutilmente incorretas ou, na prática, inofensivas. Esse comportamento emerge com variações difíceis de prever, mesmo dentro de modelos da mesma família. Não encontramos uma causa aparente para a propensão a enganar, mas mostramos que modelos mais capazes são melhores em executar essa estratégia. A desonestidade estratégica já tem um impacto prático nas avaliações de segurança, pois mostramos que respostas desonestas enganam todos os monitores baseados em saída usados para detectar jailbreaks que testamos, tornando as pontuações de benchmarks não confiáveis. Além disso, a desonestidade estratégica pode agir como uma armadilha contra usuários maliciosos, o que notavelmente obscurece ataques de jailbreak anteriores. Enquanto os monitores de saída falham, mostramos que sondas lineares em ativações internas podem ser usadas para detectar de forma confiável a desonestidade estratégica. Validamos as sondas em conjuntos de dados com resultados verificáveis e usando suas características como vetores de direcionamento. No geral, consideramos a desonestidade estratégica como um exemplo concreto de uma preocupação mais ampla de que o alinhamento de LLMs é difícil de controlar, especialmente quando utilidade e inofensividade entram em conflito.
Modelos universais de incorporação multimodal têm obtido grande sucesso na captura da relevância semântica entre consultas e candidatos. No entanto, os métodos atuais ou condensam consultas e candidatos em um único vetor, potencialmente limitando a expressividade para informações refinadas, ou produzem muitos vetores que são proibitivamente caros para recuperação multivectorial. Neste trabalho, introduzimos o MetaEmbed, um novo framework para recuperação multimodal que repensa como as incorporações multimodais são construídas e interagidas em escala. Durante o treinamento, um número fixo de Meta Tokens aprendíveis é anexado à sequência de entrada. No momento do teste, suas representações contextualizadas da última camada servem como incorporações multivectoriais compactas, porém expressivas. Por meio do treinamento proposto de Recuperação Multivectorial Matryoshka, o MetaEmbed aprende a organizar informações por granularidade em múltiplos vetores. Como resultado, permitimos a escalabilidade no momento do teste em recuperação multimodal, onde os usuários podem equilibrar a qualidade da recuperação contra as demandas de eficiência ao selecionar o número de tokens usados para indexação e interações de recuperação. Avaliações extensivas no Massive Multimodal Embedding Benchmark (MMEB) e no Visual Document Retrieval Benchmark (ViDoRe) confirmam que o MetaEmbed alcança desempenho de recuperação de última geração enquanto escala robustamente para modelos com 32 bilhões de parâmetros.
A adoção generalizada de Modelos de Linguagem de Grande Escala (LLMs) tem sido dificultada por sua tendência a alucinar, gerando informações plausíveis, mas factualmente incorretas. Embora os sistemas de Geração Aumentada por Recuperação (RAG) tentem abordar esse problema ao fundamentar as respostas em conhecimento externo, a alucinação continua sendo um desafio persistente, especialmente para línguas morfologicamente complexas e de baixos recursos, como o turco. Este artigo apresenta o Turk-LettuceDetect, o primeiro conjunto de modelos de detecção de alucinação especificamente projetado para aplicações RAG em turco. Baseando-se na estrutura do LettuceDetect, formulamos a detecção de alucinação como uma tarefa de classificação em nível de token e ajustamos três arquiteturas distintas de codificadores: um ModernBERT específico para turco, TurkEmbed4STS e o EuroBERT multilíngue. Esses modelos foram treinados em uma versão traduzida automaticamente do conjunto de dados de referência RAGTruth, contendo 17.790 instâncias em tarefas de resposta a perguntas, geração de texto a partir de dados e sumarização. Nossos resultados experimentais mostram que o modelo baseado no ModernBERT alcança um F1-score de 0,7266 no conjunto de testes completo, com desempenho particularmente forte em tarefas estruturadas. Os modelos mantêm eficiência computacional enquanto suportam contextos longos de até 8.192 tokens, tornando-os adequados para implantação em tempo real. A análise comparativa revela que, embora os LLMs de última geração demonstrem alta recall, eles sofrem com baixa precisão devido à supergeração de conteúdo alucinado, destacando a necessidade de mecanismos especializados de detecção. Ao liberar nossos modelos e o conjunto de dados traduzido, este trabalho aborda uma lacuna crítica no PLN multilíngue e estabelece uma base para o desenvolvimento de aplicações de IA mais confiáveis e seguras para o turco e outras línguas.
A demanda por uma implantação eficiente de modelos de linguagem de grande escala (LLMs) tem impulsionado o interesse em quantização, que reduz o custo de inferência, e em ajuste fino com eficiência de parâmetros (PEFT), que diminui a sobrecarga de treinamento. Isso motivou o desenvolvimento de PEFT com consciência de quantização para produzir modelos quantizados precisos e eficientes. Nesse contexto, reduzir o erro de quantização antes do ajuste fino é crucial para alcançar alta precisão do modelo. No entanto, os métodos existentes que dependem de adaptação de baixo posto sofrem com capacidade representacional limitada. Adaptadores recentes baseados em transformadas relacionadas à Fourier (FT) oferecem maior poder representacional do que adaptadores de baixo posto, mas sua integração direta em modelos quantizados frequentemente resulta em redução ineficaz de erros e aumento da sobrecarga computacional. Para superar essas limitações, propomos o QWHA, um método que integra adaptadores baseados em FT em modelos quantizados empregando a Transformada de Walsh-Hadamard (WHT) como núcleo de transformação, juntamente com um novo esquema de inicialização de adaptadores que incorpora seleção adaptativa de parâmetros e refinamento de valores. Demonstramos que o QWHA mitiga efetivamente os erros de quantização enquanto facilita o ajuste fino, e que seu projeto reduz substancialmente o custo computacional. Resultados experimentais mostram que o QWHA supera consistentemente as linhas de base em precisão de quantização de baixo bit e alcança acelerações significativas no treinamento em comparação com adaptadores baseados em FT existentes. O código está disponível em https://github.com/vantaa89/qwha.
Interfaces gráficas de usuário (GUIs) são o principal meio de interação humano-computador, mas a automação de interações com GUIs continua desafiadora devido à complexidade dos elementos visuais, ambientes dinâmicos e a necessidade de raciocínio em múltiplas etapas. Métodos existentes baseados em modelos visão-linguagem (VLMs) frequentemente sofrem com resolução limitada, incompatibilidade de domínio e capacidade insuficiente de tomada de decisão sequencial. Para abordar esses problemas, propomos Mano, um agente de GUI robusto construído sobre um modelo de base multimodal pré-treinado em dados extensivos da web e de sistemas computacionais. Nossa abordagem integra um ambiente simulado inovador para geração de dados de alta fidelidade, um pipeline de treinamento em três estágios (ajuste fino supervisionado, aprendizado por reforço offline e aprendizado por reforço online) e um módulo de verificação para recuperação de erros. Mano demonstra desempenho de ponta em múltiplos benchmarks de GUI, incluindo Mind2Web e OSWorld, alcançando melhorias significativas na taxa de sucesso e precisão operacional. Nosso trabalho fornece novos insights sobre a integração eficaz de aprendizado por reforço com VLMs para a implantação prática de agentes de GUI, destacando a importância de dados específicos do domínio, treinamento iterativo e design holístico de recompensas.
Apresentamos o Pré-treinamento com Inicialização Sintética (SBP, do inglês Synthetic Bootstrapped Pretraining), um procedimento de pré-treinamento para modelos de linguagem (LM) que primeiro aprende um modelo de relações entre documentos do conjunto de dados de pré-treinamento e, em seguida, o utiliza para sintetizar um vasto novo corpus para treinamento conjunto. Enquanto o pré-treinamento padrão ensina os LMs a aprender correlações causais entre tokens dentro de um único documento, ele não foi projetado para modelar de forma eficiente as ricas e aprendíveis correlações interdocumentos que podem potencialmente levar a um melhor desempenho. Validamos o SBP ao projetar uma configuração de pré-treinamento com uso de computação equivalente e pré-treinamos um modelo de 3 bilhões de parâmetros com até 1 trilhão de tokens do zero. Descobrimos que o SBP melhora consistentemente uma linha de base forte de repetição e entrega uma fração significativa da melhoria de desempenho alcançável por um limite superior oráculo com acesso a 20 vezes mais dados únicos. A análise qualitativa revela que os documentos sintetizados vão além de meras paráfrases — o SBP primeiro abstrai um conceito central do material de origem e, em seguida, cria uma nova narrativa sobre ele. Além do forte desempenho empírico, o SBP admite uma interpretação bayesiana natural: o sintetizador aprende implicitamente a abstrair os conceitos latentes compartilhados entre documentos relacionados.
A edição de objetos em vídeo sem treinamento visa alcançar manipulação precisa em nível de objeto, incluindo inserção, troca e remoção de objetos. No entanto, enfrenta desafios significativos em manter fidelidade e consistência temporal. Os métodos existentes, frequentemente projetados para arquiteturas U-Net, sofrem com duas limitações principais: inversão imprecisa devido a solucionadores de primeira ordem e conflitos contextuais causados pela substituição "rígida" e rudimentar de características. Esses problemas são mais desafiadores em Transformadores de Difusão (DiTs), onde a inadequação das heurísticas anteriores de seleção de camadas torna a orientação eficaz difícil. Para abordar essas limitações, introduzimos o ContextFlow, uma nova estrutura sem treinamento para edição de objetos em vídeo baseada em DiT. Em detalhes, primeiro empregamos um solucionador de Fluxo Retificado de alta ordem para estabelecer uma base robusta de edição. O núcleo de nossa estrutura é o Enriquecimento Contextual Adaptativo (para especificar o que editar), um mecanismo que resolve conflitos contextuais. Em vez de substituir características, ele enriquece o contexto de auto-atenção concatenando pares Chave-Valor de caminhos de reconstrução e edição paralelos, capacitando o modelo a fundir informações dinamicamente. Além disso, para determinar onde aplicar esse enriquecimento (para especificar onde editar), propomos uma análise sistemática e orientada por dados para identificar camadas vitais específicas da tarefa. Com base em uma nova Métrica de Responsividade de Orientação, nosso método identifica os blocos DiT mais influentes para diferentes tarefas (por exemplo, inserção, troca), permitindo orientação direcionada e altamente eficaz. Experimentos extensivos mostram que o ContextFlow supera significativamente os métodos existentes sem treinamento e até ultrapassa várias abordagens state-of-the-art baseadas em treinamento, entregando resultados temporalmente coerentes e de alta fidelidade.
A atenção cruzada é um mecanismo central em arquiteturas codificador-decodificador, amplamente utilizado em diversos campos, incluindo o processamento de fala para texto (S2T). Suas pontuações têm sido reaproveitadas para várias aplicações subsequentes—como estimativa de timestamps e alinhamento áudio-texto—sob a suposição de que refletem as dependências entre a representação da fala de entrada e o texto gerado. Embora a natureza explicativa dos mecanismos de atenção tenha sido amplamente debatida na literatura mais ampla de PLN, essa suposição permanece em grande parte inexplorada no domínio da fala. Para abordar essa lacuna, avaliamos o poder explicativo da atenção cruzada em modelos S2T comparando suas pontuações com mapas de saliência de entrada derivados de atribuição de características. Nossa análise abrange modelos monolíngues e multilíngues, de tarefa única e multitarefa, em múltiplas escalas, e mostra que as pontuações de atenção se alinham moderadamente a fortemente com explicações baseadas em saliência, especialmente quando agregadas entre cabeças e camadas. No entanto, também mostra que a atenção cruzada captura apenas cerca de 50% da relevância da entrada e, no melhor caso, reflete apenas parcialmente como o decodificador atende às representações do codificador—representando apenas 52-75% da saliência. Essas descobertas revelam limitações fundamentais na interpretação da atenção cruzada como um proxy explicativo, sugerindo que ela oferece uma visão informativa, mas incompleta, dos fatores que impulsionam as previsões em modelos S2T.
A escalabilidade de modelos de recomendação para modelos de recomendação em grande escala tornou-se um dos tópicos mais amplamente discutidos. Esforços recentes concentram-se em componentes além da dimensão de escalonamento de embeddings, pois acredita-se que o escalonamento de embeddings pode levar à degradação de desempenho. Embora tenham sido feitas algumas observações iniciais sobre embeddings, a causa raiz de sua não escalabilidade permanece obscura. Além disso, se a degradação de desempenho ocorre em diferentes tipos de modelos e conjuntos de dados ainda é uma área inexplorada. Em relação ao efeito das dimensões de embedding no desempenho, conduzimos experimentos em larga escala em 10 conjuntos de dados com diferentes níveis de esparsidade e escalas, utilizando 4 arquiteturas clássicas representativas. Surpreendentemente, observamos dois novos fenômenos: duplo pico e logarítmico. No primeiro, à medida que a dimensão do embedding aumenta, o desempenho melhora inicialmente, depois decai, sobe novamente e, eventualmente, cai. No segundo, exibe uma curva logarítmica perfeita. Nossas contribuições são triplas. Primeiro, descobrimos dois novos fenômenos ao escalar modelos de filtragem colaborativa. Segundo, obtemos uma compreensão das causas subjacentes do fenômeno de duplo pico. Por fim, analisamos teoricamente a robustez ao ruído dos modelos de filtragem colaborativa, com resultados que correspondem às observações empíricas.
Apresentamos o Reasoning Core, um novo ambiente escalável para Aprendizado por Reforço com Recompensas Verificáveis (RLVR), projetado para avançar o raciocínio simbólico fundamental em Modelos de Linguagem de Grande Escala (LLMs). Diferente de benchmarks existentes que se concentram em jogos ou quebra-cabeças isolados, o Reasoning Core gera problemas de forma procedural em domínios formais essenciais, incluindo planejamento PDDL, lógica de primeira ordem, análise de gramáticas livres de contexto, raciocínio causal e resolução de equações de sistemas. O ambiente é construído sobre princípios-chave de design, como distribuições de problemas de alta generalidade, verificação por meio de ferramentas externas e controle contínuo de dificuldade, que juntos fornecem um suprimento virtualmente infinito de instâncias de treinamento inéditas. Avaliações iniciais zero-shot com LLMs de ponta confirmam a dificuldade das tarefas do Reasoning Core, posicionando-o como um recurso promissor para aprimorar as capacidades de raciocínio de modelos futuros.
Mesmo sem ouvir sons diretamente, os humanos podem raciocinar facilmente sobre propriedades auditivas, como tom, volume ou associações de fontes sonoras, recorrendo ao senso comum auditivo. Em contraste, os modelos de linguagem frequentemente carecem dessa capacidade, limitando sua eficácia em interações multimodais. Como um passo inicial para abordar essa lacuna, apresentamos o AuditoryBench++, um benchmark abrangente para avaliar o conhecimento e o raciocínio auditivo em configurações exclusivamente textuais. O benchmark engloba tarefas que variam desde comparações auditivas básicas até raciocínios contextualmente fundamentados, permitindo uma análise detalhada de como os modelos processam e integram conceitos auditivos. Além disso, introduzimos o AIR-CoT, um método inovador de raciocínio por imaginação auditiva que gera e integra informações auditivas durante a inferência por meio de detecção de intervalos com tokens especiais e injeção de conhecimento. Experimentos extensivos com LLMs recentes e Multimodal LLMs demonstram que o AIR-CoT geralmente supera tanto os modelos prontos para uso quanto aqueles aprimorados com conhecimento auditivo. A página do projeto está disponível em https://auditorybenchpp.github.io.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) demonstraram seu notável sucesso como assistentes multimodais de propósito geral, com foco particular na compreensão holística de imagens e vídeos em relação à linguagem. Por outro lado, menos atenção tem sido dada à ampliação das capacidades de compreensão em nível de pixel, onde espera-se que os modelos realizem o alinhamento em nível de pixel entre sinais visuais e semântica linguística. Alguns estudos anteriores aplicaram LMMs a tarefas relacionadas, como legendagem em nível de região e segmentação de expressões referenciais. No entanto, esses modelos são limitados a realizar tarefas de referência ou segmentação de forma independente e não conseguem integrar essas capacidades de percepção refinada ao raciocínio visual. Para preencher essa lacuna, propomos o UniPixel, um modelo multimodal de grande escala capaz de compreender flexivelmente entradas visuais e gerar respostas fundamentadas em máscaras. Nosso modelo se destaca por integrar de forma contínua a percepção em nível de pixel com capacidades gerais de compreensão visual. Especificamente, o UniPixel processa prompts visuais e gera máscaras relevantes sob demanda, realizando raciocínio subsequente condicionado a esses indicadores intermediários durante a inferência, permitindo assim o raciocínio refinado em nível de pixel. A eficácia da nossa abordagem foi verificada em 10 benchmarks abrangendo uma variedade de tarefas, incluindo referência/segmentação em nível de pixel e compreensão centrada em objetos em imagens/vídeos. Uma nova tarefa chamada PixelQA, que exige conjuntamente referência, segmentação e resposta a perguntas, também foi projetada para verificar a flexibilidade do nosso método.
A segurança e o alinhamento dos Modelos de Linguagem de Grande Escala (LLMs) são fundamentais para sua implantação responsável. Os métodos de avaliação atuais concentram-se principalmente na identificação e prevenção de saídas claramente prejudiciais. No entanto, eles frequentemente falham em abordar um modo de falha mais insidioso: modelos que produzem saídas aparentemente benignas enquanto operam com raciocínios internos maliciosos ou enganosos. Essa vulnerabilidade, muitas vezes desencadeada por injeções sofisticadas de prompts de sistema, permite que os modelos contornem os filtros de segurança convencionais, representando um risco significativo e pouco explorado. Para abordar essa lacuna, apresentamos o Deceptive Reasoning Exposure Suite (D-REX), um novo conjunto de dados projetado para avaliar a discrepância entre o processo de raciocínio interno de um modelo e sua saída final. O D-REX foi construído por meio de um exercício competitivo de red teaming, onde os participantes criaram prompts de sistema adversariais para induzir tais comportamentos enganosos. Cada amostra no D-REX contém o prompt de sistema adversarial, uma consulta de teste do usuário final, a resposta aparentemente inócua do modelo e, crucialmente, a cadeia de pensamento interna do modelo, que revela a intenção maliciosa subjacente. Nosso benchmark facilita uma nova e essencial tarefa de avaliação: a detecção de alinhamento enganoso. Demonstramos que o D-REX apresenta um desafio significativo para os modelos e mecanismos de segurança existentes, destacando a necessidade urgente de novas técnicas que examinem os processos internos dos LLMs, não apenas suas saídas finais.
Os veículos autônomos mais avançados atualmente podem enfrentar situações críticas de segurança quando seus sensores locais são ocluídos por grandes objetos próximos na estrada. A direção autônoma cooperativa veículo-a-veículo (V2V) foi proposta como uma solução para esse problema, e um framework recentemente introduzido para direção autônoma cooperativa adotou uma abordagem que incorpora um Modelo de Linguagem Multimodal de Grande Escala (MLLM) para integrar os processos de percepção e planejamento cooperativos. No entanto, apesar do benefício potencial de aplicar o raciocínio de grafo de pensamentos ao MLLM, essa ideia não foi considerada por pesquisas anteriores sobre direção autônoma cooperativa. Neste artigo, propomos um novo framework de grafo de pensamentos especificamente projetado para direção autônoma cooperativa baseada em MLLM. Nosso grafo de pensamentos inclui nossas novas ideias de percepção consciente da oclusão e previsão consciente do planejamento. Criamos o conjunto de dados V2V-GoT-QA e desenvolvemos o modelo V2V-GoT para treinar e testar o grafo de pensamentos de direção cooperativa. Nossos resultados experimentais mostram que nosso método supera outras abordagens de referência em tarefas de percepção, previsão e planejamento cooperativos.
Os modelos de linguagem de grande escala (LLMs) são amplamente utilizados em diversas tarefas e aplicações. No entanto, apesar de suas amplas capacidades, demonstram falta de alinhamento cultural (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) e produzem gerações tendenciosas (naous-etal-2024-beer) devido à falta de conhecimento e competência cultural. A avaliação de LLMs para consciência e alinhamento cultural é particularmente desafiadora devido à ausência de métricas de avaliação adequadas e à indisponibilidade de conjuntos de dados culturalmente fundamentados que representem a vasta complexidade das culturas em níveis regionais e sub-regionais. Os conjuntos de dados existentes para itens culturais específicos (CSIs) focam principalmente em conceitos em nível regional e podem conter falsos positivos. Para abordar essa questão, introduzimos um novo conjunto de dados de CSIs para a cultura indiana, pertencente a 17 facetas culturais. O conjunto de dados compreende sim8k conceitos culturais de 36 sub-regiões. Para medir a competência cultural dos LLMs em uma tarefa de adaptação de texto cultural, avaliamos as adaptações usando os CSIs criados, LLM como Juiz e avaliações humanas de diversas regiões sociodemográficas. Além disso, realizamos uma análise quantitativa demonstrando cobertura seletiva sub-regional e adaptações superficiais em todos os LLMs considerados. Nosso conjunto de dados está disponível aqui: https://huggingface.co/datasets/nlip/DIWALI, página do projeto \href{https://nlip-lab.github.io/nlip/publications/diwali/}, e nosso repositório de código com saídas dos modelos pode ser encontrado aqui: https://github.com/pramitsahoo/culture-evaluation.
A estimação de profundidade estéreo subaquática fornece geometria 3D precisa para tarefas robóticas como navegação, inspeção e mapeamento, oferecendo profundidade métrica a partir de câmeras passivas de baixo custo, evitando a ambiguidade de escala dos métodos monoculares. No entanto, as abordagens existentes enfrentam dois desafios críticos: (i) adaptar de forma eficiente em termos de parâmetros grandes codificadores de visão de base ao domínio subaquático sem a necessidade de dados rotulados extensivos, e (ii) integrar de maneira coesa prioridades monoculares globalmente coerentes, mas com escala ambígua, com correspondências estéreo localmente métricas, porém fotometricamente frágeis. Para abordar esses desafios, propomos o StereoAdapter, um framework auto-supervisionado eficiente em parâmetros que integra um codificador de base monocular adaptado com LoRA a um módulo de refinamento estéreo recorrente. Além disso, introduzimos a adaptação dinâmica de LoRA para seleção eficiente de rank e pré-treinamento no conjunto de dados sintético UW-StereoDepth-40K para aumentar a robustez em diversas condições subaquáticas. Avaliações abrangentes em benchmarks simulados e do mundo real mostram melhorias de 6,11% no TartanAir e 5,12% no SQUID em comparação com os métodos mais avançados, enquanto a implantação no mundo real com o robô BlueROV2 demonstra ainda mais a robustez consistente da nossa abordagem. Código: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
O Aprendizado por Reforço emergiu como a técnica fundamental para aprimorar o raciocínio em LLMs (Modelos de Linguagem de Grande Escala). No entanto, os algoritmos existentes aplicam uma otimização uniforme a todos os tokens, ignorando seus diferentes papéis no processo de raciocínio. Para abordar essa limitação, introduzimos a Otimização de Política Adaptativa Heterogênea (HAPO), um algoritmo abrangente e consciente dos tokens que se adapta dinamicamente à otimização com base na entropia dos tokens. Para a amostragem de rollouts, propomos a Amostragem de Temperatura Adaptativa, que ajusta a temperatura de amostragem em tempo real, promovendo a exploração em tokens de alta entropia enquanto preserva a coerência em tokens de baixa entropia. Para o cálculo de vantagem, introduzimos a Média de Grupo no Nível de Token, que normaliza as vantagens no nível do token, considerando conjuntamente o comprimento da sequência, como na perda média por token, enquanto mantém um tratamento não tendencioso. Em seguida, desenvolvemos a Redistribuição Diferencial de Vantagem, que aproveita a entropia e as razões de importância para modular as atualizações de ajuste de recompensas para tokens com sinais claros. Para a perda de recorte, projetamos o Recorte Adaptativo Assimétrico, permitindo uma redução agressiva de probabilidade para tokens ruidosos de baixa entropia, ao mesmo tempo em que possibilita a exploração para tokens de alta entropia. Através de uma investigação sistemática entre entropia e dinâmica de treinamento, incorporamos o tratamento no nível do token em todas as etapas para alcançar um controle refinado. Experimentos extensivos demonstram que o HAPO supera consistentemente o DAPO em múltiplas escalas de modelos. Nosso código pode ser encontrado em https://github.com/starriver030515/HAPO.
Apresentamos a perioperação, um paradigma para coleta de dados robóticos que sensoriza e registra a manipulação humana enquanto maximiza a transferibilidade dos dados para robôs reais. Implementamos esse paradigma no DEXOP, um exoesqueleto de mão passivo projetado para maximizar a capacidade humana de coletar dados sensoriais ricos (visão + tátil) para diversas tarefas de manipulação destra em ambientes naturais. O DEXOP conecta mecanicamente os dedos humanos aos dedos do robô, fornecendo aos usuários feedback de contato direto (via propriocepção) e espelhando a pose da mão humana na mão robótica passiva para maximizar a transferência das habilidades demonstradas para o robô. O feedback de força e o espelhamento de pose tornam as demonstrações de tarefas mais naturais para humanos em comparação com a teleoperação, aumentando tanto a velocidade quanto a precisão. Avaliamos o DEXOP em uma variedade de tarefas destras e ricas em contato, demonstrando sua capacidade de coletar dados de demonstração de alta qualidade em escala. Políticas aprendidas com dados do DEXOP melhoram significativamente o desempenho da tarefa por unidade de tempo de coleta de dados em comparação com a teleoperação, tornando o DEXOP uma ferramenta poderosa para avançar a destreza robótica. Nossa página do projeto está em https://dex-op.github.io.
Neste artigo, abordamos os desafios associados à fusão de adaptações de baixo posto (low-rank) em grandes redes neurais. Com o surgimento de técnicas de adaptação eficientes em parâmetros, como a Adaptação de Baixo Posto (LoRA), o ajuste fino de modelos tornou-se mais acessível. Embora o ajuste fino de modelos com LoRA seja altamente eficiente, os métodos de fusão existentes frequentemente sacrificam essa eficiência ao fundir matrizes de pesos de tamanho completo. Propomos o framework de fusão Core Space, que permite a fusão de modelos adaptados com LoRA dentro de uma base de alinhamento comum, preservando assim a eficiência da adaptação de baixo posto enquanto melhora substancialmente a precisão em diversas tarefas. Além disso, fornecemos uma prova formal de que a projeção no Core Space garante a ausência de perda de informação e apresentamos uma análise de complexidade que demonstra os ganhos de eficiência. Resultados empíricos extensivos mostram que o Core Space melhora significativamente as técnicas de fusão existentes e alcança resultados de ponta em tarefas de visão e linguagem, utilizando uma fração dos recursos computacionais. O código está disponível em https://github.com/apanariello4/core-space-merging.
Conflitos ocultos de licenciamento no ecossistema de IA de código aberto representam sérios riscos legais e éticos, expondo organizações a potenciais litígios e usuários a riscos não divulgados. No entanto, o campo carece de uma compreensão baseada em dados sobre a frequência com que esses conflitos ocorrem, onde se originam e quais comunidades são mais afetadas. Apresentamos a primeira auditoria de ponta a ponta de licenças para conjuntos de dados e modelos no Hugging Face, bem como sua integração subsequente em aplicativos de software de código aberto, abrangendo 364 mil conjuntos de dados, 1,6 milhão de modelos e 140 mil projetos no GitHub. Nossa análise empírica revela uma não conformidade sistêmica na qual 35,5% das transições de modelo para aplicativo eliminam cláusulas restritivas de licença ao relicensear sob termos permissivos. Além disso, prototipamos um mecanismo de regras extensível que codifica quase 200 cláusulas SPDX e específicas de modelos para detectar conflitos de licença, capaz de resolver 86,4% dos conflitos de licença em aplicativos de software. Para apoiar pesquisas futuras, disponibilizamos nosso conjunto de dados e o mecanismo protótipo. Nosso estudo destaca a conformidade de licenças como um desafio crítico de governança na IA de código aberto e fornece tanto os dados quanto as ferramentas necessárias para permitir a conformidade automatizada e consciente de IA em escala.
A análise de artefatos do patrimônio cultural continua sendo um desafio para os MLLMs (Modelos Multimodais de Linguagem): modelos gerais carecem de expertise no domínio, e o Fine-Tuning Supervisionado (SFT) frequentemente superajusta padrões superficiais, resultando em raciocínios frágeis para autenticação e atribuição histórica. Isso levanta a questão de como equipar os MLLMs com raciocínios robustos e de nível especialista para cerâmica grega antiga. Apresentamos o VaseVL, um sistema SFT-then-RL (Fine-Tuning Supervisionado seguido de Aprendizado por Reforço) que transforma a avaliação em supervisão: construímos uma taxonomia de tipos de perguntas, investigamos o modelo SFT para localizar lacunas de desempenho específicas por tipo e otimizamos com recompensas orientadas à composicionalidade e condicionadas por tipo, visando essas lacunas. Também lançamos o VaseVQA, um benchmark abrangente com 31.773 imagens projetado para investigar a compreensão profunda. Os experimentos mostram resultados de ponta em classificação de estilo e atribuição histórica, com ganhos significativos em robustez composicional em relação às baselines apenas com SFT, validando a engenharia de recompensas guiada por diagnóstico e condicionada por taxonomia, além de fornecer um recurso reutilizável para pesquisas futuras. O código e o conjunto de dados estarão disponíveis em https://github.com/AIGeeksGroup/VaseVQA.
A eficiência da otimização bayesiana (BO) depende fortemente da escolha do kernel do processo gaussiano (GP), que desempenha um papel central no equilíbrio entre exploração e exploração sob orçamentos limitados de avaliação. Métodos tradicionais de BO frequentemente dependem de estratégias fixas ou heurísticas para seleção de kernel, o que pode resultar em convergência lenta ou soluções subótimas quando o kernel escolhido é inadequado para a função objetivo subjacente. Para abordar essa limitação, propomos uma nova abordagem chamada Evolução de Kernel Consciente do Contexto (CAKE) para aprimorar a BO com modelos de linguagem de grande escala (LLMs). Especificamente, o CAKE utiliza LLMs como operadores de crossover e mutação para gerar e refinar kernels de GP de forma adaptativa com base nos dados observados ao longo do processo de otimização. Para maximizar o poder do CAKE, propomos ainda o Ranking de Kernel de Aquisição BIC (BAKER) para selecionar o kernel mais eficaz, equilibrando o ajuste do modelo medido pelo critério de informação bayesiano (BIC) com a melhoria esperada em cada iteração da BO. Experimentos extensivos demonstram que nosso novo método de BO baseado em CAKE supera consistentemente as abordagens estabelecidas em uma variedade de tarefas do mundo real, incluindo otimização de hiperparâmetros, ajuste de controladores e design de chips fotônicos. Nosso código está disponível publicamente em https://github.com/cake4bo/cake.
Codecs neurais de áudio são um componente fundamental dos pipelines modernos de geração de áudio. Embora os codecs recentes alcancem uma forte reconstrução em baixa taxa de bits e forneçam representações poderosas para tarefas subsequentes, a maioria não é transmissível, limitando seu uso em aplicações em tempo real. Apresentamos o FocalCodec-Stream, um codec híbrido baseado em modulação focal que comprime fala em um único codebook binário a 0,55 - 0,80 kbps com uma latência teórica de 80 ms. Nossa abordagem combina a destilação causal em múltiplos estágios do WavLM com melhorias arquitetônicas direcionadas, incluindo um módulo refinador leve que melhora a qualidade sob restrições de latência. Experimentos mostram que o FocalCodec-Stream supera os codecs transmissíveis existentes em taxas de bits comparáveis, preservando tanto a informação semântica quanto a acústica. O resultado é um equilíbrio favorável entre qualidade de reconstrução, desempenho em tarefas subsequentes, latência e eficiência. O código e os checkpoints serão disponibilizados em https://github.com/lucadellalib/focalcodec.
Apresentamos o BeepBank-500, um conjunto de dados compacto e totalmente sintético de earcons/alertas (300-500 clipes) projetado para experimentação rápida e livre de direitos em interação humano-computador e aprendizado de máquina em áudio. Cada clipe é gerado a partir de uma receita paramétrica que controla a família de formas de onda (seno, quadrada, triangular, FM), frequência fundamental, duração, envelope de amplitude, modulação de amplitude (AM) e reverberação leve no estilo Schroeder. Utilizamos três configurações de reverberação: seco, e duas salas sintéticas denominadas 'rir small' ('pequeno') e 'rir medium' ('médio') ao longo do artigo e nos metadados. Disponibilizamos áudio mono em WAV de 48 kHz (16 bits), uma tabela de metadados rica (características de sinal/espectrais) e pequenas linhas de base reproduzíveis para (i) classificação de famílias de formas de onda e (ii) regressão de f0 em tons únicos. O corpus visa tarefas como classificação de earcons, análises de timbre e detecção de início, com licenciamento e limitações claramente declarados. O áudio é dedicado ao domínio público via CC0-1.0; o código está sob licença MIT. DOI dos dados: https://doi.org/10.5281/zenodo.17172015. Código: https://github.com/mandip42/earcons-mini-500.
Modelos de linguagem de grande escala baseados em difusão (DLLMs) têm recentemente atraído crescente interesse como uma alternativa aos decodificadores autoregressivos. Neste trabalho, apresentamos um estudo empírico sobre o uso do modelo de linguagem de grande escala baseado em difusão LLaDA para reconhecimento automático de fala (ASR). Primeiro, investigamos seu uso como um módulo de processamento externo baseado em deliberação para transcrições do Whisper-LLaMA. Ao aproveitar a atenção bidirecional e as capacidades de remoção de ruído do LLaDA, exploramos estratégias de mascaramento aleatório, mascaramento de baixa confiança e semi-autoregressivas, mostrando que o Whisper-LLaDA reduz substancialmente a taxa de erro de palavras (WER) em comparação com a linha de base. No LibriSpeech, o melhor sistema em cascata alcança 2,25%/4,94% de WER em test-clean/test-other, representando uma melhoria relativa de 12,3% sobre a linha de base do Whisper-LLaMA na divisão test-other. Em contraste, um LLaDA de texto simples sem características acústicas não consegue melhorar a precisão, destacando a importância de embeddings condicionados por áudio. Avaliamos ainda o Whisper-LLaDA como um decodificador autônomo para ASR com decodificação baseada em difusão e semi-autoregressiva. A maioria das configurações experimentais alcança inferência mais rápida do que a linha de base do Whisper-LLaMA, embora a precisão de reconhecimento seja ligeiramente menor. Esses achados oferecem uma visão empírica dos modelos de linguagem de grande escala baseados em difusão para ASR e apontam para direções promissoras de melhorias.
A revisão automatizada de código (CR) é uma aplicação fundamental para Modelos de Linguagem de Grande Escala (LLMs), mas o progresso é dificultado por uma "lacuna da realidade": os benchmarks existentes avaliam modelos em sub-tarefas isoladas usando dados simplificados e com pouco contexto. Isso não reflete a natureza holística e rica em contexto da CR do mundo real. Para preencher essa lacuna, introduzimos o CodeFuse-CR-Bench, o primeiro benchmark voltado para a abrangência na avaliação de CR em nível de repositório. O CodeFuse-CR-Bench compreende 601 instâncias de alta qualidade de 70 projetos Python, abrangendo nove domínios de problemas de Pull-Request (PR), onde cada instância fornece um contexto rico e multifacetado, incluindo a issue associada, detalhes do PR e o estado do repositório, permitindo uma avaliação de ponta a ponta. Além de métricas superficiais, também propomos um novo framework de avaliação que combina verificações baseadas em regras para localização e sintaxe com julgamentos baseados em modelos da qualidade da revisão. Apresentamos a primeira avaliação em larga escala dos LLMs mais avançados nesta tarefa abrangente de CR. Nossos resultados estabelecem baselines cruciais e revelam que (1) nenhum LLM domina todos os aspectos da CR; (2) o Gemini 2.5 Pro alcança o maior desempenho abrangente; e (3) diferentes LLMs exibem variada robustez a contextos redundantes. Essas descobertas destacam a necessidade de uma avaliação holística e multidimensional e fornecem insights acionáveis para o avanço de assistentes de CR verdadeiramente inteligentes e práticos.
Modelos Grandes de Visão e Linguagem (L-VLMs) têm demonstrado desempenho notável em diversas tarefas de visão e linguagem, incluindo a resposta a perguntas visuais (VQA). No entanto, seu alto custo computacional os torna impraticáveis para ambientes com recursos limitados e aplicações que exigem muita inferência. Em contraste, os Modelos Pequenos de Visão e Linguagem (S-VLMs) oferecem eficiência, mas sofrem com uma lacuna significativa de desempenho em comparação com seus equivalentes maiores. Neste trabalho, apresentamos o Model Parity Aligner (MPA), uma estrutura inovadora projetada para melhorar sistematicamente os S-VLMs, aproveitando imagens não rotuladas e uma transferência eficaz de conhecimento dos L-VLMs. Em vez de métodos tradicionais de destilação de conhecimento que dependem de dados de treinamento rotulados, o MPA emprega uma abordagem estratégica baseada em paridade que identifica precisamente as disparidades de conhecimento entre S-VLMs e L-VLMs, e otimiza o treinamento direcionando apenas essas disparidades. Realizamos experimentos extensos em quatro benchmarks diversos de VQA, nomeadamente TextVQA, ST-VQA, ChartQA e OKVQA, cada um dos quais exige capacidades de raciocínio especializadas, como reconhecimento de texto, interpretação de gráficos e compreensão de senso comum e factual. Nossos resultados demonstram que o MPA melhora consistentemente o desempenho dos S-VLMs em todos os benchmarks, reduzindo a lacuna de desempenho enquanto mantém a eficiência computacional. Disponibilizamos nosso código publicamente.
Modelos de recompensa de processo (PRMs) oferecem avaliações refinadas em nível de etapa que facilitam processos de raciocínio mais profundos em modelos de linguagem de grande escala (LLMs), demonstrando eficácia em tarefas complexas como raciocínio matemático. No entanto, o desenvolvimento de PRMs é desafiador devido ao alto custo e à escalabilidade limitada de dados anotados por humanos. Dados sintéticos provenientes de estimativas de Monte Carlo (MC) são uma alternativa promissora, mas sofrem com uma alta taxa de ruído, o que pode causar sobreajuste e dificultar o treinamento em larga escala. Neste trabalho, realizamos um estudo preliminar sobre a distribuição de ruído em dados sintéticos de estimativas MC, identificando que modelos de anotação tendem a subestimar e superestimar a correção das etapas devido a limitações em suas capacidades de anotação. Com base nessas descobertas, propomos o Self-Denoising Monte Carlo Annotation (SCAN), uma estrutura eficiente de síntese de dados e aprendizado tolerante a ruído. Nossas principais conclusões indicam que: (1) Mesmo modelos leves (por exemplo, 1,5 bilhão de parâmetros) podem produzir anotações de alta qualidade por meio de uma estratégia de auto-denoising, permitindo que PRMs alcancem desempenho superior com apenas 6% do custo de inferência exigido pela estimativa MC tradicional. (2) Com nossa estratégia robusta de aprendizado, PRMs podem aprender efetivamente com essa supervisão fraca, alcançando uma melhoria de 39,2 pontos F1 (de 19,9 para 59,1) no ProcessBench. Apesar de usar apenas um conjunto de dados sintéticos compacto, nossos modelos superam baselines fortes, incluindo aqueles treinados em grandes conjuntos de dados anotados por humanos, como o PRM800K. Além disso, o desempenho continua a melhorar à medida que escalamos os dados sintéticos, destacando o potencial do SCAN para treinamento de PRMs escalável, econômico e robusto.