Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos o Ovis-U1, um modelo unificado com 3 bilhões de parâmetros que integra compreensão multimodal, geração de texto para imagem e capacidades de edição de imagem. Com base na fundação da série Ovis, o Ovis-U1 incorpora um decodificador visual baseado em difusão emparelhado com um refinador de tokens bidirecional, permitindo tarefas de geração de imagem comparáveis a modelos líderes como o GPT-4o. Diferente de alguns modelos anteriores que utilizam um MLLM congelado para tarefas de geração, o Ovis-U1 emprega uma nova abordagem de treinamento unificado a partir de um modelo de linguagem. Comparado ao treinamento exclusivo em tarefas de compreensão ou geração, o treinamento unificado resulta em melhor desempenho, demonstrando o aprimoramento alcançado pela integração dessas duas tarefas. O Ovis-U1 atinge uma pontuação de 69,6 no OpenCompass Multi-modal Academic Benchmark, superando modelos recentes de última geração, como o Ristretto-3B e o SAIL-VL-1.5-2B. Na geração de texto para imagem, ele se destaca com pontuações de 83,72 e 0,89 nos benchmarks DPG-Bench e GenEval, respectivamente. Para edição de imagem, ele alcança 4,00 e 6,42 no ImgEdit-Bench e GEdit-Bench-EN, respectivamente. Como a versão inicial da série de modelos unificados Ovis, o Ovis-U1 expande os limites da compreensão, geração e edição multimodal.
Avanços recentes em aprendizado por reforço demonstraram que modelos de linguagem podem desenvolver raciocínio sofisticado por meio do treinamento em tarefas com recompensas verificáveis, mas essas abordagens dependem de pares problema-resposta curados por humanos e de engenharia de recompensas específicas para o domínio. Apresentamos o SPIRAL, uma estrutura de autojogo onde os modelos aprendem jogando partidas de múltiplos turnos e soma zero contra versões continuamente aprimoradas de si mesmos, eliminando a necessidade de supervisão humana. Por meio do autojogo, o SPIRAL gera um currículo infinito de problemas progressivamente desafiadores, já que os modelos devem se adaptar constantemente a oponentes mais fortes. Para viabilizar esse treinamento de autojogo em escala, implementamos um sistema de aprendizado por reforço totalmente online, de múltiplos turnos e multiagente para LLMs e propomos a estimativa de vantagem condicionada ao papel (RAE) para estabilizar o treinamento multiagente. Usando o SPIRAL, o autojogo em jogos de soma zero produz capacidades de raciocínio que se transferem amplamente. O treinamento do Qwen3-4B-Base apenas no Kuhn Poker alcança uma melhoria de 8,6% em matemática e 8,4% em raciocínio geral, superando o SFT em 25.000 trajetórias de jogo especializadas. A análise revela que essa transferência ocorre por meio de três padrões cognitivos: decomposição sistemática, cálculo de valor esperado e análise caso a caso. O treinamento multi-jogo (Jogo da Velha, Kuhn Poker, Negociação Simples) aprimora ainda mais o desempenho, pois cada jogo desenvolve pontos fortes distintos de raciocínio. A aplicação do SPIRAL a um modelo de raciocínio avançado (DeepSeek-R1-Distill-Qwen-7B) ainda pode levar a uma melhoria média de 2,0%. Esses resultados demonstram que jogos de soma zero desenvolvem naturalmente capacidades de raciocínio transferíveis, destacando uma direção promissora para o desenvolvimento autônomo de raciocínio.
Apresentamos o Calligrapher, uma nova estrutura baseada em difusão que integra de forma inovadora a personalização avançada de texto com tipografia artística para aplicações de caligrafia digital e design. Abordando os desafios de controle preciso de estilo e dependência de dados na personalização tipográfica, nossa estrutura incorpora três contribuições técnicas principais. Primeiro, desenvolvemos um mecanismo de autodistilação que aproveita o próprio modelo generativo de texto para imagem pré-treinado, juntamente com um modelo de linguagem de grande escala, para construir automaticamente um benchmark de tipografia centrado em estilo. Segundo, introduzimos uma estrutura de injeção de estilo localizada por meio de um codificador de estilo treinável, que compreende tanto camadas Qformer quanto lineares, para extrair características robustas de estilo de imagens de referência. Um mecanismo de geração em contexto também é empregado para incorporar diretamente as imagens de referência no processo de redução de ruído, aprimorando ainda mais o alinhamento refinado dos estilos alvo. Avaliações quantitativas e qualitativas extensas em diversas fontes e contextos de design confirmam a reprodução precisa de detalhes estilísticos intrincados e o posicionamento exato de glifos pelo Calligrapher. Ao automatizar a tipografia de alta qualidade e visualmente consistente, o Calligrapher supera os modelos tradicionais, capacitando profissionais criativos em arte digital, branding e design tipográfico contextual.
A complexidade quadrática dos mecanismos de atenção completa representa um gargalo significativo para Modelos de Difusão de Vídeo (VDMs) que visam gerar vídeos de longa duração e alta resolução. Embora vários métodos de atenção esparsa tenham sido propostos, muitos são projetados como aceleradores de inferência sem treinamento ou não capturam de forma ideal as características espacio-temporais únicas inerentes aos dados de vídeo quando treinados nativamente. Este artigo introduz o Video Mixture of Block Attention (VMoBA), um novo mecanismo de atenção esparsa especificamente adaptado para VDMs. Motivado por uma análise detalhada dos padrões de atenção em transformadores de vídeo pré-treinados, que revelou forte localidade espaço-temporal, importância variável das consultas e níveis de concentração específicos por cabeça, o VMoBA melhora a estrutura original do MoBA com três modificações principais: (1) um esquema de partição de blocos recorrente por camada (1D-2D-3D) para se adaptar dinamicamente a diversos padrões de atenção espaço-temporal e melhorar a eficiência; (2) seleção global de blocos para priorizar as interações mais salientes entre blocos de consulta-chave em toda uma cabeça de atenção; e (3) seleção de blocos baseada em limiar para determinar dinamicamente o número de blocos atendidos com base em sua similaridade cumulativa. Experimentos extensos demonstram que o VMoBA acelera significativamente o treinamento de VDMs em sequências mais longas, alcançando uma aceleração de 2.92x em FLOPs e 1.48x em latência, enquanto obtém qualidade de geração comparável ou até superior à atenção completa. Além disso, o VMoBA exibe desempenho competitivo em inferência sem treinamento, oferecendo uma aceleração de 2.40x em FLOPs e 1.35x em latência para geração de vídeos de alta resolução.
Os avanços recentes na estimativa de fluxo óptico priorizaram a precisão ao custo de um crescente consumo de memória GPU, especialmente para entradas de alta resolução (FullHD). Apresentamos o MEMFOF, um método de fluxo óptico multiframe eficiente em memória que identifica um equilíbrio favorável entre a estimativa multiframe e o uso de memória GPU. Notavelmente, o MEMFOF requer apenas 2,09 GB de memória GPU em tempo de execução para entradas 1080p e 28,5 GB durante o treinamento, o que posiciona exclusivamente nosso método para ser treinado em resolução nativa 1080p sem a necessidade de recorte ou redução de resolução. Revisitamos sistematicamente as escolhas de design de arquiteturas semelhantes ao RAFT, integrando volumes de correlação reduzidos e protocolos de treinamento em alta resolução juntamente com a estimativa multiframe, para alcançar desempenho de ponta em vários benchmarks enquanto reduz substancialmente a sobrecarga de memória. Nosso método supera alternativas mais intensivas em recursos tanto em precisão quanto em eficiência de tempo de execução, validando sua robustez para estimativa de fluxo em altas resoluções. No momento da submissão, nosso método ocupa o primeiro lugar no benchmark Spring com uma taxa de outliers de 1 pixel (1px) de 3,289, lidera o Sintel (clean) com um erro de ponto final (EPE) de 0,963 e alcança o melhor erro Fl-all no KITTI-2015 com 2,94%. O código está disponível em https://github.com/msu-video-group/memfof.
Treinar modelos de recompensa robustos e generalizáveis para preferências visuais humanas é essencial para alinhar modelos generativos de texto para imagem e texto para vídeo com a intenção humana. No entanto, os modelos de recompensa atuais frequentemente falham em generalizar, e o ajuste fino supervisionado leva à memorização, exigindo pipelines complexos de anotação. Embora o aprendizado por reforço (RL), especificamente a Otimização de Política Relativa de Grupo (GRPO), melhore a generalização, descobrimos um modo de falha crítico: uma queda significativa na precisão do raciocínio ocorre quando o traço de raciocínio de um modelo contradiz o de um modelo independente e congelado de visão e linguagem ("ouvinte") avaliando a mesma saída. Para resolver isso, introduzimos um framework GRPO aumentado por ouvinte. Aqui, o ouvinte reavalia a cadeia de pensamento do raciocinador para fornecer uma pontuação de confiança densa e calibrada, moldando o sinal de recompensa do RL. Isso incentiva o raciocinador não apenas a responder corretamente, mas a produzir explicações que sejam persuasivas para um modelo independente. Nosso esquema de recompensa moldado pelo ouvinte alcança a melhor precisão no benchmark ImageReward (67,4%), melhora significativamente o desempenho fora da distribuição (OOD) em um grande conjunto de dados de preferências humanas (1,2M de votos, até +6% em relação ao raciocinador ingênuo) e reduz contradições de raciocínio em comparação com fortes baselines de GRPO e SFT. Esses resultados demonstram que recompensas baseadas em ouvintes fornecem um caminho escalável e eficiente em termos de dados para alinhar modelos de visão e linguagem com preferências humanas sutis. Lançaremos nosso modelo de raciocínio aqui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
Propomos um novo paradigma de design de prompts que desafia a sabedoria convencional no uso de grandes modelos de linguagem (LLMs). Enquanto a sabedoria convencional prioriza instruções bem elaboradas e demonstrações para aprendizado em contexto (ICL), mostramos que podar demonstrações aleatórias em "disparates" aparentemente incoerentes pode melhorar significativamente o desempenho em diversas tarefas. Notavelmente, os "disparates" sempre igualam ou superam as técnicas de otimização automática de prompts de última geração, alcançando ganhos substanciais independentemente do alinhamento do LLM. No entanto, descobrir uma estratégia de poda eficaz não é trivial, uma vez que os métodos de atribuição existentes e os algoritmos de compressão de prompts não conseguem fornecer resultados robustos, muito menos a intuição humana. Nesse sentido, propomos um framework de otimização de prompts auto-descobridor, o PromptQuine, um framework de busca evolucionária que automaticamente busca a estratégia de poda por si só, utilizando apenas regimes de baixo volume de dados. Assim como a complexidade emergente na natureza—como simbiose e auto-organização—que surge em resposta a restrições de recursos, nosso framework evolui e refina prompts não convencionais, porém altamente eficazes, aproveitando apenas os tokens presentes no contexto. Demonstramos sua eficácia em tarefas de classificação, respostas a perguntas de múltipla escolha, geração e raciocínio matemático em diversos LLMs, ao mesmo tempo que alcança uma eficiência de tempo de execução decente. Esperamos que nossas descobertas possam guiar estudos mecanicistas sobre aprendizado em contexto e sirvam como um chamado à ação, abrindo caminho para algoritmos de busca mais abertos e eficazes para o uso de LLMs.
O ajuste fino de LLMs é intensivo tanto em termos computacionais quanto de memória. Embora métodos de ajuste fino eficientes em parâmetros, como QLoRA e DoRA, reduzam o número de parâmetros treináveis e diminuam o uso de memória, eles não reduzem o custo computacional. Em alguns casos, podem até mesmo desacelerar o ajuste fino. Neste artigo, apresentamos o SparseLoRA, um método que acelera o ajuste fino de LLMs por meio de esparsidade contextual. Propomos um estimador de esparsidade SVD leve e sem treinamento que seleciona dinamicamente um subconjunto esparso de pesos para o cálculo de perda e gradiente. Além disso, analisamos e abordamos sistematicamente a sensibilidade entre camadas, tokens e etapas de treinamento. Nossos resultados experimentais mostram que o SparseLoRA reduz o custo computacional em até 2,2 vezes e alcança uma aceleração medida de até 1,6 vezes, mantendo a precisão em várias tarefas subsequentes, incluindo raciocínio de senso comum e aritmético, geração de código e seguimento de instruções.
Imagens de profundidade capturadas por sensores de tempo de voo (Time-of-Flight, ToF) são propensas a ruídos, exigindo técnicas de remoção de ruído para aplicações subsequentes confiáveis. Trabalhos anteriores focam-se no processamento de quadro único ou realizam processamento de múltiplos quadros sem considerar as variações de profundidade em pixels correspondentes entre os quadros, resultando em inconsistência temporal e ambiguidade espacial indesejadas. Neste artigo, propomos uma nova rede de remoção de ruído de profundidade ToF que utiliza fusão de grafos invariante ao movimento para aprimorar simultaneamente a estabilidade temporal e a nitidez espacial. Especificamente, apesar das mudanças de profundidade entre os quadros, as estruturas de grafos exibem auto-similaridade temporal, permitindo atenção geométrica entre quadros para a fusão de grafos. Em seguida, ao incorporar um prior de suavidade de imagem no grafo fundido e um termo de fidelidade de dados derivado da distribuição de ruído ToF, formulamos um problema de máxima probabilidade a posteriori para a remoção de ruído ToF. Por fim, a solução é desdobrada em filtros iterativos cujos pesos são aprendidos de forma adaptativa a partir da atenção geométrica informada pelo grafo, produzindo uma rede de alto desempenho e interpretável. Resultados experimentais demonstram que o esquema proposto alcança desempenho de ponta em termos de precisão e consistência no conjunto de dados sintético DVToF e exibe generalização robusta no conjunto de dados real Kinectv2. O código-fonte será disponibilizado em https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
A capacidade de processar informações de múltiplas modalidades e raciocinar por meio delas passo a passo continua sendo um desafio crítico no avanço da inteligência artificial. No entanto, os benchmarks de raciocínio existentes focam em raciocínio baseado apenas em texto ou empregam questões multimodais que podem ser respondidas pela recuperação direta de informações de uma modalidade não textual. Assim, o raciocínio complexo permanece pouco compreendido em domínios multimodais. Aqui, apresentamos o MARBLE, um benchmark desafiador de raciocínio multimodal projetado para examinar modelos de linguagem multimodal (MLLMs) em sua capacidade de raciocinar cuidadosamente passo a passo por meio de problemas e ambientes multimodais complexos. O MARBLE é composto por duas tarefas altamente desafiadoras, M-Portal e M-Cube, que exigem a elaboração e compreensão de planos de múltiplos passos sob restrições espaciais, visuais e físicas. Descobrimos que os MLLMs atuais têm um desempenho ruim no MARBLE — todos os 12 modelos avançados obtêm desempenho próximo ao aleatório no M-Portal e 0% de precisão no M-Cube. Apenas em subtarefas simplificadas alguns modelos superam a linha de base aleatória, indicando que o raciocínio complexo ainda é um desafio para os MLLMs existentes. Além disso, mostramos que a percepção continua sendo um gargalo, onde os MLLMs ocasionalmente falham em extrair informações das entradas visuais. Ao lançar luz sobre as limitações dos MLLMs, esperamos que o MARBLE impulsione o desenvolvimento da próxima geração de modelos com a capacidade de raciocinar e planejar através de muitos passos de raciocínio multimodal.
Agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado potencial para realizar tarefas sofisticadas de engenharia de software de forma autônoma. Além disso, houve progressos no desenvolvimento de agentes capazes de executar partes do pipeline de pesquisa em aprendizado de máquina e nas ciências naturais. Argumentamos que a extensão de pesquisa e sua implementação são capacidades críticas para tais sistemas e introduzimos o RExBench para apoiar a avaliação dessa capacidade. O RExBench é um benchmark composto por 12 tarefas realistas de implementação de experimentos de pesquisa que visam investigar hipóteses de pesquisa que ainda não foram implementadas. Cada tarefa é configurada como uma extensão de um artigo de pesquisa e código existente, acompanhada por instruções escritas por especialistas do domínio. O RExBench é robusto à contaminação de dados e suporta uma infraestrutura de avaliação automática que executa as saídas dos agentes para determinar se os critérios de sucesso são atendidos. Utilizamos esse benchmark para avaliar nove agentes LLM implementados usando três frameworks diferentes: aider, Claude Code e OpenHands. Descobrimos que todos os agentes avaliados falham em implementar autonomamente a maioria das extensões. Embora a taxa de sucesso melhore com dicas adicionais escritas por humanos, o melhor desempenho nesse cenário permanece abaixo de 40%. Isso indica que os agentes atuais ainda estão longe de serem capazes de lidar com tarefas realistas de extensão de pesquisa sem uma orientação humana substancial.
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram que técnicas de computação em tempo de inferência, como escalonamento no momento de decodificação e autorrefinamento, podem aprimorar significativamente as capacidades de raciocínio sem depender de conhecimento externo. Um fator-chave desse sucesso é o surgimento de comportamentos de autocorreção e autoverificação, frequentemente induzidos por meio de aprendizado por reforço (RL). Neste artigo, investigamos se essas técnicas em tempo de inferência se estendem de forma eficaz a modelos de visão e linguagem (VLMs), particularmente aqueles treinados com RL. Descobrimos que, embora estratégias de decodificação como votação majoritária e seleção do melhor entre N com autoverificação melhorem o desempenho de raciocínio dos VLMs, métodos dependentes de geração, como o primeiro, alcançam ganhos significativamente maiores em comparação com métodos dependentes de verificação, como o último. Além disso, o comportamento de autocorreção frequentemente associado a modelos ajustados com RL, como o "momento de insight", não resulta em ganhos mensuráveis. Mostramos, por meio de experimentação extensiva dentro do framework de escalonamento em tempo de inferência, uma causa raiz fundamental: VLMs treinados com RL ainda carecem de capacidades robustas de autoverificação em ambas as modalidades, visual e textual.
A pesquisa urbana envolve uma ampla gama de cenários e tarefas que exigem a compreensão de dados multimodais. Os métodos atuais frequentemente se concentram em tipos específicos de dados e carecem de uma estrutura unificada no campo urbano para processá-los de forma abrangente. O recente sucesso dos modelos de linguagem de grande escala multimodais (MLLMs) apresenta uma oportunidade promissora para superar essa limitação. Neste artigo, apresentamos o UrbanLLaVA, um modelo de linguagem de grande escala multimodal projetado para processar simultaneamente esses quatro tipos de dados e alcançar um desempenho robusto em diversas tarefas urbanas em comparação com MLLMs gerais. No UrbanLLaVA, primeiro organizamos um conjunto de dados de instruções urbanas diversificado, abrangendo dados urbanos unimodais e multimodais, desde a visão local até a visão global do ambiente urbano. Além disso, propomos uma estrutura de treinamento em múltiplas etapas que desacopla o aprimoramento do raciocínio espacial da aprendizagem de conhecimento de domínio, melhorando assim a compatibilidade e o desempenho subsequente do UrbanLLaVA em diversas tarefas urbanas. Por fim, também estendemos o benchmark existente para pesquisa urbana a fim de avaliar o desempenho dos MLLMs em uma ampla gama de tarefas urbanas. Os resultados experimentais de três cidades demonstram que o UrbanLLaVA supera MLLMs de código aberto e proprietários tanto em tarefas unimodais quanto em tarefas multimodais complexas e mostra habilidades robustas de generalização entre cidades. Os códigos-fonte e os dados estão acessíveis à comunidade de pesquisa em https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Embora a geração de áudio a partir de vídeo de ponta a ponta tenha avançado significativamente, produzir áudio de alta fidelidade que capture autenticamente as nuances do conteúdo visual continua sendo um desafio. Assim como profissionais da indústria criativa, essa geração requer raciocínio sofisticado sobre elementos como dinâmicas visuais, ambientes acústicos e relações temporais. Apresentamos o ThinkSound, uma nova estrutura que aproveita o raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) para permitir a geração e edição de áudio interativa e passo a passo para vídeos. Nossa abordagem decompõe o processo em três estágios complementares: geração de foley básica que cria paisagens sonoras semanticamente coerentes, refinamento interativo centrado em objetos por meio de interações precisas do usuário, e edição direcionada guiada por instruções em linguagem natural. Em cada estágio, um modelo de linguagem multimodal gera raciocínio CoT contextualmente alinhado que orienta um modelo unificado de base de áudio. Além disso, introduzimos o AudioCoT, um conjunto de dados abrangente com anotações estruturadas de raciocínio que estabelece conexões entre conteúdo visual, descrições textuais e síntese de som. Experimentos demonstram que o ThinkSound alcança desempenho de ponta na geração de áudio a partir de vídeo, tanto em métricas de áudio quanto em métricas de CoT, e se destaca no benchmark Movie Gen Audio fora da distribuição. A página de demonstração está disponível em https://ThinkSound-Project.github.io.
Modelos de mundo tornaram-se ferramentas indispensáveis para a inteligência incorporada, servindo como simuladores poderosos capazes de gerar vídeos robóticos realistas enquanto abordam desafios críticos de escassez de dados. No entanto, os modelos de mundo incorporados atuais exibem consciência física limitada, particularmente na modelagem de geometria 3D e dinâmica de movimento, resultando em geração de vídeos irrealistas para cenários robóticos ricos em contato. Neste artigo, apresentamos o RoboScape, um modelo de mundo unificado informado por física que aprende conjuntamente a geração de vídeos RGB e o conhecimento físico dentro de um framework integrado. Introduzimos duas tarefas-chave de treinamento conjunto informadas por física: previsão de profundidade temporal que melhora a consistência geométrica 3D na renderização de vídeo, e aprendizado de dinâmica de pontos-chave que codifica implicitamente propriedades físicas (por exemplo, forma do objeto e características do material) enquanto melhora a modelagem de movimentos complexos. Experimentos extensivos demonstram que o RoboScape gera vídeos com fidelidade visual superior e plausibilidade física em diversos cenários robóticos. Validamos ainda sua utilidade prática por meio de aplicações subsequentes, incluindo treinamento de políticas robóticas com dados gerados e avaliação de políticas. Nosso trabalho fornece novos insights para a construção de modelos de mundo eficientes informados por física, avançando a pesquisa em inteligência incorporada. O código está disponível em: https://github.com/tsinghua-fib-lab/RoboScape.
A integração de ferramentas externas por meio de chamadas de função é essencial para aplicações práticas de modelos de linguagem, mas a maioria dos modelos multilíngues carece de capacidades confiáveis de uso de ferramentas em idiomas que não o inglês. Mesmo os modelos multilíngues mais avançados enfrentam dificuldades para determinar quando usar ferramentas e gerar as saídas estruturadas necessárias para chamadas de função, frequentemente exibindo confusão linguística quando solicitados em idiomas de menor recurso. Este trabalho apresenta uma metodologia para adaptar modelos de linguagem existentes, permitindo o uso robusto de ferramentas em qualquer idioma-alvo, utilizando o búlgaro como estudo de caso. A abordagem envolve o treinamento contínuo da série de modelos BgGPT (2,6B, 9B, 27B parâmetros) em um novo conjunto de dados bilíngue de 10.035 exemplos de chamadas de função, projetado para suportar protocolos padronizados como o MCP (Model Context Protocol). A pesquisa introduz o TUCAN (Tool-Using Capable Assistant Navigator), que alcança uma melhoria de até 28,75% na precisão de chamadas de função em relação aos modelos base, mantendo a compreensão fundamental da linguagem, conforme verificado em benchmarks estabelecidos para o búlgaro. Além dos ganhos de precisão, os modelos TUCAN demonstram formatação de respostas prontas para produção, com chamadas de função limpas e analisáveis, em contraste com as saídas verbosas e inconsistentes dos modelos base. Os modelos, o framework de avaliação e o conjunto de dados são disponibilizados para permitir a replicação em outros idiomas. Este trabalho demonstra uma abordagem prática para estender as capacidades aumentadas por ferramentas além dos sistemas centrados no inglês.
Neste artigo, apresentamos uma técnica simples e livre de treinamento para melhorar o desempenho de métodos de decodificação especulativa (SpD) baseados em rascunhos que incorporam o cabeçalho de modelagem de linguagem (LM head) durante o processo de rascunho. A decodificação especulativa baseada em rascunhos utiliza um ou mais modelos de linguagem menores, conhecidos como rascunhos ou modelos de rascunho, para amostrar uma sequência ou árvore de rascunho composta por múltiplos tokens, seguida pela verificação por um LLM base, o modelo alvo, que aceita um subconjunto como sua geração válida. Como geralmente se considera que a decodificação especulativa requer um mapeamento um-para-um entre os vocabulários do modelo alvo e do modelo de rascunho, tem sido natural compartilhar o vocabulário entre eles, ou até mesmo compartilhar o LM head, como em EAGLE ou Medusa. Primeiro, identificamos que esse esquema de amostragem de tokens de rascunho contém inerentemente uma sobrecarga desnecessária de inferência durante o rascunho, especialmente para alguns LLMs alvos com vocabulários muito grandes. Em seguida, propomos uma técnica simples, o VocabTrim, para mitigar a sobrecarga de rascunho e melhorar a velocidade de geração em ambientes com restrição de memória. O VocabTrim reconstrói o LM head do rascunho para conter apenas um conjunto limitado de tokens, selecionados pelos mais frequentemente amostrados do vocabulário do modelo alvo. Embora a limitação do vocabulário no rascunho degrade ligeiramente a taxa de aceitação, ela reduz significativamente a latência de rascunho em processos com restrição de memória, o que é frequentemente o caso em dispositivos de borda, resultando em um maior aumento de velocidade com restrição de memória (MBSU). Mostramos que nosso método pode impulsionar o aumento de velocidade com restrição de memória para modelos Llama-3 no Spec-Bench, especificamente em 16% para o Llama-3.2-3B-Instruct.
O ajuste fino de LLMs pré-treinados tem se mostrado uma estratégia eficaz para alcançar desempenho de ponta em tarefas específicas, como tradução automática. No entanto, esse processo de adaptação frequentemente implica em sacrificar capacidades de propósito geral, como raciocínio conversacional e seguimento de instruções, prejudicando a utilidade do sistema em aplicações do mundo real que exigem uma mistura de habilidades. Neste artigo, apresentamos o Tower+, um conjunto de modelos projetados para oferecer um desempenho robusto tanto em tradução quanto em capacidades multilingues de propósito geral. Alcançamos uma fronteira de Pareto entre especialização em tradução e capacidades multilingues de propósito geral ao introduzir uma nova receita de treinamento que se baseia no Tower (Alves et al., 2024), compreendendo pré-treinamento contínuo, ajuste fino supervisionado, otimização de preferências e aprendizado por reforço com recompensas verificáveis. Em cada etapa do treinamento, geramos e curamos cuidadosamente dados para fortalecer o desempenho em tradução, bem como em tarefas de propósito geral envolvendo geração de código, resolução de problemas matemáticos e seguimento de instruções gerais. Desenvolvemos modelos em múltiplas escalas: 2B, 9B e 72B. Nossos modelos menores frequentemente superam LLMs de propósito geral maiores, tanto de código aberto quanto proprietários (por exemplo, Llama 3.3 70B, GPT-4o). Nosso maior modelo oferece o melhor desempenho em tradução para idiomas de alta disponibilidade de recursos e resultados de topo em avaliações multilingues Arena Hard e no IF-MT, um benchmark que introduzimos para avaliar tanto tradução quanto seguimento de instruções. Nossas descobertas destacam que é possível rivalizar com modelos de fronteira em capacidades gerais, enquanto se otimiza para domínios de negócios específicos, como tradução e localização.
As metalentes oferecem um potencial significativo para imagens computacionais ultracompactas, mas enfrentam desafios decorrentes de degradações ópticas complexas e dificuldades de restauração computacional. Os métodos existentes geralmente dependem de calibração óptica precisa ou de grandes conjuntos de dados pareados, o que não é trivial para sistemas de imagem do mundo real. Além disso, a falta de controle sobre o processo de inferência frequentemente resulta em artefatos indesejados de alucinação. Introduzimos o Degradation-Modeled Multipath Diffusion para fotografia com metalentes ajustáveis, aproveitando poderosos priors de imagens naturais de modelos pré-treinados em vez de grandes conjuntos de dados. Nosso framework utiliza caminhos de prompt positivo, neutro e negativo para equilibrar a geração de detalhes de alta frequência, a fidelidade estrutural e a supressão de degradações específicas das metalentes, juntamente com uma pseudo-aumentação de dados. Um decodificador ajustável permite compensações controladas entre fidelidade e qualidade perceptual. Adicionalmente, um módulo de atenção com consciência de degradação espacialmente variável (SVDA) modela adaptativamente degradações ópticas e induzidas por sensores complexas. Por fim, projetamos e construímos uma MetaCamera em escala milimétrica para validação no mundo real. Resultados extensivos mostram que nossa abordagem supera os métodos state-of-the-art, alcançando reconstruções de imagem de alta fidelidade e nitidez. Mais materiais: https://dmdiff.github.io/.