Artigos de pesquisa em IA selecionados diariamente com traduções
A utilização de conhecimentos prévios de modelos de difusão 2D para edição 3D emergiu como um paradigma promissor. No entanto, manter a consistência multi-visão nos resultados editados permanece um desafio, e a extrema escassez de dados pareados de edição 3D consistentes torna inviável o ajuste fino supervisionado (SFT), a estratégia de treinamento mais eficaz para tarefas de edição. Neste artigo, observamos que, embora gerar conteúdo 3D com consistência multi-visão seja altamente desafiador, verificar a consistência 3D é tratável, posicionando naturalmente o aprendizado por reforço (RL) como uma solução viável. Motivados por isso, propomos o RL3DEdit, uma estrutura de passagem única orientada por otimização de RL com recompensas derivadas do modelo de fundamento 3D, VGGT. Especificamente, aproveitamos os conhecimentos robustos do VGGT aprendidos de dados massivos do mundo real, alimentamos as imagens editadas e utilizamos os mapas de confiança de saída e os erros de estimativa de pose como sinais de recompensa, ancorando efetivamente os conhecimentos prévios de edição 2D em uma variedade 3D consistente via RL. Experimentos extensivos demonstram que o RL3DEdit alcança consistência multi-visão estável e supera os métodos state-of-the-art em qualidade de edição com alta eficiência. Para promover o desenvolvimento da edição 3D, disponibilizaremos o código e o modelo.
Embora o raciocínio em LLMs desempenhe um papel natural em matemática, geração de código e perguntas factuais de múltiplos saltos, seu efeito em perguntas factuais simples e de salto único permanece pouco claro. Tais questões não exigem decomposição lógica passo a passo, tornando a utilidade do raciocínio altamente contra-intuitiva. No entanto, descobrimos que habilitar o raciocínio expande substancialmente o limite da capacidade de recuperação do conhecimento paramétrico do modelo, desbloqueando respostas corretas que de outra forma seriam efetivamente inatingíveis. Por que o raciocínio auxilia na recuperação do conhecimento paramétrico quando não há etapas complexas de raciocínio a serem realizadas? Para responder a isso, projetamos uma série de experimentos controlados orientados por hipóteses e identificamos dois mecanismos motrizes principais: (1) um efeito de *buffer* computacional, onde o modelo usa os *tokens* de raciocínio gerados para realizar computação latente independente de seu conteúdo semântico; e (2) o *priming* factual, onde a geração de fatos topicamente relacionados atua como uma ponte semântica que facilita a recuperação da resposta correta. Importantemente, este último mecanismo de autorrecuperação generativa carrega riscos inerentes: demonstramos que alucinar fatos intermediários durante o raciocínio aumenta a probabilidade de alucinações na resposta final. Por fim, mostramos que nossos insights podem ser aproveitados para melhorar diretamente a precisão do modelo, priorizando trajetórias de raciocínio que contenham declarações factuais livres de alucinações.
A auto-evolução emergiu como um paradigma fundamental para aprimorar modelos de base, como os Grandes Modelos de Linguagem (LLMs) e os Modelos de Linguagem Visual (VLMs), com intervenção humana mínima. Embora abordagens recentes tenham demonstrado que agentes baseados em LLMs podem se auto-evoluir do zero com poucos ou nenhum dado, os VLMs introduzem uma modalidade visual adicional que normalmente requer pelo menos alguns dados iniciais, como imagens, para iniciar o processo de auto-evolução. Neste trabalho, apresentamos o Multi-model Multimodal Zero (MM-Zero), o primeiro *framework* baseado em Aprendizado por Reforço (RL) a alcançar a auto-evolução sem dados iniciais (*zero-data*) para o raciocínio de VLMs. Indo além das configurações anteriores de dupla função (Propositor e Solucionador), o MM-Zero introduz um *framework* de treinamento de auto-evolução com múltiplas funções, composto por três funções especializadas: um Propositor, que gera conceitos visuais abstratos e formula perguntas; um Codificador, que traduz esses conceitos em código executável (por exemplo, Python, SVG) para renderizar imagens visuais; e um Solucionador, que realiza raciocínio multimodal sobre o conteúdo visual gerado. Todas as três funções são inicializadas a partir do mesmo modelo base e treinadas usando a Otimização de Política Relativa de Grupo (GRPO), com mecanismos de recompensa cuidadosamente projetados que integram *feedback* de execução, verificação visual e balanceamento de dificuldade. Nossos experimentos mostram que o MM-Zero melhora o desempenho do raciocínio de VLMs em uma ampla gama de *benchmarks* multimodais. O MM-Zero estabelece um caminho escalável para sistemas multi-modelo de auto-evolução para modelos multimodais, estendendo a fronteira da auto-melhoria para além do paradigma convencional de dois modelos.
Embora os modelos de linguagem multimodal de grande porte (MLLMs) recentes tenham dado passos impressionantes, eles empregam predominantemente uma arquitetura autoregressiva convencional como base, deixando espaço significativo para explorar alternativas eficazes e eficientes no design arquitetônico. Paralelamente, estudos recentes aplicaram com sucesso modelos de difusão discreta em vários domínios, como compreensão visual e geração de imagens, revelando seu considerável potencial como uma base promissora para sistemas multimodais. Inspirados por essas pesquisas pioneiras, apresentamos o Omni-Diffusion, o primeiro modelo de linguagem multimodal "qualquer-para-qualquer" construído inteiramente sobre modelos de difusão discreta baseados em máscaras, que unifica a compreensão e a geração em texto, fala e imagens. O Omni-Diffusion emprega um modelo unificado de difusão discreta baseado em máscaras para capturar diretamente a distribuição conjunta sobre tokens multimodais discretos. Esta abordagem suporta não apenas tarefas bimodais, mas também cenários mais complexos envolvendo múltiplas modalidades. Em um conjunto diversificado de benchmarks, nosso método supera ou apresenta desempenho equivalente aos sistemas multimodais existentes que processam duas ou mais modalidades, destacando o potencial significativo dos modelos de difusão para impulsionar a próxima geração de modelos de base multimodal. Página do projeto: https://omni-diffusion.github.io.
Os modelos multimodais unificados (UMMs), que integram compreensão, raciocínio, geração e edição, enfrentam trade-offs inerentes entre manter uma forte compreensão semântica e adquirir capacidades de geração poderosas. Neste relatório, apresentamos o InternVL-U, um UMM leve com 4B de parâmetros que democratiza essas capacidades dentro de uma estrutura unificada. Guiado pelos princípios de modelagem contextual unificada e design modular específico por modalidade com representações visuais desacopladas, o InternVL-U integra um Modelo de Linguagem Grande Multimodal (MLLM) de última geração com um cabeçalho de geração visual especializado baseado em MMDiT. Para reduzir ainda mais a lacuna entre a geração estética e a inteligência de alto nível, construímos um pipeline abrangente de síntese de dados direcionado a tarefas de alta densidade semântica, como renderização de texto e raciocínio científico, sob um paradigma centrado no raciocínio que aproveita a Cadeia de Pensamento (CoT) para melhor alinhar a intenção abstrata do usuário com os detalhes granulares da geração visual. Experimentos extensivos demonstram que o InternVL-U alcança um equilíbrio superior entre desempenho e eficiência. Apesar de usar apenas 4B de parâmetros, ele supera consistentemente os modelos de base unificados com escalas mais de 3 vezes maiores, como o BAGEL (14B), em várias tarefas de geração e edição, mantendo fortes capacidades de compreensão e raciocínio multimodal.
Apresentamos o Fish Audio S2, um sistema de conversão de texto em voz de código aberto que oferece geração multi-orador e multi-turno e, mais importante, controle por instrução através de descrições em linguagem natural. Para dimensionar o treinamento, desenvolvemos uma receita de treinamento multiestágio em conjunto com um pipeline de dados escalonado que abrange legendagem de vídeo e de fala, avaliação de qualidade vocal e modelagem por recompensa. Para expandir as fronteiras do TTS de código aberto, disponibilizamos nossos pesos de modelo, código de ajuste fino e um motor de inferência baseado em SGLang. O motor de inferência está pronto para produção em streaming, atingindo um RTF de 0,195 e um tempo para o primeiro áudio inferior a 100 ms. Nosso código e pesos estão disponíveis no GitHub (https://github.com/fishaudio/fish-speech) e no Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incentivamos vivamente os leitores a visitar https://fish.audio para experimentar vozes personalizadas.
Os modelos de linguagem multimodal (MLLMs) conseguem processar texto apresentado como imagem, mas frequentemente apresentam desempenho inferior ao mesmo conteúdo fornecido como tokens textuais. Diagnosticamos sistematicamente esta "lacuna de modalidade" avaliando sete MLLMs em sete benchmarks e cinco modos de entrada, abrangendo desde texto renderizado sinteticamente até imagens realistas de documentos, desde PDFs do arXiv até páginas da Wikipédia. Descobrimos que a lacuna de modalidade é dependente da tarefa e dos dados. Por exemplo, tarefas de matemática degradam-se em mais de 60 pontos em renderizações sintéticas, enquanto imagens de documentos naturais frequentemente igualam ou superam o desempenho no modo texto. Escolhas de renderização, como fonte e resolução, são fortes fatores de confusão, sendo que apenas a fonte pode alterar a precisão em até 47 pontos percentuais. Para entender isto, realizamos uma análise de erros baseada em teoria fundamentada de mais de 4.000 exemplos, revelando que o modo imagem amplifica seletivamente erros de leitura (falhas de cálculo e formatação), enquanto deixa erros de conhecimento e raciocínio praticamente inalterados, e que alguns modelos exibem um colapso do raciocínio de cadeia de pensamento sob entrada visual. Motivados por estas descobertas, propomos um método de auto-distilação que treina o modelo com seus próprios traços de raciocínio em texto puro emparelhados com entradas de imagem, elevando a precisão no modo imagem no GSM8K de 30,71% para 92,72% e transferindo-se para benchmarks não vistos sem esquecimento catastrófico. No geral, nosso estudo fornece uma compreensão sistemática da lacuna de modalidade e sugere um caminho prático para melhorar a compreensão de texto visual em modelos de linguagem multimodal.
Os esportes há muito atraem ampla atenção por expandirem os limites das capacidades físicas e cognitivas humanas. Diante do crescente interesse na inteligência espacial para modelos visão-linguagem (VLMs), os esportes oferecem um ambiente natural para compreender movimentos humanos de alta intensidade e interações dinâmicas entre objetos. Para isso, apresentamos o CourtSI, o primeiro conjunto de dados de inteligência espacial em larga escala adaptado para cenários esportivos. O CourtSI contém mais de 1 milhão de pares de perguntas e respostas, organizados sob uma taxonomia holística que abrange sistematicamente contagem espacial, medição de distância, localização e raciocínio relacional em esportes de rede representativos, como badminton, tênis e tênis de mesa. Aproveitando a geometria bem definida das quadras como âncoras métricas, desenvolvemos um mecanismo de dados semiautomático para reconstruir cenas esportivas, permitindo a curadoria escalável do CourtSI. Além disso, introduzimos o CourtSI-Bench, um benchmark de avaliação de alta qualidade composto por 3.686 pares de perguntas e respostas com verificação humana rigorosa. Avaliamos 25 VLMs proprietários e de código aberto no CourtSI-Bench, revelando uma lacuna remanescente no desempenho humano-IA e generalização limitada em relação aos benchmarks existentes de inteligência espacial. Essas descobertas indicam que cenários esportivos expõem limitações nas capacidades de inteligência espacial capturadas pelos benchmarks atuais. Ademais, o ajuste fino do Qwen3-VL-8B no CourtSI melhorou sua precisão no CourtSI-Bench em 23,5 pontos percentuais. O modelo adaptado também generaliza efetivamente para o CourtSI-Ext, um conjunto de avaliação baseado em um esporte similar não visto durante o treinamento, e demonstra geração aprimorada de comentários com consciência espacial. Coletivamente, esses resultados demonstram que o CourtSI oferece um caminho escalável para avançar a inteligência espacial de VLMs em esportes.
Com o rápido avanço dos Grandes Modelos de Linguagem (LLMs) na geração de código, a interação humano-IA está a evoluir de respostas de texto estáticas para aplicações dinâmicas e interativas baseadas em HTML, que designamos por MiniApps. Estas aplicações exigem que os modelos não apenas renderizem interfaces visuais, mas também construam lógicas de interação personalizadas que adiram a princípios do mundo real. No entanto, os benchmarks existentes focam-se principalmente na correção algorítmica ou na reconstrução estática de layouts, não conseguindo capturar as capacidades necessárias para este novo paradigma. Para colmatar esta lacuna, introduzimos o MiniAppBench, o primeiro benchmark abrangente concebido para avaliar a geração de aplicações interativas orientada a princípios. Com origem numa aplicação real com mais de 10 milhões de gerações, o MiniAppBench destila 500 tarefas em seis domínios (por exemplo, Jogos, Ciência e Ferramentas). Adicionalmente, para enfrentar o desafio de avaliar interações abertas onde não existe uma única verdade fundamental, propomos o MiniAppEval, um quadro de avaliação agentivo. Aproveitando a automação de navegadores, este framework realiza testes exploratórios semelhantes aos humanos para avaliar sistematicamente as aplicações em três dimensões: Intenção, Estática e Dinâmica. As nossas experiências revelam que os LLMs atuais ainda enfrentam desafios significativos na geração de MiniApps de alta qualidade, enquanto o MiniAppEval demonstra uma elevada correlação com o julgamento humano, estabelecendo um padrão fiável para investigação futura. O nosso código está disponível em github.com/MiniAppBench.
Os modelos de linguagem grandes multimodais podem exibir dominância textual, confiando excessivamente em conhecimentos prévios linguísticos em vez de fundamentar suas previsões em entradas não textuais. Um exemplo são os grandes modelos de áudio e linguagem (LALMs), nos quais evidências sonoras decisivas podem ser subutilizadas, mesmo quando contêm informações importantes. Para resolver esse problema, utilizamos interpretabilidade mecanicista para identificar um pequeno conjunto de cabeças de atenção especializadas em áudio, cuja atenção ao áudio produz um sinal de "escuta". Demonstramos que esse sinal aumenta quando a evidência de áudio afeta a saída do modelo, fornecendo um indicador de engajamento auditivo sob prompts padrão. Aproveitando essa localização, construímos uma direção de direcionamento de áudio-silêncio e aplicamos uma intervenção de ativação no tempo de inferência à representação final, amplificando o efeito do áudio no modelo. Para demonstrar a utilidade dessa intervenção, mostramos no MMAU que ela melhora a precisão em até +8,0 pontos percentuais em dois LALMs baseados no Qwen, sem qualquer atualização de parâmetros.
A capacidade de distinguir diferenças subtis entre imagens visualmente semelhantes é essencial para diversos domínios, como a deteção de anomalias industriais, a imagem médica e a vigilância aérea. Embora tenham surgido recentemente benchmarks de raciocínio comparativo para modelos de visão e linguagem (VLMs), estes focam-se principalmente em imagens com diferenças grandes e salientes, não conseguindo captar o raciocínio nuances exigido por aplicações do mundo real. Neste trabalho, apresentamos o VLM-SubtleBench, um benchmark concebido para avaliar VLMs em raciocínio comparativo subtil. O nosso benchmark abrange dez tipos de diferença - Atributo, Estado, Emoção, Temporal, Espacial, Existência, Quantidade, Qualidade, Ponto de Vista e Ação - e seleciona conjuntos de perguntas-imagens emparelhadas que refletem estas variações de granularidade fina. Ao contrário de benchmarks anteriores, restritos a conjuntos de dados de imagens naturais, o nosso abrange diversos domínios, incluindo imagens industriais, aéreas e médicas. Através de uma avaliação extensiva de VLMs proprietários e de código aberto, revelamos lacunas sistemáticas entre o desempenho dos modelos e o desempenho humano entre tipos de diferença e domínios, e fornecemos análises controladas que destacam onde o raciocínio dos VLMs se deteriora acentuadamente. Em conjunto, o nosso benchmark e descobertas estabelecem uma base para o avanço dos VLMs em direção a um raciocínio comparativo de nível humano.
Os Modelos de Linguagem de Grande Porte para Fala (SLLMs) expandiram-se rapidamente, suportando uma ampla gama de tarefas. Estes modelos são normalmente avaliados usando instruções de texto, o que pode não refletir cenários do mundo real, onde os utilizadores interagem através de fala. Para colmatar esta lacuna, introduzimos o DoWhatISay (DOWIS), um conjunto de dados multilingue de instruções faladas (gravadas por humanos) e escritas, concebido para ser emparelhado com qualquer *benchmark* existente para uma avaliação realista de SLLMs sob condições de instrução falada. Abrangendo 9 tarefas e 11 idiomas, fornece 10 variantes de instrução por par tarefa-idioma, distribuídas por cinco estilos. Utilizando o DOWIS, avaliamos SLLMs de última geração, analisando a interação entre a modalidade da instrução, o estilo, o idioma e o tipo de tarefa. Os resultados mostram que as instruções de texto superam consistentemente as instruções faladas, particularmente para contextos de baixos recursos e cenários transversais a vários idiomas. Apenas para tarefas com saída de fala é que as instruções faladas reduzem significativamente a diferença de desempenho, salientando a necessidade do uso de instruções baseadas em fala na avaliação de SLLMs.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora significativamente o raciocínio de grandes modelos de linguagem (LLMs), mas sofre severamente com a degeneração da calibração, onde os modelos tornam-se excessivamente confiantes em respostas incorretas. Estudos anteriores dedicam-se a incorporar diretamente o objetivo de calibração na função de otimização existente. No entanto, nossa análise teórica demonstra que existe um conflito fundamental de gradiente entre a otimização para maximizar a precisão da política e minimizar o erro de calibração. Com base nessa percepção, propomos o DCPO, uma estrutura simples, porém eficaz, que dissocia sistematicamente os objetivos de raciocínio e calibração. Experimentos extensivos demonstram que nosso DCPO não apenas preserva uma precisão equivalente à do GRPO, mas também alcança o melhor desempenho de calibração e mitiga substancialmente o problema de excesso de confiança. Nosso estudo fornece insights valiosos e uma solução prática para uma implantação mais confiável de LLMs.
Apresentamos a Definição de Agentes de IA Orientada a Testes (TDAD), uma metodologia que trata os *prompts* de agentes como artefatos compilados: os engenheiros fornecem especificações comportamentais, um agente de codificação converte-as em testes executáveis, e um segundo agente de codificação refina iterativamente o *prompt* até que os testes sejam aprovados. A implantação de agentes de LLM que utilizam ferramentas em produção exige conformidade comportamental mensurável que as práticas atuais de desenvolvimento não conseguem fornecer. Pequenas alterações no *prompt* causam regressões silenciosas, o uso indevido de ferramentas passa despercebido e violações de políticas só surgem após a implantação. Para mitigar a manipulação de especificações, a TDAD introduz três mecanismos: (1) divisão de testes visíveis/ocultos que retém testes de avaliação durante a compilação, (2) teste de mutação semântica via um agente pós-compilação que gera variantes de *prompt* defeituosas plausíveis, com o *harness* medindo se o conjunto de testes as detecta, e (3) cenários de evolução de especificações que quantificam a segurança contra regressões quando os requisitos mudam. Avaliamos a TDAD no SpecSuite-Core, um *benchmark* de quatro agentes profundamente especificados abrangendo conformidade com políticas, análises fundamentadas, adesão a procedimentos operacionais e aplicação determinística. Em 24 testes independentes, a TDAD alcança 92% de sucesso na compilação v1 com taxa média de aprovação oculta de 97%; especificações evoluídas são compiladas a 58%, com a maioria das execuções falhadas aprovando todos os testes visíveis exceto 1-2, e mostram escores de mutação de 86-100%, taxa de aprovação oculta v2 de 78% e escores de segurança contra regressões de 97%. A implementação está disponível como um *benchmark* aberto em https://github.com/f-labs-io/tdad-paper-code.
O treinamento de grandes modelos de linguagem (LLMs) em traços de execução de Python os ancora na execução de código e permite a previsão da execução linha por linha de programas Python inteiros, efetivamente transformando-os em interpretadores neurais (FAIR CodeGen Team et al., 2025). No entanto, os desenvolvedores raramente executam programas passo a passo; em vez disso, usam depuradores para interromper a execução em determinados pontos de interrupção e percorrer apenas as porções relevantes enquanto inspecionam ou modificam variáveis do programa. As abordagens de interpretadores neurais existentes carecem desse controle interativo. Para superar essa limitação, introduzimos os depuradores neurais: modelos de linguagem que emulam depuradores tradicionais, suportando operações como *stepping into*, *over* ou *out* de funções, bem como a definição de pontos de interrupção em linhas de código específicas. Demonstramos que os depuradores neurais — obtidos via *fine-tuning* de LLMs grandes ou pré-treinamento de modelos menores do zero — podem modelar de forma confiável tanto a execução direta (prevendo estados e saídas futuras) quanto a execução inversa (inferindo estados ou entradas anteriores) condicionadas às ações do depurador. Avaliados no CruxEval, nossos modelos alcançam um desempenho sólido em tarefas de previsão de saída e de entrada, demonstrando uma modelagem robusta de execução condicional. Nosso trabalho dá os primeiros passos rumo a futuros sistemas de codificação agentes, nos quais os depuradores neurais servem como um modelo de mundo para ambientes de depuração simulados, fornecendo *feedback* de execução ou permitindo que os agentes interajam com ferramentas reais de depuração. Essa capacidade estabelece a base para uma geração de código, compreensão de programas e depuração automatizada mais poderosas.
A consciência situacional, a capacidade de um sistema de IA de reconhecer sua própria natureza, compreender o contexto do seu treinamento e implantação e raciocinar estrategicamente sobre suas circunstâncias, é amplamente considerada uma das capacidades emergentes mais perigosas em sistemas de IA avançados. Paralelamente, um esforço crescente de pesquisa busca melhorar as capacidades de raciocínio lógico dos grandes modelos de linguagem (LLMs) através da dedução, indução e abdução. Neste artigo, argumentamos que essas duas trajetórias de pesquisa estão em rota de colisão. Apresentamos a estrutura RAISE (Raciocínio Avançando para o Autoexame), que identifica três vias mecanicistas através das quais os avanços no raciocínio lógico permitem níveis progressivamente mais profundos de consciência situacional: autoinferência dedutiva, reconhecimento de contexto indutivo e automodelagem abdutiva. Formalizamos cada via, construímos uma escada de escalada que vai do autorreconhecimento básico até o engano estratégico e demonstramos que todos os principais tópicos de pesquisa em raciocínio lógico de LLMs mapeiam-se diretamente em um amplificador específico da consciência situacional. Analisamos ainda por que as medidas de segurança atuais são insuficientes para evitar essa escalada. Concluímos propondo salvaguardas concretas, incluindo um benchmark "Teste do Espelho" e um Princípio de Paridade de Segurança no Raciocínio, e colocamos uma questão desconfortável, mas necessária, para a comunidade de raciocínio lógico sobre sua responsabilidade nesta trajetória.
Os grandes modelos de difusão pré-treinados melhoraram significativamente a qualidade dos vídeos gerados, mas seu uso em transmissão em tempo real permanece limitado. Os modelos autoregressivos oferecem uma estrutura natural para síntese sequencial de quadros, mas exigem computação pesada para alcançar alta fidelidade. A destilação por difusão pode comprimir esses modelos em variantes eficientes de poucos passos, mas as abordagens de destilação de vídeo existentes adaptam amplamente métodos específicos para imagens que negligenciam dependências temporais. Essas técnicas frequentemente se destacam na geração de imagens, mas têm desempenho inferior na síntese de vídeo, exibindo coerência de movimento reduzida, acúmulo de erros em sequências longas e um compromisso entre latência e qualidade. Identificamos dois fatores que resultam nessas limitações: utilização insuficiente do contexto temporal durante a redução de passos e previsão implícita dos níveis de ruído subsequentes na previsão do próximo bloco (ou seja, viés de exposição). Para resolver esses problemas, propomos a Destilação Diagonal, que opera ortogonalmente às abordagens existentes e explora melhor a informação temporal através de blocos de vídeo e passos de remoção de ruído. Central à nossa abordagem é uma estratégia de geração assimétrica: mais passos no início, menos passos depois. Este projeto permite que blocos posteriores herdem informações ricas de aparência de blocos iniciais processados rigorosamente, enquanto usa blocos parcialmente removidos de ruído como entradas condicionais para síntese subsequente. Ao alinhar a previsão implícita dos níveis de ruído subsequentes durante a geração de blocos com as condições reais de inferência, nossa abordagem mitiga a propagação de erros e reduz a supersaturação em sequências de longo alcance. Incorporamos ainda modelagem implícita de fluxo óptico para preservar a qualidade do movimento sob restrições rigorosas de passos. Nosso método gera um vídeo de 5 segundos em 2,61 segundos (até 31 FPS), alcançando uma aceleração de 277,3x em relação ao modelo não destilado.
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham revolucionado a geração de código, as abordagens padrão do "Sistema 1", que geram soluções em um único passo direto, frequentemente atingem um platô de desempenho quando confrontadas com tarefas algorítmicas complexas. Estratégias existentes de refinamento iterativo tentam preencher essa lacuna durante o tempo de inferência, mas dependem predominantemente de oráculos externos, *feedback* de execução ou ciclos *prompt-resposta* computacionalmente custosos. Neste trabalho, propomos o ReflexiCoder, um novo *framework* de Aprendizado por Reforço (RL) que internaliza a trajetória estruturada de raciocínio – abrangendo geração inicial, reflexão consciente de erros e otimização e autocorreção – diretamente nos pesos do modelo. Diferente de métodos anteriores, o ReflexiCoder muda o paradigma do refinamento dependente de fatores externos para capacidades intrínsecas, totalmente autônomas, de autorreflexão e autocorreção no tempo de inferência. Utilizamos um paradigma de treinamento RL-zero com funções de recompensa granulares para otimizar toda a trajetória de reflexão-correção, ensinando o modelo a depurar sem depender de *feedback* da verdade fundamental (*ground-truth*) ou motores de execução durante a inferência. Experimentos extensos em sete *benchmarks* demonstram que nosso ReflexiCoder-8B estabelece um novo estado da arte (SOTA) entre os principais modelos de código aberto na faixa de 1.5B a 14B, alcançando 94.51% (87.20%) no HumanEval (Plus), 81.80% (78.57%) no MBPP (Plus), 35.00% no BigCodeBench, 52.21% no LiveCodeBench e 37.34% no CodeForces em uma configuração de tentativa única, rivalizando ou superando modelos proprietários como o GPT-5.1. Notavelmente, nosso *framework* é significativamente mais eficiente em termos de *tokens* do que os modelos base, reduzindo a sobrecarga computacional no tempo de inferência em aproximadamente 40% por meio de padrões disciplinados e de alta velocidade de raciocínio e reflexão. O código-fonte está disponível em https://github.com/juyongjiang/ReflexiCoder.
A inferência de contexto longo em modelos de linguagem de grande escala é limitada pelo carregamento da cache de Chave-Valor (KV) durante a fase de decodificação, onde a natureza sequencial da geração exige a transferência repetida da cache KV da Memória de Alta Largura de Banda (HBM) fora do chip para a Memória de Acesso Aleatório Estática (SRAM) dentro do chip a cada passo. Embora a Atenção Latente de Múltiplas Cabeças (MLA) reduza significativamente o tamanho total da cache KV, ela sofre com um gargalo de fragmentação durante a decodificação distribuída via Paralelismo de Tensores (TP). Como sua única cabeça latente não pode ser particionada, cada dispositivo é forçado a carregar redundantemente a cache KV completa para cada token, consumindo tráfego de memória excessivo e diminuindo os benefícios do TP, como a fragmentação de pesos. Neste trabalho, propomos a Atenção de Baixa Postura de Múltiplas Cabeças (MLRA), que permite estados latentes particionáveis para uma decodificação eficiente com TP de 4 vias. Experimentos extensivos mostram que a MLRA atinge a melhor perplexidade e desempenho em tarefas downstream do estado da arte, além de proporcionar uma aceleração de 2,8 vezes na velocidade de decodificação em comparação com a MLA. O código está disponível em https://github.com/SongtaoLiu0823/MLRA. Os pesos pré-treinados, juntamente com os dados de treinamento e avaliação, estão disponíveis em https://huggingface.co/Soughing/MLRA.
O rápido avanço dos modelos de texto-para-vídeo (T2V) revolucionou a criação de conteúdo, mas seu potencial comercial permanece amplamente inexplorado. Introduzimos, pela primeira vez, a tarefa de integração de marca perfeita em T2V: incorporar automaticamente marcas de anunciantes em vídeos gerados por prompt, preservando a fidelidade semântica à intenção do utilizador. Esta tarefa enfrenta três desafios principais: manter a fidelidade ao prompt, garantir a reconhecibilidade da marca e alcançar uma integração contextualmente natural. Para os resolver, propomos o BrandFusion, uma nova estrutura multiagente que compreende duas fases sinérgicas. Na fase offline (dirigida ao anunciante), construímos uma Base de Conhecimento de Marca através da sondagem de prioris do modelo e da adaptação a novas marcas via *fine-tuning* leve. Na fase online (dirigida ao utilizador), cinco agentes refinam conjuntamente os prompts do utilizador através de um refinamento iterativo, aproveitando a base de conhecimento partilhada e o rastreamento contextual em tempo real para garantir a visibilidade da marca e o alinhamento semântico. Experiências com 18 marcas estabelecidas e 2 marcas personalizadas em vários modelos T2V de última geração demonstram que o BrandFusion supera significativamente as linhas de base na preservação semântica, reconhecibilidade da marca e naturalidade da integração. Avaliações humanas confirmam ainda uma maior satisfação do utilizador, estabelecendo um caminho prático para a monetização sustentável de T2V.
Os agentes devem inferir os resultados das ações e selecionar ações que maximizem um sinal de recompensa que indica a proximidade de atingir o objetivo. A aprendizagem supervisionada de modelos de recompensa pode introduzir vieses inerentes aos dados de treino, limitando a generalização para novos objetivos e ambientes. Neste artigo, investigamos se representações bem definidas do estado do mundo, por si só, podem permitir uma previsão precisa de recompensas em diversos domínios. Para abordar esta questão, introduzimos o StateFactory, um método de representação fatorizada que transforma observações não estruturadas numa estrutura hierárquica de objetos e atributos utilizando modelos de linguagem. Esta representação estruturada permite que as recompensas sejam estimadas naturalmente como a semelhança semântica entre o estado atual e o estado objetivo sob uma restrição hierárquica. No geral, a estrutura de representação compacta induzida pelo StateFactory permite fortes capacidades de generalização de recompensas. Avaliamos o método no RewardPrediction, um novo conjunto de dados de referência que abrange cinco domínios diversos e compreende 2.454 trajectórias únicas de ação-observação com recompensas verdadeiras passo a passo. O nosso método apresenta resultados promissores *zero-shot* contra os modelos de recompensa VLWM-critic e LLM-as-a-Judge, alcançando uma distância EPIC 60% e 8% menor, respetivamente. Além disso, esta qualidade superior da recompensa traduz-se com sucesso numa melhoria do desempenho do planeamento do agente, resultando em ganhos na taxa de sucesso de +21,64% no AlfWorld e +12,40% no ScienceWorld em comparação com políticas reativas do sistema 1 e melhorando o planeamento do agente do sistema 2. Página do Projeto: https://statefactory.github.io
Os recentes avanços em modelos visão-linguagem (VLMs) demonstraram capacidades notáveis de generalização zero-shot, mas a adaptação desses modelos a domínios especializados continua sendo um desafio significativo. Com base em insights teóricos recentes que sugerem que VLMs treinados independentemente estão relacionados por uma transformação canônica, estendemos esse entendimento para o conceito de domínios. Nossa hipótese é que as características de imagem em domínios distintos estão relacionadas por uma transformação geométrica canonizada que pode ser recuperada usando um pequeno conjunto de âncoras. A classificação com poucos exemplos fornece um cenário natural para esse alinhamento, uma vez que as amostras rotuladas limitadas servem como as âncoras necessárias para estimar essa transformação. Motivados por essa hipótese, introduzimos o BiCLIP, uma estrutura que aplica uma transformação direcionada a características multimodais para melhorar o alinhamento cross-modal. Nossa abordagem é caracterizada por sua extrema simplicidade e baixa pegada de parâmetros. Avaliações extensas em 11 benchmarks padrão, incluindo EuroSAT, DTD e FGVCAircraft, demonstram que o BiCLIP alcança consistentemente resultados state-of-the-art. Além disso, fornecemos uma verificação empírica de descobertas geométricas existentes analisando a ortogonalidade e a distribuição angular das transformações aprendidas, confirmando que o alinhamento estruturado é a chave para uma adaptação de domínio robusta. O código está disponível em https://github.com/QuantitativeImagingLaboratory/BilinearCLIP.
A autorrecursividade está a transitar da teoria para a prática: os sistemas modernos já conseguem criticar, rever e avaliar as suas próprias saídas, contudo a automodificação iterativa acarreta o risco de um desvio subtil no alinhamento. Apresentamos o SAHOO, uma estrutura prática para monitorizar e controlar este desvio através de três salvaguardas: (i) o Índice de Desvio de Objetivos (GDI), um detetor aprendido de múltiplos sinais que combina medidas semânticas, lexicais, estruturais e distribucionais; (ii) verificações de preservação de restrições que impõem invariantes críticos de segurança, como a correção sintática e a não-alucinação; e (iii) a quantificação do risco de regressão para sinalizar ciclos de melhoria que anulem ganhos anteriores. Em 189 tarefas de geração de código, raciocínio matemático e veracidade, o SAHOO produz ganhos substanciais de qualidade, incluindo uma melhoria de 18,3% nas tarefas de código e de 16,8% no raciocínio, preservando simultaneamente as restrições em dois domínios e mantendo baixas violações na veracidade. Os limiares são calibrados num pequeno conjunto de validação de 18 tarefas ao longo de três ciclos. Mapeamos ainda a fronteira capacidade-alinhamento, mostrando ciclos de melhoria inicial eficientes, mas com custos crescentes de alinhamento posteriormente, e expondo tensões específicas de domínio, como fluência versus factualidade. O SAHOO torna, portanto, a preservação do alinhamento durante a autorrecursividade mensurável, implementável e sistematicamente validada em escala.
Apresentamos o Midicoth, um sistema de compressão sem perdas que introduz uma camada de micro-difusão com remoção de ruído para melhorar as estimativas de probabilidade produzidas por modelos estatísticos adaptativos. Em compressores como a Predição por Correspondência Parcial (PPM), as estimativas de probabilidade são suavizadas por um prior para lidar com observações esparsas. Quando os contextos foram observados apenas algumas vezes, este prior domina a predição e produz distribuições significativamente mais achatadas do que a verdadeira distribuição da fonte, levando à ineficiência de compressão. O Midicoth aborda esta limitação tratando a suavização do prior como um processo de encolhimento e aplicando um passo reverso de remoção de ruído que corrige as probabilidades previstas usando estatísticas de calibração empírica. Para tornar esta correção eficiente em termos de dados, o método decompõe cada predição de byte numa hierarquia de decisões binárias ao longo de uma árvore bit a bit. Isto converte um único problema de calibração de 256 vias numa sequência de tarefas de calibração binária, permitindo a estimativa confiável de termos de correção a partir de um número relativamente pequeno de observações. O processo de remoção de ruído é aplicado em múltiplos passos sucessivos, permitindo que cada etapa refine os erros de predição residuais deixados pela anterior. A camada de micro-difusão opera como um estágio de calibração pós-combinação leve aplicado após todas as predições do modelo serem combinadas, permitindo-lhe corrigir vieses sistemáticos na distribuição de probabilidade final. O Midicoth combina cinco componentes totalmente online: um modelo PPM adaptativo, um modelo de correspondência de longo alcance, um modelo baseado em trie para palavras, um modelo de contexto de alta ordem e o removedor de ruído de micro-difusão aplicado como estágio final.
As versões de modelos de espaço de estados são tipicamente acopladas a kernels fundidos de CUDA e Triton, herdando uma dependência rígida de hardware NVIDIA. Demonstramos que o algoritmo de dualidade de espaço de estados do Mamba-2 — estrutura de estados diagonal, recorrência segmentável e computação dominada por einsum com fluxo de controle estático — mapeia-se perfeitamente no que as passagens de fusão e blocagem (tiling) do XLA realmente otimizam, tornando os kernels personalizados opcionais em vez de obrigatórios. Implementamos o caminho completo de inferência (pré-preenchimento, decodagem autorregressiva em cache) como primitivas padrão formatadas no XLA, sem kernels escritos manualmente, e realizamos o gerenciamento de estados teórico O(1) da arquitetura como uma cache compilada no dispositivo que não requer sincronização com o host durante a geração. A implementação é executada sem modificações em CPU, GPU NVIDIA e Google Cloud TPU a partir de uma única fonte em JAX. No TPU v6e em cinco escalas de modelo (130M–2.7B de parâmetros), o código gerado pelo XLA atinge aproximadamente 140 TFLOPS no pré-preenchimento de fluxo único (15% MFU) e até 64% de utilização de largura de banda na decodagem. A decodagem gulosa (greedy) corresponde à referência PyTorch/CUDA token por token ao longo de 64 passos, com concordância do estado oculto dentro da tolerância de arredondamento float32. O padrão transfere-se para qualquer recorrência de SSM que satisfaça as mesmas condições estruturais, em qualquer plataforma com um backend XLA maduro. A implementação está publicamente disponível em https://github.com/CosmoNaught/mamba2-jax e foi incorporada à biblioteca de modelos Bonsai JAX.
O caxemir é falado por cerca de 7 milhões de pessoas, mas permanece criticamente subatendido em tecnologias de voz, apesar do seu estatuto oficial e rico património linguístico. A falta de sistemas robustos de conversão de texto em voz (TTS) limita a acessibilidade digital e a interação inclusiva homem-computador para os falantes nativos. Neste trabalho, apresentamos o primeiro sistema neural de TTS de código aberto dedicado ao caxemir. Demonstramos que baselines multilingues de zero-shot treinadas para línguas indianas não produzem fala inteligível, atingindo um Mean Opinion Score (MOS) de apenas 1,86, em grande parte devido à modelagem inadequada dos diacríticos perso-árabes e da fonotática específica da língua. Para superar estas limitações, propomos o Bolbosh, uma estratégia de adaptação cross-lingual supervisionada baseada em Optimal Transport Conditional Flow Matching (OT-CFM) no framework Matcha-TTS. Isto permite um alinhamento estável com dados emparelhados limitados. Introduzimos ainda um pipeline de três estágios para aprimoramento acústico, consistindo em desreverberação, corte de silêncios e normalização de loudness, para unificar fontes de fala heterogéneas e estabilizar a aprendizagem de alinhamento. O vocabulário do modelo é expandido para codificar explicitamente os grafemas do caxemir, preservando distinções vocálicas de granularidade fina. O nosso sistema atinge um MOS de 3,63 e um Mel-Cepstral Distortion (MCD) de 3,73, superando substancialmente as baselines multilingues e estabelecendo um novo benchmark para a síntese de voz em caxemir. Os nossos resultados demonstram que a adaptação supervisionada baseada em fluxo e consciente do script é crítica para TTS de baixos recursos em línguas sensíveis a diacríticos. O código e os dados estão disponíveis em: https://github.com/gaash-lab/Bolbosh.
A descodificação especulativa emergiu como uma abordagem poderosa para acelerar a inferência de grandes modelos de linguagem (LLMs), utilizando modelos de rascunho leves para propor tokens candidatos que são subsequentemente verificados pelo modelo alvo. A eficácia deste paradigma depende criticamente da qualidade do modelo de rascunho. Embora avanços recentes, como a série EAGLE, atinjam acelerações de última geração, os modelos de rascunho existentes permanecem limitados pela acumulação de erros: eles condicionam-se apenas ao prefixo atual, fazendo com que as suas previsões se desviem do modelo alvo ao longo dos passos. Neste trabalho, propomos o ConFu (Contemplate the Future), um novo quadro de descodificação especulativa que permite aos modelos de rascunho antecipar a direção futura da geração. O ConFu introduz (i) *tokens de contemplação* e *prompts suaves* que permitem ao modelo de rascunho aproveitar sinais orientados para o futuro do modelo alvo a um custo negligenciável, (ii) um mecanismo dinâmico de *tokens de contemplação* com MoE (*Mixture of Experts*) para permitir uma previsão futura consciente do contexto, e (iii) um quadro de treino com amostragem de *tokens âncora* e replicação de previsão futura que aprende uma previsão futura robusta. Experiências demonstram que o ConFu melhora as taxas de aceitação de tokens e a velocidade de geração em 8-11% em relação ao EAGLE-3 em várias tarefas *downstream* com os modelos Llama-3 3B e 8B. Acreditamos que o nosso trabalho é o primeiro a ligar a descodificação especulativa com *tokens* de raciocínio contínuo, oferecendo uma nova direção para acelerar a inferência de LLMs.
A descoberta de categorias em tempo real (OCD) visa reconhecer categorias conhecidas enquanto descobre simultaneamente novas categorias a partir de um fluxo online não rotulado, utilizando um modelo treinado apenas com dados rotulados. As abordagens existentes congelam o extrator de características treinado offline e empregam uma estrutura baseada em *hash* que quantiza as características em códigos binários como protótipos de classe. No entanto, descobrir novas categorias com uma base de conhecimento fixa é contra-intuitivo, uma vez que o potencial de aprendizagem dos dados recebidos é completamente negligenciado. Além disso, a quantização de características introduz perda de informação, diminui a expressividade representacional e amplifica a variância intraclasse. Muitas vezes, resulta em explosão de categorias, onde uma única classe é fragmentada em múltiplas pseudo-classes. Para superar essas limitações, propomos uma estrutura de adaptação em tempo de teste que permite a aprendizagem por meio da descoberta. Ela incorpora duas estratégias complementares: uma atualização de protótipo semântica e uma atualização estável do codificador em tempo de teste. A primeira refina dinamicamente os protótipos de classe para melhorar a classificação, enquanto a segunda integra novas informações diretamente no espaço de parâmetros. Juntas, essas componentes permitem que o modelo expanda continuamente sua base de conhecimento com amostras recém-encontradas. Adicionalmente, introduzimos uma calibração de *logit* com margem na fase offline para ampliar as margens interclasse e melhorar a compactação intraclasse, reservando assim espaço de incorporação para a futura descoberta de classes. Experimentos em benchmarks padrão de OCD demonstram que nosso método supera substancialmente as abordagens state-of-the-art baseadas em *hash*, produzindo melhorias notáveis na precisão de novas classes e mitigando efetivamente a explosão de categorias. O código está publicamente disponível em \url{https://github.com/ynanwu/TALON}.
A memória associativa tem sustentado há muito tempo o projeto de modelos sequenciais. Para além da recordação, os seres humanos raciocinam projetando estados futuros e selecionando ações orientadas a objetivos, uma capacidade que os modelos de linguagem modernos exigem cada vez mais, mas não codificam nativamente. Embora trabalhos anteriores utilizem aprendizagem por reforço ou treino no momento do teste, o planeamento permanece externo à arquitetura do modelo. Nós formulamos o raciocínio como controlo ótimo e introduzimos a camada de Controlo no Momento do Teste (TTC), que executa planeamento LQR de horizonte finito sobre estados latentes durante a inferência, representa uma função de valor dentro de arquiteturas neurais e a utiliza como objetivo aninhado para permitir o planeamento antes da previsão. Para garantir escalabilidade, derivamos um resolvedor LQR eficiente em hardware baseado numa formulação simplética e implementamo-lo como um kernel CUDA fundido, permitindo execução paralela com sobrecarga mínima. Integradas como adaptador em LLMs pré-treinados, as camadas TTC melhoram o desempenho do raciocínio matemático em até +27,8% no MATH-500 e melhorias de 2-3x em Pass@8 no AMC e AIME, demonstrando que incorporar o controlo ótimo como um componente arquitetónico fornece um mecanismo eficaz e escalável para raciocínio além do treino no momento do teste.
Todos podem escrever suas histórias em formato de texto livre — é algo que todos aprendemos na escola. No entanto, a narrativa por meio de vídeo exige o aprendizado de ferramentas especializadas e complexas. Neste artigo, apresentamos o Doki, uma interface baseada em texto para autoria de vídeo generativo, alinhando a criação de vídeo com o processo natural da escrita textual. No Doki, escrever texto é a interação principal: dentro de um único documento, os usuários definem recursos, estruturam cenas, criam tomadas, refinam edições e adicionam áudio. Articulamos os princípios de design dessa abordagem orientada a texto e demonstramos as capacidades do Doki por meio de uma série de exemplos. Para avaliar seu uso no mundo real, realizamos um estudo de implantação de uma semana com participantes de diferentes níveis de experiência em autoria de vídeo. Este trabalho contribui com uma mudança fundamental nas interfaces de vídeo generativo, demonstrando uma nova forma poderosa e acessível de criar histórias visuais.