Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LingBot-World, um simulador mundial de código aberto derivado da geração de vídeo. Posicionado como um modelo de mundo de alto nível, o LingBot-World oferece as seguintes características: (1) Mantém alta fidelidade e dinâmicas robustas em um amplo espectro de ambientes, incluindo realismo, contextos científicos, estilos de animação e além. (2) Permite um horizonte temporal de nível minuto enquanto preserva a consistência contextual ao longo do tempo, também conhecido como "memória de longo prazo". (3) Suporta interatividade em tempo real, atingindo uma latência inferior a 1 segundo ao produzir 16 quadros por segundo. Disponibilizamos publicamente o código e o modelo na tentativa de reduzir a lacuna entre tecnologias de código aberto e proprietárias. Acreditamos que nosso lançamento capacitará a comunidade com aplicações práticas em áreas como criação de conteúdo, jogos e aprendizado de robótica.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) oferece um mecanismo robusto para aprimorar o raciocínio matemático em modelos de grande escala. No entanto, identificamos uma falta sistemática de ênfase em questões mais desafiadoras nos métodos existentes, tanto das perspectivas algorítmica quanto de dados, apesar de sua importância para refinar capacidades subdesenvolvidas. Algoritmicamente, a amplamente utilizada Otimização de Política Relativa de Grupo (GRPO) sofre com um desequilíbrio implícito, em que a magnitude das atualizações da política é menor para questões mais difíceis. Em termos de dados, as abordagens de aumento (augmentation) principalmente reformulam as questões para aumentar a diversidade, sem elevar sistematicamente a dificuldade intrínseca. Para abordar essas questões, propomos a estrutura MathForge de dupla vertente para melhorar o raciocínio matemático, visando questões mais difíceis a partir de ambas as perspectivas. Ela compreende um algoritmo de Otimização de Política de Grupo com Consciência da Dificuldade (DGPO) e uma estratégia de Reformulação de Questões com Múltiplos Aspectos (MQR). Especificamente, o DGPO primeiro retifica o desequilíbrio implícito do GRPO por meio de uma estimativa de vantagem de grupo balanceada por dificuldade e, ainda, prioriza as questões mais difíceis através de uma ponderação a nível de questão consciente da dificuldade. Entretanto, o MQR reformula as questões em múltiplos aspectos para aumentar a dificuldade, mantendo a resposta correta (gold answer) original. No geral, o MathForge forma um ciclo sinérgico: o MQR expande a fronteira de dados e o DGPO aprende efetivamente com os dados aumentados. Experimentos extensivos mostram que o MathForge supera significativamente os métodos existentes em várias tarefas de raciocínio matemático. O código e os dados aumentados estão disponíveis em https://github.com/AMAP-ML/MathForge.
Apresentamos o Innovator-VL, um modelo multimodal de linguagem de grande escala projetado para avançar a compreensão e o raciocínio em diversas áreas científicas, mantendo um desempenho excelente em tarefas visuais gerais. Contrariando a tendência de depender de pré-treinamento massivo específico de domínio e pipelines opacos, nosso trabalho demonstra que um desenho de treinamento fundamentado e uma metodologia transparente podem produzir uma forte inteligência científica com requisitos de dados substancialmente reduzidos. (i) Primeiro, fornecemos um pipeline de treinamento totalmente transparente e reproduzível de ponta a ponta, abrangendo coleta, limpeza e pré-processamento de dados, ajuste fino supervisionado, aprendizado por reforço e avaliação, juntamente com receitas detalhadas de otimização. Isso facilita a extensão sistemática pela comunidade. (ii) Segundo, o Innovator-VL exibe uma notável eficiência de dados, alcançando desempenho competitivo em várias tarefas científicas usando menos de cinco milhões de amostras curadas, sem pré-treinamento em larga escala. Esses resultados destacam que um raciocínio eficaz pode ser alcançado por meio de uma seleção de dados fundamentada, em vez de um escalonamento indiscriminado. (iii) Terceiro, o Innovator-VL demonstra uma forte generalização, atingindo desempenho competitivo em benchmarks de visão geral, raciocínio multimodal e científicos. Isso indica que o alinhamento científico pode ser integrado a um modelo unificado sem comprometer as capacidades de propósito geral. Nossas práticas sugerem que modelos multimodais científicos eficientes, reproduzíveis e de alto desempenho podem ser construídos mesmo sem dados em larga escala, fornecendo uma base prática para pesquisas futuras.
Apresentamos o DeepSeek-OCR 2 para investigar a viabilidade de um novo codificador - DeepEncoder V2 - capaz de reordenar dinamicamente os *tokens* visuais com base na semântica da imagem. Os modelos convencionais de visão e linguagem (VLMs) processam invariavelmente os *tokens* visuais numa ordem rígida de varredura raster (do canto superior esquerdo para o inferior direito) com codificação posicional fixa quando alimentados em LLMs. No entanto, isto contradiz a perceção visual humana, que segue padrões de varredura flexíveis, mas semanticamente coerentes, orientados por estruturas lógicas inerentes. Particularmente para imagens com layouts complexos, a visão humana exibe um processamento sequencial causalmente informado. Inspirado por este mecanismo cognitivo, o DeepEncoder V2 foi concebido para dotar o codificador de capacidades de raciocínio causal, permitindo-lhe reordenar inteligentemente os *tokens* visuais antes da interpretação do conteúdo baseada em LLM. Este trabalho explora um novo paradigma: se a compreensão de imagens 2D pode ser efetivamente alcançada através de duas estruturas de raciocínio causal 1D em cascata, oferecendo assim uma nova abordagem arquitetónica com potencial para alcançar um genuíno raciocínio 2D. Os códigos e os pesos do modelo estão publicamente acessíveis em http://github.com/deepseek-ai/DeepSeek-OCR-2.
Os modelos de linguagem de grande escala estão cada vez mais a ser submetidos a pós-treinamento com aprendizagem por reforço em domínios verificáveis, como código e matemática. No entanto, os métodos atuais para aprendizagem por reforço com recompensas verificáveis (RLVR) aprendem apenas a partir de uma recompensa escalar de resultado por tentativa, criando um severo estrangulamento no problema de atribuição de crédito. Muitos ambientes verificáveis fornecem, na verdade, *feedback* textual rico, como erros de execução ou avaliações de juízes, que explicam o porquê de uma tentativa ter falhado. Nós formalizamos este cenário como aprendizagem por reforço com *feedback* rico e introduzimos a Otimização de Política por Auto-Destilação (SDPO), que converte o *feedback* tokenizado num sinal de aprendizagem denso, sem qualquer professor externo ou modelo de recompensa explícito. A SDPO trata o modelo atual, condicionado ao *feedback*, como um auto-professor e destila as suas previsões de *tokens* seguintes, informadas pelo *feedback*, de volta para a política. Desta forma, a SDPO aproveita a capacidade do modelo para identificar retrospetivamente os seus próprios erros em contexto. Em raciocínio científico, uso de ferramentas e programação competitiva no LiveCodeBench v6, a SDPO melhora a eficiência amostral e a precisão final em comparação com fortes linhas de base de RLVR. Notavelmente, a SDPO também supera as linhas de base em ambientes padrão de RLVR que apenas retornam *feedback* escalar, utilizando *rollouts* bem-sucedidos como *feedback* implícito para tentativas falhadas. Por fim, aplicar a SDPO a questões individuais em tempo de teste acelera a descoberta em tarefas difíceis com recompensa binária, alcançando a mesma probabilidade de descoberta que a amostragem *best-of-k* ou conversas multi-turno com 3 vezes menos tentativas.
O aprendizado por reforço capacitou grandes modelos de linguagem para atuarem como agentes inteligentes, mas treiná-los para tarefas de longo horizonte permanece um desafio devido à escassez de trajetórias de alta qualidade, especialmente sob recursos limitados. Os métodos existentes normalmente ampliam a quantidade de *rollouts* e alocam recursos computacionais de forma indiscriminada entre as etapas intermediárias. Tais tentativas inerentemente desperdiçam um orçamento computacional substancial em etapas triviais, falhando em garantir a qualidade das amostras. Para resolver isso, propomos o Spark (*Strategic Policy-Aware exploRation via Key-state dynamic branching*), uma nova estrutura que ramifica seletivamente em estados de decisão críticos para uma exploração eficiente em recursos. Nossa principal percepção é ativar uma exploração de ramificação adaptativa em pontos de decisão críticos para sondar trajetórias promissoras, alcançando assim uma alocação precisa de recursos que prioriza a qualidade da amostragem em detrimento de uma cobertura cega. Este projeto aproveita os sinais intrínsecos de tomada de decisão do agente para reduzir a dependência de *priors* humanos, permitindo que o agente expanda autonomamente a exploração e alcance uma generalização mais robusta. Experimentos em diversas tarefas (por exemplo, planejamento corporificado) demonstram que o Spark alcança taxas de sucesso superiores com significativamente menos amostras de treinamento, exibindo generalização robusta mesmo em cenários não vistos.
As representações de modelos de linguagem frequentemente contêm direções lineares que correspondem a conceitos de alto nível. Aqui, estudamos a dinâmica dessas representações: como as representações evoluem ao longo dessas dimensões no contexto de conversas (simuladas). Descobrimos que as representações lineares podem mudar drasticamente ao longo de uma conversa; por exemplo, informações que são representadas como factuais no início de uma conversa podem ser representadas como não factuais no final, e vice-versa. Essas mudanças são dependentes do conteúdo; enquanto as representações de informações relevantes para a conversa podem mudar, informações genéricas são geralmente preservadas. Essas mudanças são robustas mesmo para dimensões que separam a factualidade de padrões de resposta mais superficiais, e ocorrem em diferentes famílias de modelos e camadas do modelo. Essas mudanças de representação não requerem conversas de política própria; até mesmo a reprodução de um roteiro de conversa escrito por um modelo completamente diferente pode produzir mudanças semelhantes. No entanto, a adaptação é muito mais fraca a partir de simplesmente ter uma história de ficção científica no contexto que é enquadrada mais explicitamente como tal. Também mostramos que a direção ao longo de uma direção representacional pode ter efeitos drasticamente diferentes em diferentes pontos de uma conversa. Esses resultados são consistentes com a ideia de que as representações podem evoluir em resposta ao modelo desempenhando um papel específico que é sinalizado por uma conversa. Nossas descobertas podem representar desafios para a interpretabilidade e a direção – em particular, elas implicam que pode ser enganoso usar interpretações estáticas de características ou direções, ou sondas que assumem que uma determinada gama de características corresponde consistentemente a um valor de verdade específico. No entanto, esses tipos de dinâmica representacional também apontam para novas e empolgantes direções de pesquisa para entender como os modelos se adaptam ao contexto.
Os benchmarks de avaliação de alta qualidade são fundamentais para a implantação de Grandes Modelos de Linguagem (LLMs) na Revisão Automatizada de Código (ACR). No entanto, os benchmarks existentes sofrem de duas limitações críticas: primeiro, a falta de suporte multi-idioma em contextos de nível de repositório, o que restringe a generalização dos resultados de avaliação; segundo, a dependência de verdades fundamentais ruidosas e incompletas derivadas de comentários brutos de Pull Requests (PRs), o que limita o escopo da detecção de problemas. Para enfrentar esses desafios, introduzimos o AACR-Bench, um benchmark abrangente que fornece contexto completo entre arquivos em várias linguagens de programação. Diferente dos conjuntos de dados tradicionais, o AACR-Bench emprega um pipeline de anotação "Assistido por IA, Verificado por Especialistas" para descobrir defeitos latentes frequentemente ignorados nos PRs originais, resultando em um aumento de 285% na cobertura de defeitos. Avaliações extensivas de LLMs principais no AACR-Bench revelam que avaliações anteriores podem ter julgado mal ou capturado apenas parcialmente as capacidades dos modelos devido a limitações dos dados. Nosso trabalho estabelece um padrão mais rigoroso para a avaliação de ACR e oferece novos insights sobre ACR baseada em LLMs, ou seja, a granularidade/nível do contexto e a escolha dos métodos de recuperação impactam significativamente o desempenho da ACR, e essa influência varia dependendo do LLM, da linguagem de programação e do paradigma de uso do LLM, por exemplo, se uma arquitetura de Agente é empregada. O código, dados e outros artefatos do nosso conjunto de avaliação estão disponíveis em https://github.com/alibaba/aacr-bench.
Os agentes de codificação de pesos abertos deveriam ter uma vantagem fundamental sobre os sistemas de código fechado: eles podem ser especializados para bases de código privadas, codificando informações específicas do repositório diretamente em seus pesos. No entanto, o custo e a complexidade do treinamento mantiveram essa vantagem no campo teórico. Nós demonstramos que agora isso é prático. Apresentamos os Soft-Verified Efficient Repository Agents (SERA), um método eficiente para treinar agentes de codificação que permite a criação rápida e barata de agentes especializados em bases de código privadas. Usando apenas ajuste fino supervisionado (SFT), o SERA alcança resultados de ponta entre modelos totalmente de código aberto (dados, método e código abertos) enquanto iguala o desempenho de modelos de pesos abertos de fronteira, como o Devstral-Small-2. Criar modelos SERA é 26 vezes mais barato do que o aprendizado por reforço e 57 vezes mais barato do que os métodos anteriores com dados sintéticos para atingir desempenho equivalente. Nosso método, a Geração Suavemente Verificada (SVG), gera milhares de trajetórias a partir de um único repositório de código. Combinada com a eficiência de custos, isso permite a especialização para bases de código privadas. Além da especialização de repositórios, aplicamos o SVG a um corpus maior de bases de código, gerando mais de 200.000 trajetórias sintéticas. Usamos este conjunto de dados para fornecer uma análise detalhada das leis de escala, ablações e fatores de confusão para o treinamento de agentes de codificação. No geral, acreditamos que nosso trabalho acelerará muito a pesquisa sobre agentes de codificação abertos e demonstrará a vantagem dos modelos de código aberto que podem se especializar em bases de código privadas. Lançamos o SERA como o primeiro modelo da série Open Coding Agents da AI2, juntamente com todo o nosso código, dados e integração com o Claude Code para apoiar a comunidade de pesquisa.
Os recentes avanços no raciocínio de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais impulsionados pelo refinamento das funções de perda pós-treinamento e das estratégias de alinhamento. No entanto, os paradigmas padrão de Aprendizado por Reforço (RL), como a Otimização de Política Relativa de Grupo (GRPO), permanecem limitados pela uniformidade estática: amostragem uniforme de prompts e um número fixo de rollouts por prompt. Para dados de raciocínio heterogêneos e de cauda pesada, isso cria ineficiências estruturais que desperdiçam recursos computacionais em padrões já resolvidos, enquanto subtreinam a longa cauda de problemas difíceis. Para resolver isso, propomos a Otimização Robusta de Distribuição de Grupo Multiadversário (GDRO), uma estrutura orientada à otimização que vai além dos modelos de raciocínio uniformes, adaptando dinamicamente a distribuição de treinamento. Introduzimos um Classificador de Dificuldade Online que particiona os prompts em grupos dinâmicos de dificuldade pass@k. Em seguida, propomos dois jogos GDRO independentes para o pós-treinamento: (1) o Prompt-GDRO, que emprega um amostrador bandit com pesos multiplicativos e correção de viés por Média Móvel Exponencial (EMA) para direcionar a margem de dificuldade intensa e aumentar o peso de grupos persistentemente difíceis sem viés de frequência; e (2) o Rollout-GDRO, que usa um controlador de preço-sombra para realocar rollouts entre os grupos, maximizando a redução da variância do gradiente em tarefas difíceis sob um orçamento médio fixo (computacionalmente neutro). Fornecemos garantias de não-arrependimento para ambos os controladores e adicionalmente uma análise proxy de variância que motiva uma alocação ótima de rollouts com raiz quadrada para o Rollout-GDRO. Validamos nossa estrutura no conjunto de dados DAPO 14.1k usando modelos Qwen3-Base. O Prompt-GDRO e o Rollout-GDRO alcançam ganhos relativos médios de +10,6% e +10,1%, respectivamente, na precisão pass@8 nas escalas de 1,7B, 4B e 8B, em comparação com a linha de base GRPO. A análise qualitativa mostra um currículo emergente: os adversários deslocam recursos para a fronteira de raciocínio em evolução, melhorando o desempenho do modelo de raciocínio.
Os agentes de Interface Gráfica de Utilizador (GUI) demonstram grande potencial para permitir que modelos de base realizem tarefas do mundo real, revolucionando a interação homem-computador e aumentando a produtividade humana. Neste relatório, apresentamos o OmegaUse, um modelo de agente de GUI de propósito geral para execução autónoma de tarefas em plataformas móveis e de desktop, suportando cenários de uso em computador e telemóvel. A construção de um modelo de agente de GUI eficaz assenta em dois fatores: (1) dados de alta qualidade e (2) métodos de treino eficazes. Para os abordar, introduzimos um pipeline de construção de dados cuidadosamente elaborado e um paradigma de treino desacoplado. Para a construção de dados, aproveitamos conjuntos de dados de código aberto rigorosamente curados e introduzimos uma nova estrutura de síntese automatizada que integra uma exploração autónoma *bottom-up* com uma geração guiada por taxonomia *top-down* para criar dados sintéticos de alta fidelidade. Para o treino, de modo a aproveitar melhor estes dados, adotamos uma estratégia em duas fases: *Fine-Tuning* Supervisionado (SFT) para estabelecer a sintaxe de interação fundamental, seguido pela Otimização de Política Relativa de Grupo (GRPO) para melhorar o enraizamento espacial e o planeamento sequencial. Para equilibrar a eficiência computacional com a capacidade de raciocínio do agente, o OmegaUse é construído sobre uma arquitetura *Mixture-of-Experts* (MoE). Para avaliar as capacidades de terminais cruzados num ambiente offline, introduzimos o OS-Nav, um conjunto de *benchmarks* que abrange múltiplos sistemas operativos: ChiM-Nav, direcionado para ambientes móveis Android chineses, e Ubu-Nav, focado em interações de desktop rotineiras no Ubuntu. Experiências extensivas mostram que o OmegaUse é altamente competitivo em *benchmarks* de GUI estabelecidos, alcançando uma pontuação de última geração (SOTA) de 96,3% no ScreenSpot-V2 e uma taxa de sucesso por passo líder de 79,1% no AndroidControl. O OmegaUse também tem um desempenho forte no OS-Nav, atingindo 74,24% de sucesso por passo no ChiM-Nav e 55,9% de sucesso médio no Ubu-Nav.
A assistência por IA produz ganhos significativos de produtividade em diversas áreas profissionais, particularmente para trabalhadores iniciantes. No entanto, como essa assistência afeta o desenvolvimento das habilidades necessárias para supervisionar a IA de forma eficaz permanece incerto. Trabalhadores novatos que dependem fortemente da IA para concluir tarefas desconhecidas podem comprometer sua própria aquisição de habilidades no processo. Realizamos experimentos randomizados para estudar como desenvolvedores adquiriram domínio de uma nova biblioteca de programação assíncrona com e sem a assistência de IA. Constatamos que o uso da IA prejudica a compreensão conceitual, a leitura de código e as habilidades de depuração, sem oferecer ganhos significativos de eficiência em média. Participantes que delegaram totalmente as tarefas de codificação mostraram algumas melhorias de produtividade, mas ao custo de aprender a biblioteca. Identificamos seis padrões distintos de interação com a IA, três dos quais envolvem engajamento cognitivo e preservam os resultados de aprendizagem, mesmo quando os participantes recebem assistência de IA. Nossos achados sugerem que a produtividade aumentada pela IA não é um atalho para a competência, e a assistência por IA deve ser adotada com cuidado nos fluxos de trabalho para preservar a formação de habilidades – particularmente em domínios críticos para a segurança.
O aprendizado por reforço (RL) para grandes modelos de linguagem (LLMs) está cada vez mais limitado pela etapa de *rollout* (geração), na qual sequências de saída longas fazem com que a atenção e a memória da *KV-cache* dominem o tempo total da etapa. O formato FP8 oferece uma alavanca atraente para acelerar o RL, reduzindo o custo computacional e o tráfego de memória durante o *rollout*. No entanto, a aplicação do FP8 no RL introduz desafios únicos de engenharia e algoritmo: os pesos da política mudam a cada passo (exigindo quantização repetida e sincronização dos pesos no motor de inferência) e os *rollouts* de baixa precisão podem se desviar da política de maior precisão assumida pelo treinador, causando incompatibilidade entre treino e inferência e potencial instabilidade. Este relatório apresenta uma *stack* prática de *rollout* em FP8 para RL de LLMs, implementada no ecossistema veRL com suporte para *backends* de treino comuns (por exemplo, FSDP/Megatron-LM) e motores de inferência (por exemplo, vLLM/SGLang). Nós (i) habilitamos o *rollout* de camadas lineares W8A8 em FP8 usando quantização em blocos (*blockwise*), (ii) estendemos o FP8 para a *KV-cache* para remover os gargalos de memória de contexto longo via recalibração da escala QKV por passo, e (iii) mitigamos a incompatibilidade usando correção de *rollout* baseada em amostragem por importância (variantes TIS/MIS a nível de *token*). Em modelos densos e MoE, essas técnicas proporcionam ganhos de até 44% na taxa de transferência (*throughput*) do *rollout*, preservando um comportamento de aprendizado comparável às baselines em BF16.
Apesar da fluência sintática dos Modelos de Linguagem de Grande Porte (LLMs), garantir sua correção lógica em domínios de alta criticidade permanece um desafio fundamental. Apresentamos uma estrutura neurosimbólica que combina LLMs com solucionadores SMT para produzir respostas guiadas por verificação através de refinamento iterativo. Nossa abordagem decompõe as saídas dos LLMs em afirmações atômicas, as autoformaliza em lógica de primeira ordem e verifica sua consistência lógica usando provas de teoremas automatizadas. Introduzimos três inovações principais: (1) consenso multi-modelo via verificação de equivalência semântica formal para garantir alinhamento em nível lógico entre candidatos, eliminando o viés sintático de métricas de forma superficial, (2) roteamento semântico que direciona diferentes tipos de afirmações para estratégias de verificação apropriadas: solucionadores simbólicos para afirmações lógicas e conjuntos de LLMs para raciocínio de senso comum, e (3) localização precisa de erros lógicos via Conjuntos de Correção Mínima (MCS), que identificam o subconjunto exato de afirmações a revisar, transformando sinais binários de falha em *feedback* acionável. Nossa estrutura classifica as afirmações por seu status lógico e agrega múltiplos sinais de verificação em uma pontuação unificada com penalidade baseada em variância. O sistema refina respostas iterativamente usando *feedback* estruturado até que os critérios de aceitação sejam atendidos ou a convergência seja alcançada. Esta abordagem híbrida oferece garantias formais onde possível e verificação por consenso em outros casos, avançando a IA confiável. Com o modelo GPT-OSS-120B, o VERGE demonstra uma melhoria média de desempenho de 18,7% na convergência em um conjunto de *benchmarks* de raciocínio em comparação com abordagens de passagem única.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhorou substancialmente as capacidades de raciocínio de modelos de linguagem grandes (LLMs), mas o treinamento frequentemente estagna à medida que os problemas ficam saturados. Identificamos o principal desafio como a baixa acessibilidade de falhas informativas: sinais de aprendizado existem, mas raramente são encontrados durante rollouts padrão. Para resolver isso, propomos o condicionamento por prefixo de falha, um método simples e eficaz para aprender com problemas saturados. Em vez de começar a partir da pergunta original, nossa abordagem realoca a exploração condicionando o treinamento em prefixos derivados de trajetórias raras de raciocínio incorreto, expondo assim o modelo a estados propensos a falhas. Observamos que o condicionamento por prefixo de falha produz ganhos de desempenho equivalentes aos do treinamento em problemas de dificuldade média, preservando a eficiência de tokens. Além disso, analisamos a robustez do modelo, constatando que nosso método reduz a degradação de desempenho sob prefixos de falha enganosos, embora com uma troca leve na adesão ao raciocínio correto inicial. Por fim, demonstramos que uma abordagem iterativa, que atualiza os prefixos de falha durante o treinamento, desbloqueia ganhos adicionais após os platôs de desempenho. No geral, nossos resultados sugerem que o condicionamento por prefixo de falha oferece um caminho eficaz para estender o treinamento RLVR em problemas saturados.
O espaço de upsampling de características independente da tarefa emergiu como uma área promissora de pesquisa para criar eficientemente características mais densas a partir de backbones visuais pré-treinados. Estes métodos funcionam como um atalho para obter características densas a uma fração do custo, aprendendo a mapear características de baixa resolução para versões de alta resolução. Enquanto os trabalhos iniciais nesta área utilizaram abordagens iterativas de upsampling, trabalhos mais recentes mudaram para métodos baseados em cross-attention, que correm o risco de cair nos mesmos problemas de escalabilidade de eficiência dos backbones que estão a ser ampliados. Neste trabalho, demonstramos que os métodos iterativos de upsampling ainda podem competir com os métodos baseados em cross-attention; além disso, podem alcançar desempenho de última geração com custos de inferência mais baixos. Propomos o UPLiFT, uma arquitetura para Transformações Leves de Características com Densidade Pixel Universal. Também propomos um operador eficiente de Atendimento Local (Local Attender) para superar as limitações dos métodos iterativos anteriores de upsampling de características. Este operador utiliza uma formulação alternativa de attentional pooling definida inteiramente de forma local. Mostramos que o nosso Local Attender permite ao UPLiFT manter características estáveis durante todo o upsampling, permitindo um desempenho de última geração com custos de inferência mais baixos do que os existentes ampliadores de características com densidade pixel. Além disso, aplicamos o UPLiFT a tarefas generativas subsequentes e mostramos que ele alcança um desempenho competitivo com os modelos de última geração de Coupled Flow Matching para upsampling de características VAE. No total, o UPLiFT oferece uma abordagem versátil e eficiente para criar características mais densas.
A transcrição automática de fala (ASR) com atribuição de locutor em ambientes com múltiplos falantes continua a ser um grande desafio. Embora algumas abordagens alcancem um desempenho robusto quando ajustadas para domínios específicos, poucos sistemas generalizam bem em conjuntos de dados fora do domínio. O nosso trabalho anterior, Diarization-Conditioned Whisper (DiCoW), aproveita os resultados da diarização de locutores como informação de condicionamento e, com um ajuste mínimo, demonstrou um desempenho multilíngue e multidomínio sólido. Neste artigo, abordamos uma limitação fundamental do DiCoW: a ambiguidade nas máscaras Silêncio-Alvo-Não-Alvo-Sobreposição (STNO), onde dois ou mais locutors totalmente sobrepostos podem ter um condicionamento quase idêntico, apesar de transcrições diferentes. Apresentamos o SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), que utiliza o resultado da diarização para localizar um segmento de inscrição em qualquer parte da conversa onde o locutor-alvo está mais ativo. Este segmento de inscrição é usado como condicionamento fixo através de atenção cruzada em cada camada do codificador. Refinamos ainda mais o DiCoW com uma segmentação de dados melhorada, inicialização do modelo e aumento de dados. Em conjunto, estes avanços produzem ganhos substanciais: o SE-DiCoW reduz o tcpWER (macro-médio) em 52,4% em relação ao DiCoW original no benchmark EMMA MT-ASR.
Apesar de décadas de pesquisa sobre fala reverberante, a comparação de métodos continua difícil porque a maioria dos corpora carece de anotações acústicas por arquivo ou fornece documentação limitada para reprodução. Apresentamos o RIR-Mega-Speech, um corpus de aproximadamente 117,5 horas criado pela convolução de enunciados do LibriSpeech com cerca de 5.000 respostas ao impulso de sala simuladas da coleção RIR-Mega. Cada arquivo inclui RT60, relação direto-reverberante (DRR) e índice de clareza (C_{50}) calculados a partir da RIR de origem usando procedimentos claramente definidos e reproduzíveis. Também fornecemos scripts para reconstruir o conjunto de dados e reproduzir todos os resultados de avaliação. Usando o modelo Whisper small em 1.500 enunciados pareados, medimos uma Taxa de Erro de Palavras (WER) de 5,20% (IC 95%: 4,69–5,78) na fala limpa e de 7,70% (7,04–8,35) nas versões reverberantes, correspondendo a um aumento pareado de 2,50 pontos percentuais (2,06–2,98). Isso representa uma degradação relativa de 48%. A WER aumenta monotonicamente com o RT60 e diminui com a DRR, consistente com estudos perceptivos anteriores. Embora a conclusão central de que a reverberação prejudica o reconhecimento seja bem estabelecida, nosso objetivo é fornecer à comunidade um recurso padronizado onde as condições acústicas são transparentes e os resultados podem ser verificados de forma independente. O repositório inclui instruções de reconstrução com um único comando para ambientes Windows e Linux.
Em tarefas socialmente sensíveis como a detecção de discurso de ódio, a qualidade das explicações fornecidas por Modelos de Linguagem de Grande Porte (LLMs) é crucial para fatores como a confiança do utilizador e o alinhamento do modelo. Embora a indução por persona (Persona Prompting - PP) seja cada vez mais utilizada como forma de orientar a geração do modelo para especificidades do utilizador, o seu efeito nas racionalizações do modelo permanece pouco explorado. Investigamos como as racionalizações geradas por LLMs variam quando condicionadas a diferentes personas demográficas simuladas. Utilizando conjuntos de dados anotados com racionalizações a nível de palavra, medimos a concordância com anotações humanas de diferentes grupos demográficos e avaliamos o impacto do PP no viés do modelo e no alinhamento humano. A nossa avaliação em três LLMs revela três conclusões principais: (1) O PP melhora a classificação na tarefa mais subjetiva (discurso de ódio), mas degrada a qualidade da racionalização. (2) Personas simuladas não conseguem alinhar-se com as suas contrapartes demográficas do mundo real, e a alta concordância inter-pessoas mostra que os modelos são resistentes a uma orientação significativa. (3) Os modelos exibem vieses demográficos consistentes e uma forte tendência para sinalizar excessivamente conteúdo como prejudicial, independentemente do PP. As nossas descobertas revelam um trade-off crítico: embora o PP possa melhorar a classificação em tarefas socialmente sensíveis, isso frequentemente ocorre à custa da qualidade da racionalização e não mitiga os vieses subjacentes, exigindo cautela na sua aplicação.
A crescente demanda pela implantação de robôs em tempo real exige inferência rápida e no dispositivo para modelos visão-linguagem-ação (VLA). Na literatura sobre VLA, a eficiência tem sido amplamente estudada ao nível de tokens, como a poda de tokens visuais. Em contraste, a redução sistemática de camadas do transformer tem recebido atenção limitada e, até onde sabemos, não foi explorada para modelos VLA baseados em fluxo sob destilação de conhecimento. Neste trabalho, propomos o Shallow-pi, uma estrutura de destilação de conhecimento fundamentada que reduz agressivamente a profundidade do transformer tanto do *backbone* de VLM quanto do cabeçalho de ação baseado em fluxo, comprimindo o modelo de 18 para 6 camadas. O Shallow-pi alcança uma inferência mais de duas vezes mais rápida com menos de um por cento de queda absoluta na taxa de sucesso em *benchmarks* padrão de manipulação, estabelecendo um desempenho de ponta entre os modelos VLA reduzidos. Crucialmente, validamos nossa abordagem por meio de experimentos em escala industrial no mundo real em Jetson Orin e Jetson Thor, através de múltiplas plataformas robóticas, incluindo sistemas humanoides, em cenários complexos e dinâmicos de manipulação.
A detecção multimodal de sarcasmo (MSD) visa identificar sarcasmo em pares imagem-texto através da modelagem de incongruências semânticas entre modalidades. Os métodos existentes frequentemente exploram o desalinhamento de *embeddings* cruzados para detetar inconsistência, mas lutam quando o conteúdo visual e textual está vagamente relacionado ou é semanticamente indireto. Embora abordagens recentes aproveitem grandes modelos de linguagem (LLMs) para gerar pistas sarcásticas, a diversidade inerente e a subjetividade dessas gerações frequentemente introduzem ruído. Para superar estas limitações, propomos a *Generative Discrepancy Comparison Network* (GDCNet). Esta estrutura captura conflitos entre modalidades utilizando legendas de imagem descritivas e factualmente fundamentadas, geradas por LLMs multimodais (MLLMs), como âncoras semânticas estáveis. Especificamente, a GDCNet calcula discrepâncias semânticas e de sentimento entre a descrição objetiva gerada e o texto original, paralelamente à medição da fidelidade visual-textual. Estas características de discrepância são depois fundidas com representações visuais e textuais através de um módulo com portão para equilibrar adaptativamente as contribuições das modalidades. Experiências extensivas em *benchmarks* de MSD demonstram a precisão e robustez superiores da GDCNet, estabelecendo um novo estado da arte no *benchmark* MMSD2.0.
O esboço oferece uma forma intuitiva de transmitir intenção dinâmica na criação de animações (ou seja, como os elementos mudam ao longo do tempo e do espaço), tornando-o um meio natural para a criação automática de conteúdo. No entanto, as abordagens existentes frequentemente restringem os esboços a tokens de comando fixos ou formas visuais predefinidas, negligenciando sua natureza livre e o papel central dos seres humanos na moldagem da intenção. Para resolver isso, introduzimos um paradigma de interação no qual os usuários transmitem intenção dinâmica a um modelo de visão e linguagem por meio de esboços livres, instanciado aqui em um fluxo de trabalho de storyboard esboçado para motion graphics. Implementamos uma interface e a aprimoramos por meio de um estudo em três etapas com 24 participantes. O estudo mostra como os esboços transmitem movimento com entrada mínima, como sua ambiguidade inerente exige que os usuários se envolvam para esclarecimento e como os esboços podem orientar visualmente o refinamento do vídeo. Nossas descobertas revelam o potencial da interação entre esboço e IA para preencher a lacuna entre intenção e resultado, e demonstram sua aplicabilidade na geração de animações 3D e vídeos.