Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Kling-Omni, uma estrutura generativa generalista projetada para sintetizar vídeos de alta fidelidade diretamente a partir de entradas multimodais de linguagem visual. Adotando uma perspectiva de ponta a ponta, o Kling-Omni elimina a separação funcional entre diversas tarefas de geração, edição e raciocínio inteligente de vídeo, integrando-as em um sistema holístico. Diferente de abordagens fragmentadas baseadas em pipelines, o Kling-Omni suporta uma ampla gama de entradas do usuário, incluindo instruções textuais, imagens de referência e contextos de vídeo, processando-as em uma representação multimodal unificada para oferecer criação de conteúdo em vídeo de qualidade cinematográfica e altamente inteligente. Para sustentar essas capacidades, construímos um sistema de dados abrangente que serve como base para a criação de vídeos multimodais. A estrutura é ainda potencializada por estratégias eficientes de pré-treinamento em larga escala e otimizações de infraestrutura para inferência. Avaliações abrangentes revelam que o Kling-Omni demonstra capacidades excepcionais em geração contextual, edição baseada em raciocínio e seguimento de instruções multimodais. Indo além de uma ferramenta de criação de conteúdo, acreditamos que o Kling-Omni representa um avanço crucial para simuladores de mundo multimodal capazes de perceber, raciocinar, gerar e interagir com mundos dinâmicos e complexos.
Os sistemas de IA agentivos de ponta são construídos sobre modelos de base que podem ser adaptados para planejar, raciocinar e interagir com ferramentas externas para executar tarefas cada vez mais complexas e especializadas. À medida que esses sistemas aumentam em capacidade e escopo, a adaptação torna-se um mecanismo central para melhorar o desempenho, a confiabilidade e a generalização. Neste artigo, unificamos o panorama de pesquisa em rápida expansão em uma estrutura sistemática que abrange tanto as adaptações do agente quanto as adaptações de ferramentas. Decompomos ainda estas em formas de adaptação do agente sinalizadas por execução de ferramenta e sinalizadas por saída do agente, bem como em formas de adaptação de ferramentas independentes do agente e supervisionadas pelo agente. Demonstramos que esta estrutura ajuda a esclarecer o espaço de projeto das estratégias de adaptação na IA agentiva, torna suas compensações explícitas e fornece orientação prática para selecionar ou alternar entre estratégias durante o projeto do sistema. Em seguida, revisamos as abordagens representativas em cada categoria, analisamos seus pontos fortes e limitações, e destacamos os principais desafios em aberto e oportunidades futuras. No geral, este artigo visa oferecer uma base conceitual e um roteiro prático para pesquisadores e profissionais que buscam construir sistemas de IA agentivos mais capazes, eficientes e confiáveis.
Este artigo apresenta o LLaDA2.0 — um conjunto de modelos de linguagem de grande escala (LLM) baseados em difusão discreta, escalando até 100 bilhões de parâmetros totais por meio de conversão sistemática a partir de modelos autorregressivos (AR) — estabelecendo um novo paradigma para implantação em escala de fronteira. Em vez do custoso treinamento a partir do zero, o LLaDA2.0 sustenta os princípios de herança de conhecimento, adaptação progressiva e design consciente da eficiência, convertendo perfeitamente um modelo AR pré-treinado em um LLM de difusão com um novo esquema de treinamento em 3 fases baseado em WSD em nível de bloco: aumento progressivo do tamanho do bloco na difusão por blocos (aquecimento), difusão de sequência completa em larga escala (estável) e retorno à difusão por blocos de tamanho compacto (decaimento). Juntamente com o alinhamento pós-treinamento com SFT e DPO, obtivemos o LLaDA2.0-mini (16B) e o LLaDA2.0-flash (100B), duas variantes ajustadas por instrução do tipo Mistura de Especialistas (MoE) otimizadas para implantação prática. Ao preservar as vantagens da decodificação paralela, esses modelos oferecem desempenho e eficiência superiores na escala de fronteira. Ambos os modelos foram disponibilizados como código aberto.
Inspirados pelo sucesso do pré-treinamento generativo em linguagem natural, questionamos se os mesmos princípios podem produzir aprendizes visuais auto supervisionados robustos. Em vez de treinar modelos para gerar características (features) para uso posterior, nós os treinamos para gerar embeddings que realizam tarefas preditivas diretamente. Este trabalho explora essa mudança de paradigma: da aprendizagem de representações para a aprendizagem de modelos. Especificamente, os modelos aprendem a prever embeddings futuros de patches condicionados aos passados, usando mascaramento causal e "stop gradient", o que denominamos de Autoregressão Preditiva do Próximo Embedding (NEPA). Demonstramos que um Transformer simples, pré-treinado no ImageNet-1k com a previsão do próximo embedding como seu único objetivo de aprendizagem, é eficaz — sem reconstrução de pixels, tokens discretos, perda contrastiva ou cabeças de tarefa específicas. Esta formulação mantém a simplicidade e escalabilidade arquitetônica, sem exigir complexidade de projeto adicional. A NEPA alcança resultados sólidos em diversas tarefas, obtendo 83,8% e 85,3% de acurácia top-1 no ImageNet-1K com backbones ViT-B e ViT-L após ajuste fino (fine-tuning), e transferindo-se efetivamente para segmentação semântica no ADE20K. Acreditamos que o pré-treinamento generativo a partir de embeddings oferece uma alternativa simples, escalável e potencialmente agnóstica à modalidade para a aprendizagem auto supervisionada visual.
Os recentes avanços na geração de vídeo abriram caminho para a geração audiovisual unificada. Neste trabalho, apresentamos o Seedance 1.5 pro, um modelo fundamental projetado especificamente para geração nativa conjunta de áudio e vídeo. Utilizando uma arquitetura Dual-branch Diffusion Transformer, o modelo integra um módulo conjunto cross-modal com um pipeline de dados multietapa especializado, alcançando sincronização audiovisual excepcional e qualidade de geração superior. Para garantir utilidade prática, implementamos otimizações minuciosas de pós-treinamento, incluindo Ajuste Fino Supervisionado (SFT) em conjuntos de dados de alta qualidade e Aprendizado por Reforço com Feedback Humano (RLHF) com modelos de recompensa multidimensionais. Além disso, introduzimos uma estrutura de aceleração que aumenta a velocidade de inferência em mais de 10 vezes. O Seedance 1.5 pro destaca-se pela sincronização labial precisa em múltiplos idiomas e dialetos, controle dinâmico de câmera cinematográfica e coerência narrativa aprimorada, posicionando-se como um motor robusto para criação de conteúdo de nível profissional. O Seedance 1.5 pro está agora acessível no Volcano Engine em https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.
O controle de profundidade de campo é essencial na fotografia, mas obter o foco perfeito geralmente requer várias tentativas ou equipamentos especiais. O refocamento a partir de uma única imagem continua sendo um desafio, pois envolve recuperar conteúdo nítido e criar um bokeh realista. Os métodos atuais apresentam limitações significativas: exigem imagens totalmente em foco como entrada, dependem de dados sintéticos de simuladores e têm controle limitado sobre a abertura. Apresentamos o Generative Refocusing, um processo em duas etapas que utiliza o DeblurNet para recuperar imagens totalmente em foco a partir de várias entradas e o BokehNet para criar bokeh controlável. Nossa principal inovação é o treinamento semissupervisionado, que combina dados sintéticos emparelhados com imagens reais de bokeh não emparelhadas, utilizando metadados EXIF para capturar características ópticas reais além do que os simuladores podem fornecer. Nossos experimentos demonstram desempenho superior em benchmarks de desembaçamento por desfoque, síntese de bokeh e refocamento. Adicionalmente, nosso Generative Refocusing permite ajustes guiados por texto e formas de abertura personalizadas.
O rápido crescimento dos displays estereoscópicos, incluindo óculos de realidade virtual e cinemas 3D, levou a uma crescente demanda por conteúdo de vídeo estéreo de alta qualidade. No entanto, a produção de vídeos 3D permanece dispendiosa e complexa, enquanto a conversão automática Monocular-para-Estéreo é dificultada pelas limitações do pipeline multiestágio "Depth-Warp-Inpaint" (DWI). Este paradigma sofre com propagação de erros, ambiguidade de profundidade e inconsistência de formato entre as configurações estéreo paralela e convergente. Para enfrentar esses desafios, apresentamos o UniStereo, o primeiro conjunto de dados unificado e em larga escala para conversão de vídeo estéreo, abrangendo ambos os formatos estéreo para permitir uma avaliação comparativa justa e um treinamento robusto de modelos. Com base neste conjunto de dados, propomos o StereoPilot, um modelo eficiente de avanço que sintetiza diretamente a visão de destino sem depender de mapas de profundidade explícitos ou de amostragem de difusão iterativa. Equipado com um comutador de domínio aprendível e uma função de perda por consistência cíclica, o StereoPilot adapta-se perfeitamente a diferentes formatos estéreo e alcança uma consistência aprimorada. Experimentos extensivos demonstram que o StereoPilot supera significativamente os métodos state-of-the-art tanto em fidelidade visual quanto em eficiência computacional. Página do projeto: https://hit-perfect.github.io/StereoPilot/.
Neste trabalho, apresentamos um modelo de fundação para profundidade métrica panorâmica que generaliza diversas distâncias de cena. Exploramos um paradigma de dados em loop tanto sob a perspectiva da construção de dados quanto do desenho da arquitetura. Reunimos um conjunto de dados em larga escala combinando conjuntos de dados públicos, dados sintéticos de alta qualidade do nosso simulador UE5 e modelos de texto-para-imagem, e imagens panorâmicas reais da web. Para reduzir as diferenças de domínio entre dados internos/externos e sintéticos/reais, introduzimos um pipeline de curadoria de pseudo-rótulos em três estágios para gerar ground truth confiável para imagens não rotuladas. Para o modelo, adotamos o DINOv3-Large como backbone devido à sua forte generalização pré-treinada, e introduzimos um cabeçalho de máscara de alcance plug-and-play, uma otimização centrada em nitidez e uma otimização centrada em geometria para melhorar a robustez a distâncias variáveis e impor consistência geométrica entre diferentes vistas. Experimentos em múltiplos benchmarks (por exemplo, Stanford2D3D, Matterport3D e Deep360) demonstram um desempenho forte e generalização zero-shot, com previsões métricas particularmente robustas e estáveis em diversas cenas do mundo real. A página do projeto pode ser encontrada em: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
Os recentes avanços nos modelos generativos de Texto para Imagem (T2I), como Imagen, Stable Diffusion e FLUX, levaram a melhorias notáveis na qualidade visual. No entanto, o seu desempenho é fundamentalmente limitado pela qualidade dos dados de treino. Os conjuntos de dados de imagens obtidas por web crawling e sintéticas contêm frequentemente amostras de baixa qualidade ou redundantes, o que leva a uma fidelidade visual degradada, a um treino instável e a uma computação ineficiente. Por conseguinte, uma seleção eficaz de dados é crucial para melhorar a eficiência dos dados. As abordagens existentes baseiam-se numa curadoria manual dispendiosa ou numa pontuação heurística baseada em características unidimensionais na filtragem de dados Texto para Imagem. Embora um método baseado em meta-aprendizagem tenha sido explorado em LLM, não existe uma adaptação para modalidades de imagem. Para tal, propomos o **Alchemist**, uma estrutura baseada em meta-gradientes para selecionar um subconjunto adequado de pares de dados texto-imagem de grande escala. A nossa abordagem aprende automaticamente a avaliar a influência de cada amostra, otimizando iterativamente o modelo a partir de uma perspetiva centrada nos dados. O Alchemist consiste em duas etapas principais: classificação de dados e poda de dados. Treinamos um classificador leve para estimar a influência de cada amostra com base em informações de gradiente, aprimoradas com perceção multi-granularidade. Em seguida, utilizamos a estratégia Shift-Gsampling para selecionar subconjuntos informativos para um treino eficiente do modelo. O Alchemist é a primeira estrutura de seleção de dados automática, escalável e baseada em meta-gradientes para o treino de modelos Texto para Imagem. Experiências em conjuntos de dados sintéticos e obtidos por web crawling demonstram que o Alchemist melhora consistentemente a qualidade visual e o desempenho em tarefas subsequentes. O treino com 50% dos dados selecionados pelo Alchemist pode superar o treino com o conjunto de dados completo.
Apresentamos o WorldCanvas, uma estrutura para eventos mundiais acionáveis por instruções que permite simulações ricas e orientadas pelo usuário, combinando texto, trajetórias e imagens de referência. Diferente de abordagens baseadas apenas em texto e dos métodos existentes de controle por trajetória em vídeos a partir de imagens, nossa abordagem multimodal combina trajetórias – que codificam movimento, tempo e visibilidade – com linguagem natural para intenção semântica e imagens de referência para ancoragem visual da identidade do objeto. Isso possibilita a geração de eventos coerentes e controláveis que incluem interações multiagente, entrada/saída de objetos, aparência guiada por referência e eventos contraintuitivos. Os vídeos resultantes demonstram não apenas coerência temporal, mas também consistência emergente, preservando a identidade do objeto e a cena apesar de desaparecimentos temporários. Ao suportar a geração expressiva de eventos mundiais, o WorldCanvas avança os modelos de mundo de preditores passivos para simuladores interativos moldados pelo usuário. Nossa página do projeto está disponível em: https://worldcanvas.github.io/.
Os recentes avanços no aprendizado por reforço para modelos de linguagem de grande porte têm convergido para uma complexidade crescente: pipelines de treinamento em múltiplas etapas, cronogramas dinâmicos de hiperparâmetros e estratégias de aprendizado curricular. Isso levanta uma questão fundamental: essa complexidade é necessária? Apresentamos o JustRL, uma abordagem mínima que utiliza treinamento em estágio único com hiperparâmetros fixos, alcançando desempenho de ponta em dois modelos de raciocínio de 1,5B (54,9% e 64,3% de precisão média em nove benchmarks matemáticos) enquanto usa 2 vezes menos computação do que abordagens sofisticadas. Os mesmos hiperparâmetros transferem-se entre ambos os modelos sem ajuste, e o treinamento exibe melhoria suave e monotônica ao longo de mais de 4.000 etapas, sem os colapsos ou platôs que normalmente motivam intervenções. Criticalmente, as ablações revelam que adicionar "truques padrão", como penalidades explícitas de comprimento e verificadores robustos, pode degradar o desempenho ao colapsar a exploração. Esses resultados sugerem que a área pode estar adicionando complexidade para resolver problemas que desaparecem com uma linha de base estável e ampliada. Disponibilizamos nossos modelos e código para estabelecer uma linha de base simples e validada para a comunidade.
Os modelos de difusão latente (LDM) alcançam a síntese de imagens de última geração, porém seu objetivo de eliminação de ruído de estilo reconstrução fornece apenas supervisão semântica indireta: a semântica de alto nível emerge lentamente, exigindo treinamento mais longo e limitando a qualidade da amostra. Trabalhos recentes injetam semântica de Modelos de Base de Visão (VFMs) externamente via alinhamento de representação ou internamente modelando conjuntamente apenas uma fatia estreita de características VFM dentro do processo de difusão, subutilizando a rica, não linear e multicamada semântica espacial disponível. Introduzimos REGLUE (Representation Entanglement with Global-Local Unified Encoding), um framework unificado de difusão latente que modela conjuntamente (i) latentes de imagem VAE, (ii) semântica VFM local compacta (nível de patch) e (iii) um token global [CLS] (nível de imagem) dentro de uma única backbone SiT. Um compressor semântico convolucional leve agrega não linearmente características VFM multicamada em uma representação espacialmente estruturada de baixa dimensão, que é entrelaçada com os latentes VAE no processo de difusão. Uma perda de alinhamento externo regulariza ainda mais as representações internas em direção a alvos VFM congelados. No ImageNet 256x256, o REGLUE melhora consistentemente o FID e acelera a convergência em relação às baselines SiT-B/2 e SiT-XL/2, bem como em relação a REPA, ReDi e REG. Experimentos extensivos mostram que (a) a semântica espacial VFM é crucial, (b) a compressão não linear é fundamental para liberar seu benefício total, e (c) tokens globais e alinhamento externo atuam como aprimoramentos leves e complementares dentro de nossa estrutura de modelagem conjunta global-local-latente. O código está disponível em https://github.com/giorgospets/reglue.
Os modelos de difusão em contexto permitem que os usuários modifiquem imagens com notável facilidade e realismo. No entanto, esse mesmo poder levanta sérias preocupações quanto à privacidade: imagens pessoais podem ser facilmente manipuladas para falsificação de identidade, desinformação ou outros usos maliciosos, tudo sem o consentimento do proprietário. Embora trabalhos anteriores tenham explorado perturbações na entrada para proteção contra uso indevido na geração personalizada de texto para imagem, a robustez dos modelos modernos de grande escala baseados em DiT em contexto permanece amplamente não examinada. Neste artigo, propomos o DeContext, um novo método para proteger imagens de entrada contra edição não autorizada em contexto. Nossa principal percepção é que a informação contextual da imagem de origem propaga-se para a saída principalmente através das camadas de atenção multimodal. Ao injetar pequenas perturbações direcionadas que enfraquecem esses caminhos de atenção cruzada, o DeContext interrompe esse fluxo, desacoplando efetivamente a ligação entre a entrada e a saída. Esta defesa simples é ao mesmo tempo eficiente e robusta. Mostramos ainda que os passos iniciais de remoção de ruído e blocos específicos do transformador dominam a propagação do contexto, o que nos permite concentrar as perturbações onde elas são mais importantes. Experimentos no Flux Kontext e no Step1X-Edit mostram que o DeContext bloqueia consistentemente edições de imagem indesejadas, preservando a qualidade visual. Estes resultados destacam a eficácia das perturbações baseadas em atenção como uma defesa poderosa contra a manipulação de imagens.
Embora os modelos multimodais atuais possam responder a perguntas com base em imagens 2D, eles carecem de percepção intrínseca de objetos 3D, limitando sua capacidade de compreender relações espaciais e pistas de profundidade em cenas 3D. Neste trabalho, propomos o N3D-VLM, uma nova estrutura unificada que integra perfeitamente a percepção nativa de objetos 3D com o raciocínio visual consciente da tridimensionalidade, permitindo tanto a ancoragem 3D precisa quanto a compreensão espacial interpretável. Diferentemente dos modelos convencionais de ponta a ponta que preveem respostas diretamente a partir de entradas RGB/RGB-D, nossa abordagem equipa o modelo com capacidades de percepção nativa de objetos 3D, permitindo-lhe localizar objetos diretamente no espaço 3D com base em descrições textais. Com base na localização precisa de objetos 3D, o modelo realiza ainda um raciocínio explícito em 3D, alcançando uma compreensão espacial mais interpretável e estruturada. Para suportar o treinamento robusto dessas capacidades, desenvolvemos um pipeline escalável de construção de dados que aproveita a estimativa de profundidade para elevar anotações 2D em larga escala para o espaço 3D, aumentando significativamente a diversidade e cobertura dos dados de ancoragem 3D, resultando em um conjunto mais de seis vezes maior que o maior conjunto de dados de detecção 3D em imagem única existente. Além disso, o pipeline gera conjuntos de dados de perguntas e respostas espaciais que visam o raciocínio de cadeia de pensamento (CoT) em 3D, facilitando o treinamento conjunto para localização de objetos 3D e raciocínio espacial 3D. Resultados experimentais demonstram que nossa estrutura unificada não apenas alcança desempenho state-of-the-art em tarefas de ancoragem 3D, mas também supera consistentemente os métodos existentes em raciocínio espacial 3D em modelos de visão e linguagem.
Embora a edição de imagens tenha avançado rapidamente, a edição de vídeo permanece menos explorada, enfrentando desafios em consistência, controle e generalização. Estudamos o espaço de design de dados, arquitetura e controle, e introduzimos o EasyV2V, uma estrutura simples e eficaz para edição de vídeo baseada em instruções. No lado dos dados, compomos especialistas existentes com inversões rápidas para construir pares de vídeo diversificados, elevamos pares de edição de imagem para vídeos via supervisão de quadro único e pares pseudo com movimento afim compartilhado, extraímos clipes com legendas densas para pares de vídeo e adicionamos supervisão de transição para ensinar como as edições se desenrolam. No lado do modelo, observamos que modelos pré-treinados de texto para vídeo possuem capacidade de edição, motivando um design simplificado. A simples concatenação de sequências para condicionamento com ajuste fino leve de LoRA é suficiente para treinar um modelo robusto. Para controle, unificamos o controle espaço-temporal via um mecanismo de máscara única e suportamos imagens de referência opcionais. No geral, o EasyV2V funciona com entradas flexíveis, por exemplo, vídeo+texto, vídeo+máscara+texto, vídeo+máscara+referência+texto, e alcança resultados state-of-the-art em edição de vídeo, superando sistemas concorrentes e comerciais. Página do projeto: https://snap-research.github.io/easyv2v/
Avanços recentes demonstraram que os modelos de linguagem grandes multimodais (MLLMs) beneficiam de uma cadeia de pensamento (CoT) intercalada multimodal com interações de ferramentas visuais. No entanto, os modelos de código aberto existentes frequentemente exibem padrões de raciocínio cego no uso de ferramentas, invocando ferramentas visuais mesmo quando desnecessárias, o que aumenta significativamente a sobrecarga de inferência e degrada o desempenho do modelo. Para tal, propomos o AdaTooler-V, um MLLM que executa um uso adaptativo de ferramentas, determinando se um problema visual realmente as requer. Primeiro, introduzimos o AT-GRPO, um algoritmo de aprendizagem por reforço que ajusta adaptativamente as escalas de recompensa com base na Pontuação de Benefício da Ferramenta de cada amostra, incentivando o modelo a invocar ferramentas apenas quando estas proporcionam melhorias genuínas. Adicionalmente, construímos dois conjuntos de dados para suportar o treino: AdaTooler-V-CoT-100k para o arranque a frio por SFT e AdaTooler-V-300k para RL com recompensas verificáveis em dados de imagem única, múltiplas imagens e vídeo. Experiências em doze benchmarks demonstram a forte capacidade de raciocínio do AdaTooler-V, superando métodos existentes em diversas tarefas de raciocínio visual. Notavelmente, o AdaTooler-V-7B atinge uma precisão de 89,8% no benchmark de alta resolução V*, superando o modelo proprietário comercial GPT-4o e o Gemini 1.5 Pro. Todo o código, modelos e dados são disponibilizados.
Os modelos de recompensa (RMs) são essenciais para o treinamento de grandes modelos de linguagem (LLMs), mas permanecem pouco explorados para modelos omni que lidam com sequências intercaladas de imagem e texto. Apresentamos o Multimodal RewardBench 2 (MMRB2), o primeiro benchmark abrangente para modelos de recompensa em compreensão multimodal e geração (intercalada). O MMRB2 abrange quatro tarefas: texto-para-imagem, edição de imagem, geração intercalada e raciocínio multimodal ("pensar-com-imagens"), fornecendo 1.000 pares de preferência anotados por especialistas por tarefa, provenientes de 23 modelos e agentes em 21 tarefas de origem. O MMRB2 foi concebido com: (1) instruções práticas mas desafiadoras; (2) respostas de modelos e agentes de última geração; e (3) pares de preferência com forte consenso de especialistas humanos, curados através de uma estratégia de filtragem por ensemble. Utilizando o MMRB2, estudamos os juízes existentes para cada subtarefa, incluindo LLMs multimodais como juízes e modelos treinados com preferências humanas. O mais recente Gemini 3 Pro atinge 75-80% de precisão. O GPT-5 e o Gemini 2.5 Pro alcançam 66-75% de precisão, comparados com >90% para humanos, mas superam o amplamente utilizado GPT-4o (59%). O melhor modelo de código aberto, o Qwen3-VL-32B, atinge precisões semelhantes às do Gemini 2.5 Flash (64%). Também mostramos que o desempenho no MMRB2 correlaciona-se fortemente com o sucesso em tarefas subsequentes usando amostragem Best-of-N e conduzimos uma análise aprofundada que indica áreas-chave para melhorar os modelos de recompensa no futuro.
Este artigo examina o trade-off entre exploração e explotação no aprendizado por reforço com recompensas verificáveis (RLVR), uma estrutura para melhorar o raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Estudos recentes sugerem que o RLVR pode eliciar um forte raciocínio matemático em LLMs por meio de dois mecanismos aparentemente paradoxais: recompensas espúrias, que suprimem a explotação ao recompensar resultados não relacionados com a verdade fundamental, e a minimização de entropia, que suprime a exploração ao empurrar o modelo para saídas mais confiantes e determinísticas, destacando uma dinâmica intrigante: tanto desencorajar a explotação quanto desencorajar a exploração melhoram o desempenho do raciocínio, mas os princípios subjacentes que reconciliam esses efeitos permanecem pouco compreendidos. Nós nos concentramos em duas questões fundamentais: (i) como a entropia da política se relaciona com o desempenho, e (ii) se as recompensas espúrias produzem ganhos, potencialmente através da interação do viés de recorte e da contaminação do modelo. Nossos resultados mostram que o viés de recorte sob recompensas espúrias reduz a entropia da política, levando a saídas mais confiantes e determinísticas, enquanto a minimização da entropia por si só é insuficiente para a melhoria. Propomos ainda um modelo de desalinhamento de recompensa que explica por que recompensas espúrias podem melhorar o desempenho para além de configurações contaminadas. Nossas descobertas esclarecem os mecanismos por trás dos benefícios das recompensas espúrias e fornecem princípios para um treinamento RLVR mais eficaz.
Os métodos atuais de aceleração baseados em difusão para animação de retratos longos enfrentam dificuldades em garantir a consistência da identidade (ID). Este artigo apresenta o FlashPortrait, um transformer de difusão de vídeo de ponta a ponta capaz de sintetizar vídeos de comprimento infinito que preservam a identidade, alcançando até 6x de aceleração na velocidade de inferência. Especificamente, o FlashPortrait começa calculando as características de expressão facial agnósticas à identidade com um extrator pré-treinado. Em seguida, introduz um Bloco de Expressão Facial Normalizada para alinhar as características faciais com os latentes de difusão através da sua normalização com as respectivas médias e variâncias, melhorando assim a estabilidade da identidade na modelagem facial. Durante a inferência, o FlashPortrait adota um esquema dinâmico de janela deslizante com mesclagem ponderada nas áreas sobrepostas, garantindo transições suaves e consistência de ID em animações longas. Em cada janela de contexto, com base na taxa de variação dos latentes em passos temporais específicos e na razão de magnitude da derivada entre as camadas de difusão, o FlashPortrait utiliza derivadas de latentes de ordem superior no passo temporal atual para prever diretamente os latentes em passos futuros, pulando assim várias etapas de remoção de ruído e alcançando aceleração de velocidade de 6x. Experimentos em benchmarks demonstram a eficácia do FlashPortrait tanto qualitativa quanto quantitativamente.
A edição de imagens baseada em instruções permite o controle por linguagem natural sobre modificações visuais, porém os modelos existentes falham perante a Complexidade Instrução-Visual (IV-Complexity), onde instruções intrincadas encontram cenas complexas ou ambíguas. Apresentamos o RePlan (Planejamento Alinhado por Região), uma estrutura planejar-depois-executar que acopla um planejador visão-linguagem a um editor de difusão. O planejador decompõe instruções via raciocínio passo a passo e as ancora explicitamente em regiões-alvo; o editor então aplica as alterações usando um mecanismo de injeção região-atenção sem treinamento, permitindo edições multi-região precisas e paralelas sem *inpainting* iterativo. Para fortalecer o planejamento, aplicamos aprendizado por reforço baseado em GRPO usando 1K exemplos apenas com instruções, resultando em ganhos substanciais na fidelidade do raciocínio e na confiabilidade do formato. Apresentamos ainda o IV-Edit, um *benchmark* focado em ancoragem refinada e edições intensivas em conhecimento. Em configurações IV-Complex, o RePlan supera consistentemente *baselines* robustas treinadas em conjuntos de dados muito maiores, melhorando a precisão regional e a fidelidade geral. Nossa página do projeto: https://replan-iv-edit.github.io
Apresentamos o ModelTables, um benchmark de tabelas em Model Lakes que captura a semântica estruturada de tabelas de desempenho e configuração, frequentemente negligenciada pela recuperação baseada apenas em texto. O corpus é construído a partir de model cards do Hugging Face, READMEs do GitHub e artigos referenciados, vinculando cada tabela ao seu contexto circundante de modelo e publicação. Em comparação com tabelas de lagos de dados abertos, as tabelas de modelos são menores, mas exibem relações mais densas entre tabelas, refletindo a evolução fortemente acoplada de modelos e benchmarks. A versão atual abrange mais de 60 mil modelos e 90 mil tabelas. Para avaliar a relação entre modelos e tabelas, construímos uma ground truth de múltiplas fontes usando três sinais complementares: (1) links de citação de artigos, (2) links explícitos em model cards e herança, e (3) conjuntos de dados de treinamento compartilhados. Apresentamos um caso de uso empírico extensivo para o benchmark, que é a busca em tabelas. Comparamos operadores canônicos de busca em Data Lakes (unionable, joinable, palavra-chave) e baselines de Recuperação de Informação (recuperação densa, esparsa, híbrida) neste benchmark. A recuperação semântica de tabelas baseada em união atinge 54,8% de P@1 no geral (54,6% em citação, 31,3% em herança, 30,6% em sinais de conjunto de dados compartilhados); a recuperação densa baseada em tabelas atinge 66,5% de P@1, e a recuperação híbrida com metadados alcança 54,1%. Esta avaliação indica uma margem clara para o desenvolvimento de métodos melhores de busca em tabelas. Ao disponibilizar o ModelTables e o seu protocolo de criação, fornecemos o primeiro benchmark em larga escala de dados estruturados que descrevem modelos de IA. O nosso caso de uso de descoberta de tabelas em Model Lakes fornece intuição e evidências para desenvolver uma recuperação semântica mais precisa, comparação estruturada e organização fundamentada do conhecimento estruturado de modelos. O código-fonte, dados e outros artefactos estão disponíveis em https://github.com/RJMillerLab/ModelTables.
A fundamentação de GUI é um componente crítico na construção de agentes de GUI capazes. No entanto, os benchmarks de fundamentação existentes sofrem de limitações significativas: eles fornecem volume de dados insuficiente e cobertura de domínio restrita, ou focam excessivamente em uma única plataforma e exigem conhecimento de domínio altamente especializado. Neste trabalho, apresentamos o VenusBench-GD, um benchmark bilíngue e abrangente para fundamentação de GUI que abrange múltiplas plataformas, permitindo uma avaliação hierárquica para aplicações do mundo real. O VenusBench-GD contribui da seguinte forma: (i) introduzimos um benchmark em larga escala e multiplataforma com ampla cobertura de aplicações, elementos de UI diversificados e dados anotados ricos, (ii) estabelecemos um pipeline de construção de dados de alta qualidade para tarefas de fundamentação, alcançando maior precisão de anotação do que os benchmarks existentes, e (iii) estendemos o escopo da fundamentação de elementos propondo uma taxonomia de tarefas hierárquica que divide a fundamentação em categorias básica e avançada, abrangendo seis subtarefas distintas projetadas para avaliar modelos a partir de perspectivas complementares. Nossas descobertas experimentais revelam insights críticos: modelos multimodais de propósito geral agora igualam ou até superam modelos de GUI especializados em tarefas básicas de fundamentação. Em contraste, tarefas avançadas ainda favorecem modelos especializados em GUI, embora estes exibam overfitting significativo e baixa robustez. Esses resultados ressaltam a necessidade de estruturas de avaliação abrangentes e multiníveis.
A supervisão de alta qualidade do raciocínio matemático requer estilos de raciocínio diversificados, traços de longa duração e integração eficaz de ferramentas, capacidades que os conjuntos de dados existentes fornecem apenas de forma limitada. Aproveitando a capacidade de geração multimodal do gpt-oss-120b, introduzimos o Nemotron-Math, um conjunto de dados de raciocínio matemático em larga escala contendo 7,5 milhões de traços de solução em modos de raciocínio alto, médio e baixo, cada um disponível com e sem raciocínio com integração de ferramentas Python (TIR). O conjunto de dados integra 85 mil problemas curados do AoPS com 262 mil problemas da comunidade StackExchange-Math, combinando tarefas estruturadas de competição com consultas matemáticas diversificadas do mundo real. Realizamos avaliações controladas para avaliar a qualidade do conjunto de dados. O Nemotron-Math supera consistentemente o OpenMathReasoning original em problemas correspondentes do AoPS. A incorporação do StackExchange-Math melhora substancialmente a robustez e a generalização, especialmente no HLE-Math, preservando a precisão em benchmarks de competições matemáticas. Para suportar o treinamento eficiente de contexto longo, desenvolvemos uma estratégia sequencial de agrupamento que acelera o *fine-tuning* com comprimento de contexto de 128K em 2 a 3 vezes sem perda significativa de precisão. No geral, o Nemotron-Math permite um desempenho de ponta, incluindo 100% de precisão maj@16 no AIME 2024 e 2025 com TIR em Python.
Com a expansão dos Grandes Modelos de Linguagem (LLMs) para além do texto, a integração da fala como modalidade nativa deu origem aos SpeechLLMs, que visam traduzir a linguagem falada diretamente, contornando assim os tradicionais pipelines baseados em transcrição. No entanto, se esta integração melhora a qualidade da tradução de fala para texto em relação às consolidadas arquiteturas em cascata permanece uma questão em aberto. Apresentamos o Hearing to Translate, o primeiro conjunto de testes abrangente que avalia rigorosamente 5 SpeechLLMs de última geração contra 16 sistemas fortes, diretos e em cascata, que combinam modelos de fundação de fala (SFM) líderes com LLMs multilíngues. A nossa análise abrange 16 benchmarks, 13 pares de idiomas e 9 condições desafiadoras, incluindo fala disfluente, ruidosa e de longa duração. Ao longo desta avaliação extensiva, concluímos que os sistemas em cascata permanecem os mais confiáveis no geral, enquanto os SpeechLLMs atuais apenas se equiparam às cascatas em configurações específicas e os SFMs ficam atrás de ambos, destacando que a integração de um LLM, seja dentro do modelo ou num pipeline, é essencial para uma tradução de fala de alta qualidade.
Os dados de séries temporais são críticos em diversos domínios científicos e industriais, incluindo análise ambiental, agricultura, transporte e finanças. No entanto, a extração de insights desses dados normalmente requer profunda expertise de domínio, um processo que é tanto demorado quanto intensivo em mão de obra. Neste artigo, propomos o Insight Miner, um modelo multimodal de larga escala (LMM) projetado para gerar descrições de séries temporais de alta qualidade e abrangentes, enriquecidas com conhecimento específico do domínio. Para viabilizar isso, introduzimos o TS-Insights (disponível em \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), o primeiro conjunto de dados de domínio geral para alinhamento de séries temporais e linguagem. O TS-Insights contém 100k janelas de séries temporais amostradas a partir de 20 conjuntos de dados de previsão. Construímos este conjunto de dados usando um novo fluxo de trabalho agentivo, no qual utilizamos ferramentas estatísticas para extrair características das séries temporais brutas antes de sintetizá-las em descrições de tendências coerentes com o GPT-4. Após o ajuste por instrução no TS-Insights, o Insight Miner supera modelos multimodais de última geração, como LLaVA liu2023llava e GPT-4, na geração de descrições e insights de séries temporais. Nossos achados sugerem uma direção promissora para o aproveitamento de LMMs na análise de séries temporais e representam um passo fundamental para capacitar LLMs a interpretar séries temporais como uma modalidade de entrada nativa.
Os métodos convencionais de avaliação de MLLMs (Modelos de Linguagem Multimodal) carecem de interpretabilidade e frequentemente são insuficientes para revelar completamente lacunas significativas de capacidade entre os modelos. Para resolver isso, introduzimos o AuditDM, uma estrutura automatizada que descobre e corrige ativamente modos de falha de MLLMs auditando sua divergência. O AuditDM ajusta finamente um MLLM como auditor por meio de aprendizado por reforço para gerar perguntas desafiadoras e imagens contrafactuais que maximizam a discordância entre os modelos-alvo. Uma vez treinado, o auditor descobre exemplares diversos e interpretáveis que revelam fraquezas do modelo e servem como dados livres de anotação para correção. Quando aplicado a modelos de última geração como Gemma-3 e PaliGemma-2, o AuditDM descobre mais de 20 tipos distintos de falha. O ajuste fino nessas descobertas melhora consistentemente todos os modelos em 16 benchmarks e permite que um modelo de 3B supere sua contraparte de 28B. Nossos resultados sugerem que, à medida que a escalabilidade de dados atinge retornos decrescentes, a auditoria direcionada de modelos oferece um caminho eficaz para diagnóstico e melhoria de modelos.
Os Fluxos de Normalização (NFs) estabeleceram-se como uma estrutura fundamentada para modelagem generativa. Os NFs padrão consistem num processo direto e num processo inverso: o processo direto mapeia dados para ruído, enquanto o processo inverso gera amostras invertendo-o. As transformações diretas típicas dos NFs são condicionadas por invertibilidade explícita, garantindo que o processo inverso possa funcionar como a sua inversa analítica exata. Os desenvolvimentos recentes no TARFlow e suas variantes revitalizaram os métodos NF ao combinar Transformers e fluxos autorregressivos, mas também expuseram a descodificação causal como um grande estrangulamento. Neste trabalho, introduzimos o Fluxo de Normalização Bidirecional (BiFlow), uma estrutura que elimina a necessidade de uma inversa analítica exata. O BiFlow aprende um modelo inverso que aproxima o mapeamento inverso subjacente de ruído-para-dados, permitindo funções de perda e arquiteturas mais flexíveis. Experiências no ImageNet demonstram que o BiFlow, comparado com a sua contraparte de descodificação causal, melhora a qualidade da geração enquanto acelera a amostragem em até duas ordens de magnitude. O BiFlow produz resultados de última geração entre os métodos baseados em NFs e um desempenho competitivo entre os métodos de avaliação única ("1-NFE"). Seguindo os progressos encorajadores recentes nos NFs, esperamos que o nosso trabalho atraia mais atenção para este paradigma clássico.
O compartilhamento de parâmetros em transformadores recursivos reduz o tamanho do modelo, mas colapsa a expressividade por camada. Propomos o Mixture of LoRAs (MoL), um mecanismo leve de computação condicional que insere especialistas de Adaptação de Baixa Patente (LoRA) dentro de uma rede *feed-forward* (FFN) compartilhada. O MoL permite a modulação condicional ao token no espaço de pesos da FFN compartilhada sem desvincular os parâmetros do *backbone*, ao contrário de abordagens anteriores que adicionam adaptadores fixos ou externamente anexados. Pré-treinamos uma arquitetura recursiva modernizada, o ModernALBERT, integrando *rotary embeddings*, GeGLU, FlashAttention e uma inicialização baseada em destilação. Através dos benchmarks GLUE, SQuAD-v2 e BEIR, o ModernALBERT (50M--120M) alcança desempenho de ponta entre modelos compactos e supera *baselines* totalmente parametrizados e maiores. Também propomos um procedimento de fusão de especialistas que comprime o MoL em um único adaptador durante a inferência, preservando a precisão e permitindo uma implantação eficiente. Nossos resultados mostram que a modulação condicional no espaço de pesos restaura efetivamente a expressividade perdida sob o compartilhamento agressivo de parâmetros em transformadores recursivos.
A pose de personagens 3D é uma tarefa fundamental em computação gráfica e visão computacional. No entanto, métodos existentes, como auto-rigging e geração condicionada por pose, frequentemente enfrentam desafios como previsão imprecisa de pesos de skinning, imperfeições topológicas e baixa conformidade com a pose, limitando sua robustez e generalização. Para superar essas limitações, apresentamos o Make-It-Poseable, uma nova estrutura *feed-forward* que reformula a pose de personagens como um problema de transformação no espaço latente. Em vez de deformar vértices de malha como nos *pipelines* tradicionais, nosso método reconstrói o personagem em novas poses manipulando diretamente sua representação latente. O cerne de nosso método é um transformador de pose latente que manipula *tokens* de forma com base no movimento esquelético. Este processo é facilitado por uma representação de pose densa para controle preciso. Para garantir geometria de alta fidelidade e acomodar mudanças topológicas, também introduzimos uma estratégia de supervisão no espaço latente e um módulo de conclusão adaptativo. Nosso método demonstra desempenho superior na qualidade da pose. Ele também se estende naturalmente para aplicações de edição 3D, como substituição e refinamento de partes.
Os Diffusion Transformers (DiTs) estabelecem o estado da arte na geração visual, mas o seu custo quadrático de self-attention limita fundamentalmente a escalabilidade para sequências longas de tokens. Abordagens recentes de atenção esparsa Top-K reduzem a computação dos DiTs ao comprimir tokens em representações por blocos e selecionar um pequeno conjunto de blocos-chave relevantes, mas ainda sofrem com (i) o custo quadrático de seleção em tokens comprimidos e (ii) o K crescente necessário para manter a qualidade do modelo à medida que as sequências aumentam. Identificamos que a sua ineficiência se deve ao design de nível único, pois um único nível grosso é insuficiente para representar a estrutura global. Neste artigo, introduzimos a Log-linear Sparse Attention (LLSA), um mecanismo de atenção esparsa treinável para sequências extremamente longas de tokens que reduz os custos de seleção e de atenção de uma complexidade quadrática para log-linear, utilizando uma estrutura hierárquica. A LLSA realiza uma seleção Top-K hierárquica, adotando progressivamente uma seleção Top-K esparsa com os índices encontrados no nível anterior, e introduz um mecanismo de Hierarchical KV Enrichment que preserva o contexto global enquanto utiliza menos tokens de diferentes granularidades durante o cálculo da atenção. Para suportar um treino eficiente, desenvolvemos uma implementação de alto desempenho para GPU que utiliza apenas índices esparsos tanto para a passagem direta quanto para a retropassagem, eliminando a necessidade de máscaras de atenção densas. Avaliamos a LLSA na geração de imagens de alta resolução no espaço de pixels sem usar "patchification" nem codificação VAE. A LLSA acelera a inferência de atenção em 28.27x e o treino de DiT em 6.09x em sequências de tokens de 256x256 pixels, mantendo a qualidade de geração. Os resultados demonstram que a LLSA oferece uma direção promissora para treinar DiTs de longa sequência de forma eficiente. O código está disponível em: https://github.com/SingleZombie/LLSA
A renderização neural para aplicações interativas requer a tradução de propriedades geométricas e de material (G-buffer) em imagens fotorrealistas com iluminação realista numa base frame-a-frame. Embora as abordagens recentes baseadas em difusão mostrem potencial para a síntese de imagens condicionada por G-buffer, elas enfrentam limitações críticas: modelos de imagem única, como o RGBX, geram frames independentemente sem consistência temporal, enquanto modelos de vídeo, como o DiffusionRenderer, são computacionalmente demasiado dispendiosos para a maioria das configurações de *gaming* de consumo e requerem sequências completas antecipadamente, tornando-os inadequados para aplicações interativas onde os frames futuros dependem da entrada do utilizador. Apresentamos o FrameDiffuser, um quadro de renderização neural autorregressivo que gera frames fotorrealistas e temporalmente consistentes, condicionando-se aos dados do G-buffer e à saída anterior do próprio modelo. Após um frame inicial, o FrameDiffuser opera puramente nos dados de G-buffer recebidos, que compreendem geometria, materiais e propriedades de superfície, utilizando simultaneamente o frame por si gerado anteriormente para orientação temporal, mantendo uma geração estável e temporalmente consistente ao longo de centenas a milhares de frames. A nossa arquitetura de dupla condicionação combina o ControlNet para orientação estrutural com o ControlLoRA para coerência temporal. Uma estratégia de treino em três etapas permite uma geração autorregressiva estável. Especializamos o nosso modelo para ambientes individuais, priorizando a consistência e a velocidade de inferência em detrimento de uma generalização ampla, demonstrando que o treino específico do ambiente atinge uma qualidade fotorrealista superior com iluminação, sombras e reflexos precisos em comparação com abordagens generalizadas.
Os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) melhoraram significativamente a compreensão e o raciocínio cross-modal através da incorporação do raciocínio em Cadeia de Pensamento (CoT) no espaço semântico. Com base nisso, estudos recentes estendem o mecanismo CoT para a modalidade visual, permitindo que os modelos integrem informações visuais durante o raciocínio por meio de ferramentas externas ou geração explícita de imagens. No entanto, esses métodos permanecem dependentes de raciocínio explícito passo a passo, de uma interação instável entre percepção e raciocínio e de uma sobrecarga computacional significativa. Inspirados pela cognição humana, postulamos que o pensamento se desdobra não linearmente, mas através do entrelaçamento dinâmico entre raciocínio e percepção na mente. Motivados por esta perspectiva, propomos o DMLR, uma estrutura de Raciocínio Latente Multimodal Dinâmico em tempo de teste que emprega uma otimização de gradiente de política latente guiada por confiança para refinar tokens de pensamento latente para um raciocínio aprofundado. Além disso, é introduzida uma Estratégia Dinâmica de Injeção Visual, que recupera as características visuais mais relevantes em cada token de pensamento latente e atualiza o conjunto dos melhores segmentos visuais (patches). Os segmentos atualizados são então injetados no token de pensamento latente para alcançar um entrelaçamento dinâmico visual-textual. Experimentos realizados em sete benchmarks de raciocínio multimodal e várias arquiteturas de modelo demonstram que o DMLR melhora significativamente o desempenho do raciocínio e da percepção, mantendo alta eficiência de inferência.
Os manipuladores móveis em ambientes domésticos devem tanto navegar quanto manipular objetos. Isso exige uma representação de cena compacta e semanticamente rica que capture onde os objetos estão, como funcionam e quais partes são acionáveis. Os grafos de cena são uma escolha natural, mas trabalhos anteriores frequentemente separam relações espaciais e funcionais, tratam as cenas como instantâneos estáticos sem estados dos objetos ou atualizações temporais, e negligenciam informações mais relevantes para a realização da tarefa atual. Para superar essas limitações, introduzimos o MomaGraph, uma representação de cena unificada para agentes corporificados que integra relações espácio-funcionais e elementos interativos ao nível de componentes. No entanto, avançar tal representação requer dados adequados e avaliação rigorosa, que têm estado amplamente ausentes. Contribuímos, assim, com o MomaGraph-Scenes, o primeiro conjunto de dados em larga escala de grafos de cena ricamente anotados e orientados por tarefas em ambientes domésticos, juntamente com o MomaGraph-Bench, um conjunto de avaliação sistemática abrangendo seis capacidades de raciocínio, desde planeamento de alto nível até compreensão refinada da cena. Com base nessa fundação, desenvolvemos ainda o MomaGraph-R1, um modelo de visão e linguagem de 7B treinado com aprendizagem por reforço no MomaGraph-Scenes. O MomaGraph-R1 prevê grafos de cena orientados por tarefas e serve como planeador de tarefas de *zero-shot* sob uma arquitetura *Graph-then-Plan*. Experimentos extensivos demonstram que o nosso modelo alcança resultados de ponta entre modelos de código aberto, atingindo 71,6% de precisão no benchmark (+11,4% sobre a melhor baseline), enquanto generaliza em benchmarks públicos e transfere eficazmente para experiências com robôs reais.
Embora a aprendizagem por reforço tenha alcançado progressos impressionantes no raciocínio de modelos de linguagem, ela é limitada pela necessidade de recompensas verificáveis. Métodos recentes de RL sem verificador abordam esta limitação utilizando as probabilidades intrínsecas dos LLMs gerarem respostas de referência como sinais de recompensa. No entanto, essas abordagens geralmente amostram trajetórias de raciocínio condicionadas apenas à pergunta. Este projeto desacopla a amostragem da trajetória de raciocínio da informação da resposta, levando a uma exploração ineficiente e a uma incoerência entre as trajetórias e as respostas finais. Neste artigo, propomos a **Aprendizagem por Reforço Variacional Acoplada** (CoVRL), que une a inferência variacional e a aprendizagem por reforço através do acoplamento de distribuições a priori e a posteriori por meio de uma estratégia de amostragem híbrida. Ao construir e otimizar uma distribuição composta que integra essas duas distribuições, o CoVRL permite uma exploração eficiente, preservando uma forte coerência entre o pensamento e a resposta. Experimentos extensos em benchmarks de raciocínio matemático e geral mostram que o CoVRL melhora o desempenho em 12,4% em relação ao modelo base e alcança uma melhoria adicional de 2,3% sobre fortes linhas de base de RL sem verificador state-of-the-art, fornecendo uma estrutura fundamentada para aprimorar as capacidades gerais de raciocínio dos modelos de linguagem.
A criação de novos conceitos visuais frequentemente requer a conexão de ideias distintas por meio de seus atributos compartilhados mais relevantes – a sua "vibração". Apresentamos a Fusão de Vibrações (Vibe Blending), uma nova tarefa para gerar híbridos coerentes e significativos que revelam esses atributos compartilhados entre imagens. Alcançar tais fusões é um desafio para os métodos atuais, que lutam para identificar e percorrer caminhos não lineares que conectam conceitos distantes no espaço latente. Propomos o Espaço de Vibração (Vibe Space), uma variedade de grafos hierárquica que aprende geodésicas de baixa dimensão em espaços de características como o CLIP, permitindo transições suaves e semanticamente consistentes entre conceitos. Para avaliar a qualidade criativa, projetamos uma estrutura inspirada na cognição que combina julgamentos humanos, raciocínio de LLMs (Modelos de Linguagem de Grande Escala) e uma pontuação de dificuldade baseada em caminhos geométricos. Constatamos que o Espaço de Vibração produz fusões que os humanos avaliam consistentemente como mais criativas e coerentes do que os métodos atuais.
A avaliação da qualidade de tabelas geradas por modelos de linguagem de grande porte (LLMs) permanece um desafio em aberto: as métricas existentes ou simplificam as tabelas em texto, ignorando a estrutura, ou dependem de referências fixas que limitam a generalização. Apresentamos o TabReX, uma estrutura de avaliação sem referência e orientada por propriedades para a geração tabular, baseada em raciocínio gráfico. O TabReX converte tanto o texto fonte quanto as tabelas geradas em grafos de conhecimento canônicos, alinha-os através de um processo de correspondência guiado por LLM e calcula escores interpretáveis e conscientes de rubricas que quantificam a fidelidade estrutural e factual. A métrica resultante oferece compensações controláveis entre sensibilidade e especificidade, produzindo julgamentos alinhados com avaliações humanas e rastreamentos de erro a nível de célula. Para avaliar sistematicamente a robustez da métrica, introduzimos o TabReX-Bench, um benchmark de larga escala abrangendo seis domínios e doze tipos de perturbação orientados por planejamento, distribuídos por três níveis de dificuldade. Resultados empíricos mostram que o TabReX alcança a maior correlação com rankings de especialistas, mantém-se estável sob perturbações mais difíceis e permite uma análise granular de modelo versus *prompt*, estabelecendo um novo paradigma para a avaliação confiável e explicável de sistemas de geração estruturada.
O surgimento de grandes modelos de linguagem (LLMs) introduziu um novo tipo de programação: a programação em linguagem natural. Ao escrever instruções (prompts) que direcionam os LLMs para realizar processamento de linguagem natural, geração de código, raciocínio, etc., os usuários estão escrevendo código em linguagem natural – código de linguagem natural – para ser executado pelo LLM. Uma área emergente de pesquisa permite a interoperabilidade entre o código de linguagem natural e linguagens formais, como Python. Apresentamos uma nova abstração de programação, o *estado de programa compartilhado*, que elimina o trabalho manual necessário para permitir a interoperabilidade entre o código de linguagem natural e o estado do programa. Com o estado de programa compartilhado, os programadores podem escrever código natural que grava diretamente variáveis do programa, calcula com objetos do programa e implementa fluxo de controle no programa. Apresentamos um esquema para especificar interfaces de função natural que estendem sistemas de programação para suportar código natural e aproveitamos esse esquema para especificar o estado de programa compartilhado como uma interface de função natural. Implementamos o estado de programa compartilhado no sistema de programação Nightjar. O Nightjar permite que os programadores escrevam programas Python que contenham código natural que compartilha o estado do programa Python. Mostramos que os programas Nightjar alcançam uma precisão de tarefa comparável ou superior às implementações escritas manualmente (+4-19%), enquanto diminuem as linhas de código em 39,6% em média. A contrapartida do uso do Nightjar é que ele pode incorrer em sobrecarga de tempo de execução (0,4-4,3x o tempo de execução das implementações manuais).
A Compreensão Visual de Emoções (CVE) tem como objetivo inferir polaridades de sentimento ou categorias de emoção a partir de pistas afetivas incorporadas em imagens. Nos últimos anos, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estabeleceram um paradigma popular na CVE, aproveitando sua generalizabilidade para unificar tarefas de CVE definidas sob diversas taxonomias de emoção. Embora esse paradigma alcance sucesso notável, ele tipicamente formula a CVE como uma tarefa determinística, exigindo que o modelo produza um único rótulo de emoção definitivo para cada imagem. Tal formulação não leva suficientemente em conta a subjetividade inerente à percepção emocional, negligenciando interpretações alternativas que podem ser igualmente plausíveis para diferentes observadores. Para superar essa limitação, propomos equipar os MLLMs com capacidades para verbalizar sua confiança nas previsões de emoção. Este sinal adicional fornece aos usuários uma estimativa tanto da plausibilidade de interpretações alternativas quanto da competência autoavaliada dos MLLMs, aumentando assim a confiabilidade na prática. Com base nessa ideia, introduzimos uma estrutura de treinamento em três estágios que progressivamente dota o modelo de raciocínio estruturado, ensina-o a verbalizar a confiança e calibra a expressão dessa confiança, culminando no EmoCaliber, um MLLM consciente da confiança para CVE. Por meio de avaliações justas e abrangentes no benchmark unificado VECBench, o EmoCaliber demonstra superioridade geral em relação aos métodos existentes tanto na previsão de emoções quanto na estimativa de confiança. Esses resultados validam a eficácia de nossa abordagem e marcam um passo viável em direção a sistemas de CVE mais confiáveis. Página do projeto: https://github.com/wdqqdw/EmoCaliber.