Artigos de pesquisa em IA selecionados diariamente com traduções
A preparação de dados visa remover o ruído de conjuntos de dados brutos, descobrir relações entre conjuntos de dados e extrair insights valiosos dos mesmos, sendo essencial para uma ampla gama de aplicações centradas em dados. Impulsionada (i) pelas crescentes demandas por dados prontos para aplicação (ex.: para análise, visualização, tomada de decisão), (ii) pelas técnicas de LLM cada vez mais poderosas e (iii) pelo surgimento de infraestruturas que facilitam a construção flexível de agentes (ex.: usando o Databricks Unity Catalog), os métodos aprimorados por LLM estão rapidamente se tornando um paradigma transformador e potencialmente dominante para a preparação de dados. Ao investigar centenas de trabalhos recentes da literatura, este artigo apresenta uma revisão sistemática deste panorama em evolução, focando no uso de técnicas de LLM para preparar dados para diversas tarefas subsequentes. Primeiro, caracterizamos a mudança de paradigma fundamental, de pipelines baseados em regras e específicos do modelo para fluxos de trabalho de preparação acionados por prompts, conscientes do contexto e agentivos. Em seguida, introduzimos uma taxonomia centrada em tarefas que organiza a área em três tarefas principais: limpeza de dados (ex.: padronização, tratamento de erros, imputação), integração de dados (ex.: correspondência de entidades, correspondência de esquemas) e enriquecimento de dados (ex.: anotação de dados, perfilamento). Para cada tarefa, examinamos técnicas representativas e destacamos seus respectivos pontos fortes (ex.: generalização aprimorada, compreensão semântica) e limitações (ex.: o custo proibitivo de dimensionar LLMs, alucinações persistentes mesmo em agentes avançados, o descompasso entre métodos avançados e avaliação fraca). Além disso, analisamos conjuntos de dados e métricas de avaliação comumente usados (a parte empírica). Finalmente, discutimos desafios abertos de pesquisa e delineamos um roteiro prospectivo que enfatiza sistemas escaláveis de LLM-dados, projetos fundamentados para fluxos de trabalho agentivos confiáveis e protocolos de avaliação robustos.
Recentemente, a fronteira das capacidades dos Modelos de Linguagem de Grande Porte (LLMs) deslocou-se da geração de código em tarefas únicas para a engenharia de software agentiva – um paradigma em que os modelos navegam, editam e testam repositórios complexos de forma autónoma. Embora os métodos de pós-treinamento tenham se tornado a abordagem *de facto* para agentes de código, o **pré-treinamento agentivo** – o pré-treinamento (PT) em dados de larga escala que espelham fluxos de trabalho agentivos autênticos – permanece criticamente subexplorado devido aos substanciais requisitos de recursos, apesar de oferecer um caminho mais escalável para incutir comportamentos agentivos fundamentais do que depender exclusivamente de aprendizagem por reforço, que é dispendiosa. Um desafio central para concretizar um pré-treinamento agentivo eficaz é o desajuste de distribuição entre os dados de treino estáticos e o ambiente dinâmico e rico em *feedback* do desenvolvimento real. Para enfrentar este problema, apresentamos um estudo sistemático sobre o pré-treinamento agentivo, estabelecendo tanto os princípios de síntese de dados como a metodologia de treino para um desenvolvimento eficaz de agentes em escala. Central à nossa abordagem estão os **dados nativamente agentivos** – supervisão composta por dois tipos complementares de trajetórias: **trajetórias contextualmente nativas**, que preservam o fluxo completo de informação que um agente experiencia, oferecendo ampla cobertura e diversidade; e **trajetórias ambientalmente nativas**, recolhidas a partir de repositórios executáveis onde as observações resultam de invocações reais de ferramentas e execuções de testes, proporcionando profundidade e autenticidade interativa. Verificamos as capacidades agentivas do modelo no `SWE-Bench Verified`. Demonstramos a nossa superioridade sobre a receita anterior de pré-treinamento em engenharia de software aberta `Kimi-Dev` sob duas configurações de pós-treinamento com um modelo base alinhado e um *scaffold* agentivo, utilizando menos de metade dos *tokens* de pré-treinamento (73,1B). Para além da vantagem relativa, os nossos modelos de melhor desempenho, de 32B e 72B, atingem taxas de resolução de **56,1%** e **58,5%**, respetivamente, que são ...
Os recentes avanços na geração de vídeo produziram modelos capazes de sintetizar conteúdo visual impressionante a partir de simples instruções textuais. No entanto, esses modelos lutam para gerar narrativas longas e coerentes a partir de conceitos de alto nível, como diálogos, revelando uma "lacuna semântica" entre uma ideia criativa e sua execução cinematográfica. Para preencher essa lacuna, introduzimos uma nova estrutura agentiva de ponta a ponta para geração de vídeo cinematográfico a partir de diálogo. Central para nossa estrutura é o ScripterAgent, um modelo treinado para traduzir diálogos gerais em um roteiro cinematográfico detalhado e executável. Para viabilizar isso, construímos o ScriptBench, um novo benchmark de larga escala com contexto multimodal rico, anotado por meio de um pipeline guiado por especialistas. O roteiro gerado então orienta o DirectorAgent, que orquestra modelos de vídeo state-of-the-art usando uma estratégia de geração contínua entre cenas para garantir a coerência de longo prazo. Nossa avaliação abrangente, apresentando um CriticAgent alimentado por IA e uma nova métrica de Alinhamento Visual-Roteiro (VSA), mostra que nossa estrutura melhora significativamente a fidelidade ao roteiro e a fidelidade temporal em todos os modelos de vídeo testados. Além disso, nossa análise revela uma troca crucial nos modelos SOTA atuais entre o espetáculo visual e a adesão estrita ao roteiro, fornecendo insights valiosos para o futuro da cinematografia automatizada.
Um modelo pode aprender a escapar do seu próprio platô de aprendizagem? Métodos de aprendizagem por reforço para o ajuste fino de grandes modelos de raciocínio estagnam em conjuntos de dados com baixas taxas de sucesso iniciais e, portanto, pouco sinal de treinamento. Investigamos uma questão fundamental: Um LLM pré-treinado pode aproveitar conhecimento latente para gerar um currículo automatizado para problemas que não consegue resolver? Para explorar isso, projetamos o SOAR: uma estrutura de autoaprimoramento concebida para revelar esses sinais pedagógicos através de meta-RL. Uma cópia "professor" do modelo propõe problemas sintéticos para uma cópia "estudante", sendo recompensada pela melhoria desta em um pequeno subconjunto de problemas difíceis. Criticalmente, o SOAR ancora o currículo no progresso mensurado do estudante, e não em recompensas proxy intrínsecas. Nosso estudo nos subconjuntos mais difíceis de benchmarks matemáticos (0/128 de sucesso) revela três descobertas principais. Primeiro, mostramos que é possível realizar meta-RL bi-nível que desbloqueia a aprendizagem sob recompensas binárias esparsas, aguçando uma capacidade latente dos modelos pré-treinados de gerar "degraus" úteis. Segundo, recompensas ancoradas no desempenho superam esquemas de recompensa intrínsecos usados em autojogo prévio de LLMs, evitando de forma confiável a instabilidade e os modos de colapso de diversidade que eles normalmente exibem. Terceiro, a análise das questões geradas revela que a qualidade estrutural e a boa formulação são mais críticas para o progresso da aprendizagem do que a correção da solução. Nossos resultados sugerem que a capacidade de gerar degraus úteis não requer a habilidade preexistente de realmente resolver os problemas difíceis, abrindo um caminho fundamentado para escapar dos platôs de raciocínio sem dados curados adicionais.
Embora os dados sintéticos tenham se mostrado eficazes para melhorar o raciocínio científico no domínio textual, o raciocínio multimodal continua limitado pela dificuldade de sintetizar imagens cientificamente rigorosas. Os modelos existentes de Texto para Imagem (T2I) frequentemente produzem resultados visualmente plausíveis, mas cientificamente incorretos, resultando em uma persistente divergência lógico-visual que limita seu valor para o raciocínio subsequente. Motivados pelos avanços recentes em modelos T2I de próxima geração, realizamos um estudo sistemático sobre a síntese de imagens científicas, abrangendo paradigmas de geração, avaliação e uso subsequente. Analisamos tanto a geração direta baseada em pixels quanto a síntese programática, e propomos o ImgCoder, uma estrutura orientada pela lógica que segue um fluxo de trabalho explícito de "compreender - planejar - codificar" para melhorar a precisão estrutural. Para avaliar rigorosamente a correção científica, introduzimos o SciGenBench, que avalia as imagens geradas com base na utilidade da informação e na validade lógica. Nossa avaliação revela modos de falha sistemáticos nos modelos baseados em pixels e destaca uma compensação fundamental entre expressividade e precisão. Por fim, demonstramos que o ajuste fino de Modelos Multimodais de Grande Escala (LMMs) em imagens científicas sintéticas rigorosamente verificadas produz ganhos consistentes de raciocínio, com tendências de escalabilidade análogas às do domínio textual, validando a síntese científica de alta fidelidade como um caminho viável para desbloquear capacidades massivas de raciocínio multimodal.
A complexidade quadrática dos mecanismos de atenção padrão representa um significativo gargalo de escalabilidade para grandes modelos de linguagem (LLMs) em cenários de contexto longo. Embora estratégias de atenção híbrida, que combinam atenção esparsa e completa dentro de um único modelo, ofereçam uma solução viável, elas geralmente empregam proporções de computação estáticas (ou seja, proporções fixas de atenção esparsa versus completa) e não se adaptam às variadas sensibilidades de esparsidade das tarefas downstream durante a inferência. Para resolver esta questão, propomos a Atenção Elástica, que permite ao modelo ajustar dinamicamente sua esparsidade geral com base na entrada. Isto é alcançado através da integração de um Roteador de Atenção leve no modelo pré-treinado existente, que atribui dinamicamente cada cabeça de atenção a diferentes modos de computação. Com apenas 12 horas de treinamento em 8 GPUs A800, o nosso método permite que os modelos alcancem tanto um forte desempenho quanto uma inferência eficiente. Experimentos em três benchmarks de contexto longo, realizados em LLMs amplamente utilizados, demonstram a superioridade do nosso método.
O campo de geração de imagens está atualmente dividido entre modelos autorregressivos (AR) que operam em *tokens* discretos e modelos de difusão que utilizam latentes contínuos. Esta divisão, enraizada na distinção entre VQ-VAEs e VAEs, dificulta a modelação unificada e a comparação rigorosa de desempenho (*benchmarking*). A Quantização Escalar Finita (FSQ) oferece uma ponte teórica, no entanto, a FSQ padrão sofre de uma falha crítica: a sua quantização de intervalos iguais pode causar colapso de ativações. Este desajuste força um compromisso entre a fidelidade de reconstrução e a eficiência informacional. Neste trabalho, resolvemos este dilema simplesmente substituindo a função de ativação na FSQ original por um mapeamento de correspondência de distribuição para impor um *prior* uniforme. Denominada iFSQ, esta estratégia simples requer apenas uma linha de código, mas garante matematicamente tanto a utilização ideal dos *bins* quanto a precisão de reconstrução. Utilizando a iFSQ como um benchmark controlado, descobrimos dois *insights* fundamentais: (1) O equilíbrio ideal entre representações discretas e contínuas situa-se em aproximadamente 4 bits por dimensão. (2) Sob restrições de reconstrução idênticas, os modelos AR exibem convergência inicial rápida, enquanto os modelos de difusão alcançam um limite de desempenho superior, sugerindo que a ordenação sequencial estrita pode limitar os limites superiores da qualidade de geração. Por fim, estendemos a nossa análise adaptando o Alinhamento de Representação (REPA) a modelos AR, resultando no LlamaGen-REPA. O código está disponível em https://github.com/Tencent-Hunyuan/iFSQ.
Embora a avaliação de agentes tenha migrado para tarefas de longo horizonte, a maioria dos benchmarks ainda enfatiza o raciocínio local, ao nível da etapa, em vez da otimização global com restrições (por exemplo, orçamentos de tempo e financeiros) que exige genuína capacidade de planeamento. Paralelamente, os benchmarks existentes para planeamento com LLMs sub-representam a recolha ativa de informação e as restrições locais de granularidade fina típicas de ambientes do mundo real. Para resolver esta lacuna, introduzimos o DeepPlanning, um benchmark desafiante para o planeamento prático de agentes de longo horizonte. Este apresenta tarefas de planeamento de viagens multi-dia e de compras multi-produto que exigem aquisição proativa de informação, raciocínio local com restrições e otimização global com restrições. As avaliações no DeepPlanning mostram que mesmo os LLMs agenticos mais avançados têm dificuldades com estes problemas, destacando a importância de padrões de raciocínio explícito confiáveis e do uso paralelo de ferramentas para alcançar melhores compromissos entre eficácia e eficiência. A análise de erros aponta ainda para direções promissoras para a melhoria de LLMs agenticos em horizontes de planeamento longos. Disponibilizamos publicamente o código e os dados para apoiar investigação futura.
A percepção visual espacial é um requisito fundamental em aplicações do mundo real, como condução autónoma e manipulação robótica, impulsionada pela necessidade de interagir com ambientes 3D. A captura de profundidade métrica alinhada por pixel utilizando câmaras RGB-D seria a forma mais viável, mas geralmente enfrenta obstáculos impostos pelas limitações de hardware e condições de imagem desafiadoras, especialmente na presença de superfícies especulares ou sem textura. Neste trabalho, argumentamos que as imprecisões dos sensores de profundidade podem ser vistas como sinais "mascarados" que refletem inerentemente ambiguidades geométricas subjacentes. Com base nesta motivação, apresentamos o LingBot-Depth, um modelo de conclusão de profundidade que aproveita o contexto visual para refinar mapas de profundidade através de modelação de profundidade mascarada e incorpora um pipeline de curadoria de dados automatizado para treino escalável. É encorajador ver que o nosso modelo supera as melhores câmaras RGB-D em termos de precisão de profundidade e cobertura de pixel. Os resultados experimentais numa série de tarefas subsequentes sugerem ainda que o LingBot-Depth oferece uma representação latente alinhada através das modalidades RGB e de profundidade. Disponibilizamos o código, o *checkpoint* e 3M pares RGB-profundidade (incluindo 2M de dados reais e 1M de dados simulados) para a comunidade de perceção espacial.
Os geradores de vídeo modernos ainda enfrentam dificuldades com dinâmicas físicas complexas, frequentemente ficando aquém do realismo físico. As abordagens existentes lidam com isso usando verificadores externos ou treinamento adicional em dados aumentados, o que é computacionalmente dispendioso e ainda limitado na captura de movimentos refinados. Neste trabalho, apresentamos a amostragem de vídeo com auto-refinamento, um método simples que usa um gerador de vídeo pré-treinado em conjuntos de dados em larga escala como seu próprio refinador. Ao interpretar o gerador como um autoencoder de remoção de ruído, permitimos um refinamento iterativo em loop interno durante a inferência, sem qualquer verificador externo ou treinamento adicional. Introduzimos ainda uma estratégia de refinamento consciente da incerteza que refina seletivamente regiões com base na auto-consistência, prevenindo artefatos causados por super-refinamento. Experimentos com geradores de vídeo state-of-the-art demonstram melhorias significativas na coerência do movimento e no alinhamento físico, alcançando mais de 70% de preferência humana em comparação com o amostrador padrão e o amostrador baseado em orientação.
Este relatório apresenta o VibeVoice-ASR, uma estrutura de compreensão de voz de propósito geral construída sobre o VibeVoice, projetada para abordar os desafios persistentes de fragmentação de contexto e complexidade de múltiplos interlocutores em áudios de longa duração (por exemplo, reuniões, podcasts), que permanecem apesar dos avanços recentes no reconhecimento de fala de curta duração. Diferente das abordagens tradicionais em pipeline que dependem do fracionamento de áudio, o VibeVoice-ASR suporta processamento em passagem única para áudios de até 60 minutos. Ele unifica o Reconhecimento Automático de Fala, a Diarização de Locutores e a Marcação Temporal em uma única tarefa de geração de fim a fim. Além disso, o VibeVoice-ASR suporta mais de 50 idiomas, não requer configuração explícita de idioma e lida nativamente com a alternância de código dentro e entre enunciados. Adicionalmente, introduzimos um mecanismo de injeção de contexto baseado em *prompts* que permite aos usuários fornecer contexto personalizado, melhorando significativamente a precisão na terminologia específica de domínio e no desambiguamento de caracteres polifónicos.
O surgimento de assistentes pessoais de IA sempre ativos, possibilitados por dispositivos vestíveis de uso contínuo, como óculos inteligentes, exige um novo nível de compreensão contextual, que vá além de eventos isolados e curtos para abranger o fluxo contínuo e longitudinal de vídeo egocêntrico. Realizar essa visão requer avanços na compreensão de vídeo de longo horizonte, onde os sistemas devem interpretar e recordar informações visuais e sonoras abrangendo dias ou mesmo semanas. Os métodos existentes, incluindo grandes modelos de linguagem e geração aumentada por recuperação, são limitados por janelas de contexto restritas e carecem da capacidade de realizar raciocínio composicional e multi-etapas sobre fluxos de vídeo muito longos. Neste trabalho, abordamos esses desafios por meio do EGAgent, uma estrutura agentiva aprimorada centrada em grafos de cena de entidades, que representam pessoas, lugares, objetos e suas relações ao longo do tempo. Nosso sistema equipa um agente de planejamento com ferramentas para busca estruturada e raciocínio sobre esses grafos, bem como capacidades híbridas de busca visual e sonora, permitindo um raciocínio detalhado, cross-modal e temporalmente coerente. Experimentos nos conjuntos de dados EgoLifeQA e Video-MME (Long) mostram que nosso método alcança desempenho de ponta no EgoLifeQA (57,5%) e desempenho competitivo no Video-MME (Long) (74,1%) para tarefas complexas de compreensão de vídeo longitudinal.
A percepção e interação no mundo real são inerentemente multimodais, abrangendo não apenas a linguagem, mas também a visão e a fala, o que motiva o desenvolvimento de MLLMs "Omni" que suportam entradas e saídas multimodais. Embora uma sequência de MLLMs omni tenha surgido, a maioria dos sistemas existentes ainda depende de componentes especializados adicionais para alcançar a geração multimodal, limitando a simplicidade do treinamento e inferência unificados. A modelagem autoregressiva (AR), com um único fluxo de tokens, um único objetivo de próximo token e um único decodificador, é uma base elegante e escalável no domínio textual. Motivados por isso, apresentamos o AR-Omni, um modelo unificado de qualquer-para-qualquer no paradigma autoregressivo, sem qualquer decodificador especializado. O AR-Omni suporta geração autoregressiva de texto e imagem, bem como geração de fala em fluxo contínuo, tudo sob um único decodificador Transformer. Abordamos ainda três questões práticas na modelagem AR unificada: desequilíbrio de modalidade via reponderação de perda consciente da tarefa, fidelidade visual via uma perda de alinhamento perceptual leve em nível de token para tokens de imagem, e compensações entre estabilidade e criatividade via um mecanismo de decodificação de estado finito. Empiricamente, o AR-Omni alcança alta qualidade nas três modalidades, mantendo-se em tempo real, atingindo um fator de tempo real de 0,88 para geração de fala.
Os modelos de incorporação de propósito geral demonstraram um desempenho robusto na recuperação de texto, mas permanecem subótimos para a recuperação de tabelas, onde o conteúdo altamente estruturado resulta em compressão semântica e incompatibilidade entre consulta e tabela. Métodos recentes de aumento de recuperação baseados em LLM mitigam essa questão gerando consultas sintéticas, porém frequentemente dependem de seleção heurística de tabelas parciais e raramente utilizam essas consultas sintéticas como supervisão para melhorar o modelo de incorporação. Apresentamos o CGPT, uma estrutura de treinamento que aprimora a recuperação de tabelas por meio de supervisão gerada por LLM. O CGPT constrói tabelas parciais semanticamente diversas agrupando instâncias de tabelas usando K-means e amostrando entre clusters para ampliar a cobertura semântica. Um LLM gera então consultas sintéticas para essas tabelas parciais, que são utilizadas em um ajuste contrastivo com negativos difíceis para refinar o modelo de incorporação. Experimentos em quatro benchmarks públicos (MimoTable, OTTQA, FetaQA e E2E-WTQ) mostram que o CGPT supera consistentemente as linhas de base de recuperação, incluindo QGpT, com uma melhoria média de 16,54% no R@1. Em um cenário unificado de corpus multidisciplinar, o CGPT demonstra ainda uma forte generalização entre domínios e mantém sua eficácia mesmo quando utiliza LLMs menores para geração de consultas sintéticas. Esses resultados indicam que a construção de tabelas parciais guiada semanticamente, combinada com treinamento contrastivo a partir de supervisão gerada por LLM, oferece um paradigma eficaz e escalável para recuperação de tabelas em larga escala. Nosso código está disponível em https://github.com/yumeow0122/CGPT.
Os agentes de LLM generalistas são frequentemente pós-treinados num conjunto restrito de ambientes, mas são implantados em domínios muito mais amplos e não vistos. Neste trabalho, investigamos o desafio do pós-treinamento agentivo quando os domínios de teste finais são desconhecidos. Especificamente, analisamos quais propriedades dos ambientes de aprendizagem por reforço (RL) e escolhas de modelagem têm a maior influência no desempenho fora do domínio. Primeiro, identificamos dois eixos ambientais que se correlacionam fortemente com a generalização cruzada de domínios: (i) a riqueza de informação do estado, ou seja, a quantidade de informação para o agente processar a partir do estado, e (ii) a complexidade de planeamento, estimada através da alcançabilidade do objetivo e do comprimento da trajetória sob uma política base. Notavelmente, o realismo do domínio e a similaridade a nível de texto não são os fatores primários; por exemplo, o domínio simples de mundo em grelha Sokoban leva a uma generalização ainda mais forte em SciWorld do que o ALFWorld mais realista. Motivados por estas descobertas, mostramos ainda que aumentar apenas a riqueza de informação do estado pode já melhorar efetivamente a robustez cruzada de domínios. Propomos uma técnica de randomização, de baixa sobrecarga e amplamente aplicável: adicionar pequenas quantidades de características distrativas irrelevantes para o objetivo ao estado para o tornar mais rico sem alterar a tarefa. Para além das propriedades do lado do ambiente, também examinamos várias escolhas de modelagem: (a) o aquecimento por SFT ou o treino intermédio ajuda a prevenir o esquecimento catastrófico durante o RL, mas prejudica a generalização para domínios que não estão incluídos na mistura de dados do treino intermédio; e (b) ativar o pensamento passo a passo durante o RL, embora nem sempre melhore o desempenho dentro do domínio, desempenha um papel crucial na preservação da generalização.
Ao aproveitar a destilação multi-professores, os backbones visuais aglomerativos fornecem um modelo de estudante unificado que retém e aprimora as capacidades distintas de múltiplos professores. Neste relatório técnico, descrevemos o lançamento mais recente da família de modelos C-RADIO, o C-RADIOv4, que se baseia no AM-RADIO/RADIOv2.5 em design, oferecendo fortes melhorias em tarefas downstream-chave com a mesma complexidade computacional. Lançamos as variantes de modelo -SO400M (412M de parâmetros) e -H (631M), ambas treinadas com um conjunto atualizado de professores: SigLIP2, DINOv3 e SAM3. Além das melhorias nas métricas principais e das novas capacidades provenientes da imitação do SAM3, a família de modelos C-RADIOv4 aprimora ainda mais o suporte a qualquer resolução, traz de volta a opção ViTDet para eficiência drasticamente aprimorada em alta resolução, e é acompanhada por uma licença permissiva.
Os dados de séries temporais são ubíquos em cenários do mundo real e cruciais para aplicações críticas que vão desde a gestão de energia até o controle de tráfego. Consequentemente, a capacidade de raciocinar sobre séries temporais é uma competência fundamental para modelos generalistas resolverem problemas práticos. No entanto, esta dimensão está notavelmente ausente dos benchmarks existentes para modelos generalistas. Para preencher esta lacuna, introduzimos o TSRBench, um benchmark multimodal abrangente projetado para testar rigorosamente todo o espectro de capacidades de raciocínio sobre séries temporais. O TSRBench apresenta: i) um conjunto diversificado de 4125 problemas de 14 domínios, categorizado em 4 dimensões principais: Percepção, Raciocínio, Previsão e Tomada de Decisão; ii) 15 tarefas das 4 dimensões que avaliam capacidades essenciais de raciocínio (por exemplo, raciocínio numérico). Através de experimentos extensivos, avaliamos mais de 30 LLMs, VLMs e TSLLMs líderes, proprietários e de código aberto, dentro do TSRBench. Nossas descobertas revelam que: i) as leis de escala valem para perceção e raciocínio, mas falham na previsão; ii) um raciocínio forte não garante uma previsão contextual precisa, indicando um desacoplamento entre a compreensão semântica e a previsão numérica; e iii) apesar da natureza complementar das representações textuais e visuais de séries temporais como entradas, os modelos multimodais atuais não conseguem fundi-las eficazmente para obter ganhos recíprocos de desempenho. O TSRBench fornece uma plataforma de avaliação padronizada que não só destaca os desafios existentes, mas também oferece insights valiosos para avançar os modelos generalistas. O nosso código e conjunto de dados estão disponíveis em https://tsrbench.github.io/.
Modelos de geração de vídeo em larga escala demonstraram coerência física emergente, posicionando-os como potenciais modelos de mundo. No entanto, persiste uma lacuna entre as arquiteturas de vídeo "sem estado" contemporâneas e as teorias clássicas de modelos de mundo centradas em estado. Este trabalho preenche essa lacuna propondo uma nova taxonomia centrada em dois pilares: Construção de Estado e Modelagem de Dinâmicas. Categorizamos a construção de estado em paradigmas implícitos (gerenciamento de contexto) e explícitos (compressão latente), enquanto a modelagem de dinâmicas é analisada por meio da integração de conhecimento e da reformulação arquitetônica. Além disso, defendemos uma transição na avaliação da fidelidade visual para *benchmarks* funcionais, testando a persistência física e o raciocínio causal. Concluímos identificando duas fronteiras críticas: aprimorar a persistência por meio de memória orientada a dados e fidelidade compactada, e avançar a causalidade por meio do desacoplamento de fatores latentes e da integração de *priors* de raciocínio. Ao enfrentar esses desafios, a área pode evoluir da geração de vídeos visualmente plausíveis para a construção de simuladores de mundo robustos e de propósito geral.
A geração de vídeo serve como pedra angular para a construção de modelos de mundo, onde a inferência contextual multimodal representa o teste definitivo de capacidade. Para este fim, apresentamos o SkyReels-V3, um modelo de geração de vídeo condicional, construído sobre um framework unificado de aprendizado in-context multimodal com Transformers de difusão. O modelo SkyReels-V3 suporta três paradigmas gerativos centrais em uma única arquitetura: síntese de imagens de referência para vídeo, extensão de vídeo para vídeo e geração de vídeo guiada por áudio. (i) O modelo de imagens de referência para vídeo é projetado para produzir vídeos de alta fidelidade com forte preservação da identidade do sujeito, coerência temporal e consistência narrativa. Para melhorar a aderência à referência e a estabilidade composicional, projetamos um pipeline abrangente de processamento de dados que aproveita o emparelhamento cruzado de frames, edição de imagem e reescrita semântica, mitigando efetivamente artefatos do tipo "copiar e colar". Durante o treinamento, uma estratégia híbrida de imagem e vídeo combinada com otimização conjunta de multi-resolução é empregada para melhorar a generalização e robustez em diversos cenários. (ii) O modelo de extensão de vídeo integra a modelagem de consistência espaço-temporal com a compreensão de vídeo em larga escala, permitindo tanto a continuação contínua de tomada única quanto a transição inteligente entre múltiplas tomadas com padrões cinematográficos profissionais. (iii) O modelo de avatar falante suporta a geração de vídeo condicionada por áudio em nível de minutos, treinando padrões de inserção de primeiro e último frame e reconstruindo paradigmas de inferência de key-frames. Com base na garantia da qualidade visual, a sincronização de áudio e vídeo foi otimizada. Avaliações extensivas demonstram que o SkyReels-V3 alcança desempenho state-of-the-art ou próximo dele em métricas-chave, incluindo qualidade visual, seguimento de instruções e métricas de aspectos específicos, aproximando-se de sistemas líderes de código fechado. Github: https://github.com/SkyworkAI/SkyReels-V3.
A recuperação de tabelas é a tarefa de recuperar as tabelas mais relevantes de grandes corpora, dadas consultas em linguagem natural. No entanto, as discrepâncias estruturais e semânticas entre texto não estruturado e tabelas estruturadas tornam o alinhamento de *embeddings* particularmente desafiador. Métodos recentes, como o QGpT, tentam enriquecer a semântica das tabelas gerando consultas sintéticas, mas ainda dependem de amostragem grosseira de tabelas parciais e estratégias de fusão simples, o que limita a diversidade semântica e dificulta o alinhamento efetivo entre consulta e tabela. Propomos o STAR (*Semantic Table Representation*), um *framework* leve que melhora a representação semântica de tabelas por meio de agrupamento semântico e fusão ponderada. O STAR aplica primeiro o agrupamento K-means com consciência de cabeçalho para agrupar linhas semanticamente similares e seleciona instâncias centróides representativas para construir uma tabela parcial diversificada. Em seguida, gera consultas sintéticas específicas por cluster para cobrir de forma abrangente o espaço semântico da tabela. Por fim, o STAR emprega estratégias de fusão ponderada para integrar os *embeddings* da tabela e da consulta, permitindo um alinhamento semântico de granularidade fina. Este projeto permite que o STAR capture informações complementares de fontes estruturadas e textuais, melhorando a expressividade das representações de tabela. Experimentos em cinco *benchmarks* mostram que o STAR alcança um *Recall* consistentemente maior do que o QGpT em todos os conjuntos de dados, demonstrando a eficácia do agrupamento semântico e da fusão ponderada adaptativa para uma representação robusta de tabelas. O nosso código está disponível em https://github.com/adsl135789/STAR.
Apesar da crescente adoção de grandes modelos de linguagem (LLMs) nos fluxos de trabalho de pesquisa científica, o suporte automatizado para a réplica académica, uma etapa crucial na comunicação académica e na revisão por pares, permanece largamente inexplorado. As abordagens existentes geralmente dependem de LLMs padrão ou de pipelines simples, que lutam com a compreensão de contexto longo e frequentemente falham em produzir respostas direcionadas e persuasivas. Neste artigo, propomos o DRPG, uma estrutura agentiva para a geração automática de réplicas académicas que opera através de quatro etapas: Decompor as revisões em preocupações atómicas, Recuperar evidências relevantes do artigo, Planear estratégias de réplica e Gerar respostas em conformidade. Notavelmente, o Planeador no DRPG atinge mais de 98% de precisão na identificação da direção de réplica mais viável. Experiências com dados de conferências de topo demonstram que o DRPG supera significativamente os pipelines de réplica existentes e atinge um desempenho além do nível humano médio, utilizando apenas um modelo de 8B. A nossa análise demonstra ainda a eficácia do design do planeador e o seu valor em fornecer sugestões multi-perspetiva e explicáveis. Também mostrámos que o DRPG funciona bem num cenário multi-round mais complexo. Estes resultados destacam a eficácia do DRPG e o seu potencial para fornecer conteúdo de réplica de alta qualidade e apoiar a escalabilidade das discussões académicas. Os códigos para este trabalho estão disponíveis em https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Muitos modelos Visão-Linguagem-Ação (VLA) achatam os patches de imagem em uma sequência unidimensional de tokens, enfraquecendo as pistas espaciais 2D necessárias para uma manipulação precisa. Apresentamos o IVRA, um método leve e livre de treinamento que melhora a compreensão espacial explorando dicas de afinidade já disponíveis no codificador visual integrado do modelo, sem exigir qualquer codificador externo ou retreinamento. O IVRA injeta seletivamente esses sinais de afinidade em uma camada do modelo de linguagem onde residem as características em nível de instância. Esta intervenção em tempo de inferência realinha as interações visual-token e preserva melhor a estrutura geométrica, mantendo todos os parâmetros do modelo fixos. Demonstramos a generalidade do IVRA aplicando-o a diversas arquiteturas VLA (LLaRA, OpenVLA e FLOWER) em benchmarks simulados abrangendo manipulação 2D e 3D (VIMA e LIBERO) e em várias tarefas com robôs reais. No VIMA 2D, o IVRA melhora o sucesso médio em +4,2% sobre a linha de base LLaRA em um regime de poucos dados. No LIBERO 3D, produz ganhos consistentes sobre as linhas de base OpenVLA e FLOWER, incluindo melhorias quando a precisão da linha de base está próxima da saturação (96,3% para 97,1%). Todo o código e modelos serão liberados publicamente. Visualizações estão disponíveis em: jongwoopark7978.github.io/IVRA.
Os agentes de busca profunda, que visam responder a perguntas complexas exigindo raciocínio em múltiplos documentos, podem acelerar significativamente o processo de busca por informação. A recolha de anotações humanas para esta aplicação é proibitivamente cara devido às trajetórias de exploração longas e complexas. Propomos um pipeline agentivo que gera automaticamente pares pergunta-resposta de busca profunda, de alta qualidade e com dificuldade controlada, para um determinado corpus e um nível de dificuldade alvo. O nosso pipeline, SAGE, consiste num gerador de dados que propõe pares QA e num agente de busca que tenta resolver a pergunta gerada e fornecer *feedback* de execução ao gerador de dados. Os dois componentes interagem ao longo de múltiplas rondas para refinar iterativamente os pares pergunta-resposta até estes satisfazerem o nível de dificuldade alvo. A nossa avaliação intrínseca mostra que o SAGE gera perguntas que exigem estratégias de raciocínio diversificadas, aumentando simultaneamente a correção e a dificuldade dos dados gerados. A nossa avaliação extrínseca demonstra um ganho de desempenho relativo de até 23% em *benchmarks* populares de busca profunda, ao treinar agentes de busca profunda com os nossos dados sintéticos. Experiências adicionais mostram que agentes treinados com os nossos dados conseguem adaptar-se da recuperação em corpus fixo para a Pesquisa Google durante a inferência, sem treino adicional.
Os sistemas de agentes convencionais frequentemente enfrentam dificuldades em ambientes abertos, onde as distribuições de tarefas mudam continuamente e a supervisão externa é escassa. Sua dependência de conjuntos de ferramentas estáticos ou treinamento offline fica aquém dessas dinâmicas, deixando os limites de capacidade do sistema rígidos e desconhecidos. Para resolver isso, propomos o paradigma de Autoevolução In Situ. Esta abordagem trata as interações sequenciais de tarefas como um fluxo contínuo de experiência, permitindo que o sistema destile o feedback de execução de curto prazo em capacidades reutilizáveis de longo prazo, sem acesso a rótulos de verdade fundamental. Dentro deste quadro, identificamos a evolução de ferramentas como o caminho crítico para a expansão de capacidades, que fornece sinais de feedback binários e verificáveis. Neste contexto, desenvolvemos o Agente Yunjue, um sistema que sintetiza, otimiza e reutiliza ferramentas iterativamente para enfrentar desafios emergentes. Para otimizar a eficiência evolutiva, introduzimos ainda uma estratégia de Evolução em Lote Paralelo. Avaliações empíricas em cinco benchmarks diversos, sob uma configuração de início zero, demonstram ganhos significativos de desempenho em comparação com baselines proprietárias. Adicionalmente, avaliações complementares de início aquecido confirmam que o conhecimento geral acumulado pode ser transferido perfeitamente para novos domínios. Por fim, propomos uma nova métrica para monitorar a convergência da evolução, funcionando como um análogo à perda de treinamento na otimização convencional. Disponibilizamos publicamente nosso código-base, traços do sistema e ferramentas evoluídas para facilitar pesquisas futuras em inteligência resiliente e autoevolutiva.
Uma das características mais convincentes dos modelos de linguagem de difusão discreta global é sua capacidade contextual bidirecional global. No entanto, os estudos existentes sobre difusão baseada em blocos tendem a introduzir premissas autorregressivas que, embora ofereçam benefícios, podem fazer com que os modelos percam essa coerência global em nível macro. Para recuperar a compreensão contextual global enquanto preservamos as vantagens do paradigma semiautorregressivo, propomos o Difusão na Difusão, uma estrutura "rascunhar-depois-refinar" projetada para superar os problemas de irreversibilidade e miopia inerentes aos modelos de difusão em blocos. Nossa abordagem emprega primeiro a difusão em blocos para gerar rascunhos rápidos usando blocos pequenos e, em seguida, refina esses rascunhos por meio de difusão bidirecional global com um campo receptivo bidirecional maior. Utilizamos o remascaramento de confiança por instantâneo para identificar os tokens mais críticos que requerem modificação e aplicamos o treinamento em escala mista para expandir as capacidades globais do modelo de difusão em blocos. Resultados empíricos demonstram que nossa abordagem estabelece um novo padrão de referência para modelos de difusão discreta no conjunto de dados OpenWebText. Utilizando apenas 26% do orçamento de ajuste fino dos modelos de base, reduzimos a perplexidade gerativa de 25,7 para 21,9, estreitando significativamente a lacuna de desempenho com modelos autorregressivos.
A gestão eficiente da cache de pares chave-valor (KV) é crucial para a implantação prática de grandes modelos de linguagem (LLMs), mas as técnicas de compressão existentes frequentemente incorrem num compromisso entre degradação de desempenho e sobrecarga computacional. Propomos um novo método de evicção da cache KV baseado em portões para LLMs com pesos congelados, que alcança altas taxas de compressão com um custo computacional insignificante. A nossa abordagem introduz módulos leves de portões com atenção de sumidouro para identificar e reter pares KV críticos, e integra-se perfeitamente tanto na fase de pré-preenchimento como na de descodificação. O algoritmo de treino dos portões proposto baseia-se em passes diretos de um LLM, evitando a retropropagação dispendiosa, enquanto alcança uma forte generalização de tarefas através de um objetivo de reconstrução independente da tarefa. Experiências extensivas nas famílias Qwen2.5-1M, Qwen3 e Gemma3 mostram que o nosso método mantém um desempenho quase sem perdas enquanto evita até 70% da cache KV. Os resultados são consistentes numa ampla gama de tarefas, incluindo compreensão de contexto longo, compreensão de código e raciocínio matemático, demonstrando a generalidade da nossa abordagem.
O Alinhamento de Grandes Modelos de Linguagem (LLMs) visa alinhar as saídas com as preferências humanas, e o alinhamento personalizado adapta ainda mais os modelos a utilizadores individuais. Isto depende de modelos de recompensa personalizados que capturam preferências específicas do utilizador e fornecem automaticamente *feedback* individualizado. No entanto, o desenvolvimento destes modelos enfrenta dois desafios críticos: a escassez de *feedback* de utilizadores individuais e a necessidade de uma adaptação eficiente a utilizadores não vistos. Argumentamos que abordar estas restrições requer uma mudança de paradigma, passando de ajustar dados para aprender preferências do utilizador para aprender o processo de adaptação de preferências. Para concretizar isto, propomos a Modelação de Recompensa Meta (MRM), que reformula a modelação de recompensa personalizada como um problema de *meta-learning*. Especificamente, representamos o modelo de recompensa de cada utilizador como uma combinação ponderada de funções de recompensa base, e otimizamos a inicialização destes pesos usando uma estrutura do tipo Model-Agnostic Meta-Learning (MAML) para suportar uma adaptação rápida com *feedback* limitado. Para garantir robustez, introduzimos o Objetivo de Personalização Robusta (RPO), que coloca maior ênfase nos utilizadores difíceis de aprender durante a meta-otimização. Experiências extensas em conjuntos de dados de preferências personalizadas validam que a MRM melhora a personalização com poucos exemplos, aumenta a robustez do utilizador e supera consistentemente os métodos de comparação.
A alternância de códigos é uma prática generalizada entre a maioria multilíngue mundial, porém poucos benchmarks refletem com precisão sua complexidade na comunicação cotidiana. Apresentamos o PingPong, um benchmark para diálogos naturais de alternância de códigos multiparticipantes, abrangendo cinco variações de combinações linguísticas, algumas das quais são trilíngues. Nosso conjunto de dados consiste em conversas elaboradas por humanos entre 2 a 4 participantes, cobrindo estruturas autênticas e multithread onde as respostas frequentemente referenciam pontos muito anteriores no diálogo. Demonstramos que nossos dados são significativamente mais naturais e estruturalmente diversificados do que alternativas geradas por máquina, oferecendo maior variação no comprimento das mensagens, dominância do falante e distância de resposta. Com base nesses diálogos, definimos três tarefas derivadas: Resposta a Perguntas, Sumarização de Diálogos e Classificação de Tópicos. Avaliações de vários modelos de linguagem state-of-the-art no PingPong revelam que o desempenho permanece limitado em entradas com alternância de códigos, destacando a necessidade urgente de sistemas de PLN mais robustos capazes de abordar as complexidades do discurso multilíngue do mundo real.
Os modelos Mixture-of-Experts (MoE) são tipicamente pré-treinados com restrições explícitas de balanceamento de carga para garantir um roteamento de especialistas estatisticamente equilibrado. Apesar disso, observamos que mesmo modelos MoE bem treinados exibem roteamento significativamente desequilibrado. Este comportamento é indiscutivelmente natural - e até mesmo desejável - pois o roteamento desequilibrado permite que os modelos concentrem conhecimento específico de domínio dentro de um subconjunto de especialistas. O paralelismo de especialistas (EP) é projetado para escalar modelos MoE distribuindo especialistas por múltiplos dispositivos, mas com uma suposição pouco discutida de roteamento equilibrado. Sob desequilíbrio extremo, o EP pode canalizar um número desproporcional de tokens para um pequeno número de especialistas, levando a falhas por limitação de computação e memória em dispositivos sobrecarregados durante o pós-treinamento ou inferência, onde o balanceamento explícito de carga geralmente não é aplicável. Propomos o Paralelismo de Especialistas de Menor Carga (LLEP), um algoritmo de EP inovador que rerroteia dinamicamente tokens excedentes e os parâmetros de especialistas associados de dispositivos sobrecarregados para subutilizados. Isso garante que todos os dispositivos completem suas cargas de trabalho dentro da latência coletiva mínima, respeitando as restrições de memória. Em diferentes escalas de modelo, o LLEP alcança até 5x de aceleração e redução de 4x no uso de memória de pico em comparação com o EP padrão. Isso permite pós-treinamento e inferência mais rápidos e com maior throughput, sendo ~1,9x mais rápido para o gpt-oss-120b. Suportamos nosso método com extensa análise teórica e avaliações empíricas abrangentes, incluindo estudos de ablação. Esses resultados elucidam compensações fundamentais e permitem uma estrutura fundamentada para ajuste de hiperparâmetros específicos de hardware para alcançar desempenho ótimo.
A transcrição precisa e a diarização de falantes em interações faladas entre crianças e adultos são cruciais para a pesquisa clínica e do desenvolvimento. No entanto, a anotação manual é demorada e de difícil escalonamento. Os sistemas automatizados existentes normalmente dependem de pipelines em cascata de diarização de falantes e reconhecimento de fala, o que pode levar à propagação de erros. Este artigo apresenta uma estrutura unificada de fim-para-fim que estende a arquitetura codificador-decodificador do Whisper para modelar conjuntamente o ASR e a diarização do papel do falante (criança/adulto). A abordagem proposta integra: (i) um esquema de treinamento de saída serializada que emite etiquetas de falante e carimbos de data/hora de início/fim, (ii) um cabeçalho de diarização leve a nível de *frame* que aprimora as representações codificadoras discriminativas do falante, (iii) supressão de silêncio guiada por diarização para melhor precisão temporal, e (iv) um procedimento de decodificação forçada baseado em máquina de estados que garante saídas estruturalmente válidas. Avaliações abrangentes em dois conjuntos de dados demonstram melhorias consistentes e substanciais em relação a duas linhas de base em cascata, alcançando menores taxas de erro de palavras em falantes múltiplos e demonstrando precisão de diarização competitiva nos modelos Whisper-small e Whisper-large. Esses achados destacam a eficácia e a utilidade prática da estrutura de modelagem conjunta proposta para gerar transcrições confiáveis, com atribuição de falante, de interações criança-adulto em escala. O código e os pesos do modelo estão publicamente disponíveis.
À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) adquirem capacidades de raciocínio mais fortes para lidar com instruções complexas envolvendo múltiplas imagens, este avanço pode representar novos riscos de segurança. Estudamos este problema através da introdução do MIR-SafetyBench, o primeiro benchmark focado na segurança do raciocínio multimodal com múltiplas imagens, que consiste em 2.676 instâncias distribuídas por uma taxonomia de 9 relações multimodais. As nossas avaliações extensivas em 19 MLLMs revelam uma tendência preocupante: modelos com capacidades de raciocínio multimodal mais avançadas podem ser mais vulneráveis no MIR-SafetyBench. Para além das taxas de sucesso de ataques, descobrimos que muitas respostas classificadas como seguras são superficiais, frequentemente impulsionadas por mal-entendidos ou por respostas evasivas e não comprometidas. Observámos ainda que as gerações inseguras exibem, em média, uma entropia de atenção mais baixa do que as seguras. Esta assinatura interna sugere um possível risco de os modelos poderem concentrar-se excessivamente na resolução da tarefa, negligenciando as restrições de segurança. O nosso código e dados estão disponíveis em https://github.com/thu-coai/MIR-SafetyBench.
Os agentes de busca baseados em LLM (Large Language Models) estão a ser cada vez mais utilizados para tarefas de busca de informação multi-etapa, contudo, a comunidade de RI (Recuperação de Informação) carece de uma compreensão empírica de como as sessões de busca agentivas se desenrolam e de como as evidências recuperadas são utilizadas. Este artigo apresenta uma análise de logs em larga escala da busca agentiva, baseada em 14,44 milhões de pedidos de busca (3,97 milhões de sessões) recolhidos do DeepResearchGym, ou seja, uma API de busca de código aberto acedida por clientes agentivos externos. Nós organizamos os logs em sessões, atribuímos intenções a nível de sessão e etiquetas de reformulação de consulta passo a passo usando anotação baseada em LLM, e propomos a Taxa de Adoção de Termos Orientada por Contexto (CTAR) para quantificar se os termos de consulta recentemente introduzidos são rastreáveis a evidências previamente recuperadas. As nossas análises revelam padrões comportamentais distintos. Primeiro, mais de 90% das sessões multi-turno contêm no máximo dez passos, e 89% dos intervalos entre passos são inferiores a um minuto. Segundo, o comportamento varia consoante a intenção. Sessões de busca factual exibem alta repetição que aumenta ao longo do tempo, enquanto sessões que requerem raciocínio mantêm uma exploração mais ampla. Terceiro, os agentes reutilizam evidências entre passos. Em média, 54% dos termos de consulta recentemente introduzidos aparecem no contexto de evidência acumulada, com contribuições de passos anteriores para além da recuperação mais recente. Os resultados sugerem que a busca agentiva pode beneficiar de uma paragem antecipada consciente da repetição, orçamentos de recuperação adaptáveis à intenção e um acompanhamento explícito do contexto entre passos. Planeamos disponibilizar os logs anonimizados para apoiar investigação futura.
As matrizes de atenção são fundamentais para a pesquisa em transformadores, suportando uma ampla gama de aplicações, incluindo interpretabilidade, visualização, manipulação e destilação. No entanto, a maioria das análises existentes concentra-se em cabeças ou camadas de atenção individuais, não considerando o comportamento global do modelo. Embora esforços anteriores tenham estendido as formulações de atenção através de múltiplas cabeças via média e multiplicações de matrizes, ou incorporado componentes como normalização e FFNs, ainda falta uma representação unificada e completa que encapsule todos os blocos do transformador. Nós abordamos esta lacuna introduzindo o TensorLens, uma nova formulação que captura o transformador inteiro como um único operador linear dependente da entrada, expresso através de um tensor de interação-atenção de alta ordem. Este tensor codifica conjuntamente a atenção, FFNs, ativações, normalizações e conexões residuais, oferecendo uma representação linear teoricamente coerente e expressiva da computação do modelo. O TensorLens é teoricamente fundamentado e nossa validação empírica mostra que ele produz representações mais ricas do que métodos anteriores de agregação de atenção. Nossos experimentos demonstram que o tensor de atenção pode servir como uma base poderosa para o desenvolvimento de ferramentas voltadas à interpretabilidade e compreensão do modelo. Nosso código está anexado como material suplementar.
O design de interfaces de utilizador (IU) é uma etapa crítica no lançamento de produtos, construção de portfólios ou personalização de projetos. No entanto, utilizadores finais sem conhecimentos de design frequentemente têm dificuldade em articular a sua intenção e em confiar nas escolhas de design. As ferramentas existentes baseadas em exemplos ou promovem uma exploração ampla, o que pode causar sobrecarga e deriva de design, ou exigem a adaptação de um único exemplo, arriscando a fixação de design. Apresentamos o UI Remix, um sistema interativo que suporta o design de IU móvel através de um fluxo de trabalho de design orientado por exemplos. Alimentado por um modelo de geração aumentada por recuperação multimodal (MMRAG), o UI Remix permite a pesquisa iterativa, seleção e adaptação de exemplos tanto a nível global (interface completa) como local (componente). Para fomentar a confiança, apresenta pistas de transparência da fonte, como classificações, contagens de download e informações do desenvolvedor. Num estudo empírico com 24 utilizadores finais, o UI Remix melhorou significativamente a capacidade dos participantes em alcançar os seus objetivos de design, facilitou a iteração eficaz e incentivou a exploração de designs alternativos. Os participantes também relataram que as pistas de transparência da fonte aumentaram a sua confiança na adaptação dos exemplos. As nossas descobertas sugerem novas direções para sistemas orientados por exemplos e assistidos por IA que capacitam os utilizadores finais a projetar com maior controlo, confiança e abertura à exploração.
Os Grandes Modelos de Linguagem estão sendo cada vez mais otimizados para o raciocínio profundo, priorizando a execução correta de tarefas complexas em detrimento da conversação geral. Investigamos se este foco no cálculo cria uma "visão em túnel" que ignora a segurança em situações críticas. Apresentamos o MortalMATH, um benchmark de 150 cenários em que os usuários solicitam ajuda com álgebra enquanto descrevem emergências cada vez mais ameaçadoras à vida (por exemplo, sintomas de AVC, queda livre). Descobrimos uma divisão comportamental acentuada: modelos generalistas (como o Llama-3.1) recusam-se com sucesso a fazer os cálculos para abordar o perigo. Em contraste, modelos especializados em raciocínio (como o Qwen-3-32b e o GPT-5-nano) frequentemente ignoram completamente a emergência, mantendo taxas de conclusão da tarefa superiores a 95% enquanto o usuário descreve que está morrendo. Além disso, o tempo computacional necessário para o raciocínio introduz atrasos perigosos: até 15 segundos antes que qualquer ajuda potencial seja oferecida. Estes resultados sugerem que treinar modelos para perseguir incansavelmente respostas corretas pode, inadvertidamente, fazer com que eles desaprendam os instintos de sobrevivência necessários para uma implantação segura.
O aprendizado por reforço (RL) tem demonstrado resultados promissores no controle ativo de fluxo (AFC), mas o progresso na área permanece difícil de avaliar, uma vez que os estudos existentes dependem de esquemas heterogêneos de observação e atuação, configurações numéricas e protocolos de avaliação. Os benchmarks atuais de AFC tentam resolver essas questões, mas dependem fortemente de solucionadores externos de dinâmica dos fluidos computacional (CFD), não são totalmente diferenciáveis e oferecem suporte limitado para ambientes 3D e multiagente. Para superar essas limitações, apresentamos o FluidGym, o primeiro conjunto de benchmarks autônomo e totalmente diferenciável para RL em AFC. Construído inteiramente em PyTorch sobre o solucionador PICT acelerado por GPU, o FluidGym opera em uma única pilha Python, não requer software externo de CFD e fornece protocolos de avaliação padronizados. Apresentamos resultados de linha de base com PPO e SAC e disponibilizamos todos os ambientes, conjuntos de dados e modelos treinados como recursos públicos. O FluidGym permite a comparação sistemática de métodos de controle, estabelece uma base escalável para pesquisas futuras em controle de fluxo baseado em aprendizado e está disponível em https://github.com/safe-autonomous-systems/fluidgym.
A compressão de tokens visuais é amplamente adotada para melhorar a eficiência de inferência de Grandes Modelos de Linguagem e Visão (LVLMs), permitindo sua implantação em cenários sensíveis à latência e com recursos limitados. No entanto, os trabalhos existentes concentraram-se principalmente na eficiência e no desempenho, enquanto as implicações de segurança da compressão de tokens visuais permanecem amplamente inexploradas. Neste trabalho, revelamos primeiro que a compressão de tokens visuais degrada substancialmente a robustez dos LVLMs: modelos que são robustos sob inferência não comprimida tornam-se altamente vulneráveis uma vez que a compressão é ativada. Essas vulnerabilidades são específicas do estado; modos de falha emergem apenas no cenário comprimido e desaparecem completamente quando a compressão é desativada, tornando-os particularmente ocultos e difíceis de diagnosticar. Ao analisar os estágios-chave do processo de compressão, identificamos a instabilidade na classificação de importância dos tokens como a causa principal dessa degradação da robustez. Pequenas e imperceptíveis perturbações podem alterar significativamente as classificações dos tokens, levando o mecanismo de compressão a descartar erroneamente informações críticas para a tarefa e, por fim, causando falha do modelo. Motivados por essa observação, propomos um Ataque Consciente da Compressão para estudar e explorar sistematicamente essa vulnerabilidade. O CAA tem como alvo direto o mecanismo de seleção de tokens e induz falhas exclusivamente sob inferência comprimida. Estendemos ainda mais essa abordagem para cenários mais realistas de caixa-preta e introduzimos o Transfer CAA, onde nem o modelo alvo nem a configuração de compressão são acessíveis. Avaliamos ainda possíveis defesas e descobrimos que elas oferecem apenas proteção limitada. Experimentos extensos em modelos, conjuntos de dados e métodos de compressão mostram que a compressão de tokens visuais prejudica significativamente a robustez, revelando uma compensação entre eficiência e segurança anteriormente negligenciada.
A confiabilidade dos Modelos de Linguagem de Grande Porte (LLMs) em domínios de alta responsabilidade, como saúde, direito e descoberta científica, é frequentemente comprometida por alucinações. Essas falhas geralmente decorrem de duas fontes: alucinações orientadas por dados e alucinações orientadas por raciocínio. No entanto, os métodos de deteção existentes geralmente abordam apenas uma fonte e dependem de heurísticas específicas da tarefa, limitando sua generalização para cenários complexos. Para superar essas limitações, introduzimos o Limite de Risco de Alucinação, uma estrutura teórica unificada que decompõe formalmente o risco de alucinação em componentes orientados por dados e orientados por raciocínio, ligados respetivamente a discrepâncias no momento do treino e a instabilidades no momento da inferência. Isto fornece uma base fundamentada para analisar como as alucinações emergem e evoluem. Com base nesta fundação, introduzimos o HalluGuard, uma pontuação baseada em NTK que aproveita a geometria induzida e as representações capturadas pelo NTK para identificar conjuntamente alucinações orientadas por dados e orientadas por raciocínio. Avaliamos o HalluGuard em 10 benchmarks diversos, 11 linhas de base competitivas e 9 arquiteturas populares de LLMs, alcançando consistentemente um desempenho de última geração na deteção de diversas formas de alucinações em LLMs.
O Mixture-of-Agents (MoA) melhora o desempenho de LLMs através de uma colaboração em camadas, mas a sua topologia densa aumenta os custos e a latência. Os métodos existentes utilizam LLMs como juízes para filtrar respostas, mas ainda exigem que todos os modelos realizem inferência antes da avaliação, não conseguindo reduzir custos de forma eficaz. Além disso, carecem de critérios de seleção de modelos e têm dificuldades com pools de modelos grandes, onde a inferência completa é dispendiosa e pode exceder os limites de contexto. Para resolver isto, propomos o RouteMoA, um framework eficiente de mixture-of-agents com roteamento dinâmico. Este emprega um avaliador leve para realizar uma triagem inicial, prevendo o desempenho de alto nível a partir da consulta, restringindo os candidatos a um subconjunto de alto potencial sem necessidade de inferência. Uma mistura de juízes refina então estas pontuações através de uma autoavaliação e avaliação cruzada leve, baseada nas saídas existentes dos modelos, fornecendo uma correção posterior sem inferência adicional. Finalmente, um mecanismo de classificação de modelos seleciona os modelos equilibrando desempenho, custo e latência. O RouteMoA supera o MoA em várias tarefas e tamanhos de pool de modelos, reduzindo o custo em 89,8% e a latência em 63,6% no pool de modelos de grande escala.
A morfologia 3D texturizada visa gerar transições suaves e plausíveis entre dois ativos 3D, preservando tanto a coerência estrutural quanto a aparência de alto detalhe. Essa capacidade é crucial não apenas para avançar a pesquisa em geração 3D, mas também para aplicações práticas em animação, edição e criação de conteúdo digital. As abordagens existentes operam diretamente na geometria, limitando-se à morfologia apenas da forma e negligenciando as texturas, ou estendem estratégias de interpolação 2D para 3D, o que frequentemente causa ambiguidade semântica, desalinhamento estrutural e borramento de textura. Esses desafios ressaltam a necessidade de preservar conjuntamente a consistência geométrica, o alinhamento de textura e a robustez durante todo o processo de transição. Para resolver isso, propomos o Interp3D, uma nova estrutura *training-free* para morfologia 3D texturizada. Ele aproveita *priors* generativos e adota um princípio de alinhamento progressivo para garantir fidelidade geométrica e coerência de textura. Partindo de uma interpolação semanticamente alinhada no espaço de condições, o Interp3D impõe consistência estrutural via interpolação da estrutura guiada por SLAT (*Structured Latent*) e, finalmente, transfere detalhes de aparência através de uma fusão de textura de alto detalhe. Para avaliações abrangentes, construímos um conjunto de dados dedicado, o Interp3DData, com níveis de dificuldade graduados, e avaliamos os resultados de geração com base em fidelidade, suavidade da transição e plausibilidade. Tanto métricas quantitativas quanto estudos com humanos demonstram as vantagens significativas de nossa abordagem proposta em relação a métodos anteriores. O código-fonte está disponível em https://github.com/xiaolul2/Interp3D.