Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem recursivos ou em loop surgiram recentemente como um novo eixo de escalonamento, refinando iterativamente o mesmo cálculo do modelo sobre estados latentes para aprofundar o raciocínio. Estendemos esse princípio de escalonamento de um único modelo para sistemas multiagente e questionamos: A própria colaboração entre agentes pode ser escalada através de recursão? Para isso, introduzimos o RecursiveMAS, uma estrutura multiagente recursiva que transforma todo o sistema em um cálculo recursivo unificado no espaço latente. O RecursiveMAS conecta agentes heterogêneos como um loop de colaboração através do módulo leve RecursiveLink, permitindo a geração de pensamentos latentes dentro da distribuição e a transferência de estados latentes entre agentes. Para otimizar nossa estrutura, desenvolvemos um algoritmo de aprendizado de loop interno-externo para co-otimização iterativa de todo o sistema através da atribuição de crédito baseada em gradiente compartilhado entre rodadas recursivas. Análises teóricas da complexidade de tempo de execução e da dinâmica de aprendizado estabelecem que o RecursiveMAS é mais eficiente do que os MAS baseados em texto padrão e mantém gradientes estáveis durante o treinamento recursivo. Empiricamente, instanciamos o RecursiveMAS sob 4 padrões representativos de colaboração de agentes e avaliamos em 9 benchmarks abrangendo matemática, ciências, medicina, pesquisa e geração de código. Em comparação com baselines avançados de agente único/multiagente e computação recursiva, o RecursiveMAS proporciona consistentemente uma melhoria média de precisão de 8,3%, juntamente com uma aceleração de inferência de ponta a ponta de 1,2x a 2,4x, e uma redução de uso de tokens de 34,6% a 75,6%. Código e Dados são fornecidos em https://recursivemas.github.io.
A transferência confiável de conhecimento humano especializado a partir de texto para grandes modelos de linguagem continua sendo um desafio fundamental na inteligência artificial. O ajuste fino em corpora de domínio permitiu ganhos substanciais de capacidade, mas o processo opera sem feedback: quando um modelo falha em uma tarefa de domínio, não há um método para diagnosticar o que é deficiente nos dados de treinamento, e o único recurso é adicionar mais dados indiscriminadamente. Aqui demonstramos que, quando uma representação de conhecimento estruturada extraída do corpus fonte serve como base compartilhada para dados de treinamento e avaliação, o ciclo de vida completo da engenharia de dados mapeia-se no ciclo de vida de desenvolvimento de software de forma precisa e operativa: os dados de treinamento tornam-se código fonte especificando o que o modelo deve aprender, o treinamento do modelo torna-se compilação, a avaliação comparativa (benchmarking) torna-se teste unitário, e o reparo de dados orientado a falhas torna-se depuração (debugging). Sob esta correspondência, as falhas do modelo decompõem-se em lacunas a nível conceitual e quebras na cadeia de raciocínio que podem ser rastreadas até deficiências específicas nos dados e reparadas por meio de correções direcionadas, com cada ciclo de reparo produzindo melhorias consistentes em diferentes escalas e arquiteturas de modelos sem degradar capacidades gerais. Formalizamos este princípio como Programação com Dados e o instanciamos em dezesseis disciplinas abrangendo as ciências naturais, engenharia, biomedicina e as ciências sociais, disponibilizando uma base de conhecimento estruturado, um conjunto de testes de avaliação (benchmark suite) e um corpus de treinamento como recursos abertos. Ao demonstrar que a relação entre dados de treinamento e comportamento do modelo é estruturalmente rastreável e sistematicamente reparável, este trabalho estabelece uma base fundamentada para a engenharia confiável de expertise humana em modelos de linguagem.
A visualização de dados (VD) no mundo real requer uma ancoragem ambiental nativa, evolução multiplataforma e alinhamento proativo de intenções. No entanto, os benchmarks existentes frequentemente sofrem de confinamento em sandboxes de código, tarefas de criação em linguagem única e pressuposição de intenção perfeita. Para preencher essas lacunas, introduzimos o DV-World, um benchmark composto por 260 tarefas projetadas para avaliar agentes de VD em todo o ciclo de vida profissional do mundo real. O DV-World abrange três domínios: DV-Sheet para manipulação nativa de planilhas, incluindo criação de gráficos e painéis, bem como reparo de diagnósticos; DV-Evolution para adaptar e reestruturar artefatos visuais de referência para se adequar a novos dados em diversos paradigmas de programação; e DV-Interact para o alinhamento proativo de intenções com um simulador de usuário que imita requisitos ambíguos do mundo real. Nossa estrutura de avaliação híbrida integra Alinhamento de Valor de Tabela para precisão numérica e MLLM-como-Juiz com rubricas para avaliação semântico-visual. Experimentos revelam que os modelos de última geração atingem menos de 50% de desempenho geral, expondo déficits críticos no tratamento dos complexos desafios da visualização de dados do mundo real. O DV-World fornece um ambiente de teste realista para direcionar o desenvolvimento em direção à expertise versátil exigida nos fluxos de trabalho empresariais. Nossos dados e código estão disponíveis em https://github.com/DA-Open/DV-World.
A investigação científica autónoma é significativamente impulsionada pelo desenvolvimento de agentes de IA. Um passo fundamental neste processo é encontrar a literatura científica adequada, seja para explorar o conhecimento existente sobre um problema de investigação, seja para obter evidências que verifiquem pressupostos e sustentem afirmações. Para avaliar a capacidade dos agentes de IA em conduzir este processo, apresentamos o AutoResearchBench, um benchmark dedicado à descoberta autónoma de literatura científica. O AutoResearchBench consiste em dois tipos de tarefas complementares: (1) Investigação Profunda, que requer localizar um artigo-alvo específico através de um processo de sondagem progressivo e multi-etapas, e (2) Investigação Ampla, que exige a recolha abrangente de um conjunto de artigos que satisfaçam determinadas condições. Em comparação com benchmarks anteriores sobre navegação web autónoma, o AutoResearchBench distingue-se em três dimensões: é orientado para a investigação, exigindo uma compreensão profunda de conceitos científicos; focado na literatura, demandando a utilização detalhada de informações específicas; e de natureza aberta, envolvendo um número desconhecido de artigos qualificados e, portanto, requerendo um raciocínio e uma busca deliberados ao longo de todo o processo. Estas propriedades tornam o AutoResearchBench singularmente adequado para avaliar capacidades de investigação autónoma e extraordinariamente desafiador. Mesmo os LLMs mais poderosos, apesar de terem largamente superado benchmarks gerais de navegação web autónoma, como o BrowseComp, atingem apenas 9,39% de precisão na Investigação Profunda e 9,31% de IoU na Investigação Ampla, enquanto muitas outras linhas de base fortes ficam abaixo dos 5%. Disponibilizamos publicamente o conjunto de dados, o pipeline de avaliação e o código em https://github.com/CherYou/AutoResearchBench para facilitar investigação futura nesta direção.
Os modelos unificados de compreensão/geração multimodal demonstraram melhor desempenho na edição de imagens ao incorporar uma compreensão refinada em seu processo de Cadeia de Pensamento (CoT). No entanto, uma questão crítica permanece pouco explorada: quais formas de CoT e estratégias de treinamento podem aprimorar conjuntamente tanto a granularidade da compreensão quanto a generalização? Para abordar isso, propomos o Meta-CoT, um paradigma que realiza uma decomposição em dois níveis de qualquer operação de edição de imagem única com duas propriedades principais: (1) Decomponibilidade. Observamos que qualquer intenção de edição pode ser representada como um tripleto – (tarefa, alvo, capacidade de compreensão necessária). Inspirados por isso, o Meta-CoT decompõe tanto a tarefa de edição quanto o alvo, gerando uma CoT específica para a tarefa e percorrendo operações de edição em todos os alvos. Esta decomposição aumenta a granularidade de compreensão do modelo sobre as operações de edição e orienta-o a aprender cada elemento do tripleto durante o treinamento, melhorando substancialmente a capacidade de edição. (2) Generalizabilidade. No segundo nível de decomposição, decompomos ainda mais as tarefas de edição em cinco meta-tarefas fundamentais. Descobrimos que o treinamento nessas cinco meta-tarefas, juntamente com os outros dois elementos do tripleto, é suficiente para alcançar uma forte generalização em diversas tarefas de edição não vistas. Para alinhar ainda mais o comportamento de edição do modelo com seu raciocínio CoT, introduzimos a Recompensa de Consistência CoT-Edição, que incentiva uma utilização mais precisa e eficaz da informação CoT durante a edição. Os experimentos demonstram que nosso método alcança uma melhoria geral de 15,8% em 21 tarefas de edição e generaliza eficazmente para tarefas de edição não vistas quando treinado apenas em um pequeno conjunto de meta-tarefas. Nosso código, benchmark e modelo estão disponíveis em https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.
Os modelos multimodais unificados (UMMs) integram a compreensão e geração visual dentro de uma única estrutura. Para tarefas de texto-para-imagem (T2I), essa capacidade unificada permite que os UMMs refinem as saídas após sua geração inicial, potencialmente elevando o limite máximo de desempenho. Os métodos de refinamento atuais baseados em UMM seguem principalmente um paradigma de refinamento-via-edição (RvE), no qual os UMMs produzem instruções de edição para modificar regiões desalinhadas enquanto preservam o conteúdo alinhado. No entanto, as instruções de edição frequentemente descrevem o desalinhamento entre o prompt e a imagem apenas de forma grosseira, levando a um refinamento incompleto. Além disso, a preservação em nível de pixel, embora necessária para edição, restringe desnecessariamente o espaço de modificação efetiva para refinamento. Para superar essas limitações, propomos o Refinamento via Regeneração (RvR), uma nova estrutura que reformula o refinamento como regeneração condicional de imagem em vez de edição. Em vez de depender de instruções de edição e impor preservação estrita de conteúdo, o RvR regenera imagens condicionadas pelo prompt alvo e pelos tokens semânticos da imagem inicial, permitindo um alinhamento semântico mais completo com um espaço de modificação maior. Experimentos extensivos demonstram a eficácia do RvR, melhorando o Geneval de 0,78 para 0,91, o DPGBench de 84,02 para 87,21 e o UniGenBench++ de 61,53 para 77,41.
Neste trabalho, propomos o Mutual Forcing, uma estrutura para geração áudio-vídeo autoregressiva rápida com sincronização áudio-vídeo de longo horizonte. Nossa abordagem aborda dois desafios principais: modelagem conjunta áudio-vídeo e geração autoregressiva rápida. Para facilitar a otimização conjunta áudio-vídeo, adotamos uma estratégia de treinamento em dois estágios: primeiro treinamos geradores unimodais e depois os acoplamos em um modelo unificado áudio-vídeo para treinamento conjunto com dados pareados. Para geração em fluxo contínuo, investigamos se um modelo causal áudio-vídeo nativamente rápido pode ser treinado diretamente, em vez de seguir os pipelines de destilação existentes que normalmente treinam primeiro um modelo bidirecional e depois o convertem em um gerador causal através de múltiplos estágios de destilação. Nossa resposta é o Mutual Forcing, que se baseia diretamente em modelos autoregressivos nativos e integra geração com poucos passos e múltiplos passos dentro de um único modelo com pesos compartilhados, permitindo auto-destilação e melhor consistência entre treinamento e inferência. O modo de múltiplos passos melhora o modo de poucos passos via auto-destilação, enquanto o modo de poucos passos gera contexto histórico durante o treinamento para melhorar a consistência treinamento-inferência; como os dois modos compartilham parâmetros, esses dois efeitos se reforçam mutuamente dentro de um único modelo. Comparado com abordagens anteriores como o Self-Forcing, o Mutual Forcing elimina a necessidade de um modelo professor bidirecional adicional, suporta comprimentos de sequência de treinamento mais flexíveis, reduz a sobrecarga de treinamento e permite que o modelo melhore diretamente a partir de dados pareados reais em vez de um professor fixo. Experimentos mostram que o Mutual Forcing iguala ou supera linhas de base fortes que exigem cerca de 50 passos de amostragem enquanto utiliza apenas 4 a 8 passos, demonstrando vantagens substanciais em eficiência e qualidade. A página do projeto está disponível em https://mutualforcing.github.io.
Os recentes avanços em grandes modelos de linguagem de áudio estenderam o raciocínio em Cadeia de Pensamento (CoT) para o domínio auditivo, permitindo que os modelos enfrentem tarefas acústicas e de fala cada vez mais complexas. Para eliciar e sustentar essas cadeias de raciocínio estendidas, o paradigma predominante – impulsionado pelo sucesso dos modelos de raciocínio baseados em texto – depende massivamente do Aprendizado por Reforço com Recompensas Verificadas (RLVR). No entanto, à medida que os modelos são rigorosamente otimizados para destilar contextos auditivos ricos e contínuos em rótulos de texto isolados e verificáveis, uma questão fundamental surge: estamos a fomentar uma verdadeira inteligência auditiva ou meramente a reduzir um meio sensorial contínuo a um quebra-cabeça discreto? Identificamos isto como a "armadilha da recompensa verificável". Embora o RLVR produza pontuações notáveis em benchmarks objetivos padronizados, ele degrada sistematicamente a sensação conversacional do mundo real dos modelos de áudio. Ao priorizar a correção isolada em detrimento da nuance acústica, o RLVR reduz as interações dinâmicas a "máquinas de resposta" mecânicas, comprometendo gravemente a naturalidade prosódica, a continuidade emocional e a imersão do utilizador, particularmente em diálogos de múltiplos turnos. Para preencher a lacuna entre a verificação objetiva mecânica e a genuína empatia sensorial, introduzimos o Step-Audio-R1.5, marcando uma mudança de paradigma em direção ao Aprendizado por Reforço a partir do Feedback Humano (RLHF) no raciocínio auditivo. Avaliações abrangentes demonstram que o Step-Audio-R1.5 não só mantém um raciocínio analítico robusto, como também transforma profundamente a experiência interativa, redefinindo os limites do diálogo falado profundamente imersivo de múltiplos turnos.
Embora os modelos de difusão gerem clipes de vídeo de alta fidelidade, transformá-los em motores de narrativa coerentes continua sendo um desafio. Os pipelines agenticos atuais automatizam esse processo por meio de módulos encadeados, mas sofrem com deriva semântica e falhas em cascata devido à solicitação independente e manual. Apresentamos o Co-Director, uma estrutura multiagente hierárquica que formaliza a narrativa visual como um problema de otimização global. Para garantir coerência semântica, introduzimos uma parametrização hierárquica: um bandido multiarmado identifica globalmente direções criativas promissoras, enquanto um loop local de autorrefinamento multimodal mitiga a deriva de identidade e garante consistência em nível de sequência. Isso equilibra a exploração de novas estratégias narrativas com a exploração de configurações criativas eficazes. Para avaliação, introduzimos o GenAD-Bench, um conjunto de dados com 400 cenários de produtos fictícios para publicidade personalizada. Experimentos demonstram que o Co-Director supera significativamente os métodos state-of-the-art, oferecendo uma abordagem fundamentada que se generaliza perfeitamente para narrativas cinematográficas mais amplas. Página do Projeto: https://co-director-agent.github.io/
A implementação de guardrails para políticas personalizadas continua a ser um desafio, uma vez que os modelos genéricos de segurança não conseguem capturar requisitos específicos da tarefa, enquanto o uso de prompts em LLMs sofre com desempenho inconsistente em casos de fronteira e altos custos de inferência. O treino de classificadores personalizados alcança precisão e eficiência, mas exige um volume substancial de dados rotulados, que são dispendiosos de obter. Apresentamos o BARRED (Refinamento de Alinhamento de Fronteiras através de Reflexão e Debate), uma estrutura para gerar dados sintéticos de treino fiéis e diversificados, utilizando apenas uma descrição da tarefa e um pequeno conjunto de exemplos não rotulados. A nossa abordagem decompõe o espaço do domínio em dimensões para garantir uma cobertura abrangente e emprega um debate multiagente para verificar a correção dos rótulos, produzindo um corpus de treino de alta fidelidade. Experiências com diversas políticas personalizadas demonstram que modelos de linguagem pequenos, ajustados com os nossos dados sintéticos, superam consistentemente LLMs proprietários de última geração (incluindo modelos de raciocínio) e modelos de guardrail dedicados. Estudos de ablação confirmam que tanto a decomposição dimensional como a verificação baseada em debate são críticas para garantir a diversidade e a fidelidade dos rótulos necessárias para um ajuste fino eficaz. A estrutura BARRED elimina a dependência de uma extensiva anotação humana, oferecendo uma solução escalável para guardrails personalizados precisos.
A destilação on-policy (OPD) tem demonstrado um forte potencial para transferir a capacidade de raciocínio de modelos de ponta ou específicos de domínio para estudantes menores. Embora eficaz em tarefas estáticas de turno único, o seu comportamento em ambientes de agente multi-turno permanece pouco explorado. Neste trabalho, identificamos uma limitação fundamental da OPD padrão nestes contextos, à qual denominamos Instabilidade do KL a Nível de Trajetória. Especificamente, observamos que a divergência KL aumenta em conjunto com uma queda na taxa de sucesso, e mesmo após a convergência, o KL permanece elevado, levando a um treino instável. Esta instabilidade surge da composição de erros entre turnos: à medida que os erros se acumulam, o estudante é conduzido para além do suporte efetivo do professor, tornando o sinal de supervisão não confiável. Para resolver isto, propomos o TCOD (Temporal Curriculum On-Policy Distillation), uma estrutura simples mas eficaz que controla a profundidade da trajetória exposta ao estudante e a expande progressivamente de curta para longa com um cronograma de currículo. Resultados experimentais em quatro pares professor-estudante em três benchmarks de agente multi-turno (ALFWorld, WebShop, ScienceWorld) mostram que o TCOD mitiga a escalada do KL e melhora a estabilidade do KL ao longo do treino, aumentando o desempenho do agente em até 18 pontos em relação à OPD padrão. Avaliações adicionais mostram que o TCOD pode até superar o desempenho do professor e generalizar para tarefas em que o professor falha.
Os agentes de terminal demonstraram forte potencial para execução autónoma na linha de comandos, contudo, o seu treino continua limitado pela escassez de trajectórias de execução de alta qualidade e diversificadas. As abordagens existentes mitigam este estrangulamento através da síntese de instâncias de tarefas de terminal em larga escala para amostragem de trajectórias. No entanto, focam-se principalmente na escalabilidade do número de tarefas, oferecendo um controlo limitado sobre a diversidade das trajectórias de execução que os agentes realmente experienciam durante o treino. Neste artigo, apresentamos o SkillSynth, um quadro automatizado para síntese de tarefas de terminal, baseado num grafo de competências mediado por cenários. O SkillSynth constrói primeiro um grafo de competências em larga escala, onde os cenários funcionam como nós de transição intermédios que ligam diversas competências da linha de comandos. De seguida, amostra caminhos deste grafo como abstracções de fluxos de trabalho do mundo real, e utiliza um *harness* multiagente para os instanciar em tarefas executáveis. Ao fundamentar a síntese de tarefas em caminhos de fluxo de trabalho amostrados do grafo, o SkillSynth controla explicitamente a diversidade das trajectórias de execução mínimas necessárias para resolver as tarefas sintetizadas. Experiências no Terminal-Bench demonstram a eficácia do SkillSynth. Além disso, as instâncias de tarefas sintetizadas pelo SkillSynth foram adoptadas para treinar o Hy3 Preview, contribuindo para as suas capacidades agentivas melhoradas em ambientes baseados em terminal.
A criação de conteúdos interativos para STEM (Ciência, Tecnologia, Engenharia e Matemática) tradicionalmente exige conhecimentos de HTML/CSS/JavaScript, criando barreiras para educadores. Embora a IA generativa possa produzir códigos HTML, as ferramentas existentes geram apresentações estáticas em vez de simulações interativas, têm dificuldades com documentos longos e carecem de mecanismos de verificação da precisão pedagógica. Além disso, a regeneração completa para modificações requer 200 a 600 segundos, interrompendo o fluxo criativo. Apresentamos o MAIC-UI, um sistema de autoria sem código que permite aos educadores criar e editar rapidamente conteúdos interativos a partir de livros didáticos, PPTs e PDFs. O MAIC-UI emprega: (1) análise de conhecimento estruturado com compreensão multimodal para garantir rigor pedagógico; (2) um pipeline de duas fases (gerar-verificar-otimizar) que separa o alinhamento de conteúdo do refinamento visual; e (3) edição "Clique para Localizar" com geração incremental baseada em Diff Unificado, alcançando ciclos de iteração inferiores a 10 segundos. Um estudo controlado em laboratório com 40 participantes mostra que o MAIC-UI reduz as iterações de edição (4,9 vs. 7,0) e melhora significativamente a facilidade de aprendizado e a controlabilidade em comparação com a geração direta de Texto para HTML. Uma implantação em sala de aula de três meses com 53 alunos do ensino médio demonstra que o MAIC-UI promove a autonomia de aprendizagem e reduz as disparidades de resultados – a turma piloto obteve ganhos de 9,21 pontos em disciplinas STEM, em comparação com -2,32 pontos nas turmas de controle. Nosso código está disponível em https://github.com/THU-MAIC/MAIC-UI.
O alinhamento de modelos generativos de remoção de ruído com preferências humanas ou recompensas verificáveis continua a ser um desafio fundamental. Embora o aprendizado por reforço (RL) online baseado em gradiente de política ofereça uma estrutura principista pós-treinamento, sua aplicação direta é dificultada pelas likelihoods intratáveis desses modelos. Trabalhos anteriores, portanto, ou otimizam um Processo de Decisão Markoviana (MDP) induzido sobre trajetórias de amostragem, que é estável mas ineficiente, ou usam *surrogates* de *likelihood* baseados no Limite Inferior da Evidência (ELBO) de difusão, que até agora tiveram desempenho inferior na geração visual. Nossa principal percepção é que a abordagem baseada no ELBO pode, de fato, ser tornada estável e eficiente. Ao reduzir a variância do *surrogate* e controlar os passos do gradiente, mostramos que essa abordagem pode superar os métodos baseados em MDP. Para esse fim, introduzimos o V-GRPO (Variational GRPO), um método que integra *surrogates* baseados no ELBO com o algoritmo GRPO (Group Relative Policy Optimization), juntamente com um conjunto de técnicas simples mas essenciais. Nosso método é fácil de implementar, alinha-se com os objetivos de pré-treinamento e evita as limitações dos métodos baseados em MDP. O V-GRPO atinge um desempenho de ponta na síntese de texto para imagem, enquanto oferece uma aceleração de 2x em relação ao MixGRPO e de 3x em relação ao DiffusionNFT.
Embora os modelos de difusão de vídeo em larga escala tenham demonstrado capacidades impressionantes na geração de conteúdo de alta resolução e semanticamente rico, uma lacuna significativa permanece entre o seu desempenho no pré-treinamento e os requisitos de implantação no mundo real devido a problemas críticos, como sensibilidade a *prompts*, inconsistência temporal e custos proibitivos de inferência. Para preencher essa lacuna, propomos uma estrutura abrangente de pós-treinamento que alinha sistematicamente os modelos pré-treinados com as intenções do usuário por meio de quatro estágios sinérgicos: primeiro, empregamos o Ajuste Fino Supervisionado (SFT) para transformar o modelo base em uma política estável de seguimento de instruções, seguido por um estágio de Aprendizado por Reforço com Feedback Humano (RLHF) que utiliza um novo método de Otimização de Política Relativa em Grupo (GRPO) adaptado para difusão de vídeo para melhorar a qualidade perceptual e a coerência temporal; subsequentemente, integramos o Aprimoramento de *Prompts* por meio de um modelo de linguagem especializado para refinar as entradas do usuário e, finalmente, abordamos a eficiência do sistema por meio de Otimização de Inferência. Juntos, esses componentes fornecem uma abordagem sistemática para melhorar a qualidade visual, a coerência temporal e o seguimento de instruções, preservando a controlabilidade aprendida durante o pré-treinamento. O resultado é um projeto prático para a construção de *pipelines* de pós-treinamento escaláveis que são estáveis, adaptáveis e eficazes na implantação no mundo real. Experimentos extensivos demonstram que esse *pipeline* unificado mitiga efetivamente artefatos comuns e melhora significativamente a controlabilidade e a estética visual, respeitando rigorosas restrições de custo de amostragem.
A avaliação comparativa por pares baseada em crowdsourcing emergiu como uma abordagem escalável para avaliar modelos de base. No entanto, sua aplicação em sistemas de Texto para Fala introduz alta variância devido à diversidade linguística e à natureza multidimensional da percepção da fala. Apresentamos uma estrutura controlada e multidimensional de avaliação por pares para TTS multilíngue que combina controle linguístico com anotação fundamentada na percepção. Utilizando mais de 5 mil frases nativas e de código misto em 10 línguas indianas, avaliamos 7 sistemas de TTS state-of-the-art e coletamos mais de 120 mil comparações pareadas de mais de 1900 avaliadores nativos. Além da preferência geral, os avaliadores fornecem julgamentos em 6 dimensões perceptuais: inteligibilidade, expressividade, qualidade vocal, vivacidade, ruído e alucinações. Utilizando a modelagem de Bradley-Terry, construímos um ranking multilíngue, interpretamos a preferência humana usando análise SHAP e analisamos a confiabilidade do ranking, juntamente com os pontos fortes e os compromissos dos modelos nas dimensões perceptuais.
Os Grandes Modelos de Visão e Linguagem (VLMs) são cada vez mais utilizados para avaliar os resultados de outros modelos, tanto em tarefas de imagem-para-texto (I2T), como resposta a perguntas visuais, quanto em tarefas de geração de texto-para-imagem (T2I). Apesar dessa crescente dependência, a confiabilidade desses VLMs Avaliadores permanece pouco explorada. Neste trabalho, avaliamos sistematicamente a confiabilidade dos VLMs Avaliadores em tarefas I2T e T2I. Introduzimos perturbações direcionadas que degradam a qualidade da saída ao longo de dimensões-chave de erro, incluindo alucinações de objetos, raciocínio espacial, fundamentação factual e fidelidade visual. Essas perturbações testam se os VLMs Avaliadores podem contabilizar de forma confiável esses erros de degradação de qualidade em suas avaliações. Utilizando um benchmark abrangente de mais de 4000 instâncias perturbadas abrangendo 40 dimensões de perturbação, avaliamos 4 VLMs proeminentes usando os paradigmas de pontuação de resposta única, comparação pareada e referência guiada. Nossas descobertas revelam que os avaliadores VLM atuais exibem pontos cegos substanciais: eles frequentemente falham em detectar saídas perturbadas – em alguns casos ultrapassando 50%, têm dificuldades particularmente com erros composicionais e espaciais de granularidade fina e são frequentemente insensíveis a conteúdo alucinado que contradiz a imagem de entrada. A comparação pareada mostra-se mais confiável, embora as taxas de falha persistam. Esses resultados destacam a natureza não confiável dos VLMs Avaliadores atuais e alertam para a cautela em sua implantação para decisões de desenvolvimento e benchmark. O código e os dados foram disponibilizados publicamente.
Os recentes avanços na geração de movimento humano orientada por texto permitem que modelos sintetizem sequências de movimento realistas a partir de descrições em linguagem natural. No entanto, a maioria das abordagens existentes assume movimentos neutros em termos de identidade e gera movimentos usando uma representação corporal canónica, ignorando a forte influência da morfologia corporal na dinâmica do movimento. Na prática, atributos como proporções corporais, distribuição de massa e idade afetam significativamente a forma como as ações são realizadas, e negligenciar este acoplamento frequentemente leva a movimentos fisicamente inconsistentes. Propomos uma estrutura de geração de movimento consciente da identidade que modela explicitamente a relação entre a morfologia corporal e a dinâmica do movimento. Em vez de depender de medições geométricas explícitas, a identidade é representada usando sinais multimodais, incluindo descrições em linguagem natural e pistas visuais. Introduzimos ainda um paradigma de geração conjunta de movimento e forma que sintetiza simultaneamente sequências de movimento e parâmetros de forma corporal, permitindo que pistas de identidade modulem diretamente a dinâmica do movimento. Experimentos extensivos em conjuntos de dados de captura de movimento e vídeos em larga escala do mundo real demonstram um realismo de movimento melhorado e uma maior consistência entre movimento e identidade, mantendo uma alta qualidade de movimento. Página do projeto: https://vjwq.github.io/IAM
Os agentes de IA estão sendo cada vez mais implantados em fluxos de trabalho complexos e específicos de domínio — navegando em aplicações web empresariais que exigem dezenas de cliques e preenchimentos de formulários, orquestrando pipelines de pesquisa multi-etapa que abrangem busca, extração e síntese, automatizando a revisão de código em repositórios desconhecidos e lidando com escalações de clientes que exigem conhecimento de domínio nuances. Cada novo domínio de tarefa requer uma minuciosa engenharia de *harness* conduzida por especialistas: projetar os *prompts*, ferramentas, lógica de orquestração e critérios de avaliação que tornam um modelo de base eficaz. Apresentamos uma estrutura de dois níveis que automatiza este processo. No primeiro nível, o Ciclo de Evolução do *Harness* otimiza o *harness* H de um agente trabalhador para uma única tarefa: um Agente Trabalhador W_{H} executa a tarefa, um Agente Avaliador V diagnostica adversarialmente as falhas e pontua o desempenho, e um Agente de Evolução E modifica o *harness* com base no histórico completo de tentativas anteriores. No segundo nível, o Meta-Ciclo de Evolução otimiza o protocolo de evolução Λ = (W_{H}, H^{(0)}, V, E) propriamente dito em diversas tarefas, aprendendo um protocolo Λ^{(melhor)} que permite a rápida convergência do *harness* em qualquer nova tarefa — de modo que adaptar um agente a um domínio novo não requer nenhuma engenharia de *harness* humana. Formalizamos a correspondência com a meta-aprendizagem e apresentamos ambos os algoritmos. A estrutura transforma a engenharia manual de *harness* em engenharia automatizada de *harness*, e dá um passo adiante — automatizando o projeto da própria automação.
Agentes autónomos capazes de navegar em Interfaces Gráficas de Utilizador (IGUs) detêm o potencial para revolucionar a produtividade digital. No entanto, alcançar uma verdadeira autonomia digital vai além da correspondência reativa de elementos; exige um modelo mental preditivo da dinâmica da interface e a capacidade de prever o "estado do mundo digital" resultante das interações. Apesar das capacidades percetuais dos modernos Modelos de Visão e Linguagem (MVLs), os benchmarks existentes permanecem bifurcados (concentrando-se na conclusão de tarefas em caixa preta ou na fundamentação estática e superficial), falhando assim em avaliar se os agentes compreendem verdadeiramente a funcionalidade implícita e a lógica de transição das IGUs. Para colmatar esta lacuna, introduzimos o AutoGUI-v2, um benchmark abrangente concebido para avaliar a compreensão profunda da funcionalidade da IGU e a previsão de resultados de interação. Construímos o benchmark utilizando um novo pipeline colaborativo MVL-humano que analisa recursivamente capturas de ecrã multi-plataforma em regiões funcionais hierárquicas para gerar tarefas de avaliação diversificadas. Fornecendo 2.753 tarefas em seis sistemas operativos, o AutoGUI-v2 testa rigorosamente os agentes em semântica a nível de região e elemento, fundamentação e previsão de estado dinâmico. A nossa avaliação revela uma dicotomia marcante nos MVLs: enquanto os modelos de código aberto afinados com dados de agentes (por exemplo, Qwen3-VL) se destacam na fundamentação funcional, os modelos comerciais (por exemplo, Gemini-2.5-Pro-Thinking) dominam na descrição de funcionalidades. Crucialmente, todos os modelos lutam com a lógica de interação complexa de ações pouco comuns, destacando que a compreensão funcional profunda permanece um obstáculo significativo. Ao medir sistematicamente estas capacidades fundamentais, o AutoGUI-v2 oferece uma nova perspetiva para avançar a próxima geração de agentes de IGU.
A ancoragem de elementos de Interface Gráfica do Utilizador (GUI) (localizar com precisão elementos em capturas de ecrã com base em instruções de linguagem natural) é fundamental para agentes que interagem com GUIs. Implementar esta capacidade diretamente em dispositivos com recursos limitados, como telemóveis, é cada vez mais crítico para agentes de GUI que exigem baixa latência. No entanto, este objetivo enfrenta um desafio significativo, uma vez que os métodos atuais de ancoragem visual normalmente empregam modelos visão-linguagem (VLM) de grande dimensão (mais de 2,5 mil milhões de parâmetros), tornando-os impraticáveis para execução *on-device* devido a restrições de memória e computação. Para resolver isto, este artigo apresenta o GoClick, um VLM leve para ancoragem de elementos de GUI com apenas 230M de parâmetros que alcança uma excelente precisão de ancoragem visual, equiparável até a modelos significativamente maiores. Reduzir simplesmente o tamanho de VLMs existentes apenas com descodificador é uma forma direta de projetar um modelo leve, mas as nossas experiências revelam que esta abordagem produz resultados subóptimos. Em vez disso, selecionámos uma arquitetura de codificador-descodificador, que supera as alternativas apenas com descodificador em escalas de parâmetros pequenas para tarefas de ancoragem em GUI. Adicionalmente, a capacidade limitada de pequenos VLMs incentiva-nos a desenvolver um pipeline de Refinamento Progressivo de Dados que utiliza filtragem por tipo de tarefa e ajuste da proporção de dados para extrair um conjunto central de alta qualidade com 3,8M de exemplos a partir de um conjunto de dados bruto de 10,8M. Treinar o GoClick usando este conjunto central traz ganhos notáveis na precisão de ancoragem. As nossas experiências mostram que o GoClick se destaca em vários benchmarks de ancoragem de elementos de GUI, mantendo um tamanho reduzido e uma alta velocidade de inferência. O GoClick também melhora o desempenho de agentes de GUI quando integrado num quadro de colaboração dispositivo-nuvem, onde o GoClick ajuda os planeadores de tarefas baseados na cloud a realizar uma localização precisa de elementos e a alcançar taxas de sucesso mais elevadas. Esperamos que o nosso método sirva como uma exploração significativa dentro da comunidade de agentes de GUI.
A avaliação da justiça dos sistemas de recomendação tornou-se cada vez mais importante, especialmente com a legislação recente que enfatiza o desenvolvimento de uma inteligência artificial justa e responsável. Isso levou ao surgimento de várias medidas de avaliação de justiça, que quantificam a equidade com base em diferentes definições. No entanto, muitas dessas medidas são simplesmente propostas e utilizadas sem uma análise mais aprofundada sobre a sua robustez. Como resultado, há uma compreensão e consciência insuficientes sobre as limitações das medidas. Entre outras questões, não se sabe que tipo de saídas do modelo produzem a pontuação mais (in)justa, como as pontuações das medidas são distribuídas empiricamente e se há casos em que as medidas não podem ser calculadas (por exemplo, devido à divisão por zero). Essas questões causam dificuldade na interpretação das pontuações das medidas e confusão sobre qual(is) medida(s) deve(m) ser usada(s) para um caso específico. Esta tese apresenta uma série de artigos que avaliam e superam várias limitações teóricas, empíricas e conceituais das medidas existentes de avaliação de justiça em sistemas de recomendação. Investigamos uma ampla gama de medidas de avaliação *offline* para diferentes noções de justiça, divididas com base nos sujeitos da avaliação (utilizadores e itens) e para diferentes granularidades de avaliação (grupos de sujeitos e sujeitos individuais). Em primeiro lugar, realizamos uma análise teórica e empírica das medidas, expondo falhas que limitam a sua interpretabilidade, expressividade ou aplicabilidade. Em segundo lugar, contribuímos com novas abordagens de avaliação e medidas que superam essas limitações. Finalmente, considerando as limitações das medidas, recomendamos diretrizes para o uso adequado das mesmas, permitindo assim uma seleção mais precisa das medidas de avaliação de justiça em cenários práticos. No geral, esta tese contribui para avançar o estado da arte na avaliação *offline* da justiça em sistemas de recomendação.