Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes na geração e edição de imagens abriram novas oportunidades para experimentação virtual. No entanto, os métodos existentes ainda lutam para atender às complexas demandas do mundo real. Apresentamos o Tstars-Tryon 1.0, um sistema de experimentação virtual em escala comercial que é robusto, realista, versátil e altamente eficiente. Primeiro, nosso sistema mantém uma alta taxa de sucesso em casos desafiadores, como poses extremas, variações severas de iluminação, desfoque de movimento e outras condições in-the-wild. Segundo, produz resultados altamente fotorrealistas com detalhes de granularidade fina, preservando fielmente a textura da roupa, propriedades do material e características estruturais, evitando em grande parte os artefatos comuns gerados por IA. Terceiro, além da experimentação de vestuário, nosso modelo suporta composição flexível de múltiplas imagens (até 6 imagens de referência) em 8 categorias de moda, com controle coordenado da identidade da pessoa e do fundo. Quarto, para superar os gargalos de latência da implantação comercial, nosso sistema é fortemente otimizado para velocidade de inferência, oferecendo geração quase em tempo real para uma experiência de usuário perfeita. Essas capacidades são possibilitadas por um design de sistema integrado que abrange arquitetura de modelo end-to-end, um motor de dados escalável, infraestrutura robusta e um paradigma de treinamento multiestágio. Avaliação extensiva e implantação de produto em larga escala demonstram que o Tstars-Tryon1.0 alcança um desempenho geral líder. Para apoiar pesquisas futuras, também lançamos um benchmark abrangente. O modelo foi implantado em escala industrial no aplicativo Taobao, atendendo a milhões de usuários com dezenas de milhões de solicitações.
A síntese de vídeos de interação humano-objeto (HOI) possui amplo valor prático em comércio eletrônico, publicidade digital e marketing virtual. No entanto, os modelos de difusão atuais, apesar de sua capacidade de renderização fotorrealista, ainda falham frequentemente em (i) a estabilidade estrutural de regiões sensíveis, como mãos e rostos, e (ii) o contato fisicamente plausível (por exemplo, evitando a interpenetração mão-objeto). Apresentamos o CoInteract, uma estrutura *end-to-end* para síntese de vídeo HOI condicionada a uma imagem de referência da pessoa, uma imagem de referência do produto, *prompts* de texto e áudio de fala. O CoInteract introduz dois projetos complementares incorporados em uma estrutura base de *Diffusion Transformer* (DiT). Primeiro, propomos uma *Mixture-of-Experts* (MoE) Consciente do Humano que direciona *tokens* para especialistas leves e especializados em regiões por meio de roteamento supervisionado espacialmente, melhorando a fidelidade estrutural de grão fino com sobrecarga mínima de parâmetros. Em segundo lugar, propomos a Co-geração Espacialmente Estruturada, um paradigma de treinamento de fluxo duplo que modela conjuntamente um fluxo de aparência RGB e um fluxo auxiliar de estrutura HOI para injetar *priors* de geometria de interação. Durante o treinamento, o fluxo HOI atende aos *tokens* RGB e sua supervisão regulariza os pesos compartilhados da estrutura; na inferência, o ramo HOI é removido para geração RGB sem sobrecarga. Os resultados experimentais demonstram que o CoInteract supera significativamente os métodos existentes em estabilidade estrutural, consistência lógica e realismo de interação.
Os sistemas de agentes baseados em modelos de linguagem geralmente dependem de *prompting* reativo, no qual uma única instrução guia o modelo por uma sequência aberta de etapas de raciocínio e uso de ferramentas, deixando o fluxo de controle e o estado intermediário implícitos e tornando o comportamento do agente potencialmente difícil de controlar. Estruturas de orquestração como LangGraph, DSPy e CrewAI impõem maior estruturação por meio de definições explícitas de fluxo de trabalho, mas acoplam fortemente a lógica do fluxo de trabalho ao Python, tornando os agentes difíceis de manter e modificar. Neste artigo, apresentamos o AgentSPEX, uma Linguagem de ESPecificação e EXecução de Agentes para definir fluxos de trabalho de agentes de LLM com fluxo de controle explícito e estrutura modular, juntamente com um *harness* de agente personalizável. O AgentSPEX suporta etapas tipadas, ramificação e loops, execução paralela, submódulos reutilizáveis e gerenciamento explícito de estado, e esses fluxos de trabalho são executados dentro de um *harness* de agente que fornece acesso a ferramentas, um ambiente virtual isolado (*sandbox*) e suporte para *checkpointing*, verificação e registro de logs. Além disso, fornecemos um editor visual com visualizações sincronizadas de grafo e fluxo de trabalho para criação e inspeção. Incluímos agentes prontos para uso para pesquisa aprofundada e pesquisa científica, e avaliamos o AgentSPEX em 7 *benchmarks*. Por fim, demonstramos por meio de um estudo de usuário que o AgentSPEX oferece um paradigma de criação de fluxo de trabalho mais interpretável e acessível do que uma estrutura de agente popular existente.
A reconstrução 3D com poucas vistas é essencial para modelar cenas a partir de capturas casuais, mas continua a ser um desafio para a reconstrução não generativa. As abordagens existentes baseadas em difusão mitigam este problema sintetizando novas vistas, mas geralmente condicionam-se a apenas um ou dois fotogramas de captura, o que restringe a consistência geométrica e limita a escalabilidade para cenas grandes ou diversificadas. Propomos o AnyRecon, uma estrutura escalável para reconstrução a partir de entradas esparsas, arbitrárias e não ordenadas, que preserva o controlo geométrico explícito enquanto suporta uma cardinalidade de condicionamento flexível. Para suportar o condicionamento de longo alcance, o nosso método constrói uma memória de cena global persistente através de uma cache de vistas de captura pré-fixada e remove a compressão temporal para manter a correspondência ao nível do fotograma sob grandes alterações de ponto de vista. Para além de um melhor modelo generativo, também descobrimos que a interação entre geração e reconstrução é crucial para cenas 3D de grande escala. Assim, introduzimos uma estratégia de condicionamento consciente da geometria que acopla a geração e a reconstrução através de uma memória geométrica 3D explícita e uma recuperação de vistas de captura orientada pela geometria. Para garantir eficiência, combinamos a destilação de difusão em 4 etapas com uma atenção esparsa de janela de contexto para reduzir a complexidade quadrática. Experiências extensivas demonstram uma reconstrução robusta e escalável em entradas irregulares, grandes diferenças de ponto de vista e trajetórias longas.
O treinamento em tempo de teste (TTT) adapta os parâmetros do modelo em instâncias de teste não rotuladas durante a inferência, estendendo continuamente as capacidades para além do alcance do treinamento offline. Apesar dos ganhos iniciais, os métodos TTT existentes para LRMs estagnam rapidamente e não se beneficiam de computação adicional em tempo de teste. Sem calibração externa, o sinal de recompensa autogerado desvia-se progressivamente à medida que o modelo de política evolui, levando tanto a platôs de desempenho quanto ao colapso da diversidade. Propomos o TEMPO, uma estrutura TTT que intercala o refinamento da política em questões não rotuladas com a recalibração periódica do crítico em um conjunto de dados rotulado. Ao formalizar este procedimento alternante através do algoritmo Expectation-Maximization (EM), revelamos que os métodos anteriores podem ser interpretados como variantes incompletas que omitem a etapa crucial de recalibração. Reintroduzir esta etapa aperta o limite inferior da evidência (ELBO) e permite uma melhoria sustentada. Em diversas famílias de modelos (Qwen3 e OLMO3) e tarefas de raciocínio, o TEMPO melhora o OLMO3-7B no AIME 2024 de 33,0% para 51,1% e o Qwen3-14B de 42,3% para 65,8%, mantendo alta diversidade.
Os grandes modelos de linguagem (LLMs) obtiveram resultados robustos na geração de código, mas sua capacidade de gerar aplicações com interface gráfica (GUI), especialmente jogos, permanece insuficientemente estudada. Os benchmarks existentes avaliam principalmente a correção através de casos de teste, que são inadequados para aplicações GUI porque estes sistemas são interativos, orientados a eventos e exigem transições de estado corretas ao longo de sequências de ações do utilizador. A sua avaliação deve, portanto, considerar fluxos de interação e lógica de interface, e não apenas resultados de aprovação/reprovação. Para estudar este problema, introduzimos o PlayEval, um benchmark com consciência de repositório, construído a partir de 43 aplicações GUI multilingues em Python, TypeScript e JavaScript. Ao contrário de benchmarks GUI anteriores, que são difíceis de adaptar a ambientes de desktop, o PlayEval abrange seis grandes categorias de aplicações GUI e suporta diretamente a avaliação de geração de código. Propomos ainda o Play@k, uma métrica que mede se pelo menos um dos *k* candidatos gerados pode ser executado de ponta a ponta sem erros lógicos. Para suportar uma avaliação fiável, desenvolvemos o PlayTester, um agente baseado em LLM que executa playthroughs GUI orientados a tarefas e deteta violações de lógica automaticamente. Experiências com 10 LLMs de código state-of-the-art mostram que, apesar de altas taxas de compilação, eles atingem um Play@3 próximo de zero, revelando grandes fraquezas na geração de aplicações GUI logicamente corretas. Para superar esta limitação, apresentamos o PlayCoder, uma framework multiagente e com consciência de repositório que gera, avalia e repara iterativamente o código de aplicações GUI num ciclo fechado. O PlayCoder melhora substancialmente tanto a correção funcional como o alinhamento semântico para modelos de código aberto e proprietários, atingindo até 38,1% de Exec@3 e 20,3% de Play@3. Estudos de caso mostram ainda que ele pode detetar bugs lógicos silenciosos ignorados por métricas tradicionais e corrigi-los através de edições direcionadas.
O ajuste fino eficiente em parâmetros (PEFT) reduz o custo de treinamento do ajuste fino de parâmetros completos para grandes modelos de linguagem (LLMs) ao treinar apenas um pequeno conjunto de parâmetros específicos da tarefa, mantendo congelada a estrutura pré-treinada. No entanto, abordagens existentes, como a Adaptação de Baixa Classificação (LoRA), alcançam a adaptação inserindo perturbações independentes de baixa classificação diretamente em pesos individuais, resultando em uma parametrização local da adaptação. Propomos o ShadowPEFT, uma estrutura PEFT centralizada que, em vez disso, realiza um refinamento em nível de camada por meio de um módulo sombra compartilhado em profundidade. Em cada camada do transformador, o ShadowPEFT mantém um estado sombra paralelo e o evolui repetidamente para obter estados ocultos progressivamente mais ricos. Este projeto desloca a adaptação de perturbações distribuídas no espaço de pesos para um processo de refinamento compartilhado no espaço de camadas. Como o módulo sombra é desacoplado da estrutura principal, ele pode ser reutilizado ao longo da profundidade, pré-treinado independentemente e implantado opcionalmente em modo desacoplado, beneficiando cenários de computação de borda. Experimentos em benchmarks de geração e compreensão mostram que o ShadowPEFT iguala ou supera o LoRA e o DoRA sob orçamentos comparáveis de parâmetros treináveis. Análises adicionais sobre pré-treinamento sombra, transferência entre conjuntos de dados, escalonamento de parâmetros, latência de inferência e avaliação em nível de sistema sugerem que a adaptação centralizada no espaço de camadas é uma alternativa competitiva e flexível aos métodos PEFT convencionais de baixa classificação.
目前,可执行可视化工作流已成为工业实际部署中的主流范式,具有极强的可靠性和可控性。然而在当前实践中,这类工作流几乎完全通过人工工程构建:开发人员需要精心设计工作流、为每个步骤编写提示词,并随着需求变化反复修改逻辑——这使得开发成本高昂、耗时且易出错。为研究大语言模型能否自动化这一多轮交互过程,我们提出了Chat2Workflow基准测试,用于直接从自然语言生成可执行的可视化工作流,并提出了一个鲁棒的智能体框架来缓解循环执行错误。Chat2Workflow基于大量真实业务工作流构建,每个实例的设计都确保生成的工作流能够转换并直接部署到Dify、Coze等实际工作流平台。实验结果表明,虽然最先进的语言模型通常能捕捉高层意图,但在生成正确、稳定且可执行的工作流方面仍存在困难,尤其是在复杂或变化的需求下。尽管我们的智能体框架实现了最高5.34%的错误解决率提升,但存在的现实差距使Chat2Workflow成为推进工业级自动化的重要基础。代码已开源:https://github.com/zjunlp/Chat2Workflow。
À medida que o aprendizado por reforço continua a escalar o treinamento de agentes baseados em grandes modelos de linguagem, a verificação confiável de comportamentos de agentes em ambientes complexos tornou-se cada vez mais desafiadora. As abordagens existentes dependem de verificadores baseados em regras ou modelos LLM-como-Juiz, que lutam para generalizar além de domínios restritos. O Agente-como-Juiz aborda esta limitação ao interagir ativamente com ambientes e ferramentas para adquirir evidências verificáveis, embora suas capacidades permaneçam subexploradas. Apresentamos um benchmark AJ-Bench para avaliar sistematicamente o Agente-como-Juiz em três domínios - busca, sistemas de dados e interfaces gráficas de utilizador - compreendendo 155 tarefas e 516 trajectórias anotadas. O benchmark avalia de forma abrangente as capacidades dos agentes juízes em aquisição de informação, verificação de estado e verificação de processos. Os experimentos demonstram ganhos de desempenho consistentes em relação às linhas de base LLM-como-Juiz, enquanto também revelam desafios substanciais em aberto na verificação baseada em agentes. Nossos dados e código estão disponíveis em https://aj-bench.github.io/.
A recuperação de informação com seguimento de instruções (IF-IR) estuda sistemas de recuperação que não só devem encontrar documentos relevantes para uma consulta, mas também obedecer a restrições explícitas do utilizador, como atributos obrigatórios, exclusões ou preferências de saída. No entanto, a maioria dos recuperadores é treinada principalmente para relevância semântica e frequentemente falha em distinguir documentos que correspondem ao tópico daqueles que satisfazem a instrução. Propomos uma estratégia de síntese de dados de dupla perspetiva baseada na inversão de polaridade: dada uma consulta, um documento relevante de acordo com a instrução e um negativo difícil que corresponde à consulta mas viola a instrução, solicitamos a um LLM que gere uma instrução complementar sob a qual os dois documentos troquem os rótulos de relevância. Ao apresentar o mesmo par de documentos sob instruções complementares que invertem os seus rótulos de relevância, o sinal de treino força o recuperador a reconsiderar o mesmo conjunto de candidatos através da instrução, em vez de depender de pistas tópicas fixas. Num *encoder* com 305 milhões de parâmetros, o nosso método melhora o desempenho no *benchmark* FollowIR em 45%, superando modelos de incorporação de propósito geral de escala comparável ou maior. Através de comparações diretas com orçamentos de dados equivalentes, mostramos ainda que a diversidade de dados e a supervisão por instrução desempenham papéis complementares: a primeira preserva a qualidade geral da recuperação, enquanto a segunda melhora a sensibilidade às instruções. Estes resultados destacam o valor da síntese de dados direcionada para a construção de sistemas de recuperação que são simultaneamente capazes em termos gerais e conscientes das instruções.
A alternância de códigos (code-switching) é um fenómeno linguístico omnipresente na comunicação global, contudo, os sistemas modernos de recuperação de informação continuam maioritariamente concebidos para, e avaliados em, contextos monolingues. Para colmatar esta desconexão crítica, apresentamos um estudo holístico dedicado à RI com alternância de códigos. Introduzimos o CSR-L (Code-Switching Retrieval benchmark-Lite), construindo um conjunto de dados através de anotação humana para capturar a autêntica naturalidade de consultas em linguagem mista. A nossa avaliação através de paradigmas estatísticos, densos e de interação tardia revela que a alternância de códigos atua como um estrangulamento fundamental de desempenho, degradando a eficácia mesmo de modelos multilingues robustos. Demonstramos que esta falha deriva de uma divergência substancial no espaço de incorporação (embedding) entre texto puro e texto com alternância de códigos. Dimensionando esta investigação, propomos o CS-MTEB, um benchmark abrangente que cobre 11 tarefas diversas, onde observamos quedas de desempenho de até 27%. Finalmente, mostramos que técnicas multilingues padrão, como a expansão de vocabulário, são insuficientes para resolver estes défices completamente. Estas descobertas sublinham a fragilidade dos sistemas atuais e estabelecem a alternância de códigos como uma fronteira crucial para a futura otimização da RI.
A aritmética de tarefas oferece uma forma eficiente e livre de treinamento para editar modelos pré-treinados, mas carece de uma explicação teórica fundamental para o seu sucesso. O conceito existente de "desagregação de pesos" descreve o resultado ideal da composição de tarefas sem interferência, mas não revela a sua causa subjacente. Crucialmente, quais propriedades intrínsecas do modelo pré-treinado (θ_0) ou dos vetores de tarefa (τ_t) permitem essa desagregação permanece pouco explorado. Neste artigo, introduzimos a Especialização em Características de Tarefa (TFS), a capacidade de um modelo de alocar características internas distintas para diferentes tarefas, como o princípio fundamental. Primeiro, provamos que a TFS é uma condição suficiente para a desagregação de pesos. Mais importante ainda, descobrimos que a TFS também dá origem a uma consequência geométrica observável: a ortogonalidade dos vetores de peso. Isso posiciona a TFS como a causa comum tanto para o resultado funcional desejado (desagregação) quanto para uma propriedade geométrica mensurável (ortogonalidade). Esta relação fornece a visão chave para o nosso método: uma vez que a propriedade abstrata da TFS é intratável para impor diretamente, podemos, em vez disso, promover a desagregação de pesos moldando a sua consequência geométrica concreta, a ortogonalidade. Portanto, propomos o OrthoReg, um método de regularização simples e eficaz que impõe ativamente uma estrutura ortogonal interna nas atualizações de peso (ΔW) que constituem τ_t durante o ajuste fino. E provamos teoricamente que o OrthoReg promove a desagregação. Extensos experimentos demonstram que o OrthoReg melhora de forma consistente e significativa o desempenho de vários métodos de aritmética de tarefas. O código está disponível em https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.
Abordamos o problema de gerar um ambiente navegável e tridimensionalmente consistente que esteja espacialmente fundamentado: uma simulação de uma localização real. Modelos generativos de vídeo existentes podem produzir uma sequência plausível que é consistente com um prompt de texto (T2V) ou imagem (I2V). No entanto, a capacidade de reconstruir o mundo real sob condições climáticas arbitrárias e configurações dinâmicas de objetos é essencial para aplicações downstream, incluindo condução autónoma e simulação robótica. Para esse fim, apresentamos o CityRAG, um modelo generativo de vídeo que aproveita grandes corpora de dados geo-registados como contexto para fundamentar a geração na cena física, mantendo ao mesmo tempo prioridades aprendidas para mudanças complexas de movimento e aparência. O CityRAG baseia-se em dados de treino temporalmente não alinhados, o que ensina o modelo a separar semanticamente a cena subjacente dos seus atributos transitórios. As nossas experiências demonstram que o CityRAG pode gerar sequências de vídeo coerentes, com duração de minutos e fisicamente fundamentadas, manter condições meteorológicas e de iluminação ao longo de milhares de frames, alcançar *loop closure* e navegar trajetórias complexas para reconstruir a geografia do mundo real.
A difusão autoregressiva de vídeo está emergindo como um paradigma promissor para a síntese de vídeo em streaming, com a destilação de etapas servindo como o principal meio de acelerar a inferência. Se a decodificação especulativa, a estratégia de aceleração dominante para modelos de linguagem grandes, pode ser efetivamente adaptada para a geração autoregressiva de vídeo permanece uma questão em aberto, porque blocos de vídeo são tensores espaço-temporais contínuos sem distribuição em nível de token para amostragem de rejeição exata. Apresentamos o SDVG, que introduz a decodificação especulativa na difusão autoregressiva de vídeo baseada em blocos, substituindo a verificação de token por um roteador de qualidade de imagem. Um rascunhador de 1.3B propõe blocos candidatos via quatro etapas de remoção de ruído; cada bloco é decodificado por VAE e pontuado pelo ImageReward usando agregação do pior quadro - tomando a recompensa mínima por quadro para capturar artefatos de quadro único que a média mascararia. Blocos com pontuação acima de um limiar fixo τ são aceitos no cache KV do alvo de 14B; o restante é regenerado pelo alvo. Duas escolhas de projeto adicionais mostram-se críticas: o primeiro bloco é sempre forçadamente rejeitado para ancorar a composição da cena, e τ serve como um único botão que traça uma fronteira de Pareto qualidade-velocidade suave. Em 1003 prompts do MovieGenVideoBench (832x480), o SDVG retém 98,1% da qualidade VisionReward do modo apenas-alvo (0,0773 vs. 0,0788) com uma aceleração de 1,59x usando τ=-0,7, e atinge 2,09x com 95,7% de retenção de qualidade - enquanto supera consistentemente a geração apenas por rascunho em mais de +17%. A estrutura é livre de treinamento, não requer alterações arquiteturais e pode ser integrada perfeitamente em pipelines existentes de geração autoregressiva de vídeo.
As tarefas diárias possuem um objetivo, e pré-treinar modelos em torno desse objetivo é o que os transforma em especialistas. Neste artigo, estudamos o pré-treinamento de modelos de linguagem (LM) orientado a objetivos através da introdução do *Ranking baseado em Grafos de Neurónios Ativados* (NAG-based Ranking), uma estrutura isenta de treino e interpretável para a seleção de dados de pré-treinamento orientada a um objetivo. Em vez de usar representações de "caixa preta", a nossa abordagem caracteriza diretamente cada entrada de objetivo por um conjunto esparso de neurónios de alto impacto em qualquer LLM (*Large Language Model*) disponível. Concretamente, quantificamos o impacto dos neurónios e selecionamos os neurónios mais influentes através das camadas num *Gráfico de Neurónios Ativados* (NAG) compacto, e classificamos os dados candidatos pela similaridade do NAG com os exemplos de objetivo. Realizamos experiências em seis *benchmarks*, onde o nosso *Ranking* baseado em NAG melhorou o pré-treinamento orientado a objetivos em 4,9% em média face a uma amostragem aleatória, e também superou as linhas de base (*baselines*) mais avançadas (*state-of-the-art*) em 5,3% de precisão no HellaSwag. A abordagem também se mantém eficaz num cenário mais aplicável de múltiplos objetivos, onde a nossa melhor configuração supera duas linhas de base em 1,1% e 4,1%, respetivamente. Além disso, fornecemos uma análise abrangente sobre o porquê e o como do nosso NAG funcionar; por exemplo, desativar os neurónios selecionados pelo NAG (apenas 0,12% do total) provoca um colapso de desempenho de 23,5%, e restringir o NAG à camada final acarreta uma queda média de 4,1%, indicando que o NAG captura uma "espinha dorsal funcional" esparsa para a aprendizagem de características do objetivo. O código está disponível em https://github.com/asillycat/NAG.
A edição tradicional de imagens fotográficas normalmente exige que os usuários possuam compreensão estética suficiente para fornecer instruções adequadas para ajustar a qualidade da imagem e os parâmetros da câmara. No entanto, este paradigma depende da instrução humana explícita da intenção estética, que é frequentemente ambígua, incompleta ou inacessível a utilizadores não especializados. Neste trabalho, propomos o SmartPhotoCrafter, um método automático de edição de imagens fotográficas que formula a edição como um processo fortemente acoplado de raciocínio-para-geração. O modelo proposto executa primeiro a compreensão da qualidade da imagem e identifica deficiências através do módulo Crítico de Imagem (Image Critic), e depois o módulo Artista Fotográfico (Photographic Artist) realiza edições direcionadas para melhorar o apelo da imagem, eliminando a necessidade de instruções humanas explícitas. É adotado um pipeline de treino multiestágio: (i) Pré-treinamento de base para estabelecer compreensão estética básica e capacidades de edição, (ii) Adaptação com supervisão de múltiplas edições guiadas por raciocínio para incorporar orientação semântica rica, e (iii) Aprendizagem por reforço coordenada de raciocínio-para-geração para otimizar conjuntamente o raciocínio e a geração. Durante o treino, o SmartPhotoCrafter enfatiza a geração de imagens foto-realistas, suportando simultaneamente tarefas de restauração e retoque de imagem com aderência consistente à semântica relacionada com cor e tom. Também construímos um conjunto de dados específico por estágio, que constrói progressivamente o raciocínio e a geração controlável, uma colaboração eficaz entre módulos e, por fim, um aprimoramento fotográfico de alta qualidade. Experiências demonstram que o SmartPhotoCrafter supera os modelos generativos existentes na tarefa de aprimoramento fotográfico automático, alcançando resultados foto-realistas enquanto exibe maior sensibilidade tonal às instruções de retoque. Página do projeto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
Os recentes avanços na visão 3D levaram ao desenvolvimento de modelos especializados para compreensão 3D (por exemplo, classificação de formas, segmentação, reconstrução) ou para geração 3D (por exemplo, síntese, conclusão e edição). No entanto, essas tarefas são frequentemente abordadas de forma isolada, resultando em arquiteturas e representações fragmentadas que dificultam a transferência de conhecimento e a modelagem holística de cenas. Para enfrentar esses desafios, propomos o UniMesh, um framework unificado que aprende conjuntamente a geração e a compreensão 3D dentro de uma única arquitetura. Primeiro, introduzimos um novo *Mesh Head* que atua como uma interface de modelo cruzado, ligando a geração de imagens baseada em difusão com decodificadores de forma implícita. Segundo, desenvolvemos a *Chain of Mesh* (CoM), uma instanciação geométrica do raciocínio iterativo que permite a edição semântica de malhas orientada pelo utilizador através de um ciclo fechado de latente, *prompting* e regeneração. Terceiro, incorporamos um mecanismo de autorreflexão baseado numa tríade *Actor-Evaluator-Self-reflection* para diagnosticar e corrigir falhas em tarefas de alto nível, como a legendagem 3D. Resultados experimentais demonstram que o UniMesh não só alcança um desempenho competitivo em *benchmarks* padrão, como também desbloqueia novas capacidades na edição iterativa e no aprimoramento mútuo entre a geração e a compreensão. Código: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
A afinação de modelos de linguagem de grande escala (LLMs) permanece estruturalmente incerta, apesar de métodos eficientes em parâmetros como a Adaptação de Baixa Classificação (LoRA), uma vez que as funções específicas por camada das representações internas são pouco compreendidas, levando a decisões heurísticas sobre onde a adaptação deve ser aplicada. Nós modelamos a evolução dos estados ocultos como uma trajetória geométrica de alta dimensão e propomos o uso do algoritmo de Ramer-Douglas-Peucker (RDP), um método de simplificação de polígonos sem parâmetros e sem treinamento que preserva transições estruturais globais enquanto elimina alterações localmente redundantes, para identificar pontos de quebra críticos ao longo do caminho de representação. Crucialmente, usamos esses pontos de pivotagem geométricos não apenas para análise, mas como um sinal de decisão direta para determinar quais camadas devem ser adaptadas durante a afinação eficiente em parâmetros. Ao integrar esta estratégia de seleção de camadas consciente da geometria na afinação LoRA do Qwen3-8B-Base, alcançamos um desempenho superior no MMLU-Math usando apenas 13 camadas selecionadas pelo RDP (81,67%), superando significativamente tanto a adaptação completa de 36 camadas (79,32%) quanto a seleção aleatória de 13 camadas (75,56%), bem como o modelo de base Qwen3-8B-Base (74,25%). Estes resultados demonstram que alavancar a geometria intrínseca das trajetórias de representação fornece um sinal robusto, interpretável e livre de treinamento para otimizar a seleção de camadas durante a adaptação do modelo.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido cada vez mais utilizados como avaliadores automáticos - um paradigma conhecido como MLLM-como-Avaliador. No entanto, sua confiabilidade e vulnerabilidades a vieses permanecem pouco exploradas. Descobrimos que muitos avaliadores MLLM falham em integrar de forma confiável pistas visuais ou textuais essenciais, produzindo avaliações não confiáveis quando as evidências estão ausentes ou desencontradas, e exibindo instabilidade sob perturbações semanticamente irrelevantes. Para abordar esta questão, definimos sistematicamente o Viés Composicional em sistemas MLLM-como-Avaliador e introduzimos o MM-JudgeBias, um benchmark para sua avaliação. O MM-JudgeBias introduz perturbações controladas na Consulta, Imagem e Resposta, e avalia o comportamento do modelo por meio de duas métricas complementares: Desvio de Viés (BD) para sensibilidade e Conformidade de Viés (BC) para estabilidade. Nosso conjunto de dados com mais de 1.800 amostras multimodais curadas e refinadas, provenientes de 29 benchmarks de origem, permite um diagnóstico refinado de nove tipos de viés em diversas tarefas e domínios. Experimentos com 26 MLLMs de última geração revelam negligência modal sistemática e tendências avaliativas assimétricas, destacando a necessidade de avaliadores mais confiáveis.
A escalabilidade de modelos de *click-through rate* (CTR) baseados em *Transformers* através do empilhamento de mais parâmetros acarreta custos computacionais e de armazenamento crescentes, criando um fosso cada vez maior entre as ambições de escalonamento e as restrições rigorosas de implantação industrial. Propomos o LoopCTR, que introduz um paradigma de escalonamento em loop que aumenta a computação durante o treinamento por meio da reutilização recursiva de camadas compartilhadas do modelo, desacoplando a computação do crescimento de parâmetros. O LoopCTR adota uma arquitetura em sanduíche aprimorada com Residuais Hiperconectados e *Mixture-of-Experts*, e emprega supervisão de processo em cada profundidade de loop para codificar os benefícios de múltiplos loops nos parâmetros compartilhados. Isso permite uma estratégia de "treinar com múltiplos loops, inferir com zero loops", na qual uma única passagem direta sem qualquer loop já supera todas as linhas de base. Experimentos em três benchmarks públicos e um conjunto de dados industrial demonstram desempenho de última geração. Uma análise *oracle* revela ainda um potencial inexplorado de 0,02 a 0,04 de AUC, com modelos treinados com menos loops exibindo tetos *oracle* mais altos, apontando para uma fronteira promissora para inferência adaptativa.
O Modelo de Difusão Discreta Uniforme (UDM) surgiu recentemente como um paradigma promissor para a modelagem generativa discreta; no entanto, a sua integração com o aprendizado por reforço permanece amplamente inexplorada. Observamos que a aplicação ingênua do GRPO ao UDM leva a instabilidade no treinamento e ganhos de desempenho marginais. Para resolver isso, propomos o \Ours, o primeiro framework a integrar o UDM com o RL. O nosso método é guiado por duas ideias-chave: (i) tratar a amostra limpa final como a ação fornece sinais de otimização mais precisos e estáveis; e (ii) reconstruir trajetórias através do processo direto de difusão alinha melhor os caminhos de probabilidade com a distribuição de pré-treinamento. Adicionalmente, introduzimos duas estratégias, *Reduced-Step* e *CFG-Free*, para melhorar ainda mais a eficiência do treinamento. O \Ours melhora significativamente o desempenho do modelo base em múltiplas tarefas T2I. Notavelmente, a precisão no GenEval melhora de 69% para 96% e o PickScore aumenta de 20.46 para 23.81, alcançando desempenho de última geração em configurações contínuas e discretas. No benchmark de OCR, a precisão sobe de 8% para 57%, validando ainda mais a capacidade de generalização do nosso método. O código está disponível em https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
As tarefas comuns de edição de imagens geralmente adotam modelos generativos de difusão poderosos como o paradigma dominante para a edição de conteúdo no mundo real. Entretanto, embora métodos de aprendizagem por reforço (RL), como Diffusion-DPO e Flow-GRPO, tenham aprimorado ainda mais a qualidade da geração, a aplicação eficiente da Aprendizagem por Reforço a partir de Feedback Humano (RLHF) à edição baseada em difusão permanece amplamente inexplorada, devido à falta de conjuntos de dados de preferências humanas escaláveis e estruturas adaptadas às diversas necessidades de edição. Para preencher essa lacuna, propomos o HP-Edit, uma estrutura de pós-treinamento para Edição Alinhada com Preferências Humanas, e introduzimos o RealPref-50K, um conjunto de dados do mundo real abrangendo oito tarefas comuns e equilibrando a edição de objetos comuns. Especificamente, o HP-Edit aproveita uma pequena quantidade de dados de pontuação de preferências humanas e um modelo de linguagem grande visual (VLM) pré-treinado para desenvolver o HP-Scorer – um avaliador automático alinhado com as preferências humanas. Em seguida, usamos o HP-Scorer tanto para construir eficientemente um conjunto de dados de preferências escalável quanto para servir como função de recompensa para o pós-treinamento do modelo de edição. Também introduzimos o RealPref-Bench, um benchmark para avaliar o desempenho da edição no mundo real. Experimentos extensivos demonstram que nossa abordagem aprimora significativamente modelos como o Qwen-Image-Edit-2509, alinhando suas saídas mais de perto com a preferência humana.
A Teoria do Funcional da Densidade (DFT) sustenta grande parte da química computacional e da ciência dos materiais modernas. No entanto, a confiabilidade das previsões derivadas da DFT para propriedades experimentalmente mensuráveis permanece fundamentalmente limitada pela necessidade de aproximar o funcional de troca e correlação (XC) desconhecido. O paradigma tradicional para melhorar a precisão tem dependido de formas funcionais cada vez mais elaboradas, desenvolvidas manualmente. Essa abordagem levou a um compromisso de longa data entre eficiência computacional e precisão, que permanece insuficiente para a modelagem preditiva confiável de experimentos laboratoriais. Aqui introduzimos o Skala, um funcional XC baseado em aprendizado profundo que supera os funcionais híbridos mais avançados em precisão no conjunto de referência de química dos elementos representativos GMTKN55, com um erro de 2,8 kcal/mol, mantendo ao mesmo tempo o menor custo computacional característico da DFT semilocal. Esta demonstrada ruptura com o compromisso histórico entre precisão e eficiência é possibilitada pela aprendizagem de representações não locais da estrutura eletrônica diretamente a partir dos dados, contornando a necessidade de funcionalidades cada vez mais dispendiosas, projetadas manualmente. Aproveitando um volume sem precedentes de dados de referência de alta precisão de métodos baseados na função de onda, estabelecemos que o aprendizado profundo moderno permite modelos neurais de troca e correlação sistematicamente melhoráveis à medida que os conjuntos de dados de treinamento se expandem, posicionando as simulações de primeiros princípios para se tornarem progressivamente mais preditivas.
Trabalhos recentes demonstraram o potencial da orquestração de grandes modelos de linguagem (LLMs) em sistemas de otimização evolutiva e agentiva. No entanto, os mecanismos que impulsionam esses ganhos de otimização permanecem pouco compreendidos. Neste trabalho, apresentamos um estudo em larga escala da busca evolutiva guiada por LLMs, coletando trajetórias de otimização para 15 modelos diferentes em 8 tarefas. Embora a capacidade de resolução de problemas em modo *zero-shot* se correlacione com os resultados finais de otimização, ela explica apenas parte da variância: modelos com capacidade inicial semelhante frequentemente induzem trajetórias e resultados de busca drasticamente diferentes. Ao analisar essas trajetórias, descobrimos que LLMs otimizadores fortes comportam-se como refinadores locais, produzindo melhorias incrementais frequentes enquanto localizam progressivamente a busca no espaço semântico. Por outro lado, otimizadores mais fracos exibem grande deriva semântica, com avanços esporádicos seguidos de estagnação. Notavelmente, várias medidas de novidade da solução não preveem o desempenho final; a novidade é benéfica apenas quando a busca permanece suficientemente localizada em torno de regiões de alto desempenho do espaço de soluções. Nossos resultados destacam a importância da análise de trajetória para compreender e melhorar sistemas de otimização baseados em LLMs e fornecem insights acionáveis para seu projeto e treinamento.
As ferramentas de interpretabilidade são cada vez mais utilizadas para analisar falhas de Modelos de Linguagem de Grande Porte (LLMs), no entanto, trabalhos anteriores concentram-se maioritariamente em *prompts* curtos ou cenários simplificados, deixando o seu comportamento em *benchmarks* comumente utilizados pouco explorado. Para colmatar esta lacuna, estudamos a atribuição contrastiva baseada em LRP como uma ferramenta prática para analisar falhas de LLMs em contextos realistas. Formulamos a análise de falhas como uma atribuição contrastiva, atribuindo a diferença de *logit* entre um *token* de saída incorreto e uma alternativa correta aos *tokens* de entrada e aos estados internos do modelo, e introduzimos uma extensão eficiente que permite a construção de grafos de atribuição entre camadas para entradas de contexto longo. Utilizando este *framework*, realizamos um estudo empírico sistemático através de *benchmarks*, comparando padrões de atribuição entre conjuntos de dados, tamanhos de modelo e *checkpoints* de treino. Os nossos resultados mostram que esta atribuição contrastiva a nível de *token* pode produzir sinais informativos em alguns casos de falha, mas não é universalmente aplicável, destacando tanto a sua utilidade como as suas limitações para a análise realista de falhas de LLMs. O nosso código está disponível em: https://aka.ms/Debug-XAI.
Os modelos de linguagem são cada vez mais utilizados na descoberta científica para gerar hipóteses, propor soluções candidatas, implementar sistemas e refiná-los iterativamente. No centro destes ciclos de tentativa e erro está a avaliação: o processo de obter *feedback* sobre soluções candidatas através de verificadores, simuladores ou funções de pontuação específicas da tarefa. Embora trabalhos anteriores tenham destacado a importância da avaliação, não formularam explicitamente o problema de como os ciclos de descoberta orientados por avaliação podem ser escalados de forma principiada e eficaz para expandir os limites da descoberta científica, um problema que este artigo procura resolver. Apresentamos o *Simple Test-time Evaluation-driven Scaling* (SimpleTES), uma estrutura geral que combina estrategicamente exploração paralela, refinamento orientado por *feedback* e seleção local, revelando ganhos substanciais obtidos ao escalar os ciclos de descoberta orientados por avaliação ao longo das dimensões corretas. Em 21 problemas científicos abrangendo seis domínios, o SimpleTES descobre soluções de ponta usando modelos *gpt-oss*, superando consistentemente tanto as linhas de base de modelos de fronteira quanto os *pipelines* de otimização sofisticados. Particularmente, acelerámos o algoritmo LASSO amplamente utilizado em mais de 2x, projetámos políticas de roteamento de circuitos quânticos que reduzem a sobrecarga de portas em 24,5% e descobrimos novas construções de sobreposição mínima de Erdos que superam os melhores resultados conhecidos. Para além de descobertas novas, o SimpleTES produz históricos de trajetória que supervisionam naturalmente a aprendizagem orientada por *feedback*. Quando pós-treinados em trajetórias bem-sucedidas, os modelos não só melhoram a eficiência em problemas conhecidos, mas também generalizam para problemas não vistos, descobrindo soluções que os modelos base não conseguem encontrar. Em conjunto, os nossos resultados estabelecem a escalagem eficaz de ciclos orientados por avaliação como um eixo central para o avanço da descoberta científica orientada por LLM e fornecem uma estrutura simples, mas prática, para realizar esses ganhos.
Os atuais frameworks de agentes de IA têm feito progressos notáveis na automação de tarefas individuais, mas todos os sistemas existentes servem a um único utilizador. A produtividade humana assenta nas relações sociais e organizacionais através das quais as pessoas coordenam, negociam e delegam. Quando os agentes passam de realizar tarefas para uma pessoa a representar essa pessoa em colaboração com outras, a infraestrutura para colaboração entre agentes de diferentes utilizadores está totalmente ausente, muito menos os mecanismos de governança necessários para a garantir. Argumentamos que a próxima fronteira para os agentes de IA reside não numa capacidade individual mais forte, mas na digitalização das relações de colaboração humana. Para esse fim, propomos um paradigma de agente simbiótico humano. Cada utilizador possui um sistema de agente permanentemente vinculado que colabora em nome do proprietário, formando uma rede cujos nós são humanos e não agentes. Este paradigma assenta em três primitivas de governança. Uma arquitetura de identidade em camadas separa um Agente Gestor de múltiplos Agentes de Identidade específicos de contexto; o Agente Gestor detém conhecimento global, mas está arquitetonicamente isolado da comunicação externa. A autorização com âmbito aplica controlo de acesso por identidade e escalona violações de limite para o proprietário. A responsabilidade ao nível da ação regista cada operação contra a identidade e autorização do seu proprietário, garantindo auditabilidade total. Instanciamos este paradigma no ClawNet, um framework de colaboração de agentes governado por identidade que aplica a vinculação de identidade e verificação de autorização através de um orquestrador central, permitindo que múltiplos utilizadores colaborem de forma segura através dos seus respetivos agentes.
Os Grandes Modelos de Visão e Linguagem (LVLMs) ainda enfrentam dificuldades com a alucinação visual, onde as respostas geradas são inconsistentes com a entrada visual. Os métodos existentes ou dependem de dados anotados em larga escala para ajuste fino, o que acarreta um enorme custo computacional, ou empregam estratégias pós-hoc estáticas que ignoram a natureza dinâmica do surgimento de alucinações. Para resolver essas limitações, introduzimos uma nova estrutura de autorrecompensa, permitindo a mitigação dinâmica de alucinações no momento da inferência sem supervisão externa. No lado empírico, revelamos que a alucinação visual exibe padrões dinâmicos por fases, atingindo o pico no início de cada fase semântica. Com base nessas percepções, propomos o PSRD (Decodificação por Autorrecompensa por Fases) para correção online de alucinações orientada por sinais de autorrecompensa por fases. Para reduzir o custo da autoavaliação repetida durante a decodificação, destilamos o sinal de orientação de alucinação dos LVLMs em um modelo de recompensa leve. Este modelo de recompensa subsequentemente fornece orientação instantânea para intervenção direcionada durante o processo de decodificação, permitindo uma supressão precisa de alucinações. O PSRD proposto reduz significativamente a taxa de alucinação do LLaVA-1.5-7B em 50,0% e supera consistentemente os métodos pós-hoc existentes em cinco benchmarks de avaliação de alucinação para quatro LVLMs. Uma análise mais aprofundada confirma que o PSRD mitiga efetivamente a propagação de alucinações e alcança um equilíbrio altamente controlável entre alto desempenho e eficiência de inferência.
Dispositivos de borda como smartwatches e óculos inteligentes não conseguem executar continuamente nem mesmo os menores modelos de linguagem com 100M-1B de parâmetros devido a restrições de energia e computação. No entanto, a inferência na nuvem introduz latências de vários segundos que quebram a ilusão de um assistente responsivo. Introduzimos os micro modelos de linguagem (μLMs): modelos ultracompactos (8M-30M de parâmetros) que geram instantaneamente as primeiras 4-8 palavras de uma resposta contextualmente fundamentada no próprio dispositivo, enquanto um modelo na nuvem a completa; mascarando assim a latência da nuvem. Mostramos que a geração de linguagem útil sobrevive nesta escala extrema, com nossos modelos equiparando-se a vários modelos existentes da classe de 70M-256M de parâmetros. Projetamos uma estrutura de geração colaborativa que reformula o modelo na nuvem como um continuador, e não um respondedor, alcançando transições suaves no meio da frase e uma recuperação estruturada e graciosa por meio de três métodos de correção de erro quando a abertura local falha. Resultados empíricos mostram que os μLMs podem iniciar respostas que modelos maiores completam de forma contínua, demonstrando que uma colaboração assimétrica de ordens de magnitude é alcançável e liberando a IA responsiva para dispositivos extremamente limitados em recursos. O *checkpoint* do modelo e a demonstração estão disponíveis em https://github.com/Sensente/micro_language_model_swen_project.
Estudamos o problema de prever rótulos numéricos que estão restritos aos inteiros ou a um subconjunto dos inteiros. Por exemplo, o número de votos positivos em publicações de redes sociais ou o número de bicicletas disponíveis numa estação pública de aluguer. Embora seja possível modelar estes valores como contínuos e aplicar regressão tradicional, esta abordagem altera a distribuição subjacente dos rótulos de discreta para contínua. As distribuições discretas apresentam certos benefícios, o que nos leva a questionar se tais rótulos inteiros podem ser modelados diretamente por uma distribuição discreta, cujos parâmetros são previstos a partir das características de uma determinada instância. Além disso, focamo-nos no caso de uso de distribuições de saída de redes neuronais, o que acrescenta o requisito de que os parâmetros da distribuição sejam contínuos, para que a retropropagação e o gradiente descendente possam ser utilizados para aprender os pesos da rede. Investigamos várias opções para tais distribuições, algumas existentes e outras novas, e testamo-las numa variedade de tarefas, incluindo aprendizagem em dados tabulares, previsão sequencial e geração de imagens. Concluímos que, no geral, o melhor desempenho provém de duas distribuições: Bitwise, que representa o inteiro alvo em bits e aplica uma distribuição de Bernoulli a cada um, e um análogo discreto da distribuição de Laplace, que utiliza uma distribuição com caudas de decaimento exponencial em torno de uma média contínua.
Os sistemas recentes de Tradução de Fala para Fala (S2ST) alcançam alta precisão semântica, mas consistentemente removem vocalizações não verbais (NVs), como risos e choro que transmitem intenção pragmática, o que limita severamente sua utilidade prática. Abordamos este problema através de três contribuições. Primeiro, propomos um *pipeline* de síntese para criar conjuntos de dados expressivos e escaláveis, superando a limitação da escassez de dados. Segundo, propomos o MoVE, uma arquitetura de *Mixture-of-LoRA-Experts* com adaptadores especializados em expressividade e um roteador de ponderação suave que combina especialistas para capturar estados expressivos híbridos. Terceiro, mostramos que os AudioLLMs pré-treinados permitem uma eficiência de dados impressionante: 30 minutos de dados curados são suficientes para um desempenho robusto. Na tradução Inglês-Chinês, enquanto comparações com bases fortes mostram que os sistemas S2ST existentes preservam no máximo 14% das NVs, o MoVE reproduz as NVs-alvo em 76% dos casos e alcança a maior naturalidade e fidelidade emocional avaliadas por humanos entre todos os sistemas comparados.
As Organizações Autônomas Descentralizadas (DAOs) estão inclinadas a explorar Small Language Models (SLMs) como firewalls constitucionais nativos de borda para analisar propostas e mitigar a engenharia social semântica. Embora a escalação da computação em tempo de inferência (Sistema 2) aprimore a lógica formal, sua eficácia em ambientes de governança criptoeconômica altamente adversariais permanece pouco explorada. Para abordar isso, introduzimos o Sentinel-Bench, uma estrutura empírica de 840 inferências que executa uma ablação intra-modelo estrita no Qwen-3.5-9B. Ao alternar o raciocínio latente através de pesos congelados, isolamos o impacto da computação em tempo de inferência contra um conjunto de dados adversarial do Optimism DAO. Nossas descobertas revelam uma severa inversão computação-precisão. A linha de base autoregressiva (Sistema 1) alcançou 100% de robustez adversarial, 100% de consistência jurídica e finalidade de estado em menos de 13 segundos. Por outro lado, o raciocínio do Sistema 2 introduziu uma instabilidade catastrófica, fundamentalmente impulsionada por uma taxa de 26,7% de Não Convergência do Raciocínio (colapso cognitivo). Este colapso degradou a estabilidade do consenso entre tentativas para 72,6% e impôs uma sobrecarga de latência 17 vezes maior, introduzindo vulnerabilidades críticas ao Valor Extraível de Governança (GEV) e à centralização de hardware. Embora raro (1,5% dos testes adversariais), capturamos empiricamente a "Sicofania Induzida por Raciocínio", onde o modelo gerou monólogos internos significativamente mais longos (média de 25.750 caracteres) para racionalizar a falha na armadilha adversarial. Concluímos que, para SLMs nativos de borda operando sob restrições de Tolerância a Falhas Bizantinas (BFT), a intuição parametrizada do Sistema 1 é estrutural e economicamente superior à deliberação iterativa do Sistema 2 para consenso descentralizado. Código e Conjunto de Dados: https://github.com/smarizvi110/sentinel-bench
Os Modelos de Raciocínio Multimodal (MRMs) que utilizam o pensamento baseado em Cadeia de Pensamento (CoT) revolucionaram a resolução de problemas matemáticos e lógicos. No entanto, demonstramos que este paradigma enfrenta dificuldades com a inteligência espacial generalizada. Realizamos uma avaliação abrangente de dezessete modelos em treze benchmarks espaciais e identificamos uma lacuna crítica: a prompting CoT degrada consistentemente o desempenho no raciocínio espacial visual. Além disso, por meio de uma nova ablação No-Image++, demonstramos que os MRMs e MLMs com prompting CoT sofrem de aprendizado por atalho severo e alucinam detalhes visuais a partir de prévias textuais, mesmo quando a imagem está ausente. Essas descobertas desafiam a eficácia do CoT baseado apenas em texto para tarefas espaciais e ressaltam a necessidade de paradigmas de raciocínio centrados na visão.
Os modelos multimodais de linguagem de grande escala (MLLMs) alcançaram progressos impressionantes em benchmarks de linguagem visual, mas a sua capacidade para o raciocínio cognitivo visual e visuoespacial permanece menos compreendida. Apresentamos "Mind's Eye", um benchmark de múltipla escolha composto por oito tarefas visuo-cognitivas inspiradas em testes clássicos de inteligência humana e organizadas sob uma nova taxonomia "A-R-T": Abstração, Relação e Transformação. As tarefas investigam processos centrais da inteligência fluida, como indução de padrões, mapeamento de relações analógicas e transformação mental. Avaliamos um conjunto diversificado de MLLMs de código fechado e aberto e comparamos o seu desempenho com participantes humanos. Os humanos atingem 80% de precisão, enquanto os MLLMs de melhor desempenho permanecem abaixo de 50%. A análise de erros revela falhas em: (i) alocação da atenção visual, (ii) manipulação perceptual interna e (iii) fraca abstração de conceitos visuais subjacentes. As nossas descobertas sugerem que os MLLMs atuais exibem capacidades limitadas de raciocínio visuoespacial quando comparados com participantes humanos, destacando a necessidade de estruturas de avaliação mais fundamentadas cognitivamente.
A implementação de interface de usuário (UI) em jogos requer a tradução de mockups estilizados em entidades interativas do motor de jogo. No entanto, as ferramentas atuais de "Screenshot-to-Code" frequentemente têm dificuldade com as geometrias irregulares e hierarquias visuais complexas típicas das interfaces de jogos. Para preencher essa lacuna, apresentamos o SPRITE, um pipeline que transforma screenshots estáticos em assets editáveis do motor. Ao integrar Modelos de Visão e Linguagem (VLMs) com uma representação intermediária estruturada em YAML, o SPRITE captura explicitamente relações complexas de containers e layouts não retangulares. Avaliamos o SPRITE contra um benchmark curado de UI de jogos e conduzimos revisões por especialistas com desenvolvedores profissionais para avaliar a fidelidade da reconstrução e a eficiência de prototipagem. Nossos resultados demonstram que o SPRITE agiliza o desenvolvimento automatizando a codificação tediosa e resolven do aninhamento complexo. Ao facilitar a iteração rápida dentro do motor, o SPRITE efetivamente desfaz os limites entre o design artístico e a implementação técnica no desenvolvimento de jogos. Página do projeto: https://baiyunshu.github.io/sprite.github.io/