Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de Interface Gráfica do Usuário (GUI) alimentados por Modelos de Visão-Linguagem (VLMs) têm demonstrado capacidade de controle de computador semelhante à humana. Apesar de sua utilidade na promoção da automação digital, um gargalo crítico persiste: a coleta de dados de trajetória de alta qualidade para treinamento. Práticas comuns para coletar tais dados dependem de supervisão humana ou geração de dados sintéticos por meio da execução de tarefas predefinidas, que são ou intensivas em recursos ou incapazes de garantir a qualidade dos dados. Além disso, esses métodos sofrem com a limitada diversidade de dados e lacunas significativas entre dados sintéticos e ambientes do mundo real. Para enfrentar esses desafios, propomos o OS-Genesis, um novo pipeline de síntese de dados de GUI que reverte o processo convencional de coleta de trajetória. Em vez de depender de tarefas predefinidas, o OS-Genesis permite que os agentes primeiro percebam os ambientes e realizem interações passo a passo, para então derivar retrospectivamente tarefas de alta qualidade para possibilitar a exploração em nível de trajetória. Um modelo de recompensa de trajetória é então empregado para garantir a qualidade das trajetórias geradas. Demonstramos que o treinamento de agentes de GUI com o OS-Genesis melhora significativamente seu desempenho em benchmarks online altamente desafiadores. Uma análise aprofundada valida ainda mais a eficiência do OS-Genesis e sua qualidade e diversidade de dados superiores em comparação com métodos de síntese existentes. Nossos códigos, dados e checkpoints estão disponíveis em https://qiushisun.github.io/OS-Genesis-Home/{Página Inicial do OS-Genesis}.
O Xmodel-2 é um modelo de linguagem grande com 1,2 bilhão de parâmetros, projetado especificamente para tarefas de raciocínio. Sua arquitetura permite que diferentes escalas de modelos compartilhem um conjunto unificado de hiperparâmetros, permitindo uma experimentação extensiva em modelos menores e a transferência contínua de configurações ótimas para modelos maiores. Para maximizar a eficiência e estabilidade do treinamento, o Xmodel-2 utiliza o programador de taxa de aprendizado WSD do MiniCPM. Pré-treinado em 1,5 trilhão de tokens de fontes diversas, o Xmodel-2 alcança um desempenho de ponta em tarefas de raciocínio complexas e baseadas em agentes, mantendo baixos custos de treinamento. Esses resultados destacam o potencial do design eficiente de modelos e estratégias de treinamento para avançar as capacidades de raciocínio. Os pontos de verificação do modelo e o código estão publicamente disponíveis no GitHub em https://github.com/XiaoduoAILab/Xmodel-2
Os Modelos de Visão-Linguagem em larga escala (VLMs) avançaram ao alinhar entradas de visão com texto, melhorando significativamente o desempenho em tarefas de visão computacional. Além disso, para que os VLMs sejam utilizados de forma eficaz em aplicações do mundo real, é essencial compreender dados de sensores multi-visão diversos, como informações térmicas, de profundidade e de raio-X. No entanto, observamos que os VLMs atuais processam imagens de sensores multi-visão sem um entendimento profundo das informações do sensor, ignorando as propriedades físicas únicas de cada sensor. Essa limitação restringe sua capacidade de interpretar e responder a perguntas complexas que exigem raciocínio de sensores multi-visão. Para lidar com isso, propomos um novo benchmark de Percepção e Raciocínio de Sensores Multi-visão (MS-PR), avaliando os VLMs em sua capacidade de raciocínio específico do sensor. Além disso, introduzimos a otimização de Atributos Negativos Diversos (DNA) para capacitar os VLMs a realizar um raciocínio profundo em tarefas de sensores multi-visão, ajudando a preencher a lacuna de informação fundamental entre imagens e dados do sensor. Resultados experimentais extensos validam que o método DNA proposto pode melhorar significativamente o raciocínio de sensores multi-visão para os VLMs.
Apresentamos o HunyuanProver, um modelo de linguagem ajustado a partir do Hunyuan 7B para demonstração automática interativa de teoremas com LEAN4. Para mitigar o problema de escassez de dados, projetamos um framework escalável para sintetizar iterativamente dados com baixo custo. Além disso, algoritmos de busca em árvore guiada são desenvolvidos para permitir um "pensamento do sistema 2" eficaz do provador. O HunyuanProver alcança desempenhos de ponta (SOTA) em importantes benchmarks. Especificamente, obtém uma taxa de aprovação de 68,4% no miniF2F-teste em comparação com 65,9%, os resultados SOTA atuais. Ele prova 4 declarações IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 e imo_1983_p6) no miniF2F-teste. Para beneficiar a comunidade, disponibilizaremos um conjunto de dados de 30 mil instâncias sintetizadas, onde cada instância contém a pergunta original em linguagem natural, a declaração convertida por autoformalização e a prova pelo HunyuanProver.
Embora os modelos de difusão demonstrem talentos extraordinários na geração de texto para imagem, ainda podem falhar ao gerar imagens altamente estéticas. Mais especificamente, ainda existe uma lacuna entre as imagens geradas e as imagens estéticas do mundo real em dimensões mais refinadas, incluindo cor, iluminação, composição, etc. Neste artigo, propomos o Adaptador de Controle de Mistura de Valor de Atenção Cruzada (VMix), um adaptador estético plug-and-play, para melhorar a qualidade das imagens geradas enquanto mantém a generalidade entre os conceitos visuais, através de (1) desmembrar o prompt de texto de entrada na descrição de conteúdo e descrição estética pela inicialização da incorporação estética, e (2) integrar condições estéticas no processo de remoção de ruído por meio de atenção cruzada mista de valores, com a rede conectada por camadas lineares inicializadas com zero. Nosso insight chave é aprimorar a apresentação estética dos modelos de difusão existentes projetando um método de controle de condição superior, tudo isso enquanto preserva o alinhamento imagem-texto. Através de nosso design meticuloso, o VMix é flexível o suficiente para ser aplicado a modelos comunitários para melhor desempenho visual sem a necessidade de retrabalho. Para validar a eficácia de nosso método, conduzimos experimentos extensivos, mostrando que o VMix supera outros métodos de ponta e é compatível com outros módulos comunitários (por exemplo, LoRA, ControlNet e IPAdapter) para geração de imagens. A página do projeto é https://vmix-diffusion.github.io/VMix/.