Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

OS-Genesis: Automatizando a Construção de Trajetória do Agente GUI por meio da Síntese Reversa de Tarefas
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Agentes de Interface Gráfica do Usuário (GUI) alimentados por Modelos de Visão-Linguagem (VLMs) têm demonstrado capacidade de controle de computador semelhante à humana. Apesar de sua utilidade na promoção da automação digital, um gargalo crítico persiste: a coleta de dados de trajetória de alta qualidade para treinamento. Práticas comuns para coletar tais dados dependem de supervisão humana ou geração de dados sintéticos por meio da execução de tarefas predefinidas, que são ou intensivas em recursos ou incapazes de garantir a qualidade dos dados. Além disso, esses métodos sofrem com a limitada diversidade de dados e lacunas significativas entre dados sintéticos e ambientes do mundo real. Para enfrentar esses desafios, propomos o OS-Genesis, um novo pipeline de síntese de dados de GUI que reverte o processo convencional de coleta de trajetória. Em vez de depender de tarefas predefinidas, o OS-Genesis permite que os agentes primeiro percebam os ambientes e realizem interações passo a passo, para então derivar retrospectivamente tarefas de alta qualidade para possibilitar a exploração em nível de trajetória. Um modelo de recompensa de trajetória é então empregado para garantir a qualidade das trajetórias geradas. Demonstramos que o treinamento de agentes de GUI com o OS-Genesis melhora significativamente seu desempenho em benchmarks online altamente desafiadores. Uma análise aprofundada valida ainda mais a eficiência do OS-Genesis e sua qualidade e diversidade de dados superiores em comparação com métodos de síntese existentes. Nossos códigos, dados e checkpoints estão disponíveis em https://qiushisun.github.io/OS-Genesis-Home/{Página Inicial do OS-Genesis}.

Relatório Técnico do Modelo-X2
Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

O Xmodel-2 é um modelo de linguagem grande com 1,2 bilhão de parâmetros, projetado especificamente para tarefas de raciocínio. Sua arquitetura permite que diferentes escalas de modelos compartilhem um conjunto unificado de hiperparâmetros, permitindo uma experimentação extensiva em modelos menores e a transferência contínua de configurações ótimas para modelos maiores. Para maximizar a eficiência e estabilidade do treinamento, o Xmodel-2 utiliza o programador de taxa de aprendizado WSD do MiniCPM. Pré-treinado em 1,5 trilhão de tokens de fontes diversas, o Xmodel-2 alcança um desempenho de ponta em tarefas de raciocínio complexas e baseadas em agentes, mantendo baixos custos de treinamento. Esses resultados destacam o potencial do design eficiente de modelos e estratégias de treinamento para avançar as capacidades de raciocínio. Os pontos de verificação do modelo e o código estão publicamente disponíveis no GitHub em https://github.com/XiaoduoAILab/Xmodel-2

Os Modelos de Visão-Linguagem Realmente Estão Compreendendo Sensores Multivisão?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

Os Modelos de Visão-Linguagem em larga escala (VLMs) avançaram ao alinhar entradas de visão com texto, melhorando significativamente o desempenho em tarefas de visão computacional. Além disso, para que os VLMs sejam utilizados de forma eficaz em aplicações do mundo real, é essencial compreender dados de sensores multi-visão diversos, como informações térmicas, de profundidade e de raio-X. No entanto, observamos que os VLMs atuais processam imagens de sensores multi-visão sem um entendimento profundo das informações do sensor, ignorando as propriedades físicas únicas de cada sensor. Essa limitação restringe sua capacidade de interpretar e responder a perguntas complexas que exigem raciocínio de sensores multi-visão. Para lidar com isso, propomos um novo benchmark de Percepção e Raciocínio de Sensores Multi-visão (MS-PR), avaliando os VLMs em sua capacidade de raciocínio específico do sensor. Além disso, introduzimos a otimização de Atributos Negativos Diversos (DNA) para capacitar os VLMs a realizar um raciocínio profundo em tarefas de sensores multi-visão, ajudando a preencher a lacuna de informação fundamental entre imagens e dados do sensor. Resultados experimentais extensos validam que o método DNA proposto pode melhorar significativamente o raciocínio de sensores multi-visão para os VLMs.

HUNYUANPROVER: Um Framework Escalável de Síntese de Dados e Busca de Árvore Guiada para Prova Automatizada de Teoremas
HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

Apresentamos o HunyuanProver, um modelo de linguagem ajustado a partir do Hunyuan 7B para demonstração automática interativa de teoremas com LEAN4. Para mitigar o problema de escassez de dados, projetamos um framework escalável para sintetizar iterativamente dados com baixo custo. Além disso, algoritmos de busca em árvore guiada são desenvolvidos para permitir um "pensamento do sistema 2" eficaz do provador. O HunyuanProver alcança desempenhos de ponta (SOTA) em importantes benchmarks. Especificamente, obtém uma taxa de aprovação de 68,4% no miniF2F-teste em comparação com 65,9%, os resultados SOTA atuais. Ele prova 4 declarações IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 e imo_1983_p6) no miniF2F-teste. Para beneficiar a comunidade, disponibilizaremos um conjunto de dados de 30 mil instâncias sintetizadas, onde cada instância contém a pergunta original em linguagem natural, a declaração convertida por autoformalização e a prova pelo HunyuanProver.

VMix: Melhorando o Modelo de Difusão de Texto para Imagem com Atenção Cruzada Controle de Mistura
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He

Embora os modelos de difusão demonstrem talentos extraordinários na geração de texto para imagem, ainda podem falhar ao gerar imagens altamente estéticas. Mais especificamente, ainda existe uma lacuna entre as imagens geradas e as imagens estéticas do mundo real em dimensões mais refinadas, incluindo cor, iluminação, composição, etc. Neste artigo, propomos o Adaptador de Controle de Mistura de Valor de Atenção Cruzada (VMix), um adaptador estético plug-and-play, para melhorar a qualidade das imagens geradas enquanto mantém a generalidade entre os conceitos visuais, através de (1) desmembrar o prompt de texto de entrada na descrição de conteúdo e descrição estética pela inicialização da incorporação estética, e (2) integrar condições estéticas no processo de remoção de ruído por meio de atenção cruzada mista de valores, com a rede conectada por camadas lineares inicializadas com zero. Nosso insight chave é aprimorar a apresentação estética dos modelos de difusão existentes projetando um método de controle de condição superior, tudo isso enquanto preserva o alinhamento imagem-texto. Através de nosso design meticuloso, o VMix é flexível o suficiente para ser aplicado a modelos comunitários para melhor desempenho visual sem a necessidade de retrabalho. Para validar a eficácia de nosso método, conduzimos experimentos extensivos, mostrando que o VMix supera outros métodos de ponta e é compatível com outros módulos comunitários (por exemplo, LoRA, ControlNet e IPAdapter) para geração de imagens. A página do projeto é https://vmix-diffusion.github.io/VMix/.

OS-Genesis: Automatizando a Construção de Trajetória do Agente GUI por meio da Síntese Reversa de Tarefas

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Relatório Técnico do Modelo-X2

Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Os Modelos de Visão-Linguagem Realmente Estão Compreendendo Sensores Multivisão?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

HUNYUANPROVER: Um Framework Escalável de Síntese de Dados e Busca de Árvore Guiada para Prova Automatizada de Teoremas

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

VMix: Melhorando o Modelo de Difusão de Texto para Imagem com Atenção Cruzada Controle de Mistura

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He