Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

LLaVA-o1: Permitir que Modelos de Linguagem Visual Raciocinem Passo a Passo
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

Grandes modelos de linguagem têm demonstrado avanços substanciais em capacidades de raciocínio, especialmente por meio do escalonamento no tempo de inferência, como ilustrado por modelos como o o1 da OpenAI. No entanto, os Modelos de Visão e Linguagem (VLMs) atuais frequentemente enfrentam dificuldades para realizar raciocínio sistemático e estruturado, especialmente ao lidar com tarefas complexas de pergunta e resposta visual. Neste trabalho, apresentamos o LLaVA-o1, um novo VLM projetado para realizar raciocínio autônomo em múltiplos estágios. Ao contrário da abordagem de encadeamento de pensamento, o LLaVA-o1 se envolve independentemente em estágios sequenciais de sumarização, interpretação visual, raciocínio lógico e geração de conclusões. Essa abordagem estruturada permite que o LLaVA-o1 alcance melhorias significativas em precisão em tarefas intensivas em raciocínio. Para alcançar isso, compilamos o conjunto de dados LLaVA-o1-100k, integrando amostras de várias fontes de perguntas e respostas visuais e fornecendo anotações de raciocínio estruturado. Além disso, propomos um método de busca em feixe em nível de estágio no tempo de inferência, que possibilita um escalonamento eficaz no tempo de inferência. Notavelmente, com apenas 100k amostras de treinamento e um método de escalonamento no tempo de inferência simples, porém eficaz, o LLaVA-o1 não apenas supera seu modelo base em 8,9% em uma ampla gama de benchmarks de raciocínio multimodal, mas também ultrapassa o desempenho de modelos maiores e até mesmo de código fechado, como o Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.

Geração de Texto-para-Imagem Consciente da Região por Meio de Vinculação Rígida e Refinamento Suave
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

Neste artigo, apresentamos o RAG, um método de Geração de Texto-para-Imagem Consciente da Região condicionado a descrições regionais para composição precisa do layout. A solicitação regional, ou geração composicional, que possibilita controle espacial detalhado, tem recebido cada vez mais atenção por sua praticidade em aplicações do mundo real. No entanto, métodos anteriores ou introduzem módulos treináveis adicionais, sendo assim aplicáveis apenas a modelos específicos, ou manipulam mapas de pontuação dentro de camadas de atenção cruzada usando máscaras de atenção, resultando em força de controle limitada quando o número de regiões aumenta. Para lidar com essas limitações, desmembramos a geração multi-região em duas sub-tarefas, a construção da região individual (Vínculo Rígido Regional) que garante a execução adequada da solicitação regional, e o refinamento geral de detalhes (Refinamento Suave Regional) sobre as regiões que ignoram os limites visuais e aprimoram interações adjacentes. Além disso, o RAG torna possível a repintura, onde os usuários podem modificar regiões específicas insatisfatórias na última geração mantendo todas as outras regiões inalteradas, sem depender de modelos adicionais de inpainting. Nossa abordagem é livre de ajustes e aplicável a outros frameworks como um aprimoramento à propriedade de seguir a solicitação. Experimentos quantitativos e qualitativos demonstram que o RAG alcança desempenho superior em relação ao vínculo de atributos e relacionamento de objetos do que métodos anteriores sem ajustes.

O Surgimento do Agente GUI: Um Estudo de Caso Preliminar com o Computador Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

O modelo recentemente lançado, Claude 3.5 Computer Use, destaca-se como o primeiro modelo de IA de ponta a oferecer uso de computador em beta público como um agente de interface gráfica do usuário (GUI). Como um beta inicial, sua capacidade em um ambiente complexo do mundo real permanece desconhecida. Neste estudo de caso para explorar o Claude 3.5 Computer Use, curamos e organizamos uma coleção de tarefas cuidadosamente projetadas abrangendo uma variedade de domínios e softwares. Observações desses casos demonstram a capacidade sem precedentes do Claude 3.5 Computer Use em ações de linguagem para desktop de ponta a ponta. Juntamente com este estudo, fornecemos um framework de agente pronto para uso para implantar modelos de automação de GUI baseados em API com implementação fácil. Nossos estudos de caso visam mostrar uma base de capacidades e limitações do Claude 3.5 Computer Use com análises detalhadas e trazer à tona questões sobre planejamento, ação e crítica, que devem ser consideradas para melhorias futuras. Esperamos que essa exploração preliminar inspire pesquisas futuras na comunidade de agentes de GUI. Todos os casos de teste no artigo podem ser testados através do projeto: https://github.com/showlab/computer_use_ootb.

GaussianAnything: Difusão Latente Interativa de Nuvem de Pontos para Geração 3D
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

Embora a geração de conteúdo 3D tenha avançado significativamente, os métodos existentes ainda enfrentam desafios com formatos de entrada, design de espaço latente e representações de saída. Este artigo apresenta um novo framework de geração 3D que aborda esses desafios, oferecendo geração 3D escalável e de alta qualidade com um espaço latente estruturado em Nuvem de Pontos interativo. Nosso framework utiliza um Autoencoder Variacional (VAE) com renderizações RGB-D(epth)-N(ormal) em multi-visão como entrada, utilizando um design de espaço latente único que preserva informações de forma 3D e incorpora um modelo de difusão latente em cascata para melhorar a separação forma-textura. O método proposto, GaussianAnything, suporta geração 3D condicional multimodal, permitindo entradas de nuvem de pontos, legenda e imagens de visão única/multipla. Notavelmente, o espaço latente recém-proposto permite naturalmente a separação geometria-textura, permitindo assim edição consciente de 3D. Resultados experimentais demonstram a eficácia de nossa abordagem em múltiplos conjuntos de dados, superando os métodos existentes tanto na geração 3D condicionada por texto quanto por imagem.

Xmodel-1.5: Um LLM Multilíngue em Escala de 1 Bilhão
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

Apresentamos o Xmodel-1.5, um novo modelo grande multilíngue com 1 bilhão de parâmetros pré-treinado em aproximadamente 2 trilhões de tokens. O modelo demonstra um desempenho sólido em várias línguas, com resultados particularmente notáveis em Tailandês, Árabe e Francês, juntamente com sua eficácia em Chinês e Inglês. Além disso, contribuímos para a comunidade de pesquisa ao disponibilizar um conjunto de dados de avaliação em Tailandês, que inclui centenas de perguntas anotadas por estudantes da Escola de Inovação Integrada da Universidade Chulalongkorn. Embora os resultados sejam promissores, reconhecemos que ainda há espaço para melhorias. Esperamos que este trabalho impulsione os esforços em andamento na pesquisa de IA multilíngue e promova uma melhor compreensão interlinguística em várias tarefas de processamento de linguagem natural. Nossos modelos e código estão disponíveis publicamente no GitHub em https://github.com/XiaoduoAILab/XmodelLM.

Numerá-lo: Temporal Grounding de Vídeos como Virar Manga
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

Os Modelos de Linguagem em Vídeo de Grande Escala (Vid-LLMs) fizeram avanços notáveis na compreensão de conteúdo de vídeo para diálogos de QA. No entanto, eles enfrentam dificuldades em estender essa compreensão visual para tarefas que exigem localização temporal precisa, conhecidas como Ancoragem Temporal de Vídeo (VTG). Para abordar essa lacuna, introduzimos o Number-Prompt (NumPro), um método inovador que capacita os Vid-LLMs a conectar a compreensão visual com a ancoragem temporal, adicionando identificadores numéricos únicos a cada quadro de vídeo. Tratando um vídeo como uma sequência de imagens de quadros numerados, o NumPro transforma o VTG em um processo intuitivo: folhear painéis de mangá em sequência. Isso permite que os Vid-LLMs "leiam" linhas do tempo de eventos, vinculando com precisão o conteúdo visual às informações temporais correspondentes. Nossos experimentos demonstram que o NumPro melhora significativamente o desempenho do VTG dos principais Vid-LLMs sem custo computacional adicional. Além disso, o ajuste fino em um conjunto de dados aprimorado pelo NumPro define um novo estado-da-arte para o VTG, superando métodos anteriores de melhor desempenho em até 6,9\% em mIoU para recuperação de momentos e 8,5\% em mAP para detecção de destaques. O código estará disponível em https://github.com/yongliang-wu/NumPro.

MARS: Liberando o Poder da Redução de Variância para Treinar Modelos Grandes
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

O treinamento de redes neurais profundas - e mais recentemente, modelos grandes - exige otimizadores eficientes e escaláveis. Algoritmos de gradiente adaptativos como Adam, AdamW e suas variantes têm sido fundamentais para essa tarefa. Apesar do desenvolvimento de inúmeros algoritmos de redução de variância na última década com o objetivo de acelerar a otimização estocástica em ambientes convexos e não convexos, a redução de variância não obteve amplo sucesso no treinamento de redes neurais profundas ou grandes modelos de linguagem. Consequentemente, tem sido uma abordagem menos favorecida na IA moderna. Neste artigo, para liberar o potencial da redução de variância para o treinamento eficiente de grandes modelos, propomos um framework de otimização unificado, MARS (Make vAriance Reduction Shine), que concilia métodos de gradiente precondicionados com redução de variância por meio de uma técnica de momento estocástico escalonado recursivo. Dentro do nosso framework, introduzimos três instâncias de MARS que aproveitam atualizações de gradiente precondicionadas com base em AdamW, Lion e Shampoo, respectivamente. Também estabelecemos uma conexão entre nossos algoritmos e otimizadores existentes. Resultados experimentais no treinamento de modelos GPT-2 indicam que o MARS supera consistentemente o AdamW por uma grande margem.