Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de linguagem têm demonstrado avanços substanciais em capacidades de raciocínio, especialmente por meio do escalonamento no tempo de inferência, como ilustrado por modelos como o o1 da OpenAI. No entanto, os Modelos de Visão e Linguagem (VLMs) atuais frequentemente enfrentam dificuldades para realizar raciocínio sistemático e estruturado, especialmente ao lidar com tarefas complexas de pergunta e resposta visual. Neste trabalho, apresentamos o LLaVA-o1, um novo VLM projetado para realizar raciocínio autônomo em múltiplos estágios. Ao contrário da abordagem de encadeamento de pensamento, o LLaVA-o1 se envolve independentemente em estágios sequenciais de sumarização, interpretação visual, raciocínio lógico e geração de conclusões. Essa abordagem estruturada permite que o LLaVA-o1 alcance melhorias significativas em precisão em tarefas intensivas em raciocínio. Para alcançar isso, compilamos o conjunto de dados LLaVA-o1-100k, integrando amostras de várias fontes de perguntas e respostas visuais e fornecendo anotações de raciocínio estruturado. Além disso, propomos um método de busca em feixe em nível de estágio no tempo de inferência, que possibilita um escalonamento eficaz no tempo de inferência. Notavelmente, com apenas 100k amostras de treinamento e um método de escalonamento no tempo de inferência simples, porém eficaz, o LLaVA-o1 não apenas supera seu modelo base em 8,9% em uma ampla gama de benchmarks de raciocínio multimodal, mas também ultrapassa o desempenho de modelos maiores e até mesmo de código fechado, como o Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.
Neste artigo, apresentamos o RAG, um método de Geração de Texto-para-Imagem Consciente da Região condicionado a descrições regionais para composição precisa do layout. A solicitação regional, ou geração composicional, que possibilita controle espacial detalhado, tem recebido cada vez mais atenção por sua praticidade em aplicações do mundo real. No entanto, métodos anteriores ou introduzem módulos treináveis adicionais, sendo assim aplicáveis apenas a modelos específicos, ou manipulam mapas de pontuação dentro de camadas de atenção cruzada usando máscaras de atenção, resultando em força de controle limitada quando o número de regiões aumenta. Para lidar com essas limitações, desmembramos a geração multi-região em duas sub-tarefas, a construção da região individual (Vínculo Rígido Regional) que garante a execução adequada da solicitação regional, e o refinamento geral de detalhes (Refinamento Suave Regional) sobre as regiões que ignoram os limites visuais e aprimoram interações adjacentes. Além disso, o RAG torna possível a repintura, onde os usuários podem modificar regiões específicas insatisfatórias na última geração mantendo todas as outras regiões inalteradas, sem depender de modelos adicionais de inpainting. Nossa abordagem é livre de ajustes e aplicável a outros frameworks como um aprimoramento à propriedade de seguir a solicitação. Experimentos quantitativos e qualitativos demonstram que o RAG alcança desempenho superior em relação ao vínculo de atributos e relacionamento de objetos do que métodos anteriores sem ajustes.
O modelo recentemente lançado, Claude 3.5 Computer Use, destaca-se como o primeiro modelo de IA de ponta a oferecer uso de computador em beta público como um agente de interface gráfica do usuário (GUI). Como um beta inicial, sua capacidade em um ambiente complexo do mundo real permanece desconhecida. Neste estudo de caso para explorar o Claude 3.5 Computer Use, curamos e organizamos uma coleção de tarefas cuidadosamente projetadas abrangendo uma variedade de domínios e softwares. Observações desses casos demonstram a capacidade sem precedentes do Claude 3.5 Computer Use em ações de linguagem para desktop de ponta a ponta. Juntamente com este estudo, fornecemos um framework de agente pronto para uso para implantar modelos de automação de GUI baseados em API com implementação fácil. Nossos estudos de caso visam mostrar uma base de capacidades e limitações do Claude 3.5 Computer Use com análises detalhadas e trazer à tona questões sobre planejamento, ação e crítica, que devem ser consideradas para melhorias futuras. Esperamos que essa exploração preliminar inspire pesquisas futuras na comunidade de agentes de GUI. Todos os casos de teste no artigo podem ser testados através do projeto: https://github.com/showlab/computer_use_ootb.
Embora a geração de conteúdo 3D tenha avançado significativamente, os métodos existentes ainda enfrentam desafios com formatos de entrada, design de espaço latente e representações de saída. Este artigo apresenta um novo framework de geração 3D que aborda esses desafios, oferecendo geração 3D escalável e de alta qualidade com um espaço latente estruturado em Nuvem de Pontos interativo. Nosso framework utiliza um Autoencoder Variacional (VAE) com renderizações RGB-D(epth)-N(ormal) em multi-visão como entrada, utilizando um design de espaço latente único que preserva informações de forma 3D e incorpora um modelo de difusão latente em cascata para melhorar a separação forma-textura. O método proposto, GaussianAnything, suporta geração 3D condicional multimodal, permitindo entradas de nuvem de pontos, legenda e imagens de visão única/multipla. Notavelmente, o espaço latente recém-proposto permite naturalmente a separação geometria-textura, permitindo assim edição consciente de 3D. Resultados experimentais demonstram a eficácia de nossa abordagem em múltiplos conjuntos de dados, superando os métodos existentes tanto na geração 3D condicionada por texto quanto por imagem.
Os Modelos de Linguagem em Vídeo de Grande Escala (Vid-LLMs) fizeram avanços notáveis na compreensão de conteúdo de vídeo para diálogos de QA. No entanto, eles enfrentam dificuldades em estender essa compreensão visual para tarefas que exigem localização temporal precisa, conhecidas como Ancoragem Temporal de Vídeo (VTG). Para abordar essa lacuna, introduzimos o Number-Prompt (NumPro), um método inovador que capacita os Vid-LLMs a conectar a compreensão visual com a ancoragem temporal, adicionando identificadores numéricos únicos a cada quadro de vídeo. Tratando um vídeo como uma sequência de imagens de quadros numerados, o NumPro transforma o VTG em um processo intuitivo: folhear painéis de mangá em sequência. Isso permite que os Vid-LLMs "leiam" linhas do tempo de eventos, vinculando com precisão o conteúdo visual às informações temporais correspondentes. Nossos experimentos demonstram que o NumPro melhora significativamente o desempenho do VTG dos principais Vid-LLMs sem custo computacional adicional. Além disso, o ajuste fino em um conjunto de dados aprimorado pelo NumPro define um novo estado-da-arte para o VTG, superando métodos anteriores de melhor desempenho em até 6,9\% em mIoU para recuperação de momentos e 8,5\% em mAP para detecção de destaques. O código estará disponível em https://github.com/yongliang-wu/NumPro.
Apresentamos o Xmodel-1.5, um novo modelo grande multilíngue com 1 bilhão de parâmetros pré-treinado em aproximadamente 2 trilhões de tokens. O modelo demonstra um desempenho sólido em várias línguas, com resultados particularmente notáveis em Tailandês, Árabe e Francês, juntamente com sua eficácia em Chinês e Inglês. Além disso, contribuímos para a comunidade de pesquisa ao disponibilizar um conjunto de dados de avaliação em Tailandês, que inclui centenas de perguntas anotadas por estudantes da Escola de Inovação Integrada da Universidade Chulalongkorn. Embora os resultados sejam promissores, reconhecemos que ainda há espaço para melhorias. Esperamos que este trabalho impulsione os esforços em andamento na pesquisa de IA multilíngue e promova uma melhor compreensão interlinguística em várias tarefas de processamento de linguagem natural. Nossos modelos e código estão disponíveis publicamente no GitHub em https://github.com/XiaoduoAILab/XmodelLM.
O treinamento de redes neurais profundas - e mais recentemente, modelos grandes - exige otimizadores eficientes e escaláveis. Algoritmos de gradiente adaptativos como Adam, AdamW e suas variantes têm sido fundamentais para essa tarefa. Apesar do desenvolvimento de inúmeros algoritmos de redução de variância na última década com o objetivo de acelerar a otimização estocástica em ambientes convexos e não convexos, a redução de variância não obteve amplo sucesso no treinamento de redes neurais profundas ou grandes modelos de linguagem. Consequentemente, tem sido uma abordagem menos favorecida na IA moderna. Neste artigo, para liberar o potencial da redução de variância para o treinamento eficiente de grandes modelos, propomos um framework de otimização unificado, MARS (Make vAriance Reduction Shine), que concilia métodos de gradiente precondicionados com redução de variância por meio de uma técnica de momento estocástico escalonado recursivo. Dentro do nosso framework, introduzimos três instâncias de MARS que aproveitam atualizações de gradiente precondicionadas com base em AdamW, Lion e Shampoo, respectivamente. Também estabelecemos uma conexão entre nossos algoritmos e otimizadores existentes. Resultados experimentais no treinamento de modelos GPT-2 indicam que o MARS supera consistentemente o AdamW por uma grande margem.