Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar do seu desempenho notável, o desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) enfrenta um desafio crítico em termos de supervisão escalável: fornecer feedback eficaz para tarefas em que a avaliação humana é difícil ou em que os LLMs superam os humanos. Embora haja um interesse crescente em utilizar LLMs para crítica, as abordagens atuais ainda dependem de anotações humanas ou de modelos mais poderosos, deixando sem solução a questão de aprimorar as capacidades de crítica sem supervisão externa. Apresentamos o SCRIT (CRITico Auto-evolutivo), um framework que possibilita uma verdadeira auto-evolução das habilidades de crítica. Tecnicamente, o SCRIT se aprimora treinando em dados sintéticos, gerados por um auto-crítico baseado em contraste que utiliza soluções de referência para crítica passo a passo, e um mecanismo de autovalidação que garante a qualidade da crítica por meio dos resultados de correção. Implementado com o Qwen2.5-72B-Instruct, um dos LLMs mais poderosos, o SCRIT alcança até 10,3\% de melhoria em benchmarks de correção de crítica e identificação de erros. Nossa análise revela que o desempenho do SCRIT aumenta positivamente com o tamanho dos dados e do modelo, supera abordagens alternativas e se beneficia criticamente do seu componente de autovalidação.
A Geração com Recuperação (RAG) é uma estratégia poderosa para lidar com o problema de gerar saídas factualmente incorretas em modelos fundamentais, recuperando conhecimento externo relevante para consultas e incorporando-o ao processo de geração. No entanto, as abordagens RAG existentes têm se concentrado principalmente em informações textuais, com alguns avanços recentes começando a considerar imagens, e em grande parte negligenciam vídeos, uma rica fonte de conhecimento multimodal capaz de representar eventos, processos e detalhes contextuais de forma mais eficaz do que qualquer outra modalidade. Enquanto alguns estudos recentes exploram a integração de vídeos no processo de geração de respostas, eles ou pré-definem vídeos associados à consulta sem recuperá-los de acordo com as consultas, ou convertem vídeos em descrições textuais sem aproveitar sua riqueza multimodal. Para lidar com isso, apresentamos o VideoRAG, um novo framework que não apenas recupera dinamicamente vídeos relevantes com base em sua relevância com as consultas, mas também utiliza informações visuais e textuais dos vídeos na geração de saídas. Além disso, para operacionalizar isso, nosso método gira em torno do recente avanço dos Grandes Modelos de Linguagem de Vídeo (LVLMs), que permitem o processamento direto de conteúdo de vídeo para representá-lo para recuperação e integração contínua dos vídeos recuperados em conjunto com as consultas. Validamos experimentalmente a eficácia do VideoRAG, demonstrando que ele é superior às baselines relevantes.
O raciocínio é uma capacidade fundamental para resolver problemas complexos de vários passos, especialmente em contextos visuais onde a compreensão sequencial passo a passo é essencial. As abordagens existentes carecem de um quadro abrangente para avaliar o raciocínio visual e não enfatizam a resolução de problemas passo a passo. Para isso, propomos um quadro abrangente para avançar o raciocínio visual passo a passo em grandes modelos de linguagem (LMMs) por meio de três contribuições-chave. Primeiramente, introduzimos um benchmark de raciocínio visual especificamente projetado para avaliar tarefas de raciocínio de vários passos. O benchmark apresenta um conjunto diversificado de desafios com oito categorias diferentes, que vão desde percepção visual complexa até raciocínio científico, com mais de 4 mil etapas de raciocínio no total, possibilitando uma avaliação robusta das habilidades dos LLMs para realizar raciocínio visual preciso e interpretável em vários passos. Em segundo lugar, propomos uma métrica inovadora que avalia a qualidade do raciocínio visual na granularidade de passos individuais, enfatizando tanto a correção quanto a coerência lógica. A métrica proposta oferece insights mais profundos sobre o desempenho de raciocínio em comparação com métricas tradicionais de precisão de tarefas finais. Em terceiro lugar, apresentamos um novo modelo de raciocínio visual multimodal, chamado LlamaV-o1, treinado usando uma abordagem de aprendizado de currículo de vários passos, onde as tarefas são progressivamente organizadas para facilitar a aquisição incremental de habilidades e a resolução de problemas. O LlamaV-o1 proposto é projetado para raciocínio de vários passos e aprende passo a passo por meio de um paradigma de treinamento estruturado. Experimentos extensivos mostram que nosso LlamaV-o1 supera modelos de código aberto existentes e se sai favoravelmente em comparação com modelos proprietários de código fechado. Em comparação com o recente Llava-CoT, nosso LlamaV-o1 alcança uma pontuação média de 67,3 com um ganho absoluto de 3,8\% em seis benchmarks, sendo 5 vezes mais rápido durante a escalabilidade da inferência. Nosso benchmark, modelo e código estão disponíveis publicamente.
O desenvolvimento de sistemas robóticos gerais capazes de manipular em ambientes não estruturados é um desafio significativo. Enquanto Modelos de Visão-Linguagem (VLM) se destacam em raciocínio de senso comum em alto nível, eles carecem do entendimento espacial 3D detalhado necessário para tarefas de manipulação precisa. O ajuste fino do VLM em conjuntos de dados robóticos para criar Modelos de Visão-Linguagem-Ação (VLA) é uma solução potencial, mas é prejudicado pelos altos custos de coleta de dados e problemas de generalização. Para enfrentar esses desafios, propomos uma representação inovadora centrada em objetos que preenche a lacuna entre o raciocínio em alto nível do VLM e a precisão em baixo nível necessária para a manipulação. Nosso insight chave é que o espaço canônico de um objeto, definido por suas affordances funcionais, fornece uma maneira estruturada e semanticamente significativa de descrever primitivas de interação, como pontos e direções. Essas primitivas atuam como uma ponte, traduzindo o raciocínio de senso comum do VLM em restrições espaciais 3D acionáveis. Neste contexto, introduzimos um sistema de manipulação robótica de vocabulário aberto e duplo loop fechado: um loop para planejamento em alto nível através de reamostragem primitiva, renderização de interação e verificação do VLM, e outro para execução em baixo nível via rastreamento de pose 6D. Este design garante controle robusto e em tempo real sem exigir ajuste fino do VLM. Experimentos extensos demonstram forte generalização de zero-shot em diversas tarefas de manipulação robótica, destacando o potencial desta abordagem para automatizar a geração de dados de simulação em larga escala.
A Consciência Temporal, a capacidade de raciocinar dinamicamente com base no carimbo de data/hora quando uma pergunta é feita, é a distinção chave entre os modelos de LLM de vídeo offline e online. Ao contrário dos modelos offline, que dependem de vídeos completos para análise estática pós-hoc, os modelos online processam fluxos de vídeo de forma incremental e se adaptam dinamicamente às respostas com base no carimbo de data/hora em que a pergunta é feita. Apesar de sua importância, a consciência temporal não foi adequadamente avaliada nos benchmarks existentes. Para preencher essa lacuna, apresentamos o OVO-Bench (Online-VideO-Benchmark), um novo benchmark de vídeo que enfatiza a importância dos carimbos de data/hora para a capacidade avançada de compreensão de vídeo online. O OVO-Bench avalia a capacidade dos LLMs de vídeo de raciocinar e responder a eventos ocorrendo em carimbos de data/hora específicos sob três cenários distintos: (1) Rastreamento retroativo: retroceder a eventos passados para responder à pergunta. (2) Compreensão em tempo real: compreender e responder a eventos conforme acontecem no carimbo de data/hora atual. (3) Resposta ativa para frente: adiar a resposta até que informações futuras suficientes estejam disponíveis para responder à pergunta com precisão. O OVO-Bench é composto por 12 tarefas, apresentando 644 vídeos exclusivos e aproximadamente 2.800 meta-anotações refinadas com carimbos de data/hora precisos, curados por humanos. Combinamos pipelines de geração automatizada com curadoria humana. Com essas amostras de alta qualidade, desenvolvemos ainda um pipeline de avaliação para consultar sistematicamente os LLMs de vídeo ao longo da linha do tempo do vídeo. Avaliações de nove LLMs de vídeo revelam que, apesar dos avanços em benchmarks tradicionais, os modelos atuais enfrentam dificuldades com a compreensão de vídeo online, mostrando uma lacuna significativa em comparação com agentes humanos. Esperamos que o OVO-Bench impulsione o progresso em LLMs de vídeo e inspire pesquisas futuras em raciocínio de vídeo online. Nosso benchmark e código podem ser acessados em https://github.com/JoeLeelyf/OVO-Bench.
O recente avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) melhorou significativamente sua percepção detalhada de imagens individuais e compreensão geral através de múltiplas imagens. No entanto, os MLLMs existentes ainda enfrentam desafios para alcançar um enraizamento preciso em cenários complexos com várias imagens. Para lidar com isso, primeiro exploramos um framework de Cadeia de Pensamento (CoT) que integra o enraizamento de imagens individuais com a compreensão de múltiplas imagens. Embora parcialmente eficaz, ele permanece instável e tem dificuldade em capturar informações visuais abstratas devido à sua natureza não ponta a ponta. Portanto, introduzimos o Migician, o primeiro modelo de enraizamento de múltiplas imagens capaz de realizar um enraizamento livre e preciso através de várias imagens. Para apoiar isso, apresentamos o conjunto de dados MGrounding-630k, que inclui dados para várias tarefas de enraizamento de múltiplas imagens derivadas de conjuntos de dados existentes, juntamente com dados recém-gerados de instruções de enraizamento livre. Além disso, propomos o MIG-Bench, um benchmark abrangente especificamente projetado para avaliar as capacidades de enraizamento de múltiplas imagens. Resultados experimentais demonstram que nosso modelo alcança capacidades de enraizamento de múltiplas imagens significativamente superiores, superando os melhores MLLMs existentes em 21,61% e até mesmo ultrapassando modelos muito maiores de 70B. Nosso código, modelo, conjunto de dados e benchmark são totalmente de código aberto.
Os grandes modelos de linguagem (LLMs) alcançaram um desempenho notável nos últimos anos, mas são fundamentalmente limitados pelos dados de treinamento subjacentes. Para melhorar os modelos além dos dados de treinamento, trabalhos recentes têm explorado como os LLMs podem ser usados para gerar dados sintéticos para auto aprimoramento autônomo. No entanto, os passos sucessivos de auto aprimoramento podem atingir um ponto de retornos decrescentes. Neste trabalho, propomos uma abordagem complementar para o auto aprimoramento, onde o ajuste fino é aplicado a uma sociedade multiagente de modelos de linguagem. Um grupo de modelos de linguagem, todos partindo do mesmo modelo base, são independentemente especializados através da atualização de cada um usando dados gerados por interações multiagente entre os modelos. Ao treinar cada modelo em conjuntos de dados independentes, ilustramos como essa abordagem permite a especialização entre os modelos e a diversificação sobre o conjunto de modelos. Como resultado, nosso sistema geral é capaz de preservar cadeias de raciocínio diversas e melhorar autonomamente ao longo de muitas mais rodadas de ajuste fino do que os métodos de auto aprimoramento de um único agente. Ilustramos quantitativamente a eficácia da abordagem em uma ampla gama de tarefas de raciocínio.
A compreensão estruturada de imagens, como a interpretação de tabelas e gráficos, requer um reposicionamento estratégico entre várias estruturas e textos dentro de uma imagem, formando uma sequência de raciocínio para chegar à resposta final. No entanto, os atuais modelos de linguagem multimodais de grande escala (LLMs) carecem dessa capacidade de atenção seletiva de múltiplos saltos. Neste trabalho, apresentamos o ReFocus, um framework simples, porém eficaz, que capacita os LLMs multimodais com a habilidade de gerar "pensamentos visuais" ao realizar edições visuais na imagem de entrada por meio de código, deslocando e refinando seus focos visuais. Especificamente, o ReFocus permite que os LLMs multimodais gerem códigos Python para chamar ferramentas e modificar a imagem de entrada, desenhando caixas sequencialmente, destacando seções e mascarando áreas, aprimorando assim o processo de raciocínio visual. Realizamos experimentos em uma ampla gama de tarefas de compreensão estruturada de imagens envolvendo tabelas e gráficos. O ReFocus melhora significativamente o desempenho em todas as tarefas em relação ao GPT-4o sem edição visual, resultando em um ganho médio de 11,0% em tarefas de tabelas e 6,8% em tarefas de gráficos. Apresentamos uma análise detalhada dos efeitos de diferentes edições visuais e os motivos pelos quais o ReFocus pode melhorar o desempenho sem introduzir informações adicionais. Além disso, coletamos um conjunto de treinamento de 14k usando o ReFocus e demonstramos que essa cadeia de pensamento visual com informações intermediárias oferece uma supervisão melhor do que os dados padrão de VQA, resultando em um ganho médio de 8,0% sobre o mesmo modelo treinado com pares de perguntas e respostas e 2,6% sobre CoT.
A geração de vídeo a partir de texto tem feito avanços notáveis por meio de modelos de difusão. No entanto, a Customização de Vídeo Multi-Conceito (MCVC) continua sendo um desafio significativo. Identificamos dois desafios-chave nesta tarefa: 1) o problema de desacoplamento de identidade, onde a adoção direta de métodos de customização existentes inevitavelmente mistura atributos ao lidar com múltiplos conceitos simultaneamente, e 2) a escassez de pares vídeo-entidade de alta qualidade, o que é crucial para treinar um modelo que represente e desacople bem vários conceitos. Para enfrentar esses desafios, introduzimos o ConceptMaster, um framework inovador que aborda efetivamente as questões críticas de desacoplamento de identidade, mantendo a fidelidade conceitual em vídeos personalizados. Especificamente, introduzimos uma estratégia inovadora de aprendizado de embeddings multi-conceito desacoplados que são injetados nos modelos de difusão de forma independente, garantindo efetivamente a qualidade de vídeos personalizados com múltiplas identidades, mesmo para conceitos visuais altamente similares. Para superar ainda mais a escassez de dados MCVC de alta qualidade, estabelecemos cuidadosamente um pipeline de construção de dados, que possibilita a coleta sistemática de dados precisos de vídeo-entidade multi-conceito em diversos conceitos. Um benchmark abrangente é projetado para validar a eficácia de nosso modelo a partir de três dimensões críticas: fidelidade conceitual, capacidade de desacoplamento de identidade e qualidade de geração de vídeo em seis cenários de composição conceitual diferentes. Experimentos extensivos demonstram que nosso ConceptMaster supera significativamente abordagens anteriores para esta tarefa, abrindo caminho para a geração de vídeos personalizados e semanticamente precisos em múltiplos conceitos.
Métodos de personalização de vídeo nos permitem sintetizar vídeos com conceitos específicos, como pessoas, animais de estimação e lugares. No entanto, os métodos existentes frequentemente se concentram em domínios limitados, exigem otimização demorada por sujeito ou suportam apenas um único sujeito. Apresentamos o Video Alchemist - um modelo de vídeo com capacidades embutidas de personalização multi-sujeito de conjunto aberto para objetos em primeiro plano e plano de fundo, eliminando a necessidade de otimização demorada no momento do teste. Nosso modelo é construído em um novo módulo de Transformador de Difusão que funde cada imagem de referência condicional e sua respectiva sugestão de texto em nível de sujeito com camadas de atenção cruzada. O desenvolvimento de um modelo tão grande apresenta dois desafios principais: conjunto de dados e avaliação. Primeiramente, como conjuntos de dados em pares de imagens de referência e vídeos são extremamente difíceis de coletar, amostramos quadros de vídeo selecionados como imagens de referência e sintetizamos um trecho do vídeo alvo. No entanto, embora os modelos possam facilmente limpar vídeos de treinamento dados quadros de referência, eles falham em generalizar para novos contextos. Para mitigar esse problema, projetamos um novo pipeline de construção de dados automático com extensas augmentações de imagem. Em segundo lugar, avaliar a personalização de vídeo de conjunto aberto é um desafio em si. Para abordar isso, introduzimos um benchmark de personalização que se concentra na fidelidade precisa do sujeito e suporta diversos cenários de personalização. Por fim, nossos experimentos extensivos mostram que nosso método supera significativamente os métodos de personalização existentes em avaliações quantitativas e qualitativas.
Este estudo demonstra uma abordagem inovadora para testar os limites de segurança do Modelo de Linguagem de Visão Grande (VLM/LLM) usando o arquivo de teste EICAR incorporado em imagens JPEG. Executamos com sucesso quatro protocolos distintos em várias plataformas LLM, incluindo OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro e Anthropic Claude 3.5 Sonnet. Os experimentos validaram que um JPEG modificado contendo a assinatura EICAR poderia ser carregado, manipulado e potencialmente executado dentro de espaços de trabalho virtual LLM. As descobertas-chave incluem: 1) capacidade consistente de mascarar a sequência EICAR nos metadados da imagem sem detecção, 2) extração bem-sucedida do arquivo de teste usando manipulação baseada em Python dentro de ambientes LLM, e 3) demonstração de múltiplas técnicas de ofuscação, incluindo codificação base64 e inversão de strings. Esta pesquisa estende o framework "Regras de Engajamento de Teste de Penetração" da Microsoft Research para avaliar os limites de segurança de IA generativa baseada em nuvem e LLM, focando particularmente no manuseio de arquivos e capacidades de execução dentro de ambientes containerizados.
O pipeline de produção da animação tradicional em Celulóide (Cel) engloba múltiplas etapas essenciais, incluindo storyboard, design de layout, animação de quadros-chave, interpolação e colorização, que demandam um esforço manual substancial, expertise técnica e um investimento significativo de tempo. Esses desafios historicamente têm prejudicado a eficiência e escalabilidade da produção de animação em Celulóide. O surgimento da inteligência artificial generativa (GenAI), abrangendo grandes modelos de linguagem, modelos multimodais e modelos de difusão, oferece soluções inovadoras ao automatizar tarefas como geração de quadros intermediários, colorização e criação de storyboard. Esta pesquisa explora como a integração da GenAI está revolucionando os fluxos de trabalho da animação tradicional ao reduzir as barreiras técnicas, ampliar a acessibilidade para uma gama mais ampla de criadores por meio de ferramentas como AniDoc, ToonCrafter e AniSora, e permitir que os artistas se concentrem mais na expressão criativa e inovação artística. Apesar de seu potencial, questões como manter consistência visual, garantir coerência estilística e abordar considerações éticas continuam a representar desafios. Além disso, este artigo discute direções futuras e explora avanços potenciais na animação assistida por IA. Para mais exploração e recursos, visite nosso repositório no GitHub: https://github.com/yunlong10/Awesome-AI4Animation
A pós-treino adaptativo de modelos de linguagem grandes (LLMs) para domínios específicos, como medicina e finanças, tem se destacado como uma abordagem promissora. No entanto, desafios significativos persistem na identificação de critérios de adaptação ótimos e estratégias de treinamento adequadas considerando diferentes configurações de dados e modelos. Para enfrentar esses desafios, apresentamos o FINDAP, uma investigação sistemática e detalhada sobre o pós-treino adaptativo de LLMs para o domínio financeiro. Nosso método começa identificando as capacidades essenciais necessárias para o domínio-alvo e projetando uma suíte de avaliação abrangente alinhada com essas necessidades. Em seguida, analisamos a eficácia das principais etapas de pós-treino, incluindo pré-treino contínuo, ajuste de instruções e alinhamento de preferências. Com base nessas descobertas, propomos uma receita de treinamento eficaz centrada em um novo método de destilação de dados de preferência, que aproveita sinais de processo de um modelo de recompensa generativo. O modelo resultante, Llama-Fin, alcança desempenho de ponta em uma ampla gama de tarefas financeiras. Nossa análise também destaca como cada etapa de pós-treino contribui para capacidades distintas, revelando desafios específicos e soluções eficazes, fornecendo insights valiosos para a adaptação de domínio de LLMs. Página do projeto: https://github.com/SalesforceAIResearch/FinDap