Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o EnerVerse, um framework abrangente para geração de espaço futuro incorporado especificamente projetado para tarefas de manipulação robótica. O EnerVerse integra de forma contínua mecanismos de atenção convolucionais e bidirecionais para modelagem de espaço em pedaços internos, garantindo consistência e continuidade em níveis baixos. Reconhecendo a redundância inerente nos dados de vídeo, propomos um contexto de memória esparsa combinado com um paradigma generativo unidirecional em pedaços para possibilitar a geração de sequências infinitamente longas. Para aumentar ainda mais as capacidades robóticas, introduzimos o espaço Free Anchor View (FAV), que fornece perspectivas flexíveis para aprimorar observação e análise. O espaço FAV reduz a ambiguidade na modelagem de movimento, remove restrições físicas em ambientes confinados e melhora significativamente a generalização e adaptabilidade do robô em várias tarefas e ambientes. Para lidar com os custos proibitivos e a intensidade de mão de obra na aquisição de observações de múltiplas câmeras, apresentamos um pipeline de motor de dados que integra um modelo generativo com Splatting Gaussiano 4D (4DGS). Esse pipeline aproveita as capacidades robustas de generalização do modelo generativo e as restrições espaciais fornecidas pelo 4DGS, permitindo um aprimoramento iterativo da qualidade e diversidade dos dados, criando assim um efeito de roda de dados que reduz efetivamente a lacuna entre simulação e realidade. Por fim, nossos experimentos demonstram que a geração de espaço futuro incorporado substancialmente aprimora as capacidades preditivas de políticas, resultando em melhor desempenho geral, especialmente em tarefas de manipulação robótica de longo alcance.
Os recentes Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm tipicamente focado em integrar modalidades visual e textual, com menos ênfase no papel da fala em aprimorar a interação. No entanto, a fala desempenha um papel crucial em sistemas de diálogo multimodais, e implementar alto desempenho em tarefas de visão e fala continua sendo um desafio significativo devido às diferenças fundamentais de modalidade. Neste artigo, propomos uma metodologia de treinamento multiestágio cuidadosamente projetada que treina progressivamente o LLM para compreender tanto informações visuais quanto de fala, possibilitando, em última instância, uma interação fluente entre visão e fala. Nossa abordagem não apenas preserva uma forte capacidade de visão-linguagem, mas também possibilita capacidades eficientes de diálogo de fala para fala sem módulos separados de ASR e TTS, acelerando significativamente a velocidade de resposta multimodal de ponta a ponta. Ao comparar nosso método com contrapartes de última geração em benchmarks para tarefas de imagem, vídeo e fala, demonstramos que nosso modelo está equipado com capacidades visuais e de fala robustas, possibilitando interação de visão e fala quase em tempo real.
Recentemente, sistemas de raciocínio de pensamento lento, construídos com base em grandes modelos de linguagem (LLMs), têm recebido ampla atenção ao escalar o tempo de pensamento durante a inferência. Há também um interesse crescente em adaptar essa capacidade para modelos de linguagem multimodais de grande porte (MLLMs). Dado que os MLLMs lidam com semântica de dados mais complexos em diferentes modalidades, é intuitivamente mais desafiador implementar sistemas de pensamento lento multimodais. Para abordar essa questão, neste artigo, exploramos uma abordagem direta ao ajustar finamente um MLLM capaz com uma pequena quantidade de dados textuais de pensamento de longa forma, resultando em um sistema multimodal de pensamento lento, Virgo (Raciocínio visual com pensamento longo). Descobrimos que esses processos de raciocínio de longa forma, expressos em linguagem natural, podem ser transferidos de forma eficaz para MLLMs. Além disso, parece que tais dados de raciocínio textual podem ser ainda mais eficazes do que dados de raciocínio visual para elicitar as capacidades de pensamento lento dos MLLMs. Embora este trabalho seja preliminar, ele demonstra que as capacidades de pensamento lento estão fundamentalmente associadas ao componente do modelo de linguagem, que pode ser transferido entre modalidades ou domínios. Essa descoberta pode ser aproveitada para orientar o desenvolvimento de sistemas de raciocínio de pensamento lento mais poderosos. Disponibilizamos nossos recursos em https://github.com/RUCAIBox/Virgo.
Agentes sociais alimentados por grandes modelos de linguagem (LLMs) podem simular comportamentos sociais humanos, mas têm dificuldade em lidar com diálogos sociais complexos orientados por objetivos. A Otimização Direta de Preferência (DPO) tem se mostrado eficaz em alinhar o comportamento do LLM com as preferências humanas em uma variedade de tarefas de agente. As abordagens existentes baseadas em DPO para interações de várias rodadas são divididas em métodos de nível de rodada e métodos de nível de sessão. O método de nível de rodada é excessivamente detalhado, focando exclusivamente em rodadas individuais, enquanto os métodos de nível de sessão são muito abrangentes, frequentemente introduzindo ruído de treinamento. Para lidar com essas limitações, propomos a Otimização Direta de Preferência em Nível de Segmento (SDPO), que se concentra em segmentos-chave específicos dentro das interações para otimizar o comportamento do agente de várias rodadas, minimizando o ruído de treinamento. Avaliações no benchmark SOTOPIA demonstram que os agentes ajustados com SDPO superam consistentemente tanto os métodos existentes baseados em DPO quanto os LLMs proprietários como o GPT-4o, destacando o potencial do SDPO para avançar a inteligência social de agentes baseados em LLM. Disponibilizamos nosso código e dados em https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Apresentamos uma estratégia geral para alinhar modelos de geração visual - tanto de imagens quanto de vídeos - com a preferência humana. Para começar, construímos o VisionReward - um modelo de recompensa detalhado e multidimensional. Decomponemos as preferências humanas em imagens e vídeos em várias dimensões, cada uma representada por uma série de perguntas de julgamento, ponderadas linearmente e somadas para obter uma pontuação interpretável e precisa. Para lidar com os desafios da avaliação de qualidade de vídeo, analisamos sistematicamente várias características dinâmicas de vídeos, o que ajuda o VisionReward a superar o VideoScore em 17,2% e alcançar o melhor desempenho na previsão de preferência de vídeo. Com base no VisionReward, desenvolvemos um algoritmo de aprendizado de preferência multiobjetivo que aborda efetivamente o problema de fatores de confusão nos dados de preferência. Nossa abordagem supera significativamente os métodos existentes de pontuação de imagem e vídeo em métricas de máquina e avaliação humana. Todo o código e conjuntos de dados estão disponíveis em https://github.com/THUDM/VisionReward.
A geração de grafos é uma tarefa crítica em inúmeros domínios, incluindo design molecular e análise de redes sociais, devido à sua capacidade de modelar relações complexas e dados estruturados. Enquanto a maioria dos modelos gerativos de grafos modernos utiliza representações de matriz de adjacência, este trabalho revisita uma abordagem alternativa que representa grafos como sequências de conjuntos de nós e conjuntos de arestas. Defendemos essa abordagem devido à sua codificação eficiente de grafos e propomos uma representação inovadora. Com base nessa representação, introduzimos o Transformador Pré-treinado Generativo de Grafos (G2PT), um modelo auto-regressivo que aprende estruturas de grafos por meio da previsão do próximo token. Para explorar ainda mais as capacidades do G2PT como um modelo base de propósito geral, investigamos estratégias de ajuste fino para duas aplicações subsequentes: geração orientada por objetivo e previsão de propriedades de grafos. Realizamos experimentos extensivos em vários conjuntos de dados. Os resultados indicam que o G2PT alcança um desempenho generativo superior em conjuntos de dados de grafos genéricos e de moléculas. Além disso, o G2PT demonstra uma forte adaptabilidade e versatilidade em tarefas subsequentes, desde design molecular até previsão de propriedades.
Avanços recentes em modelos de incorporação baseados em grandes modelos de linguagem (LLMs) estabeleceram novos benchmarks de última geração para tarefas de incorporação de texto, especialmente em recuperação baseada em vetores densos. No entanto, esses modelos focam predominantemente no inglês, deixando as capacidades de incorporação multilíngue amplamente inexploradas. Para abordar essa limitação, apresentamos LUSIFER, uma abordagem inovadora de zero-shot que adapta modelos de incorporação baseados em LLM para tarefas multilíngues sem exigir supervisão multilíngue. A arquitetura do LUSIFER combina um codificador multilíngue, atuando como um aprendiz universal de idiomas, com um modelo de incorporação baseado em LLM otimizado para tarefas específicas de incorporação. Esses componentes são integrados de forma transparente por meio de um conjunto mínimo de parâmetros treináveis que funcionam como um conector, transferindo efetivamente as capacidades de compreensão de idiomas do codificador multilíngue para o modelo de incorporação especializado. Além disso, para avaliar abrangentemente o desempenho de incorporação multilíngue, introduzimos um novo benchmark que abrange 5 tarefas de incorporação primárias, 123 conjuntos de dados diversos e cobertura em 14 idiomas. Resultados experimentais extensivos demonstram que o LUSIFER melhora significativamente o desempenho multilíngue em várias tarefas de incorporação, especialmente para idiomas de recursos médios e baixos, sem exigir dados de treinamento multilíngue explícitos.
Compreender o mundo e explicá-lo com teorias científicas é uma aspiração central da pesquisa em inteligência artificial. Propor teorias, projetar experimentos para testá-las e então revisá-las com base em dados são fundamentais para a descoberta científica. Apesar da promessa significativa de agentes científicos baseados em LLM, não existem benchmarks que testem sistematicamente a capacidade do LLM de propor modelos científicos, coletar dados experimentais e revisá-los à luz de novos dados. Apresentamos o BoxingGym, um benchmark com 10 ambientes para avaliar sistematicamente tanto o design experimental (por exemplo, coletar dados para testar uma teoria científica) quanto a descoberta de modelos (por exemplo, propor e revisar teorias científicas). Para possibilitar uma avaliação tratável e quantitativa, implementamos cada ambiente como um modelo probabilístico generativo com o qual um agente científico pode conduzir experimentos interativos. Esses modelos probabilísticos são retirados de vários domínios científicos do mundo real, que vão da psicologia à ecologia. Para avaliar quantitativamente a capacidade de um agente científico de coletar dados experimentais informativos, calculamos o ganho de informação esperado (EIG), uma quantidade teórica da informação que mede o quanto um experimento reduz a incerteza sobre os parâmetros de um modelo generativo. Uma boa teoria científica é uma explicação concisa e preditiva. Portanto, para avaliar quantitativamente a descoberta de modelos, pedimos a um agente científico para explicar seu modelo e então avaliamos se essa explicação permite a outro agente científico fazer previsões confiáveis sobre esse ambiente. Além dessa avaliação baseada em explicação, calculamos métricas padrão de avaliação de modelos, como erros de previsão. Constatamos que os atuais LLMs, como o GPT-4o, enfrentam dificuldades tanto no design experimental quanto na descoberta de modelos. Verificamos que a adição de um modelo estatístico explícito ao agente baseado em LLM não melhora de forma confiável esses resultados.