Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o rStar-Math para demonstrar que modelos de linguagem pequenos (SLMs) podem rivalizar ou até mesmo superar a capacidade de raciocínio matemático do OpenAI o1, sem destilação de modelos superiores. O rStar-Math alcança isso exercitando o "pensamento profundo" por meio da Busca Monte Carlo em Árvore (MCTS), onde um modelo de política matemática SLM realiza busca em tempo de teste guiada por um modelo de recompensa de processo baseado em SLM. O rStar-Math introduz três inovações para lidar com os desafios no treinamento dos dois SLMs: (1) um novo método de síntese de dados CoT aumentado por código, que realiza extensas simulações MCTS para gerar trajetórias de raciocínio verificadas passo a passo usadas para treinar o SLM de política; (2) um novo método de treinamento de modelo de recompensa de processo que evita a anotação ingênua de pontuação em nível de passo, resultando em um modelo de preferência de processo (PPM) mais eficaz; (3) uma receita de autoevolução na qual o SLM de política e o PPM são construídos do zero e evoluem iterativamente para melhorar as capacidades de raciocínio. Através de 4 rodadas de autoevolução com milhões de soluções sintetizadas para 747 mil problemas matemáticos, o rStar-Math impulsiona o raciocínio matemático dos SLMs para níveis de ponta. No benchmark MATH, ele melhora o Qwen2.5-Math-7B de 58,8% para 90,0% e o Phi3-mini-3.8B de 41,4% para 86,4%, superando o o1-preview em +4,5% e +0,9%. Na Olimpíada de Matemática dos EUA (AIME), o rStar-Math resolve em média 53,3% (8/15) dos problemas, classificando-se entre os 20% melhores dos alunos mais brilhantes do ensino médio em matemática. O código e os dados estarão disponíveis em https://github.com/microsoft/rStar.
Propomos um novo framework, Meta Corrente de Pensamento (Meta-CoT), que estende a tradicional Corrente de Pensamento (CoT) ao modelar explicitamente o raciocínio subjacente necessário para chegar a uma CoT específica. Apresentamos evidências empíricas de modelos de ponta que exibem comportamentos consistentes com busca em contexto, e exploramos métodos para produzir Meta-CoT por meio de supervisão de processo, geração de dados sintéticos e algoritmos de busca. Por fim, delineamos um pipeline concreto para treinar um modelo a fim de produzir Meta-CoTs, incorporando ajuste de instruções com rastros de busca linearizados e aprendizado por reforço pós-treinamento. Discutimos ainda questões de pesquisa em aberto, incluindo leis de escalonamento, papéis de verificador e o potencial para descoberta de novos algoritmos de raciocínio. Este trabalho fornece um roteiro teórico e prático para viabilizar o Meta-CoT em LLMs, abrindo caminho para um raciocínio mais poderoso e semelhante ao humano na inteligência artificial.
Historicamente, a descoberta científica tem sido um processo longo e custoso, exigindo tempo e recursos substanciais desde a concepção inicial até os resultados finais. Para acelerar a descoberta científica, reduzir os custos de pesquisa e melhorar a qualidade da pesquisa, apresentamos o Laboratório de Agentes, um framework autônomo baseado em LLM capaz de concluir todo o processo de pesquisa. Este framework aceita uma ideia de pesquisa fornecida pelo humano e avança por três etapas - revisão de literatura, experimentação e escrita de relatório - para produzir resultados de pesquisa abrangentes, incluindo um repositório de código e um relatório de pesquisa, permitindo aos usuários fornecer feedback e orientação em cada etapa. Implementamos o Laboratório de Agentes com vários LLMs de ponta e convidamos diversos pesquisadores para avaliar sua qualidade participando de uma pesquisa, fornecendo feedback humano para orientar o processo de pesquisa e, em seguida, avaliar o artigo final. Descobrimos que: (1) O Laboratório de Agentes impulsionado por o1-preview gera os melhores resultados de pesquisa; (2) O código de aprendizado de máquina gerado consegue alcançar desempenho de ponta em comparação com métodos existentes; (3) O envolvimento humano, fornecendo feedback em cada etapa, melhora significativamente a qualidade geral da pesquisa; (4) O Laboratório de Agentes reduz significativamente os gastos com pesquisa, alcançando uma redução de 84% em comparação com métodos de pesquisa autônomos anteriores. Esperamos que o Laboratório de Agentes permita aos pesquisadores dedicar mais esforço à criação de ideias criativas em vez de programação e escrita de baixo nível, acelerando, em última instância, a descoberta científica.
O raciocínio em cadeia (CoT) tem sido amplamente aplicado no raciocínio matemático dos Modelos de Linguagem de Grande Escala (LLMs). Recentemente, a introdução da supervisão do processo derivativo em trajetórias CoT tem suscitado discussões sobre aprimorar as capacidades de escalabilidade durante o tempo de teste, impulsionando assim o potencial desses modelos. No entanto, no raciocínio matemático multimodal, a escassez de dados de treinamento CoT de alta qualidade tem impedido que os modelos existentes alcancem um raciocínio CoT de alta precisão e têm limitado a realização do potencial de raciocínio durante o tempo de teste. Neste trabalho, propomos uma estratégia de síntese de três módulos que integra a destilação CoT, a reformulação do formato de trajetória e a unificação de formato. Isso resulta em um conjunto de dados de ajuste fino de instruções de raciocínio CoT de alta qualidade em matemática multimodal, MMathCoT-1M. Validamos de forma abrangente o desempenho de estado-da-arte (SOTA) do modelo treinado URSA-7B em múltiplos benchmarks matemáticos multimodais. Para a escalabilidade no tempo de teste, introduzimos uma estratégia de síntese de dados que gera automaticamente conjuntos de dados de anotação de processo, conhecidos como DualMath-1.1M, focando tanto na interpretação quanto na lógica. Ao treinar ainda mais o URSA-7B no DualMath-1.1M, fazemos a transição das capacidades de raciocínio CoT para habilidades robustas de supervisão. O URSA-RM-7B treinado atua como um verificador, aprimorando efetivamente o desempenho do URSA-7B no tempo de teste. O URSA-RM-7B também demonstra excelentes capacidades de verificação fora da distribuição (OOD), mostrando sua generalização. Os pesos do modelo, dados de treinamento e código serão disponibilizados em código aberto.
Nos últimos anos, o rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) transformou o cenário da pesquisa científica, oferecendo suporte sem precedentes em várias etapas do ciclo de pesquisa. Este artigo apresenta a primeira pesquisa sistemática dedicada a explorar como os LLMs estão revolucionando o processo de pesquisa científica. Analisamos os papéis únicos que os LLMs desempenham em quatro estágios críticos da pesquisa: descoberta de hipóteses, planejamento e implementação de experimentos, escrita científica e revisão por pares. Nossa revisão mostra de forma abrangente as metodologias específicas de tarefas e os benchmarks de avaliação. Ao identificar desafios atuais e propor direções para pesquisas futuras, esta pesquisa não apenas destaca o potencial transformador dos LLMs, mas também tem como objetivo inspirar e orientar pesquisadores e profissionais na alavancagem dos LLMs para avançar na investigação científica. Os recursos estão disponíveis no seguinte repositório: https://github.com/du-nlp-lab/LLM4SR
Agentes de Interface Gráfica do Usuário (GUI), impulsionados por modelos de linguagem multimodais de grande porte (MLLMs), têm mostrado grande potencial para automação de tarefas em dispositivos de computação, como computadores e telefones celulares. No entanto, os agentes existentes enfrentam desafios em raciocínio de múltiplas etapas e dependência de anotações textuais, limitando sua eficácia. Apresentamos o InfiGUIAgent, um Agente GUI baseado em MLLM treinado com um pipeline de ajuste fino supervisionado de duas etapas. A Etapa 1 aprimora habilidades fundamentais, como compreensão e fundamentação da GUI, enquanto a Etapa 2 integra raciocínio hierárquico e raciocínio de reflexão de expectativas usando dados sintetizados para habilitar habilidades de raciocínio nativas dos agentes. O InfiGUIAgent alcança desempenho competitivo em vários benchmarks de GUI, destacando o impacto das habilidades de raciocínio nativas na melhoria da interação da GUI para tarefas de automação. Os recursos estão disponíveis em https://github.com/Reallm-Labs/InfiGUIAgent.
As técnicas de recuperação de documentos formam a base para o desenvolvimento de sistemas de informação em larga escala. A metodologia predominante é construir um bi-codificador e calcular a similaridade semântica. No entanto, essa similaridade escalar é difícil de refletir informações suficientes e dificulta a nossa compreensão dos resultados da recuperação. Além disso, esse processo computacional enfatiza principalmente a semântica global e ignora o relacionamento semântico detalhado entre a consulta e o texto complexo no documento. Neste artigo, propomos um novo método chamado Recuperação com Aumento de Geração (GeAR) que incorpora módulos de fusão e decodificação bem projetados. Isso permite que o GeAR gere o texto relevante dos documentos com base na representação fundida da consulta e do documento, aprendendo assim a "focar" nas informações detalhadas. Além disso, ao ser usado como um recuperador, o GeAR não adiciona nenhuma carga computacional sobre os bi-codificadores. Para apoiar o treinamento do novo framework, introduzimos um pipeline para sintetizar eficientemente dados de alta qualidade utilizando grandes modelos de linguagem. O GeAR apresenta um desempenho competitivo de recuperação e localização em diversos cenários e conjuntos de dados. Além disso, a análise qualitativa e os resultados gerados pelo GeAR fornecem novas perspectivas sobre a interpretação dos resultados de recuperação. O código, os dados e os modelos serão disponibilizados após a conclusão da revisão técnica para facilitar pesquisas futuras.
Neste artigo, ampliamos os limites da geração 3D detalhada para um território verdadeiramente criativo. Os métodos atuais ou carecem de detalhes intricados ou simplesmente imitam objetos existentes - nós possibilitamos ambos. Ao elevar a compreensão detalhada 2D para 3D através de difusão multi-visual e modelagem de latentes de partes como distribuições contínuas, desbloqueamos a capacidade de gerar partes inteiramente novas, porém plausíveis, por meio de interpolação e amostragem. Uma perda de consistência de características auto-supervisionada garante ainda a geração estável dessas partes não vistas. O resultado é o primeiro sistema capaz de criar objetos 3D inovadores com detalhes específicos de espécies que transcendem exemplos existentes. Embora demonstremos nossa abordagem em aves, o framework subjacente se estende além das coisas que podem cantar! O código será disponibilizado em https://github.com/kamwoh/chirpy3d.
Estudamos o problema da reconstrução tridimensional de objetos a partir de uma única imagem. Trabalhos recentes têm seguido duas direções: modelagem baseada em regressão e modelagem generativa. Métodos de regressão inferem eficientemente superfícies visíveis, mas enfrentam dificuldades com regiões ocultas. Métodos generativos lidam melhor com regiões incertas ao modelar distribuições, porém são computacionalmente caros e a geração frequentemente não está alinhada com as superfícies visíveis. Neste artigo, apresentamos o SPAR3D, uma abordagem inovadora em duas etapas que visa combinar o melhor de ambas as direções. A primeira etapa do SPAR3D gera nuvens de pontos 3D esparsas usando um modelo leve de difusão de pontos, que possui uma rápida velocidade de amostragem. A segunda etapa utiliza tanto a nuvem de pontos amostrada quanto a imagem de entrada para criar malhas altamente detalhadas. Nosso design em duas etapas permite a modelagem probabilística da tarefa tridimensional de uma única imagem, mantendo alta eficiência computacional e grande fidelidade de saída. Utilizar nuvens de pontos como representação intermediária também permite edições interativas do usuário. Avaliado em conjuntos de dados diversos, o SPAR3D demonstra desempenho superior em relação a métodos anteriores de ponta, com uma velocidade de inferência de 0,7 segundos. Página do projeto com código e modelo: https://spar3d.github.io
A afinação eficaz da instrução é indispensável para otimizar os modelos de código LLM, alinhar o comportamento do modelo com as expectativas do usuário e aprimorar o desempenho do modelo em aplicações do mundo real. No entanto, a maioria dos métodos existentes concentra-se em trechos de código, que são limitados a funcionalidades específicas e estruturas rígidas, restringindo a complexidade e diversidade dos dados sintetizados. Para lidar com essas limitações, introduzimos um novo framework de síntese baseado em árvores de características, inspirado nas Árvores de Sintaxe Abstrata (AST). Ao contrário do AST, que captura a estrutura sintática do código, nosso framework modela as relações semânticas entre os elementos do código, possibilitando a geração de dados mais sutis e diversos. A árvore de características é construída a partir de dados brutos e refinada de forma iterativa para aumentar a quantidade e diversidade das características extraídas. Esse processo permite a identificação de padrões e relações mais complexas dentro do código. Ao amostrar subárvores com profundidade e amplitude controladas, nosso framework permite ajustes precisos na complexidade do código gerado, suportando uma ampla gama de tarefas, desde operações simples em nível de função até cenários intricados com vários arquivos. Ajustamos modelos base amplamente utilizados para criar a série EpiCoder, alcançando desempenho de ponta tanto nos níveis de função quanto de arquivo em vários benchmarks. Notavelmente, evidências empíricas indicam que nossa abordagem mostra um potencial significativo na síntese de dados de código de repositório altamente complexos. Análises adicionais elucidam os méritos dessa abordagem, avaliando rigorosamente a complexidade e diversidade dos dados por meio de princípios de engenharia de software e do método LLM-como-juiz.
O rápido crescimento dos grandes modelos de linguagem (LLMs) desbloqueou muitas aplicações, mas também destaca o desafio de alinhá-los com valores e preferências diversas. A Otimização Direta de Preferência (DPO) é central para o alinhamento, porém limitada por divergências fixas e transformações de características limitadas. Propomos os Núcleos DPO, que integram métodos de núcleo para lidar com essas questões através de quatro contribuições-chave: (i) Representações Kernelizadas com núcleos polinomiais, RBF, Mahalanobis e espectrais para transformações mais ricas, além de uma perda híbrida que combina objetivos baseados em incorporação e baseados em probabilidade; (ii) Alternativas de Divergência (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein e f-divergências) para maior estabilidade; (iii) Métricas de Seleção Dirigidas por Dados que escolhem automaticamente o melhor par núcleo-divergência; e (iv) uma Mistura Hierárquica de Núcleos para precisão local e modelagem global. Avaliações em 12 conjuntos de dados demonstram desempenho de ponta em factualidade, segurança, raciocínio e seguimento de instruções. Fundamentado em Auto-Regularização de Cauda Pesada, os Núcleos DPO mantêm uma generalização robusta para LLMs, oferecendo um recurso abrangente para pesquisas adicionais de alinhamento.
A Geração com Recuperação Aprimorada (RAG) tornou-se ubíqua ao implantar Modelos de Linguagem de Grande Escala (LLMs), pois pode lidar com limitações típicas, como gerar informações alucinadas ou desatualizadas. No entanto, ao construir aplicações RAG do mundo real, surgem questões práticas. Primeiramente, as informações recuperadas são geralmente específicas do domínio. Como é computacionalmente custoso ajustar finamente os LLMs, é mais viável ajustar finamente o recuperador para melhorar a qualidade dos dados incluídos na entrada do LLM. Em segundo lugar, à medida que mais aplicações são implantadas no mesmo sistema do mundo real, não se pode arcar com o custo de implantar recuperadores separados. Além disso, essas aplicações RAG normalmente recuperam diferentes tipos de dados. Nossa solução é ajustar finamente um pequeno codificador de recuperador em uma variedade de tarefas específicas do domínio para nos permitir implantar um codificador que possa atender a muitos casos de uso, alcançando assim baixo custo, escalabilidade e velocidade. Mostramos como este codificador generaliza para configurações fora do domínio, bem como para uma tarefa de recuperação não vista em casos de uso empresarial do mundo real.