Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os grandes modelos de linguagem tenham facilitado avanços em muitas aplicações de inteligência artificial, sua grandeza inerente os torna computacionalmente caros e desafiadores de implantar em ambientes com recursos limitados. Neste artigo, documentamos o desenvolvimento do SmolLM2, um modelo de linguagem (LM) "pequeno" (com 1,7 bilhão de parâmetros) de última geração. Para obter um desempenho sólido, supertreinamos o SmolLM2 em cerca de 11 trilhões de tokens de dados usando um processo de treinamento em várias etapas que mistura texto da web com dados especializados em matemática, código e instruções. Além disso, introduzimos novos conjuntos de dados especializados (FineMath, Stack-Edu e SmolTalk) em estágios nos quais encontramos conjuntos de dados existentes problemáticos devido ao tamanho pequeno ou baixa qualidade. Para orientar nossas decisões de design, realizamos tanto ablações em pequena escala quanto um processo de refinamento manual que atualiza as taxas de mistura de conjuntos de dados em cada estágio com base no desempenho do estágio anterior. Demonstramos, em última análise, que o SmolLM2 supera outros modelos de linguagem pequenos recentes, incluindo o Qwen2.5-1.5B e o Llama3.2-1B. Para facilitar pesquisas futuras sobre o desenvolvimento de LM, bem como aplicações de LMs pequenos, disponibilizamos tanto o SmolLM2 quanto todos os conjuntos de dados que preparamos ao longo deste projeto.
Apresentamos uma descoberta fundamental que desafia nossa compreensão de como o raciocínio complexo emerge em grandes modelos de linguagem. Enquanto a sabedoria convencional sugere que tarefas de raciocínio sofisticado exigem extensos dados de treinamento (>100.000 exemplos), demonstramos que habilidades complexas de raciocínio matemático podem ser efetivamente obtidas com surpreendentemente poucos exemplos. Através de experimentos abrangentes, nosso modelo proposto LIMO demonstra um desempenho sem precedentes em raciocínio matemático. Com meramente 817 amostras de treinamento selecionadas, LIMO alcança uma precisão de 57,1% no AIME e 94,8% no MATH, melhorando em relação aos modelos anteriores baseados em SFT, que obtiveram 6,5% e 59,2%, respectivamente, utilizando apenas 1% dos dados de treinamento exigidos por abordagens anteriores. LIMO demonstra uma generalização excepcional fora da distribuição, alcançando um aumento absoluto de 40,5% em 10 benchmarks diversos, superando modelos treinados com 100 vezes mais dados, desafiando a noção de que SFT leva à memorização em vez de generalização. Com base nesses resultados, propomos a Hipótese de Raciocínio Menos-É-Mais (Hipótese LIMO): em modelos fundamentais nos quais o conhecimento de domínio foi abrangentemente codificado durante o pré-treinamento, capacidades de raciocínio sofisticado podem surgir através de demonstrações mínimas, mas precisamente orquestradas, de processos cognitivos. Esta hipótese postula que o limiar de elicitação para o raciocínio complexo é determinado por dois fatores-chave: (1) a completude da base de conhecimento codificada do modelo durante o pré-treinamento e (2) a eficácia de exemplos de pós-treinamento como "modelos cognitivos" que mostram ao modelo como utilizar sua base de conhecimento para resolver tarefas de raciocínio complexas. Para facilitar a reprodutibilidade e futuras pesquisas em raciocínio eficiente em dados, disponibilizamos o LIMO como um conjunto abrangente de código aberto em https://github.com/GAIR-NLP/LIMO.
O aumento do poder computacional na inferência melhora o raciocínio em modelos de linguagem grandes (LLMs), com longas cadeias de pensamento (CoTs) possibilitando estratégias como retrocesso e correção de erros. A aprendizagem por reforço (RL) tem se destacado como um método crucial para desenvolver essas capacidades, no entanto, as condições sob as quais longas CoTs surgem permanecem incertas, e o treinamento com RL requer escolhas de design cuidadosas. Neste estudo, investigamos sistematicamente a mecânica do raciocínio de longas CoTs, identificando os principais fatores que permitem aos modelos gerar trajetórias de CoT longas. Através de extensos experimentos de ajuste fino supervisionado (SFT) e RL, apresentamos quatro descobertas principais: (1) Embora o SFT não seja estritamente necessário, ele simplifica o treinamento e melhora a eficiência; (2) As capacidades de raciocínio tendem a surgir com o aumento do poder computacional de treinamento, mas seu desenvolvimento não é garantido, tornando o ajuste de recompensa crucial para estabilizar o crescimento do comprimento do CoT; (3) Escalar sinais de recompensa verificáveis é crítico para RL. Descobrimos que aproveitar soluções ruidosas extraídas da web com mecanismos de filtragem mostra um forte potencial, especialmente para tarefas fora da distribuição (OOD) como o raciocínio STEM; e (4) Habilidades centrais como correção de erros estão inerentemente presentes nos modelos base, mas incentivar efetivamente essas habilidades para tarefas complexas via RL exige um poder computacional significativo, e medir sua emergência requer uma abordagem sutil. Essas percepções fornecem orientações práticas para otimizar estratégias de treinamento para aprimorar o raciocínio de longas CoTs em LLMs. Nosso código está disponível em: https://github.com/eddycmu/demystify-long-cot.
O estudo da emergência social tem sido há muito tempo um foco central nas ciências sociais. Abordagens tradicionais de modelagem, como Modelos Baseados em Agentes (ABMs) baseados em regras, têm dificuldade em capturar a diversidade e complexidade do comportamento humano, particularmente os fatores irracionais enfatizados na economia comportamental. Recentemente, agentes de grandes modelos de linguagem (LLMs) ganharam destaque como ferramentas de simulação para modelar o comportamento humano em ciências sociais e aplicações de role-playing. Estudos sugerem que LLMs podem levar em consideração vieses cognitivos, flutuações emocionais e outras influências não racionais, possibilitando simulações mais realistas de dinâmicas sócio-econômicas. Neste trabalho, introduzimos o TwinMarket, um novo framework multiagente que aproveita LLMs para simular sistemas sócio-econômicos. Especificamente, examinamos como comportamentos individuais, por meio de interações e mecanismos de feedback, dão origem a dinâmicas coletivas e fenômenos emergentes. Através de experimentos em um ambiente simulado de mercado de ações, demonstramos como ações individuais podem desencadear comportamentos de grupo, levando a resultados emergentes como bolhas financeiras e recessões. Nossa abordagem fornece insights valiosos sobre a complexa interação entre tomadas de decisão individuais e padrões sócio-econômicos coletivos.
Os modelos de linguagem multimodais de grande porte (MLLMs) exibem capacidades impressionantes, mas ainda enfrentam desafios em raciocínio visual complexo. Enquanto esforços recentes tentam aprimorar o raciocínio dos MLLMs incorporando um pensamento estruturado semelhante ao OpenAI o1 por meio de estruturas de busca explícitas ou destilação guiada por professores, muitas vezes lutam para equilibrar desempenho e eficiência. Uma limitação crítica é a sua forte dependência de dados extensos e espaços de busca, resultando em extração de insights implícitos de baixa eficiência e utilização de dados. Para lidar com isso, propomos o AStar, um paradigma de pensamento estruturado automatizado para raciocínio multimodal via Busca em Árvore de Monte Carlo (MCTS). O AStar deriva automaticamente padrões de raciocínio cognitivo de alto nível a partir de dados limitados usando estruturas hierárquicas alimentadas por MCTS. Com base nesses padrões explícitos, projetamos um framework de raciocínio unificado que integra perfeitamente as capacidades de raciocínio interno dos modelos e diretrizes de raciocínio externas, possibilitando inferência eficiente com iterações mínimas na árvore. Esse novo paradigma alcança um equilíbrio convincente entre desempenho e eficiência. Experimentos extensos demonstram a eficácia do AStar, alcançando uma precisão superior (54,0%) no benchmark MathVerse com uma base de 7B, superando o GPT-4o (50,2%) mantendo considerável eficiência de dados e computacional.
A geração de SVGs em camadas alinhadas cognitivamente continua sendo um desafio devido às tendências dos métodos existentes em direção a saídas de uma única camada excessivamente simplificadas ou redundâncias de formas induzidas pela otimização. Propomos o LayerTracer, um framework baseado em transformer de difusão que preenche essa lacuna ao aprender os processos de criação de SVGs em camadas dos designers a partir de um novo conjunto de dados de operações de design sequenciais. Nosso método opera em duas fases: Primeiramente, um DiT condicionado por texto gera plantas de construção rasterizadas de várias fases que simulam os fluxos de trabalho de design humano. Em seguida, a vetorização por camadas com deduplicação de caminhos produz SVGs limpos e editáveis. Para vetorização de imagens, introduzimos um mecanismo de difusão condicional que codifica imagens de referência em tokens latentes, orientando a reconstrução hierárquica enquanto preserva a integridade estrutural. Experimentos extensivos demonstram o desempenho superior do LayerTracer em comparação com baselines baseados em otimização e neurais, tanto em qualidade de geração quanto em editabilidade, alinhando efetivamente vetores gerados por IA com a cognição de design profissional.
Grandes Modelos de Linguagem (LLMs) destacam-se em raciocínio e planejamento quando treinados em dados de cadeia de pensamento (CoT), nos quais o processo de pensamento passo a passo é explicitamente delineado por tokens de texto. No entanto, isso resulta em entradas extensas em que muitas palavras sustentam a coerência textual em vez das informações de raciocínio central, e processar essas entradas consome recursos computacionais substanciais. Neste trabalho, propomos uma representação híbrida do processo de raciocínio, onde abstraímos parcialmente os passos iniciais de raciocínio usando tokens discretos latentes gerados por VQ-VAE, reduzindo significativamente o comprimento dos rastros de raciocínio. Exploramos o uso de abstrações de rastros latentes em dois cenários: 1) treinando o modelo do zero para o problema do Labirinto de Encontrar Chaves, 2) ajustando finamente LLMs nesses dados híbridos com um vocabulário estendido incluindo tokens latentes não vistos, tanto para problemas de raciocínio lógico quanto matemático. Para facilitar a aprendizagem eficaz, introduzimos um procedimento de treinamento simples que mistura aleatoriamente tokens latentes e de texto, o que permite uma adaptação rápida a novos tokens latentes. Nossa abordagem supera consistentemente os métodos de referência em vários benchmarks.
O pós-treinamento de modelos de linguagem (LMs) depende cada vez mais das seguintes duas etapas: (i) destilação de conhecimento, onde o LM é treinado para imitar um LM professor maior, e (ii) aprendizado por reforço a partir do feedback humano (RLHF), onde o LM é alinhado otimizando um modelo de recompensa. Na segunda etapa RLHF, um desafio bem conhecido é a manipulação de recompensas, onde o LM otimiza demais o modelo de recompensa. Esse fenômeno está em linha com a Lei de Goodhart e pode levar a uma degradação no desempenho do objetivo real. Neste artigo, investigamos se um fenômeno semelhante, que chamamos de manipulação do professor, pode ocorrer durante a destilação de conhecimento. Isso poderia surgir porque o LM professor é em si uma aproximação imperfeita da verdadeira distribuição. Para estudar isso, propomos uma configuração experimental controlada envolvendo: (i) um LM oráculo representando a distribuição verdadeira, (ii) um LM professor destilado do oráculo e (iii) um LM aluno destilado do professor. Nossos experimentos revelam as seguintes percepções. Ao usar um conjunto de dados offline fixo para destilação, a manipulação do professor ocorre; além disso, podemos detectá-la observando quando o processo de otimização se desvia das leis de convergência polinomial. Em contraste, o uso de técnicas de geração de dados online mitiga efetivamente a manipulação do professor. Mais precisamente, identificamos a diversidade de dados como o fator-chave na prevenção da manipulação. No geral, nossas descobertas fornecem uma compreensão mais profunda dos benefícios e limitações da destilação para a construção de LMs robustos e eficientes.
A geração automatizada de código está ganhando uma importância significativa na programação de computadores inteligente e na implantação de sistemas. No entanto, as abordagens atuais frequentemente enfrentam desafios em eficiência computacional e carecem de mecanismos robustos para análise e correção de erros de código. Neste trabalho, propomos um novo framework, PyCapsule, com um pipeline de dois agentes simples, porém eficaz, e módulos de auto-depuração eficientes para geração de código Python. O PyCapsule apresenta inferência de prompt sofisticada, tratamento iterativo de erros e testes de casos, garantindo alta estabilidade, segurança e correção na geração. Empiricamente, o PyCapsule alcança uma melhoria de até 5,7% na taxa de sucesso no HumanEval, 10,3% no HumanEval-ET e 24,4% no BigCodeBench em comparação com os métodos mais avançados. Também observamos uma diminuição na taxa de sucesso normalizada com mais tentativas de auto-depuração, potencialmente afetada por feedback de erro limitado e ruidoso na retenção. O PyCapsule demonstra impactos mais amplos no avanço da geração de código leve e eficiente para sistemas de inteligência artificial.
Os modelos de linguagem de grande escala (LLMs) alcançaram ganhos significativos de desempenho por meio do aumento do tamanho do modelo e/ou dos dados. No entanto, evidências recentes sugerem retornos decrescentes dessas abordagens, o que motiva o aumento da computação utilizada no tempo de inferência. Métodos existentes de escalonamento no tempo de inferência, geralmente com modelos de recompensa, tratam a tarefa como um problema de busca, o que tende a ser vulnerável a manipulações de recompensa como consequência de erros de aproximação nos modelos de recompensa. Neste artigo, em vez disso, tratamos o escalonamento no tempo de inferência como uma tarefa de inferência probabilística e aproveitamos técnicas baseadas em amostragem para explorar o conjunto típico da distribuição de estados de um modelo de espaço de estados com uma verossimilhança aproximada, em vez de otimizar diretamente para o seu modo. Propomos uma abordagem de escalonamento no tempo de inferência inovadora, adaptando métodos de Monte Carlo baseados em partículas para esta tarefa. Nossa avaliação empírica demonstra que nossos métodos têm uma taxa de escalonamento 4-16 vezes melhor em relação aos nossos métodos de busca determinística em várias tarefas desafiadoras de raciocínio matemático. Usando nossa abordagem, mostramos que o Qwen2.5-Math-1.5B-Instruct pode superar a precisão do GPT-4o em apenas 4 iterações, enquanto o Qwen2.5-Math-7B-Instruct atinge uma precisão de nível o1 em apenas 32 iterações. Nosso trabalho não apenas apresenta um método eficaz para escalonamento no tempo de inferência, mas também conecta a rica literatura em inferência probabilística com o escalonamento no tempo de inferência de LLMs para desenvolver algoritmos mais robustos em trabalhos futuros. O código e mais informações estão disponíveis em https://probabilistic-inference-scaling.github.io.
Os modelos de linguagem de grande escala (LLMs) têm visto um rápido desenvolvimento nos últimos anos, revolucionando várias aplicações e aumentando significativamente a conveniência e produtividade. No entanto, juntamente com suas impressionantes capacidades, surgiram preocupações éticas e novos tipos de ataques, como o jailbreaking. Enquanto a maioria das técnicas de gatilho se concentra na otimização de entradas adversárias para casos individuais, resultando em custos computacionais mais elevados ao lidar com grandes conjuntos de dados, menos pesquisas abordaram o cenário mais geral de treinar um atacante universal que possa ser transferido para tarefas não vistas. Neste artigo, apresentamos JUMP, um método baseado em gatilho projetado para realizar jailbreak em LLMs usando multi-gatilhos universais. Também adaptamos nossa abordagem para defesa, que denominamos DUMP. Resultados experimentais demonstram que nosso método de otimização de multi-gatilhos universais supera as técnicas existentes.
A fusão de modelos, um método que combina os parâmetros e incorporações de múltiplos grandes modelos de linguagem finamente ajustados (LLMs), oferece uma abordagem promissora para melhorar o desempenho do modelo em várias tarefas, mantendo a eficiência computacional. Este artigo apresenta a Fusão Informada pela Ativação (AIM), uma técnica que integra as informações do espaço de ativação dos LLMs no processo de fusão para melhorar o desempenho e a robustez. AIM é projetado como uma solução flexível e complementar que é aplicável a qualquer método de fusão existente. Seu objetivo é preservar pesos críticos do modelo base, baseando-se em princípios de aprendizado contínuo (CL) e compressão de modelo. Utilizando um conjunto de calibração agnóstico à tarefa, AIM prioriza seletivamente pesos essenciais durante a fusão. Demonstramos empiricamente que AIM melhora significativamente o desempenho de modelos fundidos em vários benchmarks. Nossas descobertas sugerem que considerar as informações do espaço de ativação pode fornecer avanços substanciais nas estratégias de fusão de modelos para LLMs, com um aumento de até 40% no desempenho do benchmark.
A Geração com Recuperação Aprimorada (RAG) permite que Modelos de Linguagem Grandes (LLMs) gerem respostas fundamentadas, aproveitando bases de conhecimento externas sem alterar os parâmetros do modelo. Embora a ausência de ajuste de pesos evite vazamentos por meio dos parâmetros do modelo, ela introduz o risco de adversários de inferência explorarem documentos recuperados no contexto do modelo. Métodos existentes para inferência de associação e extração de dados frequentemente dependem de desbloqueio ou consultas cuidadosamente elaboradas e não naturais, que podem ser facilmente detectadas ou frustradas com técnicas de reescrita de consultas comuns em sistemas RAG. Neste trabalho, apresentamos o Ataque de Interrogação (IA), uma técnica de inferência de associação direcionada a documentos no banco de dados RAG. Ao elaborar consultas de texto natural que só podem ser respondidas com a presença do documento-alvo, nossa abordagem demonstra uma inferência bem-sucedida com apenas 30 consultas, mantendo-se furtiva; detectores diretos identificam sugestões adversárias de métodos existentes até ~76 vezes mais frequentemente do que aquelas geradas por nosso ataque. Observamos uma melhoria de 2 vezes em TPR@1%FPR em relação a ataques de inferência anteriores em diversas configurações de RAG, tudo isso custando menos de $0.02 por inferência de documento.
A avaliação da aplicabilidade do mundo real de grandes modelos de linguagem (LLMs) fornece insights valiosos para o seu desenvolvimento e uso em tarefas de desenvolvimento de software. Os benchmarks existentes frequentemente se concentram em problemas de codificação autônomos ou bibliotecas específicas, ignorando cenários baseados em projetos multi-arquivo e carecendo de uma avaliação rigorosa de consistência. O Benchmark HackerRank-ASTRA introduz problemas de codificação baseados em projetos que refletem cenários do mundo real. Ele avalia a consistência do modelo por meio de 32 execuções (k = 32) e desvio padrão mediano, ao incorporar análise em nível de taxonomia para avaliar as capacidades de sub-habilidades. Avaliações iniciais em 65 problemas mostram que os três principais modelos - o1, o1-preview e Claude-3.5-Sonnet-1022 - alcançaram pontuações médias comparáveis de 75%, sem diferenças estatisticamente significativas de desempenho. Notavelmente, Claude-3.5-Sonnet-1022 demonstrou a maior consistência entre os problemas, com baixa variabilidade (SD = 0.0497), o que foi estatisticamente significativo em comparação com outros modelos, destacando sua confiabilidade para tarefas de desenvolvimento de software do mundo real.