Artigos de pesquisa em IA selecionados diariamente com traduções
Os LLMs demonstraram fortes habilidades de raciocínio matemático ao aproveitar o aprendizado por reforço com cadeias longas de pensamento, mas continuam a enfrentar dificuldades na prova de teoremas devido à falta de sinais claros de supervisão quando utilizam apenas linguagem natural. Linguagens específicas de domínio, como Lean, fornecem supervisão clara por meio da verificação formal de provas, permitindo um treinamento eficaz através do aprendizado por reforço. Neste trabalho, propomos o Seed-Prover, um modelo de raciocínio de prova completa no estilo de lemas. O Seed-Prover pode refinar iterativamente sua prova com base no feedback do Lean, nos lemas provados e na auto-summarização. Para resolver problemas de nível de competição da IMO, projetamos três estratégias de inferência em tempo de teste que permitem raciocínios profundos e amplos. O Seed-Prover prova 78,1% dos problemas formalizados de edições anteriores da IMO, satura o MiniF2F e alcança mais de 50% no PutnamBench, superando o estado da arte anterior por uma grande margem. Para lidar com a falta de suporte a geometria no Lean, introduzimos um mecanismo de raciocínio geométrico, o Seed-Geometry, que supera os motores formais de geometria anteriores. Utilizamos esses dois sistemas para participar da IMO 2025 e provar completamente 5 dos 6 problemas. Este trabalho representa um avanço significativo no raciocínio matemático automatizado, demonstrando a eficácia da verificação formal com raciocínio de cadeias longas de pensamento.
Com o desenvolvimento de modelos de raciocínio multimodal, os Agentes de Uso de Computador (CUAs), semelhantes ao Jarvis de "Homem de Ferro", estão se tornando uma realidade. A fundamentação de GUI é um componente central para que os CUAs executem ações reais, semelhante ao controle mecânico na robótica, e ela determina diretamente o sucesso ou o fracasso do sistema. Ela define ações como cliques e digitação, bem como parâmetros relacionados, como as coordenadas para os cliques. Os modelos atuais de fundamentação de ponta a ponta ainda alcançam menos de 65% de precisão em benchmarks desafiadores como ScreenSpot-pro e UI-Vision, indicando que estão longe de estarem prontos para implantação. Neste trabalho, realizamos um estudo empírico sobre o treinamento de modelos de fundamentação, examinando detalhes desde a coleta de dados até o treinamento do modelo. Por fim, desenvolvemos a família de modelos Phi-Ground, que alcança desempenho de ponta em todos os cinco benchmarks de fundamentação para modelos com menos de 10B de parâmetros em configurações de agentes. Na configuração de modelo de ponta a ponta, nosso modelo ainda alcança resultados SOTA com pontuações de \textbf{43,2} no ScreenSpot-pro e \textbf{27,2} no UI-Vision. Acreditamos que os diversos detalhes discutidos neste artigo, juntamente com nossos sucessos e fracassos, não apenas esclarecem a construção de modelos de fundamentação, mas também beneficiam outras tarefas de percepção. Página do projeto: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
Os sistemas de recomendação estão entre as aplicações de inteligência artificial de maior impacto, servindo como infraestrutura crítica que conecta usuários, comerciantes e plataformas. No entanto, a maioria dos sistemas industriais atuais ainda depende fortemente de padrões históricos de co-ocorrência e objetivos de ajuste de logs, ou seja, otimizam as interações passadas dos usuários sem modelar explicitamente a intenção do usuário. Essa abordagem de ajuste de logs frequentemente leva ao sobreajuste a preferências históricas restritas, falhando em capturar os interesses latentes e em evolução dos usuários. Como resultado, reforça bolhas de filtro e fenômenos de cauda longa, prejudicando a experiência do usuário e ameaçando a sustentabilidade de todo o ecossistema de recomendação. Para enfrentar esses desafios, repensamos o paradigma geral de design dos sistemas de recomendação e propomos o RecGPT, uma estrutura de próxima geração que coloca a intenção do usuário no centro do pipeline de recomendação. Ao integrar modelos de linguagem de grande escala (LLMs) em etapas-chave de mineração de interesses do usuário, recuperação de itens e geração de explicações, o RecGPT transforma a recomendação baseada em ajuste de logs em um processo centrado na intenção. Para alinhar efetivamente LLMs de propósito geral às tarefas específicas de recomendação em escala, o RecGPT incorpora um paradigma de treinamento em múltiplas etapas, que integra pré-alinhamento aprimorado por raciocínio e evolução por auto-treinamento, guiado por um sistema de julgamento cooperativo Humano-LLM. Atualmente, o RecGPT foi totalmente implantado no aplicativo Taobao. Experimentos online demonstram que o RecGPT alcança ganhos consistentes de desempenho entre as partes interessadas: os usuários se beneficiam de maior diversidade de conteúdo e satisfação, enquanto comerciantes e a plataforma obtêm maior exposição e conversões. Esses resultados abrangentes de melhoria em todas as partes interessadas validam que o design centrado na intenção e impulsionado por LLMs pode promover um ecossistema de recomendação mais sustentável e mutuamente benéfico.
A modelagem feed-forward 3D surgiu como uma abordagem promissora para reconstrução 3D rápida e de alta qualidade. Em particular, a geração direta de representações 3D explícitas, como o splatting de Gaussianas 3D, tem atraído atenção significativa devido à sua renderização rápida e de alta qualidade, além de suas diversas aplicações. No entanto, muitos métodos state-of-the-art, baseados principalmente em arquiteturas de transformers, sofrem com sérios problemas de escalabilidade, pois dependem de atenção completa entre tokens de imagem de múltiplas vistas de entrada, resultando em custos computacionais proibitivos à medida que o número de vistas ou a resolução da imagem aumenta. Visando uma reconstrução 3D feed-forward escalável e eficiente, introduzimos um Modelo Iterativo de Reconstrução 3D em Grande Escala (iLRM) que gera representações de Gaussianas 3D por meio de um mecanismo de refinamento iterativo, guiado por três princípios fundamentais: (1) desacoplar a representação da cena das imagens de entrada para permitir representações 3D compactas; (2) decompor interações multi-visuais de atenção completa em um esquema de atenção em dois estágios para reduzir custos computacionais; e (3) injetar informações de alta resolução em cada camada para alcançar reconstrução de alta fidelidade. Resultados experimentais em conjuntos de dados amplamente utilizados, como RE10K e DL3DV, demonstram que o iLRM supera os métodos existentes tanto em qualidade de reconstrução quanto em velocidade. Notavelmente, o iLRM exibe escalabilidade superior, entregando qualidade de reconstrução significativamente maior sob custo computacional comparável, ao aproveitar de forma eficiente um número maior de vistas de entrada.
Grandes modelos de linguagem interagem com os usuários por meio de uma persona simulada de 'Assistente'. Embora o Assistente seja normalmente treinado para ser útil, inofensivo e honesto, ele às vezes se desvia desses ideais. Neste artigo, identificamos direções no espaço de ativação do modelo — vetores de persona — que subjazem a vários traços, como maldade, bajulação e propensão a alucinar. Confirmamos que esses vetores podem ser usados para monitorar flutuações na personalidade do Assistente durante a implantação. Em seguida, aplicamos vetores de persona para prever e controlar mudanças de personalidade que ocorrem durante o treinamento. Descobrimos que tanto as mudanças de personalidade intencionais quanto as não intencionais após o ajuste fino estão fortemente correlacionadas com deslocamentos ao longo dos vetores de persona relevantes. Esses deslocamentos podem ser mitigados por meio de intervenção pós-hoc ou evitados desde o início com um novo método de direcionamento preventivo. Além disso, os vetores de persona podem ser usados para sinalizar dados de treinamento que produzirão mudanças de personalidade indesejáveis, tanto no nível do conjunto de dados quanto no nível da amostra individual. Nosso método para extrair vetores de persona é automatizado e pode ser aplicado a qualquer traço de personalidade de interesse, dado apenas uma descrição em linguagem natural.
Modelos de Diálogo Falado (SDMs, na sigla em inglês) têm recentemente atraído atenção significativa por sua capacidade de gerar respostas de voz diretamente para consultas faladas dos usuários. Apesar de sua crescente popularidade, existe uma lacuna na pesquisa focada em compreender de forma abrangente sua eficácia prática na compreensão e emulação de conversas humanas. Isso é especialmente verdadeiro em comparação com os Modelos de Linguagem de Grande Escala (LLMs) baseados em texto, que se beneficiam de extensos benchmarks. As interações de voz humana são inerentemente mais complexas do que o texto devido a características únicas do diálogo falado. A ambiguidade representa um desafio, decorrente de fatores semânticos como a polissemia, bem como aspectos fonológicos como heterografia, heterônimos e padrões de acentuação. Além disso, a dependência de contexto, como omissão, correferência e interação multivolta, adiciona ainda mais complexidade à dinâmica das conversas humanas. Para esclarecer o estado atual do desenvolvimento de SDMs e abordar esses desafios, apresentamos neste artigo um conjunto de dados de benchmark, que compreende 1.079 instâncias em inglês e chinês. Acompanhado por um método de avaliação baseado em LLM que se alinha de perto com o julgamento humano, esse conjunto de dados facilita uma exploração abrangente do desempenho dos SDMs no enfrentamento desses desafios práticos.
Os modelos Visual-Language-Action (VLA) surgiram como um paradigma popular para aprender políticas de manipulação robótica que podem seguir instruções em linguagem natural e generalizar para cenários novos. Trabalhos recentes começaram a explorar a incorporação de ações latentes, uma representação abstrata da mudança visual entre dois quadros, no pré-treinamento de VLA. Neste artigo, apresentamos o villa-X, uma nova estrutura Visual-Language-Latent-Action (ViLLA) que avança a modelagem de ações latentes para aprender políticas de manipulação robótica generalizáveis. Nossa abordagem melhora tanto a forma como as ações latentes são aprendidas quanto a maneira como são incorporadas no pré-treinamento de VLA. Juntas, essas contribuições permitem que o villa-X alcance desempenho superior em ambientes simulados, incluindo SIMPLER e LIBERO, bem como em duas configurações robóticas do mundo real, envolvendo manipulação com garra e mão articulada. Acreditamos que o paradigma ViLLA tem um potencial significativo e que nosso villa-X fornece uma base sólida para pesquisas futuras.
Apresentamos o NeRF-GS, uma nova estrutura que otimiza conjuntamente Campos de Radiação Neural (NeRF) e Splatting Gaussiano 3D (3DGS). Essa estrutura aproveita a representação espacial contínua inerente do NeRF para mitigar várias limitações do 3DGS, incluindo sensibilidade à inicialização Gaussiana, consciência espacial limitada e correlações fracas entre Gaussianos, melhorando assim seu desempenho. No NeRF-GS, revisitamos o design do 3DGS e alinhamos progressivamente suas características espaciais com o NeRF, permitindo que ambas as representações sejam otimizadas dentro da mesma cena por meio de informações espaciais 3D compartilhadas. Além disso, abordamos as distinções formais entre as duas abordagens otimizando vetores residuais tanto para características implícitas quanto para posições Gaussianas, a fim de aprimorar as capacidades personalizadas do 3DGS. Resultados experimentais em conjuntos de dados de referência mostram que o NeRF-GS supera os métodos existentes e alcança desempenho de ponta. Esse resultado confirma que o NeRF e o 3DGS são complementares em vez de concorrentes, oferecendo novos insights sobre abordagens híbridas que combinam 3DGS e NeRF para uma representação eficiente de cenas 3D.
Embora o Aprendizado por Reforço (RL) tenha alcançado sucesso notável na modelagem de linguagem, seu triunfo ainda não foi totalmente transferido para agentes visuomotores. Um desafio primário nos modelos de RL é sua tendência a se ajustar excessivamente a tarefas ou ambientes específicos, dificultando assim a aquisição de comportamentos generalizáveis em diversos cenários. Este artigo oferece uma resposta preliminar a esse desafio, demonstrando que agentes visuomotores ajustados por RL no Minecraft podem alcançar generalização zero-shot para mundos não vistos. Especificamente, exploramos o potencial do RL para aprimorar capacidades generalizáveis de raciocínio espacial e interação em mundos 3D. Para abordar os desafios na representação de RL multitarefa, analisamos e estabelecemos a especificação de objetivos entre visões como um espaço de objetivos unificado para políticas visuomotoras. Além disso, para superar o significativo gargalo do design manual de tarefas, propomos a síntese automatizada de tarefas dentro do ambiente altamente personalizável do Minecraft para treinamento de RL em larga escala multitarefa, e construímos um framework distribuído de RL eficiente para suportar isso. Resultados experimentais mostram que o RL aumenta significativamente as taxas de sucesso de interação em 4 vezes e permite a generalização zero-shot do raciocínio espacial em diversos ambientes, incluindo configurações do mundo real. Nossas descobertas destacam o imenso potencial do treinamento de RL em ambientes simulados 3D, especialmente aqueles passíveis de geração de tarefas em larga escala, para avançar significativamente o raciocínio espacial de agentes visuomotoras.
Modelos de linguagem multimodal de grande escala (MLLMs) permitem o raciocínio visão-linguagem, mas frequentemente geram saídas plausíveis que são factualmente incorretas ou visualmente infundadas, comprometendo assim sua confiabilidade. A otimização de preferência direta (DPO) é uma estratégia comum para corrigir alucinações, alinhando as saídas do modelo com as preferências humanas. As estratégias de DPO existentes geralmente tratam as preferências relacionadas a alucinações como metas fixas, dependendo de sinais de supervisão estáticos durante o treinamento. Essa abordagem tende a superajustar-se a pistas linguísticas superficiais nos dados de preferência, levando a rigidez distribucional e correlações espúrias que prejudicam o fundamento em informações visuais causalmente relevantes. Para superar essa limitação, propomos o TARS, uma estratégia de preferência adaptativa por token que reformula o DPO como um problema de otimização min-max. O TARS maximiza mudanças distribucionais em nível de token sob restrições semânticas para simular incerteza de alinhamento e, simultaneamente, minimiza a perda de preferência esperada sob essas perturbações controladas. Esse objetivo conjunto preserva o fundamento causal enquanto mitiga o superajuste a padrões de preferência, reduzindo assim as alucinações no raciocínio multimodal. Avaliamos o TARS em vários benchmarks de alucinação e encontramos um desempenho consistentemente forte. Usando apenas 4,8 mil amostras de preferência e sem feedback de especialistas, o TARS reduz as taxas de alucinação de 26,4% para 13,2% e diminui o valor de cognição de 2,5 para 0,4. Ele supera o DPO padrão e iguala o GPT-4o em várias métricas-chave.
Desde sua introdução, a atenção softmax tornou-se a base das arquiteturas modernas de transformadores devido à sua expressividade e escalabilidade em uma ampla gama de tarefas. No entanto, a principal desvantagem da atenção softmax é o requisito de memória quadrática e a complexidade computacional em relação ao comprimento da sequência. Ao substituir a não linearidade softmax, a atenção linear e métodos semelhantes foram introduzidos para evitar o gargalo quadrático da atenção softmax. Apesar dessas formas lineares de atenção serem derivadas da formulação original da softmax, elas geralmente ficam atrás em termos de precisão em tarefas subsequentes. Embora a forte intuição sobre a não linearidade softmax no produto interno entre consultas e chaves sugira que ela possui propriedades desejáveis em comparação com outras não linearidades, a questão de por que essa discrepância existe ainda permanece sem resposta. Este trabalho demonstra que a atenção linear é uma aproximação da atenção softmax ao derivar a forma recorrente da atenção softmax. Usando essa forma, cada parte da atenção softmax pode ser descrita na linguagem das redes neurais recorrentes (RNNs). Descrever a atenção softmax como uma RNN permite a ablação dos componentes da atenção softmax para entender a importância de cada parte e como elas interagem. Dessa forma, nosso trabalho ajuda a explicar por que a atenção softmax é mais expressiva do que suas contrapartes.
A compreensão automatizada precisa de tarefas agrícolas, como a identificação de doenças, é essencial para a produção sustentável de culturas. Os avanços recentes em modelos de visão e linguagem (VLMs, na sigla em inglês) devem expandir ainda mais o alcance das tarefas agrícolas, facilitando a interação humano-modelo por meio de comunicação textual simples. Aqui, apresentamos o AgroBench (Agronomist AI Benchmark), um benchmark para avaliar modelos VLM em sete tópicos agrícolas, abrangendo áreas-chave da engenharia agrícola e relevantes para o cultivo no mundo real. Diferente de benchmarks agrícolas recentes para VLMs, o AgroBench é anotado por agrônomos especialistas. Nosso AgroBench cobre uma gama de categorias de ponta, incluindo 203 categorias de culturas e 682 categorias de doenças, para avaliar minuciosamente as capacidades dos VLMs. Em nossa avaliação no AgroBench, revelamos que os VLMs têm espaço para melhorias em tarefas de identificação de granularidade fina. Notavelmente, na identificação de ervas daninhas, a maioria dos VLMs de código aberto tem desempenho próximo ao aleatório. Com nossa ampla gama de tópicos e categorias anotadas por especialistas, analisamos os tipos de erros cometidos pelos VLMs e sugerimos possíveis caminhos para o desenvolvimento futuro desses modelos. Nosso conjunto de dados e código estão disponíveis em https://dahlian00.github.io/AgroBenchPage/.
A classificação de estilos artísticos continua sendo um desafio significativo na estética computacional devido à escassez de conjuntos de dados rotulados por especialistas e à intrincada, muitas vezes não linear, interação de elementos estilísticos. Embora estruturas recentes de auto-supervisão com dois professores reduzam a dependência de dados rotulados, suas camadas de projeção linear e foco localizado lutam para modelar o contexto composicional global e as interações complexas entre características de estilo. Aprimoramos a estrutura de destilação de conhecimento com dois professores para abordar essas limitações, substituindo as projeções MLP convencionais e cabeças de previsão por Redes de Kolmogorov-Arnold (KANs). Nossa abordagem mantém a orientação complementar de duas redes professoras, uma enfatizando padrões localizados de textura e pinceladas, e a outra capturando hierarquias estilísticas mais amplas, enquanto aproveita as ativações baseadas em spline das KANs para modelar correlações não lineares de características com precisão matemática. Experimentos no WikiArt e Pandora18k demonstram que nossa abordagem supera a arquitetura base de dois professores em precisão Top-1. Nossos resultados destacam a importância das KANs na desagregação de variedades estilísticas complexas, levando a uma melhor precisão de sondagem linear do que as projeções MLP.
O árabe representa um desafio particular para o processamento de linguagem natural (PLN) e a recuperação de informações (RI) devido à sua morfologia complexa, diacríticos opcionais e a coexistência do Árabe Padrão Moderno (APM) e diversos dialetos. Apesar da crescente importância global do árabe, ele ainda é sub-representado em pesquisas de PLN e em recursos de benchmark. Neste artigo, apresentamos uma estrutura aprimorada de Recuperação de Passagens Densas (DPR, na sigla em inglês) desenvolvida especificamente para o árabe. No cerne de nossa abordagem está um novo Mecanismo de Pontuação de Relevância Atenta (ARS, na sigla em inglês) que substitui os mecanismos de interação padrão por uma função de pontuação adaptativa que modela de forma mais eficaz a relevância semântica entre perguntas e passagens. Nosso método integra modelos de linguagem árabe pré-treinados e refinamentos arquitetônicos para melhorar o desempenho da recuperação e aumentar significativamente a precisão do ranqueamento ao responder a perguntas em árabe. O código está disponível publicamente em https://github.com/Bekhouche/APR{GitHub}.
Os dados chegam aos nossos sentidos como um fluxo contínuo, transformando-se suavemente de um instante para o próximo. Essas transformações suaves podem ser vistas como simetrias contínuas do ambiente em que habitamos, definindo relações de equivalência entre estímulos ao longo do tempo. No aprendizado de máquina, arquiteturas de redes neurais que respeitam as simetrias de seus dados são chamadas de equivariantes e apresentam benefícios comprovados em termos de capacidade de generalização e eficiência amostral. Até o momento, no entanto, a equivariância foi considerada apenas para transformações estáticas e redes feed-forward, limitando sua aplicabilidade a modelos de sequência, como redes neurais recorrentes (RNNs), e às correspondentes transformações de sequência parametrizadas no tempo. Neste trabalho, estendemos a teoria de redes equivariantes para o regime de 'fluxos' — subgrupos de Lie de um parâmetro que capturam transformações naturais ao longo do tempo, como o movimento visual. Começamos mostrando que as RNNs padrão geralmente não são equivariantes a fluxos: seus estados ocultos falham em se transformar de maneira geometricamente estruturada para estímulos em movimento. Em seguida, mostramos como a equivariância a fluxos pode ser introduzida e demonstramos que esses modelos superam significativamente suas contrapartes não equivariantes em termos de velocidade de treinamento, generalização de comprimento e generalização de velocidade, tanto na previsão do próximo passo quanto na classificação de sequências. Apresentamos este trabalho como um primeiro passo para a construção de modelos de sequência que respeitam as simetrias parametrizadas no tempo que governam o mundo ao nosso redor.
Devido às crescentes preocupações com privacidade, o "machine unlearning", que visa permitir que modelos de aprendizado de máquina "esqueçam" dados específicos de treinamento, tem recebido atenção cada vez maior. Entre os métodos existentes, o "unlearning" baseado em influência emergiu como uma abordagem proeminente devido à sua capacidade de estimar o impacto de amostras individuais de treinamento nos parâmetros do modelo sem a necessidade de retreinamento. No entanto, essa abordagem sofre com uma sobrecarga computacional proibitiva, decorrente da necessidade de calcular a matriz Hessiana e sua inversa para todas as amostras de treinamento e parâmetros, tornando-a impraticável para modelos em larga escala e cenários que envolvem solicitações frequentes de exclusão de dados. Isso destaca a dificuldade de esquecer. Inspirados pela ciência cognitiva, que sugere que memorizar é mais fácil do que esquecer, este artigo estabelece uma ligação teórica entre memorizar (aprendizado incremental) e esquecer ("unlearning"). Essa conexão permite que o "machine unlearning" seja abordado a partir da perspectiva do aprendizado incremental. Diferente dos cálculos demorados da Hessiana no "unlearning" (esquecer), o aprendizado incremental (memorizar) geralmente depende de uma otimização de gradiente mais eficiente, o que apoia a teoria cognitiva mencionada. Com base nessa conexão, introduzimos o algoritmo Influence Approximation Unlearning (IAU) para um "machine unlearning" eficiente a partir da perspectiva incremental. Avaliações empíricas extensas demonstram que o IAU alcança um equilíbrio superior entre garantia de remoção, eficiência de "unlearning" e utilidade comparável do modelo, superando métodos state-of-the-art em diversos conjuntos de dados e arquiteturas de modelos. Nosso código está disponível em https://github.com/Lolo1222/IAU.