Artigos de pesquisa em IA selecionados diariamente com traduções
O pré-treinamento de modelos de linguagem envolve o treinamento em extensos corpora, onde a qualidade dos dados desempenha um papel fundamental. Neste trabalho, buscamos estimar diretamente a contribuição dos dados durante o pré-treinamento e selecionar os dados de pré-treinamento de maneira eficiente. Especificamente, nos inspiramos em descobertas recentes que mostram que a eficiência de compressão (ou seja, a perda normalizada) de diversos modelos em determinados textos está fortemente correlacionada com seu desempenho em tarefas subsequentes, quando o domínio do texto está alinhado com o benchmark utilizado (Huang et al., 2024). Com base nessa observação, formulamos a hipótese de que os dados em que as perdas do modelo são preditivas de habilidades subsequentes também contribuem efetivamente para o aprendizado. Para aproveitar essa percepção, introduzimos a seleção de dados baseada na Força Preditiva dos dados (PreSelect), um método leve e eficiente de seleção de dados que requer o treinamento e a implantação apenas de um avaliador baseado em fastText. Por meio de experimentos abrangentes com modelos de 1B e 3B de parâmetros, demonstramos que modelos treinados com 30B de tokens selecionados com PreSelect superam o desempenho de uma linha de base padrão treinada com 300B de tokens, alcançando uma redução de 10x nos requisitos de computação. Além disso, o PreSelect supera significativamente outras linhas de base competitivas de seleção de dados, como DCLM e FineWeb-Edu, em uma escala de modelos de 3B treinados com 100B de tokens. Disponibilizamos publicamente nosso avaliador de seleção de dados treinado, juntamente com os conjuntos de dados curados, em https://github.com/hkust-nlp/PreSelect.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram desempenho notável na resolução de tarefas complexas de raciocínio por meio de mecanismos como o Chain-of-Thought (CoT), que enfatiza um raciocínio detalhado e passo a passo. No entanto, os humanos geralmente empregam uma estratégia mais eficiente: elaborar pensamentos intermediários concisos que capturam apenas informações essenciais. Neste trabalho, propomos o Chain of Draft (CoD), um novo paradigma inspirado nos processos cognitivos humanos, onde os LLMs geram saídas intermediárias de raciocínio minimalistas, porém informativas, ao resolver tarefas. Ao reduzir a verbosidade e focar em insights críticos, o CoD iguala ou supera o CoT em precisão enquanto utiliza apenas 7,6% dos tokens, reduzindo significativamente custos e latência em várias tarefas de raciocínio.
A concepção de soluções para desafios complexos de engenharia é crucial nas atividades de produção humana. No entanto, pesquisas anteriores no campo de geração aumentada por recuperação (RAG) não abordaram suficientemente tarefas relacionadas ao design de soluções complexas de engenharia. Para preencher essa lacuna, introduzimos um novo benchmark, o SolutionBench, para avaliar a capacidade de um sistema de gerar soluções completas e viáveis para problemas de engenharia com múltiplas restrições complexas. Para avançar ainda mais no design de soluções complexas de engenharia, propomos um sistema inovador, o SolutionRAG, que aproveita a exploração baseada em árvore e o mecanismo de pensamento bi-ponto para gerar soluções confiáveis. Resultados experimentais extensivos demonstram que o SolutionRAG alcança desempenho de última geração (SOTA) no SolutionBench, destacando seu potencial para aprimorar a automação e a confiabilidade do design de soluções complexas de engenharia em aplicações do mundo real.
Abordamos o problema de geração de código a partir de feedback de execução em múltiplas etapas. Os métodos existentes ou geram código sem considerar o feedback ou utilizam aprendizado por reforço hierárquico complexo para otimizar recompensas em múltiplas etapas. Propomos uma abordagem simples, porém escalável, chamada muCode, que resolve a geração de código em múltiplas etapas utilizando apenas recompensas de etapa única. Nossa principal percepção é que a geração de código é um MDP (Processo de Decisão Markoviano) recuperável em uma única etapa, onde o código correto pode ser recuperado a partir de qualquer estado intermediário de código em uma única etapa. O muCode treina iterativamente tanto um gerador para fornecer soluções de código condicionadas ao feedback de execução em múltiplas etapas quanto um verificador para pontuar o código recém-gerado. Avaliações experimentais mostram que nossa abordagem alcança melhorias significativas em relação às linhas de base state-of-the-art. Fornecemos uma análise das escolhas de design dos modelos de recompensa e da política, e demonstramos a eficácia do muCode na utilização do feedback de execução. Nosso código está disponível em https://github.com/portal-cornell/muCode.
Modelos recentes de geração de texto para imagem (T2I) alcançaram resultados notáveis ao serem treinados em conjuntos de dados em escala de bilhões, seguindo um paradigma de "quanto maior, melhor" que prioriza a quantidade de dados em detrimento da qualidade. Desafiamos esse paradigma estabelecido ao demonstrar que a ampliação estratégica de dados em conjuntos pequenos e bem curados pode igualar ou superar modelos treinados em coleções massivas extraídas da web. Utilizando apenas o ImageNet aprimorado com ampliações de texto e imagem bem projetadas, alcançamos uma pontuação geral +2 em relação ao SD-XL no GenEval e +5 no DPGBench, enquanto usamos apenas 1/10 dos parâmetros e 1/1000 das imagens de treinamento. Nossos resultados sugerem que a ampliação estratégica de dados, em vez de conjuntos de dados massivos, pode oferecer um caminho mais sustentável para a geração T2I.
Modelos de Linguagem de Grande Escala (LLMs) alcançaram proficiência em nível humano em diversas tarefas, mas sua capacidade de realizar resolução rigorosa de problemas matemáticos permanece um desafio em aberto. Neste trabalho, investigamos um problema fundamental, mas computacionalmente intratável: determinar se um dado polinômio multivariado é não negativo. Esse problema, intimamente relacionado ao Décimo Sétimo Problema de Hilbert, desempenha um papel crucial na otimização global de polinômios e tem aplicações em vários campos. Primeiro, introduzimos o SoS-1K, um conjunto de dados meticulosamente curado de aproximadamente 1.000 polinômios, juntamente com instruções de raciocínio projetadas por especialistas com base em cinco critérios progressivamente desafiadores. Avaliando múltiplos LLMs de última geração, descobrimos que, sem orientação estruturada, todos os modelos performam apenas ligeiramente acima da linha de base de adivinhação aleatória de 50%. No entanto, instruções de raciocínio de alta qualidade melhoram significativamente a precisão, impulsionando o desempenho até 81%. Além disso, nosso modelo de 7B, SoS-7B, ajustado no SoS-1K por apenas 4 horas, supera o DeepSeek-V3 de 671B e o GPT-4o-mini em precisão, enquanto requer apenas 1,8% e 5% do tempo de computação necessário para letras, respectivamente. Nossas descobertas destacam o potencial dos LLMs para expandir os limites do raciocínio matemático e enfrentar problemas NP-difíceis.
Compreender informações de documentos visualmente ricos continua sendo um desafio significativo para os métodos tradicionais de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation). Os benchmarks existentes focam predominantemente em tarefas de questionamento e resposta (QA, do inglês Question Answering) baseadas em imagens, negligenciando os desafios fundamentais de recuperação eficiente, compreensão e raciocínio dentro de documentos visuais densos. Para preencher essa lacuna, introduzimos o ViDoSeek, um novo conjunto de dados projetado para avaliar o desempenho de RAG em documentos visualmente ricos que exigem raciocínio complexo. Com base nele, identificamos limitações-chave nas abordagens atuais de RAG: (i) métodos de recuperação puramente visuais lutam para integrar efetivamente características textuais e visuais, e (ii) abordagens anteriores frequentemente alocam tokens de raciocínio insuficientes, limitando sua eficácia. Para enfrentar esses desafios, propomos o ViDoRAG, um novo framework RAG multiagente projetado para raciocínio complexo em documentos visuais. O ViDoRAG emprega uma estratégia híbrida baseada em Modelo de Mistura Gaussiana (GMM, do inglês Gaussian Mixture Model) para lidar efetivamente com a recuperação multimodal. Para aprimorar ainda mais as capacidades de raciocínio do modelo, introduzimos um fluxo de trabalho iterativo de agentes que incorpora exploração, sumarização e reflexão, fornecendo um framework para investigar a escalabilidade em tempo de teste em domínios de RAG. Experimentos extensivos no ViDoSeek validam a eficácia e a generalização da nossa abordagem. Notavelmente, o ViDoRAG supera os métodos existentes em mais de 10% no benchmark competitivo do ViDoSeek.
O aprendizado por reforço tem apresentado resultados promissores ao alcançar capacidades em nível humano ou até super-humano em diversos domínios de problemas, mas o sucesso na manipulação ágil por robôs ainda é limitado. Este trabalho investiga os principais desafios na aplicação do aprendizado por reforço para resolver uma coleção de tarefas de manipulação ricas em contato em uma plataforma humanóide. Introduzimos técnicas inovadoras para superar os desafios identificados, com validação empírica. Nossas principais contribuições incluem um módulo automatizado de ajuste de simulação para realidade que aproxima o ambiente simulado do mundo real, um esquema generalizado de design de recompensas que simplifica a engenharia de recompensas para tarefas de manipulação ricas em contato de longo horizonte, um processo de destilação de divisão e conquista que melhora a eficiência de amostragem em problemas de exploração difícil enquanto mantém o desempenho de simulação para realidade, e uma mistura de representações esparsas e densas de objetos para reduzir a lacuna de percepção entre simulação e realidade. Mostramos resultados promissores em três tarefas de manipulação ágil com humanóides, com estudos de ablação para cada técnica. Nosso trabalho apresenta uma abordagem bem-sucedida para o aprendizado de manipulação ágil com humanóides usando aprendizado por reforço de simulação para realidade, alcançando generalização robusta e alto desempenho sem a necessidade de demonstração humana.
Os modelos modernos de reconhecimento automático de fala (ASR, na sigla em inglês), como o Whisper da OpenAI, dependem de arquiteturas profundas de codificador-decodificador, e seus codificadores representam um gargalo crítico para implantação eficiente devido à alta intensidade computacional. Apresentamos o LiteASR, um esquema de compressão de baixo posto para codificadores de ASR que reduz significativamente os custos de inferência enquanto mantém a precisão na transcrição. Nossa abordagem aproveita as fortes propriedades de baixo posto observadas nas ativações intermediárias: ao aplicar a análise de componentes principais (PCA, na sigla em inglês) com um pequeno conjunto de dados de calibração, aproximamos transformações lineares com uma cadeia de multiplicações de matrizes de baixo posto e otimizamos ainda mais a auto-atenção para operar na dimensão reduzida. Os resultados da avaliação mostram que nosso método pode comprimir o tamanho do codificador do Whisper large-v3 em mais de 50%, igualando o tamanho do Whisper medium com melhor precisão na transcrição, estabelecendo assim uma nova fronteira Pareto-ótima de eficiência e desempenho. O código do LiteASR está disponível em https://github.com/efeslab/LiteASR.
A geração aumentada por recuperação (RAG) estende os grandes modelos de linguagem (LLMs) com fontes de dados externas para melhorar a correção factual e a cobertura de domínio. Os pipelines modernos de RAG dependem de grandes armazenamentos de dados, o que gera desafios de sistema em implantações sensíveis à latência, especialmente quando há memória GPU limitada disponível. Para enfrentar esses desafios, propomos o TeleRAG, um sistema de inferência eficiente que reduz a latência do RAG com requisitos mínimos de memória GPU. A inovação central do TeleRAG é a recuperação antecipada, um mecanismo de pré-busca que antecipa os dados necessários e os transfere da CPU para a GPU em paralelo com a geração do LLM. Ao aproveitar a modularidade dos pipelines de RAG, o algoritmo de busca de índice de arquivo invertido (IVF) e as similaridades entre consultas, o TeleRAG sobrepõe de forma ideal o movimento de dados e a computação. Resultados experimentais mostram que o TeleRAG reduz a latência de inferência RAG de ponta a ponta em até 1,72x em média em comparação com sistemas state-of-the-art, permitindo implantações mais rápidas e eficientes em memória de aplicações avançadas de RAG.
Modelos de fundação visual (VFMs, na sigla em inglês) têm se tornado cada vez mais populares devido ao seu desempenho de ponta. No entanto, a interpretabilidade continua sendo crucial para aplicações críticas. Nesse sentido, modelos autoexplicáveis (SEM, na sigla em inglês) visam fornecer classificadores interpretáveis que decompõem previsões em uma soma ponderada de conceitos interpretáveis. Apesar de sua promessa, estudos recentes mostraram que essas explicações frequentemente carecem de fidelidade. Neste trabalho, combinamos VFMs com uma nova arquitetura prototípica e objetivos de treinamento especializados. Ao treinar apenas uma cabeça leve (aproximadamente 1 milhão de parâmetros) sobre VFMs congelados, nossa abordagem (ProtoFM) oferece uma solução eficiente e interpretável. As avaliações demonstram que nossa abordagem alcança desempenho competitivo em classificação, superando modelos existentes em uma variedade de métricas de interpretabilidade derivadas da literatura. O código está disponível em https://github.com/hturbe/proto-fm.
Os sistemas de Geração Aumentada por Recuperação (RAG) continuam vulneráveis a respostas alucinadas, apesar de incorporarem fontes de conhecimento externas. Apresentamos o LettuceDetect, uma estrutura que aborda duas limitações críticas nos métodos existentes de detecção de alucinações: (1) as restrições da janela de contexto dos métodos tradicionais baseados em codificadores, e (2) a ineficiência computacional das abordagens baseadas em LLM. Construído sobre as capacidades de contexto estendido do ModernBERT (até 8 mil tokens) e treinado no conjunto de dados de referência RAGTruth, nossa abordagem supera todos os modelos anteriores baseados em codificadores e a maioria dos modelos baseados em prompts, sendo aproximadamente 30 vezes menor do que os melhores modelos. O LettuceDetect é um modelo de classificação de tokens que processa triplas contexto-pergunta-resposta, permitindo a identificação de afirmações não suportadas no nível do token. Avaliações no corpus RAGTruth demonstram um F1-score de 79,22% para detecção no nível de exemplo, o que representa uma melhoria de 14,8% em relação à Luna, a arquitetura baseada em codificadores anteriormente considerada estado da arte. Além disso, o sistema pode processar de 30 a 60 exemplos por segundo em uma única GPU, tornando-o mais prático para aplicações RAG do mundo real.
A crescente complexidade e o número de parâmetros das Redes Neurais Convolucionais (CNNs) e dos Transformers apresentam desafios em termos de eficiência computacional e demanda de recursos. A poda (pruning) tem sido identificada como uma estratégia eficaz para enfrentar esses desafios, removendo elementos redundantes, como neurônios, canais ou conexões, melhorando assim a eficiência computacional sem comprometer significativamente o desempenho. Este artigo se baseia no trabalho fundamental do Optimal Brain Damage (OBD), avançando a metodologia de estimativa de importância de parâmetros utilizando a matriz Hessiana. Diferentemente de abordagens anteriores que dependem de aproximações, introduzimos o Optimal Brain Apoptosis (OBA), um novo método de poda que calcula diretamente o valor do produto Hessiano-vetor para cada parâmetro. Ao decompor a matriz Hessiana em camadas da rede e identificar condições sob as quais as submatrizes Hessianas entre camadas são diferentes de zero, propomos uma técnica altamente eficiente para calcular a expansão de Taylor de segunda ordem dos parâmetros. Essa abordagem permite um processo de poda mais preciso, especialmente no contexto de CNNs e Transformers, conforme validado em nossos experimentos com VGG19, ResNet32, ResNet50 e ViT-B/16 nos conjuntos de dados CIFAR10, CIFAR100 e Imagenet. Nosso código está disponível em https://github.com/NEU-REAL/OBA.
A preensão hábil continua sendo um problema fundamental, mas desafiador, na robótica. Um robô de propósito geral deve ser capaz de agarrar diversos objetos em cenários arbitrários. No entanto, as pesquisas existentes geralmente dependem de suposições específicas, como configurações de único objeto ou ambientes limitados, resultando em generalização restrita. Nossa solução é o DexGraspVLA, uma estrutura hierárquica que utiliza um modelo de Visão-Linguagem pré-treinado como planejador de tarefas de alto nível e aprende uma política baseada em difusão como controlador de ações de baixo nível. A ideia central reside na transformação iterativa de diversas entradas de linguagem e visuais em representações invariantes ao domínio, onde o aprendizado por imitação pode ser aplicado de forma eficaz devido à mitigação da mudança de domínio. Assim, isso permite uma generalização robusta em uma ampla gama de cenários do mundo real. Notavelmente, nosso método alcança uma taxa de sucesso superior a 90% em milhares de combinações não vistas de objetos, iluminação e fundo em um ambiente "zero-shot". A análise empírica confirma ainda a consistência do comportamento interno do modelo em variações ambientais, validando nosso design e explicando seu desempenho de generalização. Esperamos que nosso trabalho possa ser um passo adiante na conquista da preensão hábil geral. Nossa demonstração e código podem ser encontrados em https://dexgraspvla.github.io/.
A aplicação de modelos de linguagem de grande escala (LLMs) para auxiliar na psicoconsulta é uma abordagem emergente e significativa, impulsionada pela lacuna significativa entre as necessidades dos pacientes e a disponibilidade de suporte em saúde mental. No entanto, os LLMs atuais enfrentam dificuldades para fornecer respostas consistentemente eficazes aos discursos dos clientes, principalmente devido à falta de supervisão de dados reais de alta qualidade em psicoconsulta, cujo conteúdo geralmente é inacessível devido a preocupações com a privacidade dos clientes. Além disso, a qualidade das respostas dos terapeutas nas sessões disponíveis pode variar significativamente com base em sua formação profissional e experiência. Avaliar a qualidade das respostas dos terapeutas continua sendo um desafio em aberto. Neste trabalho, abordamos esses desafios propondo primeiro um conjunto de princípios profissionais e abrangentes para avaliar as respostas dos terapeutas aos discursos dos clientes. Utilizando esses princípios, criamos um conjunto de dados de preferências, o PsychoCounsel-Preference, que contém 36 mil pares de comparação de preferências de alta qualidade. Esse conjunto de dados está alinhado com as preferências de psicoterapeutas profissionais, fornecendo uma base robusta para avaliar e melhorar os LLMs em psicoconsulta. Experimentos em modelagem de recompensa e aprendizado de preferências demonstram que o PsychoCounsel-Preference é um recurso excelente para que os LLMs adquiram habilidades essenciais para responder aos clientes em uma sessão de consulta. Nosso modelo melhor alinhado, o PsychoCounsel-Llama3-8B, alcança uma taxa de vitória impressionante de 87% contra o GPT-4o. Disponibilizamos o PsychoCounsel-Preference, o PsychoCounsel-Llama3-8B e o modelo de recompensa PsychoCounsel-Llama3-8B-Reward para facilitar a pesquisa em psicoconsulta com LLMs em: https://hf.co/Psychotherapy-LLM.
A atividade humana é moderada por normas. Ao realizar ações no mundo real, os seres humanos não apenas seguem normas, mas também consideram o equilíbrio entre diferentes normas. No entanto, as máquinas são frequentemente treinadas sem supervisão explícita sobre a compreensão e o raciocínio normativo, especialmente quando as normas estão fundamentadas em um contexto físico e social. Para melhorar e avaliar a capacidade de raciocínio normativo dos modelos de visão e linguagem (VLMs), apresentamos o EgoNormia |epsilon|, que consiste em 1.853 vídeos egocêntricos de interações humanas, cada um com duas questões relacionadas que avaliam tanto a previsão quanto a justificativa de ações normativas. As ações normativas abrangem sete categorias: segurança, privacidade, proxêmica, polidez, cooperação, coordenação/proatividade e comunicação/legibilidade. Para compilar esse conjunto de dados em escala, propomos um novo pipeline que aproveita a amostragem de vídeos, geração automática de respostas, filtragem e validação humana. Nosso trabalho demonstra que os modelos de visão e linguagem mais avançados atualmente carecem de uma compreensão robusta das normas, atingindo no máximo 45% no EgoNormia (em comparação com um benchmark humano de 92%). Nossa análise do desempenho em cada dimensão destaca os riscos significativos de segurança, privacidade e a falta de capacidade de colaboração e comunicação quando aplicados a agentes do mundo real. Além disso, mostramos que, por meio de um método de geração baseado em recuperação, é possível usar o EgoNormia para aprimorar o raciocínio normativo em VLMs.
Apesar dos avanços significativos na geração de imagens baseada em difusão, a geração orientada por sujeitos e a edição baseada em instruções continuam desafiadoras. Os métodos existentes geralmente tratam essas tarefas separadamente, enfrentando dificuldades com dados de alta qualidade limitados e generalização insuficiente. No entanto, ambas as tarefas exigem a captura de variações visuais complexas enquanto mantêm a consistência entre entradas e saídas. Portanto, propomos o MIGE, um framework unificado que padroniza as representações de tarefas usando instruções multimodais. Ele trata a geração orientada por sujeitos como a criação em uma tela em branco e a edição baseada em instruções como a modificação de uma imagem existente, estabelecendo uma formulação compartilhada de entrada-saída. O MIGE introduz um novo codificador multimodal que mapeia instruções multimodais de forma livre para um espaço unificado de visão e linguagem, integrando características visuais e semânticas por meio de um mecanismo de fusão de características. Essa unificação permite o treinamento conjunto de ambas as tarefas, oferecendo duas vantagens principais: (1) Melhoria Cruzada entre Tarefas: Ao aproveitar representações visuais e semânticas compartilhadas, o treinamento conjunto melhora a aderência às instruções e a consistência visual tanto na geração orientada por sujeitos quanto na edição baseada em instruções. (2) Generalização: A aprendizagem em um formato unificado facilita a transferência de conhecimento entre tarefas, permitindo que o MIGE generalize para novas tarefas composicionais, incluindo a edição orientada por sujeitos baseada em instruções. Experimentos mostram que o MIGE se destaca tanto na geração orientada por sujeitos quanto na edição baseada em instruções, estabelecendo um estado da arte na nova tarefa de edição orientada por sujeitos baseada em instruções. O código e o modelo estão disponíveis publicamente em https://github.com/Eureka-Maggie/MIGE.
Modelos Multimodais de Linguagem de Grande Escala (MLLMs) recentes têm feito grandes avanços na compreensão de vídeos. No entanto, seu desempenho em vídeos que envolvem ações humanas ainda é limitado pela falta de dados de alta qualidade. Para resolver isso, introduzimos um pipeline de anotação de dados em duas etapas. Primeiro, projetamos estratégias para acumular vídeos que apresentam ações humanas claras a partir da Internet. Em segundo lugar, os vídeos são anotados em um formato de legenda padronizado que utiliza atributos humanos para distinguir indivíduos e detalha cronologicamente suas ações e interações. Por meio desse pipeline, curamos dois conjuntos de dados, denominados HAICTrain e HAICBench. O HAICTrain compreende 126 mil pares de vídeo-legenda gerados pelo Gemini-Pro e verificados para fins de treinamento. Enquanto isso, o HAICBench inclui 500 pares de vídeo-legenda anotados manualmente e 1.400 pares de perguntas e respostas, para uma avaliação abrangente da compreensão de ações humanas. Os resultados experimentais demonstram que o treinamento com o HAICTrain não apenas melhora significativamente as habilidades de compreensão humana em 4 benchmarks, mas também pode aprimorar os resultados de geração de texto para vídeo. Tanto o HAICTrain quanto o HAICBench estão disponíveis em https://huggingface.co/datasets/KuaishouHAIC/HAIC.