Artigos de pesquisa em IA selecionados diariamente com traduções
Demonstramos que o aprendizado por reforço com recompensa verificável usando um único exemplo de treinamento (RLVR 1-shot) é eficaz para incentivar as capacidades de raciocínio matemático de modelos de linguagem de grande escala (LLMs). Aplicando RLVR ao modelo base Qwen2.5-Math-1.5B, identificamos um único exemplo que eleva o desempenho do modelo no MATH500 de 36,0% para 73,6% e melhora o desempenho médio em seis benchmarks comuns de raciocínio matemático de 17,6% para 35,7%. Esse resultado corresponde ao desempenho obtido usando o subconjunto DeepScaleR de 1,2k (MATH500: 73,6%, média: 35,9%), que inclui o exemplo mencionado. Melhorias substanciais semelhantes são observadas em vários modelos (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmos de RL (GRPO e PPO) e diferentes exemplos matemáticos (muitos dos quais proporcionam uma melhoria de aproximadamente 30% ou mais no MATH500 quando usados como um único exemplo de treinamento). Além disso, identificamos alguns fenômenos interessantes durante o RLVR 1-shot, incluindo generalização entre domínios, aumento da frequência de autorreflexão e melhoria sustentada no desempenho de teste mesmo após a precisão do treinamento ter saturado, um fenômeno que denominamos generalização pós-saturação. Adicionalmente, verificamos que a eficácia do RLVR 1-shot surge principalmente da perda de gradiente de política, distinguindo-a do fenômeno de "grokking". Também mostramos o papel crítico de promover a exploração (por exemplo, adicionando perda de entropia com um coeficiente apropriado) no treinamento de RLVR 1-shot. Como bônus, observamos que aplicar apenas a perda de entropia, sem qualquer recompensa de resultado, melhora significativamente o desempenho do Qwen2.5-Math-1.5B no MATH500 em 27,4%. Essas descobertas podem inspirar trabalhos futuros sobre a eficiência de dados em RLVR e encorajar uma reavaliação tanto do progresso recente quanto dos mecanismos subjacentes no RLVR. Nosso código, modelo e dados são de código aberto em https://github.com/ypwang61/One-Shot-RLVR.
A medição do progresso é fundamental para o avanço de qualquer campo científico. À medida que os benchmarks assumem um papel cada vez mais central, eles também se tornam mais suscetíveis a distorções. O Chatbot Arena emergiu como o principal ranking para classificar os sistemas de IA mais capazes. No entanto, neste trabalho, identificamos questões sistemáticas que resultaram em um campo de jogo distorcido. Descobrimos que práticas não divulgadas de testes privados beneficiam um pequeno grupo de provedores, que conseguem testar múltiplas variantes antes do lançamento público e retirar pontuações, se desejado. Estabelecemos que a capacidade desses provedores de escolher a melhor pontuação leva a resultados enviesados no Arena devido à divulgação seletiva de desempenho. Em um caso extremo, identificamos 27 variantes privadas de LLMs testadas pela Meta no período que antecedeu o lançamento do Llama-4. Também constatamos que modelos proprietários fechados são amostrados com maior frequência (número de batalhas) e têm menos modelos removidos do arena em comparação com alternativas de peso aberto e código aberto. Ambas as políticas resultam em grandes assimetrias de acesso a dados ao longo do tempo. Provedores como Google e OpenAI receberam, respectivamente, 19,2% e 20,4% de todos os dados do arena. Em contraste, 83 modelos de peso aberto combinados receberam apenas 29,7% do total de dados. Mostramos que o acesso aos dados do Chatbot Arena traz benefícios substanciais; mesmo dados adicionais limitados podem resultar em ganhos de desempenho relativo de até 112% na distribuição do arena, com base em nossas estimativas conservadoras. Juntas, essas dinâmicas resultam em sobreajuste a características específicas do Arena, em vez de refletir a qualidade geral do modelo. O Arena é construído sobre os esforços significativos tanto dos organizadores quanto de uma comunidade aberta que mantém essa valiosa plataforma de avaliação. Oferecemos recomendações práticas para reformar a estrutura de avaliação do Chatbot Arena e promover benchmarks mais justos e transparentes para o campo.
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) tem demonstrado um potencial significativo para melhorar a precisão factual ao fundamentar as respostas do modelo com conhecimento externo relevante para as consultas. No entanto, a maioria das abordagens existentes de RAG limita-se a um corpus exclusivamente textual, e embora esforços recentes tenham estendido o RAG para outras modalidades, como imagens e vídeos, eles geralmente operam sobre um corpus específico de uma única modalidade. Em contraste, as consultas do mundo real variam amplamente no tipo de conhecimento que exigem, o qual uma única fonte de conhecimento não pode atender. Para resolver isso, introduzimos o UniversalRAG, uma nova estrutura RAG projetada para recuperar e integrar conhecimento de fontes heterogêneas com diversas modalidades e granularidades. Especificamente, motivados pela observação de que forçar todas as modalidades em um espaço de representação unificado derivado de um único corpus combinado causa uma lacuna de modalidade, onde a recuperação tende a favorecer itens da mesma modalidade da consulta, propomos um mecanismo de roteamento consciente da modalidade que identifica dinamicamente o corpus específico da modalidade mais apropriado e realiza uma recuperação direcionada dentro dele. Além disso, além da modalidade, organizamos cada modalidade em múltiplos níveis de granularidade, permitindo uma recuperação ajustada à complexidade e ao escopo da consulta. Validamos o UniversalRAG em 8 benchmarks abrangendo múltiplas modalidades, demonstrando sua superioridade em relação a baselines específicos de modalidade e unificados.
Apresentamos o ReasonIR-8B, o primeiro retriever especificamente treinado para tarefas de raciocínio geral. Os retrievers existentes têm mostrado ganhos limitados em tarefas de raciocínio, em parte porque os conjuntos de dados de treinamento atuais focam em consultas factuais curtas vinculadas a documentos que as respondem de forma direta. Desenvolvemos um pipeline de geração de dados sintéticos que, para cada documento, cria uma consulta desafiadora e relevante, juntamente com um negativo difícil plausivelmente relacionado, mas que, no final, não é útil. Ao treinar com uma mistura de nossos dados sintéticos e dados públicos existentes, o ReasonIR-8B alcança um novo estado da arte de 29,9 nDCG@10 sem reranker e 36,9 nDCG@10 com reranker no BRIGHT, um benchmark amplamente utilizado de recuperação de informação (IR) intensivo em raciocínio. Quando aplicado a tarefas de RAG, o ReasonIR-8B melhora o desempenho no MMLU e GPQA em 6,4% e 22,6%, respectivamente, em relação à linha de base de livro fechado, superando outros retrievers e mecanismos de busca. Além disso, o ReasonIR-8B utiliza o cálculo em tempo de teste de forma mais eficaz: no BRIGHT, seu desempenho aumenta consistentemente com consultas reescritas mais longas e ricas em informação; ele continua a superar outros retrievers quando combinado com um reranker de LLM. Nossa receita de treinamento é geral e pode ser facilmente estendida para LLMs futuros; para isso, disponibilizamos nosso código, dados e modelo como open-source.
Métodos de alinhamento baseados em recompensa para grandes modelos de linguagem (LLMs) enfrentam duas limitações principais: vulnerabilidade ao "hacking de recompensa", onde os modelos exploram falhas no sinal de recompensa; e dependência de engenharia de prompts frágil e intensiva em mão de obra quando os LLMs são usados como modelos de recompensa. Introduzimos o Meta Policy Optimization (MPO), um framework que aborda esses desafios ao integrar um meta-modelo de recompensa que refina dinamicamente o prompt do modelo de recompensa durante o treinamento. No MPO, o meta-modelo de recompensa monitora o contexto de treinamento em evolução e ajusta continuamente o prompt do modelo de recompensa para manter um alto alinhamento, fornecendo um sinal de recompensa adaptativo que resiste à exploração pela política. Essa abordagem de meta-aprendizado promove uma otimização de política mais estável e reduz significativamente a necessidade de design manual de prompts de recompensa. Ela produz desempenho igual ou superior ao de modelos guiados por prompts de recompensa extensivamente elaborados manualmente. Além disso, mostramos que o MPO mantém sua eficácia em diversas tarefas, como resposta a perguntas e raciocínio matemático, sem exigir designs de recompensa especializados. Além do RLAIF padrão, a formulação de meta-aprendizado do MPO é facilmente extensível a frameworks de alinhamento de nível superior. No geral, esse método aborda desafios teóricos e práticos no alinhamento baseado em recompensa por RL para LLMs, abrindo caminho para estratégias de alinhamento mais robustas e adaptáveis. O código e os modelos serão compartilhados publicamente.
Este artigo apresenta uma abordagem eficaz para aprender novos modelos de mundo incorporados em 4D, que preveem a evolução dinâmica de cenas 3D ao longo do tempo em resposta às ações de um agente incorporado, garantindo consistência tanto espacial quanto temporal. Propomos aprender um modelo de mundo 4D treinando em vídeos RGB-DN (RGB, Profundidade e Normais). Isso não apenas supera os modelos 2D tradicionais ao incorporar detalhes de forma, configuração e mudanças temporais em suas previsões, mas também nos permite aprender com eficácia modelos dinâmicos inversos precisos para um agente incorporado. Especificamente, primeiro estendemos conjuntos de dados existentes de vídeos de manipulação robótica com informações de profundidade e normais, utilizando modelos prontos. Em seguida, ajustamos finamente um modelo de geração de vídeos nesse conjunto de dados anotado, que prevê conjuntamente RGB-DN (RGB, Profundidade e Normais) para cada quadro. Depois, apresentamos um algoritmo para converter diretamente vídeos gerados de RGB, Profundidade e Normais em uma cena 4D de alta qualidade do mundo. Nosso método garante coerência temporal e espacial nas previsões de cenas 4D a partir de cenários incorporados, permite a síntese de novas visões para ambientes incorporados e facilita o aprendizado de políticas que superam significativamente aquelas derivadas de modelos de mundo baseados em vídeo anteriores.
A edição de imagens baseada em instruções permite a modificação robusta de imagens por meio de prompts em linguagem natural, porém os métodos atuais enfrentam uma troca entre precisão e eficiência. Métodos de ajuste fino demandam recursos computacionais significativos e grandes conjuntos de dados, enquanto técnicas sem treinamento lutam com a compreensão das instruções e a qualidade das edições. Resolvemos esse dilema aproveitando a capacidade de geração aprimorada e a consciência contextual nativa do Transformador de Difusão em Larga Escala (DiT). Nossa solução introduz três contribuições: (1) um framework de edição em contexto para conformidade com instruções zero-shot usando prompts em contexto, evitando alterações estruturais; (2) uma estratégia híbrida de ajuste LoRA-MoE que aumenta a flexibilidade com adaptação eficiente e roteamento dinâmico de especialistas, sem retreinamento extensivo; e (3) um método de escalonamento de inferência com filtro inicial usando modelos de visão e linguagem (VLMs) para selecionar melhor o ruído inicial precocemente, melhorando a qualidade da edição. Avaliações extensivas demonstram a superioridade do nosso método: ele supera as abordagens state-of-the-art enquanto requer apenas 0,5% dos dados de treinamento e 1% dos parâmetros treináveis em comparação com as linhas de base convencionais. Este trabalho estabelece um novo paradigma que permite edição guiada por instruções de alta precisão e eficiente. Códigos e demonstrações podem ser encontrados em https://river-zhang.github.io/ICEdit-gh-pages/.
Propomos o X-Fusion, um framework que estende modelos de linguagem grandes (LLMs) pré-treinados para tarefas multimodais, preservando suas capacidades linguísticas. O X-Fusion emprega um design de torres duplas com pesos específicos para cada modalidade, mantendo os parâmetros do LLM congelados enquanto integra informações específicas para visão, tanto para compreensão quanto para geração. Nossos experimentos demonstram que o X-Fusion supera consistentemente arquiteturas alternativas em tarefas de imagem-para-texto e texto-para-imagem. Descobrimos que a incorporação de dados focados em compreensão melhora a qualidade da geração, a redução de ruído em dados de imagem aprimora o desempenho geral, e o alinhamento de características acelera a convergência para modelos menores, mas tem impacto mínimo em modelos maiores. Nossas descobertas fornecem insights valiosos para a construção de modelos multimodais unificados e eficientes.
O treinamento de grandes modelos de linguagem (LLMs) como agentes interativos apresenta desafios únicos, incluindo tomada de decisão de longo prazo e interação com feedback estocástico do ambiente. Embora o aprendizado por reforço (RL) tenha permitido avanços em tarefas estáticas, o treinamento de RL para agentes de múltiplas interações ainda é pouco explorado. Propomos o StarPO (State-Thinking-Actions-Reward Policy Optimization), um framework geral para RL de agentes em nível de trajetória, e introduzimos o RAGEN, um sistema modular para treinar e avaliar agentes LLM. Nosso estudo em três ambientes estilizados revela três descobertas principais. Primeiro, nosso treinamento de RL para agentes mostra um modo recorrente de "Echo Trap", onde há variações abruptas de recompensa e picos de gradiente; abordamos isso com o StarPO-S, uma variante estabilizada com filtragem de trajetória, incorporação de crítico e recorte desacoplado. Segundo, descobrimos que a modelagem de rollouts de RL se beneficiaria de estados iniciais diversos, granularidade média de interação e amostragem mais frequente. Terceiro, mostramos que, sem sinais de recompensa detalhados e conscientes do raciocínio, o raciocínio do agente dificilmente emerge através de RL de múltiplas interações, podendo apresentar estratégias superficiais ou pensamentos alucinados. Código e ambientes estão disponíveis em https://github.com/RAGEN-AI/RAGEN.
A exposição de grandes modelos de linguagem (LLMs) a material protegido por direitos autorais durante o pré-treinamento levanta preocupações sobre violações involuntárias de direitos autorais após a implantação. Isso impulsionou o desenvolvimento de métodos de "remoção de direitos autorais", abordagens pós-treinamento destinadas a impedir que os modelos gerem conteúdo substancialmente semelhante ao protegido por direitos autorais. Embora as abordagens atuais de mitigação sejam relativamente eficazes para riscos médios, demonstramos que elas negligenciam os riscos extremos de violação de direitos autorais evidenciados pela existência de citações longas e literais de fontes protegidas. Propomos o BloomScrub, uma abordagem incrivelmente simples, mas altamente eficiente, aplicada durante a inferência, que oferece uma remoção certificada de direitos autorais. Nosso método intercala repetidamente a detecção de citações com técnicas de reescrita para transformar segmentos potencialmente infratores. Ao aproveitar esboços de dados eficientes (filtros de Bloom), nossa abordagem permite uma triagem escalável de direitos autorais, mesmo para corpora em grande escala do mundo real. Quando citações além de um limite de comprimento não podem ser removidas, o sistema pode se abster de responder, oferecendo uma redução certificada de risco. Resultados experimentais mostram que o BloomScrub reduz o risco de infração, preserva a utilidade e acomoda diferentes níveis de rigor de aplicação com abstenção adaptativa. Nossos resultados sugerem que métodos leves, aplicados durante a inferência, podem ser surpreendentemente eficazes para a prevenção de violações de direitos autorais.
Grandes Modelos Multimodais (por exemplo, GPT-4, Gemini, Chameleon) evoluíram para se tornarem ferramentas poderosas com milhões de usuários. No entanto, eles permanecem modelos genéricos e carecem de conhecimento personalizado sobre conceitos específicos do usuário. Trabalhos anteriores exploraram a personalização para geração de texto, mas ainda não está claro como esses métodos podem ser adaptados a novas modalidades, como a geração de imagens. Neste artigo, apresentamos o Yo'Chameleon, a primeira tentativa de estudar a personalização para grandes modelos multimodais. Dadas 3-5 imagens de um conceito específico, o Yo'Chameleon utiliza o ajuste de soft-prompt para incorporar informações específicas do sujeito a fim de (i) responder perguntas sobre o sujeito e (ii) recriar detalhes em nível de pixel para produzir imagens do sujeito em novos contextos. O Yo'Chameleon é treinado com (i) um mecanismo de otimização de auto-prompt para equilibrar o desempenho em múltiplas modalidades e (ii) uma abordagem de geração de imagens "soft-positive" para melhorar a qualidade das imagens em um cenário de poucos exemplos.
A geração de drama espacial imersivo multimodal concentra-se na criação de fala binaural contínua com múltiplos falantes e prosódia dramática baseada em prompts multimodais, com potenciais aplicações em RA, RV e outras áreas. Essa tarefa requer a modelagem simultânea de informações espaciais e prosódia dramática com base em entradas multimodais, envolvendo altos custos de coleta de dados. Até onde sabemos, nosso trabalho é a primeira tentativa de abordar esses desafios. Construímos o MRSDrama, o primeiro conjunto de dados de drama espacial gravado multimodal, contendo áudios binaurais de drama, scripts, vídeos, poses geométricas e prompts textuais. Em seguida, propomos o ISDrama, o primeiro modelo de geração de drama espacial imersivo por meio de prompts multimodais. O ISDrama compreende os seguintes componentes principais: 1) Codificador de Pose Multimodal, baseado em aprendizado contrastivo, que considera o efeito Doppler causado por falantes em movimento para extrair informações unificadas de pose dos prompts multimodais. 2) Transformador de Drama Imersivo, um modelo mamba-transformador baseado em fluxo que gera drama de alta qualidade, incorporando o Drama-MOE para selecionar especialistas adequados para melhorar o controle de prosódia e pose. Também projetamos uma estratégia de orientação livre de classificador com consistência contextual para gerar drama completo de forma coerente. Os resultados experimentais mostram que o ISDrama supera os modelos de referência em métricas objetivas e subjetivas. As demonstrações e o conjunto de dados estão disponíveis em https://aaronz345.github.io/ISDramaDemo.
Os pipelines atuais de aprendizado por reforço com feedback humano (RLHF) para alinhamento de modelos de linguagem de grande escala (LLM) normalmente atribuem recompensas escalares a sequências, utilizando o token final como um indicador substituto para a qualidade de toda a sequência. No entanto, isso resulta em feedback esparso e atribuição de crédito em nível de token subótima. Neste trabalho, enquadramos a modelagem de recompensas como um problema de otimização focado na atribuição de crédito em nível de token. Propomos uma função de modelagem de recompensas que aproveita métodos de explicabilidade, como SHAP e LIME, para estimar recompensas por token a partir do modelo de recompensa. Para aprender os parâmetros dessa função de modelagem, empregamos um framework de otimização bilevel que integra Otimização Bayesiana e treinamento de políticas para lidar com o ruído das estimativas de recompensa por token. Nossos experimentos mostram que alcançar um melhor equilíbrio na atribuição de recompensas em nível de token leva a melhorias de desempenho em relação às baselines em tarefas subsequentes e encontra uma política ótima mais rapidamente durante o treinamento. Além disso, mostramos teoricamente que métodos de explicabilidade que são funções de atribuição aditivas de características mantêm a política ótima como a recompensa original.
Avanços recentes na Geração de Cabeças Falantes (THG) alcançaram impressionante sincronização labial e qualidade visual por meio de modelos de difusão; no entanto, os métodos existentes lutam para gerar retratos emocionalmente expressivos enquanto preservam a identidade do falante. Identificamos três limitações críticas na geração atual de cabeças falantes emocionais: utilização insuficiente das pistas emocionais inerentes ao áudio, vazamento de identidade nas representações de emoção e aprendizado isolado das correlações emocionais. Para enfrentar esses desafios, propomos uma nova estrutura denominada DICE-Talk, seguindo a ideia de desvincular identidade de emoção e, em seguida, cooperar emoções com características semelhantes. Primeiro, desenvolvemos um incorporador de emoção desvinculado que modela conjuntamente pistas emocionais áudio-visuais por meio de atenção cruzada, representando emoções como distribuições Gaussianas agnósticas à identidade. Segundo, introduzimos um módulo de condicionamento de emoção aprimorado por correlação com Bancos de Emoção aprendíveis que capturam explicitamente as relações inter-emocionais por meio de quantização vetorial e agregação de características baseada em atenção. Terceiro, projetamos um objetivo de discriminação de emoção que impõe consistência afetiva durante o processo de difusão por meio de classificação no espaço latente. Experimentos extensivos nos conjuntos de dados MEAD e HDTF demonstram a superioridade de nosso método, superando abordagens de ponta em precisão emocional enquanto mantém desempenho competitivo em sincronização labial. Resultados qualitativos e estudos de usuários confirmam ainda a capacidade de nosso método de gerar retratos que preservam a identidade com expressões emocionais ricas e correlacionadas que se adaptam naturalmente a identidades não vistas.
Investigamos o aprendizado por reforço (RL) para planejamento privilegiado em direção autônoma. As abordagens de ponta para essa tarefa são baseadas em regras, mas esses métodos não escalam para a longa cauda. O RL, por outro lado, é escalável e não sofre com erros compostos como o aprendizado por imitação. As abordagens contemporâneas de RL para direção usam recompensas complexas que somam múltiplas recompensas individuais, por exemplo, recompensas de progresso, posição ou orientação. Mostramos que o PPO falha em otimizar uma versão popular dessas recompensas quando o tamanho do mini-lote é aumentado, o que limita a escalabilidade dessas abordagens. Em vez disso, propomos um novo design de recompensa baseado principalmente na otimização de um único termo de recompensa intuitivo: conclusão da rota. Infrações são penalizadas terminando o episódio ou reduzindo multiplicativamente a conclusão da rota. Descobrimos que o PPO escala bem com tamanhos maiores de mini-lote quando treinado com nossa recompensa simples, até mesmo melhorando o desempenho. O treinamento com grandes mini-lotes permite uma escalabilidade eficiente via paralelismo de dados distribuído. Escalamos o PPO para 300M de amostras no CARLA e 500M de amostras no nuPlan com um único nó de 8 GPUs. O modelo resultante alcança 64 DS no benchmark CARLA longest6 v2, superando outros métodos de RL com recompensas mais complexas por uma grande margem. Exigindo apenas adaptações mínimas de seu uso no CARLA, o mesmo método é a melhor abordagem baseada em aprendizado no nuPlan. Ele pontua 91,3 em tráfego não reativo e 90,6 em tráfego reativo no benchmark Val14, sendo uma ordem de magnitude mais rápido que trabalhos anteriores.
Profissionais do direito, especialmente aqueles no início de suas carreiras, enfrentam tarefas complexas e de alto risco que exigem raciocínio adaptativo e sensível ao contexto. Embora a IA prometa apoiar o trabalho jurídico, os conjuntos de dados e modelos atuais são focados de maneira restrita em subtarefas isoladas e não conseguem capturar a tomada de decisão de ponta a ponta necessária na prática real. Para abordar essa lacuna, apresentamos o LawFlow, um conjunto de dados de fluxos de trabalho jurídicos completos de ponta a ponta, coletados de estudantes de direito treinados, baseados em cenários reais de formação de entidades empresariais. Diferentemente de conjuntos de dados anteriores focados em pares de entrada-saída ou cadeias lineares de pensamento, o LawFlow captura processos de raciocínio dinâmicos, modulares e iterativos que refletem a ambiguidade, revisão e estratégias adaptativas ao cliente da prática jurídica. Usando o LawFlow, comparamos fluxos de trabalho gerados por humanos e por LLMs (Large Language Models), revelando diferenças sistemáticas na estrutura, flexibilidade de raciocínio e execução de planos. Os fluxos de trabalho humanos tendem a ser modulares e adaptativos, enquanto os fluxos de trabalho de LLMs são mais sequenciais, exaustivos e menos sensíveis às implicações futuras. Nossas descobertas também sugerem que os profissionais do direito preferem que a IA desempenhe papéis de apoio, como brainstorming, identificação de pontos cegos e apresentação de alternativas, em vez de executar fluxos de trabalho complexos de ponta a ponta. Com base nessas descobertas, propomos um conjunto de sugestões de design, enraizadas em observações empíricas, que alinham a assistência da IA com os objetivos humanos de clareza, completude, criatividade e eficiência, por meio de planejamento híbrido, execução adaptativa e suporte a pontos de decisão. Nossos resultados destacam tanto as limitações atuais dos LLMs no suporte a fluxos de trabalho jurídicos complexos quanto as oportunidades para desenvolver sistemas de IA jurídica mais colaborativos e conscientes do raciocínio. Todos os dados e códigos estão disponíveis em nossa página do projeto (https://minnesotanlp.github.io/LawFlow-website/).
Sistemas de geração aumentada por recuperação (RAG) enfrentam desafios significativos na resposta a perguntas de múltiplos saltos (MHQA), onde consultas complexas exigem a síntese de informações em vários trechos de documentos. As abordagens existentes geralmente dependem de reescrita e roteamento iterativos baseados em LLM (Large Language Models), resultando em altos custos computacionais devido a invocações repetidas de LLM e processos em múltiplas etapas. Para superar essas limitações, propomos o TreeHop, um framework em nível de incorporação que dispensa o uso de LLMs no refinamento de consultas. O TreeHop atualiza dinamicamente as incorporações de consultas ao fundir informações semânticas de consultas anteriores e documentos recuperados, permitindo a recuperação iterativa apenas por meio de operações no espaço de incorporação. Esse método substitui o ciclo tradicional "Recuperar-Reescrever-Vetorizar-Recuperar" por um loop simplificado "Recuperar-Incorporar-Recuperar", reduzindo significativamente a sobrecarga computacional. Além disso, um critério de parada baseado em regras é introduzido para podar ainda mais recuperações redundantes, equilibrando eficiência e taxa de recall. Resultados experimentais mostram que o TreeHop rivaliza com métodos RAG avançados em três conjuntos de dados MHQA de domínio aberto, alcançando desempenho comparável com apenas 5%-0,4% do tamanho dos parâmetros do modelo e reduzindo a latência das consultas em aproximadamente 99% em comparação com abordagens concorrentes. Isso torna o TreeHop uma solução mais rápida e econômica para implantação em uma variedade de aplicações intensivas em conhecimento. Para fins de reprodutibilidade, códigos e dados estão disponíveis aqui: https://github.com/allen-li1231/TreeHop.
O prompting de cadeia de pensamento tem demonstrado grande sucesso em facilitar as habilidades de raciocínio de modelos de linguagem de grande escala. Neste trabalho, exploramos como essas habilidades aprimoradas de raciocínio podem ser exploradas para melhorar a robustez de modelos de linguagem de grande escala em tarefas que não são necessariamente focadas em raciocínio. Em particular, mostramos como uma ampla gama de modelos de linguagem de grande escala exibe uma melhoria significativa na robustez contra corrupção de referência usando um método simples chamado cadeia de pensamento defensivo, onde apenas alguns exemplos com raciocínio estruturado e defensivo são fornecidos como demonstrações. Empiricamente, as melhorias podem ser impressionantes, especialmente considerando a simplicidade e a aplicabilidade do método. Por exemplo, na tarefa de Natural Questions, a precisão do GPT-4o cai de 60% para apenas 3% com o prompting padrão quando 1 em 10 referências fornecidas é corrompida com ataques de injeção de prompt. Em contraste, o GPT-4o usando o prompting de cadeia de pensamento defensivo mantém uma precisão de 50%.
Esta revisão fornece uma análise sistemática de um levantamento abrangente sobre detecção de objetos 3D com modelos visão-linguagem (VLMs), uma área em rápido avanço na interseção entre visão 3D e IA multimodal. Ao examinar mais de 100 artigos de pesquisa, apresentamos a primeira análise sistemática dedicada à detecção de objetos 3D com modelos visão-linguagem. Começamos delineando os desafios únicos da detecção de objetos 3D com esses modelos, enfatizando as diferenças em relação à detecção 2D no raciocínio espacial e na complexidade dos dados. Abordagens tradicionais que utilizam nuvens de pontos e grades voxel são comparadas a frameworks modernos de visão-linguagem, como CLIP e LLMs 3D, que permitem detecção de vocabulário aberto e generalização zero-shot. Revisamos arquiteturas-chave, estratégias de pré-treinamento e métodos de engenharia de prompts que alinham características textuais e 3D para uma detecção eficaz de objetos 3D com modelos visão-linguagem. Exemplos de visualização e benchmarks de avaliação são discutidos para ilustrar o desempenho e o comportamento. Por fim, destacamos desafios atuais, como conjuntos de dados limitados de linguagem 3D e demandas computacionais, e propomos direções futuras de pesquisa para avançar a detecção de objetos 3D com modelos visão-linguagem. >Detecção de Objetos, Modelos Visão-Linguagem, Agentes, VLMs, LLMs, IA