HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

25 papers found

Não Cegue Seu VLA: Alinhando Representações Visuais para Generalização Fora da Distribuição
Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Oct 29

ByNikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov

105

O crescente sucesso dos modelos Visão-Linguagem-Ação (VLA) decorre da promessa de que os modelos de Visão-Linguagem (VLM) pré-treinados podem dotar os agentes com conhecimento do mundo transferível e fundamentação visão-linguagem (VL, do inglês *Vision-Language*), estabelecendo uma base para modelos de ação com maior capacidade de generalização. No entanto, quando esses VLMs são adaptados para a modalidade de ação, permanece incerto até que ponto suas representações e conhecimento VL originais são preservados. Neste trabalho, conduzimos um estudo sistemático da retenção de representações durante o ajuste fino (*fine-tuning*) para VLA, demonstrando que um ajuste fino de ação ingênuo leva à degradação das representações visuais. Para caracterizar e medir esses efeitos, investigamos as representações internas dos modelos VLA e analisamos mapas de atenção; além disso, projetamos um conjunto de tarefas e métodos direcionados que contrastam modelos VLA com seus equivalentes VLMs, isolando as mudanças nas capacidades VL induzidas pelo ajuste fino de ação. Avaliamos ainda uma série de estratégias para alinhar representações visuais e introduzimos um método simples, porém eficaz, que mitiga a degradação e resulta em uma melhor generalização para cenários fora da distribuição (*Out-of-Distribution*, OOD). Em conjunto, nossa análise esclarece a relação de compromisso (*trade-off*) entre o ajuste fino de ação e a degradação das representações VL e destaca abordagens práticas para recuperar as capacidades VL herdadas. O código está publicamente disponível: https://blind-vla-paper.github.io

VCode: um Benchmark de Codificação Multimodal com SVG como Representação Visual Simbólica
VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

Nov 4

ByKevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

102

O código emergiu como um meio preciso e executável para raciocínio e ação na era dos agentes. No entanto, o progresso tem-se focado largamente em tarefas centradas na linguagem, como síntese e depuração de programas, deixando a codificação centrada no visual pouco explorada. Inspirados pela forma como os humanos raciocinam sobre esboços, defendemos o código SVG como uma representação visual compacta, interpretável e executável. Apresentamos o VCode, um benchmark que reformula a compreensão multimodal como geração de código: dada uma imagem, um modelo deve produzir SVG que preserve o significado simbólico para raciocínio subsequente. O VCode abrange três domínios - senso comum geral (MM-Vet), disciplinas profissionais (MMMU) e perceção centrada no visual (CV-Bench). Para avaliar a fidelidade simbólica, propomos o CodeVQA, um protocolo de avaliação inovador no qual um modelo de política responde a perguntas sobre SVGs renderizados; respostas corretas indicam uma preservação simbólica fiel. Empiricamente, os VLMs de vanguarda lutam para gerar SVGs fiéis, revelando uma lacuna persistente entre a codificação centrada na linguagem e a centrada no visual. Para colmatar esta lacuna, introduzimos o VCoder, uma estrutura agentiva que aumenta os VLMs ao longo de dois eixos: (i) Pensar com Revisão, que analisa iterativamente discrepâncias e refina o código SVG; e (ii) Agir com Ferramentas Visuais, onde detetores e analisadores fornecem pistas estruturadas, como objetos, formas e texto, para além da capacidade intrínseca do modelo. Nos benchmarks, os VLMs de vanguarda com fortes capacidades de raciocínio pontuam bem no geral, mas permanecem limitados em conhecimento profissional e raciocínio 3D. O VCoder proporciona um ganho geral de 12,3 pontos sobre o Claude-4-Opus, o modelo de melhor desempenho. Estudos humanos mostram que tanto humanos como VLMs têm pior desempenho em SVGs renderizados; a sua consistência revela a promessa da representação visual simbólica. O benchmark e o código estão disponíveis em https://github.com/CSU-JPG/VCode.

Quando a Visualização é o Primeiro Passo para o Raciocínio: MIRA, um Benchmark para Cadeia de Pensamento Visual
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Nov 4

ByYiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye

Propomos o MIRA, um novo benchmark projetado para avaliar modelos em cenários onde a geração de imagens visuais intermediárias é essencial para o raciocínio bem-sucedido. Diferente dos métodos tradicionais de Cadeia de Pensamento (CoT) que dependem exclusivamente de texto, as tarefas no MIRA exigem que os modelos gerem e utilizem imagens intermediárias - como esboços, diagramas estruturais ou desenhos de trajetórias - para orientar seu processo de raciocínio. Essa configuração espelha de perto como os humanos resolvem problemas complexos por meio do "desenhar para pensar". Para resolver isso, o MIRA concentra-se em tarefas intrinsecamente desafiadoras e que envolvem estruturas complexas, relações espaciais ou etapas de raciocínio difíceis de expressar apenas por linguagem. Para garantir que nossos dados de avaliação sejam de alta qualidade, incluímos 546 problemas multimodais, anotados com imagens visuais intermediárias e respostas finais. Também propomos um protocolo de avaliação unificado para o MIRA que abrange três níveis de entrada de avaliação: entrada direta (apenas com imagem e pergunta), entrada CoT apenas textual (com imagem e prompts de pensamento) e entrada CoT Visual (com pistas de imagem anotadas e prompts de pensamento textuais). Para investigar o limite superior da capacidade do modelo em nosso benchmark, também relatamos as acurácias pass@k e de votação majoritária sob diferentes configurações de k. Os resultados experimentais mostram que os modelos de linguagem grandes multimodais existentes, incluindo os modelos privados mais fortes, bem como modelos de pesos abertos robustos, têm desempenho ruim ao depender apenas de prompts textuais. No entanto, quando pistas visuais intermediárias são fornecidas, o desempenho do modelo melhora consistentemente, resultando em um ganho relativo médio de 33,7% em todos os modelos e tarefas. Também investigamos o limite superior expandindo o espaço de busca e projetando prompts textuais alinhados com o CoT Visual, mas ambas as abordagens produzem apenas melhorias limitadas em comparação com nossa configuração de CoT Visual. Esses resultados ressaltam o papel crítico da informação visual imaginada para permitir um raciocínio bem-sucedido no MIRA.

Relatório Técnico do Step-Audio-EditX
Step-Audio-EditX Technical Report

Nov 5

ByChao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu

Apresentamos o Step-Audio-EditX, o primeiro modelo de áudio baseado em LLM de código aberto que se destaca na edição de áudio expressiva e iterativa, abrangendo emoção, estilo de fala e paralinguística, juntamente com robustas capacidades de conversão de texto em fala (TTS) zero-shot. Nossa principal inovação reside na utilização exclusiva de dados sintéticos de grande margem, o que dispensa a necessidade de prévias baseadas em *embeddings* ou módulos auxiliares. Esta abordagem de aprendizado de grande margem permite tanto o controle iterativo quanto a alta expressividade entre vozes, e representa uma mudança fundamental em relação ao foco convencional no desacoplamento em nível de representação. Os resultados da avaliação demonstram que o Step-Audio-EditX supera tanto o MiniMax-2.6-hd quanto o Doubao-Seed-TTS-2.0 em tarefas de edição de emoção e outras tarefas de controle de granularidade fina.

Quando as Modalidades Entram em Conflito: Como a Incerteza do Raciocínio Unimodal Governa a Dinâmica de Preferências em MLLMs
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Nov 4

ByZhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu

Os modelos de linguagem grandes multimodais (MLLMs) devem resolver conflitos quando diferentes modalidades fornecem informações contraditórias, um processo que denominamos de seguimento de modalidade. Trabalhos anteriores mediram este comportamento apenas com estatísticas grosseiras a nível de conjunto de dados, negligenciando a influência da confiança do modelo no raciocínio unimodal. Neste artigo, introduzimos um novo quadro conceptual que decompõe o seguimento de modalidade em dois fatores fundamentais: a incerteza relativa do raciocínio (o diferencial de confiança específico do caso entre as previsões unimodais) e a preferência modal inerente (um viés estável do modelo quando as incertezas estão equilibradas). Para validar este quadro, construímos um conjunto de dados controlável que varia sistematicamente a dificuldade de raciocínio dos inputs visuais e textuais. Utilizando a entropia como uma métrica de incerteza de granularidade fina, descobrimos uma lei universal: a probabilidade de seguir uma modalidade diminui monotonicamente à medida que a sua incerteza relativa aumenta. No nível de dificuldade relativa em que o modelo tende a seguir ambas as modalidades com probabilidade comparável – o que chamamos de ponto de equilíbrio –, encontramos um indicador prático da preferência inerente do modelo. Ao contrário das razões macro tradicionais, esta medida oferece uma forma mais fundamentada e menos confundida de caracterizar o viés modal, separando-o das capacidades unimodais e de artefactos do conjunto de dados. Adicionalmente, ao sondar previsões por camadas, revelamos o mecanismo interno de oscilação: em regiões ambíguas próximas do ponto de equilíbrio, os modelos vacilam entre modalidades ao longo das camadas, explicando a indecisão observada externamente. Em conjunto, estes resultados estabelecem a incerteza relativa e a preferência inerente como os dois princípios regentes do seguimento de modalidade, oferecendo tanto um quadro quantitativo como uma perceção mecanicista de como os MLLMs resolvem informações conflituosas.

A Lacuna de Colaboração
The Collaboration Gap

Nov 4

ByTim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar

A trajetória do desenvolvimento da IA sugere que iremos depender cada vez mais de sistemas baseados em agentes, compostos por agentes desenvolvidos de forma independente, com diferentes informações, privilégios e ferramentas. O sucesso destes sistemas dependerá criticamente de uma colaboração eficaz entre estes agentes heterogêneos, mesmo sob observabilidade parcial. Apesar do intenso interesse, poucos estudos empíricos avaliaram tal colaboração agente-agente em larga escala. Propomos um benchmark colaborativo de resolução de labirintos que (i) isola as capacidades colaborativas, (ii) modula a complexidade do problema, (iii) permite uma avaliação automatizada escalável e (iv) não impõe restrições de formato de saída, preservando a plausibilidade ecológica. Utilizando este quadro de avaliação, avaliamos 32 dos principais modelos *open-source* e proprietários em configurações individuais, homogéneas e heterogéneas. Os nossos resultados revelam uma "lacuna de colaboração": modelos com bom desempenho individual degradam-se substancialmente quando obrigados a colaborar. A colaboração pode falhar drasticamente; por exemplo, pequenos modelos destilados que resolvem labirintos sozinhos podem falhar quase completamente em certos pares. Descobrimos que começar com o agente mais forte frequentemente melhora os resultados, motivando uma abordagem de "inferência por revezamento" onde o agente mais forte lidera antes de passar a tarefa para o mais fraco, fechando grande parte da lacuna. As nossas descobertas defendem (1) uma avaliação consciente da colaboração, (2) estratégias de treino desenvolvidas para melhorar as capacidades colaborativas, e (3) um design de interação que elicie de forma confiável as competências latentes dos agentes, orientações que se aplicam tanto à colaboração IA-IA como humano-IA.

Mais Curto, mas Não Pior: Raciocínio Económico via Amostras Fáceis como Regularizadores de Comprimento no RLVR Matemático
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

Nov 2

ByAbdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang

Modelos de linguagem grandes (LLMs) treinados para raciocínio passo a passo frequentemente tornam-se excessivamente verbosos, aumentando o custo de inferência. Os fluxos padrão de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) filtram problemas "fáceis" para eficiência de treinamento, deixando o modelo treinar principalmente em problemas mais difíceis que exigem cadeias de raciocínio mais longas. Isso distorce a distribuição do comprimento da saída para cima, resultando em um modelo que confunde "pensar por mais tempo" com "pensar melhor". Neste trabalho, mostramos que reter e ponderar moderadamente problemas moderadamente fáceis atua como um regularizador implícito de comprimento. Expor o modelo a tarefas solucionáveis de cadeia curta restringe sua distribuição de saída e evita a verbosidade descontrolada. O resultado é uma **brevidade emergente gratuita**: o modelo aprende a resolver problemas mais difíceis sem inflacionar o comprimento da saída, apesar da ausência de qualquer penalização explícita de comprimento. Experimentos RLVR usando esta abordagem no Qwen3-4B-Thinking-2507 (com limite de 16k tokens) alcançam a precisão pass@1 de linha de base AIME25 enquanto geram soluções que são, em média, quase duas vezes mais curtas. O código está disponível em https://github.com/MBZUAI-Paris/Frugal-AI, com conjuntos de dados e modelos em https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc.

Brain-IT: Reconstrução de Imagens a partir de fMRI via Transformador de Interação Cerebral
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Oct 29

ByRoman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani

A reconstrução de imagens visualizadas por pessoas a partir dos seus registos de fMRI cerebral fornece uma janela não invasiva para o cérebro humano. Apesar dos progressos recentes possibilitados pelos modelos de difusão, os métodos atuais frequentemente carecem de fidelidade às imagens realmente visualizadas. Apresentamos "Brain-IT", uma abordagem inspirada no cérebro que enfrenta este desafio através de um *Brain Interaction Transformer* (BIT), permitindo interações eficazes entre aglomerados de voxels cerebrais funcionalmente semelhantes. Estes aglomerados funcionais são partilhados por todos os sujeitos, servindo como blocos de construção para integrar informação tanto dentro como entre cérebros. Todos os componentes do modelo são partilhados por todos os aglomerados e sujeitos, permitindo um treino eficiente com uma quantidade limitada de dados. Para orientar a reconstrução da imagem, o BIT prevê duas características de imagem localizadas a nível de *patch*, complementares: (i) características semânticas de alto nível que direcionam o modelo de difusão para o conteúdo semântico correto da imagem; e (ii) características estruturais de baixo nível que ajudam a inicializar o processo de difusão com o *layout* grosseiro correto da imagem. O desenho do BIT permite o fluxo direto de informação dos aglomerados de voxels cerebrais para características de imagem localizadas. Através destes princípios, o nosso método alcança reconstruções de imagens a partir de fMRI que reconstroem fielmente as imagens visualizadas, e supera as abordagens atuais do estado da arte tanto visualmente como por métricas objetivas padrão. Além disso, com apenas 1 hora de dados de fMRI de um novo sujeito, alcançamos resultados comparáveis aos métodos atuais treinados com registos completos de 40 horas.

A Entrada Visual Pode Ser Comprimida? Um Benchmark de Compressão de Tokens Visuais para Grandes Modelos Multimodais
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

Nov 4

ByTianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui

Os grandes modelos multimodais (LMMs) frequentemente sofrem de severa ineficiência inferencial devido ao grande número de *tokens* visuais introduzidos pelos codificadores de imagem. Embora métodos recentes de compressão de *tokens*, como poda (*pruning*) e fusão (*merging*), tenham mostrado potencial na redução de redundâncias, a sua avaliação permanece fragmentada e inconsistente. Neste trabalho, apresentamos o UniPruneBench, um *benchmark* unificado e extensível para a poda de *tokens* visuais em *LLMs* multimodais. O UniPruneBench fornece protocolos padronizados em seis dimensões de capacidade e dez conjuntos de dados, abrangendo dez algoritmos de compressão representativos e três famílias de LMMs (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Para além da precisão da tarefa, incorpora métricas de nível de sistema, como tempo de execução e latência de pré-preenchimento, para fornecer uma visão holística. As nossas experiências revelam várias conclusões-chave: (1) a poda aleatória é uma linha de base surpreendentemente robusta, (2) nenhum método único supera consistentemente os outros em todos os cenários, (3) a sensibilidade à poda varia significativamente entre tarefas, sendo o OCR o mais vulnerável, e (4) a taxa de poda é o fator dominante que governa a degradação do desempenho. Acreditamos que o UniPruneBench servirá como uma base confiável para futuras pesquisas sobre modelagem multimodal eficiente.

CodeClash: Avaliação Comparativa de Engenharia de Software Orientada a Objetivos
CodeClash: Benchmarking Goal-Oriented Software Engineering

Nov 2

ByJohn Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang

Os benchmarks atuais para codificação avaliam modelos de linguagem (LMs) em tarefas concretas e bem especificadas, como corrigir bugs específicos ou escrever testes direcionados. No entanto, programadores humanos não passam o dia todo a resolver incessantemente tarefas isoladas. Pelo contrário, o desenvolvimento de software no mundo real está ancorado na prossecução de objetivos de alto nível, como melhorar a retenção de utilizadores ou reduzir custos. Avaliar se os LMs também podem desenvolver código de forma iterativa para melhor cumprir objetivos abertos, sem qualquer orientação explícita, continua a ser um desafio em aberto. Para resolver isto, apresentamos o CodeClash, um benchmark onde os LMs competem em torneios de várias rondas para construir a melhor base de código para alcançar um objetivo competitivo. Cada ronda decorre em duas fases: os agentes editam o seu código e, em seguida, as suas bases de código competem diretamente numa arena de código que determina os vencedores com base em objetivos como maximização de pontuação, aquisição de recursos ou sobrevivência. Quer seja a escrever notas, a examinar documentação, a analisar registos de competição ou a criar conjuntos de testes, os modelos devem decidir por si próprios como melhorar as suas bases de código, tanto em termos absolutos como face aos seus oponentes. Executámos 1680 torneios (25.200 rondas no total) para avaliar 8 LMs em 6 arenas. Os nossos resultados revelam que, embora os modelos exibam estilos de desenvolvimento diversos, partilham limitações fundamentais no raciocínio estratégico. Os modelos também lutam com a manutenção a longo prazo da base de código, uma vez que os repositórios se tornam progressivamente confusos e redundantes. Estas limitações são severas: os melhores modelos perdem todas as rondas contra programadores humanos especializados. Disponibilizamos o CodeClash como código aberto para avançar o estudo do desenvolvimento de código autónomo e orientado a objetivos.

TWIST2: Sistema Escalável, Portátil e Holístico de Coleta de Dados para Humanoides
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

Nov 4

ByYanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu

Dados em larga escala têm impulsionado avanços na robótica, desde modelos de linguagem até modelos visão-linguagem-ação na manipulação bimanual. No entanto, a robótica humanóide carece de estruturas de coleta de dados igualmente eficazes. Os sistemas de teleoperação humanóide existentes utilizam controle desacoplado ou dependem de configurações caras de captura de movimento. Apresentamos o TWIST2, um sistema portátil e livre de mocap para teleoperação e coleta de dados de humanoides que preserva o controle integral do corpo enquanto avança a escalabilidade. Nosso sistema aproveita o PICO4U VR para obter movimentos humanos integrais em tempo real, com um pescoço robótico personalizado de 2 graus de liberdade (custo aproximado de US$ 250) para visão egocêntrica, permitindo um controle holístico de humano para humanoide. Demonstramos habilidades humanoides dextras e móveis de longo horizonte e podemos coletar 100 demonstrações em 15 minutos com uma taxa de sucesso de quase 100%. Com base neste pipeline, propomos uma estrutura de política visuomotora hierárquica que controla autônoma e integralmente o corpo humanoide com base na visão egocêntrica. Nossa política visuomotora demonstra com sucesso tarefas de manipulação ágil integral e chutes dinâmicos. Todo o sistema é totalmente reproduzível e de código aberto em https://yanjieze.com/TWIST2. Nosso conjunto de dados coletado também é de código aberto em https://twist-data.github.io.

RoboChallenge: Avaliação em Larga Escala de Políticas Corporificadas em Robôs Reais
RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

Oct 20

ByAdina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan

A testagem em máquinas reais é indispensável para algoritmos de controle robótico. No contexto de algoritmos baseados em aprendizagem, especialmente modelos VLA, a demanda por avaliação em larga escala - ou seja, testar um grande número de modelos em uma grande variedade de tarefas - torna-se cada vez mais urgente. No entanto, executar este processo adequadamente é altamente complexo, especialmente quando são considerados a escalabilidade e a reprodutibilidade. Neste relatório, descrevemos nossa metodologia para construir o RoboChallenge, um sistema de avaliação online para testar algoritmos de controle robótico, e nosso levantamento dos modelos VLA state-of-the-art recentes utilizando nossa métrica inicial Table30.

LTD-Bench: Avaliando Modelos de Linguagem de Grande Porte Permitindo que Eles Desenhem
LTD-Bench: Evaluating Large Language Models by Letting Them Draw

Nov 4

ByLiuhao Lin, Ke Li, Zihan Xu, Yuchen Shi, Yulei Qin, Yan Zhang, Xing Sun, Rongrong Ji

Os paradigmas atuais de avaliação de modelos de linguagem de grande porte (LLMs) representam um ponto cego crítico na pesquisa de IA – baseando-se em métricas numéricas opacas que ocultam limitações fundamentais no raciocínio espacial, sem fornecer qualquer compreensão intuitiva das capacidades dos modelos. Esta deficiência cria uma desconexão perigosa entre o desempenho reportado e as habilidades práticas, particularmente para aplicações que exigem compreensão do mundo físico. Apresentamos o LTD-Bench, um benchmark revolucionário que transforma a avaliação de LLMs de pontuações abstratas para saídas visuais diretamente observáveis, exigindo que os modelos gerem desenhos através de matrizes de pontos ou código executável. Esta abordagem torna as limitações do raciocínio espacial imediatamente aparentes, mesmo para não especialistas, preenchendo a lacuna fundamental entre o desempenho estatístico e a avaliação intuitiva. O LTD-Bench implementa uma metodologia abrangente com tarefas complementares de geração (testando a imaginação espacial) e de reconhecimento (avaliando a perceção espacial) em três níveis de dificuldade progressivamente desafiadores, avaliando metodicamente ambas as direções do mapeamento crítico linguagem-espaço. As nossas experiências extensivas com modelos de última geração expõem uma lacuna de capacidades alarmante: mesmo LLMs que alcançam resultados impressionantes em benchmarks tradicionais demonstram deficiências profundas no estabelecimento de mapeamentos bidirecionais entre linguagem e conceitos espaciais – uma limitação fundamental que compromete o seu potencial como modelos genuínos do mundo. Adicionalmente, as saídas visuais do LTD-Bench permitem uma poderosa análise de diagnóstico, oferecendo uma abordagem potencial para investigar a similaridade entre modelos.

RiddleBench: Um Novo Benchmark de Raciocínio Generativo para LLMs
RiddleBench: A New Generative Reasoning Benchmark for LLMs

Oct 28

ByDeepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre

Os Modelos de Linguagem de Grande Porte demonstraram um forte desempenho em muitos benchmarks de raciocínio estabelecidos. No entanto, estes benchmarks avaliam principalmente competências estruturadas, como a resolução quantitativa de problemas, deixando uma lacuna na avaliação de capacidades de raciocínio flexíveis e multifacetadas que são centrais para a inteligência humana. Estas capacidades requerem a integração da dedução lógica com a perceção espacial e a satisfação de restrições, aspetos que as avaliações atuais não medem bem. Para colmatar esta lacuna, apresentamos o RiddleBench, um benchmark composto por 1.737 puzzles desafiadores em inglês, concebido para sondar estas capacidades fundamentais de raciocínio. A avaliação de modelos de última geração no RiddleBench revela fraquezas fundamentais. Mesmo os principais modelos proprietários, como o Gemini 2.5 Pro, o o3 e o Claude 4 Sonnet, atingem uma precisão pouco acima de 60% (60,30%, 63,37% e 63,16%, respetivamente). A análise revela ainda falhas profundas, incluindo cascatas de alucinação (aceitação de raciocínios falhos de outros modelos) e uma fraca capacidade de autocorreção devido a um forte viés de autoconfirmação. O seu raciocínio é também frágil, com o desempenho a degradar-se significativamente quando as restrições são reordenadas ou é introduzida informação irrelevante. O RiddleBench funciona como uma ferramenta de diagnóstico para estas questões e como um recurso para orientar o desenvolvimento de modelos de linguagem mais robustos e fiáveis.

Relatório Técnico iFlyBot-VLA
iFlyBot-VLA Technical Report

Nov 1

ByYuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan

Apresentamos o iFlyBot-VLA, um modelo de grande escala Visão-Linguagem-Ação (VLA) treinado sob uma nova estrutura. As principais contribuições são listadas a seguir: (1) um modelo de ação latente treinado minuciosamente em vídeos de manipulação humana e robótica em grande escala; (2) uma estrutura de representação de ação de duplo nível que supervisiona conjuntamente tanto o Modelo de Visão-Linguagem (VLM) quanto o especialista em ação durante o treinamento; (3) uma estratégia de treinamento misto que combina dados de trajetória robótica com conjuntos de dados de QA geral e QA espacial, aprimorando efetivamente as capacidades de percepção 3D e raciocínio da espinha dorsal do VLM. Especificamente, o VLM é treinado para prever duas formas complementares de ações: ações latentes, derivadas do nosso modelo de ação latente pré-treinado em dados de manipulação de embodimento cruzado, que capturam intenções de alto nível implícitas; e tokens de ação discretos estruturados, obtidos por meio de transformações no domínio da frequência de sinais de controle contínuos, que codificam dinâmicas de baixo nível explícitas. Esta supervisão dupla alinha os espaços de representação da linguagem, visão e ação, permitindo que o VLM contribua diretamente para a geração de ações. Resultados experimentais no benchmark LIBERO Franka demonstram a superioridade de nossa estrutura, enquanto avaliações no mundo real mostram ainda que o iFlyBot-VLA alcança taxas de sucesso competitivas em diversas tarefas de manipulação desafiadoras. Além disso, planejamos disponibilizar como código aberto uma parte do nosso conjunto de dados autoconstruído para apoiar pesquisas futuras na comunidade.

Esqueça o BIT, Tudo se Resume ao TOKEN: Rumo a uma Teoria da Informação Semântica para LLMs
Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Nov 3

ByBo Bai

Os modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em inúmeras aplicações do mundo real. Embora a grande maioria das pesquisas conduzidas a partir de uma perspectiva experimental esteja progredindo rapidamente, ela demanda poder computacional substancial, dados e outros recursos. Portanto, como abrir a caixa-preta dos LLMs do ponto de vista teórico tornou-se um desafio crítico. Este artigo toma a teoria da função taxa-distorção, informação direcionada e causalidade de Granger como ponto de partida para investigar os princípios da teoria da informação por trás dos LLMs, levando ao desenvolvimento de uma teoria da informação semântica para LLMs, onde a unidade fundamental é o *token*, e não os *bits* que carecem de qualquer significado semântico. Ao definir o modelo probabilístico dos LLMs, discutimos medidas da teoria da informação agnósticas à estrutura, como a função taxa-distorção direcionada no pré-treinamento, a função taxa-recompensa direcionada no pós-treinamento e o fluxo de informação semântica na fase de inferência. Este artigo também se aprofunda na teoria da incorporação semântica a nível de *token* e no método de vetorização ótimo do ponto de vista da teoria da informação. A partir daí, propomos uma definição geral de LLM autoregressivo, onde a arquitetura Transformer e seu desempenho, como ELBO, limite de erro de generalização, capacidade de memória e medidas de informação semântica, podem ser derivados teoricamente. Outras arquiteturas, como Mamba/Mamba2 e LLaDA, também são discutidas em nossa estrutura. Consequentemente, este artigo fornece uma estrutura teórica para compreender os LLMs a partir da perspectiva da teoria da informação semântica, o que também oferece as ferramentas teóricas necessárias para pesquisas aprofundadas futuras.

ChartM^3: Um Pipeline Orientado a Código em Múltiplos Estágios para Construção de Dados de Raciocínio Visual Multidimensionais e Multiestágios em Compreensão de Gráficos
ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Nov 4

ByDuo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang

Tarefas complexas de compreensão de gráficos exigem capacidades avançadas de reconhecimento visual e raciocínio de modelos de linguagem multimodal (MLLMs). No entanto, as pesquisas atuais oferecem cobertura limitada de cenários complexos de gráficos e tarefas de raciocínio computacionalmente intensas prevalentes em aplicações do mundo real. Este estudo propõe um pipeline automatizado multiestágio orientado por código para gerar sistematicamente conjuntos de dados de raciocínio visual a fim de abordar essas limitações. O pipeline integra geração aumentada por recuperação (RAG) para recuperar modelos profissionais de gráficos e emprega estratégias de cadeia de pensamento (CoT) para gerar códigos de raciocínio que simulam distribuições de dados reais, impulsionando assim a renderização de gráficos e os cálculos estatísticos relacionados às perguntas. Por meio de avaliação baseada em modelo, o pipeline melhora a diversidade de gráficos e a qualidade dos dados. Utilizando este framework, construímos o ChartM³, um conjunto de dados multidimensional e multiestágio contendo 38 mil gráficos e 142 mil pares de perguntas e respostas para treinamento, juntamente com 2.871 amostras de avaliação de alta qualidade para permitir uma avaliação de desempenho prática. Experimentos de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) demonstram que nosso conjunto de dados melhora significativamente as capacidades de raciocínio e o desempenho de generalização cross-domain, permitindo que modelos menores alcancem desempenho comparável a modelos de maior escala na compreensão de gráficos complexos.

VidEmo: Raciocínio por Árvore Afetiva para Modelos de Base em Vídeo Centrados na Emoção
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

Nov 4

ByZhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

A compreensão e previsão de emoções em vídeos tem recebido atenção significativa em estudos recentes, impulsionada pelos avanços nos modelos de linguagem de grande escala para vídeo (VideoLLMs). Embora métodos avançados tenham progredido na análise de emoções em vídeo, a natureza intrínseca das emoções impõe desafios significativos. As emoções são caracterizadas por propriedades dinâmicas e dependentes de pistas, tornando difícil compreender estados emocionais complexos e em evolução com uma fundamentação razoável. Para enfrentar esses desafios, propomos uma nova estrutura de raciocínio guiada por pistas afetivas que unifica a percepção de atributos fundamentais, a análise de expressão e a compreensão emocional de alto nível de forma escalonada. O cerne da nossa abordagem é uma família de modelos fundamentais de emoção em vídeo (VidEmo), especificamente concebida para raciocínio emocional e seguimento de instruções. Estes modelos passam por um processo de ajuste em duas etapas: primeiro, uma aprendizagem emocional curricular para injetar conhecimento sobre emoções, seguida por uma aprendizagem por reforço com árvore afetiva para raciocínio emocional. Além disso, estabelecemos uma infraestrutura de dados fundamental e introduzimos um conjunto de dados granular centrado em emoções (Emo-CFG) composto por 2,1 milhões de amostras diversificadas baseadas em instruções. O Emo-CFG inclui questionários emocionais explicativos, legendas granulares e racionalizações associadas, fornecendo recursos essenciais para o avanço de tarefas de compreensão emocional. Resultados experimentais demonstram que a nossa abordagem alcança um desempenho competitivo, estabelecendo um novo marco em 15 tarefas de percepção facial.

AyurParam: Um Modelo de Linguagem Bilíngue de Última Geração para Ayurveda
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

Nov 4

ByMohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan

Os grandes modelos de linguagem atuais se destacam em tarefas amplas e de propósito geral, mas apresentam desempenho consistentemente inferior quando expostos a domínios altamente especializados que exigem profunda expertise cultural, linguística e temática. Em particular, sistemas médicos tradicionais como o Ayurveda incorporam séculos de conhecimento textual e clínico nuances que os LLMs convencionais não conseguem interpretar ou aplicar com precisão. Apresentamos o AyurParam-2.9B, um modelo de linguagem bilíngue e especializado em domínio, refinado a partir do Param-1-2.9B usando um extenso conjunto de dados de Ayurveda criteriosamente curado por especialistas, abrangendo textos clássicos e orientações clínicas. O conjunto de dados do AyurParam incorpora Q&A contextual, de raciocínio e no estilo objetivo em inglês e hindi, com protocolos rigorosos de anotação para precisão factual e clareza instrucional. Avaliado no BhashaBench-Ayur, o AyurParam não apenas supera todos os modelos de código aberto ajustados por instrução em sua classe de tamanho (1,5–3B de parâmetros), mas também demonstra desempenho competitivo ou superior em comparação com modelos muito maiores. Os resultados do AyurParam destacam a necessidade de uma adaptação de domínio autêntica e supervisão de alta qualidade para oferecer IA confiável e culturalmente congruente para conhecimentos médicos especializados.

CÉREBROS: Um Sistema Aumentado por Recuperação para Detecção e Monitoramento da Doença de Alzheimer
BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring

Nov 4

ByRajan Das Gupta, Md Kishor Morol, Nafiz Fahad, Md Tanzib Hosain, Sumaya Binte Zilani Choya, Md Jakir Hossen

À medida que a carga global da doença de Alzheimer (DA) continua a crescer, a deteção precoce e precisa tornou-se cada vez mais crítica, especialmente em regiões com acesso limitado a ferramentas de diagnóstico avançadas. Propomos o BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) para enfrentar este desafio. Este sistema inovador aproveita as poderosas capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) para a deteção e monitorização da doença de Alzheimer. O BRAINS apresenta uma arquitetura de duplo módulo: um módulo de diagnóstico cognitivo e um módulo de recuperação de casos. O Módulo de Diagnóstico utiliza LLMs afinados com conjuntos de dados cognitivos e de neuroimagem — incluindo escores MMSE, escores CDR e métricas de volume cerebral — para realizar avaliações estruturadas do risco de Alzheimer. Entretanto, o Módulo de Recuperação de Casos codifica os perfis dos pacientes em representações latentes e recupera casos semelhantes de uma base de conhecimento curada. Estes casos auxiliares são fundidos com o perfil de entrada através de uma Camada de Fusão de Casos para melhorar a compreensão contextual. A representação combinada é então processada com *prompts* clínicos para inferência. Avaliações em conjuntos de dados do mundo real demonstram a eficácia do BRAINS na classificação da gravidade da doença e na identificação de sinais precoces de declínio cognitivo. Este sistema não só mostra um forte potencial como ferramenta auxiliar para uma deteção escalável, explicável e em fase inicial da doença de Alzheimer, como também oferece esperança para futuras aplicações neste campo.

LiveSecBench：面向中文语境大语言模型的动态文化相关AI安全基准测试
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

Nov 4

ByYudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang

Neste trabalho, propomos o LiveSecBench, um benchmark de segurança dinâmico e continuamente atualizado, especificamente desenvolvido para cenários de aplicação de LLMs em língua chinesa. O LiveSecBench avalia os modelos em seis dimensões críticas (Legalidade, Ética, Factualidade, Privacidade, Robustez Adversarial e Segurança no Raciocínio) fundamentadas nos quadros legais e sociais chineses. Este benchmark mantém a relevância através de um cronograma de atualização dinâmica que incorpora novos vetores de ameaça, como a inclusão planejada da Segurança na Geração de Texto para Imagem e da Segurança em Agentes na próxima atualização. Atualmente, o LiveSecBench (v251030) avaliou 18 LLMs, fornecendo um panorama da segurança da IA no contexto da língua chinesa. O ranking está publicamente acessível em https://livesecbench.intokentech.cn/.

D2D: Detector para Crítico Diferenciável para Melhoria da Numeracia na Geração de Texto para Imagem
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

Oct 22

ByNobline Yoo, Olga Russakovsky, Ye Zhu

Os modelos de difusão texto-imagem (T2I) alcançaram um desempenho robusto no alinhamento semântico, mas ainda enfrentam dificuldades para gerar a quantidade correta de objetos especificada nas instruções. As abordagens existentes geralmente incorporam redes auxiliares de contagem como críticos externos para melhorar a numeracia. No entanto, como esses críticos devem fornecer orientação por gradiente durante a geração, ficam restritos a modelos baseados em regressão que são intrinsecamente diferenciáveis, excluindo assim modelos baseados em detectores – que possuem capacidade de contagem superior – cuja natureza de "contar via enumeração" é não diferenciável. Para superar essa limitação, propomos o Detector-to-Differentiable (D2D), uma estrutura inovadora que transforma modelos de detecção não diferenciáveis em críticos diferenciáveis, permitindo assim aproveitar sua capacidade superior de contagem para orientar a geração de numeracia. Especificamente, projetamos funções de ativação personalizadas para converter os *logits* do detector em indicadores binários suaves, que são então usados para otimizar o ruído prévio no momento da inferência com modelos T2I pré-treinados. Nossos experimentos abrangentes com SDXL-Turbo, SD-Turbo e Pixart-DMD em quatro *benchmarks* de complexidade variada (cenários de baixa densidade, alta densidade e múltiplos objetos) demonstram melhorias consistentes e substanciais na precisão da contagem de objetos (por exemplo, um aumento de até 13,7% no D2D-Small, um *benchmark* de baixa densidade com 400 instruções), com degradação mínima na qualidade geral da imagem e sobrecarga computacional.

TabDSR: Decompor, Sanitizar e Racionalizar para Raciocínio Numérico Complexo em Dados Tabulados
TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

Nov 4

ByChangjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng

O raciocínio complexo sobre dados tabulares é crucial na análise de dados do mundo real, contudo, os grandes modelos de linguagem (LLMs) frequentemente apresentam desempenho inferior devido a consultas complexas, dados ruidosos e capacidades numéricas limitadas. Para resolver essas questões, propomos o \method, um framework constituído por: (1) um decompositor de consultas que decompõe questões complexas, (2) um saneador de tabelas que limpa e filtra tabelas ruidosas, e (3) um raciocinador baseado em Programas de Pensamento (PoT) que gera código executável para derivar a resposta final a partir da tabela saneada. Para garantir uma avaliação imparcial e mitigar o vazamento de dados, introduzimos um novo conjunto de dados, o CalTab151, especificamente concebido para o raciocínio numérico complexo sobre tabelas. Resultados experimentais demonstram que o \method supera consistentemente os métodos existentes, alcançando um desempenho de estado da arte (SOTA) com melhorias de precisão de 8,79%, 6,08% e 19,87% no TAT-QA, TableBench e \method, respetivamente. Adicionalmente, o nosso framework integra-se perfeitamente com os LLMs predominantes, fornecendo uma solução robusta para o raciocínio numérico complexo sobre tabelas. Estes resultados evidenciam a eficácia do nosso framework na melhoria do desempenho dos LLMs para o raciocínio numérico complexo sobre dados tabulares. Os dados e o código estão disponíveis mediante solicitação.

Tratamento Discriminatório de Componentes de Movimento Evolui a Aprendizagem Conjunta de Profundidade e Ego-Movimento
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

Nov 3

ByMengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan

A aprendizagem não supervisionada de profundidade e movimento egocêntrico, duas tarefas fundamentais de percepção 3D, tem registado progressos significativos nos últimos anos. No entanto, a maioria dos métodos trata o movimento egocêntrico como uma tarefa auxiliar, seja misturando todos os tipos de movimento ou excluindo movimentos rotacionais independentes da profundidade na supervisão. Tais projetos limitam a incorporação de fortes restrições geométricas, reduzindo a fiabilidade e robustez sob condições diversas. Este estudo introduz um tratamento discriminativo dos componentes de movimento, aproveitando as regularidades geométricas dos seus respetivos fluxos rígidos para beneficiar tanto a estimativa de profundidade como a de movimento egocêntrico. Dados fotogramas de vídeo consecutivos, as saídas da rede alinham primeiro os eixos óticos e os planos de imagem das câmaras de origem e destino. Os fluxos óticos entre fotogramas são transformados através destes alinhamentos, e os desvios são quantificados para impor restrições geométricas individualmente em cada componente de movimento egocêntrico, permitindo um refinamento mais direcionado. Estes alinhamentos reformulam ainda mais o processo de aprendizagem conjunta em formas coaxial e coplanar, onde a profundidade e cada componente de translação podem ser mutuamente derivados através de relações geométricas de forma fechada, introduzindo restrições complementares que melhoram a robustez da profundidade. O DiMoDE, uma estrutura geral de aprendizagem conjunta de profundidade e movimento egocêntrico que incorpora estes projetos, atinge um desempenho de ponta em múltiplos conjuntos de dados públicos e num novo conjunto de dados do mundo real diversificado, particularmente sob condições desafiadoras. O nosso código fonte estará publicamente disponível em mias.group/DiMoDE após a publicação.

Reg-DPO: Otimização Direta de Preferências Regularizada por SFT com Par GT para Melhoria da Geração de Vídeo
Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

Nov 3

ByJie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang

Estudos recentes identificaram a Otimização Direta de Preferências (DPO) como uma abordagem eficiente e livre de recompensas para melhorar a qualidade da geração de vídeos. No entanto, os métodos existentes seguem amplamente paradigmas do domínio de imagem e foram desenvolvidos principalmente em modelos de pequena escala (aproximadamente 2 bilhões de parâmetros), limitando sua capacidade de abordar os desafios únicos das tarefas de vídeo, como a construção onerosa de dados, o treinamento instável e o alto consumo de memória. Para superar essas limitações, introduzimos um GT-Pair que constrói automaticamente pares de preferência de alta qualidade usando vídeos reais como positivos e vídeos gerados por modelos como negativos, eliminando a necessidade de qualquer anotação externa. Apresentamos ainda o Reg-DPO, que incorpora a perda SFT como termo de regularização no objetivo DPO para melhorar a estabilidade do treinamento e a fidelidade da geração. Adicionalmente, ao combinar a estrutura FSDP com múltiplas técnicas de otimização de memória, nossa abordagem alcança uma capacidade de treinamento quase três vezes maior do que usando apenas FSDP. Experimentos extensivos em tarefas de I2V e T2V em múltiplos conjuntos de dados demonstram que nosso método supera consistentemente as abordagens existentes, proporcionando qualidade superior na geração de vídeos.