Évaluation de YBA MAGAR – YBA dépasse les normes de l'industrie et surpasse les grands géants de la technologie
Novembre 2025
YBA dépasse les normes de l'industrie
Abstrait
Nous introduisons MAGAR (Multi-Agent Graph-Augmented RAG), un cadre de génération augmentée par récupération qui combine la récupération basée sur des graphes avec l'orchestration multi-agent pour soutenir un raisonnement contextuel robuste en plusieurs étapes sur les connaissances de l'entreprise. Pour évaluer la généralité de MAGAR pour le raisonnement à plusieurs sauts, nous l'avons testé sur MuSiQue, un ensemble de données de questions-réponses multi-document et multi-saut public. Ce rapport présente les résultats de l'évaluation tirés de nos matériaux d'expérimentation, explique le protocole d'évaluation et fournit une annexe avec des notes de reproductibilité. Tous les résultats numériques de ce rapport sont tirés des matériaux d'évaluation fournis et n'ont pas été modifiés. Ces résultats confirment l'efficacité de MAGAR dans le raisonnement augmenté par récupération et positionnent YBA parmi les leaders en performance de question-réponse à plusieurs sauts.
Résultats de comparaison

Figure : Performance comparative des systèmes Y
À propos de YBA.ai
YBA.ai construit des agents en contexte qui automatisent le travail de connaissance pour les équipes go-to-market. Notre technologie MAGAR (Multi-Agent Graph-Augmented RAG) combine la récupération basée sur des graphes avec l'orchestration multi-agent pour fournir un raisonnement robuste en plusieurs étapes et des réponses étayées par des preuves provenant des données et des bases de connaissances d'une entreprise. Introduction Les équipes GTM d'entreprise s'appuient de plus en plus sur des réponses précises et étayées par des preuves tirées de la documentation interne (manuels, livres de jeu, documents produits, notes CRM). Les questions multi-hop - celles qui nécessitent de lier des faits à travers plusieurs documents et de réaliser un raisonnement intermédiaire - restent un défi majeur pour les pipelines de récupération et de génération standard. MAGAR a été développé pour résoudre ce problème : il augmente la récupération vectorielle avec une représentation graphique des connaissances et coordonne plusieurs agents spécialisés pour produire des réponses fondées avec provenance. MuSiQue est une référence publique pertinente pour le QA multi-hop ; nous l'avons utilisée pour valider la capacité de MAGAR à enchaîner les preuves et produire des réponses correctes à travers les documents.
Pourquoi MuSiQue?
Cet ensemble de données est parfait pour valider MAGAR car il explore rigoureusement les capacités de raisonnement complexe. Contrairement à une simple question-réponse, une question MuSiQue nécessite que le système :
Raison à travers plusieurs documents : Les informations nécessaires à la réponse sont dispersées et doivent être trouvées à différents endroits.
Intégrer les preuves : Le système doit effectuer des étapes de raisonnement intermédiaires et lier des faits sémantiquement divers pour former une réponse finale et cohérente.
Cela doit intégrer des preuves et maintenir une séquence qui s'aligne directement sur les forces fondamentales de MAGAR : modéliser les relations entre les morceaux d'information et préserver des séquences de tâches cohérentes via sa recherche basée sur des graphes.
Lien vers le jeu de données : https://arxiv.org/abs/2108.00573
Méthodologie d'évaluation
Pour garantir une évaluation objective et complète des performances de MAGAR, nous avons évalué le système en utilisant des métriques standard largement adoptées dans la recherche sur la Génération Augmentée par Récupération (RAG).
Exactitude de la réponse : Mesure à quel point la réponse générée est factuellement exacte et complète par rapport à la vérité de référence, en utilisant un juge basé sur LLM pour évaluer entre 0-1.
Correspondance exacte (CE) : Évalue si les mots-clés ou expressions de référence apparaissent exactement dans le texte généré.
F1 Score : Équilibre la précision et le rappel pour évaluer à la fois l'exactitude et l'exhaustivité des réponses générées.
précision = tokens correspondants / tokens générés
rappel = jetons correspondants / jetons corrects
F1 Score = 2 x (précision x rappel) / (précision + rappel)
RAGAS (Cadre d'évaluation RAG) : Fournit une évaluation holistique basée sur LLM de la qualité de récupération et de génération, mesurant l'exactitude factuelle, la pertinence et l'exhaustivité.
Résultats de nos tests
Nous avons testé MAGAR contre l'ensemble de développement MuSiQue en utilisant deux scénarios pour garantir une validation complète et renforcer la confiance dans les résultats :
1.
Évaluation complète du jeu de réponses : Nous avons utilisé l'ensemble complet de 1 127 questions pour évaluer de manière exhaustive les performances du cadre sur l'ensemble des types de questions et des niveaux de difficulté.
2.
Évaluation d'un sous-ensemble aléatoire de questions répondables : Nous avons également évalué le système sur un sous-ensemble aléatoire et plus petit de 500 questions répondables. Cela a testé la robustesse de MAGAR et sa capacité à maintenir une cohérence de performance face à des types de questions divers dans un échantillon limité et représentatif.

Les résultats de référence montrent que notre technologie a atteint une exactitude des réponses de 46,50 % lors de l'évaluation complète de 1 127 questions, avec une correspondance exacte de 36,29 % et un score F1 de 53,30 %. Sur le sous-ensemble aléatoire de 500 questions, les performances se sont améliorées à 59,08 % d'exactitude des réponses, 53,20 % de correspondance exacte et 69,50 % de score F1, indiquant une meilleure précision et complétude sur un ensemble d'évaluation plus petit.
Évaluation par rapport au travail industriel et académique
Voici les détails des stratégies d'évaluation utilisées par d'autres
Microsoft - PIKE RAG :
Métriques publiées le 01-01-2025
Finetuned-LLM incluant le split "train" de MuSiQue.
Utilisez 500 questions aléatoires tirées de l'ensemble de développement MuSiQue
Exactitude de la réponse =59.60% , Score EM =46.40% , Score F1 = 56.60%
Google - RAG spéculatif :
Publié le 11-07-2024.
Un nombre non spécifié de questions a été utilisé pour l'évaluation à partir du jeu de données MuSiQue.
Vérification des réponses rapportées = 31,57 %.
Salesforce - GPT-4o RAG + HyDE :
Publié le 16-12-2024
Utilise 500 questions sélectionnées au hasard à partir de la division dev des données MuSiQue.
Précision de la réponse signalée 52,20 %
Université de Pékin - HopRAG
Publié le 18-02-2025
Utilise 1000 points de données de l'ensemble de développement
EM Score = 53,20 %, F1 Score = 69,50 %
Huawei - GeAR :
Publié le 24-12-2024
Utilise 500 questions sélectionnées au hasard
Score EM = 19,0, Score F1 = 35,6
Le tableau suivant montre la comparaison de notre RAG par rapport aux autres

Analyse de la performance et comparaison de l'industrie
En comparant YBA RAG (MAGAR) avec d'autres systèmes de génération augmentée par la récupération, nous constatons qu'il atteint l'une des meilleures performances globales sur le benchmark MuSiQue. Avec une exactitude des réponses de 59,08 %, le modèle de YBA performe presque au même niveau que le PIKE RAG (59,60 %) de Microsoft, tout en surpassant le RAG GPT-4o + HyDE de Salesforce (52,20 %), le RAG spéculatif de Google (31,57 %), le HopRAG de l'Université de Pékin (42,2 % EM, 54,9 F1), et le GEAR de Huawei (19 % EM, 35,6 F1). Notamment, YBA MAGAR obtient le meilleur Exact Match (53,2 %) et le meilleur score F1 (69,5 %) parmi tous les modèles, démontrant une supérieure cohérence entre le contexte récupéré et les réponses générées. Cela indique que le mécanisme de récupération multi-agent de MAGAR améliore effectivement la précision des réponses et l'alignement contextuel.
Veuillez vous référer à la comparaison des résultats du tableau ci-dessus.
Remarque : Tous les résultats de benchmarking sont dérivés de l'ensemble de données de développement MuSiQue et vérifiés à l'aide des métriques d'évaluation RAG standard.
