{
  "kind": "tracker",
  "studySlug": "model-divergence",
  "slug": "query-class-agreement-tracker",
  "title": "Agreement by query class",
  "description": "Cross-model agreement benchmark across major prompt families.",
  "lastUpdated": "2026-03-11",
  "lastTested": "2026-03-11",
  "sourceStudyUrl": "/trakkr-research/model-divergence",
  "sourceStudyTitle": "Same Question, Different AI, Different Answers",
  "claimIds": [
    "model-divergence:comparison-agreement",
    "model-divergence:general-agreement",
    "model-divergence:bestof-divergence"
  ],
  "relatedSlugs": [
    "answer:do-ai-models-recommend-the-same-brands",
    "answer:how-often-is-there-perfect-consensus-across-models",
    "fact:average-cross-model-agreement-is-only-forty-three-percent"
  ],
  "methodologySummary": "Built from 797,644 valid comparisons across 44,088 reports and 8 models, covering 6,439,133 model responses in the observed window.",
  "limitations": [
    "Agreement is measured across recommendation outputs, not across hidden reasoning or retrieval context.",
    "Average agreement can hide large differences between query classes and model pairs.",
    "The study measures overlap, not which answer was objectively “right”."
  ],
  "keywords": [
    "model divergence",
    "AI agreement",
    "ChatGPT vs Claude",
    "Gemini vs Perplexity"
  ],
  "schemaHints": {
    "pageType": "WebPage",
    "includeDataset": true,
    "includeItemList": true,
    "itemListName": "Agreement by query class"
  },
  "summary": "Comparison prompts are the most stable query class, while broader best-of and general prompts remain less portable across models.",
  "keyFacts": [
    {
      "label": "Comparison-query agreement",
      "value": "50.4%",
      "detail": "Comparison prompts produce the highest average agreement.",
      "claimId": "model-divergence:comparison-agreement"
    },
    {
      "label": "General-query agreement",
      "value": "42.2%",
      "detail": "General prompts are less stable across models.",
      "claimId": "model-divergence:general-agreement"
    },
    {
      "label": "Best-of high divergence",
      "value": "14.8%",
      "detail": "Best-of prompts frequently split models.",
      "claimId": "model-divergence:bestof-divergence"
    }
  ],
  "benchmarkRows": [
    {
      "label": "Comparison-query agreement",
      "value": "50.4%",
      "note": "Comparison prompts produce the highest average agreement."
    },
    {
      "label": "General-query agreement",
      "value": "42.2%",
      "note": "General prompts are less stable across models."
    },
    {
      "label": "Best-of high divergence",
      "value": "14.8%",
      "note": "Best-of prompts frequently split models."
    }
  ],
  "rankedItems": [
    {
      "name": "Comparison queries",
      "value": "50.4%",
      "detail": "The highest average agreement rate in the study."
    },
    {
      "name": "How-to queries",
      "value": "45.3%",
      "detail": "More constrained than general prompts, but still not highly converged."
    },
    {
      "name": "Alternative queries",
      "value": "44.1%",
      "detail": "Moderate agreement with a smaller sample."
    },
    {
      "name": "Best-of queries",
      "value": "43.4%",
      "detail": "Broad buyer-intent prompts still split models materially."
    },
    {
      "name": "General queries",
      "value": "42.2%",
      "detail": "The least stable mainstream prompt family in the benchmark."
    }
  ],
  "changes": [
    {
      "title": "Tighter prompts converge more",
      "detail": "Constrained comparisons pull models closer together than broad recommendation prompts."
    },
    {
      "title": "Best-of is still volatile enough to matter",
      "detail": "Even widely searched recommendation prompts often split the model set."
    }
  ]
}