Recommendation system metrics

Recommendation system metrics are quantitative measures used to evaluate the performance and effectiveness of recommendation algorithms. These metrics help assess how well a system can predict user preferences, rank items, and provide valuable recommendations.

When to use which metric

Metric	When to use
Precision@k	User sees only a few recs — those few must be highly relevant.
Recall@k	Retrieve as many relevant items as possible from a large catalog.
Hit Rate@k	Overall system effectiveness — does any rec hit?
MAP@k	Ranked recs where order matters and you want average precision across users.
NDCG@k	Ranked recs with graded relevance — higher positions matter more.
MRR@k	The first good rec matters most (search, top-of-feed).
ILD@k	Guard against filter-bubble — diversity inside a single list.
Novelty@k	Push users toward non-popular items.
Serendipity@k	Unexpected and relevant — delight discoveries.
Coverage	Long-tail health — what fraction of the catalog ever gets recommended.
CTR	Online click behaviour on recommended items.
Conversion Rate	Downstream action (purchase, signup) per recommendation.
User Satisfaction	Survey / explicit feedback.

Precision@k

Proportion of relevant items among the top-k recommendations. Useful when the user sees only a few recommendations and we want those few to be highly relevant.

Precision@k = \frac{Number of relevant items in top-k recommendations}{k}

Recall@k

Proportion of relevant items that are present in the top-k recommendations. Useful when we want to retrieve as many relevant items as possible from a large catalog.

Recall@k = \frac{Number of relevant items in top-k recommendations}{Total number of relevant items}

Hit Rate@k

Proportion of users for whom at least one relevant item appears in their top-k recommendations. Good for overall system effectiveness. Does not differentiate between one and multiple relevant recommendations.

Hit Rate@k = \frac{Number of users with at least one hit in top-k}{Total number of users}

Mean Average Precision (MAP@k)

Mean of Average Precision (AP) across all users, where AP is the average of precision values at each relevant position in the ranked recommendations. Useful for ranked recommendations where order matters.

AP@k = \frac{1}{min ( m , k )} i = 1 \sum k Precision@i \cdot rel (i)

Where:

$m$ is the number of relevant items for the user
$rel (i)$ is an indicator function (1 if the item at position $i$ is relevant, 0 otherwise)

MAP@k = \frac{1}{∣ U ∣} u \in U \sum AP@k (u)

Normalized Discounted Cumulative Gain (NDCG@k)

Measures the quality of ranking by assigning higher weights to relevant items appearing higher in the list and normalizing by the ideal ranking. Penalizes relevant items appearing lower in the list.

DCG@k = i = 1 \sum k \frac{2 ^{rel (i)} - 1}{lo g _{2} ( i + 1 )}

NDCG@k = \frac{DCG@k}{IDCG@k}

Mean Reciprocal Rank (MRR@k)

Average of reciprocal ranks of the first relevant item across all users. Useful when the first good recommendation is most important (search engines).

MRR@k = \frac{1}{∣ U ∣} u \in U \sum \frac{1}{rank _{u}}

Diversity

Measures how diverse the recommended items are across various dimensions. Helps prevent the “filter bubble” phenomenon.

Intra-List Diversity (ILD@k) — the average pairwise dissimilarity between items in a recommendation list.

ILD@k = \frac{2}{k ( k - 1 )} i = 1 \sum k - 1 j = i + 1 \sum k dist (i, j)

Where $dist (i, j)$ is the distance or dissimilarity between items $i$ and $j$ .

Novelty

Measures how unusual or unfamiliar the recommended items are to users. Helps users discover new content beyond popular items.

Novelty@k = \frac{1}{k} i = 1 \sum k - lo g_{2} \frac{∣ Users who interacted with item i ∣}{∣ Total users ∣}

Serendipity

Measures how unexpected yet relevant the recommendations are. Aims to delight users with discoveries they wouldn’t have found on their own.

Serendipity@k = \frac{1}{k} i = 1 \sum k unexp (i) \cdot rel (i)

Where:

$unexp (i)$ is the unexpectedness of item $i$ (often calculated as dissimilarity from user’s profile)
$rel (i)$ is the relevance of item $i$

Coverage

Item Coverage — the proportion of all available items that are recommended to at least one user. Helps prevent the “long-tail” problem where many items are never recommended.

Item Coverage = \frac{∣ Items recommended to at least one user ∣}{∣ All available items ∣}

User Coverage — the proportion of users who receive at least one recommendation.

User Coverage = \frac{∣ Users receiving at least one recommendation ∣}{∣ All users ∣}

Conversion Rate

Percentage of recommendations that lead to a desired action (e.g., click, purchase).

Conversion Rate = \frac{Number of recommendations resulting in conversion}{Total number of recommendations}

Click-Through Rate (CTR)

Ratio of clicks to impressions for recommended items.

CTR = \frac{Number of clicks on recommendations}{Number of recommendation impressions}

User Satisfaction

Direct measurement of user satisfaction with recommendations, often collected through surveys or feedback mechanisms.

DSWoK — Data Science Well of Knowledge

Explorer