Jaccardindex

Mått på hur lika två mängder är.

Jaccardkoefficient, Jaccardindex eller Jaccards likhetskoefficient, är ett mått på hur lika två mängder är. Koefficienten definieras som antalet element i snittet av mängderna dividerat med antalet element i unionen av mängderna. Jaccardkoefficienten för mängderna A och B beräknas enligt:

J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A + B - A \cap B|}

Snittet av A och B (A∩B) är mängden element som ingår i A och B, medan unionen av A och B (A∪B) är mängden element som ingår i A eller B . Vertikalstrecken (|) i formeln ovan indikerar storleken på respektive mängd, så kallad kardinalitet. Jaccardkoefficienten är således kvoten av antalet element som delas av A och B och antalet element som finns i antingen A eller B. Koefficienten antar värdet 0 om A och B inte delar några element, och 1 om de delar samtliga element.

Snittet av A och B
Snittet av A och B (A∩B) är mängden element som ingår i A och B.
Unionen av A och B
Unionen av A och B (A∪B) är mängden element som ingår i A eller B .

Exempel

Jaccardindexet har många tillämpningsområden. Här visas ett exempel där vi beräknar hur lika två kunders kundvagnar är, vilket är vanligt inom exempelvis marknadsföring för att kunna rikta kampanjer och föreslå relevanta produkter.

I en e-butik som säljer kläder har två kunder följande produkter i sina kundvagnar:

Kund A: vit skjorta, 10-pack strumpor, svart t-shirt, mössa

Kund B: svart skjorta, 10-pack strumpor, svart t-shirt

Snittet av A och B (A∩B) är mängden element som ingår i A och B. De element som delas av A och B är i detta fall {10-pack strumpor, svart t-shirt}. Unionen av A och B (A∪B) är mängden element som ingår i A eller B. De element som ingår i A eller B är {vit skjorta, svart skjorta, 10-pack strumpor, svart t-shirt, mössa}. Jaccardkoefficienten beräknas genom att dividera antalet element i snittet med antalet element i unionen. I snittet finns 2 element, och i unionen finns 5 element.

J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{2}{5} = 0,4

Citera

Frisk, Emil. (2019). Jaccardindex. Statistisk ordbok. https://www.statistiskordbok.se/ord/jaccardindex/