Kategorisering av data

Publicerad den 2022-09-21

Patrik Hallén

Masterdata, metadata, referensdata ...

Data som källa för utvinning av affärsvärde blir allt viktigare i takt med att tekniker och verktyg - och inte minst beräkningskapacitet - ökar.

Men vad är Data?

Enligt Nationalencyklopedin:

Data är alltså representationer av information, antingen i form av fysiska dokument eller lagrade i IT-system i olika format. Oavsett om det är analogt eller digitalt kan data vara mer eller mindre strukturerat. Information som fångats via en pappersblankett med fördefinierade fält är givetvis mer strukturerad än en artikel eller ett brev som vanligen har ett friare format sett till struktur.

I digital form dominerar relationsdatabaser med fördefinierade nycklar och attribut där allt är tydligt strukturerat. I bilden nedan, som är tagen från boken "Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information™" skriven av Danette McGilvray, visas en beställning (Sales Order) och det data som den innehåller.

Trots bildens dåliga upplösning ser vi att den innehåller fält i text och numerisk form, där några fält är kopplade till kunden och några till den produkt som beställningen avser.

Danette McGilvray vill med denna bild visa att en beställning innehåller olika typer av data och ger tydliga definitioner av vad som hon refererar till som "Master data", "Metadata", "Reference Data" och "Transactional Record".

Här är ett urklipp från boken med definitioner:

Syftet med bilden ovan är att visa en av de källor som Prime Arch använder för att definiera datakategorier. En annan källa som återfinns på nätet är en artikel skriven av Semarchy: "Back to Basics: Transactional, Master, Golden, and Reference Data Explained". I denna finns följande bild som visar de vanligaste datakategorierna:

Genom att kombinera dessa bägge källor kompletterat med exempel från diverse andra källor ser en bruttolista på engelska över datakategorier på den översta nivån så här:

Reporting Data
Transactional data
Master data
Reference Data
Metadata
Log data
Unstructured data
Big data

Kategorisering av data enligt Prime Arch

I Datadimensionen i Prime Arch används D11 Datadomän och D21 Datagrupp för att översiktligt kategorisera data.

Ett exempel på en kategorisering av data enligt Prime Arch på Nivå 1 ser då ut så här:

Vi har valt Wikipedia som källa för de flesta av kategorierna då dessa är tydligt beskrivna och allmängiltiga sett till att dessa definitioner stämmer väl överens med t ex McGilvray och Semarchy.

Dessa sex datadomäner kan användas för att indela all data som en organisation skapar, lagrar och använder, men listan kan även kompletteras med t ex Loggdata enligt bruttolistan ovan.

Vi vill även ge exempel på hur kategoriseringen kan ske på Nivå 2, i datagrupper. Varje Datadomän kan brytas ner i Datagrupper enligt följande karta:

Denna uppställning är inte komplett, men förhoppningsvis ger den en bra bild över vad som döljs inom varje domän och kan vara en bra start på en datakategorisering.

Länkar

Praktikfall för kategorisering av data

Metaobjekt

Relaterade artiklar

Externa källor

Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information™ av Danette McGilvray
Back to Basics: Transactional, Golden, Reference and Other Master Data Types Explained av Semarchy