…cesta k jejich zabezpečení
Zaklínadlem dnešního světa informačních systémů se pomalu, ale jistě stává datová kvalita. Všechna odvětví průmyslu potřebují stále více informací, které jsou přesné a spolehlivé. Tyto informace se vytvářejí z dat pořízených a ukládaných v rámci často rozsáhlé architektury informačních systémů. Z tohoto pohledu jsou tedy data surovinou, která vstupuje do „výrobního“ procesu, je dána do určitého kontextu a použita se specifickou znalostí uživatele. Výstupem takového procesu je informace sloužící ke klíčovému rozhodnutí či tvorbě hodnoty.
Dopady datové nekvality
Jako příklad můžeme uvést data o zákaznících, kteří si v minulosti koupili určitý produkt. Samotný seznam uskutečněných prodejů příliš velkou hodnotu nemá. Pokud se však podíváme na věkové složení zákazníků (nebo jejich regionální rozmístění, pohlaví, rodinný stav apod.), můžeme dospět k závěru, že daný produkt preferuje určitý segment zákazníků. Případná marketingová kampaň má pak daleko vyšší šance na úspěch, bude-li zacílena právě na tento identifikovaný segment zákazníků.
Co se však stane, pokud vstupní surovina uvedeného procesu, tzn. data o zákaznících, nebude dostatečně kvalitní? Zákaznická segmentace bude jen tak přesná, jak přesná jsou zákaznická data. Nesprávně uvedená adresa, chyby v rodném čísle a datu narození, nesprávně uvedené pohlaví a chyby v dalších atributech způsobí, že spuštěná marketingová kampaň nedosáhne zdaleka takové úspěšnosti, s jakou byla plánována. Nekvalitní data se v tomto případě projeví hned dvakrát. Nejdříve se na jejich základě chybně nastaví segmentace, protože podklady pro její tvorbu nebyly korektní. Následná marketingová kampaň pak pracuje již s chybnými předpoklady. Pokud je přesto spuštěna, postihne ji druhá vlna negativního vlivu nekvalitních dat. V závislosti na použitém distribučním kanálu se pravděpodobně nepodaří oslovit očekávané množství potenciálních klientů. Jejich poštovní adresy totiž nebudou doručitelné, telefonní čísla nebudou existovat, zaslané e-maily se budou vracet. Potenciální klienti, které se při troše štěstí podaří nakonec oslovit, nemusí mít příliš valné mínění o firmě, která jim zkomolila jméno, upřela akademický titul, a v krajním případě si není jista jejich pohlavím (např. Vážený pan Marie Nováková).
Uvedený příklad demonstruje, jak mohou nekvalitní data fakticky snížit účinnost kampaně a tím ji znehodnotit. Dalším následkem jsou pochopitelně náklady ztracené příležitosti, protože kampaně se obvykle vedou s cílem oslovit určité množství zákazníků, což se v tomto případě nepodaří a zákazníci si produkt koupí u schopnější konkurence. Neefektivně vynaložené prostředky mohly být investovány do aktivity s vyšší návratností, ale nestalo se tak.
Datová nekvalita však může přímo způsobit nežádoucí výdaje, což můžeme vidět na dalším příkladu, tentokrát z bankovního sektoru. Banky mají ze zákona povinnost realizovat bankovní regulatorní výkaznictví vůči centrální bance (ČNB). Pokud se však poskytované reporty generují z nekvalitních dat, mohou být celkem oprávněně zpochybněny, a v krajním případě mohou být vůči bance uplatněny finanční sankce. Ty jsou pak přímým nákladem datové nekvality.
Začněme měřením
Z příkladů uvedených výše je patrné, že kvalita dat, respektive jejich nekvalita, může způsobit vážné problémy. Stejně by to dopadlo, kdyby do výrobního procesu vstupovala jakákoli jiná nekvalitní surovina. Asi bychom se příliš neradovali z jízdy novým vozem, ve kterém byly některé matičky zaměněny za šroubky, ložiska obsahují malé krychličky a nosné části byly nedopatřením vyrobeny ze sádry. S daty je to podobné. Zdá se tedy, že by se kvalita dat měla řídit podobně jako kvalita jiných surovin ve výrobě. I zde ale platí stará poučka, která říká, že nelze řídit, co neumíme změřit. Jak ale změřit problém datové nekvality?
Na tomto místě je třeba připomenout, že datová kvalita jako taková je subjektivní pojem a vyjadřuje pouze míru naplnění očekávání uživatelů dat. Stejný údaj, který může být na jednom místě považován za dostatečně kvalitní, může být jinde pokládán za fatálně nekvalitní. Vezměme za příklad teplotu. Teplota Slunce zaokrouhlená na stovky stupňů Celsia může být dostatečně kvalitním údajem pro astronoma, podobné zaokrouhlení by však biologa mohlo připravit o kariéru. V kontextu dané organizace je tedy třeba nalézt obecně přijatelný model hodnocení datové kvality, který objektivním způsobem zhodnotí kvalitu vybraných dat a umožní kvalifikovanou diskusi o příčinách a následcích naměřených hodnot. Pro měření kvality dat je třeba použít vhodné metriky.
Subjektivní vnímání dat jejich uživateli je zahrnuto pod skupinou subjektivních metrik a měří se pomocí dotazníků a průzkumů v rozumné četnosti (např. čtvrtletně). Nezávisle na uživatelích lze měřit kvalitu dat přímo nad jednotlivými systémy (resp. jejich databázemi) pomocí automatizovaných procedur, nejlépe však prostřednictvím specializovaného nástroje datové kvality, který zároveň s měřením zajistí i reporting. V optimálním případě může takový nástroj provádět i čištění a obohacování dat. Četnost automatizovaného hodnocení může být daleko vyšší, v prostředí se značným množstvím dat a jejich častou změnou může probíhat na denní bázi.
Naměřené hodnoty metrik datové kvality lze vhodně zpracovat, agregovat a uživatelsky příjemným způsobem prezentovat pověřeným uživatelům, kteří za kvalitu dat zodpovídají. Pro následnou analýzu příčin datové nekvality mohou pak být využity různé analytické nástroje, které se obvykle využívají pro odhalování skrytých závislostí v datech (data mining).
Řízení kvality dat
Pokud se nám podařilo kvantifikovat problémy datové kvality, zdaleka ještě nemáme vyhráno. Nyní přichází ke slovu řízení datové kvality. Jeho účelem je identifikace příčin datové nekvality, návrh a realizace nápravných opatření a prevence opakovaného výskytu původních příčin. Řízení datové kvality bývá uspořádáno do uceleného konceptu, ve kterém se definují role a jejich zodpovědnosti, procesy a nástroje. V širším smyslu je takový koncept součástí komplexního prostředí data governance.
Z pohledu organizační struktury je nejdůležitějším článkem v systému řízení kvality dat datový stevard. Je velmi pravděpodobné, že takového člověka ve svém okolí máte. Obvykle to bývá zkušený zaměstnanec, který o své práci všechno ví, kdykoli dokáže poradit a dobře se vyzná v datech. Datový stevard umí kvalifikovaně navrhnout vhodná opatření k nápravě a předložit je svému nadřízenému. Pracuje s výsledky měření datové kvality, které analyzuje, a hledá příčiny nekvality v datech.
Aby data byla v pořádku, musí mít svého vlastníka, který je za ně zodpovědný. Vlastník dat většinou zodpovídá za určitou oblast dat (může to být logická entita, například klient) a je oprávněn definovat pravidla, která musí ostatní dodržovat. Vlastníkem většinou bývá výše postavený manažer schopný prosadit své záměry, datový stevard je pak jeho očima, ušima, prodlouženou rukou a vykonavatelem rozhodnutí.
V neposlední řadě má celý systém řízení svého sponzora, který zajišťuje dostatek prostředků pro provoz. Ve vyspělé organizaci může vzniknout také řídící výbor datové kvality, který definuje celofiremní politiky a standardy. Ty mají platnost zákonů a jsou vymahatelné.
Kvalitu dat je nutné řídit v průběhu jejich celého životního cyklu. Nejvíce samozřejmě záleží již na samotném pořízení dat. Zde je možno dosáhnout výrazného zlepšení kvality použitím vhodných validačních algoritmů či on-line ověřování dat vůči autoritativnímu zdroji. Ověřování dat na vstupu do systému se často označuje jako data quality firewall. Kontroly by však měly být uplatněny i při každé změně dat a při jejich převodu mezi systémy, aby byla vyloučena jejich možná deformace nekorektní transformací.
Poslední, nikoli však nedůležitou součástí řízení datové kvality jsou vhodné softwarové nástroje. Ty mohou pomoci s měřením datové kvality, jejich největší přínos je však ve schopnosti automatizovaného čištění dat. Způsob implementace a kvalitní nastavení čisticích pravidel má zásadní vliv na efektivitu a prospěšnost čisticího procesu.
Kvalitními daty k prosperitě
Řízení datové kvality není jednorázová aktivita. Je to soustavný proces, který má za úkol zajistit, aby data vstupující do procesů organizace měla dostatečnou kvalitu stejně jako ostatní zdroje a suroviny. Jedině tak lze očekávat, že se z dat vhodným zpracováním stanou kvalitní informace a ty budou použity ku prospěchu firmy, ať již ke zvýšení zisku, nebo k zamezení ztrát.