Koristne IT informacije

"Novice, novosti in trendi s sveta informatike."

OPREDELITEV KAKOVOSTI PODATKOV IN NJENO ZAGOTAVLJANJE V RELACIJSKEM PODATKOVNEM MODELU POSLOVNO INFORMACIJSKEGA SISTEMA



Avtor: dr. Uroš Godnov (BizIS d.o.o. Co-Founder)

Koper : Društvo za akademske in aplikativne raziskave, 2012



PREDGOVOR 

Kot projektant in programer že več kot sedem let delam na področju razvoja in uvedbe poslovnih informacijskih sistemov (v nadaljevanju PIS) v združbe. Največ pozornosti namenjam razvoju relacijskih podatkovnih zbirk v smislu njihove fizične izvedbe ter izdelavi skladišč podatkov, nadgrajenih s tehnologijo OLAP (angl. On Line Analytical Processing). Pri svojem delu sem opazil, da se kljub velikemu trudu pri načrtovanju, programiranju, preizkušanju in izobraževanju uporabnikov pojavljajo napake v PIS. Te zahtevajo poseg »od zadaj«, torej mimo uporabniškega vmesnika, neposredno v zbirko podatkov. Takšnih posegov ni bilo malo, še posebno so bili pogosti ob novih različicah uporabniških rešitev, ki so prinesle večje spremembe. Čeprav nam je veliko napak uspelo oziroma jih še uspevamo reševati s pomočjo uporabniškega vmesnika, ostajajo določeni problemi oziroma napake, ki zahtevajo poseg neposredno v zbirko podatkov.

Pri delu pa je bilo mogoče opaziti še eno značilnost končnih uporabnikov. Združbe, ki so imele organizirano lastno službo informatike, so mnogokrat same, brez vednosti ponudnika PIS, posegala v zbirko podatkov. To je bilo še posebno izrazito v združbah, ki so dlje časa vztrajale pri istem ponudniku in so imele znanje ter čas proučiti zgradbo informacijskega sistema, ki so ga vsakodnevno uporabljale pri svojem delu. Mnogokrat so končni uporabniki prihajali v službo za informatiko ter prosili za neposreden poseg v zbirko podatkov (na primer uporabnik se je zmotil pri temeljnici in namesto storniranja je prosil sodelavca informatika, da je temeljnico popravil neposredno v zbirki podatkov). Nekatere združbe so storile še korak dlje in so na zbirko podatkov »priključile« svoje uporabniške rešitve.

Poleg načrtovanja in razvoja sistemov sprotne obdelave podatkov sem načrtoval in razvijal tudi sisteme za spoznavanje in predvidevanje poslovanja združb s pomočjo računalniških orodij za poslovno obveščanje (v nadaljevanju poslovno obveščanje). Ti so podatke v pretežni meri črpali iz relacijskih zbirk podatkov. Kljub dobri pripravi in znanju ni noben projekt, ki sem ga vodil, uspel v načrtovanem časovnem roku. Vzrok – NEKAKOVOSTNI PODATKI. Največ časa se je porabilo prav pri ukvarjanju z nekakovostnimi podatki, ki so oteževali izdelavo sistemov za poslovno obveščanje. Mnogokrat združbe sploh niso imele védenja o stanju svojih podatkov in je projekt izdelave analitičnih rešitev pomenil neke vrste streznitev. Največ napak je bilo, po mojem mnenju, posledica slabe organizacije poslovnih procesov in pomanjkanja deklarativnih omejitev (na primer kdo je zadolžen za vnos določenih podatkov o entitetah in kateri podatki o entitetah se morajo vnašati), ki so se pokazale v podvojenih vnosih entitet, neažurnosti podatkov o entitetah, v manjkajočih podatkih in še bi lahko našteval. Ogromno teh napak se ne bi pojavilo, če bi PIS imel kakovosten fizičen podatkovni model. in prav to me je navdušilo za knjigo – torej proučiti, kako fizična izvedba relacijskega podatkovnega modela vpliva na kakovost podatkov.

Knjiga pred vami, ki nosi naslov »Opredelitev kakovosti podatkov in njeno zagotavljanje v relacijskem podatkovnem modelu poslovno informacijskega sistema« torej govori o vplivu glavnih in tujih ključev, deklarativnih omejitev, normalizacije ter podatkovnih tipov na natančnost, doslednost in popolnost podatkov v poslovnih informacijskih sistemih.

Kakovost podatkov je v novejšem času izredno aktualno področje, ki ima svoje korenine v 80. letih prejšnjega stoletja, aktualnost pa je mogoče pripisati razširjenosti in pomembnosti poslovnega obveščanja v združbah. V literaturi obstajajo tri pomembne opredelitve oziroma pojmi, povezani z opredelitvijo kakovosti podatkov. Najbolj razširjena je statična opredelitev, ki predpostavlja sodila oziroma razsežnosti kakovosti podatkov, združene v štiri skupine. Naknadno se je pojavil še vidik namena uporabe ter dinamične opredelitve. Namen uporabe je v knjigi predstavljen kot osrednji vidik, ki ga mora posamezna združba upoštevati, in predpostavlja, da se morajo podatki ocenjevati z vidika namena uporabe. Dinamični vidik pa ocenjuje kakovost podatkov v različnih korakih procesa ravnanja s podatki. V knjigi so vsi trije vidiki združeni v celovito opredelitev.

Relacijski podatkovni model je trenutno najbolj razširjen in verjetno bo tako še nekaj časa, saj temelji na teoriji množic, torej znanosti. In stvari, ki temeljijo na znanosti, imajo po navadi daljši rok trajanja. Utemeljitelj relacijskega podatkovnega modela je Edgar Codd, ki je postavil temeljna pravila in jih pozneje tudi dopolnjeval. Relacijski model nikjer ne zapoveduje načina fizične izvedbe, vendar so vsi najpomembnejši SUPB-i sledili podobnim smernicam. Zato v knjigi med pomembne fizične lastnosti uvrščamo tudi podatkovne tipe in deklarativne omejitve.

Za proučevanje vpliva fizičnih lastnosti relacijskega podatkovnega modela na kakovost podatkov so bile izvedene dve dejavnosti, in sicer modeliranje s SUBP MS SQL 2005 ter anketiranje slovenskih združb. Z modeliranjem z MS SQL 2005 sta bila prikazana dva razmeroma preprosta scenarija, ki pa sta zajela vse proučevane lastnosti relacijskega podatkovnega modela ter najpomembnejše razsežnosti kakovosti podatkov. Proučevanje se je nadaljevalo in hkrati končalo z izvedbo anketiranja, ki je zajelo majhne, srednje velike in večje združbe vseh statističnih regij ter panog dejavnosti. Za raziskavo je bilo dobljenih 74 pravilno izpolnjenih anket, kar je bilo zadostno število za ustrezno statistično analizo, ki je dodatno potrdila rezultate modeliranja. Statistična raziskava je pokazala, da sta pravilna uporaba podatkovnih tipov in deklarativnih omejitev ter spoštovanje normalizacije najpomembnejša pri zagotavljanju natančnih, doslednih in popolnih podatkov. Raziskava je pokazala tudi na dejstvo, da večine dejavnikov, ki vplivajo na razsežnosti kakovosti podatkov, ni mogoče iskati v relacijskem podatkovnem modelu. Ta ugotovitev je v skladu z raziskavo TDWI, ki je ugotovila, da največ napak v kakovosti podatkov izhaja iz napačnega vnosa podatkov zaposlenih.

Slovenske anketirane združbe so glede kakovosti podatkov podobne združbam iz ZDA. Deleža združb s težavami v kakovosti podatkov sta si podobna, prav tako deleža dojemanja podatkov kot pomembnega premoženja združb. Tudi pri zaznavi vzrokov za nekakovost lahko slovenske anketirane združbe postavimo ob bok združbam iz ZDA.

Čeprav obravnavana tematika ni povsem tuja oziroma nova, je nov način, kako je bila proučevana povezava med lastnostmi relacijskega podatkovnega modela in razsežnostmi kakovosti podatkov. Uporabe izkustvene metode pri proučevanju povezav namreč ni mogoče zaslediti v nobeni raziskavi.
Raziskava je torej potrdila vpliv proučevanih lastnosti relacijskega podatkovnega modela na kakovost podatkov, kar je opozorilo združbam, da morajo pri zagotavljanju kakovosti podatkov posvetiti pozornost tudi relacijskemu podatkovnemu modelu poslovnih informacijskih sistemov. Vendar je to le del celotnega procesa ravnanja s kakovostjo podatkov, ki bo moral postati del poslovne strategije vsake združbe, neodvisno od njene velikosti in panoge dejavnosti.

Pričujoča knjiga vam bo torej dala vpogled v svet kakovosti podatkov, hkrati pa vam bo utrdila prepričanje, da se vse skupaj začne že pri modeliranju zbirke podatkov poslovno informacijskega sistema.