Tri roky UVOstatu - prečo a ako vznikol

Tri roky UVOstatu - prečo a ako vznikol

V novembri 2019 to budú tri roky od spustenia prvej verzie portálu UVOstat.sk a preto som sa v sérii blogov rozhodol priblížiť, čo všetko stálo a stojí za jeho prevádzkou.


1. Nápad


V lete roku 2016 som po ôsmich rokoch menil zamestnávateľa. Dlhé roky práce v korporátnom prostredí, kde jediný cieľ je dodať lepšie "čísla" nadriadeným ma primäli sa zamyslieť, či môže mať moja práca aj vyšší zmysel. Keď vidím niekoho v strese z korporátnych termínov, eskalácií, či iných vymyslených problémov, tak si vždy poviem "Však nezachraňujeme životy, nik neumrie ak sa to nedodá načas", hlavne po dlhoročných skúsenostiach ako veľmi urgentné veci boli v deň dodania zrazu nepotrebné, lebo sa tak rozhodol niekto, koho som v živote nevidel a len tuším, že v hierarchii existuje niekde vysoko nado mnou. Preto som si ako dátový inžinier s dlhoročnými skúsenosťami spracovávania naozaj všemožných a občas aj nemožných dát povedal, že tieto skúsenosti využijem na niečo skutočne užitočné.


Už si nepamätám ako som objavil portál data.gov.sk, ale viem že hneď som sa tam začal virtuálne prehrabávať všetkými datasetmi, ktoré boli k dispozícii. Ako prvé mi napadlo pozrieť sa na policajné údaje z ministerstva vnútra, avšak ich datasety boli doslova zúfalé. Nanič štruktúra, ťažko použiteľné dáta na niečo zrozumiteľné, po pár desiatkach minút som prvotný plán zavrhol. Oproti dnešnému stavu datasetov bola v roku 2016 len hŕstka použiteľných v rozumne spracovateľnej forme, t.j. nie len niekoľko vyexportovaných excelových tabuliek od úradníka, preto som sa po chvíľke hľadania vrhol do študovania vestníka verejných obstarávaní. Pri týchto dátach som dostal pocit, že by sa z nich dalo vybudovať niečo užitočné, niečo viac ako len lepšie vyzerajúci online excel. Správnosť tohto nápadu sa mi vnútorne potvrdila aj týmto, vtedy už známym videom od slovensko.digital o miliarde minutej  na informatizáciu. Chcel som ukázať, že pre štát sa dá aj za zlomok peňazí a času urobiť niečo zmysluplné.


2. Prvotné nadšenie


Portál data.gov.sk ma možnosť pozrieť si náhľad datasetu, alebo si ho otvoriť celý. Po náhľade a otvorení prvého som si povedal ako dobre a prehľadne to vyzerá, to sa bude ľahko spracúvať. Odvtedy som si už neviem koľkokrát nadával za túto naivitu, pretože datasety vestníka sú všetko, len nie dobre štruktúrované. Asi to bolo len to prvotné opojenie/nadšenie po tom, čo som sa prehrabával akurát tak rôznymi textovými súbormi a excelmi na portáli. 


Oslovil som Úrad pre verejné obstarávanie s otázkou, či môžu poskytnúť manuál ku daným datasetom, avšak ani tri roky po spustení portálu som sa k nemu nedostal. Začal som teda študovať jeden vzorový vestník a k nemu pripravovať dátový model budúceho projektu. Dlhé hodiny som sedel nad formulármi a skúmal, čo asi môže daný atribút znamenať. Po niekoľkých dňoch študovania a prípravy kódu som spustil prvýkrát program na stiahnutie a sprocesovanie týchto dát. Oproti dnešnému stavu to bolo možno len 40% z hľadiska množstva rôznych typov údajov, ale už tu som prvýkrát silno narazil. 


3. Vytriezvenie


Po spustení programu a spracovaní vestníkov som si všimol, že v databáze sa nachádza príliš málo dát. Ručne som prechádzal jednotlivé xml formuláre vestníkov, napísal si pomocné programy na analýzu a zistil nasledovné: prvotné rozdelenie, s ktorým som počítal (Informácie o výsledku verejného obstarávania - kód IP a Oznámenia o výsledku verejného obstarávania - kód V) bolo vrcholne nedostatočné. Po preštudovaní výsledkov mojich analytických nástrojov sa mi potvrdilo to, čo som si myslel od začiatku, teda všetky xml súbory sú len veľmi nekvalitne urobený extrakt 1:1 z nejakého interného programu úradu, cez ktorý sa zadávajú údaje do systému. Kvôli takémuto prístupu dodávateľa systému a nekonzistentnosti programátorov v názvosloví pri vytváraní jednotlivých formulárov podľa požiadviek úradu/legislatívy som sa dopracoval postupne ku dnešnému dňu až k piatim desiatkam rôznych formulárov len o ukončených obstarávaniach, ktoré môžu a zároveň nemusia mať rovnako pomenované jednotlivé položky. Zjednodušene povedané, aj k tak jednoznačnému údaju ako či ide o financovanie z eurofondov sa raz položka volá "euFondy", inde je zas ukrytá v doplnkových informáciach s označením "ddldopInf1", alebo "druhPostupu4". Začal som teda hľadať všetky alternatívy a postupne sa mi nabaľoval kód, až do dnešných trinásť tisíc riadkov, ktoré len spracúvajú dáta z vestníka do databázy. 

Keď som začal projekt pripravovať, uvedomoval som si, že nie som skúsený programátor webových aplikácií a toto bude výborná škola. Tých trinásť tisíc riadkov kódu by sa určite dnes dalo prepísať oveľa efektívnejšie, avšak v danej dobe som to len lepil na seba podľa toho, čo nové som objavil a musel doplniť do spracovania, až sa to takto nafúklo. Prepisovať to určite tak skoro nebudem, keďže sa držím zásady "ak to funguje, nebabrať".


4. Mravenčia práca


Od augusta do novembra 2016 som po nociach sedel nad dátovými extraktami z vestníka a študoval jednotlivé formuláre, pridával položky a do nekonečna zbiehal dátový procesing. Snažil som sa odladiť chyby, ktoré som postupne nachádzal v spracovávaní a popri tom som pripravoval v spolupráci s Romanom dizajn portálu. Ten sme pár mesiacov po spustení prerobili do aktuálneho dizajnu, ale našiel som jeden starý screenshot z hlavnej stránky, tak je možné si spraviť predstavu ako sa posunul dizajn.


5. Spustenie


Začiatkom novembra 2016 som uverejnil prvú verziu portálu s číselným označením 0.9.  Veľmi naivne som očakával hype, ktorý samozrejme neprišiel (toto som už spomínal v minuloročnom zhrnutí na facebooku), keďže portál toho ponúkal strašne málo. Avšak vďaka blogu, ktorý som vtedy uverejnil na sme.sk som sa spoznal s človekom, ktorý mi dal cenné rady o obstarávaniach, ktoré boli jednou z motivácií prečo na tomto projekte pokračovať. 


Po troch rokoch pribudlo na portál obrovské množstvo údajov, nie len z verejných obstarávaní, ale aj z iných registrov. Rozbehol som úspešnú spoluprácu s organizáciami ako je napr. už vyššie spomenuté slovensko.digital, alebo Nadácia Zastavme korupciu,  spoločnosťou Finstat, či priamo s Úradom pre verejné obstarávanie. Taktiež som pripravil službu, ktorú si postupne všimol Úrad pre informatizáciu a následne aj ľudia v európskych štruktúrach, ktorí sa venujú otvoreným dátam.


Priblíženie tejto spolupráce, opis prevádzky takéhoto portálu a spracovávanie ďalších dátovych zdrojov opíšem v ďalšom dieli.




Ak sa vám myšlienka portálu uvostat.sk páči, môžete ju podporiť cez portál Patreon, alebo zahlasovať za článok na vybrali.sme.sk.


Autor: Miro Babič

Autor: Miro Babič
Tagy:
O projekte