Анти-opengov или премеждията ми с регистъра за ражданията

7
Добави коментар
yurukov
yurukov

„Ако пуснем свободно данните, те ще ги вземат!“

Вероятно си спомняте, че в началото на годината отворих данните на регистъра за ражданията. Министерството на здравеопазването създаде система, в която болниците са длъжни да вписват всички раждания, подробности за бебето и майката, кой е водил процедурата, дали има инвитро и прочие. Много полезна информация, от която за жалост имаме достъп само до общата бройка раждания за регионите. И това обаче е нещо. От съобщението на министерството става ясно, че всеки ще има достъп до тези данни на страницата на министерството.

Да, ама не…

Още от самото начало забелязах, че сайта не е достъпен от чужбина. Успях да го отворя през прокси в България и не ми хареса как са го направили. Затова направих своя визуализация. Тъй като данните от техния сайт не бяха отворени, направих скрипт, който да ги тегли и да ги предоставя свободно в лесен за анализ формат. Всичко течеше добре, докато от министерството не блокираха първо сайта ми, а след това и всички прокси сървъри. Така известно време читатели на този блог теглеха данните и ми ги пращаха докато не блокираха и тях. В началото на февруари проведох няколко разговора с отдел „Електронно здравеопазване“, които поддържат платформата. Те твърдят, че не са блокирали никой.

Сега виждам, че сайта е променен отново. В началото на статията ще намерите снимка на голямото нововъведение – на всеки 10 заявки иска анти-спам код. Това само по себе си обезсмисля публикуването на данни. Голям плюс е, че вече показват цифрите в табличен вид с възможност за сваляне (вероятно след като го споменах 3-4 пъти), но и там има два проблема – първо данните не са разделени по дни, а сумарно за избрания период. Второ – данните са с Windows-1251 кодировка, което противоречи на всички стандарти.

Тези „подобрения“ са една малка стъпка напред и няколко големи назад. Точно това имам предвид, когато говоря за псевдо-отворени данни и илюзия за прозрачност. В случая наистина имаме информация, които е публична. Ако обаче се опитате да я вземете за анализ, процедурата е максимално усложнена. Да не говорим, че автоматичното сваляне е практически невъзможно.

Днес се опитах да се свържа с отдел „Електронно здравеопазване“ към министерството, но всички експерти там ме насочваха към шефа им – Благой Миров. Точно с него говорихме преди. За жалост ми казаха, че е бил зает през целия ден и вероятно затова не ми вдига. Всъщност след като по някое време му писах мейл обяснявайки написаното горе, веднъж ми вдигна жена от неговия телефон с „Да моля“ и ми затвори веднага като разбра кой съм.

Както и да е… Вчера успях да обновя отворените данни в моя сайт и са актуални към 19-ти март. Има няколко грешки през февруари заради стария скрипт за теглене, но ще ги оправя скоро. За да ги обновя, се наложи първо да сваля ден по ден данните за последните 7 седмици (5-6 анти-спам кода), да ги прекодирам в UTF-8, да ги сортирам по региони, да ги обединя в един файл, да добавя дати и да ги синхронизирам с наличните данни на сайта ми. От там може да свалите таблицата такава, каквато министерството трябваше свободно да предостави на първо място. Аз знам как да направя всички тези трансформации и то сравнително бързо. Колко обаче го могат и биха седнали да се занимават?

Впрочем, преди месец добавих още една интересна метрика – сравнение с раждаемостта през 2010-та. Изчислявам средно колко деца са се родили дневно във всеки регион тогава и сравнявам с избрания период от 2012-та. Вижда се много ясно в проценти кои региони изостават и кои са напред. На тази страница ще откриете и други отворени данни, които съм публикувал.

Тази статия е публикувана на 20 март 2012, има 595 думи
и е в следните категории: България, Технологии и Интернет. Защитена е с лиценз CC BY-SA.
Можеш да следиш коментарите по статията чрез този RSS 2.0 абонамент.

Можеш да оставиш коментар, или trackback към твоя сайт.