Medialukua Power BI:llä – kuinka data virusinfektiosta saadaan helposti käytettävään muotoon?

Kiinassa on valloillaan koronavirus, joka leviää vauhdilla. Eri uutistoimistot tuottavat tiheään tahtiin uutisia, ja usein uutisoidaan ”500 uutta tapausta Kiinassa” -tyylisesti. Uutta verrattuna mihin?
Paljonko tapauksia on nyt siis yhteensä todettu, paljonko oli toissa päivänä? Paljonko on lisäys ja lisääntyykö vai väheneekö tapauksien löytymisten suhteellinen kasvu päivässä? Onko kasvu eksponentiaalista vai lineaarista? Miltä tulevaisuus näyttää?

Uutisia lukiessa nousee mieleen monta erilaista kysymystä, joihin ei ihan heti löydy vastausta lehdistä tai Wikipediasta.
Onneksi on helppo mennä julkisen tiedon lähteille, katsomaan World Health Organisationin (WHO)  tilanneraportteja, jotka julkaistaan kerran päivässä. Raporteista löytyy virallinen tieto löydetyistä tapauksista kultakin päivältä omassa raportissaan maittain eriteltynä.

Olisi monta mahdollisuutta hakea tiedot tuolta WHO:n sivuilta. Power BI nykyään lukee PDF-tiedostojakin ja näytti ihan hienosti kaivavan raportista tuon taulukon, jossa tapausmäärät maittain luetellaan. Jonkinlaista Power Query -akrobatiaa kuitenkin vaatisi hakea sivulta kaikki PDF:t ja hurauttaa niistä tiedot yhteen. Nähdäkseni kuitenkin ihan tehtävissä ja tällaiseen Power BI:n Dataflows onkin ihan tarkoitettu.
Toinen mielenkiintoinen juttu olisi hyödyntää Azure Data Factorya, Azure Databricksiä ja Azure Data Lakea. Azure Data Factorilla haetaan tiedostot sellaisenaan Azure Data Lakeen talteen ja ohjelmoidaan Pythonilla Databricks lukemaan tiedostojen sisältä tiedot ja palauttamaan ne Power BI:lle.

Tässä olisi myös erinomainen esimerkkitapaus Ignitessa julkaistulle Azure Synapse Analyticsille, jolla saataisiin koko putki tuolta tiedon hakemisesta lopulliseen visualisointiin yhteiseen työtilaan ja kunkin osan tekijät voisivat sitä yhdessä läpinäkyvästi työstää. Palvelu on vielä private preview -vaiheessa, ja tälle käyttötapaukselle tuskin saa haettua omaa preview-ympäristöä Microsoftilta. Jos Azure Synapse Analytics kiinnostaa enemmän, katso webinaaritallenteemme YouTubesta viime vuodelta.

Vein kuitenkin tiedot nyt tylsästi ja nopeasti tietokantaan ATK:lla (= Antti Tapani Kontiainen copypastettaa) koska tietoa on vähän, se on helposti käsiteltävässä muodossa ja päivittyy vain kerran päivässä. Tässä kohtaa siis kustannustehokkain ratkaisu.
Tein pikaisen visualisoinnin ja lisäsin Power BI:n automaattisen ennustuksen. Tällä tavalla minun on helpompi saada kokonaiskuva siitä, mitä tapahtuu ja arvioida tilanne itse. Raportin voi myös jakaa muille kiinnostuneille, tai vaikka upottaa sen nettilehden sivuille.

Power BI:n ennustus toimii käyttäen Exponential Smoothing -algoritmiä. Kiinassa tapauksien määrä juuri nyt (28.1.2020) kasvaa eksponentiaalisesti, joten tuntuu, ettei algoritmi ihan usko kasvun jatkuvan samaan eksponentiaaliseen tahtiin. Mutta arvatenkin ennustus paranee sitä mukaa kun saadaan uutta dataa tulevilta päiviltä.

Helppoa, nopeaa ja ilmaista. Tässäpä sama raportti sinullekin katseltavaksi. http://kont.in/corona

Koronavirus levinneisyys Power BI -raportti tilanne 28.1.2020

Koronavirus levinneisyys Power BI -raportti tilanne 28.1.2020

 

Lue lisää: Kuinka Power BI auttaa käsittelemään suuria datamassoja?

Kuinka Power BI auttaa esimerkiksi toimittajaa suurten datamassojen käsittelyssä? Visualisointi tekee aiheista helpommin lähestyttäviä ja tuo personoinnin mahdollisuuksia. Power BI:n ansiosta uusien juttuaiheiden löytäminen ja taustatyön tekeminen on helpompaa, lue blogi!