Data-ammattilaiset toivovat tänä päivänä helpompia tapoja dataputkien rakentamiseen, jotta yritystoiminnan eri puolilla syntyvää dataa pystytään hyödyntämään tehokkaasti. Haasteena datan hyödyntämisessä ja liiketoiminnan tiedolla johtamisessa on kuitenkin jatkuvasti kiihtyvällä tahdilla kasvava datan määrä ja useat eri formaatit. Microsoftin vastaus dataputkimiesten toiveisiin on Azure Synapse Analytics. Tässä kirjoituksessa käyn läpi Synapse Analyticsin keskeisimpiä ominaisuuksia, jotka auttavat sinua ottamaan kaiken irti liiketoiminnan arvokkaasta datasta.
Mikä on Azure Synapse Analytics?
Azure Data Synapse Analytics on Microsoftin pilvipohjainen analytiikka-alusta, joka yhdistää rajattomasti skaalautuvat tietovarastointiratkaisut, big data -analytiikan sekä datan integroinnin järjestelmien välillä. Synapse Analytics nopeuttaa eri ympäristöistä tulevan datan yhdistämistä ja jalostamista analytiikan ja raportoinnin tarpeisiin mahdollistamalla dataputkien rakentamisen alusta loppuun yhdellä alustalla.
Synapse Analytics yhdistää parhaat puolet tietovarastoinnissa käytetyistä SQL-teknologioista, Apache Sparkin big data -analytiikan kyvykkyydet sekä Synapse Data Explorerin loki- ja telemetriadatan käsittelyn. Lisäksi Synapse Analytics toimii saumattomasti yhteen Azure Data Lake Storage 2:n kanssa, joka on suunniteltu massiivisten datamäärien varastointiin ja hallintaan.
Tietovarastointi Synapse Analyticsissa
Tietovarastointiratkaisut ovat avainasemassa pilvipohjaisten end-to-end -dataratkaisujen rakentamisessa. Big dataa ladataan useista lähteistä tietovarastoon jatkokäsittelyä ja analysointia varten. Azure Synapse Analyticsin SQL pools on tietovarastoratkaisu, jossa yhdistyvät tietovarastointi sekä big data -analytiikka.
Synapse SQL Pool on toteutettu arkkitehtuurilla, jossa laskenta on eriytetty muistista. SQL pool käyttää laskennassa Massively Parallel Processing (MPP) -moottoria, joka jakaa tietokantakyselyiden laskentakuorman tasaisesti laskentasolmuille (compute nodes). Tällainen arkkitehtuuri mahdollistaa laskentatehon kasvattamisen erillään muistista. Tietokannan kyselyiden hallinnasta puolestaan vastaa ohjaussolmu (control node), joka ottaa kyselyt vastaan sekä optimoi ja koordinoi kyselyiden jakamisesta laskentasolmuille.
SQL Poolissa tieto varastoidaan Azure Storageen ja erityisesti Azure Data Lake Storage Gen2:n, joka takaa datan turvallisen säilyttämisen ja hajautetun rakenteen ansiosta maksimaalisen suorituskyvyn kyselyiden suorittamiselle.
Data-analytiikka Synapse Analyticsissa
Datan analysointi on dataputken vaihe, jossa lähdejärjestelmistä tuodusta datasta muodostetaan liiketoiminnalle arvokasta informaatiota analytiikan avulla. Azure Synapse Analyticsin analytiikkaominaisuudet mahdollistavat valtavien tietomäärien analysoinnin. SQL pool ja sen tukema MPP-laskentamalli mahdollistavat nopeiden kyselyiden suorittamisen jopa petatavun suuruisiin tietojoukkoihin. Lisäksi Synapse Analytics tukee myös johtavaan big data -analytiikan viitekehykseen perustuvaa Apache Sparkia. Apache Sparkin suorituskyky mahdollistaa mm. koneoppimismalleja tukevien sovellusten luomisen. Apache Spark -viitekehystä osana data-platformia käyttävät mm. Microsoft, Apple, Facebook, sekä IBM.
Azure Synapse Data Explorer täydentää Synapse Analyticsin analytiikkakokonaisuuden ominaisuuksillaan, jotka mahdollistavat loki- ja telemetriadatan analysoinnin ja hyödyntämisen. Data Explorer on optimoitu lokianalytiikkaa varten tehokkaan puolistrukturoidun sekä vapaan tekstidatan indeksoinnin avulla.
Dataputkien rakentaminen Synapse Analyticsissa
Dataputket rakentuvat tyypillisesti erilaisista vaiheista, joiden tuloksena lähdejärjestelmissä oleva data saadaan tuotua halutussa muodossa liiketoiminnan hyödynnettäväksi. Dataputken ensimmäinen vaihe on datan tuominen lähdejärjestelmistä keskitettyyn tietovarastoon. Keskitetyssä tietovarastossa dataa voidaan muokata ja sille voidaan suorittaa tarvittavia analyysejä. Dataputken viimeisessä vaiheessa muokattu ja analysoitu data tuodaan halutussa muodossa lopulliseen tietovarastoon, josta se on hyödynnettävissä liiketoiminnan ja raportoinnin tarpeisiin.
Datan varastoinnin ja analysoinnin lisäksi Synapse Analytics mahdollistaa myös datan integroinnin ja dataputkien rakentamisen. Synapse Analyticsin avulla ETL-dataputkien rakentaminen onnistuu ilman koodin kirjoittamista, sillä Synapse Analytics integroituu yli 90 järjestelmään. Synapse Analytics Studio on graafinen hallintapaneeli, joka mahdollistaa dataputkien rakentamisen alusta loppuun, niiden ylläpitämisen sekä suojaamisen yhdestä paikasta.
Kattavien ominaisuuksien ja integraatioiden vuoksi Synapse Analyticsin käytön aloittaminen ei vaadi mittavia toimenpiteitä, sillä monipuolisuutensa ansioista se istuu hyvin niin on premise- kuin pilviympäristöihinkin. Me Sulavalla autamme tälläkin hetkellä asiakkaitamme muun muassa hyödyntämään dataa tehokkaammin Synapse Analyticsin avulla.
Ota rohkeasti yhteyttä, mikäli sinua kiinnostaisi keskustella tiedolla johtamisen avuksi tarjolla olevista mahdollisuuksista ja parhaista käytänteistä juuri teidän organisaatiossanne!