SV Group Rješenja Big Data rješenja

Big Data rješenja

Big Data u najširem smislu predstavlja obradu i analizu velikih količina podataka. Može se reći da imate posla s “Big Data” ukoliko vam podaci više ne stanu u bazu podataka i ne možete ih obrađivati klasičnim alatima, tipično na jednom poslužitelju. Kako tehnologija napreduje i poslužitelji postaju sve moćniji, ta se granica polako pomiče prema gore.

Međutim, izazove s podacima često ne stvara samo njihova količina, već i kompleksnost. Ta ukupna kompleksnost često se mjeri s poznata četiri Vvolumevelocityvariety i veracity.

  • Volume se odnosi na samu količinu podataka gdje govorimo o terabajtima i petabajtima.
  • Velocity se odnosi na brzinu kojom velika količina podataka pristiže. Danas se sve više pažnje obraća obradi podataka u realnom vremenu.
  • Variety se odnosi na raznolikost podataka. Podaci često dolaze u cijelom nizu raznih strukturiraniih i nestrukturiranih formata i oblika što utječe na kompleksnost analitike.
  • Veracity se odnosi na razinu nepouzdanosti i nepreciznosti u podacima. Procesi analize često se provode nad nesturkturiranim i “prljavim podacima” što može rezultirati netočnim zaključcima.

Big Data u užem smislu

U užem smislu, termin Big Data označava skup alata i sustava za obradu, analizu i pohranu podataka. Hadoop je omogućio pohranu i analizu podataka na jeftinim poslužiteljima te približio Big Data analitiku i manjim tvrtkama. Uz Hadoop (koji se sastoji od Hadoop distribuiranog datotečnog sustava – HDFS-a, MapReduce frameworka za programiranje distribuiranih obrada te YARN sustava za izvršavanje distribuiranih obrada), tu je i cijeli niz drugih alata i sustava koji zajedno čine “Hadoop ekosustav”. U nastavku dajemo pregled važnijih alata iz tog skupa.

  • Kafka je distribuirani i visoko skalabilni sustav za slanje i primanje poruka. Kafka perzistira svaku poruku na disk tako da može služiti i kao pouzdani sloj za asinkronu razmjenu poruka među sustavima. Kafka Streams i Kafka Connect komponente omogućuju pisanje programa za kontinuiranu obradu i pohranu poruka u realnom vremenu.
  • Apache Spark je distribuirani sustav za obradu podataka. Spark obrade su znatno brže (i do 100 puta!) od njihovih Hadoop MapReduce ekvivalenata. Osim toga nudi vrlo koncizan i jasan API koji pruža funkcionalnosti za obradu strukturiranih podataka korištenjem standardnog SQL-a (Spark SQL komponenta), obradu nestrukturiranih podataka (Spark Core), organizaciju podataka u grafove (Spark GraphX), algoritme za strojno učenje (Spark ML) te obradu podataka u realnom vremenu (Spark Streaming). Spark je danas ušao u mainstream i dio je svih Hadoop distribucija i koristi se u mnogim tvrtkama diljem svijeta. Najveći Spark clusteri danas sastoje se i od stotina tisuća poslužitelja. Ukoliko želite dobiti više informacija o Sparku, preporučujemo knjigu Spark in Action (www.sparkinaction.com) koju je napisao naš kolega Petar Zečević.
  • HBase je distribuirana baza podataka optimizirana za brzo pronalaženje i čitanje podataka. Bazirana je na Google Big Tableu, a podatke sprema na HDFSu. Cijeli niz značajki razlikuje je od klasičnih relacijskih baza podataka: od činjenice da podatke sprema po kolonama, a ne retcima, pa do toga da ne koristi klasične indekse i omogućuje spremanje različitog broja i tipova kolona u različitim retcima. Jedna je od najčešće korištenih baza podataka u Big Data svijetu.
  • Hive je Hadoop skladište podataka. Strukturirani podaci, kojima Hive upravlja, spremaju se na HDFS. Hive može pristupati i vanjskim izvorima podataka, kao što su klasične relacijske baze te Parquet ili ORC datoteke na HDFSu. HiveQL (inačica SQLa) koristi se za pristup i upravljanje tim podacima. Hive tradicionalno koristi spori MapReduce engine za izvršavanje SQL upita, no u tijeku je implementacija korištenja Sparka kao izvršnog sustava.
  • Cassandra je još jedna distribuirana baza podataka, također bazirana na Google Big Tableu, no ona je više optimizirana za brzo zapisivanje podataka. Često se koristi za pohranu vremenski-ovisnih (ali i drugih vrsta) podataka. Omogućuje fleksibilno podešavanje razine konzistentnosti za svaki upit te je otporna na padove pojedinih poslužitelja.

Izostavili smo cijeli niz drugih alata i frameworka, manje ili više važnih, jer smo ograničeni prostorom. Više informacija možete dobiti ovdje.

Hadoop distribucije

Zbog velikog broja raznih alata koji se obično zajedno koriste u Big Data projektima, može doći do nekompatibilnosti njihovih verzija. Kako bi njihovo korištenje bilo što bezbolnije, pojavile su se Hadoop distribucije koje pakiraju međusobno kompatibilne verzije alata u jednu veliku cjelinu te nude dodatne alate za osiguravanje clustera te upravljanje istim (dodavanje poslužitelja, nadogradnje verzija itd.).

Neke od najpoznatijih Hadoop distribucija su IBM Big Insights, Hortonworks, Cloudera CDH i MapR. IBM Big Insights se, primjerice, sastoji od sljedećih komponenata: Ambari (služi za upravljanje clusterom), Knox i Ranger (služe za osiguravanje clustera), Avro, Flume, Hadoop, HBase, Hive, Kafka, Oozie, Parquet, Parquet-mr, Pig, Slider, Solr, Spark, Sqoop, ZooKeeperTitan, Phoenix, Text Analytics, Big SQL, Big R i BigSheets.

Slučajevi korištenja

Kada biste, dakle, trebali koristiti Big Data alate?

Prije svega, ako imate više podataka nego što možete efikasno obrađivati na jednoj mašini, opravdano je migrirati obrade na distribuirani sustav. Slično je ako očekujete veliki priljev podataka u budućnosti pa je opravdano implementirati Big Data sustav kao pripremu za tu situaciju.

Pojam usko vezan uz Big Data projekte je i data lake, ili podatkovno jezero. Radi se o ideji da se na jednom mjestu (tipično na HDFS-u i u Big Data bazama podataka) čuvaju svi podaci organizacije kako bi bili lako dostupni svim zainteresiranim stranima te kako bi se na taj način omogućilo što bolje iskorištavanje podataka. Činjenica je da organizacije uspješno koriste samo mali dio dostupnih podataka. Analizirajući sve dostupne podatke o klijentima i vlastitoj organizaciji moguće je znatno unaprijediti poslovanje. Dostupnost podataka na jednom mjesto omogućuje i prediktivnu analitiku upotrebom statističkih metoda te metoda strojnog učenja.

U čemu Vam SV Group može pomoći?

SV Group ima iskustva s izradom Big Data rješenja. Uspješno smo pomagali raznim tvrtkama u migraciji klasičnih obrada na Big Data tehnologije, s ciljem njihovog višestrukog ubrzavanja. Dizajnirali smo hardverske i softverske Big Data infrastrukture za podršku velikim obradama. Implementirali smo aplikacije za obradu velikih količina podataka u realnom vremenu (streamingaplikacije). Izradili smo rješenje za social network analysis vizualizacijom grafova, a vladamo i metodama strojnog učenja i prediktivne analize.

Ukratko, možete nam se s povjerenjem obratiti jer smo u stanju podržati Vaš Big Data projekt u svim njegovim fazama!

Zaključit ćemo citatom konzultanata trvtke McKinsey koji su u svom izvješću “Big data: The next frontier for innovation, competition, and productivity” napisali:

“The use of Big Data will become a key basis of competition and growth for individual firms, mostly computer and information, finance, insurance, and government sectors”

SV Group njeguje dugoročan, stabilan poslovni odnos sa svojim korisnicima,
partnerima te cjelokupnom društvenom zajednicom.

kontakt