O kurze 

Počas kurzu si prejdeme všetkými komponentami projektu data science. Začneme jednoduchým nápadom a hypotézou. Skončíme konkrétnym vyhodnocovaním modelu strojového učenia. Tento krátkodobý kurz teda obsahuje veľmi konkrétnu transformáciu. Po jeho absolvovaní sa môžete zúčastňovať na projektoch data science! Každý takýto projekt je totiž integrovaný v nejakej doméne (napríklad, bankovníctvo). Ak máte teda znalosti z domény, v ktorej má byť data science projekt implementovaný, môžete do projektu prispieť práve svojimi znalosťami z danej domény. Tento kurz Vás naučí koncepty a základy potrebné na to, aby ste mohli veľmi efektívne prispievať do projektov. Napríklad, po absolvovaní kurzu dokážete efektívne definovať vhodné nápady na data science projekty alebo vyhodnotiť kvalitu prediktívneho modelu pre použitie v danej doméne.

Upozornenie: V tomto kurze sa NEbudeme učiť “hands-on” data science. Tento kurz je pre Vás teda vhodný aj keď nemáte v budúcnosti plány programovať v Pythone alebo SQLku. Ak takéto plány máte, tak Vás kurz naučí mnoho veľmi potrebných konceptov, ktoré v budúcnosti určite aj prakticky implementujete.

Prejdime si teraz jednotlivými kapitolami, ktoré na Vás v kurze čakajú:

 

Od hypotézy k hodnotnému projektu

Každý data science projekt alebo use case začína veľmi jednoducho - nápadom. Následne musíme nápad premeniť na konkrétnu hypotézu. Keď už hypotézu máme, je hodnotné, ak si dokážeme nastaviť nejaký konkrétny biznis cieľ, ktorý chceme pomocou tejto hypotézy dosiahnuť. Pokračujeme nastavením metrík, ktoré nám indikujú či sa k nášmu cieľu približujeme. Úplne na záver potrebujeme nastaviť AB testing, pomocou ktorého dokážeme metriky efektívne sledovať. Nachádza sa v tomto paragrafe priveľa novej terminológie? Nevadí! O všetkom si totižto povieme v prvej časti kurzu a vysvetlíme si tak všetko potrebné o začiatku data science projektu.


Dáta a ich spracúvanie

Keď som sa ja (Robo) začal učiť o data science, nevedel som si celkom dobre predstaviť, čo vlastne dáta sú a akú majú podobu. Presne tým začneme túto prednášku a vysvetlíme si, že data science naozaj dokáže pracovať s dátami v akejkoľvek forme. V ďalšej časti prednášky si povieme o hardware, ktorý samozrejme potrebujeme, ak chceme s dátami pracovať. Povieme si teda niečo o komponentoch počítača a rôznych “formách” počítača - ako náš laptop, vlastný server alebo cloud. Posledná vec, ktorú potrebujeme na spracovanie dát je softvér. Uvedieme si rôzne príklady nástrojov a jazykov, ako napríklad SQL, R, Python a povieme si kedy je ktorý z nich vhodný a naopak nevhodný.


Objavovanie informácií v dátach

Náš projekt je zadefinovaný, máme k dispozícií dáta, hardvér aj softwér. Čo teraz? Konečne sa môžeme pozrieť na to, čo v našich dátach vlastne je! V tejto prednáške si povieme o základných metódach, ktoré môžeme využiť pri objavovaní informácií v dátach. Jedná sa o rôzne štatistické metódy a taktiež o metódy dátovej vizualizácie. Môže sa ale stať, že naše dáta budú skreslené alebo svoju rolu zahrá náhoda a my narazíme na niečo, čo by sme v skutočnosti nemali považovať za hodnotnú informáciu. Povieme si teda aj o rôznych pasciach, ktoré sa v dátach môžu skrývať.


 Inferencia a prediktívne modelovanie

Keď už máme poňatie o našich dátach, využitie machine learningu a prediktívneho modelovania môže byť hodnotné. V tejto prednáške si uvedieme základné princípy prediktívneho modelovania. Napríklad, povieme si prečo je dôležité nechať si časť našich historických dát “bokom” a neučiť sa z nich (takzvaný holdout set). Existujú taktiež rôzne filozofie využitia prediktívnych modelov - môžeme sa, napríklad, snažiť o vytvorenie jednoduchého modelu alebo modelu, ktorý bude mať veľmi vysokú presnosť. Existuje veľa rôznych “rodín” modelov strojového učenia, ktoré môžeme použiť, a preto si ich predstavíme (PS: toto je naozaj zábavná časť kurzu:) ). Predstavíme si lineárne modely, rozhodovacie stromy, náhodné lesy a dokonca aj neurónové siete! Všetky tieto znalosti použijeme v nasledujúcej časti kurzu.


 Klasifikačné a regresné problémy

Je čas ísť do hĺbky strojového učenia a prediktívneho modelovania. Zameriame sa na dva základné problémy, s ktorými sa pri supervised learningu môžeme stretnúť. Tými sú klasifikačný a regresný problém. Na vyriešenie klasifikačného problému vybudujeme rozhodovací strom a na vyriešenie regresného problému zas lineárnu regresiu. V oboch prípadoch sa pozrieme do srdca týchto machine learningových modelov, kde sa nachádza takzvaná “cost function”. No a nakoniec sa musíme zamyslieť ako vyhodnotiť presnosť a úspešnosť týchto modelov. Povieme si teda, napríklad, o nástrojoch ako “confusion matrix” alebo “residual analysis”.


 Uvedenie modelu “do produkcie”

Počas kurzu sme už vytvorili rôzne modely data science - od vizualizácií až po modely strojového učenia. Ak ich však necháme takpovediac “na papieri”, tak z nich, samozrejme, žiadny úžitok nebude. Potrebujeme ich využívať v praxi a dať ich do produkcie. Tento posledný krok však nie je úplne priamočiary. Náš model potrebujeme chápať ako experiment a rátať napríklad s tým, že sa rôzne veci môžu pokaziť. Nemusíte sa však báť, o všetkom podstatnom si povieme v poslednej časti kurzu!


Čo si z kurzu odnesiem?

  • Schopnosť zadefinovať hypotézu, na ktorej môže byť založený data science projekt v doméne, ktorú poznáte.
  • Schopnosť využiť základné nástroje, ktoré každý data science projekt potrebuje - zadefinovaný biznis cieľ, biznis metriky a AB testing.
  • Znalosť základných komponentov počítača a ako ich využívame na prácu s dátami.
  • Prehľad o rozdieloch v práci medzi vlastným laptopom, vlastným serverom a cloudom pri práci s dátami.
  • Prehľad o rôznych softvéroch, ktoré môžeme využiť pri práci s dátami ako SQL, Python, R alebo rôzne BI tooly.
  • Znalosť základných štatistických a vizualizačných metód, ktoré využívame pri objavovaní informácií v dátach.
  • Znalosť o základných princípoch prediktívneho modelovania - napríklad, čo je to holdout set alebo aký je rozdiel medzi “statistical learning” a “machine learning”.
  • Vedomosť o srdci každého prediktívneho modelu - “cost function” a ako ju model využíva pri učení sa z dát.
  • Základnú znalosť o algoritmoch “decision tree” a “linear regression”.
  • Schopnosť vyhodnotiť kvalitu klasifikačného alebo regresného modelu, napríklad pomocou “confusion matrix” alebo “residual analysis”.


Ako bude tento kurz prebiehať?

Po zápise na tento kurz budete mať prístup ku všetkým video lekciám, ktoré kurz obsahuje a inštruktor bude k dispozícií na vaše otázky na emaily. Štúdium lekcií si môžete čo najlepšie prispôsobiť vašim preferenciám a prechádzať nimi vlastným tempom. 

 

Počas celého trvania kurzu budete mať k dispozícií komunitu na Discorde a neustálu podporu od inštruktora, takže sa nemusíte cítiť osamelo počas štúdia. :) Môžete ho kontaktovať na [email protected] v prípade, že:

  • …vám nie je úplne jasná ktorákoľvek časť preberaného učiva
  • …potrebujete detailnejšie dovysvetliť určitý koncept preberaného učiva 
  • …potrebujete kariérne poradenstvo (napr. skonzultovanie pracovnej pozície, o ktorú máte záujem)
  • …máte akékoľvek iné technické či netechnické otázky :) 

 

Technická podpora počas kurzu a akékoľvek otázky týkajúce sa preberaného učiva budú zodpovedané do dvoch pracovných dní. Otázky anonymne zverejníme v dokumente, aby sme sa od seba mohli navzájom učiť. Vaše otázky z oblasti kariérneho poradenstva budú zodpovedané do troch pracovných dní.

Čo je potrebné na absolvovanie kurzu?

Stabilné internetové pripojenie. Pre sledovanie video lekcií či prácu na cvičeniach je internetové pripojenie neustále potrebné.

Vstupné požiadavky

Základná znalosť princípov data science. Môžete ich získať, napríklad, pomocou nášho kurzu “Spoznaj Data Science” alebo pomocou absolvovaní nášho seriálu prednášok zdarma (“Čo je data science?”, “Ako sa algoritmy učia?”, “Kariéra okolo dát?” a “Algoritmy vidia a čítajú”).

Ak sa z nejakého dôvodu týchto kurzov/prednášok nezúčastníte, je dôlezité, aby ste: 

  • zvládali stredoškolskú matematiku,
  • vedeli základné informácie o tom, čo je data science, machine learning, databáza alebo štatistika,
  • vedeli o základných štatistických nástrojoch ako počítanie priemeru alebo smerodajnej odchýlky,

Žiadne technické znalosti (ako napríklad programovanie v Pythone) nie sú potrebné.

Video