Тренінг Data Science

ПРОСУНУТИЙ РІВЕНЬ

Опис

Ласкаво просимо до чотирьохденного інтенсивного тренінгу  Data Science Bootcamp!

Цей практичний тренінг розраховано на новачків у сфері Data Science, на ньому ви будете вивчати основи науки про дані під керівництвом ведучих фахівців IBM.

Ви дізнаєтеся, як використовувати популярні мови програмування для аналізу даних та їх візуалізації, зануритеся в алгоритми машинного навчання, а також матимете можливість застосувати свої нові навички у дипломному проекті Data Science.

Необхідні вимоги до учасників тренінгу:

Ви маєте впевнено володіти мовою програмування Python або успішно пройти наступний тригодинний онлайн-курс для початківців:

 

Python 101 (https://cognitiveclass.ai/courses/introduction-to-python/)

Цей безкоштовний курс надає необхідний для початківців обсяг знань та навичок з Python. Виконайте усі лабораторні роботи, і ви будете готові розпочати аналіз даних під час тренінгу.

Учасники тренінгу під час навчання мають використовувати власні ноутбуки.

Програма

День 1. Ранкове заняття: Вступ до Data Science (науки про дані)

Що таке наука про дані? Дізнайтеся про важливість даних, машинного навчання й Big Data (великих даних), а також про безкоштовний освітній онлайн ресурс IBM, присвячений науці про дані. Ознайомтеся із популярними інструментами для відкритих наукових досліджень за допомогою платформи IBM Data Scientist Workbench, до якої входять Jupyter (IPython), RStudio IDE, Apache Spark, Apache Hadoop тощо.

День 1. Післяобіднє заняття: Вступ у програмування для Data Science (Python / R)

Python / R – популярні мови програмування для науки про дані. Нічого не знаєте про ці мови або вам потрібно освіжити їх у пам'яті? Без проблем. Виберіть мову, і ви дізнаєтеся її основи. Ми розглянемо основи програмування на Python / R, що забезпечить вам серйозну базу, яку ми будемо використовувати для аналізу і візуалізації даних, машинного навчанні та роботи з великими даними під час цього тренінгу.

    Теми заняття

  • Початок роботи з середовищами розробки та бібліотеками Python або R
  • Числа, змінні, логічні вирази
  • Масиви, матриці, списки і блоки даних (Dataframes)
  • Читання даних із файлів
  • Цикли й умовні оператори
  • Функції користувача

День 2. Ранкове заняття: Аналіз даних

Дізнайтеся, як аналізувати дані за допомогою R або Python. Цей розділ надасть вам знання від основ R до вивчення різних типів даних. Ви дізнаєтеся, як підготувати дані для аналізу, виконувати простий статистичний аналіз, створювати наочні візуалізації даних, прогнозувати майбутні тенденції на основі даних та багато чого іншого.

    Теми заняття

  • Імпорт наборів даних
  • Очищення даних
  • Маніпуляції з блоками даних
  • Сумарні дані

 

День 2. Післяобіднє заняття: Візуалізація даних

Картинка вартує тисячі слів, а в нашому випадку – тисячі значень даних? У цьому розділі ми розглянемо, як створити гарні й зрозумілі візуалізації. Дізнайтеся, як побудувати гістограми, лінійні графіки, стовбчаті діаграми та багато іншого. Потім перейдемо до візуалізації текстових даних за допомогою текстових хмар. Далі – створення візуалізацій у вигляді географічних карт. І, нарешті, ви дізнаєтеся як створити інтерактивну візуалізацію землетрусів.

    Теми заняття

  • Введення до візуалізації даних за допомогою R / Python
  • Базові графіки (гістограми, лінійні графіки, стовбчаті діаграми, секторні діаграми)
  • Точкові та лінійні графіки
  • Картографія та геодані
  • (Тільки R: практика з Shiny Dashboard – землетруси)
 

День 3. Ранкове заняття: Машинне навчання

Як можна змусити машини самостійно навчатися, використовуючи наявні дані? У цій частині ви отримаєте огляд популярних алгоритмів машинного навчання. Для того, щоб отримати практичний досвід роботи з машинним навчанням, ви будете працювати з реальними наборами даних і практикуватися у методах інтелектуального аналізу даних для прогнозування цін на житло, класифікувати рецепти їжі, кластеризувати дані з метеорологічних станцій, а також створите систему рекомендацій для книг.

    Теми заняття:

  • Огляд машинного навчання
  • Регресії
  • Класифікація (Дерева рішень)
  • Кластеризація (k-means)
  • Система рекомендацій (collaborative filtering)

День 3. Післяобіднє заняття:  Аналіз великих даних

Ви дізнаєтеся, як працювати з великими даними, використовуючи Apache Spark. Spark – це легка фронт-енд бібліотека, яка використовується для розподіленої обробки великих даних. Ви навчитеся зчитувати дані з великих наборів та виконувати попередню обробку цих даних.

    Теми заняття:

  • Введення до програмування Apache Spark на Python / R
  • Читання даних з великих наборів
  • Виборка даних, фільтрація та агрегація великих даних

День 4. : Дипломний проект з науки про дані

Давайте вирішувати реальні проблемі за допомогою науки про дані! У цьому розділі вам буде надано час, щоб під наглядом викладача застосувати те, чому ви навчилися, для вирішення реальної проблеми. Ваш проект включатиме до себе ідентифікацію проблеми, пошук відкритого набору даних, попередню обробку даних, узагальнення та візуалізацію даних, а також застосовування машинного навчання, щоб продемострувати розуміння ваших даних. Публікуйте свої висновки в Інтернеті та представляйте ваші результати колегами. Якщо цей тренинг провадиться для конкретної організації, дипломні проекти можуть бути налаштовані таким чином, щоб ґрунтуватися на даних і проблемах, які мають відношення до організації, а також використовувати наявні в організації набори даних у безпечному та приватному середовищі.



СЕРТИФІКАЦІЯ & IBM BADGE

Наука про дані тренінг валідація

Відзнака Data Science Bootcamp (validated badge)

Після завершення тренінгу ви можете взяти додатковий очний підсумковий іспит. Якщо ви отримаєте прохідний бал, ви отримаєте:

    – Сертифікат проходження Data Science Bootcamp

    – Підтверджену відзнаку Validated IBM Badge for “Data Science Bootcamp”

ПРОСУНУТИЙ РІВЕНЬ

ВІДГУКИ

INTEGRATED TECHNOLOGIES LABORATORY LTD.
Website: www.intela-edu.com

Надішліть мені рахунок-фактуру