Карьерный Лифт в Канаде

За кулисами профессии Data Scientist

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 22:35

В этом эпизоде мы говорим с экспертом по работе с данными. Наш гость - Игорь Путренко, senior data scientist, специалист по анализу данных с 20-летним опытом в Канаде. Игорь помогает организациям принимать решения на основе данных и внедрять AI-решения. Он  создает предиктивных моделей и системы принятия решений на базе искуственного интеллекта. 

В этом выпуске Игорь поделится практическим взглядом о профессиональном развитие в сфере data science. 

Контактная информация:

Подписывайтесь на подкаст Карьерный Лифт в Канаде, чтобы не пропустить новые выпуски. 

Если вы ходите быть гостем подкаста, пишите на stellarcareerguide@outlook.com. 

Elena Bobyreva, Host

Привет всем! Сегодня мы поговорим о профессии Data Scientist. Наш гость - Игорь Путренко, эксперт по работе с данными. Игорь создает умные модели на базе данных и современных технологий, включая искусственный интеллект. Его модели помогают организациям увеличивать доход и лучше понимать своих клиентов. Игорь расскажет нам о своей профессии, о рынке труда для таких специалистов, как он, и какие навыки сегодня особенно востребованы среди Data Scientists. Игорь, добро пожаловать на подкаст ⁇ Карьерный лифт в Канаде. Расскажи нам, чем ты сейчас занимаешься.

Igor Putrenko, Guest

Здравствуй, Лена. Рад встретиться с тобой и ответить на твои вопросы. Я работаю как Data Scientist, и сейчас проект у меня с. Тима Балл - это известная американская телекоммуникационная компания. То, что входит в мою работу, это разные направления. То есть Data Scientist - это общее название роли, сюда входит статистика, машинное обучение, генеративный AI, это и анализ бизнес-данных, это и дата-инжиниринг, сюда входит много различных направлений, и это весь спектр для разных дата-стантей в зависимости от роли. Моя задача - построение моделей машинного обучения, моделей искусственного интеллекта с целью предсказания каких-то процессов, результатов, вопросов, по которым звонят клиенты T-Mobile. Это могут быть технические вопросы, это могут быть вопросы, связанные с их аккаунтом, оплатой и так далее, чтобы перенаправить тех, кто звонит на агентов, которые этим занимаются. И задача, конечно, оптимизировать эти процессы, сократить операционные расходы и увеличить ROI return investment. Это задача, в общем-то, для каждых бизнесов.

Elena Bobyreva, Host

Спасибо. А что входит в проекты по Data Science?

Igor Putrenko, Guest

Если говорить более конкретно, что сюда входит, то это на первом этапе взаимодействие с бизнес-стейхолдерс, то есть subject matter experts, которые знают свою область, которые знают данные, естественно, лучше меня. И моя задача узнать у них как можно больше информации об этих данных и помочь сформулировать эти бизнес-проблемы и конвертировать эти проблемы на язык математики, язык машинного обучения, язык искусственного интеллекта, и уже построение, работа с данными, очистка этих данных, подготовка этих данных для того, чтобы делать обучение моделей, валидация, оценка этих моделей, мониторинг этих моделей, то есть уже когда они находятся в продакшне называется по-английски, это deployment, и уже мониторинг этих моделей, оценка того, как они, работают ли они действительно не только на уровне статистики или машинного обучения, а как они помогают бизнес-процессам, снижаются ли расходы, увеличиваются ROI и так далее.

Elena Bobyreva, Host

То есть data scientists тоже очень много работают с данными, и скорее всего 80% вашей работы - это чистка, подготовка данных, а 20% - это уже более творческие процессы, когда вы анализируете и используете эти данные.

Igor Putrenko, Guest

Абсолютно, потому что данные - это наше все данные для классических моделей машинного обучения, классического AI, скажем так, мы сейчас называем классический AI, генеративный AI. Если мы говорим о больших языковых моделях LLM, это тоже данные. То есть, какие данные мы подготовим? От этого будет зависеть, насколько будет хороша эта модель. В конечном итоге, насколько она будет решать бизнес-проблемы и улучшать эти бизнес-процессы, операционные процессы. То есть данные, да, это примерно так считается. То есть это 80%, наверное, так и есть. Это не только очистка данных, но, скажем так, взаимодействие с бизнес-стейкхолдерс, понимание этих данных, что включать, отбор фичерс, это то, на чем строятся модели, мы берем экосистему Python или там Pyspark и уже используем примерно там, грубо говоря, одна-две строки кода, а все остальное - это, ну и оптимизация, конечно, этих параметров, этих алгоритмов, но все остальное данные. То есть данные - это номер один, это важно, без данных, какой бы AI ни был - генеративный, классический, насколько там продвинуты эти LLM, как они решают эти задачи. Да, данные так и есть. Все так и есть.

Elena Bobyreva, Host

Да, от данных зависит очень много. Скажи, какие навыки важны для того, чтобы быть успешным в профессии Data Scientist?

Igor Putrenko, Guest

Если мы говорим о Data Science, AI, ML инженер, то есть вот эти позиции, они сейчас очень сильно между собой перекликаются для этих позиций, что нужно. Это, конечно же, хорошее знание статистики, машинного обучения, что такое генеративный AI, не просто в общих чертах, а понимать, что такое большие языковые модели, как они строятся. В подавляющем большинстве случаев мы не строим модели, мы используем провайдеров, таких как OpenAI, CLOD, GMI и так далее. Но знать, как эти модели работают, какие модели, где применять, как их при необходимости делать, fine-tuning, доводить их до того состояния, которое требуется бизнесу. Это очень важно. То есть машинообучение, статистика, генеративный AI, естественно, кодирование, прежде всего, Python в этой области, ну и Seqel. Здесь работа с большими данными. Это PySpark, Spark и PySpark. Ну и естественно, никому не помешает знать, если вы знаете JavaScript, TypeScript и так далее. Это тоже очень хорошо. Знание математики великолепно, особенно прикладных областей математики, таких как, например, линейная алгебра.

Elena Bobyreva

То есть, чтобы быть успешным data scientist, нужно знать и статистику, и математику, и программирование - то есть много технических навыков. Скажи, а как искусственный интеллект сказывается на твоей работе? Он облегчает решение задач?

Igor Putrenko, Guest

Но сейчас еще один интересный новый навык играет все больше и большую роль. Это, ну, мы можем назвать это так: вайп-кодин или работа с кодированием с помощью AI-ассистентов. Я сейчас не пишу код уже с самого, так сказать, from scratch. Зачастую я ставлю проблемы, пишу промпт, и создается код, который я уже потом смотрю, подходит, он не подходит. Я его модифицирую, верифицирую, насколько он правилен, модифицирую задачу и так далее. То есть продуктивность возрастает в разы, а я бы сказал, и в 10, и в 20, а может быть, и в 30 раз. И более того, какие-то задачи сейчас уже не только написание кода, но и уже и решение этих задач. То есть искусственный интеллект, генеративный уже может помочь в решении задач. То есть мы превращаемся к водителей таких классных машин, вместо того, чтобы идти пешком.

Elena Bobyreva, Host

Да, это хорошее сравнение. Сейчас все профессионалы следят внимательно, как искусственный интеллект влияет, а иногда и замещает их профессии. Согласно отчету Hey's за этот год, Data Scientist достаточно устойчивы к влиянию искусственного интеллекта. Ты согласен с этим мнением? Или ты думаешь, что со временем автоматизация искусственного интеллекта заменит специалистов в этой отрасли?

Igor Putrenko, Guest

Да, это очень хороший вопрос, Лена. В чем-то согласен, в чем-то, наверное, нет. В чем согласен, что действительно, сейчас я использую Data Bricks, это своя среда, то есть e-mobile, у них своя среда, блокируется чат GPT, если используются модели, только те модели, которые одобрены. То есть, это такая регулировая среда. У них в Data Bricks сейчас есть прекрасный AI-ассистент Jenny Code. Он строит конвейер данных, нужно просто указывать части кода - просто фантастика. И, конечно же, скажем так, начнем с позитивного. Все равно нужно эти бизнес-проблемы понимать, нужно переводить на язык, то есть ставить задачи этому искусственному интеллекту, иначе он, естественно, он не может все знать, или она, или оно, как мы назовем это. Поэтому здесь, конечно, роль Data Scientist и возрастает даже роль аналитика данных. Но если мы говорим о том, что если раньше, возможно, требовалось на какие-то задачи - грубо говоря, 5 Data Scientist, то сейчас, возможно, один-два Data Scientist могут это делать, и это, конечно, влияет. Но с другой стороны, решается больше задач. Бизнесы могут ставить больше задач, и зависит от того, какой у них бюджет. В общем-то, я просто в течение дня делаю гораздо больше экспериментов.

Elena Bobyreva, Host

А тут, пожалуйста, поподробнее, что такое эксперимент с точки зрения Data Scientists?

Igor Putrenko, Guest

В данном случае эксперимент - это написание кода и проверка каких-то гипотез. Если раньше мне нужно было мое планирование, мое моделирование, мой мозг работал наперед. Горлышко этого процесса было написание кода, то сейчас это не проблема. У меня появилась какая-то идея, я ставлю задачу, он пишет код, проверяется, и это работает сейчас так.

Elena Bobyreva, Host

Как ты думаешь, из специальностей, которые связаны с информационными технологиями, какие наиболее уязвимые по отношению к искусственному интеллекту?

Igor Putrenko, Guest

Если мы говорим о разработчиках в широком плане, то есть разработчиков не специализированного, машинного обучения, моделей AI, а разработчиков просто software developers, разработчиков программного обеспечения. Они, наверное, более подвержены этому. Потому что если полгода назад говорили, что модели CLOT, они наиболее продвинутые в написании кода - это примерно уровень junior software engineer или, скажем так, mid-level, то сейчас мы уже говорим о том, что это уровень senior software engineer, скажем, вот эта ниша software разработчиков программного обеспечения, они подвержены этому. Но в то же время все равно и они нужны - нужно контролировать, что искусственный интеллект создал, нужно ставить задачи, то есть возрастает роль архитекторов. Архитектор - тот, кто строит архитектуру системы, и уже это независимо, какая архитектура. Но я бы сказал, наверное, по сравнению с общими разработчиками, data science, наверное, подвержен меньше.

Elena Bobyreva, Host

А как сейчас насчет конкуренции на позиции Data Science на рабочем рынке?

Igor Putrenko, Guest

Меньше, скажем так, конкуренция в этой области, потому что все кинулись в AI AI инженеры, Data Scientist туда переходят, software-разработчики тоже переходят туда. Был всплеск зарплат, потом они начали снижаться, потому что избыток этих специалистов и это такой хайп. А хайп от Data Science был где-то примерно 5 лет назад. Он сейчас уходит все равно они нужны. Все равно нужны вот эти все направления.

Elena Bobyreva, Host

Но я бы сказала, что ажиотаж вокруг позиций, связанных с разработкой искусственного интеллекта, все равно продолжается. Не всем, конечно, но такие случаи есть.

Igor Putrenko, Guest

Сейчас мы проходим через несколько таких процессов, которые идут параллельно. На рынке труда возрастает количество профессий, вот именно связанных с AI, ML инженером, количество этих позиций возрастает, количество чистых Data Scientist, да, может быть, уменьшается. Может быть, если смотреть часто описание роли, часто Data Scientist уже является и AI ML инженер, и Data Scientist, и Data Engineer. То есть не так все просто. Единственное, что можно определенно сказать, что да, бизнесы видят пользу, использование больших языковых моделей в своих бизнесах. И, соответственно, приходит понимание того, что нам нужны такие позиции. А Data Scientist, как мы уже обсуждали, должен иметь эти навыки работы и знания генеративного искусственного интеллекта. Data Scientist может также подавать на эту роль AI ML-инженера, а там все равно будут какие-то вопросы, которые непосредственно связаны с классическим определением Data Scientist, что это такое. Есть тренд того, что идет потеря позиций чистых разработчиков программного обеспечения. С другой стороны, если смотреть в Америке, они теряют и находят то, что я смотрю, в Канаде - это более проблематично, все-таки в Америке лучше рынок, чем в Канаде. Америка тут рядом. В принципе, можно и там продолжать и начинать карьеру при желании.

Elena Bobyreva, Host

Не все, конечно, захотят переехать в другую страну, чтобы начинать или продолжать карьеру, но это реальный вариант. Если человек хочет сейчас обновить свои навыки или перейти на позицию Data Scientist, какие бы платформы, ресурсы или курсы образовательные ты бы им порекомендовал?

Igor Putrenko, Guest

Сейчас много курсов, сейчас столько много информации, этих курсов доступно. И более того, если раньше они были платные, сейчас много бесплатных курсов. Допустим, если мы говорим курс о Microsoft AI and ML Engineering, там входит, по-моему, 5 частей, 5 блоков, начиная с основ, Data Science и машинного обучения, заканчиваем генеративным интеллектом. И это бесплатно. То есть это лишь один пример. Раньше были популярны bootcampsы. Сейчас очень много онлайн, ускоренные группы. Нужно иметь просто время и желание. Есть, конечно же, известные такие платформы, как Cloudera, Ulime. Microsoft это делает, и они это делают под того. Чем больше Microsoft инженеров, тем лучше Microsoft. Соответственно, они дают это бесплатно, они дают сертификат. Этот сертификат уже как бы является частью твоего профессионального роста обучения. Есть такой портал, называется Towards Data Science. Есть medium, там разные области. Эти блоги интересно читать, и особенно для начинающих, часто пишут, как я, допустим, искал работу и как я получил свою первую роль как data scientist или AI-инженер, как я перешел из Data Scientist в AI Engineer, или как я перешел из разработчика, software developer, в AI-инженер, какие навыки важны. В общем-то, там широкий аспект. Технический, как я построил вот эту систему, как я решил бизнес-проблему. Очень интересно, я поделюсь таким секретом. Может быть, уже многие знают. Допустим, если у вас есть подписка на ключ или, скажем так, программный доступ к большим языковым моделям, наиболее популярны - это Cloud и Cloud Desktop. Как курсор - это среда для разработчиков, где идет разработка программ. И если раньше, допустим, я не знал, как создать систему технически, и я искал там блоги, есть Stack Overflow сайт, где люди делятся непосредственно кодом делятся, то сейчас ты ставишь задачу этой LLM, и она тебе пишет решение. И ты смотришь, как она решила это, и ты обучаешься. Уже этот компонент обучения очень важен. И ты учишься комбинации с этими платформами, с блогами, с искусственным интеллектом, AI assistant. Вот это сейчас такой подход для обучения.

Elena Bobyreva, Host

Как ты сказал, использу и блоги, статьи, курсы, в том числе бесплатные, от Microsoft and drug organizations. Игорь, какой совет сейчас начинающим специалистам или иммигрантам, что им поможет выстроить успешную карьеру в Канаде в Data Science?

Igor Putrenko, Guest

Первый совет - это, конечно же, хорошее образование в области математики, машинного обучения, искусственного интеллекта. Второе - это самообучение, потому что образовательные системы, образовательные учреждения не успевают за развитием в этой области. Это постоянное самообучение, постоянные взаимодействия с будущими коллегами в этой среде, со специалистами, с менторами, нахождение менторов. Третье, это четко видеть цель, знать, какие ниши важны, Data Scientist может работать в области здравоохранения, healthcare, области телекоммуникаций и так далее. Если у тебя есть предыдущее образование или предыдущий опыт работы в этих областях, потому что важно понимать бизнес-процессы, конечно же, это играет роль, и нужно начинать входить в эту область с этой стороны и создание своих проектов. Допустим, если мы говорим, когда человек еще не вошел на рынок, на рынок труда, и он является студентом или обучается, или просто берет курсы. Важно искать какие-то организации, которые заинтересованы в интернах. Те, кто может подсказать, какой проект важен, какое направление важно, и написание создания этого проекта, и потом презентация этого проекта как части твоего портфолио.

Elena Bobyreva, Host

То есть, Игорь, ты рекомендуешь людям, которые заинтересованы в этой карьере, чтобы, во-первых, у них было подходящее образование, чтобы был у них фундамент. Во-вторых, ты считаешь, что важно постоянно развиваться профессионально и получать дополнительные навыки. В-третьих, ты рекомендуешь, чтобы люди определились, здравоохранения, чтобы слушатели с тобой на связь, если у них есть вопросы.

Igor Putrenko, Guest

Лучшее место для контакта, как в этой области, так и в другой, это LinkedIn. Я на LinkedIn, буду рад ответить на вопросы, там взаимодействовать. Там вся информация о моей карьере, о навыках, кто-то может найти полезным, и может быть даже встретиться.

Elena Bobyreva, Host

Спасибо, Игорь, за очень познавательное интервью.

Igor Putrenko, Guest

Спасибо, Лена. Было очень интересно пообщаться. Рад был поделиться своим опытом, своим пониманием того, что происходит сейчас в этой области. Буду рад, если это поможет тем, кто сейчас думает о начале карьеры. И надеюсь, что наша встреча будет полезна им для того, чтобы они начали свою карьеру или переход в эту область.