Как пандемия заставила нас переосмыслить инструментарий науки о данных

Машинное обучение — это захватывающая область, которая вносит свой вклад в новую эру продвинутой автоматизации, постоянно извлекая уроки из новых данных и позволяя системам развиваться и совершенствоваться с течением времени. Однако за год, который никак нельзя было назвать «нормальным’, специалисты по обработке данных столкнулись с серьезной проблемой – как они могут противодействовать воздействию аномальных данных, вызванных пандемией?

 

Влияние COVID-19 на науку о данных как профессию
Пандемия привела к массовым сокращениям во множестве компаний, затормозив развитие талантов во многих отраслях. К счастью для специалистов по обработке данных, им невероятно повезло работать в востребованной области и иметь возможность выполнять большую часть своей работы удаленно. При этом команды Data Science, которые не доказали свою ценность или не играли центральной роли в своих компаниях, имели гораздо более высокий риск сокращения.

Пандемия потрясла отрасль и в других отношениях: COVID-19 оказался чрезвычайно разрушительным для моделей специалистов по обработке данных. В разных отраслях и наборах данных было весьма вероятно, что модели и поведение, которые отслеживали специалисты по обработке данных, были сильно искажены, что создавало проблемы для принятия решений. Хотя некоторые модели, возможно, были способны к самокоррекции, многие другие оказались бесполезными. В связи с невозможностью полагаться на исторические данные для обучения моделей и ожидать, что они будут работать как до пандемии, специалистам по обработке данных было поручено разработать новые процессы, обеспечивающие адаптивность развернутых моделей.

Итак, если модель хороша только настолько, насколько хороши данные, что мы делаем, когда поступающие данные не отражают нормальное поведение или ситуации? Для многих команд простым ответом был переход от автоматического обучения к ручному вмешательству.

Естественно, что в сфере найма мы наблюдали всплеск найма в одних областях и спад в других. Некоторые из наших крупнейших клиентов полностью приостановили прием на работу в сфере гостиничного бизнеса, в то время как найм в супермаркете / продуктовом магазине, например, резко возрос. Тенденции показывают, что многие люди использовали это время для переоценки своей карьеры и смены направления, и мы увидели серьезные изменения в том, как компании принимают на работу.

Наши прогнозы на 2021 год не могли полностью полагаться на инструменты машинного обучения – нам пришлось взглянуть на тенденции восстановления и учесть гораздо больше контекстуальной информации, которую мы получали на местах – через отношения с клиентами, экономические тенденции и т.д. Мы научились ожидать противоположного тому, что могли бы сказать нам модели машинного обучения, – восстановления, а не нисходящей спирали.

 

Что COVID-19 напомнил нам о предвзятости и умении хорошо управлять данными
Ошеломляющие различия в том, как пандемия негативно повлияла на этнические меньшинства, — это то, что нельзя игнорировать при принятии мер общественного здравоохранения, и это не должно игнорироваться во всех отраслях по мере продвижения вперед в нашем восстановлении. Как специалисты по обработке данных, мы всегда должны начинать с любопытства и задавать вопросы системного уровня о тенденциях, аномалиях и закономерностях, которые мы наблюдаем. Эти вопросы помогают нам решать проблемы прогнозирования, вмешиваясь, когда это уместно, и мы видим демографические различия в результатах, которые могут быть заложены в модели, возможно, распространяя предвзятость.

Подход к обработке предвзятых данных будет отличаться в зависимости от приложения. В качестве примера смягчения предвзятости в HireVue мы создаем модели для оценки кандидатов на работу путем прогнозирования результатов, связанных с работой, на основе видеоинтервью и игр. Следуя рекомендациям Комиссии по равным возможностям в сфере занятости (EEOC), мы стремимся свести к минимуму различия в результатах между демографическими группами. Поэтому наши модели оптимизированы для точного прогнозирования результатов при минимизации различий в группах. Это означает, что определенные входные данные, которые привели к этим различиям, не взвешиваются или игнорируются. Мы тщательно проводим аудит и тестируем на предмет предвзятости, связанной с возрастом, полом или этнической принадлежностью, на протяжении всего процесса — до, во время и после разработки каждой модели оценки. Модели регулярно проходят повторное тестирование и переподготовку, чтобы избежать возникновения предвзятости по мере развития данных заказчика и меняющихся требований к работе.

Двигаясь вперед, моя команда ищет аномалии данных, возникающие в результате “shecession”. Женщины в 1,8 раза чаще, чем мужчины, теряли работу и резко увеличили свои обязанности по неоплачиваемому уходу за детьми и пожилыми родственниками. Отражается ли это на показателях прохождения собеседований? Возможно, из-за того, что женщины брали интервью у детей в соседней комнате? Как только мы поймем, с какими проблемами женщины сталкиваются на рынке труда прямо сейчас, мы сможем определить, можем ли мы противодействовать предвзятости с помощью одной математики. Решение может быть совершенно разным, в зависимости от того, что мы узнаем. Возможно, изменения в опыте кандидата служат существенным средством, например, побуждают продолжать или переписывать ответы.

 

Извлекаем уроки из аномалий и движемся вперед
Только с точки зрения данных прошедший год стал увлекательным и поучительным напоминанием о ценности машинного обучения. Эта совершенно беспрецедентная ситуация напоминает о том, что не каждая проблема требует черно-белого математического решения. Команды Data Science должны быть в курсе макро- и социологических тенденций и того, как они будут отображаться в наборах данных, а затем определять, уместно ли использовать автоматизированное обучение, ручное вмешательство или комбинацию того и другого.

По мере того, как мы постепенно выходим из пандемии и направляемся к восстановлению, может сохраняться пропасть между тем, что мы видим в данных обучения, и данными “реального мира”, но если мы как профессионалы сохраняем бдительность и гибкость, мы можем гарантировать, что наши модели продолжают функционировать должным образом.