Заметки исследователя по построению социотехнических систем

Seekers, Providers, Welcomers, and Storytellers: Modeling Social Roles in Online Health Communities

Это исследование я рекомендую прочитать тем, кто занимается продуктами с групповыми/социальными фичами: Q&A-сервисы, ПО для коллективной работы, мультиплеерные игры, «социальный» e-commerce и т. д.

Группа ученых из Carnegie Mellon и Stanford решила изучить феномен «успеха» крупнейшего форума по теме рака в мире — Cancer Survivor Network (CSN). Сайт существует с начала 2000-х и стал самым крупным в своем сегменте. Было много аналогичных площадок, но все рано или поздно затухали, а CSN развивается и по сей день.

У социологов возникла гипотеза — на форуме сложилась определенная структура социальных ролей, которая обеспечивала «баланс» в сообществе и позволила ему развиваться. Осталось ее проверить на данных, которые были предоставлены American Cancer Society (а это вся переписка на сайте с 2003 по 2018 гг).

Но для начала надо формально определить, чем является «социальная роль» на данных. Для этого они обратились к теории. Социальная роль в науке определяется 4 факторами:

  1. Цель — у индивида в сообществе есть цель, которую он преследует исходя из собственных интересов.
  2. Взаимодействия — роль контактирует с другими участниками сообщества. На форуме эти взаимодействия проявляются по-разному: старт новой темы обсуждений, написание ответа, лайк комментария или обращение в директ.
  3. Ожидания — социальные роли при взаимодействии рассчитывают на определенную обратную связь. Например, на работе начальник и подчиненный знают чего ждать друг от друга и соответственно подбирают стиль общения. В онлайн-сообществах обычно нет явно формализованных ролей и только «старожилы» знают как и с кем общаться. Например, из-за этого новички на StackOverflow часто стесняют вступать в разговоры и задавать вопросы.
  4. Контекст — некоторые роли могут существовать только при определенных условиях. Например, «поставщик информации» существует во многих типах сообществах, включая Q&A сервисы, рабочие группы и форумы. А вот «коммитер» — это специфичная роль для сообщества разработчиков (GitHub, Bitbucket). Приватность также играет большое значение. Поведение человека на публике обычно отличается от его поведения наедине или с родными.

Кратко про технические моменты:

  1. При помощи кластеризации решили определить какие вообще есть роли, т. к. «доменные эксперты» (модераторы и другие сотрудники CSN) сами до конца не могли однозначно ответить на этот вопрос. Разметки не было.
  2. В реальной жизни человек принадлежит к нескольким ролям одновременно. Например, на работе я одновременно «аналитик» и «спамер в slack». Чтобы учесть это, была использована Gaussian Mixture Model (GMM), которая позволяет отнести объект к нескольким группам с определенной вероятностью.
  3. Для «генерации фич» были использованы подходы из сетевого анализа (SNA) и обработки текста (NLP). Всего было сделано 83 признака.
  4. Количество кластеров — это гиперпараметр модели, которые исследователи сами могли задавать. Они пробовали находить от 2 до 20 кластеров. После «игры» с данными, количество от 10 до 15 показалось им «адекватным».

Чтобы окончательно определиться с количеством ролей, были подключены доменные эксперты. После долгих дискуссий, пришли к оптимальному количеству кластеров — 11.
Тем не менее, модераторы отметили, что модель не нашла один тип роли. Она редко встречается на форуме, но сильно запоминается.
Видимо, слишком мало подобных наблюдений было в датасете или ученые не нашли «нужные» фичи.

После этой огромной работы, они начали проверять свои гипотезы и находить другие инсайты. Кратко:

  1. Основная гипотеза про «баланс» ролей в сообщество подтвердилась.
  2. Нашли свое доказательство «на данных» несколько теорий из социологии, что также сработало как доп.фактор валидации модели.
  3. Нашли «путь успешного пользователя» форума, который становится костяком сообщества. Как следствие, смогли лучше понять retention/churn.

So What?

  1. Исследователи разработали рабочий подход к нахождению «социальных ролей». Они заявляют, что эта методология универсальна и может быть использована в других предметных областях. На работе я уже частично использовал методы из этого ресерча (привет, Алися!) и получил интересные результаты.
  2. Найдя роли в своих продуктах, можно будет 1) определить хорошие Health-метрики, 2) более четко формулировать и проверять продуктовые гипотезы, 3) системно развивать социальную составляющую продукта.
Подписаться на блог
Отправить
Поделиться
Твитнуть
Запинить
Дальше