基于K-means算法的电子商务客户细分研究

作者:黄明文 来源:推广部 时间:2019-12-14 14:36

基于K-means算法的电子商务客户细分研究

在竞争日益激烈的在线业务时代,电子商务公司越来越感到客户资源是公司取胜的法宝之一。因此,公东森游戏司开始从以产品为中心的模型转变为以客户为中心的模型。主要重点是留住现有客户并挖掘潜在客户,预测客户的未来购买趋势,并制定相应的营销策略。但是,随着公司产品的多样化和客户需求的增加,传统的统计方法使客户的细分变得困难。聚类挖掘算法可以处理几个甚至数百个变量。通过收集和分类与客户相关的信息,我们可以找出整个客户内部具有不同需求,购买行为,浏览兴趣等特征的客户群,并分析类似的浏览或购买行为的客户群,东森平台然后细分客户,帮助电子商务企业深入了解客户,为客户群提供更全面的个性化服务,提高客户满意度和忠诚度,为企业创造更多价值。

二,客户细分相关理论

客户细分是由美国学者Wendell R. Smith在1950年代中期提出的。他认为,“客户细分是基于特定时间市场中个人需求的不同特征的产品决策,而产品差异化策略仅针对市场竞争者,而不管需求的复杂性如何[1]。基础是客户需求的异质性和企业在有限资源的基础上进行有效竞争的需求。简单地说,客户细分是指根据客户属性,行为,需求,偏好和价值等因素对客户进行分类。在明确的战略业务模型和特定市场中,并提供针对性的产品,服务和销售模型。

三,聚类分析

基于K-means算法的电子商务客户细分研究

聚类是将数据集划分为多个类或簇的过程,使同一组中的数据对象具有更高的相似性,而不同组中的数据对象则不相似。群集是彼此相似的对象的集合。不同群集中的对象通常是不同的。基于数据对象描述属性的值确定相似或不相似的度量。聚类来自许多领域,包括数学,计算机科学,统计,生物学和经济学。在不同的应用领域(例如业务,地理,保险,Internet,电子商务),已经开发了许多聚类技术。这些技术用于描述数据,测量不同数据源之间的相似性,并将源分类为不同的群集。聚类分析的结果不仅可以揭示数据之间的内在联系和差异,而且可以为进一步的数据分析和知识发现(例如数据之间的关联规则,分类模式和数据趋势)提供基础。

当前,文献中有大量的聚类算法。算法的选择取决于数据的类型以及聚类的目的和应用。图1显示了常见聚类算法之间的层次关系[2]。本文使用K-means聚类算法。

四,K-均值算法

(1)K-means算法的基本原理

K-means算法是最经典的基于分区的聚类方法,也是十大经典数据挖掘算法之一。给定一个数据库,其中包含n个数据对象,以及生成的簇数k,则随机选择k个对象作为初始k个簇中心;然后计算每个剩余样本到每个聚类中心的距离,然后返回样本。对于最接近的聚类中心类别,请使用调整后的新类别的平均值来计算新的聚类中心。如果两个相邻像元的聚类中心没有变化,则样本调整结束并且聚类完成。类平均误差准则函数已收敛。该算法检查每个样本在每次迭代中是否正确分类,如果不正确,则进行调整。完成所有样本调整后,修改聚类中心,然后进行下一个迭代。如果使用迭代算法将所有样本正确分类,则不会进行任何调整,并且聚类中心也不会改变。算法迭代的值正在减小,最终收敛到固定值。该标准也是衡量算法是否正确的基础之一。

(B)K-means算法的步骤

1.给定一个包含n个数据的数据集D,给定簇的数目k和k,初始簇中心Zj(I),j=1,2, k;

2.计算每个数据到聚类中心的距离D(xi,Zj)(I),i=1,2, k

D(xi,Zk(I))=min {D(xi,Zj(I),j=1,2,3, n)},xi∈wk(3-1)

5.输出k个群集集。

通常,我们根据电子商务网站上的访问者日志或CRM信息,首先对数据进行预处理,然后建立相关模型,使用聚类方法对客户进行细分,并为公司做出决策提供依据。

2.确定获取的数据是否可以分类,如果有明显的聚类趋势,则聚类,否则取消聚类;

3.将K-Means算法与SPSS软件应用程序和获取的客户数据集结合起来,并将客户划分为C1,C2,C3等。

4.根据分类结果,总结每个类别的规则。

5.评估聚类结果。如果聚类结果可信,则可以将其应用于实际情况,企业可以据此制定相应的营销策略;如果不可信,则需要重新聚类。

(2)数据采集

本文中使用的数据来自淘宝上的一家服装在线商店。由于网络日记录了客户的相当完整的信息,因此我们不必提取所有海量数据(客户ID,姓名,注册日期,年龄,性别,电话号码,邮寄地址)。在这里,我们仅提取一些代表性信息。例如客户ID,年龄,学历,邮寄地址,收入。由于此在线商店专门销售女装,因此性别对我们的分类意义不大,因此此处未提取。表中数据的具体说明

1.年龄(年龄)。根据分析结果中服务对象年龄组的统计数据,将服务对象的年龄分为四个阶段A-小于20岁; B-20岁至30岁; C-30岁至40岁; D-40岁或以上。

2.教育水平。根据客户的受教育程度,将其分为高等教育,普通教育和低等教育。

3.通讯地址。全国不同城市的统计信息分为一线城市,二线城市和三线城市。

4.根据电子商务中的统计数据收集,客户收入分为高收入,中收入和低收入。

此外,我们需要根据客户ID,产品ID,产品价格,购买数量,总购买价格和交易日期,计算一段时间内每个客户的平均购买数量和平均购买价格。

(3)数据处理

1.数据清理。数据清理是为了补充丢失的数据,消除噪声数据,识别或删除异常值以及解决不一致的数据。在该实验中,客户的数据不一定是完整的,尤其是客户的教育程度和收入难以获得。在这一点上,我们需要用手工处理和估计的填充方法对其进行补充。噪声数据是一个包含错误或偏离期望值的异常值。例如,年龄在90岁以上是噪音数据。此类数据需要删除,不予考虑。

2.数据转换。聚类时,SPSS对数字数据敏感,因此我们应尝试将字符数据转换为数字数据。例如,将教育程度,小学,初中,高中,学士,硕士,博士分别转换为0、1、2、3、4、5;高,中,低收入分别转换为1、2、3;通信地址通过一行,两行和三行转换为1、2和3。对于年龄等连续变量,我们需要使用等宽离散化。客户所属的年龄组在该年龄组中标记为1,其余年龄为0。

我们使用SPSS软件细分客户,并在淘宝平台上选择服装网上商店之一。选择150个数据作为样本,并将平均客户购买时间和平均购买量作为客户细分变量。经过预处理和标准化后,数据通过k-means算法细分。

(五)客户细分结果分析

从表中可以看出,这四种类型的客户购买量很大,平均购买量很小,平均购买量最少。这些客户的年龄和地址分布不均,大多是低学历,低收入;与这四个类别相比,这些客户的平均购买量最多,平均购买量较小。他们中的大多数大约30岁。他们的教育和收入通常来自二线和三线城市。客户数量和平均购买数量最少。这些客户的平均购买金额最大。他们大多数具有高学历和高收入。它们主要集中在北京和上海等一线城市,年龄在25至35岁之间。Class1客户的平均购买数量和平均购买量相对较高。 35至45岁的人们经常光顾商店。

根据表6中客户级别的分类,我们可以得出以下结论:尽管第一类客户并不多,但是公司的大部分利润都是由他们创造的,因此它们被称为白金客户和企业。应不遗余力地保护和维护它们;客户数量最少,但是却创造了更高的价值。它属于潜在客户。企业应专注于投资和高级维护,以便他们尽可能成为白金客户。这三类客户的数量通常是公司创造的价值。因此,企业可以进行重新设计,使其更接近两种类型的客户。四种类型的客户拥有最多的客户,这些客户对企业几乎没有价值,企业不需要投入太多的资源。

结论

在当今网络和电子商务的飞速发展中,企业数据库存储了大量的商业信息。电子商务企业想赚钱。在竞争中立于不败之地,他们必须深刻理解客户并挖掘客户的潜力。重视,从而制定相应的营销策略。本文使用K-Means方法对电子商务网站的客户进行细分,并使用SPSS软件最终获得可行的结果,这为公司做出合理的决策提供了有力的帮助。

    上一篇:红血企业分析
    下一篇:基于专业需求的高职院校数学教学改革与实践