存在重复记录的数据需要进行数据清洗:比如人口数据中同一个人有两条完全相同的记录。

存在重复记录的数据需要进行数据清洗:比如人口数据中同一个人有两条完全相同的记录。
A、正确
B、错误
【正确答案】:A
【题目解析】:√,以下数据一般需要进行清洗
存在重复记录的数据:比如人口数据中同一个人有两条完全相同的记录。
存在不相关记录:比如我们只关注中国人口数据,但数据集中有美国人的信息。
无用的特征信息:例如身份ID等一些显然不会对结果有影响的编号类数据。
文字拼写错误:一些比较明显的信息输入错误。
信息格式不统一:例如大小写不一致,比如“beijing”和“Beijing”应该属同一类。表述形式不统一,比如“陕西省”和“陕西”也应该统一成一种。
明显错误的离群值(outlier):比如某个人的年龄数据显示为175。
缺失数据:表格中有一些信息空缺,没有记录。