logonew chat icon top
  • icon-chaticon-chat-active搜题/提问
    new chat icon
    新建会话
  • icon-calculatoricon-calculator-active计算器
  • icon-subjecticon-subject-active学科题目
  • icon-pluginicon-plugin-active浏览器插件
  • icon-uploadicon-upload-active上传题库
  • icon-appicon-app-active手机APP
recent chat icon
历史记录
首页
/
统计
题目

小申最近在申请一个关于手机APP下载情况的课题,为此他从某移动数据分析平台上下载了2022年1-4月“中国区App热门应用下载榜”的部分数据。经初步整理,得到了名为“热门应用下载榜.csv”的数据文件,部分数据如下。请根据以上情境回答以下问题。 APP名称 应用领域 1月下载量 2月下载量 3月下载量 4月下载量 微信 社交通讯 10515227 10586023 5595338 2612807 QQ 社交通讯 4840495 5549392 3270954 2196967 微博 社交通讯 1488020 1357479 1397596 1278586 拼多多 综合电商 7980282 5189566 6412028 4300543 京东 综合电商 2440802 2866637 2235491 2058659 美团 综合电商 2431001 2572887 1967273 1566847 饿了么 综合电商 1528579 1215251 1451845 1809349 叮咚买菜 综合电商 645569 603302 847805 2085682 得物 综合电商 3316854 1991585 1335633 淘宝 综合电商 4416424 4027143 2978742 1909709 快手 休闲娱乐 7940261 2519546 2744268 2058346 快手极速版 休闲娱乐 4046872 2157658 2633956 4003789 饿了么 综合电商 1528579 1215251 1451845 1809349 抖音 休闲娱乐 8754023 8739191 5335021 3140634 抖音极速版 休闲娱乐 3518013 3197681 2516428 5082916 王者荣耀 休闲娱乐 2838336 2322328 1857879 2314643 拼多多 综合电商 7980282 5189566 6412028 4300543 百度 浏览器 3297148 3368248 2471573 2145527 夸克 浏览器 2787658 1415321 2736426 6370253 爱奇艺 综合视频 2152280 2647844 2504231 2134187 哗哩哗哩 综合视频 1689264 1451845 1941582 (1)小申发现数据表中存在问题数据,他用python对这些数据进行整理,删除其中的重复值和缺失值。以下能实现数据整理要求的是 ____ 。import pandas as pd-|||-#读取csv文件-|||-df=pd.read_csv ("热门应用下载榜.csv", tan Codmg=AMS(I)^n)-|||-#删除重复值,保留第一条记录-|||-=dt.. ① __ (sin angle EBE=(1)^circ APF 名称"], keep="② __ -",inplace=False)-|||-#删除有缺失值的行-|||-=AF. ③ __ (div b=0 ,how=" ④ __ -",inplace=False)-|||-#保存整理后的数据表-|||-df.to_csv("热门应用下载榜整理版.csv", tan COdtan (8)^circ Asin (Br)^circ )A.①dropduplicates;②first;③drop_na;④anyB.①drop_duplicates;②last;③dropna;④allC.①drop_duplicates;②first;③dropna;④anyD.①dropduplicates;②last;③drop_na;④any(2)小申需要统计4月下载量最多的APP,他编写了以下代码,则横线处可以实现上述功能的函数是 ____ 。import pandas as pd-|||-#读取csv文件-|||-df=pd.read_csv ("热门应用下载榜.csv", tan Codmg=AMS(I)^n)-|||-#删除重复值,保留第一条记录-|||-=dt.. ① __ (sin angle EBE=(1)^circ APF 名称"], keep="② __ -",inplace=False)-|||-#删除有缺失值的行-|||-=AF. ③ __ (div b=0 ,how=" ④ __ -",inplace=False)-|||-#保存整理后的数据表-|||-df.to_csv("热门应用下载榜整理版.csv", tan COdtan (8)^circ Asin (Br)^circ )A.minB.maxC.meanD.value_counts(3)为统计3月综合电商应用领域中下载量超过两百万的APP,下列筛选的条件表达式中正确的是 ____ 。A.df[(df[“应用领域”]=“综合电商”)and(df[“3月下载量”]>=2000000)]B.df[(df[“应用领域”]=“综合电商”)or(df[“3月下载量”]>=2000000)]C.df[(df[“应用领域”]==“综合电商”)|(df[“3月下载量”]>=2000000)]D.df[(df[“应用领域”]==“综合电商”)&(df[“3月下载量”]>=2000000)](4)小申统计了下载榜中不同应用领域的APP所占的比例,绘制了如下饼图,请帮助小申完善以下程序,① ____ 【选填:min(  )/max(  )/sum(  )/value_counts(  )】,② ____ 。import pandas as pd-|||-#读取csv文件-|||-df=pd.read_csv ("热门应用下载榜.csv", tan Codmg=AMS(I)^n)-|||-#删除重复值,保留第一条记录-|||-=dt.. ① __ (sin angle EBE=(1)^circ APF 名称"], keep="② __ -",inplace=False)-|||-#删除有缺失值的行-|||-=AF. ③ __ (div b=0 ,how=" ④ __ -",inplace=False)-|||-#保存整理后的数据表-|||-df.to_csv("热门应用下载榜整理版.csv", tan COdtan (8)^circ Asin (Br)^circ )

小申最近在申请一个关于手机APP下载情况的课题,为此他从某移动数据分析平台上下载了2022年1-4月“中国区App热门应用下载榜”的部分数据。经初步整理,得到了名为“热门应用下载榜.csv”的数据文件,部分数据如下。请根据以上情境回答以下问题。
APP名称 应用领域 1月下载量 2月下载量 3月下载量 4月下载量
微信 社交通讯 10515227 10586023 5595338 2612807
QQ 社交通讯 4840495 5549392 3270954 2196967
微博 社交通讯 1488020 1357479 1397596 1278586
拼多多 综合电商 7980282 5189566 6412028 4300543
京东 综合电商 2440802 2866637 2235491 2058659
美团 综合电商 2431001 2572887 1967273 1566847
饿了么 综合电商 1528579 1215251 1451845 1809349
叮咚买菜 综合电商 645569 603302 847805 2085682
得物 综合电商 3316854 1991585 1335633
淘宝 综合电商 4416424 4027143 2978742 1909709
快手 休闲娱乐 7940261 2519546 2744268 2058346
快手极速版 休闲娱乐 4046872 2157658 2633956 4003789
饿了么 综合电商 1528579 1215251 1451845 1809349
抖音 休闲娱乐 8754023 8739191 5335021 3140634
抖音极速版 休闲娱乐 3518013 3197681 2516428 5082916
王者荣耀 休闲娱乐 2838336 2322328 1857879 2314643
拼多多 综合电商 7980282 5189566 6412028 4300543
百度 浏览器 3297148 3368248 2471573 2145527
夸克 浏览器 2787658 1415321 2736426 6370253
爱奇艺 综合视频 2152280 2647844 2504231 2134187
哗哩哗哩 综合视频 1689264 1451845 1941582
(1)小申发现数据表中存在问题数据,他用python对这些数据进行整理,删除其中的重复值和缺失值。以下能实现数据整理要求的是 ____ 。
菁优网
A.①dropduplicates;②first;③drop_na;④any
B.①drop_duplicates;②last;③dropna;④all
C.①drop_duplicates;②first;③dropna;④any
D.①dropduplicates;②last;③drop_na;④any
(2)小申需要统计4月下载量最多的APP,他编写了以下代码,则横线处可以实现上述功能的函数是 ____ 。
菁优网
A.min
B.max
C.mean
D.value_counts
(3)为统计3月综合电商应用领域中下载量超过两百万的APP,下列筛选的条件表达式中正确的是 ____ 。
A.df[(df[“应用领域”]=“综合电商”)and(df[“3月下载量”]>=2000000)]
B.df[(df[“应用领域”]=“综合电商”)or(df[“3月下载量”]>=2000000)]
C.df[(df[“应用领域”]==“综合电商”)|(df[“3月下载量”]>=2000000)]
D.df[(df[“应用领域”]==“综合电商”)&(df[“3月下载量”]>=2000000)]
(4)小申统计了下载榜中不同应用领域的APP所占的比例,绘制了如下饼图,请帮助小申完善以下程序,① ____ 【选填:min(  )/max(  )/sum(  )/value_counts(  )】,② ____ 。
菁优网

题目解答

答案

解:(1)drop_duplicates(  )函数是Pandas中最基础的,也是最重要的去重工具,它可以非常快速、有效地删除列表中重复的元素;data.dropna(  )#直接删除记录;函数pandas.DataFrame.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)主要用来去除重复项,返回DataFrame类型的数据。所以选项C符合题意;
(2)numpy中的mean(  )函数:该函数的功能是统计数组元素的平均值,所以此处需要表示最大值为max函数;
(3)为统计3月综合电商应用领域中下载量超过两百万的APP,筛选的条件表达式为df[(df[“应用领域”]=“综合电商”)and(df[“3月下载量”]>=2000000)];
(4)value_counts(  ) 方法返回一个序列Series,该序列包含每个值的数量。也就是说,对于数据框中的任何列,value-counts (  ) 方法会返回该列每个项的计数。python用plt.pie绘制饼图。
故答案为:C     B     A     ①value_counts(  ),②plt.pie

相关问题

  • 假定用于分析的数据包含属性age.数据元组[1]中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A. 18.3B. 22。6C. 26。8D. 27。9

  • 下列说法不正确的是() A. 协方差数值上等于各个数据与样本方差之差的平方和B. 协方差和方差的计算完全一致C. 协方差描述了两个变量之间的相关程度D. 方差描述了样本数据的波动程度

  • 聚类分析的常见应用领域不包括( )数据分析图像处理客户分割发现关联购买行为

  • 区群谬误是用个体调查(分析)单位做资料收集与分析,却用集群乃至总体调查(分析)单位做结论。()A. 正确B. 错误

  • 下列哪项属于常见的池化方式。() A. 反向传播B. 方差池化C. 协方差池化D. 最大池化

  • 以下几种数据挖掘功能中,〔〕被广泛的用于购物篮分析.A. 关联分析B. 分类和预测C. 聚类分析D. 演变分析

  • 下列说法正确的是() A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差和方差的计算方式完全一致C. 协方差衡量了多个变量的分布D. 方差描述了样本数据的波动程度

  • 48皮尔逊相关系数的取值范围为0到正无穷。() A. 错误B. 正确

  • 决策树算法常用的划分准则包括: A. 信息增益B. 基尼指数C. 误差平方和D. 均方差

  • 5.聚类分析可以看作是一种非监督的分类。()

  • 下列哪项属于常见的池化方式。() A. 反向传播B. 最大池化C. 方差池化D. 协方差池化

  • 皮尔逊相关系数的取值范围为0到正无穷。() A. 正确B. 错误

  • 关于样本中某一变量的综合描述叫( )A. 统计值B. 平均值C. 估计值D. 参数值

  • 下列关于回归分析的描述不正确的是() A. 回归分析研究单个变量的变化情况B. 刻画不同变量之间关系的模型统称为线性回归模型C. 回归分析研究不同变量之间存在的关系D. 回归分析模型可分为线性回归模型和非线性回归模型

  • 下列关于回归分析的描述不正确的是() A. 回归分析模型可分为线性回归模型和非线性回归模型B. 回归分析研究不同变量之间存在的关系()C. 刻画不同变量之间关系的模型统称为线性回归模型D. 回归分析研究单个变量的变化情况

  • 从总体中抽取的、对总体有一定代表性的一部分个体称为()A. 总体B. 部分C. 样本D. 取样

  • 下列说法正确的是() A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差衡量了多个变量的分布C. 协方差和方差的计算方式完全一致D. 方差描述了样本数据的波动程度

  • 下列哪项属于常见的池化方式。() A. 协方差池化B. 方差池化C. 反向传播D. 最大池化

  • 可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述正确的 A. 每个样本数据分别归属于与其距离最远的聚类质心所在聚类集合B. 每个簇类的质心累加起来最小C. 最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最大D. 每个簇类的方差累加起来最小

  • 1. 名词解释 假设检验 (请在答题纸上手写并拍照上传)

上一页下一页
logo
广州极目未来文化科技有限公司
注册地址:广州市天河区黄村大观公园路10号3N2
关于
  • 隐私政策
  • 服务协议
  • 权限详情
学科
  • 医学
  • 政治学
  • 管理
  • 计算机
  • 教育
  • 数学
联系我们
  • 客服电话: 010-82893100
  • 公司邮箱: daxuesoutijiang@163.com
  • qt

©2023 广州极目未来文化科技有限公司 粤ICP备2023029972号    粤公网安备44011202002296号