博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
全栈 - 13 ggplot2 在 R 中进行可视化
阅读量:6823 次
发布时间:2019-06-26

本文共 4673 字,大约阅读时间需要 15 分钟。

这是全栈数据工程师养成攻略系列教程的第十三期:13 ggplot2 在R中进行可视化。

我们已经具备了一定的代码基础,现在不妨来了解下数据可视化,从生动的图形中更好地感受数据之美。R是一门统计分析语言,和Python一样,语法简单并且有非常丰富的功能包,其中的ggplot2包便可以用简洁的语法绘制出美观多样的图形。

下载和安装

如果没有R的话需要去下载并安装,在R的官网中找到下载链接,选择最近的镜像地址下载即可,。安装完毕后即可运行R,软件如下图所示,界面比较简单,提供的用户图形化接口十分有限。

因此可以再安装一个叫作RStudio的软件,它基于R的内核提供了更佳丰富的用户图形化操作界面,使用起来更方便,用户体验更好。可以在RStudio的官网找到下载链接,下载并安装RStudio,。安装完毕后运行RStudio,软件界面如下图所示。

左上角的两个按钮分别用于新建各种文件和打开已有文件,左边是一个交互命令行,可以交互式地执行代码。右边上半部分是环境窗口(Environment)和历史窗口(History),分别可以查看当前编程环境中已有的变量,以及查看历史命令记录。右边下半部分包括文件(Files)、绘图(Plots)、包(Packages)、帮助(Help)等标签页,分别用于查看文件目录、查看绘图结果、查看引用的包、查看帮助文档。

例如,在左边的交互命令行中输入?plot并回车,即可在右边的Help中查看plot函数的使用文档。再输入a <- 1并回车,即可在右边的Environment中看到已有的变量,同时在History中也可以看到之前执行的两条命令记录。

R基础

安装包和加载包

R和Python一样,功能之所以强大是因为它具备丰富多样的功能包。在R中使用以下命令即可安装一个新的包,例如ggplot2,包的名字需要用引号括起来。

install.packages("ggplot2")复制代码

功能包安装完毕之后,即可加载并使用其提供的数据集、函数和功能,使用以下命令加载一个功能包,包的名字不需要用引号括起来。

library(ggplot2)复制代码

数据结构

R中的数据结构主要有向量、矩阵、数组、数据框、因子和列表。

向量是用于存储数值型、字符型或逻辑型数据的一维数组,单个向量中的数据必须拥有相同的类型或模式,即要么都是数值型,要么都是字符型,要么都是逻辑型。可以发现,R中的赋值使用箭头符号<-,而不是其他语言常用的=

# 数值型a <- c(1, 2, 5, 3, 6, -2, 4)# 字符型b <- c("one", "two", "three")# 逻辑型c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)复制代码

用方括号可以访问向量中的元素,例如访问向量a中的第二个和第四个元素,可以用a[c(2, 4)]。向量也支持支持冒号语法,a[2:6]将返回a的第二至第六个元素。所以向量的用法和Python中list有相似又不同,Python中list的下标从0开始,而且冒号语法只包括开始下标但不包括结束下标。另外Python中负号下标表示从后往前数,而向量中负号表示排除,例如a[-1]返回向量a中除了第一个以外的其他全部元素。

矩阵是一个二维数组,每个元素都拥有相同的类型,必须都为数值型、字符型或逻辑型,可通过函数matrix创建矩阵。

mymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=FALSE, dimnames=list(rownames, colnames))复制代码

其中vector向量包含了全部矩阵元素,nrow和ncol为行数和列数,byrow默认为FALSE表示按列填充,否则TRUE为按行填充,dimnames为行名和列名。使用时,只有前三个参数是必须的。

y <- matrix(1:20, nrow=5, ncol=4)cell <- c(1, 26, 24, 68)rnames <- c("R1", "R2")cnames <- c("C1", "C2")mymatrix <- matrix(cell, nrow=2, ncol=2, byrow=TRUE, dimnames=list(rnames, cnames))mymatrix <- matrix(cell, nrow=2, ncol=2, byrow=FALSE, dimnames=list(rnames, cnames))复制代码

x[i,]表示矩阵x中的第i行,x[,j]表示矩阵x中的第j列,x[i, j]表示矩阵x中的第i行第j个元素,或者使用数值型向量代替i、j以同时选择多行或多列。

数组和矩阵类似,但是维度可以大于2,通过array函数创建。

myarray <- array(vector, dimensions, dimnames)复制代码

其中vector包含数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,dimnames可选,以向量形式指定各个维度的名称。

dim1 <- c("A1", "A2")dim2 <- c("B1", "B2", "B3")dim3 <- c("C1", "C2", "C3", "C4")z <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3))复制代码

数据框可以理解成数据库中的表,即每一行表示一条记录,每一列表示一项字段。不同列可以包含不同类型,例如某一列为数值型而另一列为字符型,但每列所有行的数据类型必须相同。数据框通过data.frame创建,是R中最为重要的一种数据结构。

patientID <- c(1, 2, 3, 4)age <- c(25, 34, 28, 52)diabetes <- c("Type1", "Type2", "Type1", "Type1")status <- c("Poor", "Improved", "Excellent", "Poor")patientdata <- data.frame(patientID, age, diabetes, status)复制代码

访问数据框中的数据可以通过以下三种方式:

# 访问第一列和第二列patientdata[1:2]# 按列名访问,使用方括号和向量patientdata[c("diabetes","status")]# 按列名访问,使用$patientdata$age复制代码

无序类别型变量和有序类别型变量在R中都称为因子。简单来说,因子就是一种离散值,例如性别只能是male和female,对应两个字符型因子,或者分别用0和1来表示,对应两个数值型因子。如果因子的不同水平之间存在排序关系,则称为有序因子。以下代码中,diabetes对于不同的人只能取Type1或Type2,因此是一个因子。

diabetes <- factor(c("Type1", "Type2", "Type1", "Type1"))复制代码

以下代码中,status对于不同的人只能取Poor、Improved或Excellent

,同时三者之间存在排序关系,因此使用orderded=TRUE指定为一个有序因子。

status <- factor(c("Poor", "Improved", "Excellent", "Poor"), ordered=TRUE)# 或者手动指定排序的顺序status <- factor(c("Poor", "Improved", "Excellent", "Poor"), ordered=TRUE, levels=c("Poor", "Improved", "Excellent"))复制代码

列表和向量一样,同样是多个元素的排列,但每个元素可以是以上提及的任何数据结构,甚至是其他列表的组合,即嵌套列表。使用list定义一个列表,并可以为各个元素进行命名。

g <- "My First List"h <- c(25, 26, 18, 39)j <- matrix(1:10, nrow=5)k <- c("one", "two", "three")mylist <- list(title=g, ages=h, j, k)mylist复制代码

可以看到mylist包括四个元素,使用mylist[[2]]mylist$age或者mylist[["ages"]]访问其中的第二个元素。

最后需要注意的是,R中的变量名、行名、列名等名称,都尽量使用纯英文,避免使用中文导致错误。

数据集

R中提供了很多数据集,安装包也会提供一些额外的数据集,这些数据集大多以数据框的形式给出,例如mtcars数据集提供了32款车型的11项参数值,所有参数值都为数值型。

head(mtcars)nrow(mtcars)names(mtcars)summary(mtcars)复制代码

另外,也可以从csv、txt等文件中读取数据为数据框,使用data.table包的fread()函数读取数据,例如之前提供的douban_movie_clean.txt。读取之前需要在Files标签页中找到数据文件,然后点击齿轮中的Set As Working Directory,将当前目录设为工作路径。

# 没有包则安装# install.packages("data.table")library(data.table)douban_movie_clean <- fread("douban_movie_clean.txt", header=TRUE, sep="^", encoding="UTF-8")复制代码

R脚本

除了在交互命令行中编写R代码,一种更方便的选择是使用R脚本,就如同新建一个.py代码,在Sublime中编辑完毕后再运行一样。点击左上角的新建文件按钮,选择R Script,在新建的R脚本中可以自由地编写多行代码。编写完毕后,选中全部或者部分代码,点击R脚本右上方的Run按钮,即可运行选中的代码。

ggplot2

ggplot2是R中的一个功能包,可以用简洁统一的语法绘制出美观多样的图形。安装好ggplot2之后,让我们通过一个简单的例子感受下ggplot2的魅力。

# 如果没有则安装# install.packages("ggplot2")# 加载包library(ggplot2)ggplot(douban_movie_clean) + geom_histogram(aes(x=length))复制代码

以上代码对豆瓣电影数据集的片长这一字段绘制直方图,横轴为电影片长,纵轴为每个片长区间的电影数量。绘图结果将显示在Plots标签页中,可以点击Zoom按钮放大图像,可以发现大多数电影的片长集中在90至120分钟之间。

R学习笔记

如果对R感兴趣、希望进一步了解更多内容,可以访问我的博客,,以上链接以r为标签搜索相关文章,搜索结果中会有一个《R学习笔记》系列,共14篇文章,可作为进一步学习R的参考资料。

视频链接:

如果觉得文章不错,不妨点一下左下方的喜欢~

转载地址:http://jorzl.baihongyu.com/

你可能感兴趣的文章
Html2excel 1.4.1 发布,Html 转 Excel 工具包
查看>>
Linux安装配置反向代理Nginx
查看>>
Spring事务的传播属性和事务隔离级别
查看>>
精选10大机器学习开源项目 !(附链接)
查看>>
中国电信“商密云存储系统”通过国家商用密码产品鉴定
查看>>
用区块链技术养走地鸡,我认真的
查看>>
指数哥伦布编码
查看>>
mysql用SQLyog导入数据时报错(文件太大)
查看>>
Linux下查看用户列表
查看>>
svn图标显示问题
查看>>
卷积神经网络在图像分割中的进化史:从R-CNN到Mask R-CNN
查看>>
OpenSSH详解
查看>>
JavaScript Tips
查看>>
继续上章节的ospf重分布实验演示一
查看>>
RHEL6 64位ASM方式安装oracle 11gR2(二)
查看>>
玩转日志第一步,通过fluentd转存nginx日志
查看>>
awk 应用
查看>>
SCOM 2016监控IIS 网页服务
查看>>
通用权限管理系统组件 (GPM - General Permissions Manager) 中最简单的例子程序,如何时间通讯录管理...
查看>>
Ajax
查看>>