0%

rdd dataframe dataset介绍

[TOC]

一、综述

1.1 RDD和DataFrame内部结构

rdd_dataframe

左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。

RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化,比如filter下推、裁剪等。

Dataset可以认为是DataFrame的一个特例,主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row。

1.2 类型安全

考虑静态类型和运行时类型安全,SQL有很少的限制而Dataset限制很多。例如,Spark SQL查询语句,你直到运行时才能发现语法错误(syntax error),代价较大。然后DataFrame和Dataset在编译时就可捕捉到错误,节约开发时间和成本。

Dataset API都是lambda函数和JVM typed object,任何typed-parameters不匹配即会在编译阶段报错。因此使用Dataset节约开发时间。

spark类型安全

二、RDD

RDD是Spark建立之初的核心API。RDD是不可变 分布式弹性数据集,在Spark集群中可跨节点分区,并提供分布式low-level API来操作RDD,包括transformation和action。

2.1 优缺点

优点:

  1. 编译时类型安全
    编译时就能检查出类型错误
  2. 面向对象的编程风格
    直接通过类名点的方式来操作数据

缺点:

  1. 序列化和反序列化的性能开销
    无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.
  2. GC的性能开销
    频繁的创建和销毁对象, 势必会增加GC

三、DataFrame

DataFrame与RDD类似,也是数据的不可变分布式集合,不同的是,数据被组织成了带名字的列,类似于关系型数据库中的表。

DataFrame引入了schemaoff-heap

  • schema : RDD每一行的数据, 结构都是一样的,这个结构就存储在schema中。 Spark通过schema就能够读懂数据, 因此在通信和IO时就只需要序列化和反序列化数据, 而结构的部分就可以省略了。
  • off-heap : 意味着JVM堆以外的内存, 这些内存直接受操作系统管理(而不是JVM)。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中, 当要操作数据时,就直接操作off-heap内存。由于Spark理解schema,所以知道该如何操作。
  • off-heap就像地盘,schema就像地图,Spark有地图又有自己地盘了,就可以自己说了算了,不再受JVM的限制,也就不再收GC的困扰了。

通过schema和off-heap,DataFrame解决了RDD的缺点,但是却丢了RDD的优点。DataFrame不是类型安全的,API也不是面向对象风格的。

注:在Spark2.1中 DataFrame 的概念已经弱化了,将它视为 DataSet 的一种实现

四、DataSet

从spark 2.0开始,两种独立的API特点:strongly-typed API 和untyped API。从概念上来说,将DataFrame作为 一般对象Dataset[Row]的集合的别名,而DataSet是strongly-typed JVM对象的集合,即java和scala中的类。

DataSet结合了RDD和DataFrame的优点,并带来的一个新的概念Encoder。

当序列化数据时,Encoder产生字节码与off-heap进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象。Spark还没有提供自定义Encoder的API,但是未来会加入。

4.1 DataSet与RDD 相比

  • DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等操作。
  • DataSet创立需要一个显式的Encoder,把对象序列化为二进制,可以把对象的scheme映射为Spark SQL类型,然而RDD依赖于运行时反射机制。

DataSet比RDD性能要好很多。

4.2 DataSet与DataFrame相比

Dataset可以认为是DataFrame的一个特例,主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row。因此具有如下特点:

  • DataSet可以在编译时检查类型
  • DataSet是面向对象的编程接口。

DataFrame和DataSet可以相互转化,df.as[ElementType]这样可以把DataFrame转化为DataSet,ds.toDF()这样可以把DataSet转化为DataFrame。

五、3种类型转换

在使用一些特殊的操作时,一定要加上 import spark.implicits._ 不然toDF、toDS无法使用

5.1 DataFrame转DataSet

1
2
3
val dataFrame;
case class Persion(name:String,age:Long)
val dataSet = dataFrame.as[Persion]

5.2 RDD 转 DataFrame

1
2
3
case class Persion(name:String,age:Long)
val rdd;
val dataFrame = rdd.map(_.split(",")).map(attributes => Persion(attributes(0),attributes(1).trim.toLong)).toDF()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import org.apache.spark.sql.types._

val peopleRDD = spark.sparkContext.textFile("examples/src/main/resources/people.txt")
val schemaString = "name age"

val fields = schemaString.split(" ")
.map(fieldName => StructField(fieldName, StringType, nullable = true))
val schema = StructType(fields)

val rowRDD = peopleRDD
.map(_.split(","))
.map(attributes => Row(attributes(0), attributes(1).trim))

val peopleDF = spark.createDataFrame(rowRDD, schema)

5.3 DataFrame 转 RDD

1
2
val rdd1=testDF.rdd
val rdd2=testDS.rdd

5.4 RDD 转 DataSet

1
2
3
4
5
import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = rdd.map {line=>
Coltest(line._1,line._2)
}.toDS

5.5 DataSet 转 DataFrame

1
2
import spark.implicits._
val testDF = testDS.toDF

使用代理

本机socks5 代理端口为 127.0.0.1:1086

在 ~/.bash_profile 中添加如下配置即可

1
alias brews='all_proxy=socks5://127.0.0.1:1086 brew '

之后使用 brews 代替 brews

切换镜像

1.使用清华源

替换默认源

第一步:替换现有上游

1
cd "$(brew --repo)"
1
git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git/homebrew/brew.git
1
cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"
1
git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git/homebrew/homebrew-core.git
1
cd
1
brew update

第二步:使用homebrew-science或者homebrew-python(两个模块不存在,已被合并进core)

1
cd "$(brew --repo)/Library/Taps/homebrew/homebrew-science"
1
git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git/homebrew/homebrew-science.git

1
cd "$(brew --repo)/Library/Taps/homebrew/homebrew-python"
1
git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git/homebrew/homebrew-python.git
1
cd
1
brew update

替换Homebrew Bottles源

1
echo 'export HOMEBREW_BOTTLE_DOMAIN=https://mirrors.tuna.tsinghua.edu.cn/homebrew-bottles' >> ~/.bash_profile
1
source ~/.bash_profile

2.在清华源失效或宕机时可以切换回官方源

第一步:重置brew.git

1
cd "$(brew --repo)"1
1
git remote set-url origin https://github.com/Homebrew/brew.git

第二步:重置homebrew-core.git

1
cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"
1
git remote set-url origin https://github.com/Homebrew/homebrew-core.git
1
2
cd
brew update

第三步:注释掉bash配置文件里的有关Homebrew Bottles即可恢复官方源。 重启bash或让bash重读配置文件。

强制退出某程序 shift + F1 F13 ALT CMD ESC
亮度调低 shift + F2 F14
亮度调高 shift + F3 F15
隐藏/显示 docky shift + F4 F16 ALT CMD DOWN
应用程序窗口 shift + F5 F17 CTRL DOWN
调度中心 shift + F6 F18 CTRL UP 四指单击
桌面左移动 shift + F7 F19 CTRL LEFT 三指向左滑动
桌面右移动 shift + F8 F20 CTRL RIGHT 三指向右滑动
shift + F9 F21
shift + F10 F22
关闭程序 shift + F11 F23 CMD Q 四指向上滑动
隐藏程序 shift + F12 F24 CMD H
最小化程序 四指向下滑动
最大化程序 三指向下滑动
右键点击 三指单击
单手指轻点 一下 单击
两下 双击
三下 段落选择
三手指轻点 一下 右击
四手指轻点 一下 调度中心
二手指向上 持续向上 向上滚动
持续向下 向下滚动
三指滑动 向下 最大化
四指滑动 向上 关闭程序
向下 最小化程序

一、进入管理用户

su - db2inst1

二、数据库操作

1. 连接数据库

db2 默认用户为 db2inst1

db2 connect to 数据库 [user 用户 using 密码]

2. 加载数据

2.1. load 加载数据(不会记录日志)

LOAD CLIENT(从客户端加载文件) FROM employee.ixf OF IXF REPLACE INTO employee_copy
SET INTEGRITY FOR employee_copy ALL IMMEDIATE UNCHECKED

3. 表空间

参考IBM

3.1 基本创建语句

CREATE TABLESPACE name
          MANAGED BY DATABASE
          USING (FILE 'path' size)

.2 创建表空间 自增长 限定最大值

CREATE TABLESPACE name
          MANAGED BY DATABASE
          USING (FILE 'path' size) 
          autoResize 10M
          maxsize 100G

3.3 修改表空间

3.3.1 减小表空间

参考IBM
使用 REDUCE 选项来减小容器大小。以下示例说明如何在基于 Windows 的系统上的表空间中缩小文件容器(含 1000 页):

ALTER TABLESPACE PAYROLL
  REDUCE (FILE 'd:\hldr\finance'  200)
3.3.2 修改为自增长
db2 "ALTER TABLESPACE 表空间名称 AUTORESIZE YES"
3.4 迁移表空间数据

ADMIN_COPY_SCHEMA 命令 用于将一个schema下的所有表迁移到另一个schema下,可实现表空间的迁移。

例子

1
call sysproc.ADMIN_COPY_SCHEMA( 'sourceSchema', 'targetSchema', 'copymode', NULL, 'sourceTableSpace', 'targetTableSpace', 'errorSchema', 'errorSchema' )

sourceTableSpace,targetTableSpace是一个列表,参数用逗号分隔。如“tbs_data,tbs_idx”.

4. 不记录日志

建表时添加属性: “NOT LOGGED INITIALLY”
大批量更改操作的同一个事务开始时执行 :db2 “ALTER TABLE tabname ACTIVATE NOT LOGGED INITIALLY”
commit之前由于打开了not logged intially选项,后面的Sql语句不计日志;
commit之后not logged intially选项同时被关闭; 这个时候最好执行备份,因为你这一段数据操作是没有日志的,不利于以后恢复。

1
2
3
4
5
6
7
update command options using c off                                           -- 关闭自动提交 
DB2 CREATE TABLE tabname ("field varchar(1)") IN "SPACES" index in "IDX" NOT LOGGED INITIALLY;

ALTER TABLE tabname ACTIVATE NOT LOGGED INITIALLY --设置不记日志或建表时添加属性 NOT LOGGED INITIALLY
delete from tabname -- 删除数据
commit --手动提交
update command options using c on --打开自动提交

5. 查看表空间

db2 list tablespaces show detail

image-20200217103408350

innodb

mysql 的 innodb 引擎要求 table 必须包含主键

聚簇索引

在同一个数据结构中,同时保持索引和数据行。

有如下优点:

  • 可以把相关数据保存在一起。例如实现电子邮箱时,可以根据用户ID来聚集数据,这样只需要从磁盘读取少数的数据页就能获取某个用户的全部邮件。如果没有使用聚簇索引,则每封邮件都可能导致一次磁盘I/O。
  • 数据访问更快。聚簇索引将索引和数据保存在同一个B-Tree中,因此从聚簇索引中获取数据通常比在非聚簇索引中查找要快。
  • 使用覆盖索引扫描的查询可以直接使用页节点中的主键值。

有如下缺点:

  • 二级索引(非聚簇索引)可能比想象的要更大,因为在二级索引的叶子节点包含了引用行的主键列。
  • 二级索引访问需要两次索引查找,而不是一次
  • 插入速度严重依赖于插入顺序。按照主键的顺序插入是加载数据到 InnoDB 表中速度最快的方式。但如果不是按照主键顺序加载数据,那么在加载完成后最好使用OPTIMIZE TABLE命令重新组织一下表。

其他:

  • 二级索引叶子节点保存的不是指向行的物理位置的指针,而是行的主键值
  • 物理主键推荐递增数据。若使用uuid作为主键,会使数据库频繁进行树的平衡。

参考

InnoDB关键特性之自适应hash索引

1、如果有删除用户的权限,则可以:

1
drop user user_name cascade;

加了cascade就可以把用户连带的数据全部删掉。

删除后再创建该用户。
–创建管理员用户

create user 用户名 identified by 密码 default tablespace space_data(表空间名称) temporary tablespace space_temp(临时表空间名称);

–授权

grant connect,dba to 用户名;

–修改限额

ALTER USER “用户名” QUOTA UNLIMITED ON SPACE_DATA(表空间名称);

–查看所有用户对象

select uo.object_name,uo.object_type from user_objects uo where uo.object_type<>’LOB’ order by uo.object_type desc

2、如果没有删除用户的权限,则可以执行:

select ‘drop table ‘||table_name||’;’
from cat
where table_type=’TABLE’

将会输出一批删除表的sql语句,这些SQL语句执行一下就可以了。(需要有drop table的权限)

1
2
3
4
5
6
-- 设置密码不过期
ALTER PROFILE DEFAULT LIMIT PASSWORD_LIFE_TIME UNLIMITED;
-- 查看是否生效
SELECT * FROM dba_profiles WHERE profile='DEFAULT' AND resource_name='PASSWORD_LIFE_TIME';
-- 修改密码
alter user zxx identified by zxx;
1
2
3
4
-- 密码忘记 
su - oracle
sqlplus / as sysdba
alter user zxx identified by zxx;

一、权限分类:

系统权限:系统规定用户使用数据库的权限。(系统权限是对用户而言)。
实体权限:某种权限用户对其它用户的表或视图的存取权限。(是针对表或视图而言的)。

二、系统权限管理:

1、系统权限分类:

  • DBA: 拥有全部特权,是系统最高权限,只有DBA才可以创建数据库结构。
  • RESOURCE: 拥有Resource权限的用户只可以创建实体,不可以创建数据库结构。
  • CONNECT: 拥有Connect权限的用户只可以登录Oracle,不可以创建实体,不可以创建数据库结构。

对于普通用户:授予connect, resource权限。
对于DBA管理用户:授予connect,resource, dba权限。

###2、系统权限授权命令:

系统权限只能由DBA用户授出:sys, system(最开始只能是这两个用户)

授权命令:

1
grant connect, resource, dba to 用户名1,用户名2;

普通用户通过授权可以具有与system相同的用户权限,但永远不能达到与sys用户相同的权限,system用户的权限也可以被回收。

创建用户:

1
2
3
connect system/manager
Create user user50 identified by user50;
grant connect, resource to user50;

查询用户拥有哪里权限:

1
2
3
select * from dba_role_privs;
select * from dba_sys_privs;
select * from role_sys_privs;

删除用户:
加上cascade则将用户连同其创建的东西全部删除

1
drop user 用户名 cascade;

###3、系统权限传递:

增加 WITH ADMIN OPTION 选项,则得到的权限可以传递。

1
grant connect, resorce to user50 with admin option;

4、系统权限回收:系统权限只能由DBA用户回收

命令:

1
Revoke connect, resource from user50;

说明:

1)如果使用 WITH ADMIN OPTION 为某个用户授予系统权限,那么对于被这个用户授予相同权限的所有用户来说,取消该用户的系统权限并不会级联取消这些用户的相同权限。

2)系统权限无级联,即A授予B权限,B授予C权限,如果A收回B的权限,C的权限不受影响;系统权限可以跨用户回收,即A可以直接收回C用户的权限。

三、实体权限管理

###1、实体权限分类

具体权限有: select, update, insert, alter, index, delete, all , execute

注:all 包括所有权限 ; execute 执行存储过程权限

user01:

1
2
grant select, update, insert on product to user02;
grant all on product to user02;

user02:

1
select * from user01.product;

此时user02查user_tables,不包括user01.product这个表,但如果查all_tables则可以查到,因为他可以访问。

2. 将表的操作权限授予全体用户:

public表示是所有的用户,这里的all权限不包括drop。

1
grant all on product to public;

实体权限数据字典:

1
2
3
4
5
6
7
8
-- 用户可以查询的表
select owner, table_name from all_tables;
-- 用户创建的表
select table_name from user_tables;
-- 获权可以存取的表(被授权的)
select grantor, table_schema, table_name, privilege from all_tab_privs;
-- 授出权限的表(授出的权限)
select grantee, owner, table_name, privilege from user_tab_privs;

3. DBA用户可以操作全体用户的任意基表(无需授权,包括删除):DBA用户:

1
2
3
4
5
6
7
8
Create table stud02.product(
id number(10),
name varchar2(20));
drop table stud02.emp;

create table stud02.employee
as
select * from scott.emp;

4. 实体权限传递(with grant option):user01:

1
grant select, update on product to user02 with grant option;

5. 实体权限回收:user01:

1
2
-- 传递的权限将全部丢失。
Revoke select, update on product from user02;

说明

1)如果取消某个用户的对象权限,那么对于这个用户使用WITH GRANT OPTION授予权限的用户来说,同样还会取消这些用户的相同权限,也就是说取消授权时级联的。

##四、Oracle 用户管理
###1. 创建用户的Profile文件

1
2
3
4
5
6
7
8
-- student为资源文件名
create profile student limit
-- 指定锁定用户的登录失败次数
FAILED_LOGIN_ATTEMPTS 3
-- 指定用户被锁定天数
PASSWORD_LOCK_TIME 5
-- 指定口令可用天数
PASSWORD_LIFE_TIME 30

###2. 创建用户

1
2
3
4
5
6
Create User username
Identified by password
Default Tablespace tablespace
Temporary Tablespace tablespace
Profile profile
Quota integer/unlimited on tablespace;

例:

1
2
3
4
5
6
7
8
Create user acc01
-- 如果密码是数字,请用双引号括起来
identified by acc01
default tablespace account
temporary tablespace temp
profile default
quota 50m on account;
grant connect, resource to acc01;

查询用户缺省表空间、临时表空间

1
select username, default_tablespace, temporary_tablespace from dba_users;

查询系统资源文件名:

1
select * from dba_profiles;

资源文件类似表,一旦创建就会保存在数据库中。

1
2
3
4
5
6
select username, profile, default_tablespace, temporary_tablespace from dba_users;

create profile common limit
failed_login_attempts 5
idle_time 5;
Alter user acc01 profile common;

###3. 修改用户:

1
2
3
4
5
6
Alter User 用户名
Identified 口令
Default Tablespace tablespace
Temporary Tablespace tablespace
Profile profile
Quota integer/unlimited on tablespace;

1、修改口令字:

1
Alter user acc01 identified by "12345";

2、修改用户缺省表空间:

1
Alter user acc01 default tablespace users;

3、修改用户临时表空间

1
Alter user acc01 temporary tablespace temp_data;

4、强制用户修改口令字:

1
Alter user acc01 password expire;

5、将用户加锁

1
2
Alter user acc01 account lock;  // 加锁
Alter user acc01 account unlock; // 解锁

###4. 删除用户

1
2
3
4
-- 用户没有建任何实体
drop user 用户名;
-- 将用户及其所建实体全部删除
drop user 用户名 CASCADE;

当前正连接的用户不得删除。

###5. 监视用户:

1、查询用户会话信息:

1
select username, sid, serial#, machine from v$session;

2、删除用户会话信息:

1
Alter system kill session 'sid, serial#';

3、查询用户SQL语句:

1
select user_name, sql_text from v$open_cursor;

##五、Oracle 角色管理
###1. 何为角色
角色是一组权限的集合,将角色赋给一个用户,这个用户就拥有了这个角色中的所有权限。

###2. 系统预定义角色  
预定义角色是在数据库安装后,系统自动创建的一些常用的角色。下介简单的介绍一下这些预定角色。
角色所包含的权限可以用以下语句查询:

1
select * from role_sys_privs where role='角色名';

1.CONNECT, RESOURCE, DBA

这些预定义角色主要是为了向后兼容。其主要是用于数据库管理。oracle建议用户自己设计数据库管理和安全的权限规划,而不要简单的使用这些预定角色。将来的版本中这些角色可能不会作为预定义角色。

2.DELETE_CATALOG_ROLE, EXECUTE_CATALOG_ROLE, SELECT_CATALOG_ROLE

这些角色主要用于访问数据字典视图和包。

3.EXP_FULL_DATABASE, IMP_FULL_DATABASE

这两个角色用于数据导入导出工具的使用。

4.AQ_USER_ROLE, AQ_ADMINISTRATOR_ROLE

AQ:Advanced Query。这两个角色用于oracle高级查询功能。

5. SNMPAGENT

用于oracle enterprise manager和Intelligent Agent

6.RECOVERY_CATALOG_OWNER

用于创建拥有恢复库的用户。关于恢复库的信息,参考oracle文档《Oracle9i User-Managed Backup and Recovery Guide》

7.HS_ADMIN_ROLE

A DBA using Oracle’s heterogeneous services feature needs this role to access appropriate tables in the data dictionary.

###3. 管理角色
1.建一个角色

1
create role role1;

2.授权给角色

1
grant create any table,create procedure to role1;

3.授予角色给用户

1
grant role1 to user1;

4.查看角色所包含的权限

1
select * from role_sys_privs;

5.创建带有口令以角色(在生效带有口令的角色时必须提供口令)

1
create role role1 identified by password1;

6.修改角色:是否需要口令

1
2
alter role role1 not identified;
alter role role1 identified by password1;

7.设置当前用户要生效的角色
(注:角色的生效是一个什么概念呢?假设用户a有b1,b2,b3三个角色,那么如果b1未生效,则b1所包含的权限对于a来讲是不拥有的,只有角色生效了,角色内的权限才作用于用户,最大可生效角色数由参数MAX_ENABLED_ROLES设定;在用户登录后,oracle将所有直接赋给用户的权限和用户默认角色中的权限赋给用户。)

1
2
3
4
5
6
7
set role role1;//使role1生效
set role role,role2;//使role1,role2生效
set role role1 identified by password1;//使用带有口令的role1生效
set role all;//使用该用户的所有角色生效
set role none;//设置所有角色失效
set role all except role1;//除role1外的该用户的所有其它角色生效。
select * from SESSION_ROLES;//查看当前用户的生效的角色。

8.修改指定用户,设置其默认角色

1
2
alter user user1 default role role1;
alter user user1 default role all except role1;

详见oracle参考文档

9.删除角色

1
drop role role1;

角色删除后,原来拥用该角色的用户就不再拥有该角色了,相应的权限也就没有了。

说明:

1)无法使用WITH GRANT OPTION为角色授予对象权限

2)可以使用WITH ADMIN OPTION 为角色授予系统权限,取消时不是级联

java.ext.dirs 用于加载指定路径下的jar文件,默认是 $JAVA_HOME/jre/lib/ext 。

在添加 java.ext.dirs 参数时, 需要注意 java.ext.dirs会覆盖默认的 $JAVA_HOME/jre/lib/ext。正确的使用方法为:

1
-Djava.ext.dirs=./plugin:$JAVA_HOME/jre/lib/ext
阅读全文 »