数据管理技术概论

数据库基本概念
  • 数据(Data)
  • 数据库(Database)
  • 数据库管理系统(DBMS)
  • 数据库系统(DBS)

数据的基本概念

  • 描述事物的符号记录
  • 数据库存储的基本对象
    • 文本
    • 图形
    • 图像
    • 语音
    • 视频
  • 数据和其语义是不可分的

数据库的定义
数据库( Database,简称DB):长期储存在计算机内、有组织的、可共享的大量数据的集合

  • 有结构
  • 可共享
  • 大规模
  • 长期存储

数据库管理系统
Database Management System,简称DBMS.
目的:科学地组织和存储数据、高效地获取和维护数据。
在计算机系统中,位于操作系统之上,中间件应用服务器之下,与操作系统一起并称为系统软件.
具有以下功能

  • 数据定义功能
  • 数据组织、存储和管理
  • 数据操纵功能
  • 数据库的事务管理和运行管理
  • 数据库的建立和维护功能
  • 数据的互操作功能

数据库系统(Database System,简称DBS),包括数据库、数据库管理系统,应用系统、数据库管理员等

数据管理技术

数据管理包括对数据进行分类、组织、编码、存储、检索和维护,是数据处理的中心问题。

历史阶段

  • 手工管理
  • 文件管理
  • 数据库管理

数据库系统阶段优点

  • 数据高度结构化
  • 数据可为众多不同应用程序共享
  • 较高的数据独立性
  • 由数据库管理系统统一管理和控制

数据库系统管理十大特性

  1. 数据独立性
  2. 数据共享性
  3. 可控冗余性
  4. 数据安全性
  5. 数据完整性
  6. 数据一致性
  7. 并发控制
  8. 集中存放、集中控制
  9. 故障可恢复性
  10. 数据字典

数据模型基本概念

基本概念

数据模型是用来抽象、表示和处理现实世界中的数据和信息的一个工具,它要求能真实地模拟现实世界、容易为人理解、便于计算机突现。

数据模型三要素

  • 数据结构: 描述数据库组成对象,以及对象之间的联系
  • 数据操作: 对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则
  • 数据的完整性约束: 数据及其联系所具有的制约和储存规则,限定符合数据模型的数据库状态以及状态的变化,保证数据的正确、有效、相容。
概念模型

用于信息世界的建模,它要求这个模型应该具备较强的语义表达能力,能够方便直接表达各种语火知识,简单,清晰,用户易于理解。

  1. 实体:客观存在并可相互区别的事物。可以是具体的人、事、物或抽象的概念。
  2. 属性:实体所具有的某一特性。一个实体可以由若干个属性来刻画
  3. 码:唯一标识实体的属性集。注意是属性集,可以是单个属性,也可以是多个属性共同组成码。
  4. 域:属性的取值范围。
  5. 实体型:用实体名及其属性名集合来抽象和刻画同类实体。
  6. 实体集:同一类型实体的集合
  7. 联系:现实世界中事物内部以及事物之间的联系在信息世界中的反映,包括组成实体的各属性之间的联系,和不同实体集之间的联系。

联系

  • 一对一联系(1:1,可以不没有)
  • 一对多联系(1:n,n大于等于0)
  • 多对多联系(m:n)

概念模型的设计原则

  • 必须真实地反映现实
  • 避免冗余
  • 简单
  • 选择合适的元素类型
E-R模型

实体-联系模型,三要素

  • 实体型
  • 属性
  • 联系

E-R图:使用矩形表示实体型用椭圆形表示属性。用菱形表示联系,在无向边旁标上联系的类型。

联系本身也是可以有属性的。如果一个联系具有属性,则通常这些属性应该与该联系连接起来。

用下划线标识主码.

数据模型

层次模型

最早的数据模型.

树形结构来表示,有且只有一个结点没有双亲结点,称为根结点;根以外的其它结点有且只有一个双亲结点。跟数据结构中树的定义类似。

只能直接处理一对多的实体联系

任何记录值只有按其路径查看时,才能显出它的全部意义

没有一个子女记录值能够脱离双亲记录值而独立存在

在层次模型中表示多对多联系:将多对多联系分解成一对多联系

  • 冗余结点法:例如学生对选课多对多,先用一个模型表示学生对选课1对多,然后再用一个模型表示选课对学生1对多
  • 虚拟结点法:两个结点同时指向一个虚拟节点

层次模型操作同样包括增删改查.

完整性约束

  • 无相应的双亲结点值就不能插入子女结点值
  • 如果刪除双亲结点值,则相应的子女结点值也被同时删除
  • 更新操作时,应更新所有相应记录,以保证数据的一致性(如冗余节点要同步更新)

存储结构

  • 邻接法:按照层次树前序编历的顺序把所有记录值依次邻接存放即通过物理空间的位置相邻来突现层次顺序。
  • 链接法:是用指针来反映数据之间的层次联系,包括子女-兄弟链接法,层次序列链接法

层次模型的优点

  • 结构简单
  • 查询效率高
  • 良好的完整性支持

层次模型的缺点

  • 无法直接表示多对多联系
  • 对插入和删除操作的限制多
  • 应用程序的编写比较复杂
  • 查询子女结点必须通过双亲结点
网状模型

允许一个以上的结点无双亲

一个结点可以有多于一个的双亲

层次模型实际上是网状模型的一个特例

对于多对多联系仍然需要增加一个中间节点

存储方法

  • 单向链接
  • 双向链接
  • 环状链接
  • 向首链接

优点

  • 能够更为直接地描述现实世界
  • 具有良好的性能,存取效率较高。

缺点

  • 数据库的结构越来越复杂
  • 不利于最终用户掌握
  • DDL、DML语言复杂,用户不容易使用
  • 应用程序在访问数据时必须选择适当的路径

关系模型

1970年由IBM科学家E.F.Codd提出,目前绝大多数数据库系统均为关系模型

以下均为关系型数据库

  • Oracle
  • DB2
  • Sybase
  • SQL Server
  • 达梦(DM)
  • MySQL
数据结构

用二维表来表示实体及其联系:行、列

  • 用表格表示实体集
  • 用列表示属性
  • 表结构表示实体的型
  • 用表间的特定冗余信息表示实体间的联系(主键、外键)
  • 行,列无序
  • 列不可再分
  • 没有重复行

关系:一个关系对应通常说的一张表
元组:表中的一行即为一个元组
属性:表中的一列即为一个属性,给每个属性起一个名称即属性名
主码:表中的某个属性组,它可以唯一确定一个元组
域:属性的取值范围
分量:元组中的一个属性值
对关系的描述,关系名(属性1,属性2,…,属性n)学生(学号、姓名、年龄、性别、系、年级)

关系必须是规范化的,满足一定的规范条件。

最基本的规范条件:关系的每一个分量必须是一个不可分的数据项不允许表中还有表。

关系模型的数据操作可以看成是集合操作,操作对象和操作结果都是关系,即若干元组的集合

完整性约束条件

实体完整性

参照完整性

用户自定义完整性

存储结构

表以文件形式存储.

有的DBMS一个表对应一个操作系统文件

有的DBMS自己设计文件结构

优缺点

优点

  • 建立在严格的数学概念的基础上
  • 表的概念直观、单一,用户易理解
  • 关系模型的存取路径对用户透明

缺点

  • 存取路径对用户透明,导致查询效率往往不如非关系数据模型高
  • 为提高性能,必须对用户的查询请求进行优化,增加了开发DBMS的难度
数据库系统结构

从数据库管理系统角度看(数据库系统内部的体系结构),数据库系统通常采用三级模式结构。

从数据库最终用户角度看(数据库系统外部的体系结构),主要包括:

  • 单用户结构
  • 主从式结构
  • 分布式结构
  • 客户/服务器
  • 浏览器/应用服务器/数据库服务器多层结构等

补充

作业

1.3 列出为一个企业建立数据库的六个主要步骤

答:

  1. 需求分析
  2. 概念结构设计
  3. 逻辑结构设计
  4. 物理结构设计
  5. 数据库实施
  6. 数据库的运行和维护

做错题了,上面是第六版的,要求是第五版

1.3 试述文件系统与数据库系统的区别和联系。
参考答案:
(1)区别: 文件系统面向某一应用程序,共享性差,冗余度大,数据与程序的独立性差,记录内有结构,整体无结构,由应用程序自己控制。
数据库系统数据整体结构化,不再针对某一个应用,而是面向全组织,共享性高,冗余度小,具有较高的物理独立性和一定的逻辑独立性,由数据库管理系统提供数据的安全性、完整性、并发控制和恢复能力。
(2)联系: 文件系统与数据库系统都是管理数据的软件。文件系统与数据库系统均位于操作系统层次之上(有时也将文件系统看作是操作系统的组成部分),均采用记录进行数据存储。数据库系统数据库中数据的组织和存储是通过操作系统中的文件系统来实现的。数据库系统可以看作文件系统的改进与完善,后者是前者发展的必然结果。

1.17 什么叫数据与程序的物理独立性?什么叫数据与程序的逻辑独立性?为什么数据库系统具有数据与程序的独立性?
参考答案:
(1)数据与程序的逻辑独立性:当模式改变时(例如增加新的关系、新的属性、改变属性的数据类型等),由数据库管理员对各个外模式/模式的映像做相应改变,可以使外模式保持不变。应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。
(2)数据与程序的物理独立性:当数据库的存储结构改变了,由数据库管理员对模式/内模式映像做相应改变,可以使模式保持不变,从而应用程序也不必改变,保证了数据与程序的物理独立性,简称数据的物理独立性。
(3)数据库的独立性是由三级模式之间的二级映像功能来保证的,即模式/内模式映像保证了物理独立性,外模式/模式映像保证了逻辑独立性。


我很好奇