2009年5月2日星期六

SQL语句执行计划



Oracle在执行一个SQL之前,首先要分析一下语句的执行计划,然后再按执行计划去执行。分析语句的执行计划的工作是由优化器(Optimizer)来完成的。不同的情况,一条SQL可能有多种执行计划,但在某一时点,一定只有一种执行计划是最优的,花费时间是最少的。相信你一定会用Pl/sqlDeveloper、Toad等工具去看一个语句的执行计划,不过你可能对Rule、Choose、Firstrows、Allrows这几项有疑问,因为我当初也是这样的,那时我也疑惑为什么选了以上的不同的项,执行计划就变了?

1、优化器的优化方式
Oracle的优化器共有两种的优化方式,即基于规则的优化方式(Rule-BasedOptimization,简称为RBO)和基于代价的优化方式(Cost-BasedOptimization,简称为CBO)。
A、RBO方式:优化器在分析SQL语句时,所遵循的是Oracle内部预定的一些规则。比如我们常见的,当一个where子句中的一列有索引时去走索引。
B、CBO方式:依词义可知,它是看语句的代价(Cost)了,这里的代价主要指Cpu和内存。优化器在判断是否用这种方式时,主要参照的是表及索引的统计信息。统计信息给出表的大小、有少行、每行的长度等信息。这些统计信息起初在库内是没有的,是你在做analyze后才出现的,很多的时侯过期统计信息会令优化器做出一个错误的执行计划,因些我们应及时更新这些信息。在Oracle8及以后的版本,Oracle列推荐用CBO的方式。
我们要明了,不一定走索引就是优的,比如一个表只有两行数据,一次IO就可以完成全表的检索,而此时走索引时则需要两次IO,这时对这个表做全表扫描(fulltablescan)是最好的。

2、优化器的优化模式(OptermizerMode)

优化模式包括Rule,Choose,Firstrows,Allrows这四种方式,也就是我们以上所提及的。如下我解释一下:
Rule:不用多说,即走基于规则的方式。
Choolse:这是我们应观注的,默认的情况下Oracle用的便是这种方式。指的是当一个表或或索引有统计信息,则走CBO的方式,如果表或索引没统计信息,表又不是特别的小,而且相应的列有索引时,那么就走索引,走RBO的方式。
FirstRows:它与Choose方式是类似的,所不同的是当一个表有统计信息时,它将是以最快的方式返回查询的最先的几行,从总体上减少了响应时间。
AllRows:也就是我们所说的Cost的方式,当一个表有统计信息时,它将以最快的方式返回表的所有的行,从总体上提高查询的吞吐量。没有统计信息则走基于规则的方式。

3、如何设定选用哪种优化模式

A、Instance级别
我们可以通过在initSID.ora文件中设定OPTIMIZER_MODE=RULE、OPTIMIZER_MODE=CHOOSE、OPTIMIZER_MODE=FIRST_ROWS、OPTIMIZER_MODE=ALL_ROWS去选用3所提的四种方式,如果你没设定OPTIMIZER_MODE参数则默认用的是Choose这种方式。

B、Sessions级别
通过SQLALTERSESSIONSETOPTIMIZER_MODE=Mode;来设定。
C、语句级别
这些需要用到Hint,比如:
SQLSELECTa.userid,
2b.name,
3b.depart_name
4FROMtf_f_yhdaa,
5tf_f_departb
6WHEREa.userid=b.userid;

4、为什么有时一个表的某个字段明明有索引,当观察一些语的执行计划确不走索引呢?如何解决呢?

A、不走索引大体有以下几个原因
你在Instance级别所用的是all_rows的方式
你的表的统计信息(最可能的原因)
你的表很小,上文提到过的,Oracle的优化器认为不值得走索引。

B、解决方法
可以修改initSID.ora中的OPTIMIZER_MODE这个参数,把它改为Rule或Choose,重起数据库。也可以使用4中所提的Hint.
删除统计信息
SQLanalyzetabletable_namedeletestatistics;
表小不走索引是对的,不用调的。

5、其它相关

A、如何看一个表或索引是否是统计信息
SQLSELECT*FROMuser_tables
2WHEREtable_name=table_name
3ANDnum_rowsisnotnull;
SQLSELECT*FROMuser_indexes
2WHEREtable_name=table_name
3ANDnum_rowsisnotnull;


b、如果我们先用CBO的方式,我们应及时去更新表和索引的统计信息,以免生形不切合实的执行计划。

SQLANALYZETABLEtable_nameCOMPUTESTATISTICS;
SQLANALYZEINDEXindex_nameESTIMATESTATISTICS;

具体的ANALYZE语句请参照Oracle8i/9i的refrence文档。
================endoffile“Oracle的优化器(Optimizer)”=====================


下面的是我的关于一点执行计划的理解:
1。首先要启动trace的选项:
setautotracetraceexplain
如果出现下面的错误:
SQLsetautotracetraceexplain
SP2-0613:UnabletoverifyPLAN_TABLEformatorexistence
SP2-0611:ErrorenablingEXPLAINreport

那么要先运行下面的语句:
@?/rdbms/admin/utlxplan.sql;
2。分析下面的执行计划:
SQLselectename,dnamefromemp,deptwhereemp.deptno=dept.deptnoanddept.dnamein('ACCOUNTING','RESEARCH','SALES','OPERATIONS');

ExecutionPlan
----------------------------------------------------------
0SELECTSTATEMENTOptimizer=CHOOSE
10NESTEDLOOPS
21TABLEACCESS(FULL)OF'EMP'
31TABLEACCESS(BYINDEXROWID)OF'DEPT'
43INDEX(UNIQUESCAN)OF'PK_DEPT'(UNIQUE)

关于前面的两个数字,第一个是状态ID,第二个是父ID。
就是如下所示:0--1--2
|
|--3--4
在上图里,0的执行依靠1,1的执行又依赖2和3,2是没有子ID的,所以2最先执行,然后是4,在然后是3;然后2和3的结果传回1。
在这个里面0行有个字“Optimizer=CHOOSE”,这个就是上文说的那个oracle的优化器了。
还有,看这个“INDEX(UNIQUESCAN)OF'PK_DEPT'(UNIQUE)”,就知道这个语句运行的时候是走INDEX的。
可以猜测这个SQL是使用的RBO,而不是CBO.
如果让它变成CBO的话,可以这样:
analyzetableempcomputestatistics;
analyzetabledeptcomputestatistics;
然后再执行一次:

SQLselectename,dnamefromemp,deptwhereemp.deptno=dept.deptnoand
dept.dnamein('ACCOUNTING','RESEARCH','SALES','OPERATIONS');

ExecutionPlan
----------------------------------------------------------
0SELECTSTATEMENTOptimizer=CHOOSE(Cost=3Card=14Bytes=252)
10HASHJOIN(Cost=3Card=14Bytes=252)
21TABLEACCESS(FULL)OF'DEPT'(Cost=1Card=3Bytes=33)
31TABLEACCESS(FULL)OF'EMP'(Cost=1Card=14Bytes=98)

这次执行的时候,就不会走INDEX,而是全表扫描了,因为这个表一共就只有14个记录。

表连接方式及使用场合

NESTEDLOOP

对于被连接的数据子集较小的情况,nestedloop连接是个较好的选择。nestedloop就是扫描一个表,每读到一条记录,就根据索引去另一个表里面查找,没有索引一般就不会是nestedloops。
一般在nestedloop中,驱动表满足条件结果集不大,被驱动表的连接字段要有索引,这样就走nstedloop。如果驱动表返回记录太多,就不适合nestedloops了。如果连接字段没有索引,则适合走hashjoin,因为不需要索引。
可用ordered提示来改变CBO默认的驱动表,可用USE_NL(table_name1table_name2)提示来强制使用nestedloop。

HASHJOIN

hashjoin是CBO做大数据集连接时的常用方式。优化器扫描小表(或数据源),利用连接键(也就是根据连接字段计算hash值)在内存中建立hash表,然后扫描大表,每读到一条记录就来探测hash表一次,找出与hash表匹配的行。
当小表可以全部放入内存中,其成本接近全表扫描两个表的成本之和。如果表很大不能完全放入内存,这时优化器会将它分割成若干不同的分区,不能放入内存的部分就把该分区写入磁盘的临时段,此时要有较大的临时段从而尽量提高I/O的性能。临时段中的分区都需要换进内存做hashjoin。这时候成本接近于全表扫描小表+分区数*全表扫描大表的代价和。
至于两个表都进行分区,其好处是可以使用parallelquery,就是多个进程同时对不同的分区进行join,然后再合并。但是复杂。
使用hashjoin时,HASH_AREA_SIZE初始化参数必须足够的大,如果是9i,Oracle建议使用SQL工作区自动管理,设置WORKAREA_SIZE_POLICY为AUTO,然后调整PGA_AGGREGATE_TARGET即可。
以下条件下hashjoin可能有优势:
两个巨大的表之间的连接。
在一个巨大的表和一个小表之间的连接。
可用ordered提示来改变CBO默认的驱动表,可用USE_HASH(table_name1table_name2)提示来强制使用hashjoin。

SORTMERGEJOIN

sortmergejoin的操作通常分三步:对连接的每个表做tableaccessfull;对tableaccessfull的结果进行排序;进行mergejoin对排序结果进行合并。sortmergejoin性能开销几乎都在前两步。一般是在没有索引的情况下,9i开始已经很少出现了,因为其排序成本高,大多为hashjoin替代了。
通常情况下hashjoin的效果都比sortmergejoin要好,然而如果行源已经被排过序,在执行sortmergejoin时不需要再排序了,这时sortmergejoin的性能会优于hashjoin。
在全表扫描比索引范围扫描再通过rowid进行表访问更可取的情况下,sortmergejoin会比nestedloops性能更佳。
可用USE_MERGE(table_name1table_name2)提示强制使用sortmergejoin。

没有评论:

发表评论