前文主要讲到的是执行DML的字符集转换,下面再讨论检索数据时的字符集转换,还是先看测试:
先将NLS_LANG设置为默认值ZHS16GBK
SQL> insert into t1 values (1,'中','中');
已创建 1 行。
SQL> commit;
提交完成。
SQL> select * from t1;
ID AA BB
---------- -------------------- ----------------------------------------
1 中 中
从抓取的网络包中找到返回的数据:
00000030 01 3D 00 00 06 00 00 00 00 00 .=........
00000040 10 17 3A 08 C0 CA 9B 07 F7 10 15 1A EA 23 F7 68 ..:..........#.h
00000050 DD 85 78 6C 01 1C 0D 22 36 52 00 00 00 03 00 00 ..xl..."6R......
00000060 00 39 02 00 00 81 16 00 00 00 00 00 00 00 00 00 .9..............
00000070 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 01 ................
00000080 02 02 00 00 00 02 49 44 00 00 00 00 00 00 00 00 ......ID........
00000090 01 80 00 00 14 00 00 00 00 00 00 00 00 00 00 00 ................
000000A0 00 00 00 00 00 0054 0301 14 00 00 00 01 02 02 ......T.........
000000B0 00 00 00 02 41 41 00 00 00 00 00 00 00 00 01 80 ....AA..........
000000C0 00 00 28 00 00 00 00 00 00 00 00 10 00 00 00 00 ..(.............
000000D0 00 00 00 00D0 0702 14 00 00 00 01 02 02 00 00 ................
000000E0 00 02 42 42 00 00 00 00 00 00 00 00 07 00 00 00 ..BB............
000000F0 07 78 6C 01 1C 0D 22 36 06 02 03 00 00 00 01 00 .xl..."6........
00000100 00 00 00 00 00 00 00 00 00 00 07 02 C1 02 02D6................
00000110 D0024E 2D08 06 00 F2 DF 02 00 00 00 00 00 02 ..N-............
00000120 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00000130 00 00 00 04 01 00 00 00 01 00 00 00 00 00 00 00 ................
00000140 00 00 02 00 0E 00 03 00 00 00 00 00 07 28 00 00 .............(..
00000150 04 00 00 16 00 00 00 01 00 00 00 00 00 00 2C 00 ..............,.
00000160 00 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00000170 00 00 00 ...
上面展示的是返回的数据。红色分别为AA列和BB列的字符集ID:
SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;
NLS_CHARSET_NAME(TO_NUMBER('0354','XXXX'
----------------------------------------
ZHS16GBK
SQL> select nls_charset_name(to_number('07D0','xxxx')) from dual;
NLS_CHARSET_NAME(TO_NUMBER('07D0','XXXX'
----------------------------------------
AL16UTF16
蓝色部分是列数据,D6 D0为ZHS16GBK编码的“中”,而4E 2D为AL16UTF16编码的“中”字,数据原样从数据库中返回。这两个不同的编码,最后显示的结果均为“中”字。由于数据库字符集ZHS16GBK与客户端相同,客户端没有对数据作转换,而国家字符集的“中”字,要转换为ZHS16GBK,再最终由客户端程序(SQLPLUS)显示出来。
下面把NLS_LANG设置为AMERICAN_AMERICA.US7ASCII,再进行同样的测试,发现,返回的网络包是一样,即服务器端返回的数据是一样的,并没有因为NLS_LANG的不同而不同,因此转换仍然是发生在客户端。在这次测试中,将服务器返回的数据,转换成US7ASCII编码,出现了乱码,显示为?号
再将NLS_LANG设置为AMERICAN_AMERICA.UTF8,看看返回的结果
SQL> select * from t1;
ID AA BB
---------- -------------------- --------------------
1 涓? 涓
这次是出现了将“中”字转换成了其他汉字。为什么是转成了这个“涓”字,在此不在细述。
下面把NLS_LANG设置为AMERICAN_AMERICAN.UTF8,但增加了一个环境变量NLS_NCHAR=ZHS16GBK
SQL> select * from t1;
ID AA BB
---------- -------------------- --------------------
1 涓? 中
在本次测试中,字符集为国家字符集AL16UTF16的列BB显示了正确的结果。这说明客户端OCI库在转换时,对国家字符集是根据NLS_NCHAR进行转换的,在这个测试中NLS_NCHAR为ZHS16GBK,将AL16UTF16编码正确地转换到了ZHS16GBK编码。
再作一个测试,将NLS_LANG设置为AMERICAN_AMERICA.ZHS16GBK,将NLS_NCHAR设置为AL16UTF16
SQL> select * from t1;
ID AA BB
---------- -------------------- -----------
1 中 N-
由于NLS_NCHAR与国家字符集相同,因此对国家字集符的列没有作转换,直接返回。“中”字的AL16UTF16的编码为 4E 2D,在客户端操作系统中,正好是英文字符“N”和“-”的编码
结论:
在客户端向服务器端提交SQL语句时,客户端根据NLS_LANG和服务器数据库字符集,对SQL中的字符进行转换处理。如果NLS_LANG设置的字符集与服务器数据库字符集相同,不作转换,否则要转换成服务器端字符符。如果有国家字符集,客户端不作处理,由服务器端再将其转换为国家字符集。
在查询数据时,服务器端原服务器端的编码返回数据,由客户端根据返回的元数据中的字符集与NLS_LANG和NLS_NCHAR的设置进行比较。如果NLS_NCHAR没有设置,则其默认值为NLS_LANG中的字符集设置。如果数据中的字符集与客户端设置一致,不进行转换,否则要进行转换。国家字符集的转换根据NLS_NCHAR设置进行转换。
根据这个结论,再推断出EXPORT和IMPORT时的字符集转换行为:
在EXPORT时,EXP程序本身也是一个普通的客户端程序,因此在执行导出时也会按NLS_LANG和NLS_NCHAR的设置进行字符集转换。然后在DMP文件记录导出时客户端的字符集。
在IMPORT时,如果DMP文件记录的字符集与客户端字符集不一样,需要将其数据转换为客户端的字符集,然后在导入到库中时,由ORACLE的客户端OCI库按前述规则,根据NLS_LANG和服务器端字符集的比较,进行了转换。
关于EXPORT和IMPORT的行为,将在本系列文章的Part 4部分介绍。
no comment untill now