中国移动真正比联通强的原因! 交流

交流中国移动真正比联通强的原因!

登录注册发新帖

弥漫的烟武林高手		[] 中国移动真正比联通强的原因! --> 郑重申明：如以前有人发过此帖，请斑竹和各位大大见谅。l劳烦斑竹把此帖删去。 *********************************************************** 你信的话就按我说的做：首先，如果你的电脑操作是win2000或winxp的话，那么： 1、在桌面上点右键，选择新建 - 文本文档； 2、然后双击打开“新建文本文档“，输入“移动“两字后存盘退出；　　 3、重新打开“新建文本文档“，看到什么了？　　 4、是不是刚刚录入的“移动“两字？　　咱们换过来　　 1、在桌面上点右键，选择新建 - 文本文档；　　 2、双击打开“新建文本文档“，输入“联通“两字后存盘退出；　　 3、重新打开“新建文本文档“，看到什么了？　　 4、是不是刚刚录入的“联通“两字不见了，取而代之是个烧焦的手机电池的模样？最后试过后是真的，就请尼过来回个贴支持我一下！谢谢！！！ ************************************************************** 尽管看的人多，回帖的没几个人。还是说说原理吧！ [概述] 在Windows操作系统中使用记事本新建一个文本文件，在文件里面写入“联通”两个字并保存。当再次打开这个文本文件时候，在记事本中看到得却不是刚刚输入的“联通”，而是乱码。网络上有人把这个奇怪现象包装成把戏，如果你曾遇到过这种把戏就会知道，他们往往让你建立两个文本文件进行对比，其中一个输入“联通”，另外一个可能是“移动”等等，最后试图八卦地让你相信联通、移动和微软之间有着种种恩怨情仇。 [解释] 这是一个字符编码应用的奇怪现象，讲的明白点，可以说是记事本开小差了！记事本为什么会犯错误？记事本犯了怎样的错误呢？也许你会迫不及待的想知道这些问题，如果是这样，我不会让你空腹而归的。在简体中文操作系统中默认的本地字符集编码是GBK编码，除非你在保存记事本文本文件时候选择了其他编码方式，否则用记事本录入的字符信息将使用GBK编码进行储存。巧合的是，“联通”这两个字符的GBK编码具有UTF-8编码的特征，记事本犯下的错误正是将GBK编码存放的记录有“联通”两个字符的文件误认为UTF-8编码的文件。或许你会问，UTF-8编码的文件不是以“EF BB BF”三个特殊字节开头吗？既然这样，记事本怎么会犯这么低级的错误呢？没错，UTF-8编码规定使用UTF-8编码的文件以“EF BB BF”三个特殊字节开头，但并不是强制性要求，早期的UTF-8编码文件就不遵循这个规定。因此记事本不能依靠文件的开头字节判断一个文件是否是UTF-8编码，而只能对文件中的数据进行简单的编码分析来确定。正是这个原因，才有了字符编码应用中的这个奇怪又无法避免的现象。 [细节] 如果上面的解释对于你来说只是杯开胃红酒，那我还是块点把主食呈上吧，一份大峡谷香烤猪肋排。UTF-8编码采用1-3个字节对字符进行编码，编码字节数与字符的Unicode编码值有严格的对应关系，让我们回忆下UTF-8编码和Unicode的对应关系吧。 Unicode编码值 UTF-8编码结构 \u0001 - \u007E 0XXXXXXX \u0080 - \u07FF 和 \u0000 110XXXXX 10XXXXXX \u0800 - \uFFFF 1110XXXX 10XXXXXX 10XXXXXX “联通”这两个字符的GBK编码值是“C1 AA CD A8"，GBK编码方式使用两个字节对一个字符进行编码，因此以GBK编码方式存放的录有“联通”两个字符的文件的大小为四个字节。接下来分别观察“联通”这两个字符GBK编码值的二进制形式，你有发现有趣的事。联 GBK 十六进制：C1 AA 二进制：1100 0001,1010 1010 通 GBK 十六进制：C1 AA 二进制：1100 1101,1010 1000 请注意上面二进制数据的着色部分，你想到了什么？对，它们和UTF-8编码结构中的补充位完全一致，UTF-8编码的补充位使得编码值更有规律，而记事本刚好凭借这个特征区分UTF-8编码的文件。存有“联通”两个字符的文件的所有数据都符合这个特征，就是这样，记事本彻底的将文件误认为UTF-8编码的文件。将错就错，让我们来看看这个错误是怎样收场的。如果把“联通”的GBK编码值当作UTF-8编码值，那文件就成为一个写有数据“C1 AA CD A8”并以UTF-8编码的文件，当使用记事本再次打开的时候会看到什么呢？只要将UTF-8编码转换成Unicode编码就知道了。UTF-8编码“C1 AA CD A8”转换成Unicode编码后，编码值为“6A 00 68 03”（转换方法请参考本Blog中的《字符编码》一文）。0x006A这个Unicode编码值位于\u0001 - \u007E之间，若要转换为UTF-8编码，显然只能用一个字节进行编码，因此“联”的GBK编码“C1 AA”虽然特征上貌似UTF-8编码，但它却不对应任何一个UTF-8编码。接着看0x0368这个Unicode编码值，这个值对应了字符“?”，这也正是我们将在记事本中看到的内容。或许你会说我看到的是一个黑色矩形啊，这只是字体的原因，你将字体改为宋体或者其他字体，看到的就是字符“?”。对于中文字符，UTF-8编码要用三个字节进行编码，因此，如果你使用记事本录入“联通”，然后选择以UTF-8编码方式保存的话，文件大小应为9个字节（包含三个字节的开头数据），而同样的文件GBK编码却是4个字节。最后附上“联通”的GBK、UTF-8、Unicode编码值，以及记事本的错误思维。联通 GBK C1 AA CD A8 UTF-8 E8 81 94 E9 80 9A Unicode 54 80 1A 90 联通 GBK C1 AA CD A8 UTF-8 C1 AA CD A8 Unicode 6A 00 68 03 （将GBK值误认为UTF-8值的结果） #1楼
		发帖时间：2008-11-16 21:04:17 \| 回复数：27

游客组

返回【交流】