有个解析xml的小脚本要写下,编码是gbk,xml解析的几个包都是不支持gbk编码的,取巧的用iso8859-1来替换,但最终还要涉及编码的转换。编码这东西最是头痛了,总是有些字符转换不成功,抛出错误。
本以为解析xml的接口效率会比较高,而实际上,直接用正则来处理文本,又不需要面对编码问题。而且,在CPU占有率上,两者(RE&ElementTree)的差别相当之大,另外还有消耗的时间,相差居然25倍。天,还是乖乖用正则好了,文本本来就比较小,用API,偷懒反倒不成功。