2020年2月18日 星期二

Python: UnicodeDecodeError

問題: 要以python合併多個html檔, 程式執行讀取檔案內容時, 出現UnicodeDecodeError:

Traceback (most recent call last):
  File "<pyshell#5>", line 1, in <module>
    v_line = f1.readline()
UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 2351: illegal multibyte sequence


原因: 從server下載的文字檔是以UTF-8編碼, 當python以local電腦上的編碼讀取就出現error

解法: 開啟檔案時註記UTF-8

  f1 = open('c:/temp/ss.htm', 'r', encoding ='UTF-8')


Ref:
1.[Python]-字串編碼錯誤UnicodeDecodeError
https://dotblogs.com.tw/chris0920/2010/10/22/18513


沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。