pythonのPandasでcsvを読み込む方法、よくあるエラーの解決法をご紹介します。
import pandas as pd
df = pd.read_csv('data/sales.csv', encoding="shift-jis")
df.head()
Windowsのexcel環境で出力されるcsvのデフォルトの文字コードはshift-jis形式。ですが、read_csv関数でcsvファイルを読み込む場合は、encodingで文字コードにshift-jisを指定してあげないと、デフォルトのutf-8で読み込むことになり、日本語の部分でエラーが出力されてしまう。
CSVファイルpandasで読み込む際にデコードエラーがでたときの対処法
UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x87 in position 6839: illegal multibyte sequence
encodingでshift-jisを指定したが、特定の文字のデコードで詰まってしまいエラーがでたのが上のUnicodeDecodeErrorです。
これはwindowsの拡張文字列が含まれている場合などに出力されます。その場合の対処法の一つとして、encodingの文字コードにcp932(MS932)を指定してあげるといった方法があります。
df = pd.read_csv('data/sales.csv', encoding="cp932")