20  读取数据

20.1

  • 字符型数字被读取为数值型 → 以0开始的字符把0丢掉了。
    • 解决方法:设置dtype参数,指定数据类型
import pandas as pd
df = pd.read_excel('data.xlsx', dtype={'patid':str})

20.2 读取Excel文件

20.2.1 read_excel()的常见参数

pandas的read_excel函数是用于读取Excel文件的函数,它有许多参数可用于控制读取的行为。以下是read_excel函数的常用参数及其说明:

  1. io:要读取的Excel文件的路径(字符串)或文件类对象。也可以是一个URL链接、一个ExcelFile对象等。

  2. sheet_name:要读取的工作表的名称或索引。默认为0,表示第一个工作表。可以是字符串(工作表名称)或整数(工作表索引)。

  3. header:指定作为列名的行号,默认为0,表示使用第一行作为列名。如果设置为None,将不使用列名,数据将从第一行开始。

  4. names:指定列名列表。如果设置了header=None,可以使用names参数为每列指定自定义的列名。

  5. index_col:指定作为行索引的列号或列名。默认为None,表示不使用行索引。

  6. usecols:要读取的列的列表。可以是列号(从0开始)或列名。

  7. skiprows:要跳过的行数(从文件开始处计算)。可以是整数或列表。

  8. skip_footer:要跳过的行数(从文件末尾计算)。通常用于跳过页脚或其他无关的内容。

  9. nrows:要读取的行数。默认为None,表示读取所有行。

  10. parse_dates:要解析为日期的列的列表。可以是列号或列名。

  11. date_parser:用于解析日期的函数。默认使用pandas的默认日期解析器。

  12. na_values:要识别为NaN的值的列表。可以是单个值,也可以是列表。

  13. thousands:用于指定数字千位分隔符的字符。

  14. decimal:用于指定小数点符号的字符。

  15. converters:一个字典,用于指定对特定列进行自定义数据转换的函数。

20.2.2 获取工作表的名称

# 加载Excel文件
xls = pd.ExcelFile('path_to_file.xlsx')

# 获取所有工作表名称

sheet_names = xls.sheet_names

20.3 读取文本

from io import StringIO  

html_str = '''符号    功能
AND 逻辑“与”
OR  逻辑“或”
NOT 逻辑“非”'''

# 使用 StringIO 来创建一个文件类似对象  
string_file = StringIO(html_str)  
  
# 读取文件类似对象为 DataFrame  
df = pd.read_csv(string_file, sep='\t')  # 因为字符串是用制表符分隔的,所以指定 sep='\t'  

  
# 关闭 StringIO 对象(虽然在这个例子中不是必须的,因为 Python 的垃圾回收会处理它)  
string_file.close()


df6 = df.copy()

df6
符号 功能
0 AND 逻辑“与”
1 OR 逻辑“或”
2 NOT 逻辑“非”