• 设为首页
  • 收藏本站
  • 积分充值
  • VIP赞助
  • 手机版
  • 微博
  • 微信
    微信公众号 添加方式:
    1:搜索微信号(888888
    2:扫描左侧二维码
  • 快捷导航
    福建二哥 门户 查看主题

    基于Python实现读取嵌套压缩包下文件的方法

    发布者: 天下网吧 | 发布时间: 2025-6-14 12:20| 查看数: 104| 评论数: 0|帖子模式

    思路


    • 打开外层
      1. zip
      复制代码
      压缩包并遍历文件


      • 使用
        1. with zipfile.ZipFile(outer_zip_path, 'r') as outer_zip
        复制代码
        语句以读取模式
        1. 'r'
        复制代码
        打开用户输入的外层
        1. zip
        复制代码
        压缩包对应的文件,这样在代码块结束后会自动关闭该文件,避免资源泄露。
      • 通过
        1. outer_zip.namelist()
        复制代码
        获取外层压缩包内所有文件和文件夹名称的列表,并进行遍历。针对每个文件名,使用
        1. if file_name.endswith('.zip')
        复制代码
        判断是否为内层压缩包(即文件名以
        1. .zip
        复制代码
        结尾),如果是,则进入后续处理内层压缩包的相关流程。

    • 处理内层压缩包相关信息

      • 首先,打印内层压缩包的名称,方便用户知晓当前正在处理的内层压缩包情况。
      • 接着,通过
        1. inner_zip_data = outer_zip.read(file_name)
        复制代码
        读取该内层压缩包的二进制数据,然后利用
        1. with zipfile.ZipFile(BytesIO(inner_zip_data), 'r') as inner_zip
        复制代码
        语句将读取到的二进制数据借助
        1. BytesIO
        复制代码
        模拟成一个临时的
        1. zip
        复制代码
        文件对象,再次以读取模式打开,以便后续操作。
      • 之后,使用
        1. inner_zip.namelist()
        复制代码
        获取内层压缩包中的所有文件名列表,再进行遍历,逐个打印出这些文件名,展示内层压缩包包含的所有文件情况。

    • 读取内层压缩包中的文件内容

      • 对于内层压缩包中的每个文件名,尝试通过
        1. file_data = inner_zip.read(inner_file_name)
        复制代码
        读取文件的二进制数据。
      • 接着,尝试以
        1. utf-8
        复制代码
        编码(假设文件内容是
        1. UTF-8
        复制代码
        编码,实际中可根据具体情况调整编码方式)将读取到的二进制数据解码为文本并打印出来,通过
        1. print(file_data.decode('utf-8'))
        复制代码
        实现,这样能展示文件的内容(如果是文本文件的话)。
      • 同时,使用
        1. try-except
        复制代码
        块来捕获可能出现的错误:

        • 如果出现
          1. UnicodeDecodeError
          复制代码
          ,说明以
          1. utf-8
          复制代码
          编码无法正确解码文件内容,很可能该文件不是文本文件,此时会打印相应提示信息。
        • 如果出现其他异常(通过
          1. except Exception as e
          复制代码
          捕获),则打印出具体的错误信息,告知用户读取文件时出现了其他问题。



    完整代码

    以下是一个Python代码示例,用于输入一个外层
    1. zip
    复制代码
    压缩包路径,然后打印内层压缩包名、内层压缩包下的所有文件名,并读取内层压缩包中的文件内容(这里简单以文本形式打印读取到的内容,你可以根据实际文件类型进一步做针对性处理,比如是图片、文档等不同处理方式)。代码中使用了
    1. zipfile
    复制代码
    模块来处理
    1. zip
    复制代码
    压缩包:
    1. import zipfile
    2. from io import BytesIO


    3. def process_nested_zips(outer_zip_path):
    4.     with zipfile.ZipFile(outer_zip_path, 'r') as outer_zip:
    5.         # 遍历外层压缩包中的所有文件
    6.         for file_name in outer_zip.namelist():
    7.             if file_name.endswith('.zip'):
    8.                 print(f"内层压缩包名: {file_name}")
    9.                 # 将内层压缩包提取到临时目录(这里使用内存中的BytesIO模拟临时目录,仅用于获取信息,也可提取到实际磁盘目录)
    10.                 inner_zip_data = outer_zip.read(file_name)
    11.                 with zipfile.ZipFile(BytesIO(inner_zip_data), 'r') as inner_zip:
    12.                     inner_file_names = inner_zip.namelist()
    13.                     print(f"{file_name} 下面的所有文件名:")
    14.                     for inner_file_name in inner_file_names:
    15.                         print(inner_file_name)
    16.                         # 读取内层压缩包中的文件内容
    17.                         try:
    18.                             file_data = inner_zip.read(inner_file_name)
    19.                             print(f"文件 {inner_file_name} 的内容如下(以文本形式展示,若为非文本文件可能显示乱码):")
    20.                             print(file_data.decode('utf-8'))  # 假设文件内容是UTF-8编码,可根据实际调整
    21.                         except UnicodeDecodeError:
    22.                             print(f"文件 {inner_file_name} 无法以UTF-8编码解码,可能不是文本文件")
    23.                         except Exception as e:
    24.                             print(f"读取文件 {inner_file_name} 时出现其他错误: {str(e)}")


    25. outer_zip_path = input("请输入外层zip压缩包的路径:")
    26. process_nested_zips(outer_zip_path)
    复制代码
    代码优化

    如果考虑到压缩包中文件名可能存在编码不一致等情况,可以对代码进行如下优化,添加文件名编码处理部分:
    1. import zipfile
    2. from io import BytesIO


    3. def process_nested_zips(outer_zip_path):
    4.     with zipfile.ZipFile(outer_zip_path, 'r', encoding='utf-8') as outer_zip:  # 设置外层压缩包文件名编码为utf-8,可根据实际调整
    5.         # 遍历外层压缩包中的所有文件
    6.         for file_name in outer_zip.namelist():
    7.             if file_name.endswith('.zip'):
    8.                 print(f"内层压缩包名: {file_name}")
    9.                 # 将内层压缩包提取到临时目录(这里使用内存中的BytesIO模拟临时目录,仅用于获取信息,也可提取到实际磁盘目录)
    10.                 inner_zip_data = outer_zip.read(file_name)
    11.                 with zipfile.ZipFile(BytesIO(inner_zip_data), 'r', encoding='utf-8') as inner_zip:  # 同样设置内层
    12.                     inner_file_names = inner_zip.namelist()
    13.                     print(f"{file_name} 下面的所有文件名:")
    14.                     for inner_file_name in inner_file_names:
    15.                         print(inner_file_name)
    16.                         # 读取内层压缩包中的文件内容
    17.                         try:
    18.                             file_data = inner_zip.read(inner_file_name)
    19.                             print(f"文件 {inner_file_name} 的内容如下(以文本形式展示,若为非文本文件可能显示乱码):")
    20.                             print(file_data.decode('utf-8'))  # 假设文件内容是UTF-8编码,可根据实际调整
    21.                         except UnicodeDecodeError:
    22.                             print(f"文件 {inner_file_name} 无法以UTF-8编码解码,可能不是文本文件")
    23.                         except Exception as e:
    24.                             print(f"读取文件 {inner_file_name} 时出现其他错误: {str(e)}")


    25. outer_zip_path = input("请输入外层zip压缩包的路径:")
    26. process_nested_zips(outer_zip_path)
    复制代码
    在上述优化后的代码中,通过在打开zip文件对象时(外层和内层的ZipFile构造函数中)设置encoding属性为utf-8(可根据实际情况确定正确的编码方式,比如有些可能是GBK等),来尽量避免因文件名编码问题导致的错误,使得程序在处理包含不同编码文件名的压缩包时更加健壮。不过准确判断和设置正确的编码可能需要额外的信息或者进一步的测试验证等操作。
    以上就是基于Python实现读取嵌套压缩包下文件的方法的详细内容,更多关于Python读取嵌套压缩包下文件的资料请关注脚本之家其它相关文章!

    来源:https://www.jb51.net/python/339976nrr.htm
    免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

    最新评论

    QQ Archiver 手机版 小黑屋 福建二哥 ( 闽ICP备2022004717号|闽公网安备35052402000345号 )

    Powered by Discuz! X3.5 © 2001-2023

    快速回复 返回顶部 返回列表