toor
/
spider_comico


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139
							import os
import time
import httpx
from bs4 import BeautifulSoup

use_proxy = 0
base_url = 'https://jcomic.net'
herf_url = '/eps/'
# comico_url = '%E7%99%BE%E5%90%88%E3%83%95%E3%82%A7%E3%83%81LIFE'
comico_url = '神崎咲良ハーレム化計画'
target_url = base_url + herf_url + comico_url

def save_img(folder_path, img_links):
    with httpx.Client() as client:
        for index, img_url in enumerate(img_links, start=1):
            try:
                # 发送请求获取图片内容
                response = client.get(img_url)
                if response.status_code != 200:
                    print(f"无法下载图片 {img_url}，状态码: {response.status_code}")
                    continue

                # 生成文件名，例如 0001.png, 0002.png
                file_name = f"{str(index).zfill(4)}.png"
                file_path = os.path.join(folder_path, file_name)

                # 保存图片到本地
                with open(file_path, 'wb') as file:
                    file.write(response.content)

                print(f"图片已保存: {file_path}")
            except Exception as e:
                print(f"下载图片 {img_url} 时出错: {e}")
            time.sleep(1)

def get_imgs(folder_path, chapter_data):
    img_links = []
    with httpx.Client() as client:
        for chapter_name, url in chapter_data.items():
            # 创建文件夹
            chapter_folder = os.path.join(folder_path, chapter_name)
            if not os.path.exists(chapter_folder):
                os.makedirs(chapter_folder)

            # 发送请求获取页面内容
            response = client.get(url)
            if response.status_code != 200:
                print(f"无法访问 {url}，状态码: {response.status_code}")
                continue

            # 解析 HTML
            soup = BeautifulSoup(response.text, 'html.parser')

            # 获取图片的上一层元素
            parent_element = soup.select_one('body > div.container > div.row.col-lg-12.col-md-12.col-xs-12')
            if not parent_element:
                print(f"{chapter_name} 未找到图片容器")
                continue

            # 获取所有图片元素
            img_elements = parent_element.select('img')
            total_images = len(img_elements)
            print(f'{chapter_name} 共 {total_images} 张图片')

            # 输出图片的 URL
            for img in img_elements:
                img_url = img.get('src')
                if img_url:
                    img_links.append(img_url)
    return img_links

def save_urls(folder_path, img_links):
    # 定义保存文件路径
    save_path = os.path.join(folder_path, 'img_links.txt')

    # 将图片链接写入文件
    with open(save_path, 'w', encoding='utf-8') as file:
        for link in img_links:
            file.write(link + '\n')

    print(f"图片链接已保存到: {save_path}")

def new_folder(page_title):
    # 获取当前脚本所在的目录
    script_dir = os.path.dirname(os.path.abspath(__file__))
    download_dir = os.path.join(script_dir, 'downloads')
    if not os.path.exists(script_dir):
        os.makedirs(script_dir)

    if page_title:
        # 拼接目标文件夹路径
        folder_path = os.path.join(download_dir, page_title)

        # 检查文件夹是否存在，如果不存在则创建
        if not os.path.exists(folder_path):
            os.makedirs(folder_path)

        return folder_path

def get_chapter_data():
    result = {}
    page_title = ''

    # 使用 httpx 发送请求
    with httpx.Client() as client:
        response = client.get(target_url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')

            # 获取指定选择器下的所有元素
            elements = soup.select('body > div.container > div:nth-child(3) > div:nth-child(2) a')

            # 提取每个元素的 URL 和文本
            for element in elements:
                url = element.get('href')
                text = element.get_text()
                result[text] = base_url + url

    return result

def main():
    # 1, 获取页面章节数据
    chapter_data = get_chapter_data()

    # 2, 在当前文件夹下创建一个文件夹，用来保存图片, 文件名称是 title
    folder_path = new_folder(comico_url)

    # 3, 遍历章节数据，获取img的链接
    img_links = get_imgs(folder_path, chapter_data)

    # 4, 保存url到新建的文件夹中
    save_urls(folder_path, img_links)

    # 5，遍历 img_links ，将图片保存到 folder_path中， 保存的文件名类似 0001.png
    save_img(folder_path, img_links)

if __name__ == '__main__':
    main()
    print('done!')