markitdown
136kPython文档转换
MarkItDown是一个轻量级Python工具,能把PDF、Office文档、图片、音频等转换成Markdown格式,方便AI和文本分析工具处理。
MarkItDown由微软AutoGen团队开发,专注于将各种文件格式转换为Markdown,以便用于大语言模型(LLM)和文本分析流程。它支持PDF、PowerPoint、Word、Excel、图片(EXIF和OCR)、音频(EXIF和语音转录)、HTML、CSV、JSON、XML、ZIP、YouTube链接、EPub等。与同类工具textract相比,MarkItDown更注重保留文档结构(如标题、列表、表格、链接),输出格式对AI更友好。它轻量、易用,适合需要批量转换文档以进行AI处理的场景。