零样本视觉文档检索¶

本作业要求基于视觉语言模型完成零样本视觉文档检索（Visual Document Retrieval, VDR）任务，并以 ColPali 为主要方法基础。具体而言，给定一个文本查询（query），你需要在一批视觉丰富文档（visually rich documents）的页面中检索出最相关的页面。在提升检索效果的同时，还需要综合考虑索引构建、存储成本与推理开销之间的平衡。

一、背景要求¶

传统文档检索方法通常依赖 OCR 和文本索引。然而，对于包含复杂版式、表格、图表、图片以及跨区域排版的文档，纯文本表示往往会丢失重要信息。

二、检索方法介绍¶

本作业主要采用 ColPali-based page retrieval 的基本流程，包括以下三个阶段：

文档预处理与索引构建
将 PDF 按页转换为图像，使用多模态模型对每一页进行编码，得到页面表示，并将其保存到本地索引中。
查询编码
将文本查询输入模型，得到查询表示。
相似度计算与排序
计算查询与所有页面表示之间的相似度，返回 Top-k 相关页面，并使用检索指标进行评测。

三、任务描述¶

本次实验采用 MMLongBench Dataset。作业分为两个任务，具体如下：

3.1 简单任务（60分 = 结果准确性 40分 + 报告质量 20分）¶

任务内容：

完成 preprocess / index / retrieve 等核心函数，实现一个基本的 ColPali-based 页级检索系统；
支持离线构建页面索引，并对文本查询返回 Top-k 相关页面（k = 1, 3, 5, 10）；
在测试集上报告检索结果，至少包含 Recall、Precision、MRR、nDCG 等指标。

3.2 进阶任务（40分 = 创新性 20分 + 性能 10分 + 报告质量 10分）¶

任务内容：

设计并实现一种创新的视觉文档检索改进方法，要求如下：

该方法在检索性能上优于基础 ColPali，或在保持较好效果的前提下显著降低计算与存储开销；
方法设计必须为原创，严禁直接照搬已有论文中的方法。

四、提交要求¶

提交内容包括：

完整代码文件
将所有代码文件打包提交，内容应包含预处理、索引构建、检索与评测代码。
实验报告（PDF）

五、注意事项¶

参考文献
如果你在实验和报告中参考了已发表的文献，请在报告中列出相关文献。
可以使用提供的代码与数据进行实现。相关资料如下：

ColPali：
ColPali: Efficient Document Retrieval with Vision Language Models
https://huggingface.co/vidore/colpali-v1.3

MMLongBench：
https://huggingface.co/datasets/ZhaoweiWang/MMLongBench

如有疑问，请联系助教:lqr@smail.nju.edu.cn。