跳转至

零样本视觉文档检索

本作业要求基于视觉语言模型完成零样本视觉文档检索(Visual Document Retrieval, VDR)任务,并以 ColPali 为主要方法基础。具体而言,给定一个文本查询(query),你需要在一批视觉丰富文档(visually rich documents)的页面中检索出最相关的页面。在提升检索效果的同时,还需要综合考虑索引构建、存储成本与推理开销之间的平衡。


一、背景要求

传统文档检索方法通常依赖 OCR 和文本索引。然而,对于包含复杂版式、表格、图表、图片以及跨区域排版的文档,纯文本表示往往会丢失重要信息。


二、检索方法介绍

本作业主要采用 ColPali-based page retrieval 的基本流程,包括以下三个阶段:

  1. 文档预处理与索引构建
    将 PDF 按页转换为图像,使用多模态模型对每一页进行编码,得到页面表示,并将其保存到本地索引中。

  2. 查询编码
    将文本查询输入模型,得到查询表示。

  3. 相似度计算与排序
    计算查询与所有页面表示之间的相似度,返回 Top-k 相关页面,并使用检索指标进行评测。


三、任务描述

本次实验采用 MMLongBench Dataset。作业分为两个任务,具体如下:

3.1 简单任务(60分 = 结果准确性 40分 + 报告质量 20分)

任务内容:

  • 完成 preprocess / index / retrieve 等核心函数,实现一个基本的 ColPali-based 页级检索系统
  • 支持离线构建页面索引,并对文本查询返回 Top-k 相关页面(k = 1, 3, 5, 10);
  • 在测试集上报告检索结果,至少包含 RecallPrecisionMRRnDCG 等指标。

3.2 进阶任务(40分 = 创新性 20分 + 性能 10分 + 报告质量 10分)

任务内容:

设计并实现一种创新的视觉文档检索改进方法,要求如下:

  1. 该方法在检索性能上优于基础 ColPali,或在保持较好效果的前提下显著降低计算与存储开销;
  2. 方法设计必须为原创,严禁直接照搬已有论文中的方法。

四、提交要求

提交内容包括:

  1. 完整代码文件
    将所有代码文件打包提交,内容应包含预处理、索引构建、检索与评测代码。

  2. 实验报告(PDF)


五、注意事项

  1. 参考文献
    如果你在实验和报告中参考了已发表的文献,请在报告中列出相关文献。

  2. 可以使用提供的代码与数据进行实现。相关资料如下:

ColPali:
ColPali: Efficient Document Retrieval with Vision Language Models
https://huggingface.co/vidore/colpali-v1.3

MMLongBench:
https://huggingface.co/datasets/ZhaoweiWang/MMLongBench

  1. 如有疑问,请联系助教:lqr@smail.nju.edu.cn。