PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Наука Paper debate 1 просмотров 4 недели назад · Комментарии отключены

PaddleOCR-VL: Ускорение многоязычного анализа документов с помощью ультракомпактной визуально-языковой модели 0.9B В этом документе представлена PaddleOCR-VL — передовая и ресурсоэффективная модель, разработанная для многоязычного анализа документов. Ее основным компонентом является PaddleOCR-VL-0.9B, компактная, но мощная визуально-языковая модель (VLM), которая интегрирует визуальный кодировщик с динамическим разрешением в стиле NaViT с легковесной языковой моделью ERNIE-4.5-0.3B. Эта архитектура значительно улучшает распознавание плотного текста и эффективность декодирования, позволяя модели поддерживать 109 языков и отлично распознавать сложные элементы, такие как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. PaddleOCR-VL использует двухэтапный подход: сначала выполняет обнаружение макета и предсказание порядка чтения, а затем передает сегментированные элементы в VLM для распознавания. Всесторонние оценки подтверждают ее передовую производительность как на уровне страницы, так и на уровне элементов, превосходя существующие решения и успешно конкурируя с ведущими VLM. Модель отличается высокой скоростью вывода и низкими затратами на обучение, что делает ее очень подходящей для практического внедрения, особенно в условиях ограниченных ресурсов. Для обеспечения стабильной работы был разработан высококачественный конвейер создания обучающих данных, использующий более 30 миллионов образцов, промпт-инжиниринг и автоматическую разметку. документ — https://arxiv.org/pdf/2510.14528
подписаться — https://t.me/arxivpaperu
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM