Данные из Confluence¤

Описание проблемы¤

Дедлайн

08.12.2025

На текущий момент имеется необходимость получить данные из Confluence, - 1,5 гига, 3500 страниц, 1700 файлов и текстовых, и графических. Прогнать данные через ембеддер и положить вектора с метаданными в векторную базу данных.

Список известных проблем:

Нет прямого сетевого доступа к Confluence
Есть графический контент, который требует распознавания и векторизации
Не выбран ембеддер для векторизации
Не выбрана векторная база данных

Проблема с сетевым доступом¤

Проблема

Нет прямого сетевого доступа к Confluence

Проблема имеет несколько решений:

Дадут сетевой доступ к Confluence из тестового кубера
Нам выгрузят данные из Confluence

Я вижу решение с предоставлением сетевого доступа приритетным. Это связано с тем, что есть готовый лоадер для Confluence, который работает через API: ConfluenceLoader. В этом случае нам ничего не придётся делать, всё уже написано. В langchain есть и другие лоадеры, которые могут получить текст из выгруженных аттач-файлов. А также именно на langchain и будет в конечном итоге написан пайплайн выгрзуки данных из Confluence, векторизацией его и сохранением в векторную БД. То есть всё написано и задача сводится к правильным аргументам классов langchain.

В случае, если нам дадут "какую-то" выгрузку, то придётся проделать работу по парсингу того, что выгрузили. При этом заново придётся формировать метаинформацию связанных документов. В условиях жёсткого дедлайна это выглядит бесполезной потерей времени.

Решение

Сетевой доступ уже есть. Из тестового кубера виден кофлюенс. Проблемы нет.

Проблема с графическим контентом¤

Проблема

Есть графический контент, который требует распознавания и векторизации

Вопрос в проработке. Кроме ссылки на HunyuanOCR от Игоря, пока-что ничего больше нет.

Решение

В загрузчике данных из Confluence от langchain_community уже реализовано распознавание текста из изображений на базе Tesseract. Проблемы нет.

Проблема с выбором ембеддера¤

Проблема

Не выбран ембеддер для векторизации

На мощностях Сибура развёрнут EmbeddingsGigaR воместо с LLM моделью GigaChat. Обе модели доступны в тестовой и продуктовой среде. Я настаиваю на том, чтобы использовать его. У коллег есть беспокойства о том, что эмбеддер будет отнимать слишком много ресурсов у GigaChat.

Проблема с выбором векторной базы данных¤

Проблема

Не выбрана векторная база данных

Посоветовался с Антоном, решили взять Qdrant. Я бы выбрал Milvus, но у Антона есть опасения, то он окажется слишком сложен в настройках и эксплуатации. Сошлись на том, что Qdrant вполне подходит для OWU, как решение попроще, как решение с которым будет больше шансов уложиться в сроки. Milvus будет актуален при выборе решения для RAG-слоя.

Решение

Выбран Qdrant

Получение данных из Confluence¤

Итак, в langchain_community есть готовые загрузчики, в том числе и загрузчик данных из Confluence. Большая часть моей работы за последние дни заключалась в том, чтобы обеспечить работу всех загрузчиков, установив все необходимые зависимости в докер-контейнере. Как на данный момент работает выгрузка из Confluence через апи, можно посмотреть в блокноте .

По итогу могу сказать, что ничего своего писать не надо. В основном всё работает из коробки. Кое-что ещё требует донастройки.

Есть загрузчики, которые явно можно улучшить, например в Docx2txtLoader добавить лоигку, которая отправляла бы прикреплённые изображения в tesseract, который уже используется для распознавания текста с изображений, полученных из Confluence. Скорее всего кто-то уже написал, осталось найти. Сильно это на векторный поиск по содержимому страниц из Confluence не повлияет.

Pipeline через API¤

Создал и протестировал pipeline, который выгружает данные из API Confluence, векторизует ембеддером от Сбера и сохраняет в Qdrant. в этом блокноте . Для ускорения тестирования, выгружал страницы без вложений. В конце дня созвонился с Александром Кулагиным и Маратом Галеевым, потестировали вместе результат руками. Коллеги пообещали завтра, к 11 часам, подготовить актуальный список вопросов для контроля качества. Посмотреть нагрузку на мощности GigaChat не удалось, так как после обновления моделей 17 ноября, отвалились метрики утилизации видеокарт. Как починят, повторю нагрузку.

Ниже привёл ответ от модели в "раскрашенном" markdown.

Причины забивки решетки реактора?

Причины забивки решетки реактора¤

Забивка решетки реактора — серьезная проблема, приводящая к останову производства и необходимости ремонта. Рассмотрим основные причины, выявленные на основе предоставленного контекста:

1. Забивка лопаток компрессора порошком или агломератами полиэтилена¤

Описание: Высокая степень открытия лопаток на компрессоре C1201 указывает на возможное накопление порошка или агломератов полиэтилена на лопатках.
Последствия: Это приводит к неправильной работе лопаток и снижению расхода газа в системе полимеризации.
Источник: Документ с названием "ВУ - 2024-07-30 - ПАО Нижнекамскнефтехим - Забивка решетки реактора R1201"

2. Снижение расхода циркуляционного газа¤

Описание: Забитые лопатки компрессора приводят к значительному снижению расхода циркуляционного газа в системе полимеризации.
Последствия: При наборе уровня в реакторе псевдосжиженный слой ложится на решетку, вызывая быструю забивку.
Источник: Документ с названием "ВУ - 2024-11-08 - ПАО Нижнекамскнефтехим - На Производстве полиэтилена НКНХ при пуске на катализаторе ВСС-518..."

Итоговый ответ¤

Забивка решетки реактора происходит вследствие следующих факторов: - Накопление порошка или агломератов полиэтилена на лопатках компрессора C1201, что приводит к неправильной работе лопаток и снижению расхода газа в системе полимеризации. - Пониженный расход циркуляционного газа, который вызывает оседание псевдосжиженного слоя на решетке реактора, приводя к её быстрой забивке.

Ссылки на источники: - Документ 1 - Документ 2