5.9.22.4.2. Volltextsuche: Indexierung von PDF und anderen Dokumenten

Dokumente, die in Katalogen vorhanden sind, können indiziert und in den Volltextsuchindex aufgenommen werden.

Hierzu müssen die entsprechenden Spalten, die PDF- und andere Dokumente enthalten, im Schlüssel VARSEARCHINDEXDOCUMENT angegeben werden (entweder in der dir.prj des Katalogs oder in den einzelnen prj-Dateien).

VARSEARCHINDEXDOCUMENTVARIABLES=<List of columns to index>

Um ein Dokumentenprojekt zu indexieren, muss der Schlüssel VARSEARCHINDEXDOCUMENT auf "YES" gesetzt sein.

VARSEARCHINDEXDOCUMENT=YES

Um Bildinhalte in PDF-Dokumenten auszulesen, muss die Texterkennungssoftware "Tesseract" installiert sein und per Konfig-Datei der Installationspfad angegeben werden.

$CADENAS_SETUP/partsol.cfg

[INDEX:OCR]
TesseractPath=
TesseractDataPath=

Außerdem gibt es zwei optionale Einstellungen:

DPI=600
ImageFormat=