Contents
Für das Auslesen von PDF Dateien gibt es zahlreiche Ansätze.
Large Language Models können das teilweise aber unexakt, während symbolische Ansätze bisher gescheitert sind. Es gibt wenigstens zwei vielversprechende Ansätze mit hybridem Vorgehen - auch für fliessende Dokumente ohne feste Positionen. Was ist bisher möglich? Was geht, was geht nicht?
Im Vortrag werden Vorgehensweisen vorgestellt, mit denen Content aus PDF geholt werden kann, so dass er weiterverarbeitet werden kann.
Zunächst werden verschiedene Layout-Formen dargestellt und die Schwierigkeiten bei der Aufgabe erläutert. Darauf aufbauend werden dann die Vorteile, Nachteile und Grenzen der aktuellen Methoden dargestellt. Mit einigen Beispielen wird dies illustriert.
Takeaways
Die Zuhörer sollen mehrere Ansätze verstehen und eine Einschätzung für den Stand der Technik bekommen.
Prior knowledge
Grundsätzliches Wissen über Technische Dokumente, PDF und XML.