Aus PDFs direkt XML erzeugen: Ein Überblick

Presentation

13. November
03:00 PM (CET) - 03:45 PM (CET)
C7.2

finished

Dr. Hans Weber
- portamis Software GmbH

Für das Auslesen von PDF Dateien gibt es zahlreiche Ansätze.

Large Language Models können das teilweise aber unexakt, während symbolische Ansätze bisher gescheitert sind. Es gibt wenigstens zwei vielversprechende Ansätze mit hybridem Vorgehen - auch für fliessende Dokumente ohne feste Positionen. Was ist bisher möglich? Was geht, was geht nicht?

Im Vortrag werden Vorgehensweisen vorgestellt, mit denen Content aus PDF geholt werden kann, so dass er weiterverarbeitet werden kann.

Zunächst werden verschiedene Layout-Formen dargestellt und die Schwierigkeiten bei der Aufgabe erläutert. Darauf aufbauend werden dann die Vorteile, Nachteile und Grenzen der aktuellen Methoden dargestellt. Mit einigen Beispielen wird dies illustriert.

Takeaways

Die Zuhörer sollen mehrere Ansätze verstehen und eine Einschätzung für den Stand der Technik bekommen.

Prior knowledge

Grundsätzliches Wissen über Technische Dokumente, PDF und XML.

Speaker

Dr. Hans Weber

portamis Software GmbH

Show profile

Biography

Dr. Hans Weber hat bis 1989 Linguistik, Informatik und Philosophie an der JWG Univ. Frankfurt am Main studiert. Dann folgte die Promotion am Hamburger KI Labor in der Informatik 1997. Bis 2003 war er beteiligt an Industrie-Projekten und Forschung an der FAU Erlangen Nürnberg, Lehrstuhl für KI. Seit 2003 ist Dr. Hans Weber Geschäftsführer der portamis Software GmbH und beschäftigt sich schwerpunktmäßig mit XML und Automatischem Layout. Seit 2015 umfasst sein Aufgabenbereich auch KI-Applikationen für Document Engineering.

Dr. Hans Weber studied Linguistics, Computer Science and Philosophy at Frankfurt University until 1989. His PHD in Computer Science followed 1997 at the Hamurg AI Lab. Until 2003 he was part of Industrial Research Projects at FAU Erlangen Nuremberg, IMMD8 (AI). Since then Hans Weber became Founder and General Manager of portamis Software GmbH in Nuremberg. He is mainly working in the field of automatic publication and transformation of strucured content. Since 2015 his work also coveres AI method application for document engineering.

Back