Text Mining in biologischer Forschungsliteratur (BioMinT)
BioMinT war ein von der EU (FP5 QoL) von 2003 bis 2005 gefördertes Dreijahresprojekt, welches sich mit Text Mining in der biologischen Forschungsliteratur und online Datenbanken beschäftigt hat. Wir waren verantwortlich für:
- Implementierung eines Parsers für vierzehn online Datenbanken, transitive Closure des Link-Graphen, Ausgabe als Namenpaare (Synonyme) - 12 Millionen Paare insgesamt.
- Forschung und Entwicklung von biologischer Organismus-Erkennung, Erkennung von Protein-Eigennamen, Rangreihenfolge- und Filtersysteme.
- Evaluierung und Validierung des Systems.
- Grundlagenforschung im Bereich Redundanzerkennung (Textzusammenfassung)
Auf Einladung von Dr.med. Michael Steffens vom Institut für Medizinische Biometry, Informatik und Epidemiologie der Medizinischen Fakultät der Universität Bonn hielten wir einen Vortrag über unsere aktuellen Projekte.
Forschung, Design und Entwicklung eines SpamAssassin-basierenden Spamfiltersystems (Samplingmethode, Trainingsmethodologie, Evaluierung) mit sieben Testusern, vorbereitet zum institutsweiten Einsatz; Mitarbeit in zahlreichen lokalen und EU-geförderten Forschungsprojekten.
Seewald A.K., Kleedorfer F.: An Approximation of the String Subsequence Kernel for Practical SVM Classification and Redundancy Clustering. Journal for Advances in Data Analysis and Classification, Vol. 1, Number 3 / December 2007, pp. 221-239, DOI: 10.1007/s11634-007-0012-1.
Dehaspe L., Attwood T.K., Daelemans W. et al. BioMinT: the Research Assistant for Biological Text Mining. Knowledge for Growth 2005, Gent, 3rd of June, 2005.
Pillet V., Zehnder M., Seewald A.K., Veuthey A-L, and Petrak J. GPSDB: a new database for synonyms expansion of gene and protein names. Bioinformatics 2005 21: 1743-1744.
Seewald A.K., Kleedorfer F.: Lambda Pruning - An Approximation of the String Subsequence Kernel. Technical Report, Austrian Research Institute for Artificial Intelligence, Vienna, TR-2005-13, 2005.
Seewald A.K.: Ranking for Medical Annotation: Investigating Performance, Local Search and Homonymy Recognition. Proceedings of the Symposium on Knowledge Exploration in Life Science Informatics (KELSI 2004), Milano, Italy.
Seewald A.K.: Evaluating Protein Name Recognition: An Automatic Approach. Workshop on Data Mining and Text Mining for BioInformatics, 14th European Conference on Machine Learning (ECML-2003), Dubrovnik-Cavtat, Croatia, 2003.
Seewald A.K.: Recognizing Domain and Species from MEDLINE Proteomics Publications. Workshop on Data Mining and Text Mining for Bioinformatics, 14th European Conference on Machine Learning (ECML-2003), Dubrovnik-Cavtat, Croatia, 2003.