""" Basic tests of the depparse processor boolean flags """ import pytest import stanza from stanza.models.common.doc import Document from stanza.pipeline.core import PipelineRequirementsException from stanza.pipeline.processor import Processor, ProcessorVariant, register_processor, register_processor_variant, ProcessorRegisterException from stanza.utils.conll import CoNLL from stanza.tests import * pytestmark = pytest.mark.pipeline # data for testing EN_DOC = "This is a test sentence. This is another!" EN_DOC_LOWERCASE_TOKENS = ''']> ]> ]> ]> ]> ]> ]> ]> ]> ]>''' EN_DOC_LOL_TOKENS = ''']> ]> ]> ]> ]> ]> ]> ]>''' EN_DOC_COOL_LEMMAS = ''']> ]> ]> ]> ]> ]> ]> ]> ]> ]>''' @register_processor("lowercase") class LowercaseProcessor(Processor): ''' Processor that lowercases all text ''' _requires = set(['tokenize']) _provides = set(['lowercase']) def __init__(self, config, pipeline, device): pass def _set_up_model(self, *args): pass def process(self, doc): doc.text = doc.text.lower() for sent in doc.sentences: for tok in sent.tokens: tok.text = tok.text.lower() for word in sent.words: word.text = word.text.lower() return doc def test_register_processor(): nlp = stanza.Pipeline(dir=TEST_MODELS_DIR, lang='en', processors='tokenize,lowercase', download_method=None) doc = nlp(EN_DOC) assert EN_DOC_LOWERCASE_TOKENS == '\n\n'.join(sent.tokens_string() for sent in doc.sentences) def test_register_nonprocessor(): with pytest.raises(ProcessorRegisterException): @register_processor("nonprocessor") class NonProcessor: pass @register_processor_variant("tokenize", "lol") class LOLTokenizer(ProcessorVariant): ''' An alternative tokenizer that splits text by space and replaces all tokens with LOL ''' def __init__(self, lang): pass def process(self, text): sentence = [{'id': (i+1, ), 'text': 'LOL'} for i, tok in enumerate(text.split())] return Document([sentence], text) def test_register_processor_variant(): nlp = stanza.Pipeline(dir=TEST_MODELS_DIR, lang='en', processors={"tokenize": "lol"}, package=None, download_method=None) doc = nlp(EN_DOC) assert EN_DOC_LOL_TOKENS == '\n\n'.join(sent.tokens_string() for sent in doc.sentences) @register_processor_variant("lemma", "cool") class CoolLemmatizer(ProcessorVariant): ''' An alternative lemmatizer that lemmatizes every word to "cool". ''' OVERRIDE = True def __init__(self, lang): pass def process(self, document): for sentence in document.sentences: for word in sentence.words: word.lemma = "cool" return document def test_register_processor_variant_with_override(): nlp = stanza.Pipeline(dir=TEST_MODELS_DIR, lang='en', processors={"tokenize": "combined", "pos": "combined", "lemma": "cool"}, package=None, download_method=None) doc = nlp(EN_DOC) result = '\n\n'.join(sent.tokens_string() for sent in doc.sentences) assert EN_DOC_COOL_LEMMAS == result def test_register_nonprocessor_variant(): with pytest.raises(ProcessorRegisterException): @register_processor_variant("tokenize", "nonvariant") class NonVariant: pass