N L P Tasks

Natural Language Processing

 

 

 

Corpus

Corpus description

 


 

# 

Train 

Dev 

Test 

Documents 

20 

90% 

75% 

80% 

Paragraphs 

87 

45% 

22% 

33% 

Words 

44,857 

45% 

23% 

33% 

Total entities 

7,082 

46% 

23% 

31% 

Total n-ary relations (SeeDev full) 

2,583 

45% 

23% 

32% 

Total binary relations (SeeDev binary) 

3,575 

46% 

23% 

32% 

 

Distribution of relation in Train, Dev and Test sets

 

Relation 

# 

Train 

Dev 

Test 

Total 

Where and When 

704 

45% 

23% 

32% 

20% 

Exists_At_Stage 

33 

45% 

24% 

30% 

1% 

Exists_In_Genotype 

377 

45% 

21% 

34% 

11% 

Occurs_During 

30 

27% 

33% 

40% 

1% 

Occurs_In_Genotype 

48 

38% 

33% 

29% 

1% 

Is_Localized_In 

216 

50% 

22% 

29% 

6% 

Function 

257 

42% 

28% 

30% 

7% 

Is_Involved_In_Process 

55 

42% 

36% 

22% 

2% 

Transcribes_Or_Translates_To 

54 

46% 

24% 

30% 

2% 

Is_Functionally_Equivalent_To 

148 

41% 

26% 

33% 

4% 

Regulation 

1731 

46% 

22% 

31% 

48% 

Regulates_Accumulation 

81 

44% 

36% 

20% 

2% 

Regulates_Development_Phase 

242 

44% 

24% 

32% 

7% 

Regulates_Expression 

450 

45% 

25% 

31% 

13% 

Regulates_Molecule_Activity 

25 

64% 

0% 

36% 

1% 

Regulates_Process 

904 

48% 

20% 

32% 

25% 

Regulates_Tissue_Development 

29 

31% 

31% 

38% 

1% 

Composition and Membership 

532 

44% 

22% 

34% 

15% 

Composes_Primary_Structure 

51 

39% 

29% 

31% 

1% 

Composes_Protein_Complex 

19 

84% 

0% 

16% 

1% 

Has_Sequence_Identical_To 

126 

49% 

16% 

35% 

4% 

Is_Member_Of_Family 

230 

39% 

24% 

37% 

6% 

Is_Protein_Domain_Of 

106 

43% 

27% 

29% 

3% 

Interaction 

264 

46% 

21% 

33% 

7% 

Interacts_With 

148 

42% 

22% 

36% 

4% 

Binds_To 

116 

52% 

21% 

28% 

3% 

Specific to Binary Framework 

87 

51% 

26% 

23% 

2% 

Is_Linked_To 

87 

51% 

26% 

23% 

2% 

Total 

3575 

46% 

23% 

32% 

100%