  {"id":1847,"date":"2018-08-28T08:46:34","date_gmt":"2018-08-28T08:46:34","guid":{"rendered":"http:\/\/www.lancaster.ac.uk\/digging-ecm\/?p=1847"},"modified":"2018-08-28T08:46:34","modified_gmt":"2018-08-28T08:46:34","slug":"anotacion-del-corpus-con-tagtog","status":"publish","type":"post","link":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/es\/2018\/08\/anotacion-del-corpus-con-tagtog\/","title":{"rendered":"Anotaci\u00f3n del Corpus con Tagtog"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-one-full fusion-column-first fusion-column-last\" style=\"--awb-padding-top:;--awb-padding-right:;--awb-padding-bottom:;--awb-padding-left:;--awb-bg-size:cover;\"><div class=\"fusion-column-wrapper fusion-flex-column-wrapper-legacy\"><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-separator\" style=\"margin-left: auto;margin-right: auto;margin-bottom:30px;width:100%;max-width:200px;\"><div class=\"fusion-separator-border sep-single sep-solid\" style=\"--awb-height:20px;--awb-amount:20px;--awb-sep-color:#fec96b;border-color:#fec96b;border-top-width:3px;\"><\/div><\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-text fusion-text-1\"><p>Un elemento clave de nuestra investigaci\u00f3n sobre las Relaciones Geogr\u00e1ficas es el an\u00e1lisis de la informaci\u00f3n textual contenida en los informes del siglo XVI. Para ello, utilizaremos t\u00e9cnicas computacionales, concretamente procesamiento de lenguaje natural (NLP) y aprendizaje autom\u00e1tico (ML). Si bien estas disciplinas presentan un amplio recorrido, la gran mayor\u00eda de la investigaci\u00f3n la han realizado utilizando idiomas modernos y, mayoritariamente, ingl\u00e9s.<\/p>\n<p>Nuestro corpus no es ni moderno ni est\u00e1 en ingl\u00e9s. Las Relaciones Geogr\u00e1ficas fueron escritas en el siglo XVI por funcionarios espa\u00f1oles, en las que contribuyeron ind\u00edgenas de todo M\u00e9xico. La mezcla de idiomas espa\u00f1ol e ind\u00edgenas a lo largo de las Relaciones plantea un desaf\u00edo para estos m\u00e9todos computacionales que, en su mayor\u00eda, han sido entrenados con textos recientes. Por ello, nos enfrentamos a la tarea de entrenar nuestro propio sistema de NLP que tiene en cuenta los desaf\u00edos \u00fanicos que presentan las Relaciones Geogr\u00e1ficas.<\/p>\n<\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-separator fusion-full-width-sep\" style=\"margin-left: auto;margin-right: auto;width:100%;\"><div class=\"fusion-separator-border sep-single\" style=\"--awb-height:20px;--awb-amount:20px;border-color:#e0dede;border-top-width:1px;\"><\/div><\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-text fusion-text-2\"><p><strong><em>Anotaci\u00f3n del Corpus<\/em><\/strong><\/p>\n<p>Recientemente, hemos establecido una colaboraci\u00f3n con <a href=\"https:\/\/www.tagtog.net\/\">Tagtog<\/a>, una compa\u00f1\u00eda de tecnolog\u00eda NLP, que ha desarrollado una herramienta de anotaci\u00f3n de texto en l\u00ednea capaz de desarrollar modelos para anotar grandes cantidades de informaci\u00f3n textual. Tagtog ofrece una versi\u00f3n gratuita que permite a un \u00fanico usuario trabajar con hasta 100 documentos y utilizar sus capacidades de anotaci\u00f3n autom\u00e1tica de Machine Learning. Puedes consultar sus planes gratuitos y pagos en su <a href=\"https:\/\/www.tagtog.net\/-pricing\">sitio web<\/a>.<\/p>\n<p>Por el momento, hemos utilizado Tagtog para anotar algunos extractos de nuestro corpus. Entendemos por anotaci\u00f3n el hecho de asignar metadatos a t\u00e9rminos o frases espec\u00edficos para entrenar a la m\u00e1quina y que sea capaz de reconocer palabras clave. Por ejemplo, en el siguiente fragmento de texto hemos etiquetado &#8220;Yenynguia&#8221; como un top\u00f3nimo -se puede observar como este lugar tambi\u00e9n se conoce como Coyula, hecho que se puede registrar mediante el uso de diccionarios, como explicaremos m\u00e1s adelante en este post-.<\/p>\n<\/div><div class=\"fusion-image-element fusion-image-align-center in-legacy-container\" style=\"text-align:center;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><div class=\"imageframe-align-center\"><span class=\" fusion-imageframe imageframe-none imageframe-1 hover-type-zoomin\"><img decoding=\"async\" width=\"640\" height=\"246\" alt=\"an excerpt from the Relacion de Papaloticpac (in Antequera) which shows some annotation of our corpus using the tagtog interface\" title=\"tagtog_placename_tag_es\" src=\"http:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_placename_tag.png\" class=\"img-responsive wp-image-1848\" srcset=\"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_placename_tag-200x77.png 200w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_placename_tag-400x154.png 400w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_placename_tag-600x231.png 600w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_placename_tag.png 640w\" sizes=\"(max-width: 1024px) 100vw, 640px\" \/><\/span><\/div><\/div><div class=\"fusion-text fusion-text-3\"><p>Antes de comenzar a anotar, es importante definir los tipos de entidades que necesitamos identificar dentro del texto. Comenzamos con algunas categor\u00edas clave -como top\u00f3nimos, instituciones y caracter\u00edsticas geogr\u00e1ficas-, y desde entonces hemos ampliado el n\u00famero de categor\u00edas a cuarenta, para que sean capaces de reflejar la diversa naturaleza de la informaci\u00f3n que contienen las Relaciones. Este es un n\u00famero ingente de categor\u00edas para la anotaci\u00f3n y \u00a1Tagtog se est\u00e1 portando maravillosamente bien hasta ahora!<\/p>\n<p>A continuaci\u00f3n, se muestra un extracto de la Relaci\u00f3n de Papaloticpac (Antequera) que una idea del tipo de informaci\u00f3n que hemos estado anotando con Tagtog.<\/p>\n<\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-separator fusion-full-width-sep\" style=\"margin-left: auto;margin-right: auto;width:100%;\"><div class=\"fusion-separator-border sep-single\" style=\"--awb-height:20px;--awb-amount:20px;border-color:#e0dede;border-top-width:1px;\"><\/div><\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-image-element fusion-image-align-center in-legacy-container\" style=\"text-align:center;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><div class=\"imageframe-align-center\"><span class=\" fusion-imageframe imageframe-none imageframe-2 hover-type-zoomin\"><img decoding=\"async\" width=\"1478\" height=\"918\" alt=\"a screenshot showing an excerpt from the Relacion de Papaloticpac (in Antequera) which shows the tagtog interface\" title=\"tagtog_papaloticpac_es\" src=\"http:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac.png\" class=\"img-responsive wp-image-1849\" srcset=\"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac-200x124.png 200w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac-400x248.png 400w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac-600x373.png 600w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac-800x497.png 800w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac-1200x745.png 1200w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac.png 1478w\" sizes=\"(max-width: 1024px) 100vw, 1200px\" \/><\/span><\/div><\/div><div class=\"fusion-text fusion-text-4\"><p>Dentro de las primeras 800 palabras de esta Relaci\u00f3n, encontramos informaci\u00f3n \u00fatil entre la que destacan los numerosos pueblos del \u00e1rea y la ubicaci\u00f3n de los unos respecto a los otros. Tambi\u00e9n, los nombres de aquellos se\u00f1ores relevantes, calificados de &#8220;ilustres\u201d y &#8220;muy excelentes&#8221;, involucrados en la producci\u00f3n de este informe, as\u00ed como algunas pinceladas de las caracter\u00edsticas geogr\u00e1ficas del \u00e1rea, con cerros, sierras y quebradas. Toda esta valiosa informaci\u00f3n es la que queremos ser capaces de extraer con el an\u00e1lisis de los textos.<\/p>\n<\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-separator fusion-full-width-sep\" style=\"margin-left: auto;margin-right: auto;width:100%;\"><div class=\"fusion-separator-border sep-single\" style=\"--awb-height:20px;--awb-amount:20px;border-color:#e0dede;border-top-width:1px;\"><\/div><\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-text fusion-text-5\"><p><strong><em>Diccionarios<\/em><\/strong><\/p>\n<p>Como se mencion\u00f3 anteriormente, en los casos en que tenemos nombres alternativos para un top\u00f3nimo (Yenynguia = Coyula), es posible utilizar diccionarios para decirle a la computadora que estas entidades son una misma cosa. Con las inconsistencias de la ortograf\u00eda en las Relaciones Geogr\u00e1ficas, la normalizaci\u00f3n de las entidades es esencial. F\u00edjate en las primeras l\u00edneas del texto anterior, se nos dan tres formas diferentes de deletrear el nombre del pueblo: tras &#8216;Papaloticpac&#8217;, tenemos &#8216;Papaloticpaque&#8217; y &#8216;Papalotiquipaque&#8217;. Por supuesto, todas se refieren al mismo lugar, pero el ordenador necesita que se lo especifiquen. En Tagtog, esto es posible gracias al uso de diccionarios que permiten la normalizaci\u00f3n de las entidades. Por ello, en el caso de \u201cPapaloticpac\u201d, incluir\u00edamos cada ortograf\u00eda en el \u201cdiccionario\u201d de la siguiente manera:<\/p>\n<\/div><div class=\"fusion-image-element fusion-image-align-center in-legacy-container\" style=\"text-align:center;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><div class=\"imageframe-align-center\"><span class=\" fusion-imageframe imageframe-none imageframe-3 hover-type-none\"><img decoding=\"async\" width=\"554\" height=\"40\" alt=\"an example to show how to format a dictionary entry in tagtog\" title=\"tagtog_papaloticpac_dictionary_es\" src=\"http:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac_dictionary.png\" class=\"img-responsive wp-image-1850\" srcset=\"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac_dictionary-200x14.png 200w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac_dictionary-400x29.png 400w, https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-content\/uploads\/2018\/07\/tagtog_papaloticpac_dictionary.png 554w\" sizes=\"(max-width: 1024px) 100vw, 554px\" \/><\/span><\/div><\/div><div class=\"fusion-text fusion-text-6\"><p style=\"text-align: center;\"><em>(Ten en cuenta que las may\u00fasculas de cada palabra tambi\u00e9n han de incluirse para que la m\u00e1quina reconozca esto como una coincidencia)<\/em><\/p>\n<\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-separator fusion-full-width-sep\" style=\"margin-left: auto;margin-right: auto;width:100%;\"><div class=\"fusion-separator-border sep-single\" style=\"--awb-height:20px;--awb-amount:20px;border-color:#e0dede;border-top-width:1px;\"><\/div><\/div><div class=\"fusion-sep-clear\"><\/div><div class=\"fusion-text fusion-text-7\"><p>Nuestros siguientes pasos, una vez que hayamos anotado algo m\u00e1s del corpus, ser\u00e1n entrenar un modelo usando las anotaciones que hemos creado. Para hacer esto, a\u00f1adiremos texto &#8220;sin procesar&#8221;, sin anotaciones, para que la m\u00e1quina lo anote autom\u00e1ticamente con lo que ha aprendido de nuestras anotaciones manuales y diccionarios. Por supuesto, esto no producir\u00e1 un modelo de anotaci\u00f3n 100% preciso, por lo que corregiremos manualmente cualquier error, repitiendo este proceso hasta que consigamos un nivel alto de precisi\u00f3n. La capacidad de que un modelo pueda producir anotaciones autom\u00e1ticas con exactitud permitir\u00e1 una interacci\u00f3n mucho m\u00e1s intuitiva con nuestro corpus multiling\u00fce de m\u00e1s de 3 millones de palabras.<\/p>\n<\/div><div class=\"fusion-clearfix\"><\/div><\/div><\/div><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"","protected":false},"author":7,"featured_media":1680,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2],"tags":[],"class_list":["post-1847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized-es"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/posts\/1847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/comments?post=1847"}],"version-history":[{"count":1,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/posts\/1847\/revisions"}],"predecessor-version":[{"id":1851,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/posts\/1847\/revisions\/1851"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/media\/1680"}],"wp:attachment":[{"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/media?parent=1847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/categories?post=1847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lancaster.ac.uk\/digging-ecm\/wp-json\/wp\/v2\/tags?post=1847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}