import numpy as np
import pandas as pd

pd.options.display.max_rows = 200


from tmtoolkit.utils import unpickle_file

ldamodel = unpickle_file('data/tm_final_k180_eta0.7.pickle')

doc_topic = ldamodel.doc_topic_
topic_word = ldamodel.topic_word_

doc_topic.shape, topic_word.shape

((32921, 180), (180, 3278))


doc_labels, vocab, dtm = unpickle_file('data/dtm.pickle')
doc_labels = np.array(doc_labels)
vocab = np.array(vocab)
len(doc_labels), len(vocab), dtm.shape

(32921, 3278, (32921, 3278))


doc_labels[:10]

array(['007-drehorte-in-europa-klimavertraeglicher-james-bond-a-1295233',
       '070-shake-in-berlin-vertrauensuebung-mit-einer-emo-rapperin-a-7c4a0eb3-7c1b-474c-aaee-f2de6e165362',
       '1-fc-heidenheim-in-der-relegation-demoliert-in-die-groessten-spiele-der-vereinsgeschichte-a-383ce249-6865-4bfa-a8ea-2a89894ad7b2',
       '1-fc-heidenheim-unterliegt-werder-bremen-in-der-relegation-da-helfen-auch-keine-klatschpfannen-a-ea0861b0-dd7c-403a-99ab-38b6c25c7aed',
       '1-fc-kaiserslautern-beantragt-in-der-3-liga-insolvenz-pfaelzer-sauplan-a-69b7ee5a-5cc8-4f8c-9f67-c5f455a3ec9f',
       '1-fc-kaiserslautern-fussball-drittligist-stellt-antrag-auf-plan-insolvenz-a-fb530286-9b7b-4cd7-ae1f-9a876cc3f700',
       '1-fc-koeln-beendet-kooperation-mit-china-totaler-ueberwachungsstaat-a-1301960',
       '1-fc-koeln-holt-horst-heldt-und-markus-gisdol-neue-gesichter-alte-zweifel-a-1297292',
       '1-fc-koeln-kontert-kuendigung-eines-mitglieds-wegen-moschee-auf-dem-trikot-a-0fc58882-dffd-4f84-a157-6ba1d86061ca',
       '1-fc-koeln-markus-gisdol-soll-neuer-trainer-werden-a-1297085'],
      dtype='<U190')


vocab[:10]

array(['10', '11', '20', 'ab', 'abbauen', 'abbrechen', 'abend', 'abends',
       'abgeben', 'abgeordnete'], dtype='<U27')

dtm

<32921x3278 sparse matrix of type '<class 'numpy.int32'>'
	with 4247828 stored elements in Compressed Sparse Row format>


import matplotlib.pyplot as plt

# rowwise sorting 
# (NumPy still doesn't support descending order, hence the "-" hack)
topic_word_desc = -np.sort(-topic_word, axis=1)   

fig, ax = plt.subplots(figsize=(8, 6))
n_terms = 40  # show ranks 1 to 40
term_ranks = np.arange(1, n_terms+1)
for t in topic_word_desc:
    ax.plot(term_ranks, t[:n_terms], color = 'black', alpha=0.1)

ax.set_title('Term probability decline per topic')
ax.set_xlabel('term rank')
ax.set_ylabel('term probability for given topic')
fig;


# we use indices for the ranks here, hence we start at 0
highlight_topics = np.argsort(-topic_word_desc[:, [0, 7, 24]], axis=0)[0, :]
highlight_topics

array([131, 158,  93])


palette = plt.get_cmap('Dark2')

fig, ax = plt.subplots(figsize=(8, 6))
highlight_topics_handles = []
for i, t in enumerate(topic_word_desc):
    highlight_index = np.where(i == highlight_topics)[0]
    if len(highlight_index) > 0:
        color = palette(highlight_index[0])
        label = 'topic ' + str(i+1)
        lw = 3
    else:
        color = 'black'
        label = 'other topics'
        lw = 1
    
    hndl, = ax.plot(term_ranks, np.log(t[:n_terms]), color=color, label=label, lw=lw, alpha=0.3)
    
    if len(highlight_index) > 0:
        highlight_topics_handles.append(hndl)

ax.set_title('Term probability decline per topic')
ax.set_xlabel('term rank')
ax.set_ylabel('term probability for given topic (log scale)')
ax.legend(handles=highlight_topics_handles, loc='best')
fig;


from tmtoolkit.topicmod.model_stats import topic_word_relevance
from tmtoolkit.bow.bow_stats import doc_lengths

doclengths = doc_lengths(dtm)

topic_word_rel = topic_word_relevance(topic_word, doc_topic, doclengths, lambda_=0.6)
topic_word_rel

array([[-6.56622682, -6.47633154, -6.48707646, ..., -6.72499435,
        -6.64484627, -5.20960509],
       [-7.43442808, -7.3445328 , -7.35527771, ..., -6.70589241,
        -5.11515226, -7.42773306],
       [-6.78071434, -6.69081905, -6.70156397, ..., -5.58955515,
        -5.97203059, -6.77401932],
       ...,
       [-7.14246662, -7.05257133, -7.06331625, ..., -7.30123414,
        -5.31684861, -7.1357716 ],
       [-3.15177778, -4.50491935, -3.50897469, ..., -7.03836263,
        -5.02925396, -6.09519551],
       [-7.59616309, -7.5062678 , -7.51701272, ..., -3.97399302,
        -6.00977477, -7.58946807]])


from tmtoolkit.topicmod.model_stats import filter_topics

covid19_topics_automatic = filter_topics(['corona*', 'covid*', 'pandemie', 'sars*', 'infektion', 'rki'],
                                         vocab, topic_word_rel, match_type='glob', top_n=10)
covid19_topics_automatic + 1       # covid19_topics are topic *indices*; we add 1 to get topic numbers

array([ 13,  28,  76,  90,  93, 108, 120, 126, 131, 155, 168, 180])


from tmtoolkit.topicmod.model_io import save_ldamodel_summary_to_excel

# this takes some time since the topic model is quite large

# save_ldamodel_summary_to_excel('output/tm_final_k180_eta0.7.xlsx',
#                                topic_word, doc_topic, doc_labels, vocab,
#                                dtm = dtm);
# save_ldamodel_summary_to_excel('output/tm_final_k180_eta0.7_tw_relevance.xlsx',
#                                topic_word_rel, doc_topic, doc_labels, vocab,
#                                dtm=dtm);


# substract 1 to get topic *indices* (these start at topic 0)

nonsensical_topics = np.array([7, 8, 46, 47, 61, 63, 64, 74, 78, 80,
                               93, 94, 97, 111, 113, 122, 124, 129,
                               139, 159, 170]) - 1
covid19_topics = np.array([13, 24, 28, 35, 50, 76, 90, 108, 126,
                           131, 135, 152, 155, 168, 180]) - 1


len(nonsensical_topics), len(covid19_topics)

(21, 15)


set(covid19_topics+1) - set(covid19_topics_automatic+1)

{24, 35, 50, 135, 152}


from tmtoolkit.topicmod.model_io import ldamodel_top_topic_words

ldamodel_top_topic_words(
    topic_word_rel,
    vocab,
    top_n=10).iloc[sorted(set(covid19_topics) - set(covid19_topics_automatic)),:]


set(covid19_topics_automatic+1) - set(covid19_topics+1)

{93, 120}


ldamodel_top_topic_words(
    topic_word_rel,
    vocab,
    top_n=10).iloc[sorted(set(covid19_topics_automatic) - set(covid19_topics)),:]


from tmtoolkit.topicmod.model_stats import exclude_topics

doc_topic, topic_word, new_topic_mapping =  exclude_topics(
    nonsensical_topics, doc_topic, topic_word, return_new_topic_mapping=True
)
doc_topic.shape, topic_word.shape

((32921, 159), (159, 3278))


old_topic_ind, new_topic_ind = map(lambda x: np.array(list(x)),
                                   (new_topic_mapping.keys(), new_topic_mapping.values()))
covid19_topics = new_topic_ind[np.searchsorted(old_topic_ind, covid19_topics)]
covid19_topics

array([ 10,  21,  25,  32,  45,  67,  79,  94, 108, 112, 116, 132, 135,
       147, 158])


from tmtoolkit.topicmod.model_stats import generate_topic_labels_from_top_words

topic_labels = generate_topic_labels_from_top_words(
    topic_word,
    doc_topic,
    doclengths,
    vocab,
    lambda_=0.6
)


topic_labels[covid19_topics]

array(['11_pandemie_coronakrise', '22_maske_maskenpflicht',
       '26_neuinfektionen_zahl', '33_spahn_test', '46_lockerungen_öffnen',
       '68_wuhan_coronavirus', '80_virus_sarscov2',
       '95_schließen_maßnahme', '109_coronakrise_kurzarbeit',
       '113_impfstoff_medikament', '117_hand_abstand', '133_arzt_patient',
       '136_zahl_todesfälle', '148_quarantäne_positiv',
       '159_coronakrise_corona'], dtype='<U33')


from tmtoolkit.topicmod.model_stats import marginal_topic_distrib

marg_topic = marginal_topic_distrib(doc_topic, doclengths)
list(sorted(zip(topic_labels, marg_topic), key=lambda x: x[1], reverse=True))[:20]

[('26_neuinfektionen_zahl', 0.015712434406330807),
 ('75_minute_tor', 0.012762950363237005),
 ('108_trump_donald', 0.01272651858438072),
 ('105_prozent_quartal', 0.012365290954533646),
 ('80_virus_sarscov2', 0.012150155180471557),
 ('46_lockerungen_öffnen', 0.011952432146179335),
 ('95_schließen_maßnahme', 0.011331682833765531),
 ('158_bayer_dortmund', 0.01112611539262225),
 ('93_gates_foundation', 0.010949357258572412),
 ('119_leben_mensch', 0.010779585583945827),
 ('136_zahl_todesfälle', 0.010306918241285478),
 ('107_prozent_zahl', 0.010126169620470383),
 ('68_wuhan_coronavirus', 0.010071376604688579),
 ('159_coronakrise_corona', 0.010035174941218018),
 ('32_gericht_verurteilen', 0.009998688185347377),
 ('34_begriff_medium', 0.009733718116205612),
 ('11_pandemie_coronakrise', 0.00972157511571275),
 ('101_song_musik', 0.009688675866130446),
 ('87_modell_motor', 0.009622671837856773),
 ('66_politisch_demokratie', 0.009520435686119617)]


sum(marg_topic[covid19_topics])

0.13442846454584428


corpusmeta = unpickle_file('data/meta.pickle')


doc_dates = np.array([corpusmeta[d]['pub_date'] for d in doc_labels], dtype='datetime64')
doc_dates

array(['2019-11-13', '2020-01-28', '2020-06-29', ..., '2019-12-28',
       '2019-12-30', '2020-08-24'], dtype='datetime64[D]')


marg_covid19 = np.sum(doc_topic[:, covid19_topics], axis=1)
marg_covid19

array([0.00674433, 0.01073171, 0.00950735, ..., 0.01285347, 0.04862579,
       0.48698885])


docs_covid19 = pd.DataFrame({
    'label': doc_labels,
    'date': doc_dates,
    'length': doclengths,
    'marginal_covid19': marg_covid19
})
docs_covid19


docs_covid19.sort_values('marginal_covid19', ascending=False)


docs_covid19['weight'] = docs_covid19.groupby('date')\
    .length.transform(lambda g: g / g.sum())    # here "g" contains all articles' lengths on a given day
docs_covid19


np.allclose(docs_covid19.groupby('date').weight.sum(), 1.0)

True


ts_covid19topics = docs_covid19.groupby('date').apply(lambda g: (g.weight * g.marginal_covid19).sum())
ts_covid19topics

date
2019-10-01    0.031422
2019-10-02    0.039168
2019-10-03    0.034717
2019-10-04    0.031006
2019-10-05    0.026473
                ...   
2020-08-26    0.137607
2020-08-27    0.151143
2020-08-28    0.118545
2020-08-29    0.111597
2020-08-30    0.071660
Length: 335, dtype: float64


np.all((0 <= ts_covid19topics) & (ts_covid19topics <= 1))

True


fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(ts_covid19topics.index, ts_covid19topics)
ax.set_ylabel('share of COVID-19 related topics')
ax.set_title('COVID-19 related topics in SPON corpus over time')
fig.savefig('plots/covidtopics_time.png')
fig;


coviddatahub_full = pd.read_csv('data/covid19datahub-2020-11-19.csv')
coviddatahub_full['date'] = pd.to_datetime(coviddatahub_full.date)
coviddatahub_full.head()


coviddatahub = coviddatahub_full.loc[
    (coviddatahub_full.date >= '2020-01-01') & (coviddatahub_full.date <= docs_covid19.date.max()),
    ['id', 'date', 'confirmed', 'administrative_area_level_1']
]


coviddatahub['daily'] = coviddatahub.groupby('id').confirmed.diff().fillna(0).astype(np.int)
coviddatahub.head()


coviddata_de = coviddatahub.loc[coviddatahub.id == 'DEU', :]
coviddata_de.head()


fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(coviddata_de.date, coviddata_de.daily)
ax.set_ylabel('daily cases')
ax.set_title('Daily confirmed COVID-19 cases for Germany')
fig;


coviddata_world = coviddatahub.groupby('date').daily.sum()


fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(coviddata_world.index, coviddata_world)
ax.set_ylabel('daily cases')
ax.set_title('Daily confirmed COVID-19 cases worldwide')
fig;


ts_covid19topics2020 = ts_covid19topics[ts_covid19topics.index >= '2020-01-01']


import statsmodels.api as sm
import statsmodels.formula.api as smf

smoothed = sm.nonparametric.lowess(ts_covid19topics2020, coviddata_de.daily,
                                   frac=0.5)

fig, ax = plt.subplots(figsize=(10, 6))

ax.scatter(coviddata_de.daily, ts_covid19topics2020)
ax.plot(smoothed[:, 0], smoothed[:, 1], c='black')
ax.set_xlabel('daily cases in Germany')
ax.set_ylabel('share of COVID-19 related topics')
ax.set_title('COVID-19 infection rate in Germany and share of COVID-19 topics in SPON corpus')
fig.savefig('plots/covidrate_topics_germany.png')
fig;


topics_cases = pd.DataFrame({
    'covid19topics': ts_covid19topics2020.values,
    'dailycases': coviddata_de.daily.values
})

lm_topics_cases = smf.ols('covid19topics ~ dailycases + np.square(dailycases)', data=topics_cases).fit()
lm_topics_cases.summary()


fig, ax = plt.subplots(figsize=(10, 6))

predinput = np.sort(np.unique(topics_cases.dailycases))
predresults = lm_topics_cases.get_prediction(pd.DataFrame({'dailycases': predinput}))\
    .summary_frame(alpha=0.05)

ax.scatter(topics_cases.dailycases, topics_cases.covid19topics)
ax.plot(predinput,
        lm_topics_cases.predict(pd.DataFrame({'dailycases': predinput})),
        c='black')
ax.plot(predinput, predresults.mean_ci_upper, 'r--')
ax.plot(predinput, predresults.mean_ci_lower, 'r--')
ax.set_xlabel('daily cases in Germany')
ax.set_ylabel('share of COVID-19 related topics')
ax.set_title('COVID-19 infection rate in Germany and share of COVID-19 topics in SPON corpus\n'
             'Fitted function: y={:.4f}{:+.4f}x{:+.4e}x².'
             .format(*(lm_topics_cases.params.values).tolist()))
fig.savefig('plots/covidrate_topics_germany_lm.png')
fig;


fig, ax = plt.subplots(figsize=(10, 6))

smoothed = sm.nonparametric.lowess(ts_covid19topics2020, coviddata_world,
                                   frac=0.3)

ax.scatter(coviddata_world, ts_covid19topics2020)
ax.plot(smoothed[:, 0], smoothed[:, 1], c='black')
ax.set_xlabel('daily cases worldwide')
ax.set_ylabel('share of COVID-19 related topics')
ax.set_title('Worldwide COVID-19 infection rate and share of COVID-19 topics in SPON corpus')
fig.savefig('plots/covidrate_topics_world.png')
fig;

	rank_1	rank_2	rank_3	rank_4	rank_5	rank_6	rank_7	rank_8	rank_9	rank_10
topic
topic_24	maske (0.7224)	maskenpflicht (0.02156)	tragen (-0.2841)	trage (-0.5087)	schutzmasken (-0.6864)	pflicht (-1.121)	nase (-1.261)	mund (-1.328)	einkaufen (-1.596)	verstoß (-1.604)
topic_35	spahn (0.3342)	test (0.007197)	jens (-0.08562)	gesundheitsminister (-0.4132)	testen (-0.8518)	labor (-0.9737)	robert (-1.62)	deutschland (-1.705)	kostenlos (-1.951)	sagen (-1.975)
topic_50	lockerungen (-0.8067)	öffnung (-1.114)	öffnen (-1.175)	schrittweise (-1.263)	mai (-1.375)	lockerung (-1.425)	normalität (-1.545)	lockern (-1.547)	land (-1.697)	sollen (-1.72)
topic_135	hand (-0.5646)	abstand (-0.7781)	waschen (-0.8674)	husten (-0.9921)	sollen (-0.9941)	empfehlen (-1.103)	meter (-1.122)	halten (-1.294)	luft (-1.602)	einhalten (-1.695)
topic_152	arzt (0.08259)	patient (0.04521)	klinik (-0.1198)	krankenhaus (-0.4784)	krankenhäuser (-0.7729)	behandlung (-0.778)	intensivstation (-0.8414)	medizinisch (-0.9082)	behandeln (-0.9243)	mediziner (-1.016)

	rank_1	rank_2	rank_3	rank_4	rank_5	rank_6	rank_7	rank_8	rank_9	rank_10
topic
topic_93	uhr (-0.5045)	coronavirus (-2.113)	sagen (-2.135)	mensch (-2.176)	mehr (-2.316)	angabe (-2.326)	infektion (-2.35)	teilen (-2.354)	zahl (-2.368)	coronakrise (-2.396)
topic_120	prozent (-0.4142)	quartal (-0.9742)	wirtschaft (-1.244)	minus (-1.258)	rückgang (-1.299)	erwarten (-1.527)	rechnen (-1.565)	einbruch (-1.58)	coronakrise (-1.594)	stark (-1.595)

	label	date	length	marginal_covid19
0	007-drehorte-in-europa-klimavertraeglicher-jam...	2019-11-13	310	0.006744
1	070-shake-in-berlin-vertrauensuebung-mit-einer...	2020-01-28	265	0.010732
2	1-fc-heidenheim-in-der-relegation-demoliert-in...	2020-06-29	226	0.009507
3	1-fc-heidenheim-unterliegt-werder-bremen-in-de...	2020-07-07	244	0.004907
4	1-fc-kaiserslautern-beantragt-in-der-3-liga-in...	2020-06-17	269	0.094440
...	...	...	...	...
32916	zwoelf-kinder-als-chefsache-a-d4533bfa-668c-49...	2020-04-11	421	0.129314
32917	zyklon-amphan-trifft-auf-indien-und-bangladesc...	2020-05-20	203	0.004484
32918	zypern-diebe-stehlen-koffer-mit-urne-darin-a-1...	2019-12-28	57	0.012853
32919	zypern-mutmassliche-urnendiebe-gefasst-familie...	2019-12-30	70	0.048626
32920	zytomegalie-was-schwangere-wissen-muessen-a-00...	2020-08-24	56	0.486989

	label	date	length	marginal_covid19
8017	coronavirus-der-mund-nasen-schutz-ersetzt-nich...	2020-04-24	338	0.959401
8505	coronavirus-infizierte-genesene-tote-alle-live...	2020-03-18	394	0.946813
6949	corona-mundschutz-tragen-oder-nicht-tragen-a-e...	2020-04-02	391	0.934810
7130	corona-robert-koch-institut-meldet-hoechste-za...	2020-08-19	165	0.930165
5184	china-wie-gefaehrlich-ist-das-neuartige-corona...	2020-01-20	432	0.916635
...	...	...	...	...
22974	niederlande-dsgvo-oma-muss-facebook-foto-ihres...	2020-05-22	881	0.001030
11708	eine-kuh-erklaert-die-welt-a-b4a34c61-2b89-447...	2020-02-25	855	0.000996
2697	berlin-alexanderplatz-auf-der-berlinale-kaltes...	2020-02-26	856	0.000975
2929	berlinale-2020-perspektive-deutsches-kino-a-78...	2020-02-22	867	0.000969
14862	globale-konjunktur-unruhe-ist-die-neue-normali...	2019-10-13	896	0.000943

	label	date	length	marginal_covid19	weight
0	007-drehorte-in-europa-klimavertraeglicher-jam...	2019-11-13	310	0.006744	0.013959
1	070-shake-in-berlin-vertrauensuebung-mit-einer...	2020-01-28	265	0.010732	0.013212
2	1-fc-heidenheim-in-der-relegation-demoliert-in...	2020-06-29	226	0.009507	0.011430
3	1-fc-heidenheim-unterliegt-werder-bremen-in-de...	2020-07-07	244	0.004907	0.011631
4	1-fc-kaiserslautern-beantragt-in-der-3-liga-in...	2020-06-17	269	0.094440	0.011453
...	...	...	...	...	...
32916	zwoelf-kinder-als-chefsache-a-d4533bfa-668c-49...	2020-04-11	421	0.129314	0.021682
32917	zyklon-amphan-trifft-auf-indien-und-bangladesc...	2020-05-20	203	0.004484	0.008875
32918	zypern-diebe-stehlen-koffer-mit-urne-darin-a-1...	2019-12-28	57	0.012853	0.004819
32919	zypern-mutmassliche-urnendiebe-gefasst-familie...	2019-12-30	70	0.048626	0.004296
32920	zytomegalie-was-schwangere-wissen-muessen-a-00...	2020-08-24	56	0.486989	0.002623

Spiegel Online news topics and COVID-19¶

A topic modeling approach¶

Data loading¶

Investigating the topic model¶

Conclusion¶

	id	date	population	...	currency	administrative_area_level	administrative_area_level_1	administrative_area_level_2	administrative_area_level_3	latitude	longitude	key	key_apple_mobility	key_google_mobility
0	AFG	2020-01-01	37172386	...	AFN	1	Afghanistan	NaN	NaN	33.0	65.0	NaN	NaN	AF
1	AFG	2020-01-02	37172386	...	AFN	1	Afghanistan	NaN	NaN	33.0	65.0	NaN	NaN	AF
2	AFG	2020-01-03	37172386	...	AFN	1	Afghanistan	NaN	NaN	33.0	65.0	NaN	NaN	AF
3	AFG	2020-01-04	37172386	...	AFN	1	Afghanistan	NaN	NaN	33.0	65.0	NaN	NaN	AF
4	AFG	2020-01-05	37172386	...	AFN	1	Afghanistan	NaN	NaN	33.0	65.0	NaN	NaN	AF

	id	date	confirmed	administrative_area_level_1	daily
15228	DEU	2020-01-01	0	Germany	0
15229	DEU	2020-01-02	0	Germany	0
15230	DEU	2020-01-03	1	Germany	1
15231	DEU	2020-01-04	1	Germany	0
15232	DEU	2020-01-05	1	Germany	0

Dep. Variable:	covid19topics	R-squared:	0.684
Model:	OLS	Adj. R-squared:	0.682
Method:	Least Squares	F-statistic:	260.3
Date:	Tue, 24 Nov 2020	Prob (F-statistic):	7.71e-61
Time:	17:51:10	Log-Likelihood:	397.52
No. Observations:	243	AIC:	-789.0
Df Residuals:	240	BIC:	-778.6
Df Model:	2
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	0.0919	0.005	20.336	0.000	0.083	0.101
dailycases	0.0001	6.5e-06	15.980	0.000	9.11e-05	0.000
np.square(dailycases)	-1.169e-08	1.21e-09	-9.638	0.000	-1.41e-08	-9.3e-09

Omnibus:	4.503	Durbin-Watson:	0.778
Prob(Omnibus):	0.105	Jarque-Bera (JB):	4.600
Skew:	0.326	Prob(JB):	0.100
Kurtosis:	2.828	Cond. No.	1.20e+07

Spiegel Online news topics and COVID-19¶

A topic modeling approach¶

Data loading¶

Investigating the topic model¶

Daily COVID-19 cases and COVID-19 related topics in the news¶

Relationship between infection rate in Germany and share of COVID-19 related topics on SPON¶

Relationship between worldwide infection rate and share of COVID-19 related topics on SPON¶

Conclusion¶