“Hay un periodismo que busca la inmediatez y ser el primero en contar la historia y hay otro periodismo que busca la profundidad; las técnicas del Periodismo de Datos pueden ser utilizadas en ambos”

Eva Constantaras| Madrid | 13/04/2013

Imagen de Paul Bradshaw

Paul Bradshaw

Paul Bradshaw es el fundador de Online Journalism Blog, del proyecto de investigación colaborativa Help Me Investigate y del primer blog de datos de un periódico regional, Behind the Numbers, en The Birmingham Mail.

Además de ser profesor de periodismo online en la City University de Londres y en la Birmingham City University, y de trabajar en formación de periodistas freelance, Bradshaw prepara a otros periodistas para desenvolverse en el entorno de los medios digitales.

En una entrevista realizada por Skype el pasado mes de marzo, desmiente el mito de que los periodistas estén demasiado ocupados como para dedicarle tiempo a los datos, comparte técnicas para enseñar este tipo de periodismo y explica por qué los medios de comunicación deben invertir en desarrollar equipos de trabajo con datos.

¿Le parece que el Periodismo de Datos contribuye a la calidad de las noticias y de la información en un momento en el que los medios están sufriendo una transformación radical?

Creo que el Periodismo de Datos puede aportar un rigor extra a las informaciones. Aunque no necesariamente lo hace. Evidentemente, los datos y las estadísticas puede usarse de muchas formas y ser malinterpretados o manipulados. Pero, en mi opinión, esto ofrece a los periodistas una oportunidad para justificar su función y adaptarla a la situación en la que la información en sí misma es mucho más abundante que hace veinte años. Los datos aportan un rigor extra al proceso periodístico y, además de todo eso, son una fuente de información. Los periodistas deberían estar siempre muy cerca de todas las fuentes de información, y los datos están adquiriendo una importancia creciente en el mundo en términos de cantidad y de calidad de la información. Es evidente que el poder de los datos va en aumento en la sociedad en los ámbitos político y económico. Creo que los periodistas todavía tienen esa percepción de que son más importantes de lo que en realidad son. En mi opinión, con tanta información alrededor, es necesaria una forma mejor de demostrar la veracidad de la misma y los datos son una forma de lograr ese objetivo.

En los países donde el periodismo impreso todavía es rentable gracias al crecimiento de la clase media y de la cultura lectora, ¿cómo pueden prepararse los periodistas para facilitar la transición al mundo digital cuando ya están soportando un nivel de producción informativa tan agotador?

Eso es algo que realmente me molesta, esa idea unidimensional del Periodismo de Datos, que es comprensible porque los medios que invierten recursos en él quieren llamar la atención y presumir de que lo hacen. Pero he formado a periodistas en el conocimiento del Periodismo de Datos que les ayudan a ahorrar tiempo. En general, hay un periodismo que busca la inmediatez y ser el primero en contar la historia y hay otro periodismo que busca la profundidad, y las técnicas del Periodismo de Datos pueden ser utilizadas en ambos. Hay muchas técnicas de Periodismo de Datos que pueden ser usadas para informar con mayor inmediatez, para automatizar partes del método de trabajo, emplear accesos directos y ese tipo de cuestiones. Así que creo que, en primer lugar, lo que hay que hacer es observar el método de trabajo de alguien y preguntarle: “¿Por qué malgastas tanto tiempo haciendo eso cuando podrías hacerlo mucho más rápido?”. Usa redes sociales en lugar de revisar páginas web cada mañana, cambia las herramientas de detección de datos en lugar de estar consultando diariamente qué registros publica una organización dedicada a peticiones de información pública, usa Control+F en lugar de tratar de encontrar algo de manera manual en un documento gigantesco. Muchas de estas cosas forman parte de los hábitos de los periodistas de hoy en día. Ahora es posible utilizar el análisis semántico y la extracción de texto para, como mínimo, obtener un panorama general de lo que hay en los documentos y cuáles podrían ser los puntos en los que quieres concentrar tus esfuerzos. Al final, la gestión de proyectos consiste básicamente en esto. Así que eso es lo que yo respondería a : “Estamos demasiado ocupados”. La otra cara del asunto es: “¿Cuál es tu prioridad, seguir haciendo lo que has hecho hasta ahora o cuestionarte si lo que haces nos hace ganar dinero?”. Y es fácil empezar desde una posición en la que uno dice que no tiene tiempo, pero también puedes preguntarte por qué no tienes tiempo. Hay una publicación en el Reino Unido llamada Post que fue vendida hace unos meses. Miraron el tiempo empleado en los productos para la web, el tiempo empleado en el producto impreso y el tiempo empleado por los lectores en cada apartado. Descubrieron que el tiempo invertido en escribir artículos para la versión impresa del periódico era mucho mayor que el dedicado a los de la web, mientras que los lectores pasaban mucho más tiempo leyendo artículos online. Esto no tiene que ver necesariamente con el Periodismo de Datos, sino con cómo utilizar nuestro tiempo para obtener el mejor resultado. Y a menudo el Periodismo de Datos va de historias originales, de análisis de cosas importantes que suponen una mejor inversión de nuestro tiempo antes que reciclar una nota de prensa o acudir a un evento que va a ser cubierto de la misma forma por una docena de agencias de noticias. He escrito algo más sobre esto en mi blog.

¿Cómo asegurarse de que, junto con las habilidades técnicas, las personas en proceso de formación tengan conocimientos estadísticos suficientes como para utilizar los datos de manera responsable?

Hay un miedo real en ese sentido que hace vacilar a algunas organizaciones, lo cual me parece horrible. Es casi como si tuviéramos miedo a informar de la verdad o de los hechos por si fueran erróneos. Uno habla con las fuentes, habla con expertos, hace exactamente lo que haría con cualquier otro tipo de información. Si consiguieras una evidencia de una fuente o de un informe, lo verificarías. En mi opinión, hay demasiados periodistas que no son tan prudentes como deberían a la hora de informar sobre informaciones que se les presentan. En otras palabras, son mucho más precavidos si una información se les aparece en una hoja de cálculo. Yo diría que los errores estadísticos básicos más comunes tienen que ver con cosas como la regresión a la media, la variación, el tamaño de la población y la variación de la población, cuestiones que se pueden solucionar en apenas media hora, por lo que no suponen un gran problema. En un sentido periodístico más amplio, se trata de usar las mismas técnicas de siempre. Hablar con la organización responsable de los datos y preguntar: “¿He comprendido esto correctamente?” Hablar con expertos independientes en la materia y preguntarles: “¿Cuáles son los problemas de estos datos? ¿Cómo se han recogido?” Las encuestas de opinión son muy interesantes porque forman parte de los trucos de los agentes de relaciones públicas para salir en las noticias. Pero puedes dirigirte a esos relaciones públicas y preguntarles cuál fue la muestra y cómo se recogieron los datos, y si no pueden o no quieren contestarte, entonces no sacas la historia. Aunque esto no siempre es una buena opción para los periodistas. Hay que ser lo suficientemente valiente como para ir y decir que una encuesta tiene tantos puntos débiles que no se va a publicar ninguna historia sobre ella. Otra opción es conseguir que alguien critique esos datos y convertir esa crítica en nuestra propia historia. A menudo, la reticencia a cuestionar los resultados de las encuestas parece ser el resultado de “necesitamos publicar esto”.

¿Cómo evita que los estudiantes se sientan frustrados cuando encuentran dificultades para aprender los aspectos técnicos?

Es necesario establecer un sistema de retroalimentación continua entre el profesor y el alumnado. Cuando empecé a enseñar, venía de un entorno periodístico, lo que supone dar contexto a un montón de cosas complejas y escribir hasta que hacerlas comprensibles. Así es, en gran parte, como enseñé los primeros años, comunicando con claridad y sencillez a una audiencia no necesariamente familiar con el tema. Pero el hecho de familiarizarme con la gestión de comunidades de usuarios a través de proyectos como Help Me Investigate, ha influido enormemente en mi modo de impartir clases. Me he alejado mucho de lo que solía hacer. El año pasado, en un módulo en particular, dejé por completo de dar clase y básicamente dije a mis alumnos: “Cada uno de vosotros, escoged un problema y trabajad en grupo”. Y eso es todo lo que hay que hacer para crear una dinámica de grupo y una retroalimentación continua y conseguir que la gente adopte una postura activa en lugar de pasiva. Funcionó a las mil maravillas. Simplemente quitándome de en medio y no sintiendo que tenía que haber una clase y unos contenidos, los estudiantes se convirtieron en participantes activos de su aprendizaje. No es que tengan que estar allí y aprender lo que yo explico, sino que son ellos los que vienen a mí y me dicen: “Este es mi problema, ¿cómo lo soluciono?”. Ese enfoque de gestión de colectivos es realmente interesante y algo muy distinto a la simple transmisión de información.

¿Cree que los cursos masivos online (MOOC por sus siglas en inglés) son una plataforma efectiva para el aprendizaje de técnicas de Periodismo de Datos? ¿Se ha utilizado su blog para proyectos de formación a gran escala?

Mi reacción inmediata es que algunos MOOC pueden ser efectivos y otros no. Soy muy escéptico sobre los MOOC como educador que lleva diez años enseñando y aún continúa aprendiendo y cambiando la forma de enseñar constantemente. Siempre hay requisitos diferentes para contextos distintos. Hay una gran diferencia entre enseñar en un aula con 200 alumnos a hacerlo en una de cinco en la que estás impartiendo materias diferentes. Por tanto, creo que la propia masificación de estos MOOC es un problema real. Surge un problema de gestión eficaz de un colectivo. He visto casos en los que lo han manejado muy bien, pero creo que siempre existe el riesgo (y yo extendería esta cuestión a Code Academy) de regresar a una idea de educación muy anticuada, que consiste en la transmisión de información. Para eso, también puedes darles un libro. Así que creo que es necesario ir más allá de poner información online, dejar que la gente la recoja y pensar “ya está”. Creo que hay formas más efectivas de enseñar y que hay una razón por la que existen espacios físicos para la educación. Yo ejerzo la enseñanza a distancia en un máster de Periodismo online. Es una forma muy específica de aprendizaje y creo que tienes que ser muy consciente de ello. En primer lugar, ¿qué tipo de estudiante es capaz de aprender así? Segundo, ¿cómo apoyas a esa persona y la ayudas a desarrollar sus proyectos? La enseñanza a distancia, en general, supone un gran desafío. Requiere mucha experiencia para lograr un buen resultado. Y a veces me escucho a mí mismo y sueno como un viejo diciendo: “Yo tengo mucha experiencia y por tanto vosotros nunca podréis saber tanto como yo”. Pero creo que la experiencia realmente contribuye a la educación. La naturaleza humana y la interacción son muy importantes. En cuanto a mi blog, sé que se ha usado para tareas de formación, y yo mismo dirijo a mis estudiantes a él para hacer seguimientos e indicar tutoriales. Así que a menudo uso mi blog para alojar información y tener luego fácil acceso a ella. Mi libro sobre scraping surgió por el deseo de escribir algo que no fuera sobre la transmisión de información, que fuera sobre el proceso de trabajo, una forma de llevarlo a cabo. Lo que digo es: “Aquí tenéis el lado técnico de las cosas, pero también hay un viaje que os mantendrá motivados, os dará un feedback y os enseñará un proceso de trabajo que no consiste en hacer una cosa determinada, sino en abordar problemas”. Estoy muy orgulloso de Scraping for Journalists porque tiene un feedback integrado que te ofrece técnicas, pero que también enseña ese proceso.

¿Por qué y cómo deben esforzarse los medios de comunicación para diseñar y lanzar su propio equipo de Periodismo de Datos?

Deberían lanzar un equipo de Periodismo de Datos, en primer lugar porque si no lo hacen están infrautilizando un recurso muy valioso para redacción, que son los datos que obtienen de fuentes y de leyes de derecho de acceso a la información. Esto tiene un valor que no ha sido apenas explotado. Las informaciones conseguidas se han venido transformando en artículos, pero no se han ordenado en una base de datos para su ulterior reutilización. En segundo lugar, parte de ese valor está en la distribución. El Periodismo de Datos supone un gran incremento del número de  visitas a una web. Si te fijas en el datablog de The Guardian, la gente pasa cuatro veces más tiempo en sus posts que en el resto de la web. El Texas Tribune consigue casi la mitad de su tráfico gracias a las bases de datos de su web. Las visualizaciones son muy buenas para la distribución y convierten las cosas en virales. También es una muy buena forma de atraer y beneficiarte de expertos en diseño y análisis de datos que son ajenos a la organización, algo que, una vez más, hace muy bien The Guardian. La API de The Guardian tiene a alrededor de 8.000 desarrolladores dados de alta. Cuando National Public Radio abrió su API, obtuvieron un aumento del 100% en su tráfico de móviles. Por lo que hay muchos beneficios comerciales y, por supuesto, beneficios editoriales derivados de las historias originales y el análisis. El análisis de datos está adquiriendo una gran importancia en las noticias y en las publicaciones. En cuanto al cómo, creo que hay muchas cosas muy sencillas que se pueden hacer. Con el Birmingham Mail lo que estoy intentando hacer es introducir datos junto a los reportajes y las notas de actualidad. De modo que si hay una historia de primera página, ¿podemos hacer una gráfica o un mapa sobre el tema en la web? Si se publican unos presupuestos, ¿podemos centrarnos en un aspecto concreto de los datos? Incluso a un nivel muy básico, sin tener que hacer demasiado análisis de datos, simplemente escogiendo una región del país e identificando las tendencias. Luego es cuestión de dejarse llevar por la curiosidad natural y el olfato periodístico.

¿Cómo se pueden mejorar la colaboración entre periodistas?

Mi experiencia con los periodistas que trabajan en un medio tradicional  y que puntualmente se involucran en un proyecto colaborativo es que suelen ser los que tienen más problemas para trabajar en equipo. Los no-periodistas tienden a ser los que hacen la mayoría del trabajo de campo. Cuando ese trabajo está hecho, el periodista consigue las reacciones de las partes involucradas o implicadas. No entiendo cómo puede funcionar ese sistema en un contexto formal. Normalmente, es la pasión de la gente lo que impulsa la colaboración porque ellos tienen que preocuparse por la historia más que el medio de comunicación. En esencia, tiene que existir una pasión personal. Tener un recurso común al que todos contribuyan puede ser de ayuda. La investigación sobre la Olympic torch-bearing fue un ejemplo en el que rasqué los datos, los completé y después me puse en contacto con gente de Alemania, Oriente Próximo o Italia para conseguir ayuda en sus países.  Ellos me devolvieron información que se añadió a los recursos comunes. Una forma de afrontar algo así sería tener una hoja de cálculo a la que la gente pudiera aportar contexto y datos extra. Pero estoy perdiendo mi fe en “deja a todo el mundo tomar la iniciativa”. Tengo sentimientos encontrados en cuanto a permitir esos roles en Help Me Investigate y se está convirtiendo cada vez más en una organización formal y estructurada según jerarquías, pero hay una razón para ello y he reconocerlo. Algunas de las lecciones que he extraído de la gestión de colectivos me han enseñado el valor de papeles específicos para determinadas personas, pero lo practico de manera ad hoc en cada situación, no de forma generalizada.

¿Cuáles son los errores más comunes que encuentra en los proyectos de Periodismo de Datos?

Algo que veo muy a menudo cuando la gente está empezando es que, debido a que hay tantas historias en los datos, sueltan todo en el primer párrafo y luego el texto no resulta nada claro. O publican artículos que se ahogan en números. Es difícil porque, como ser humano, quieres comunicar todo lo importante, pero como editor tienes que ser implacable y decir: “Lo siento, tenemos demasiados números y vas a tener que quitar algunas cosas que, aunque son realmente importantes, están destruyendo el artículo”. El Periodismo de Investigación debe ser tenaz por definición y necesita seguir informando y desarrollando las historias tras la primera publicación. Pero, también casi por definición, un periódico generalista evita sacar más de una artículo sobre el mismo tema de manera consecutiva para no resultar pesado. Intenta mantener la apariencia de imparcialidad, incluso a costa de la información.

Traducción de Paula Guisado

Paul Bradshaw, founder of onlinejournalismblog.com, the collaborative investigative journalism project Help Me Investigate and UK’s first regional newspaper data blog, Behind the Numbers, with The Birmingham Mail. As professor of online journalism at City University, London and Birmingham City University, and a freelance trainer, Bradshaw prepares other journalists to thrive in the digital media environment. In an interview conducted over Skype on March 2013 he attacks the myth of journalists who are too busy for data, shares techniques for teaching data journalism and explains why media outlets should invest in a data team.
What do you think that data journalism contributes to the quality of news and information during a time when media is undergoing such a transformation?

I think that data journalism potentially contributes extra rigor. I don’t think it necessarily does. Obviously statistics and data can be used in a number of ways and can be misinterpreted or manipulated. But I think it provides an opportunity for journalists to justify their role and adapt their role to a situation in which information itself is no longer as rare as it would have been 20 years ago. Data contributes volume to journalism itself; it contributes extra rigor to the journalistic process and apart from anything else, it is a source of information.

Journalists should always be on top of all sources of information and data is an increasingly important source of information in the world both in terms of quantity and in terms of quality, in terms of the power that data has in society both in terms of politics and economy. I think journalists still quite often have this perception that they are more important than they are. I think with so much information around, you need a higher claim to validity and data is one route to that.

In countries where print journalism is still profitable because of a growing middle class and reading culture, how can journalists prepare for or ease the transition to digital when they already face such a grueling production schedule?

This really annoys me, this one-dimensional idea of data journalism, which is understandable because it’s the really spectacular attention-grabbing stuff from the organizations that invest real resources in it.  But I’ve trained journalists in data journalism skills that then save them time. So as with journalism in general, there’s journalism where you are looking for speed and to be the first to the story and there’s journalism where you are looking for depth and data journalism skills can be used for both.

There are lots of data journalism skills that can be used for reporting things more quickly, for automating parts of your work processes, shortcuts and things like that. So I think first of all, the thing to do is look at someone’s work process and ask, “Why are you spending all that time doing that when you could do it much more quickly?” Use RSS feeds instead of checking on websites every morning, change detection tools instead of checking the disclosure log of the freedom of information organization, use ‘Control+F’ instead of going through a massive document and trying to manual find something. A lot of these are part of journalists’ habits now. Now you can use semantic analysis and text extraction, to, at the very least, get an overview of what’s in documents and what might be the points you want to focus your efforts on.  And in the end that’s just as much about project management as anything.

So that’s what I would say to the “we are too busy” issue. The other side of things is, “What’s your priority? To keep on doing what you have always done or do you have to make some choices about does this make any money for us?” And it’s easy to start from a position where you say I haven’t got any time. But the other side of that is why?  There’s a publication in the UK called Post, which was bought a few months ago and they looked at home much time they spend on the websites and how much time they spend on the print product and how much time their readers spend on the print product and the website. They found that it was almost the complete opposite of each other. They were spending far more time writing articles for print whereas readers were spending far more time reading articles online.

It’s not necessarily anything to do with data journalism but with how we use our time for the best effect.  And often data journalism is about original stories, analysis: important stuff and that’s a much better investment of our time than recycling a press release or covering an event, which a dozen other news organizations are all going to cover with exactly the same quotes.  I’ve written a bit more about it on my blog.

How do you ensure that along with the technical skills, trainees have sufficient understanding of statistics to use the data responsibly?

I think there is a real fear around this that seems to hold back some organizations, which I find a bit horrible. It’s almost like we’re afraid to try to report the truth or the facts in case we get it wrong. You speak to sources. You speak to experts. You do exactly what you would with any other fact.  If you had a fact from a source or a fact from a report then you check it.

For me, enough journalists don’t seem to be quite as cautious as they should be in reporting facts presented to them. In other words, if a fact is presented to them in a spreadsheet then they are much more cautious about reporting it. But I would say that the basic statistical mistakes that are made commonly are with things like regression to the mean, variation, population sizes and variation in populations that I could cover in half an hour, so there’s not a lot to it really.

In a broader sense for journalists, it’s about using the same skills you always would. Speak to the organization responsible for the data and ask, “Have I understood this correctly?” Speak to independent experts in the field and ask, “What are the issues with this data? How is it collected?”

Opinion polls are quite interesting because they are a PR trick to get news coverage.  But if you go back to the PR people and ask what the sample was and how it was collected and if they can’t or won’t tell you, then you don’t run the story. But that doesn’t always seem to be an option for journalists.  But be brave enough to go back and say that this polling data is really flawed so much that we aren’t going to run a story.  Or we might get someone to criticize it and that might be our story.  But [reluctance to question polling results] seems to stem from a base of “we need to publish this.”

How do you keep students from feeling frustrated when they encounter difficulties with learning the technical skills?

You need a feedback loop. When I started teaching I came from a journalism background, which is taking a bunch of jargon and writing it in an easy-to-understand way. That was a lot of how I taught those first few years, communicating things clearly and simply to an audience that wasn’t necessarily familiar with the topic. But becoming more familiar with community management through projects ─including Help Me Investigate─ has had a massive influence on how I teach in the classroom.

I’ve stepped back a lot.  Last year, I stopped doing lectures entirely in one particular module and I basically said, “Each of you pick a problem and you work in a group.” And that’s all about setting up group dynamics and feedback loops and putting people in the particular position where they are active rather than passive. It worked absolutely brilliantly. Just by taking me out and not feeling like I have to do a lecture and deliver content, the students have to become active participants in their learning. It’s not like they have to be there and they have to learn what I’ve said, it’s instead they come to me and say, “This is my problem and how do I solve it?”  That community management approach is really interesting and very different from the pure delivery of content.

Do you think Massive Online Open Courses are an effective platform for learning data journalism skills?  Has your blog has been used for large-scale trainings?

My immediate reaction to this is that some MOOCs can be and some aren’t. I have a lot of skepticism about MOOCs as an educator in that even after ten years of teaching I am still learning a lot and always changing how I teach. There are always different demands in different contexts. There’s a difference between teaching a roomful of 200 students and teaching five and teaching different things. So the sheer massiveness of massive online open courses I think is a real problem. It’s a community management problem. I’ve seen it managed quite well but I think there’s always a danger, and I would say this as well for Code Academy, of reverting to a very old-fashioned idea of education, which is this transmission of information. You may as well give someone a book. So I think it needs to go beyond simply putting information online and people then picking it up and feeling ‘That’s it.’

I think there are much more effective ways of delivering education and there’s a reason why we have physical spaces for education. I do distance learning of the MA in Online Journalism. That’s a very specific way of learning and I think you have to be very conscious of that.  First of all, who is even able to do it in that way in terms of applicants? Secondly, how you support that person and help them to continue to develop with their projects?  Distance learning in general is a real challenge.  It takes a lot of experience to do well.  And I hear myself saying that and it sounds like some grizzled old guy who says, “I have lots of experience and therefore you guys can’t possibly know as much as me.”  But I think experience really helps with education. It’s a lot about human nature and interaction. In terms of my blog, I know it has been used for training and I refer to it myself and direct students to it to follow up and point out tutorials.  So I often use my blog as a place to park stuff that I can then refer to later.

My book on scraping came out of a desire to write something that wasn’t about transmitting information that was about process, a way of doing things. I am saying, “Here’s the technical side of things, but also here is a journey that will keep you motivated, will give you feedback and will teach you a process that isn’t just about doing one thing but about tackling problems.” I am really proud of Scraping for Journalists because it has a built-in feedback loop that gives you techniques but also teaches that process. .

Why and how should struggling media outlets design and launch a data journalism team?

They should launch a data journalism team partially because without it they are underutilizing a very valuable resource in their newsroom, which is the data that they gain from sources and right to information laws. That has a value that has not been particularly exploited.  It has just been turned into stories.

Secondly, part of that value is about distribution.  A lot of data journalism really improves hits on a website.  If you look at The Guardian’s Data Blog, people spend four times longer on their posts than they do on outreach on the website.  The Texas Tribune, [over half] of their traffic is to the databases on their website. Visualizations are very good for distribution and making things viral.  It’s also a very good way to bring skill into our organization in terms of tapping into design expertise and data analysis expertise from people who don’t work for you, which again The Guardian does very well.  The The Guardian’s API has about 8,000 developers signed up. National Public Radio when they opened up their API they credited that with 100% increase in their mobile traffic.  So there are a lot of commercial benefits and of course there are editorial benefits of original stories and analysis.  Analysis is taking on a much bigger role in news and publishing.

In terms of how, I think there are a lot of very simple things that can be done.  With the Birmingham Mail what I’m trying to do is just put data behind stories and issues that are topical.  So if there is a front page story, can we do a chart about it or a map about it on the site?  If there’s a big budget announcement, can we look at a particular aspect of the data around that?  Even at a very basic level without having to do a lot of data analysis, just picking out a region or a country and identifying trends. Then let natural curiosity and that news nose take over.

How can collaborations among journalists from different news outlets be improved?

My general experience of journalists in news organizations involved in a collaborative project is that they are generally the least collaborative. It tends to be the non-journalists doing much of the legwork. When all that legwork is done, it’s generally the journalist who can get the response and reaction from the bodies that are involved or implied. I don’t know how it can work at a formal level.  It tends to be people’s passions driving the collaboration because they have to care more about the story than the news organization, essentially. It has to be a personal passion. Having a shared resource that everyone is contributing to can help.

The Olympic torch-bearing investigation was an example in that I scraped the data and added to it but then I would get in touch with people in Germany, or the Middle East or Italy for help with their countries and they did come back with information, which came back into the common resource. Having a spreadsheet where people can add extra context and extra data is perhaps how I would approach something like that.  I am losing my fluffy, ‘let everyone take initiative’ attitude.  I do have mixed feelings about having these roles at Help Me Investigate and its becoming more like a formal organization but there’s a reason for that I think.  Actually having done it, some of the reading I have done in community management does talk about the value of specific roles but I’ve done it in an ad hoc way.

What are the most common errors you see in data journalism projects?

One thing I see often when people are starting is that because there are so many stories in the data, they blurt it all out in the first paragraph and there’s no clarity in the story, or they publish data stories that are drowning in numbers. It’s hard because as a human being you want to communicate all of this important stuff but as an editor you have to be ruthless and say, “Sorry, we have got too many numbers now and you’ll have to drop all this stuff that is really important but it’s weighing this story down.”

Investigative journalism is almost by definition persistent and keeps on reporting and keeps on going on about this one thing. But almost by definition a general newspaper tends to avoid doing running more than one story on the same thing consecutively and looking like it’s got a bee in its bonnet.  It tries to maintain that appearance of impartiality even at the expense of reporting.