vendredi 9 décembre 2011

Future Research Titles


When I grow up...

There are lots of reasons why I'm not doing these pieces of research RIGHT NOW, and most of them are things like: I can't do everything at once / I don't think I'm skilled enough to do that right now / I think I need to develop that idea a bit more / I just have other priorities.

But these are some things that I'd like to, some time in the future, look into.


4-chan
"Meme"-development in 4-chan.
Standard "memes" (pictures, games, etc.), lexic, communication codes and practices.
(On one hand, I do wonder if I should start collecting this corpus before it gets too late (outdated)...)

Forensic linguistics
This was what I wanted my dissertation project to be on (sort-of). What are the distinguishing features of a given person's (written) discourse?


A study on linguistic variation and social identity in the island of Jersey
The island of Jersey is 45 square miles of linguistic diversity.
Kids are born there, grow up there, and by the time they're 15 or 16 might be speaking like they're from Oxford, London, Brighton or Manchester; like they've just come off a beach in Australia or off a TV show in America.
I'm pretty sure this is a phenomenon that exists elsewhere (any given region of the UK, maybe?) but the small, contained, geography, and (it seems to me) lack of a stereotypical, or at least fairly representative sociolect (as you might have in Yorkshire) seem to make it an interesting potential object of study.

In 'sociolect' I'm including accent.

There is a 'Jersey' accent, but it's rare to hear on anyone under the age of 50.
Although, back in the day, a slightly different version of Jerrais was spoken in Gorey (East) from St Ouen (West), the differences today in English are not geographical.

Y'see, there's two (main) parts to this question: accent and lexic. And as fascinating as accent is (for me: generally just in the way of "wow, I love that accent") I'm really not a phonologist of phonetician. I struggle with doing IPA notation - I'm pretty sure I don't have the "ear" and would be pretty terrible at doing transcription.

The lexical part would be great, but maybe it would be even better if it was teamed with someone else (doing the accent part).

Still - there are a lot of preliminary issues. What factors to take into consideration in defining social identity? What corpus to take? How? (Given that the phenomonens studied will vary by situation - who is the speaker talking to, when/why?)

A non-trivial question: would anyone fund this research? Given the attitude of some, it seems difficult to imagine...

jeudi 6 octobre 2011

les donnees


Nous avons affaire à des données semi-structurés - ce qui doit simplifier la tâche de nettoyage. 



Examinons en plus de détail la forme, en prenant quelques exemples tirés du twitter de la chanteuse anglaise Lily Allen.


La forme d'un tweet le plus simple sera simplement du texte, avec, éventuellement, un hashtag.




  • <div class="tweet-text js-tweet-text">Just worked out that I've watched 10.5 full days of ER over the past 6 weeks. <a href="/#!/search?q=%23gross" title="#gross" class=" twitter-hashtag pretty-link" rel="nofollow"><s class="hash">#</s><b>gross</b></a></div>




En fait, le code entier pour un tweet sera :

<div class="js-stream-item stream-item" data-item-id="121529889751973888" data-item-type="tweet" media="true">
    <div class="more">»</div>
<div class="stream-item-content tweet js-actionable-tweet js-stream-tweet stream-tweet  " data-is-reply-to="false" data-tweet-id="121529889751973888" data-item-id="121529889751973888" data-screen-name="MrsLRCooper" data-user-id="16998020">
  <div class="tweet-dogear"></div>
  <div class="tweet-image">
      <img height="48" width="48" src="http://a0.twimg.com/profile_images/1101333870/lily_allen_420-420x0_normal.jpg" alt="lilyrosecooper" class="user-profile-link" data-user-id="16998020">
  </div>
  <div class="tweet-content">
    <div class="tweet-row">
              <span class="tweet-user-name">
  <a class="tweet-screen-name user-profile-link" data-user-id="16998020" href="/#!/MrsLRCooper" title="lilyrosecooper">MrsLRCooper</a>
  <span class="tweet-full-name">lilyrosecooper</span>
  </span>
      <div class="tweet-corner">
        <div class="tweet-meta">
  <span class="icons">
                  <div class="extra-icons">
              <span class="inlinemedia-icons js-icon-container"></span>
        </div>
  </span>
</div>
      </div>
    </div>
    <div class="tweet-row">
      <div class="tweet-text js-tweet-text">Just worked out that I've watched 10.5 full days of ER over the past 6 weeks. <a href="/#!/search?q=%23gross" title="#gross" class="  twitter-hashtag pretty-link" rel="nofollow"><s class="hash">#</s><b>gross</b></a></div>
    </div>
          <div class="tweet-row">
        <a href="/#!/MrsLRCooper/status/121529889751973888" class="tweet-timestamp" title="12:19 PM Oct 5th"><span class="_old-timestamp" data-time="1317809958000" data-long-form="true">5 Oct</span></a>
        <span class="tweet-actions js-actions" data-tweet-id="121529889751973888">
  </span>
      </div>
          </div>
</div>
  
</div>



Mais pour l'instant nous pouvons regarder simplement le <div class="tweet-text js-tweet-text"> , qui contient le texte.




Nous avons aussi des tweets avec une référence "@" :

  • <div class="tweet-text js-tweet-text"><a class=" twitter-atreply pretty-link" data-screen-name="eddychemical" href="/#!/eddychemical" rel="nofollow"><s>@</s><b>eddychemical</b></a> LOLZ !!!!!!!!!</div>
Enfin, le codeage de "@" en soi n'est pas plus compliqué que pour les hashtags.


Des liens liens hyper-textes - pareil :


  • <div class="tweet-text js-tweet-text">Heey check this out, it's <a class="  twitter-atreply pretty-link" data-screen-name="Charliecondou" href="/#!/Charliecondou" rel="nofollow"><s>@</s><b>Charliecondou</b></a> <a href="http://t.co/jQBQmqz1" data-expanded-url="http://www.guardian.co.uk/lifeandstyle/2011/oct/01/coronation-street-charlie-condou-gay-dad?INTCMP=SRCH" title="http://www.guardian.co.uk/lifeandstyle/2011/oct/01/coronation-street-charlie-condou-gay-dad/?INTCMP=SRCH" target="_blank" rel="nofollow" class="twitter-timeline-link" data-ultimate-url="http://www.guardian.co.uk/lifeandstyle/2011/oct/01/coronation-street-charlie-condou-gay-dad/?INTCMP=SRCH">guardian.co.uk/lifeandstyle/2…</a></div>


La seule chose qui diffère beaucoup des ces exemples est les re-tweets :




(Mais je re-edit ce poste plus tard, et, suite à la perte de mon ordinateur, je n'ai plus le code pour ce tweet)


Néanmoins, tout ça, c'est en partant du code html du page web (qui pourrait être obtenu par une méthode assez manuelle). L'autre possibilité c'est de se plonger dans l'api...

idiolectes? sociolectes?



Mettant en question la validité de l'idée des "sociolectes" :
(après un séminaire de JMD)




Contrairement aux travaux de Bernstein (langue et handicap social), il existe des contre-exemples :


1) Études de Blanche-Benveniste, qui a demandé aux petits enfants de jouer des rôles - "la dame snobe", par exemple. Ces enfants se sont montrés capables de sortir des phrases du type "vous vous ne prendrez pas un petit peu de thé" (c'était surement mieux dit, je m'en souviens mal de la citation exacte) - des phrases qui ont montrés une sensibilité au registre approprié à ce personnage, et une capacité de produire des phrases dans les règles du genre.




2) On pourrait imaginer que certaines façons de parler appartient aux personnes bien éduquées, par exemple. Eh bien, il existe (anecdote ? je ne sais pas) des personnes qui n'ont pas eu une grande scolarité, mais ont eu pendant longtemps des responsabilités syndicales, et qui peuvent produire ce discours qu'on croyait appartenir à ces personnes plus scolarisées, et impossible à distinguer d'eux.






Pour ma part....




1)-> Mais on peut aussi trouver, encore, des contre-exemples. Par exemple, des journalistes ou autres personnes "bien éduquées", qui essayent d'imiter la "parler banlieue"... mais qui ne la reuissent pas vraiment ; il y a quelque-chose qui sonne mal. (Voir, par ex. des anglais qui, essayent d'être plus "street", ajoute "innit" à la fin de chaque phrase. Lorsque, étant de la parodie, il est possible que ça soit parfois volontairement raté... je ne suis pas convaincu que cette explication soit suffisant pour tous les cas.)


Bien sûr que nous avons de la flexibilité à traverser des genres et des registres. 


Il faudra, quand même, être un minimum sensible à quoi ressemble ces genres du discours. Donc, il faudra y avoir été exposé. 


Dans la mesure où nous aurions toujours tous des expériences différentes ; avoir été exposés à des échantillons de langues différentes ; il semble raisonnable d'imaginer que ceci créera pour chacun des particularités dans son discours - conscients ou non.




Disons, peut-être, que les particularités individuels sont confiés à l'intérieur d'un genre. Si on peut remarquer les particularités de personne A - et les différences entre personne A et personne B - dans un genre de discours particulier, ceux-ci ne tiendront pas forcement pour d'autres genres. Donc, essayons de se focaliser sur un genre, afin de simplifier la tâche. En récoltant le corpus en fonction du support/contexte/moyen (c.a.d. twitter), est-ce qu'on reste toujours dans un genre? J'espère que oui...

mercredi 5 octobre 2011

To what extent is all of this a good (solid) objet de recherche?

Just had a conversation with JMD, who is a lot more sceptical about the idea of idiolects. (Si je n'ai pas mal compris) "La langue française n'est pas composé de 60 million idiolectes". I think what she was trying to say is that variation is more down to genres de discours.

I think what I need to do is jump into some data fairly quickly, to have something concrete to talk about.


Definitely twitter?



So, I'm thinking... twitter is maybe not the best corpus, really. (See pourquoi twitter?)


Main disadvantages: restraints (character limit) are likely to make the corpus more homogeneous; friendship/social connection data is uncertain.




Other possibilities: 

  • facebook - I felt that the main problem with this would be data rights issues. That being said, I'm not sure that the twitter data is free (to anyone, to do what they want with) either. Of course, there's the justification that it would be for research rather than commercial purposes. On the other hand, the difference between facebook and twitter is that (most) people on facebook protect their data to some extent - making it only available to their friends, for example. If I were to use data accessible from my own facebook account, I would definitely need to ask permission from the (potential) participants.
    The amount of data I could get from facebook would be a lot smaller than that from twitter, but this isn't necessarily an issue. I'm pretty sure that I could still get enough data do some interesting research.

    Main advantages of facebook data: longer individual posts; better data on social connections.
  • blogs - blogs would provide a lot more data per participant, as individual posts are generally longer than on facebook or twitter. However, the type and amount of interaction on blogs is completely different. I feel like the type of social connection data from here would be "less good", but maybe I need to think about it for a while.

  • forums / newspaper comment sections - this is a totally different set-up.
    For one thing, less social connection data. I guess I would have to take all the discourse from one place and say that that's a social group, and take all the discourse from another place and say that that's another. But I could take data from a hacker forum and from a wine lovers' forum and show that there are linguistic differences... what would be the point?


...trying to think of other ideas.

Méthode de travail (planifiée)

Donc, j'aurais besoin de mesurer la similarité stylistique des individus, et leur proximité sociale.


Je regarderais...


Indicateurs de similarité stylistique :
  • Vocabulaire
        -  mots communs au locuteurs (indicateur le plus simple et peut-être le moins intéressant, vue que les personnes avec un lien proche sont susceptibles de parler des mêmes sujets)
    - étendue de vocabulaire
  • Orthographe (choix de tel ou tel variant d'un même mot)
  • Typographie (ponctuation, majusculisation) 
Et, après d'avoir taggué le corpus avec les catégories de mots:
  • Syntaxe 
  • Marqueurs de discours ? (à voir)


Indicateurs de lien :
  • "Abonnement" sur twitter (uni ou bi-directionelle)
  • Communication publique interpersonnelle avec messages "@"
  • "Re-tweets"

Pourquoi twitter?

Donc, je m'intéressais, à la base, à deux choses. Liées, mais différentes:


1) Les particularités du discours d'un individu 
2) Les particularités du discours d'un groupe (qui le différent d'autres groupes)


Pensant que,  pour 2), je pourrais trouver des données intéressants dans des réseaux sociaux, j'ai commencé à penser aux corpus possibles. 


Avantages des réseaux sociaux
Les réseaux sociaux nous donnent des grandes ensembles de données. On peut avoir beaucoup d’énonciations provenant d'un même locuteur.
On peut avoir aussi certains données sur les liens sociaux entre différents locuteurs.



Si on voulait, on pourrait aussi suivre des participants au longueur d'un temps, et essayer de voir émerger / diffuser les particularités linguistiques. Néanmoins, ça ne sera pas dans ce projet-ci.


Twitter
Sur twitter, nous avons la possibilité de récolter beaucoup de données. Des milliards de messages, par des milliards de personnes! Le réseau de chaque personne est parfois très étendu, mais nous avons quelques indicateurs de liens plus proches. Il se trouve que, en construisant une représentation de ce réseau, on pourrait voir émerger des petites groupes de personnes plus proches. Ça sera avec ce genre de données qu'on essayera de comparer les similarités linguistiques.


Il y a quand même quelques inconvénients. On peut utiliser les données sur les  abonnées/abonnements et messages "@" pour avoir une idée des liens sociaux, mais ces indicateurs sont-ils suffisants? 
(Et qu'est-ce qu'est un bon indicateur de lien, enfin?)


En discours, il y a un grande inconvénient - la restriction sur la longueur des messages. Déjà, une restriction à 140 caractères fais que nous avons un discours particulière. Une phrase, une idee, par tweet, en générale. 
Peut-être que ce type de contraint va réduire les différences qui seront autrement présents (peut-être que, dans ces mêmes conditions de restreint, tout le monde finirait par produire des discours assez similaires)


Il est fortement possible aussi que ces contraints amène à des énoncés plus rédigés. Je ne sais pas quel effet ça aura sur la stylistique -- est-ce qu'on trouve plus de variation dans des discours spontanés? (je dirais, à priori, que oui...)


Donc, je pense déjà que twitter n'est pas idéal pour le genre de phénomène que je veux étudier... mais il n'est peut-être pas trop mal pour un premier pas.

Description du projet (1)



Projet : Etudier les corrélations entre liens sociaux et stylistique


C'est à dire : Nous pouvons remarquer, dans les communications d'une personne qu'on connait bien, des particularités dans leur façon de parler (leur idiolecte). Nous pouvons peut-être aussi remarquer des similarités dans la façon de parler des personnes qui se connaissent bien, qui sont proches, qui passent beaucoup de temps ensemble, ou qui s’apprécient... Enfin, qui constituent une sorte de groupe sociale. On pourrait appeler ces particularités communes dans la façon de parler une "sociolecte". 


Est-ce qu'il sera possible, alors, de constater des corrélations entre ces similarités stylistiques, et la proximité sociale des énonciateurs? 


Ceci peut sembler particulièrement clair dans des cas extrêmes. On pourrait prendre, comme deux groupes à comparer, des personnes de différentes niveaux de scolarité, de différentes âges, de différentes statuts socio-économiques... etc. On pourrait essayer de récolter des échantillons de discours dans des situations un peu près pareil (je ne sais pas, la partage d'un repas? des conversations sur un bus? d'accord, ça pose d'autres problèmes, mais..) et on pourrait constater des différences. 


Mais est-ce qu'on peut remarquer des variations de discours dans un contexte comme twitter, en fonction des réseaux proches?




Corpus : Le corpus sera une ensemble de communications fait sur le réseau social Twitter. Il y aura les tweets (texte) et aussi les données des listes de "abonnés" et "abonnements". 




Quelques précisions :



  • J'utilise "parler" ici comme synonyme un peu plus commode que "énoncer". Dans ce projet, je regarderais seulement des communications écrits.
  • "stylistique" j'utilise pour "façon de parler". Il est possible qu'il y ait aussi des définitions plus restrictives de ce terme, dont je suis ignorante. 
  • Oui, nous parlons de façon différente avec différente personnes, ou dans différentes situations. Avec ces façons-de-parler-dans-un-certain-situation par plusieurs personnes, nous avons des genres de discours. Je regarderais ici tous les communications d'une personne, par une seule moyen (twitter), sans (pour l'instant) prendre en compte à qui elle parle, pourquoi, quand, etc. Si, et par quelles façons, les communications Twitter constituent un genre de discours, est une question pour un autre jour.